KR100911619B1

KR100911619B1 - 자동번역 시스템에서의 영어 어휘 패턴 구축 방법 및 장치

Info

Publication number: KR100911619B1
Application number: KR1020070128564A
Authority: KR
Inventors: 노윤형; 김영길; 권오욱; 김창현; 서영애; 양성일; 이기영; 최승권; 김운; 박은진; 오영순; 윤창호; 황영숙
Original assignee: 한국전자통신연구원
Priority date: 2007-12-11
Filing date: 2007-12-11
Publication date: 2009-08-12
Also published as: KR20090061531A

Abstract

본 발명은 자동번역을 위한 영어 어휘 패턴을 구축하는데 있어서, 원시 코퍼스(source corpus)로부터 어휘패턴 후보를 자동으로 추출하고, 추출된 어휘패턴 후보에 대해 사람이 어휘패턴을 구축할 수 있도록 지원하여, 적은 노력으로 필요한 어휘패턴을 구축할 수 있도록 하는 자동번역을 위한 영어 어휘패턴 구축 기술에 관한 것이다. 본 발명은 원시 코퍼스에 대해 품사 태깅(tagging)을 수행하는 태깅 단계, 패턴범위 후보인식 단계, 필터링 단계, 패턴 저장 단계, 빈도수 조정 단계, 어휘 패턴 구축 지원 단계로 구성되는 것을 특징으로 한다.

어휘 패턴, 지식 구축, 기계번역, 구문분석

Description

자동번역 시스템에서의 영어 어휘 패턴 구축 방법 및 장치{METHOD AND APPARATUS FOR CONSTRUCTING VOCABULARY PATTERN OF ENGLISH}

본 발명은 영어 어휘 패턴 구축 기술에 관한 것으로, 특히 영어를 다른 언어로 자동 번역하는데 있어서 적은 노력으로 필요한 어휘 패턴을 구축하는데 적합한 자동번역 시스템에서의 영어 어휘 패턴 구축 방법 및 그 장치에 관한 것이다

본 발명은 정보통신부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-037-02, 과제명: 응용 특화 한중영 자동번역 기술개발].

1950년대 이후부터 기계번역이나 자연언어 구문분석에 대한 많은 연구가 있어왔지만 아직 일반 영역에서의 성능은 실용화하기에는 한계를 나타내고 있다. 특히 영어-한국어와 같이, 어족이 다른 언어들의 경우에는 완벽한 구조분석을 요구할 뿐만 아니라, 대역어도 단어의 조합으로 표현되지 않는 경우가 많기 때문에 번역에 어려움이 있다.

이러한 문제점을 해결하기 위한 종래 기술의 일환으로, 번역지식의 어휘화를 들 수 있다. 즉, 기존의 구문 심볼(symbol)에 의한 규칙 기반의 자동번역에서 개별 어휘에 따른 어휘 규칙 또는 단어 단위가 아닌 구 단위의 번역 패턴 등을 사용하여 매끄러운 번역을 하도록 하는 것이다. 결국, 자동번역의 성능은 그러한 번역 지식을 어떻게 구축하고, 적용하느냐에 따라 결정된다고 할 수 있다.

그런데 그와 같은 방대한 번역지식을 구축하는 데는 많은 비용과 노력이 소요된다. 양국어 코퍼스 등을 이용하여 번역지식의 자동구축에 대한 연구가 있지만, 그에 필요한 충분한 양국어 코퍼스의 확보문제, 자동구축결과의 품질 등의 문제가 있다. 또한 단어간 빈도수 통계를 이용한 다양한 통계적 테스트를 통한 방법들이 있지만, 문법정보 없는 통계만 사용할 때 성능의 한계가 있다.

따라서 사람의 개입을 최소화하면서 쉽게 구할 수 있는 원시 코퍼스(source corpus)로부터 반자동으로 지식을 구축할 수 있는 방법이 고려되어야 한다.

이에 본 발명은, 원시 코퍼스로부터 어휘 패턴 후보를 자동으로 추출하고, 추출된 어휘 패턴 후보에 대해 어휘 패턴을 구축할 수 있도록 지원하여, 적은 노력으로 필요한 어휘 패턴을 구축할 수 있도록 하는 자동번역을 위한 영어 어휘 패턴 구축 기술을 제공하고자 한다.

또한, 본 발명은, 구문분석의 성능향상 및 어휘 패턴 단위의 변환을 통하여 영한 자동번역 장치의 성능을 향상시키고자 한다.

본 발명의 과제를 해결하기 위한 일 관점에 따르면, 대용량의 영어 원시 코퍼스가 저장되는 코퍼스 DB와, 상기 코퍼스 DB로부터 제공되는 대용량의 영어 원시 코퍼스로부터 어휘 패턴 후보를 자동으로 추출하는 어휘 패턴 후보 추출부와, 상기 어휘 패턴 후보 추출부를 통해 추출된 어휘 패턴 후보에 대해 빈도별 또는 패턴 구문 형태, 패턴 길이별, 알파벳순으로 어휘 패턴을 구축하는 어휘 패턴 구축 지원부와, 상기 어휘 패턴 구축 지원부를 통해 구축된 어휘 패턴을 임시 저장하는 어휘 패턴 DB와, 상기 어휘 패턴 DB에 저장된 어휘 패턴에 대해 청킹 패턴 인식, 구문 파싱 및 변환하는 구문 분석 및 변환부와, 상기 구문 분석 및 변환부의 결과에 따 라 최종 어휘 패턴 결과를 생성하는 패턴 생성부를 포함하는 자동번역 시스템에서의 영어 어휘 패턴 구축 장치를 제공한다.

본 발명의 과제를 해결하기 위한 다른 관점에 따르면, 원시 코퍼스에 대해 품사 태깅을 수행하는 단계와, 패턴범위 후보 인식 단계와, 필터링 단계와, 패턴 저장 단계와, 빈도수 조정 단계와, 어휘 패턴 구축 지원 단계를 포함하는 자동번역 시스템에서의 영어 어휘 패턴 구축 방법을 제공한다.

본 발명에 의하면, 대량의 원시 코퍼스(source corpus)에서 효과적으로 어휘 패턴을 구축할 수 있도록 하고, 이러한 어휘 패턴을 자동번역에 활용함으로써 구문 분석 및 자동번역의 성능을 높이는 효과를 얻을 수 있다. 또한, 본 발명은 문법정보와 단순빈도수를 사용하기 때문에 대량의 코퍼스로부터 문법단위에 맞는 어휘 패턴을 효과적으로 추출할 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명한다.

도 1은 본 발명의 일 관점에 따른 자동번역 시스템에서의 영어 어휘 패턴 구축 장치에 대한 구성 블록도로서, 코퍼스 DB(corpus Data-Base)(100), 어휘 패턴 후보 추출부(102), 어휘 패턴 구축 지원부(104), 어휘 패턴 DB(106), 태 깅(tagging)부(108), 청킹(chunking) 패턴 인식부(110), 구문 파싱(parsing)부(112), 변환 및 생성부(114)를 포함한다.

코퍼스 DB(100)에는 대용량의 영어 원시 코퍼스(source corpus)가 저장되며, 이러한 영어 원시 코퍼스는 어휘 패턴 후보 추출부(102)로 제공된다.

어휘 패턴 후보 추출부(102)는 상기 코퍼스 DB(100)로부터 제공되는 대용량의 영어 원시 코퍼스로부터 어휘 패턴 후보를 자동으로 추출하여 어휘 패턴 구축 지원부(104)로 제공하는 기능을 수행한다.

어휘 패턴 구축 지원부(104)는 상기 어휘 패턴 후보 추출부(102)를 통해 추출된 어휘 패턴 후보에 대해 빈도별 또는 패턴 구문 형태, 패턴 길이별, 알파벳순으로 표시해주고, 해당하는 어휘 패턴 후보에 대한 예문을 출력해줌으로써 사람이 쉽게 어휘 패턴을 선정하고 구축할 수 있도록 지원해준다. 여기서 구축된 어휘 패턴은 어휘 패턴 DB(106)에 임시 저장되며, 저장된 어휘 패턴은 청킹 패턴 인식부(110), 구문 파싱부(112) 및 변환 및 생성부(114)로 제공되어 자동번역 장치의 구문 분석 및 변환에 이용된다.

태깅부(108)는 입력되는 원시 코퍼스를 품사 태깅하는 역할을 하며, 청킹 패턴 인식부(110)는 어휘 패턴 DB(106)로부터 제공되는 어휘 패턴에 대해 프로텍터(protector)와 프로텍터 사이의 구문을 NP(Noun Phrase : 명사구)로 치환하여 그에 따른 패턴을 구성하도록 한다(예를 들면, accuse NP of). 여기서, 프로텍터란 전치사|동사|접속사|조동사|COMMA를 의미한다.

구문 파싱부(112)는 특정한 구문 품사로 이루어진 구문 패턴에 대한 범위를 인식하는 역할을 한다.

변환 및 생성부(114)는 기 추출된 패턴에 대해 필터링 작업을 수행하고, 빈도수, 패턴의 구문 형태, 청킹 패턴 여부 등의 정보와 함께 최종 어휘 패턴 결과를 생성하는 역할을 한다.

이하, 상술한 구성과 함께, 본 발명의 다른 관점에 따른 자동번역 시스템에서의 영어 어휘 패턴 구축 방법을 첨부한 도 2 및 도 3의 흐름도를 참조하여 상세하게 설명하기로 한다.

먼저, 도 2는 어휘 패턴 후보 추출부(102)에서 원시 코퍼스를 이용하여 자동으로 어휘 패턴 후보를 추출하는 과정을 나타낸다.

도 2에 도시한 바와 같이, 원시 코퍼스가 입력되면(S200) 원시 코퍼스를 품사 태깅하고(S202), 패턴범위 후보 인식 단계(S204)에서는 품사 및 단어의 원형을 이용하여 어휘 패턴이 될 수 있는 가능한 범위를 인식한다.

단순하게 일반적인 엔그램(N-gram) 및 빈도수에 의해 패턴을 추출할 경우, "is_a, we_also, that_of"와 같은 의미 없는 패턴이 생성될 수 있고, 이러한 패턴 후보들은 패턴 구축 작업의 효율을 떨어뜨린다. 따라서 패턴 후보 추출에 있어서 가장 중요한 요건은 문법단위를 인식하여 의미 없는 패턴들을 제거하고, 가장 가능성 있는 패턴을 사람에게 제시함으로써 사람의 노력을 최소화할 수 있도록 하는 것이다.

이를 위해, 패턴 범위 후보 인식 단계(S204)는, 도 3에 도시한 바와 같이, 태깅 결과로부터 경계 조건에 의한 인식 단계(S300), 구문 패턴에 의한 인식 단 계(S302), 기 추출된 패턴에 대한 기본 명사구 청킹 단계(S304), 상기 인식 단계(S300, S302) 및 청킹 단계(S304)를 통해 패턴 후보를 인식하는 단계(S306)를 포함한다.

경계 조건에 의한 인식 단계(S300)에서는, 다음과 같은 패턴 시작 조건중 하나라도 만족하는 지점을 시작점으로 하고 패턴 끝점 조건중 하나라도 만족하는 지점을 끝점으로 하는 범위를 패턴 후보 범위로 인식한다.

<패턴 시작 조건>

1. 전치사|동사|접속사를 시작점으로 인식, 여기서 "A|B"는 A 또는 B를 의미함.

2. 동사_형용사_전치사의 형태에서 형용사를 시작점으로 인식, 여기서 '_'는 단어가 순차적으로 나열되어 있음을 의미함.

3. "it_be", "there_be"와 같은 특정 어휘열을 시작점으로 인식.

<패턴 끝점 조건>

1. 전치사|접속사를 끝점으로 인식.

2. 명사|숫자_동사|종속접속사|조동사|전치사의 형태에서 첫 번째 단어를 끝점으로 인식.

3. PRT로 끝나는 위치를 패턴 범위의 끝점으로 인식, 여기서 PRT는 particle로 쓰이는 단어(예를 들면, in, out, up, on, down, off, about, away, apart, back, along, around, across, aside, ahead, over, through, together 등)를 의미함.

구문 패턴에 의한 인식 단계(S302)에서는 특정한 구문 품사로 이루어진 범위를 인식한다. 영어 어휘 패턴을 위한 구문 패턴의 예는 다음과 같다.

1. 명사_and|by_명사, 동사_and|by_동사, 부사_and|by_부사, 여기서 두 품사의 어휘는 동일함(예컨대, step by step, again and again).

2. COMMA_전치사|종속접속사|대명사|의문사_X+_COMMA, 여기서 X+는 X가 한 번 이상 나오는 경우이고, X는 "수사, 외국어, 심볼, 고유명사"가 아닌 임의의 어휘 (예컨대, ", as you know ,")

기본 명사구 청킹 단계(S304)에서는, 앞에서 추출된 패턴에 대해 프로텍터와 프로텍터 사이의 구문을 NP로 치환하여 그에 따른 패턴을 구성하도록 한다(예를 들면, accuse NP of). 여기서 프로텍터란 전치사|동사|접속사|조동사|COMMA를 의미한다.

이와 같은 경계 조건에 의한 인식 단계(S300), 구문 패턴에 의한 인식 단계(S302), 기본 명사구 청킹 단계(S304)를 통해 패턴 후보가 인식된다(S306).

한편, 다시 도 2를 참조하면, 필터링 단계(S206)에서는 기 추출된 패턴에 대해 다음과 같은 조건을 부여하여 필터링 작업을 수행한다.

1. 전치사_전치사(예컨대, in_on)

2. 전치사_명사(예컨대, by_means)

3. 형용사|동사_부정사 to|that(부정사 to는 to 다음에 동사구가 나오는 경우를 말함.)(예컨대, say_that, difficult_to)

4. 과거분사_by(예컨대, made_by)

5. 명사_of(예컨대, term_of)

6. 패턴의 어휘의 품사가 고유명사|외국어|심볼인 경우(예컨대, NGF_within, O-6_by)

7. 패턴이 전치사, 대명사, COMMA, NP로만 이루어진 경우(예컨대, for_it, in_NP_of)

위에서 생성된 패턴은 DB에 빈도수 정보와 함께 저장된다(S208). 저장할 때는 빈도수, 패턴의 구문 형태, 청킹 패턴 여부 등의 정보를 함께 저장한다. 패턴의 구문 형태는 패턴의 맨 첫 단어의 품사에 의해 구분된다. 즉, "with_respect_to, for_use_in" 등은 전치사로 시작하는 구문 형태이고, "play_NP_in, reduce[VN]_to" 등은 동사로 시작하는 구문 형태이며, "consistent_with, sensitive_to" 등은 형용사로 시작하는 구문 형태이다.

청킹 패턴 여부는 특정 어휘 패턴이 문맥에 상관없이 항상 하나의 패턴으로 묶어도 되는 경우인지 아닌지에 따라 결정된다. 예를 들어 "in_spite_of"의 경우 모호성 없이 거의 대부분 하나의 단위로 묶을 수 있는 반면, "apply_for, on_the_surface"와 같은 경우 주위 문맥에 따라 하나의 패턴으로 묶일지 아닐지 모호성이 있다. 청킹 패턴 여부인지를 결정하는 기준은, "전치사_X+_전치사, 동사_명사_of"와 같은 특정 구문 형태 여부로 판정한다.

전체 코퍼스에 대한 처리가 수행되면, 최종 빈도수가 구해지고, 빈도수 조정단계(S210)에서는 먼저 특정 빈도수 N이상의 패턴에 대해, 해당 패턴의 부분패턴에 서 해당 빈도수를 차감하여 준다.

예를 들어, "in spite of"의 빈도수가 1,000이고, 그 부분 패턴 "in spite"의 빈도수가 1,050이면, ""in spite"의 빈도수에서 "in spite of"의 빈도수를 빼준다. 따라서 "in spite"의 빈도수는 50이 되고, "in spite"는 대부분 "in spite of"로 쓰이는 걸로 보고 나중에 빈도수에 의한 우선순위를 떨어뜨리도록 한다.

이와 같은 과정을 통해 최종 어휘 패턴 후보가 추출된다(S212).

최종 어휘 패턴 결과는, 다음 예시와 같이, <빈도수> <구문형태> <어휘패턴> <청킹 패턴 여부>로 표시되며, 여기서 [VN]은 동사가 과거분사임을 의미한다.

115334 <I3>in_order_to@

67935 <P4>it_be_shown_that

61882 <I3>with_respect_to@

60860 <V2>apply[VN]_to

59730 <V3>play_NP_in

53573 <J2>consistent_with

이상 설명한 바와 같이, 본 발명은 원시 코퍼스로부터 어휘 패턴 후보를 자동으로 추출하고, 추출된 어휘 패턴 후보에 대해 어휘 패턴을 구축할 수 있도록 지원하여, 적은 노력으로 필요한 어휘 패턴을 구축할 수 있게 구현한 것이다.

한편, 본 발명의 실시예에 대해 상세히 기술하였으나 본 발명은 이러한 실시예에 국한되는 것은 아니며, 후술하는 청구범위에 기재된 본 발명의 기술적 사상과 범주 내에서 당업자로부터 여러 가지 변형이 가능함은 물론이다.

도 1은 본 발명의 일 관점에 따른 자동번역 시스템에서의 영어 어휘 패턴 구축 장치의 개략적인 구성 블록도,

도 2는 본 발명의 다른 관점에 따른 자동번역 시스템에서의 영어 어휘 패턴 구축 방법을 설명하는 흐름도,

도 3은 도 2의 패턴범위 후보 인식 단계를 상세히 나타낸 흐름도.

<도면의 주요 부분에 대한 부호의 설명>

100 : 코퍼스 DB 102 : 어휘 패턴 후보 추출부

104 : 어휘 패턴 구축 지원부 106 : 어휘 패턴 DB

108 : 태깅부 110 : 청킹 패턴 인식부

112 : 구문 파싱부 114 : 변환 및 생성부

Claims

입력되는 원시 코퍼스에 대해 품사 태깅을 수행하는 태깅 단계와,

상기 품사 태깅에 의한 품사 및 단어의 원형을 이용하여 어휘 패턴이 될 수 있는 가능한 범위를 인식하는 패턴 범위 후보 인식 단계와,

기 추출된 패턴에 대해 필터링 작업을 수행하는 필터링 단계와,

상기 필터링 작업에 의해 생성된 패턴을 빈도수 정보와 함께 저장하는 패턴 저장 단계와,

상기 빈도수 정보를 조정하는 빈도수 조정 단계와,

상기 태깅 단계, 패턴 범위 후보 인식 단계, 필터링 단계, 패턴 저장 단계 및 빈도수 조정 단계를 거친 최종 어휘 패턴 후보를 추출하는 어휘 패턴 구축 지원 단계

를 포함하는 자동번역 시스템에서의 영어 어휘 패턴 구축 방법.
제 1 항에 있어서,

상기 패턴 범위 후보 인식 단계는,

상기 태깅 단계의 결과에 대해, 시작점 및 끝점의 구문 조건에 의해 패턴 범위를 인식하는 경계 조건에 의한 인식 단계와,

특정 구문패턴에 의해 패턴 범위를 인식하는 구문 패턴에 의한 인식 단계와,

기인식된 패턴에 대해 기본명사구를 청킹하여 패턴을 생성하는 기본명사구 청킹 단계

를 포함하는 자동번역 시스템에서의 영어 어휘 패턴 구축 방법.
제 1 항에 있어서,

상기 필터링 단계는,

특정 구문 형태 및 패턴의 구성 노드의 종류에 의해 기인식된 어휘 패턴을 필터링하는 것을 특징으로 하는 자동번역 시스템에서의 영어 어휘 패턴 구축 방법.
제 1 항에 있어서,

상기 빈도수 조정 단계는,

특정 빈도수 N이상의 패턴에 대해, 해당 패턴의 부분 패턴에서 해당 패턴의 빈도수를 차감하여 주는 것을 특징으로 하는 자동번역 시스템에서의 영어 어휘 패턴 구축 방법.
제 1 항에 있어서,

상기 어휘 패턴 구축 지원 단계는,

추출되는 상기 최종 어휘 패턴 후보에 대해 빈도별 또는 패턴 구문 형태, 패턴 길이별, 알파벳순으로 표시해 주고, 해당하는 어휘 패턴 후보에 대한 예문을 출력하는 것을 특징으로 하는 자동번역 시스템에서의 영어 어휘 패턴 구축 방법.
대용량의 영어 원시 코퍼스(source corpus)가 저장되는 코퍼스 DB와,

상기 코퍼스 DB로부터 제공되는 대용량의 영어 원시 코퍼스로부터 어휘 패턴 후보를 자동으로 추출하는 어휘 패턴 후보 추출부와,

상기 어휘 패턴 후보 추출부를 통해 추출된 어휘 패턴 후보에 대해 빈도별 또는 패턴 구문 형태, 패턴 길이별, 알파벳순으로 어휘 패턴을 구축하는 어휘 패턴 구축 지원부와,

상기 어휘 패턴 구축 지원부를 통해 구축된 어휘 패턴을 임시 저장하는 어휘 패턴 DB와,

상기 어휘 패턴 DB에 저장된 어휘 패턴에 대해 청킹 패턴 인식, 구문 파싱 및 변환하는 구문 분석 및 변환부와,

상기 구문 분석 및 변환부의 결과에 따라 최종 어휘 패턴 결과를 생성하는 패턴 생성부

를 포함하는 자동번역 시스템에서의 영어 어휘 패턴 구축 장치.
제 6 항에 있어서,

상기 장치는,

입력되는 원시 코퍼스를 품사 태깅하는 태깅부와,

상기 어휘 패턴 DB로부터 제공되는 어휘 패턴에 대해 프로텍터(protector)와 프로텍터 사이의 구문을 명사구로 치환하는 청킹 패턴 인식부와,

특정한 구문 품사로 이루어진 구문 패턴에 대한 범위를 인식하는 구문 파싱부

를 더 포함하는 자동번역 시스템에서의 영어 어휘 패턴 구축 장치.
제 6 항에 있어서,

상기 어휘 패턴 구축 지원부는,

상기 어휘 패턴 후보 추출부를 통해 추출된 어휘 패턴 후보에 대해 빈도별 또는 패턴 구문 형태, 패턴 길이별, 알파벳순으로 표시해 주고, 해당하는 어휘 패턴 후보에 대한 예문을 출력하는 것을 특징으로 하는 자동번역 시스템에서의 영어 어휘 패턴 구축 장치.