KR100511409B1

KR100511409B1 - 기계번역을 위한 번역단위 추출/검색장치 및 방법

Info

Publication number: KR100511409B1
Application number: KR10-2003-0095250A
Authority: KR
Inventors: 윤승; 이영직
Original assignee: 한국전자통신연구원
Priority date: 2003-12-23
Filing date: 2003-12-23
Publication date: 2005-08-31
Also published as: KR20050063990A

Abstract

본 발명은 기계번역을 위한 번역단위 추출/검색장치 및 방법에 관한 것으로, 코퍼스에서 기계번역의 기본단위가 되는 형태소 연쇄열을 추출하고, 이들을 검색해 내어 번역을 요하는 입력문장의 기계번역 수행과정에서 번역단위를 이용한 번역을 수행함으로써 번역 성공률을 높일 수 있도록 하는 것이다.

이에, 본 발명은 코퍼스를 대상으로 문장의 형태소를 분석하고, 상기 형태소 분석결과에 의해 번역단위 후보를 검색하여 결과를 저장하고 빈도를 기록하는 번역단위 후보 추출모듈과, 상기 번역단위 후보 추출모듈의 번역단위 후보들로부터 기본 번역단위를 선정하고, 선정된 기본 번역단위를 저장하는 기본 번역단위 선정/저장모듈 및 입력문장에서 형태소를 분석하고, 기본 번역단위 데이터베이스로부터 상기 입력문장의 기본 번역단위를 찾아내는 온라인 번역단위 검색모듈로 구성되는 것을 특징으로 한다.

Description

기계번역을 위한 번역단위 추출/검색장치 및 방법{TRANSLATION UNIT EXTRACTION AND SEARCH DEVICE FOR MACHINE TRANSLATION AND METHOD USING IT}

본 발명은 기계번역을 위한 번역단위 추출 및 검색장치와 이를 이용한 번역단위 추출 및 검색방법에 관한 것으로, 더욱 상세하게는 기계번역 수행과정에서 번역 성공률을 높이기 위하여 코퍼스에서 미리 번역에 이용할 번역단위들을 추출해낸 다음, 이를 번역을 필요로 하는 입력문장에서 찾아내어 다음 단계의 번역과정에서 이용할 수 있도록 하는 것이다.

종래의 기계번역 시스템은 주로 변환방식의 번역방법을 택해왔다.

상기 변환방식은 입력문장에 대하여 형태소분석, 구문분석, 생성과정을 거치면서 대역문을 만들어내는 방법으로써, 단순한 문장의 경우에는 처리시 어려움이 없으나 문장이 길어지면 길어질수록 가능한 구조의 수가 많아지기 때문에 옳은 구문분석 결과를 내놓기 어려우며 이에 따라, 상기 대역문의 품질도 저하되는 문제가 있다.

또한, 최근에는 코퍼스에 기반한 통계기반 기계번역 시스템이나 예제기반 기계번역 시스템도 개발되고 있으나, 상기 예제기반 기계번역 시스템의 경우 보통 문장을 하나의 예제로 처리함에 따라 문장의 길이가 길어질수록 일치하는 예제를 발견하기 어려운 문제가 있으며, 상기 통계기반 기계번역 시스템의 경우에도 문장의 길이가 길어져 한 문장내의 단어의 수가 많아지면 이를 번역했을 경우에 단어의 재배열이 어렵게 되는 문제가 있다.

따라서, 본 발명은 상술한 종래의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 코퍼스에서 문장단위로 모든 가능한 번역단위 후보들을 추출해 내는 모듈과, 추출해 낸 번역단위 후보들을 대상으로 빈도를 계산해 이후 번역에 이용될 번역단위들을 데이터베이스로 저장하는 모듈 및 상기 기계번역 과정에서 번역단위들을 입력문장에서 찾아내는 모듈로 구성되어 문장의 길이에 영향을 받지 않고 기계번역이 이루어져 번역의 성공률을 높일 수 있도록 하는 기계번역을 위한 번역단위 추출/검색장치 및 방법을 제공하는데 있다.

상기와 같은 본 발명의 목적을 달성하기 위한 기계번역을 위한 번역단위 추출/검색장치는, 코퍼스를 대상으로 문장의 형태소를 분석하고, 상기 형태소 분석결과에 의해 번역단위 후보를 검색하여 결과를 저장하고 빈도를 기록하는 번역단위 후보 추출모듈과, 상기 번역단위 후보 추출모듈의 번역단위 후보들로부터 기본 번역단위를 선정하고, 선정된 기본 번역단위를 저장하는 기본 번역단위 선정/저장모듈 및 입력문장에서 형태소를 분석하고, 기본 번역단위 데이터베이스로부터 상기 입력문장의 기본 번역단위를 찾아내는 온라인 번역단위 검색모듈로 구성된다.

상기와 같은 본 발명의 목적을 달성하기 위한 기계번역을 위한 번역단위 추출/검색방법은, (a)번역을 요하는 입력문장을 읽어 들인 후, 상기 입력문장에서 형태소를 분석하는 단계와, (b)상기 기본 번역단위 선정 및 저장모듈에 의해 생성된 기본 번역단위 데이터베이스로부터 기본 번역단위를 순서대로 하나씩 읽어들이는 단계와, (c)상기 기본 번역단위 데이터베이스에 저장된 기본 번역단위의 검색과정이 완료되었는지 판단하여, 검색과정이 완료되었을 경우, 상기 기본 번역단위와 일치하는 부분이 상기 입력문장에 있는가 판단하는 단계, (d)상기 기본 번역단위와 일치하는 부분이 상기 입력문장에 존재하는 경우, 상기 문장에 일치하는 부분을 표시하는 단계로 이루어진다.

이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명에 따른 기계번역을 위한 번역단위 추출 및 검색장치의 구성도이다.

도 1에 도시된 바와 같이 상기 번역단위 추출 및 검색장치는 크게 코퍼스(10)를 대상으로 문장의 형태소를 분석하고, 상기 형태소 분석결과에 의해 번역단위 후보를 검색하여 결과를 저장하고 빈도를 기록하는 번역단위 후보 추출모듈(20)과, 상기 번역단위 후보 추출모듈(20)의 번역단위 후보들로부터 기본 번역단위를 선정하고, 선정된 기본 번역단위를 저장하는 기본 번역단위 선정/저장모듈(30) 및 입력문장에서 형태소를 분석하고, 기본 번역단위 데이터베이스(33)로부터 상기 입력문장의 기본 번역단위를 찾아내는 온라인 번역단위 검색모듈(50)로 구성된다.

먼저, 상기 번역단위 후보 추출모듈(20)은 코퍼스(10)를 대상으로 각 어절마다 형태소를 분석하고, 상기 형태소의 품사를 결정하는 형태소 분석부(21)와, 상기 형태소 분석결과의 각 문장마다 공백문자를 기준으로 번역단위 경계를 결정하고, 상기 번역단위 경계를 근거로 상기 문장에서 생성할 수 있는 경우의 수를 계산하여, 상기 경우의 수만큼 번역단위 후보를 생성하는 번역단위 후보 검색부(22) 및 상기 번역단위 후보 검색부(22)에서 검색된 번역단위 후보를 번역단위 후보 데이터베이스(23)에 저장하고 빈도를 기록하는 번역단위 후보 저장부(24)를 포함하여 구성된다.

또한, 상기 기본 번역단위 선정/저장모듈(30)은 상기 번역단위 후보 저장부(24)에서 저장한 번역단위 후보 데이터베이스(23)를 검색하여, 한국어의 경우에는 용언, 서술격 조사, 동사, 파생 접미사, 각종 기호류 등이 번역단위 처음이나 중간에 위치하고 있는 경우와 의존명사가 번역단위의 처음에 위치하고 있는 경우 번역단위 후보를 제거하고, 영어의 경우에는 의문 한정사, 의문 부사 등이 번역단위 중간이나 마지막에 위치하고 있는 경우와, 각종 기호류가 번역단위 처음이나 중간에 위치하고 있는 경우 및 전치사가 번역단위 마지막에 위치하고 있는 경우에 번역단위 후보를 제거하는 번역단위 후보 제거부(31)와, 상기 번역단위 후보 제거부(31)에 의해 잘못된 번역단위 후보들이 제거된 번역단위 후보 데이터베이스(23)로부터 번역단위 후보들을 읽어들여 고빈도의 번역단위를 기본 번역단위로 선정하는 기본 번역단위 선정부(32) 및 상기 기본 번역단위 선정부(32)에 의해 선정된 고빈도 번역단위들을 기본 번역단위 데이터베이스(33)에 저장하는 기본 번역단위 저장부(34)로 구성된다.

여기서, 상기 기본 번역단위 선정부(32)는 상기 번역단위 후보들의 빈도를 계산시, 번역단위 후보 데이터베이스(23) 전체를 한꺼번에 계산하지 않고, 번역단위 내부의 형태소 수를 기준으로 각 번역단위를 그룹으로 묶어 빈도를 계산한다.

예를 들어, 가장 긴 번역 단위 그룹의 경우는 해당 번역단위 중 상위 5%정도까지, 내부 형태소의 수가 2인 가장 짧은 번역단위 그룹의 경우 상위 2.5%정도까지만 단계적으로 수를 줄여나가며 기본 번역단위에 포함시킨다.

물론, 기본 번역단위에 포함시키는 후보를 결정하는 경계는 상기 코퍼스(10)의 크기와 성격에 따라 달라질 수 있다.

또한, 상기 온라인 번역단위 검색모듈(50)은 번역대상 문장이 입력되면 번역대상 입력문장에서 각 어절마다 형태소를 분석하고, 상기 형태소의 품사를 결정하는 형태소 분석부(51)와, 상기 기본 번역단위 선정/저장모듈(30)에 의해 형성된 기본 번역단위 데이터베이스(33)를 이용하여 상기 번역대상 입력문장에 해당 기본 번역단위가 존재하는지 검색하고, 상기 기본 번역단위가 존재할 경우, 해당 기본 번역단위를 문장에 표시하는 온라인 기본 번역단위 검색부(52)로 구성되며, 상기 온라인 기본 번역단위 검색부(52)에 의해 기본 번역단위를 문장에 표시해 이후 번역과정에서 기본 번역단위를 번역에 이용할 수 있도록 한다.

도 2는 본 발명에 따른 번역단위 후보 추출모듈의 번역단위 후보 데이터베이스 생성과정을 나타낸 흐름도이다.

도 2에 도시된 바와 같이, 상기 번역단위 후보 데이터베이스의 생성과정을 보다 상세하게 설명하면 다음과 같다.

먼저, 코퍼스(10)의 첫 문장부터 순서대로 한 문장씩 문장단위로 읽어들여 마지막 문장까지 다 읽어들인다(S100).

그런 다음, 상기 읽어들인 문장이 상기 코퍼스(10)의 마지막 문장인가를 판단하여(S110), 더 이상 읽어 올 문장이 없으면 모듈의 동작은 종료되고, 마지막 문장이 아닐 경우, 상기 번역단위 후보 추출모듈(20)의 형태소 분석부(21)에 의해 문장내의 형태소를 분석하고(S120), 전체 형태소의 수를 계산한다(S130).

예를 들어, 상기 코퍼스(10)로부터 읽어들인 문장이 <차는 연료 탱크를 가득 채운 상태로 반납해 주십시오> 일 경우, 분석된 형태소는 < 차/ncn+는/jxt 연료/ncn 탱크/ncn+를/jco 가득/mag 채우/pvg+ㄴ/etm 상태/ncn+로/jca 반납/ncpa+해/xsv 주/px+시/ep+ㅂ시오/ef>가 된다.

이어서, 상기 계산된 전체 형태소의 수가 2 이상인가를 판단하여(S140), 상기 전체 형태소의 수가 2 이상인 경우 상기 형태소 연쇄열 전체를 번역단위 후보 데이터베이스(23)에 저장한다(S150).

즉, 상기 예문에서 볼 때, 상기 예문의 경우, 전체 형태소의 수는 15개이기 때문에 상기 < 차/ncn+는/jxt 연료/ncn 탱크/ncn+를/jco 가득/mag 채우/pvg+ㄴ/etm 상태/ncn+로/jca 반납/ncpa+해/xsv 주/px+시/ep+ㅂ시오/ef> 전체가 통째로 하나의 번역단위 후보가 되는 것이다.

이때, 상기 전제 형태소의 수가 2보다 작으면 번역단위가 될 수 없으므로 현재 문장의 처리를 종료하고, 다음 문장을 읽어들인다.

계속해서, 상기 번역단위 후보 데이터베이스(23)에 저장된 전체 형태소의 수(예문의 경우 15개)에서 하나씩을 빼내고(남은 형태소의 수 14개)(S160), 남은 형태소의 수가 2 이상인가를 판단하여(S170), 상기 남은 형태소의 수가 2 이상인 경우, 현재 형태소의 수를 기본 단위로 모든 가능한 번역 단위를 찾아낸다(S180).

상기 예문의 경우에는 두 가지 번역단위를 찾아낼 수 있다.(형태소의 수의 합이 14가 될 수 있은 연쇄들)

첫 번째 ; 번역단위 14-1 : <는/jxt 연료/ncn 탱크/ncn+를/jco 가득/mag 채우/pvg+ㄴ/etm 상태/ncn+로/jca 반납/ncpa+해/xsv 주/px+시/ep+ㅂ시오/ef>

두 번째 ; 번역단위 14-2 : <차/ncn+는/jxt 연료/ncn 탱크/ncn+를/jco 가득/mag 채우/pvg+ㄴ/etm 상태/ncn+로/jca 반납/ncpa+해/xsv 주/px+시/ep>

그런 다음, 상기 찾아낸 번역단위(번역단위 14-1, 번역단위 14-2)가 상기 번역단위 후보 데이터베이스(23)에 이미 존재하는지 판단하여(S190), 동일한 번역단위가 존재하는 경우에는, 발생빈도를 기록하고(S200), 동일한 번역단위가 존재하는 않는 경우에는, 상기 기본 번역단위 후보 데이터베이스(33)에 번역단위를 저장한다(S210).

상기 예문의 경우에는, 첫 번째 문장으로 상기 번역단위 후보 데이터베이스(23)에 동일한 것이 이미 기록되어 있지 않을 경우, 상기 번역단위 14-1, 번역단위 14-2를 모두 저장할 수 있다.

계속해서, 상기 남은 형태소의 수가 2이상일 경우(S220), 상기 S160에서부터 S220을 반복 실행하게 된다.

도 3은 본 발명에 따른 기본 번역단위 선정/저장모듈의 기본 번역단위 데이터베이스 생성과정을 나타낸 흐름도이다.

도 3을 참조하여, 상기 기본 번역단위 데이터베이스(33) 생성과정을 보다 상세하게 설명하면 다음과 같다.

먼저, 상기한 번역단위 후보 추출모듈(20)에 의해 생성된 번역단위 후보 데이터베이스(23)로부터 번역단위 후보들을 읽어들인 다음(S300), 상기 읽어들인 번역단위 후보들에서 번역단위 제외대상이 존재하는가 판단하여(S310), 제외 대상이 존재하는 경우, 상기 제외 대상을 제거한다(S320).

즉, 상기한 예문에서는 '시/ep+시오/ef'와 같이 어미로 시작되는 번역단위라던가 아니면 '는/jxt 연료/ncn'과 같이 보조사로 시작되는 번역 단위 또는 '차/ncn+는/jxt 연료/ncn 탱크/ncn+를/jco 가득/mag'과 같이 부사로 끝나는 번역 단위(참고로, 한국어에서 부사는 보통 뒤에 오는 용언을 수식한다.)등이 제거되게 된다.

이어서, 상기 번역단위 내의 형태소 수 기준 발생빈도를 계산하여(S330), 고빈도의 번역단위를 기본 번역단위로 선정하여 상기 기본 번역단위 데이터베이스(33)에 저장한다(S340).

이는 상기한 도 2에 설명된 바와 같이, 상기 코퍼스(10) 내의 모든 문장을 처리하고 나면 번역 단위마다 상기 코퍼스(10) 내에서 몇 번 출현했는지 기록이 되어, 이 빈도를 가지고 각 번역 단위마다 적정 고빈도를 결정하게 되는 것이다.

도 4는 본 발명에 따른 기계번역을 위한 번역단위 추출 및 검색방법의 흐름도이다.

도 4를 참조하여, 본 발명의 번역단위 추출 및 검색방법을 상세하게 설명하면 다음과 같다.

먼저, 번역을 요하는 입력문장을 읽어 들인 후(S400), 상기 입력문장에서 형태소를 분석한다(S410).

그런 다음, 상기 도 3에서 설명된 바와 같이 기본 번역단위 선정 및 저장모듈(30)에 의해 생성된 기본 번역단위 데이터베이스(33)로부터(S420) 기본 번역단위를 순서대로 하나씩 읽어들인다(S430).

이때, 상기 기본 번역단위 데이터베이스(33)에 저장된 기본 번역단위의 검색과정이 완료되었는지 판단하여(S440), 검색과정이 완료되었을 경우, 문장을 출력하고(S450), 상기 검색과정이 완료되지 않았을 경우, 상기 기본 번역단위와 일치하는 부분이 상기 입력문장에 있는가 판단한다(S460, S470).

여기서, 상기 기본 번역단위와 일치하는 부분이 상기 입력문장에 존재하는 경우, 상기 문장에서 일치되는 부분을 표시한다(S480).

본 발명의 예문을 들어 설명하면, 다음의 < >부분이 기본 번역 단위로 선정된 것들 중 문장과 일치된 부분이라 할 수 있다.

예문 : 차/ncn+는/jxt <연료/ncn 탱크/ncn+를/jco 가득/mag 채우/pvg+ㄴ/etm 상태/ncn>+로/jca <반납/ncpa+해/xsv 주/px>+시/ep+ㅂ시오/ef

이처럼, 상기 일치하는 부분에 특정표시를 해줌으로써 중복검색을 방지할 수 있어, 기계번역 과정의 복잡성을 줄일 수 있게 되는 것이다.

이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 또한 설명하였으나, 본 발명은 상기한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것을 물론이고, 그와 같은 변경은 기재된 청구범위 내에 있게 된다.

이상에 설명한 바와 같이 본 발명에 의하면, 번역과정에서 기본 번역단위를 제공하여 번역이 기본 번역단위를 기준으로 이루어지도록 함으로써, 기계번역 과정의 복잡성을 줄일 수 있는 효과가 있다.

또한, 본 발명은 다양한 기계번역 시스템에 적용되어 번역 성공률을 향상시키는 효과가 있다.

도 1은 본 발명에 따른 기계번역을 위한 번역단위 추출 및 검색장치의 구성도,

도 2는 본 발명에 따른 번역단위 후보 추출모듈의 번역단위 후보 데이터베이스 생성과정을 나타낸 흐름도,

도 3은 본 발명에 따른 기본 번역단위 선정/저장모듈의 기본 번역단위 데이터베이스 생성과정을 나타낸 흐름도,

<도면의 주요 부분에 대한 부호의 설명>

10 : 코퍼스 20 : 번역단위 후보 추출모듈

21 : 형태소 분석부 22 : 번역단위 후보 검색부

23 : 번역단위 후보 데이터베이스 24 : 번역단위 후보 저장부

30 : 기본 번역단위 선정/저장모듈 31 : 번역단위 후보 제거부

32 : 기본 번역단위 선정부 33 : 기본 번역단위 데이터베이스

34 : 기본 번역단위 저장부 40 : 번역대상 문장

50 : 온라인 번역단위 검색모듈 51 : 형태소 분석부

52 : 온라인 기본 번역단위 검색부

Claims

코퍼스를 대상으로 문장의 형태소를 분석하고, 상기 형태소 분석결과에 의해 번역단위 후보를 검색하여 결과를 저장하고 빈도를 기록하는 번역단위 후보 추출모듈;

상기 번역단위 후보 추출모듈의 번역단위 후보들로부터 기본 번역단위를 선정하고, 선정된 기본 번역단위를 저장하는 기본 번역단위 선정/저장모듈; 및

입력문장에서 형태소를 분석하고, 기본 번역단위 데이터베이스로부터 상기 입력문장의 기본 번역단위를 찾아내는 온라인 번역단위 검색모듈로 구성되는 것을 특징으로 하는 기계번역을 위한 번역단위 추출 및 검색장치.
제 1항에 있어서, 상기 번역단위 후보 추출모듈은

코퍼스를 대상으로 각 어절마다 형태소를 분석하고, 상기 형태소의 품사를 결정하는 형태소 분석부;

상기 형태소 분석결과의 각 문장마다 공백문자를 기준으로 번역단위 경계를 결정하고, 상기 번역단위 경계를 근거로 상기 문장에서 생성할 수 있는 경우의 수를 계산하여, 상기 경우의 수만큼 번역단위 후보를 생성하는 번역단위 후보 검색부; 및

상기 번역단위 후보 검색부에서 검색된 번역단위 후보를 번역단위 후보 데이터베이스에 저장하고 빈도를 기록하는 번역단위 후보 저장부를 포함하여 구성되는 것을 특징으로 하는 기계번역을 위한 번역단위 추출 및 검색장치.
제 1항에 있어서, 상기 기본 번역단위 선정/저장모듈은

상기 번역단위 후보 저장부에서 저장한 번역단위 후보 데이터베이스를 검색하여, 연속되는 의미의 시작점 또는 종단점 역할을 하는 형태소들이 번역단위 내에 잘못된 위치에 포함되어 있는 경우, 기본 번역단위에서 제외하는 번역단위 후보 제거부;

상기 번역단위 후보 제거부에 의해 잘못된 번역단위 후보들이 제거된 번역단위 후보 데이터베이스로부터 번역단위 후보들을 읽어들여 고빈도의 번역단위를 기본 번역단위로 선정하는 기본 번역단위 선정부; 및

상기 기본 번역단위 선정부에 의해 선정된 고빈도 번역단위들을 기본 번역단위 데이터베이스에 저장하는 기본 번역단위 저장부로 구성되는 것을 특징으로 하는 기계번역을 위한 번역단위 추출 및 검색장치.
제 3항에 있어서, 상기 번역단위 후보 제거부는

한국어의 경우 용언, 서술격 조사, 동사, 파생 접미사, 각종 기호류 등이 번역단위 처음이나 중간에 위치하고 있는 경우와 의존명사가 번역단위의 처음에 위치하고 있는 경우 번역단위 후보를 제거하는 것을 특징으로 하는 기계번역을 위한 번역단위 추출 및 검색장치.
제 3항에 있어서, 상기 번역단위 후보 제거부는

영어의 경우 의문 한정사, 의문 부사 등이 번역단위 중간이나 마지막에 위치하고 있는 경우와, 각종 기호류가 번역단위 처음이나 중간에 위치하고 있는 경우 및 전치사가 번역단위 마지막에 위치하고 있는 경우 번역단위 후보를 제거하는 것을 특징으로 하는 기계번역을 위한 번역단위 추출 및 검색장치.
제 1항에 있어서, 상기 온라인 번역단위 검색모듈은

번역대상 입력문장에서 각 어절마다 형태소를 분석하고, 상기 형태소의 품사를 결정하는 형태소 분석부;

상기 기본 번역단위 선정/저장모듈에 의해 형성된 기본 번역단위 데이터베이스를 이용하여 상기 번역대상 입력문장에 해당 기본 번역단위가 존재하는지 검색하고, 상기 기본 번역단위가 존재할 경우, 해당 기본 번역단위를 문장에 표시하는 온라인 기본 번역단위 검색부로 구성되는 것을 특징으로 하는 기계번역을 위한 번역단위 추출 및 검색장치.
(a)번역을 요하는 입력문장을 읽어 들인 후, 상기 입력문장에서 형태소를 분석하는 단계;

(b)상기 기본 번역단위 선정 및 저장모듈에 의해 생성된 기본 번역단위 데이터베이스로부터 기본 번역단위를 순서대로 하나씩 읽어들이는 단계;

(c)상기 기본 번역단위 데이터베이스에 저장된 기본 번역단위의 검색과정이 완료되었는지 판단하여, 검색과정이 완료되었을 경우, 상기 기본 번역단위와 일치하는 부분이 상기 입력문장에 있는가 판단하는 단계;

(d)상기 기본 번역단위와 일치하는 부분이 상기 입력문장에 존재하는 경우, 상기 문장에 일치하는 부분을 표시하는 단계로 이루어지는 것을 특징으로 하는 기계번역을 위한 번역단위 추출/검색방법.
제 7항에 있어서, 상기 (b)단계의 기본 번역단위 데이터베이스 생성과정은

(e)상기 번역단위 후보 추출모듈에 의해 생성된 번역단위 후보 데이터베이스로부터 번역단위 후보들을 읽어들이는 단계;

(f)상기 읽어들인 번역단위 후보들에서 번역단위 제외대상이 존재하는가 판단하여, 제외 대상이 존재하는 경우, 상기 제외 대상을 제거하는 단계;

(g)상기 번역단위 내의 형태소 수 기준 발생빈도를 계산하여, 고빈도의 번역단위를 기본 번역단위로 선정하여 상기 기본 번역단위 데이터베이스에 저장하는 단계로 이루어지는 것을 특징으로 하는 기계번역을 위한 번역단위 추출/검색방법.
제 8항에 있어서, 상기 (e)단계의 번역단위 후보 데이터베이스 생성과정은

(h)코퍼스에서 한 문장씩 읽어들여 문장내의 형태소를 분석하고, 전체 형태소의 수를 계산하는 단계;

(i)상기 계산된 전체 형태소의 수가 2 이상인가를 판단하여, 상기 전체 형태소의 수가 2 이상인 경우 상기 형태소 연쇄열 전체를 번역단위 후보 데이터베이스에 저장하는 단계;

(j)상기 번역단위 후보 데이터베이스에 저장된 전체 형태소의 수에서 하나씩을 빼내고, 남은 형태소의 수가 2 이상인가를 판단하는 단계;

(k)상기 남은 형태소의 수가 2 이상인 경우, 현재 형태소의 수를 기본 단위로 상기 번역단위를 찾는 단계;

(l)상기 찾아낸 번역단위가 상기 번역단위 후보 데이터베이스에 이미 존재하는지 판단하여, 동일한 번역단위가 존재하는 경우에는, 발생빈도를 기록하고, 동일한 번역단위가 존재하는 않는 경우에는, 상기 기본 번역단위 후보 데이터베이스에 번역단위를 저장하는 단계; 및

(m)상기 남은 형태소의 수가 2이상일 경우, 상기 (j)단계에서부터 (m)단계를 반복 실행하는 단계로 이루어지는 것을 특징으로 하는 기계번역을 위한 번역단위 추출 및 검색방법.