KR20070058950A - 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치및 방법 - Google Patents

제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치및 방법 Download PDF

Info

Publication number
KR20070058950A
KR20070058950A KR1020060056203A KR20060056203A KR20070058950A KR 20070058950 A KR20070058950 A KR 20070058950A KR 1020060056203 A KR1020060056203 A KR 1020060056203A KR 20060056203 A KR20060056203 A KR 20060056203A KR 20070058950 A KR20070058950 A KR 20070058950A
Authority
KR
South Korea
Prior art keywords
sentence
pattern
translation
vocabulary
domain
Prior art date
Application number
KR1020060056203A
Other languages
English (en)
Other versions
KR100792204B1 (ko
Inventor
이기영
노윤형
최승권
권오욱
박상규
김영길
김창현
서영애
양성일
류철
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US11/633,896 priority Critical patent/US7747427B2/en
Publication of KR20070058950A publication Critical patent/KR20070058950A/ko
Application granted granted Critical
Publication of KR100792204B1 publication Critical patent/KR100792204B1/ko

Links

Images

Classifications

    • G06F17/27
    • G06F17/28

Landscapes

  • Machine Translation (AREA)

Abstract

본 발명은 특허 문서를 번역 대상으로 하여 특허 도메인에 특화된(customized) 번역 지식(translation knowledge)을 추출하고 이렇게 추출된 특화된 지식을 사용하여 특허 문서를 자동 번역하는 방법 및 그 장치에 관한 것으로, 특허 문서로부터 전문용어를 대량으로 추출하고 추출된 전문용어에 대하여 대역어를 할당하며, 일반 도메인의 문서가 아닌 특허 문서에서 고빈도로 사용되는 표현들을 추출하고 해당 표현들에 대한 대역 표현을 구축하며, 이렇게 구축된 번역 지식을 사용하고, 또한 특허문서에서의 과대하게 긴 문장들에 대해 문형패턴 적용, 병렬구조 인식 및 구문단서에 의한 문장분할 등을 수행하여, 파싱 가능한 번역 단위를 추출하여 구조분석을 수행하는 특허 문서를 자동으로 번역하는 장치 및 방법을 제공하는데 있다.
기계번역, 자동번역, 지식추출, 특허번역

Description

제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치 및 방법{Apparatus for automatic translation customized for restrictive domain documents, and method thereof}
도 1 은 본 발명에 따른 특허 문서를 대상으로 특화된 자동 번역 장치의 전체 구성을 나타낸 도면
도 2 는 본 발명에 따른 특허 문서를 대상으로 특화된 자동 번역 방법을 설명한 흐름도
도 3 은 본 발명에 따른 특허 문서를 대상으로 특화된 자동 번역 방법 중 전문용어를 구축하는 방법을 나타낸 흐름도
도 4 는 본 발명에 따른 특허 문서를 대상으로 특화된 자동 번역 방법 중 대역어 구축 및 정제 방법을 나타낸 흐름도
도 5 는 본 발명에 따른 특허 문서를 대상으로 특화된 자동 번역 방법 중 특허 고유의 문장 또는 구문 패턴을 대역어 구축 및 정제 방법을 나타낸 흐름도
도 6 은 본 발명에 따른 특허 문서를 대상으로 특화된 자동 번역 방법 중 최종 구문 분석결과를 생성하는 방법을 나타낸 흐름도
도 7 은 본 발명에 따른 특허 문서를 대상으로 특화된 자동 번역 방법 중 원시 언어의 구조 분석 결과를 목표 언어의 구조로 변환하는 방법을 나타낸 흐름도
*도면의 주요부분에 대한 부호의 설명
10 : 문장분할 규칙 20 : 형태소 분석 사전
30 : 어휘품사문맥 확률정보 40 : 어휘확률 정보
50 : 목적언어 특허코퍼스 60 : 변환패턴
70 : 단일어 및 복합명사 사전 100 : 지식추출부
110 : 전문용어 구축부 120 : 대역어 구축 및 정제부
130 : 문장/구 패턴 구축부 200 : 번역부
210 : 전처리부 220 : 형태소분석 및 태깅부
230 : 구조분석부 240 : 구조 및 어휘 변환부
250 : 생성부
본 발명은 자동번역 시스템에 관한 것으로, 특히 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치 및 방법에 관한 것이다.
기계번역 시스템 또는 자동번역 시스템은 컴퓨터의 발명과 함께 연구가 시작되어온 분야로서, 컴퓨터 분야에 있어서는 그 역사가 짧다고는 할 수 없는 연구 분야이다.
하지만, 그러한 긴 개발 역사에도 불구하고, 현재의 시장 상황 등을 고려해 보면, 일반 도메인에서 사용자가 만족할 만한 수준의 번역 품질을 제공하는 자동번 역 시스템은 거의 존재하지 않는다고 할 수 있다.
실제로 그 이유를 찾아본다면, 종래의 자동번역 시스템은 웹 환경의 발달과 함께, 웹 문서 번역 시스템과 같은 다양한 단어들과 다양한 표현들이 존재하는 문서가 그 대상이었기 때문이다. 이러한 이유로 인해 자동번역의 가장 기초가 되는 사전 어휘라든지 변환을 위한 규칙 또는 패턴 등은 언어의 특성으로 인해 완벽한 구축이 어려웠다.
이러한 이유로 인해 사전 미등록어 문제, 분석 규칙의 커버리지를 벗어나는 문제, 변환 정보가 존재하지 않는 문제와 같은 심각한 오류들을 발생시켰으며, 실제 그 번역 품질도 상용화에 근접한 수준에는 크게 미치지 못하여 만족스럽지 못하고 있다. 이러한 문제는 결국 자동번역 시스템의 상용화에 커다란 걸림돌로 작용되었다.
이러한 무제한 도메인에서 발생하는 다양한 문제점들은 자연스럽게 제한적인 도메인으로 자동번역의 범위를 축소시키고자 하는 시도를 이끌어 냈으며, 실제로 상용화를 목표로 하는 점에 있어서 제한적인 도메인은 현재의 자동번역 기술을 고려할 때, 매우 현실적인 대상이었다.
특히 제한적인 도메인의 대표적인 특허(patent) 도메인의 경우, 전 세계적으로 한 해 동안 출원되고 등록되는 특허 문서의 양은 매년 급속히 늘어나고 있으며, 글로벌 시대에 있어서 자국 특허뿐만 아니라 타국 특허에 대한 관심도 매우 높다고 할 수 있다. 현재는 대부분의 특허 번역은 전문 특허 번역 전문가를 통해서 이루어지고 있으며, 기업에 속하지 않은 각 개인의 경우, 언어적 차이에서 오는 특허 검 색 및 작성의 어려움은 매우 큰 문제로 남아있다. 또한, 기업의 경우도 특허 번역 등에 소요되는 경비(cost) 및 시간이 날로 증가하는 추세이다.
한편, 특허 번역과 같은 제한된 도메인의 문서를 기존의 일반 도메인용 지식을 사용하여 번역할 경우 나타나는 문제점에 대하여 설명하면 다음과 같다.
첫 번째로서, 일반적으로 자동번역에 있어서 가장 중요한 지식이라면 어휘 사전, 분석 규칙/패턴, 변환 규칙/패턴 등이 있을 수 있다. 만약 이러한 기존의 지식을 사용하여 특허 도메인에 해당하는 문서를 번역한다면 제일 먼저 나타나는 문제는 미등록어 문제이다. 즉, 특허와 같은 도메인은 전기, 전자, 화학, 물리, 컴퓨터, 등과 같은 다양한 분야에서 사용되는 전문용어가 극단적으로 많이 사용되며, 또한 특허 문서에서 사용되는 일반 어휘들도 특허 문서에서는 일반 도메인과는 상이한 의미로 사용되는 경우가 매우 많다.
두 번째로서, 특허 문서의 경우, 해당 특허 도메인에서만 극단적으로 고빈도로 사용되는 표현 등이 있으며, 이러한 표현들은 일반 도메인에서는 좀처럼 사용되지 않는다. 따라서 기존의 일반적인 구문 규칙이나 패턴으로는 커버리지 문제가 발생한다.
세 번째로서, 자동번역에 있어서, 문장길이가 길어지면 그 구조 모호성이 폭발적으로 증가하고, 이에 따라 분석시간이 현저히 증가하고 구조분석 성능이 떨어지는데, 특허문서에서는 수백 단어를 넘어가는 긴 문장들이 자주 발생한다. 따라서, 이러한 장문의 문장들에 대해 특별한 처리가 이루어지지 않고는 분석하고 번역하기가 결코 쉽지 않다.
따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 제한된 도메인에 해당하는 문서를 번역하는데 있어서 해당 도메인에 특화된 지식을 추출하고 이렇게 추출된 지식을 활용하여 효과적으로 자동번역을 수행하는 자동 번역 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적은 해당 도메인에 추출된 특화된 지식을 활용하여 일반 분석으로는 다루기 힘든 긴 문장들에 대해 파싱 가능한 분석 범위를 추출하여 구조분석을 수행하는 자동 번역 장치 및 방법을 제공하는데 있다.
본 발명의 또 다른 목적은 번역 결과의 품질을 떨어뜨리지 않는 합리적인 개수만큼을 구축하며, 해당 도메인에서 자주 사용되는 고빈도 표현 등에 대해서는 그 분석 규칙 또는 번역 패턴을 미리 구축하여 자연스러운 번역 결과를 만들어 낼 수 있는 자동 번역 장치 및 방법을 제공하는데 있다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치의 특징은 제한된 도메인의 문서를 구성하는 문장들의 번역에 필요한 번역 지식을 추출하는 지식추출부와, 상기 추출된 번역 지식이 적용된 사전 및 변환 패턴에 기반하여 입력되는 문장에 대한 번역문을 생성하는 번역부를 포함하는데 있다.
바람직하게, 상기 지식추출부는 형태소 분석과 태깅을 통해 제한된 도메인의 문서에 따른 해당 코퍼스를 구축하여 전문용어를 추출 및 구축하는 전문용어 구축 부와, 가중치를 적용하여 최장우선 방식의 고빈도 표현을 추출하여 문형/구 패턴을 정제하고, 상기 구축된 전문용어에 대해서 대역어를 구축하는 대역어 구축 및 정제부와, 상기 해당 코퍼스에 기반해서 고빈도 중복 어휘 문자열 및 용례에 따른 해당 도메인의 구문 번역 패턴 및 문장 번역 패턴을 구축하는 문장/구 패턴 구축부를 포함하는 것을 특징으로 한다.
바람직하게, 상기 가중치는 제한된 도메인에 따른 어휘별 빈도 및 공기 어휘와의 밀접성에 상응하여 적용되는 것을 특징으로 한다.
바람직하게 상기 번역부는 입력되는 문장을 분리하고, 분리한 문장에 나타나는 어휘를 토큰(token)으로 분리하여 기호, 수식 및 단어로 구분하는 전처리부와, 상기 토큰의 형태소를 분석하고 상기 지식추출부를 통해 어휘 변환된 HMM(Lexicalized Hidden Markov Model)을 이용하여 통계적 품사 태깅하는 형태소 분석 및 태깅부와, 상기 형태소 분석 및 태깅된 문장에 대해 문형패턴 및 구문패턴에 의한 문장분할 적용하여 패턴의 각 노드에 대해 파싱하여 최종 구문 분석결과를 생성하는 구조분석부와, 상기 지식추출부의 추출된 번역 지식에 따른 변환 패턴을 사용하여 상기 생성된 구문 분석결과에 대한 구조 변환을 수행하여 목표 언어의 구조로 변환하고, 사전을 이용하여 각 개별 어휘 변환을 수행하는 구조 및 어휘 변환부와, 상기 구조 및 어휘 변환부에서 출력되는 변환된 구조 및 어휘를 통해 최종적인 목표 언어 문장을 생성하는 생성부를 포함하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 방법의 특징은 (a) 원시언어로 작성된 문서들로부터 형태소 분석과 태깅 과정을 통해 제한된 도메인에 따른 특정 코퍼스를 구축하여 전문용어를 추출하는 단계와, (b) 제한된 도메인에 따른 가중치를 적용하여 최장우선 방식의 고빈도 표현을 추출하여 문형/구 패턴을 정제하고, 상기 구축된 전문용어에 대해서 대역어를 구축하는 단계와, (c) 상기 (a) 단계에서 구축된 특정 코퍼스에 기반하여 구문 번역 패턴 및 문장 번역 패턴을 구축하는 단계와, (d) 형태소 분석 및 태깅된 문장에 대해 문형 패턴에 의한 문장분할을 적용하고 문형패턴의 각 노드에 대해 파싱하여 구문 분석결과를 생성하는 단계와, (e) 상기 (c) 단계에서 구축된 구문 및 문장 번역 패턴을 사용하여 상기 생성된 구문 분석결과에 대한 구조 변환을 통한 목표 언어의 구조 변환과 각 개별 어휘 변환을 수행하는 단계와, (f) 상기 변환된 구조 및 어휘를 통해 목표 언어 문장을 생성하는 단계를 포함하는데 있다.
바람직하게 상기 (a) 단계는 (a1) 원시언어로 작성된 문서들로부터 구축된 대량의 문서 코퍼스를 입력으로 각 문장으로 분리하고, 상기 분리된 문장의 어휘를 토큰(token)으로 분리하는 단계와, (a2) 형태소를 분석하여 상기 각 토큰에 가능한 모든 품사를 부착하는 단계와, (a3) 기 정의된 어휘품사문맥 확률 정보 및 어휘확률 정보를 이용하여 각 단어에 특정 품사를 할당하는 통계적 품사 태깅을 수행하여 특정 품사가 할당된 특정 코퍼스를 구축하는 단계와, (a4) 상기 구축된 특정 코퍼스에서 전문용어를 추출하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 (a1) 단계는 입력되는 문서가 장문일 경우에는 장문 분리 규칙에 의해서 장문을 몇 개의 문장으로 분리하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 (a1) 단계의 토큰은 기호, 수식, 단어 중 어느 하나로 정의되는 것을 특징으로 한다.
바람직하게 상기 (a4) 단계는 이하의 조건 중 적어도 하나에 만족하는 것을 특징으로 한다.
조건 1) 미등록어(unknown word): 일반 도메인 사전에 없는 단어
조건 2) <조건식 1>을 만족하는 단어 wi:
<수학식 1>
Figure 112006044030292-PAT00001
여기에서, f(wi); 일반 도메인에서 단어 wi 의 총빈도수,
f(wi, tij): 일반 도메인에서 단어 wi 가 품사 tij로 나타나는 빈도,
f'(wi): 해당 도메인에서 단어 wi 의 총빈도수,
f'(wi, tij): 해당 도메인에서 단어 wi 가 품사 tij로 나타나는 빈도,
α: 합계 threshold value (본 발명에서는 0.15로 사용)
β: 최대 threshold value (본 발명에서는 0.1로 사용) 이다.
바람직하게 상기 (b) 단계는 (b1) 상기 구축된 특정 코퍼스로부터 사전 각 엔트리의 각 대역어에 대한 발생 빈도를 계산하는 단계와, (b2) 상기 각 대역어와 함께 공기하는(co-occurring) 어휘들을 추출하고 각 어휘들 간의 상호 정보(Mutual Information)를 계산하는 단계와, (b3) 상기 어휘 빈도 및 공기 어휘를 통해 얻어진 값들을 사용하여 각 대역어의 사용 가중치를 계산하는 단계와, (b4) 상기 대역어 사용 가중치를 적용하여 사전 엔트리의 각 대역어를 특정 도메인에서의 사용 중요도에 따라 정제하는 단계와, (b3) 상기 정제된 문형/구 패턴 및 정의된 가중치에 기반하여 상기 구축된 전문용어에 대해서 대역어를 구축하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 (b) 단계의 가중치는 제한된 도메인에 따른 어휘별 빈도 및 공기 어휘와의 밀접성에 상응하는 값인 것을 특징으로 한다.
바람직하게 상기 (c) 단계는 (c1) 상기 (a) 단계에서 구축된 특정 코퍼스 중 가장 빈도수가 높은 문자열을 추출하고, 이 추출된 문자열을 통해 고빈도 중복 어휘 문자열 및 용례를 생성하는 단계와, (c2) 상기 생성된 고빈도 중복 어휘 문자열 및 용례에 대해 구문 패턴 후보 또는 문형 패턴 후보의 가능성을 판단하는 단계와, (c3) 상기 판단결과 구문 패턴 후보로 판단되면, 구의 시작/끝 노드인지, 또는 품사 노드인지 체크하여 특정 구문 번역 패턴을 구축하는 단계와, (c4) 상기 판단결과 문형 패턴 후보로 판단되면, 문장 전체에 대해 특정 문장 번역 패턴으로 구축하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 (d) 단계는 (d1) 상기 형태소 분석 및 태깅된 문장에 대해 패턴을 판단하는 단계와, (d2) 상기 판단 결과 구문패턴으로 판단되면, 병렬구조를 인식하고 병렬 노드 파싱을 통해 문장분할을 수행하여 구문 노드 파싱을 수행하는 단계와, (d3) 상기 판단 결과 문형패턴으로 판단되면, 문형패턴의 각 노드에 대해 구문 노드 파싱을 수행하는 단계와, (d4) 상기 구문 노드 파싱된 결과를 하나의 챠트로 취급하여 전체 문장을 다시 파싱함으로써 최종 구조분석결과를 생성하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 병렬구조 인식은 상기 판단 결과 구문 노드 파싱해야 할 부분문장의 크기가 특정길이 이상이면, 구문패턴에 의한 병렬 구조 후보를 생성하는 단계와, 상기 병력 구조의 각 후보에 대한 병렬노드 인식 수단 및 구문노드 제약을 통한 병렬구조를 선택하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 (e) 단계는 (e1) 상기 (c) 단계에서 구축된 구문 및 문장 번역 패턴을 사용하여 입력되는 원시 언어 문서의 구조적 변환을 수행하여 목표 언어의 문장 구조로 변환하는 단계와, (e2) 단일어 및 복합명사 사전을 사용하여 원시 언어 문서에 따른 각 원시 어휘에 대한 최적의 대역어를 선택하여 어휘 레벨에서의 변환을 수행하는 단계와, (e3) 상기의 구조 변환 및 어휘 변환 결과들을 바탕으로 변환 자료 구조를 생성하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 (e1) 단계의 구조적 변환은 문장 단위, 절 단위, 구 단위로 수행되는 것을 특징으로 한다.
발명의 다른 목적, 특성 및 이점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.
본 발명에 따른 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치 및 방법의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다. 설명에 앞서, 본 명세서에서는 다만 설명의 편의를 위해 제한적인 도메인의 문서를 특허 도메인의 문서로 한정하여 일실시예로 설명한다. 그러나 상기 특허 도메인의 문서는 바람직한 일실시예 일뿐, 상기 제한적인 도메인이 이에 한정되지는 않는다.
도 1 은 본 발명에 따른 특허 문서를 대상으로 특화된 자동 번역 장치의 전체 구성을 나타낸 도면이다.
도 1을 참조하여 설명하면, 자동 번역 장치는 제한된 도메인의 문서를 바탕으로 해당 도메인의 문서를 구성하는 문장들의 번역에 필요한 번역 지식을 추출하는 지식추출부(100)와, 상기 추출된 번역 지식을 사전 및 변환 패턴에 적용하여 입력되는 문장에 대한 번역문을 생성하는 번역부(200)로 구성된다.
이때, 상기 지식추출부(100)는 원시언어로 작성된 문서들을 입력으로 형태소 분석과 태깅 과정을 통해 특허 도메인에 따른 특허코퍼스를 구축하여 전문용어를 추출 및 구축하는 전문용어 구축부(110)와, 특허 도메인에 따른 어휘별 빈도 및 공기 어휘와의 밀접성에 상응하는 가중치를 적용하여 최장우선 방식의 고빈도 표현을 추출하여 문형/구 패턴을 정제하고, 상기 구축된 전문용어에 대해서 대역어를 구축하는 대역어 구축 및 정제부(120)와, 상기 특허코퍼스에 기반해서 고빈도 중복 어휘 문자열 및 용례에 따른 해당 도메인의 구문 번역 패턴 및 문장 번역 패턴을 구축하는 문장/구 패턴 구축부(130)로 구성된다.
또한, 상기 번역부(200)는 입력되는 원문을 문장분할 규칙을 이용하여 문장 으로 분리하고, 이 분리된 문장이 나타내는 어휘를 토큰(token)으로 분리한 후, 이 토큰을 기호, 수식 및 단어 등으로 구분하는 전처리부(210)와, 상기 전처리된 토큰을 형태소 분석 사전을 이용하여 형태소를 분석하고 상기 지식추출부를 통해 어휘 변환된 HMM(Lexicalized Hidden Markov Model)을 이용하여 통계적 품사 태깅하는 형태소 분석 및 태깅부(220)와, 상기 형태소 분석 및 태깅된 문장에 대해 문형패턴 및 구문패턴에 의한 문장분할을 적용하여 문형패턴의 각 노드에 대해 파싱하여 최종 구문 분석결과를 생성하는 구조분석부(230)와, 상기 지식추출부(100)의 문장/구 패턴 구축부(130)에서 구축된 문장/구 패턴에 따른 변환 패턴을 사용하여 상기 생성된 구문 분석결과에 대한 구조 변환을 수행하여 목표 언어의 구조로 변환한 후, 사전을 이용하여 각 개별 어휘 변환을 수행하는 구조 및 어휘 변환부(240)와, 상기 구조 및 어휘 변환부(240)에서 출력되는 변환된 구조 및 어휘를 통해 최종적인 목표 언어 문장을 생성하는 생성부(250)로 구성된다.
이와 같이 구성된 본 발명에 따른 특허 문서를 대상으로 특화된 자동 번역 방법을 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다.
도 2 는 본 발명에 따른 특허 문서를 대상으로 특화된 자동 번역 방법을 설명한 흐름도이다.
도 2를 참조하여 설명하면, 먼저 첫 번째 단계로 원시언어로 작성된 문서들을 입력으로 형태소 분석과 태깅 과정을 통해 특허코퍼스를 구축하고, 상기 구축된 특허코퍼스에서 전문용어를 구축한다(S100).
도 3 은 본 발명에 따른 특허 문서를 대상으로 특화된 자동 번역 방법 중 전문용어를 구축하는 방법을 나타낸 흐름도로서, 이를 참조하여 전문용어를 구축하는 방법을 상세히 설명한다.
먼저 원시 언어로 작성된 대량의 특허 문서 코퍼스를 입력으로 받고(S110), 입력된 특허 문서 코퍼스를 문장분할 규칙(10)을 이용하여 각기 문장을 분리하고, 또한 각 문장에 나타나는 어휘를 토큰(token)으로 분리하는 전처리를 수행한다(S120).
상기 토큰은 기호, 수식, 단어 등으로 구분한다. 또한, 상기 문장분할 규칙(10)은 입력되는 문장이 장문일 경우에 장문을 몇 개의 문장으로 분리하는 장문 분리 규칙을 적용한다.
즉, 상기 장문 분리 규칙은 어휘와 문두 심볼, 문미 심볼과 문장분할 기호들을 토큰으로 하는 정규 표현식이다. 그리고 상기 문장 분리 정규 표현식은 <조건부>와 <문장분리부>로 구성된다. 이때, 상기 <조건부>에는 입력 어휘, 문두/문미 심볼의 나열로 구성되며, 상기 <문장분리부>는 문장분할 기호를 포함한 문장 분리 형태를 기술한다.
그러므로, 상기 장문 분리 규칙은 입력 문장이 <조건부>를 만족하게 되면 <문장분리부>의 표현으로 문장이 분리된다.
예를 들어, <조건부>가 "including:" <문장분리부>가 "including as follow:\n" 이면, 입력문장 중에서 "ncluding:"이란 어휘를 만나면 "including:" 대신 "including as follow:"로 대체하고 문장을 분리한다.
이와 같은 전처리가 끝나면, 형태소 분석 사전(20)을 검색하여 형태소를 분석하고, 상기 각 토큰에 가능한 모든 품사를 부착한다(S130). 이때, 상기 형태소 분석 사전에 나타나지 않는 단어를 미등록어(unknown word)로 처리한다.
그리고 상기 모든 가능한 단어의 품사들 중에서 그 문장에서 정확하게 사용된 품사를 정하기 위해 기정의된 어휘품사문맥 확률 정보(30) 및 어휘확률 정보(40)를 이용하여 각 단어에 최적 품사를 할당하는 통계적 품사 태깅을 수행한다(S140). 이때, 어휘 변환된 HMM(Lexicalized Hidden Markov Model)을 이용하여 태깅을 하는 것이 바람직하다.
이와 같은 일련 작업을 통해 상기 입력되는 특허 문서 코퍼스의 각 단어에 대하여 최적 품사가 할당된 자동 태깅된 특허코퍼스를 구축한다(S150).
그리고 상기 구축된 특허코퍼스에서 전문용어를 추출한 후(S160), 이렇게 추출된 전문용어를 DB로 구축한다(S170). 이때, 해당 도메인에 대한 전문용어는 일반 도메인에서 나타나지 않는 단어들이 나타나더라도 일반 도메인에서 사용된 품사가 해당 도메인에서 사용된 품사와 아주 다른 단어들이다. 그러므로 이하 조건 중에 하나라도 만족하면 해당 도메인의 전문용어로 추출한다.
이때, 이하 조건을 만족하는 것을 찾기 위해서 상기 구축된 자동 태깅된 특허코퍼스를 이용한다.
조건 1) 미등록어(unknown word): 형태소 분석 사전에 없는 단어
조건 2) 이하 수학식 1을 만족하는 단어 wi:
Figure 112006044030292-PAT00002
여기에서, f(wi): 일반 도메인에서 단어 wi 의 총빈도수,
f(wi, tij): 일반 도메인에서 단어 wi 가 품사 tij로 나타나는 빈도,
f'(wi): 자동 태깅된 특허코퍼스(209)에서 단어 wi 의 총빈도수,
f'(wi, tij): 자동 태깅된 특허코퍼스(209)에서 단어 wi 가 품사 tij로 나타나는 빈도,
α: 합계 threshold value (본 발명에서는 0.15로 사용)
β: 최대 threshold value (본 발명에서는 0.1로 사용)
이다.
위의 수학식 1 중에서 일반 도메인에서 획득하는 f(wi)와 f(wi, tij) 값은 통계적 품사 태깅을 위해서 일반 도메인의 태깅된 코퍼스로부터 기 구축한 어휘확률 정보(208)에 이미 들어 있는 값을 활용한다.
그리고 두 번째 단계로 특허 도메인에 따른 어휘별 빈도 및 공기 어휘와의 밀접성에 상응하는 가중치를 적용하여 최장우선 방식의 고빈도 표현을 추출하여 문형/구 패턴을 정제하고, 상기 구축된 전문용어에 대해서 대역어를 구축한다(S300).
즉, 기존의 일반 도메인에서 사용되었던 사전 또는 전문용어 사전의 경우, 그 대역어들의 사용 빈도가 특허와 같은 특정 도메인에서는 달라질 수 있다. 다시 말해, 특허와 같은 특정 도메인의 문서들을 기존 일반 도메인 사전을 이용하여 번역할 경우, 그 대역어의 사용 가중치가 다르기 때문에 특정 도메인에서 자주 사용되는 대역어가 사용되지 않으며, 따라서 번역 결과에 있어서 구조적 변환이 제대로 수행되었다고 하더라도 전체적인 의미의 전달에 있어서는 문제가 발생한다.
따라서 이러한 기존 일반 도메인 사전의 각 엔트리별 대역어를 목적언어로 작성된 모노링궐 코퍼스(monolingual corpus)에 기반하여 정제하는 방안을 도입한다.
도 4 는 본 발명에 따른 특허 문서를 대상으로 특화된 자동 번역 방법 중 대역어 구축 및 정제 방법을 나타낸 흐름도로서, 이를 참조하여 상기 구축된 전문용어에 대해서 대역어의 구축 및 정제 방법을 상세히 설명한다.
먼저, 일반 도메인 사전의 각 엔트리 대역어들을 추출하고(S210), 이 추출된 대역어에 대해서 각 대역어에 대한 발생 빈도를 계산한다(S220).
그리고 상기 목적언어로 작성된 특허 도메인의 코퍼스(50) 상에서 발생하는 어휘별 빈도를 계산하고(S220), 또한 각 대역어들과 공기하는 어휘들을 상호 정보(Mutual Information)에 근거하여 관련성(relatedness)을 계산한다(S230).
이어, 상기 어휘별 빈도 및 공기어휘들의 관련성의 계산에서 얻어진 가중치 함수를 사용하여 각 대역어의 사용 가중치를 계산한다(S250).
이렇게 구하여진 어휘별 빈도와 공기 어휘와의 밀접성 등에 대한 가중치 함 수에 의해 해당 대역어가 특정 도메인에서 어느 정도의 중요성을 지니는 어휘인지를 판단하여 문형/구 패턴을 정제한다(S260).
그리고 이러한 과정을 통하여 일반 도메인에 맞도록 구축된 기존의 일반 사전 및 전문용어 사전의 각 대역어들은 새로운 특정 도메인에 특화되도록 새롭게 정의된 가중치 함수에 의하여 상기 구축된 전문용어에 대해서 대역어를 구축한다(S270).
다음 세 번째 단계로 상기 첫 번째 단계(S100)에서 구축된 특허코퍼스에 기반해서 고빈도 중복 어휘 문자열 및 용례에 따른 해당 도메인의 구문 번역 패턴 및 문장 번역 패턴을 구축한다(S300).
도 5 는 본 발명에 따른 특허 문서를 대상으로 특화된 자동 번역 방법 중 특허 고유의 문장 또는 구문 패턴을 대역어 구축 및 정제 방법을 나타낸 흐름도로서, 이를 참조하여 특허 도메인의 구문 번역 패턴 및 문장 번역 패턴을 구축하는 방법을 상세히 설명한다.
먼저, 첫 번째 단계에서 구축된 대량의 자동 태깅된 특허코퍼스를 입력으로 경계 조건을 체크하여 가장 빈도수가 높은 어휘 문자열 및 용례를 추출하고(S320), 이 추출된 어휘 문자열 및 용례를 통해 고빈도 중복 어휘 문자열 및 용례를 생성한다(S330).
이어 상기 생성된 고빈도 중복 어휘 문자열 및 용례에 대해 구문 패턴 후보 또는 문형 패턴 후보의 가능성을 판단하게 된다(S340).
상기 판단결과 구문 패턴 후보로 판단되면(S340), 제시된 구문 패턴 후보의 양끝 단어가 구조분석 규칙의 구의 시작/끝 노드의 품사에 해당하는지, 또는 구문 패턴 후보의 옆 단어들이 규칙 내에서 구노드 사이에 있는 품사 노드에 해당하는지를 체크하여 특허용 구문 패턴을 구축한다(S350). 그리고 구축된 특허용 구문 패턴을 이용하여 특허용 구문 번역 패턴 DB를 구축한다(S360).
또한 상기 판단결과 문형 패턴 후보로 판단되면(S340), 문장 전체에 대해 특허용 문장 패턴으로 구축하고(S370), 특허용 문장 번역 패턴 DB를 구축한다(S380).
다음은 위에서 설명된 특허 문서에서의 용례에 따른 특허용 구문 패턴(S350) 및 특허용 문장 패턴(S370)이 구축되는 일실시예를 나타낸다.
1) 특허용 구문 번역 패턴의 구축 예(S350)
추출된 고빈도 중복 어휘 문자열 및 용례:
in_accordance_with 20063 The present invention relates to a DC transformer / reactor in accordance with the introductory part of claim 1 .
구축된 특허용 구문 번역 패턴: in accordance! with -> 에_따른!
2) 특허용 문장 번역 패턴의 구축 예(S370)
추출된 고빈도 중복 어휘 문자열 및 용례:
relates_to 20063 The present invention relates to a DC transformer / reactor in accordance with the introductory part of claim 1 .
구축된 특허용 문장 번역 패턴: NP1 relate to NP2 -> NP1:[는] NP2:[에] 관한 것이!
다음 네 번째 단계로 상기 형태소 분석 및 태깅된 문장에 대해 문형패턴 및 구문패턴에 의한 문장분할을 적용하여 문형패턴의 각 노드에 대해 파싱하여 최종 구문 분석결과를 생성한다(S400).
도 6 은 본 발명에 따른 특허 문서를 대상으로 특화된 자동 번역 방법 중 최종 구문 분석결과를 생성하는 방법을 나타낸 흐름도로서, 이를 참조하여 최종 구문 분석결과를 생성하는 방법을 상세히 설명한다.
먼저, 상기 형태소 분석 및 태깅된 문장이 입력되면(S410), 이 문장에 대해 문형 패턴을 인식하고(S420), 문형패턴이 적용되면 문형패턴의 각 노드에 대해 구문 노드 파싱을 수행한다(S430).
이때, 상기 문형패턴은 패턴의 범위가 문장전체인 패턴을 의미하며, 어휘와 구문노드들로 구성되어 있다. 상기 구문노드는 주로 명사구(NP), 동사구(VP), 문장(S)등에 해당하고 구문노드들은 연속해서 올 수 없다. 또한 문형패턴의 인식방법은 문형패턴을 챠트 파서의 규칙으로 사용하여 챠트파싱을 하되, 만일 구문이 나오면, 태깅결과에 대해 현재위치의 단어부터 탐색을 하여, 문형패턴에서 구문노드 다음의 어휘가 매칭될 때까지 범위를 구문노드로 인식한다. 이때 인식된 구문에 대한 조건을 간단히 체크하여, 조건을 만족하는 경우에만 구문노드를 생성하고 무위(inactive) 챠트에 추가한다.
이때 상기 구문 노드 파싱에서 상기 구문 노드 파싱의 단위가 특정길이 이상이면, 병렬구조를 인식하여(S440), 구문패턴에 의한 문장분할을 통해 병렬노드로 분할한다(S450).
그리고 이렇게 분할되어 인식된 병렬노드를 다시 파싱 단위로 하여 병렬 노 드 파싱을 시도한다(S460).
이때 상기 병렬구조 인식은 먼저 구문정보를 이용해서 가능한 병렬구조 범위를 인식한다. 즉 영어에서 병렬구문은 X -> X, X, .., and X의 형태를 띠기 때문에 이러한 가능한 모든 범위들을 병렬구조 후보로 인식한다. 이렇게 인식된 병렬구조에 대해 태깅 결과를 이용해 병렬노드를 인식한다. 병렬 노드는 크게 NP(명사구), VP(동사구), VPG(동명사), S(문장), SG(독립분사구문)인지를 구분한다. 이에 대한 구분은 파싱을 수행하지 않고, 다음과 같은 휴리스틱을 사용한다.
1) 만일 본동사 개수가 1개 이상이고 본동사 앞에 명사/대명사/수사가 존재하면 S, 아니면 VP
2) 동사의 분사형이 존재하고 동사 분사형 앞에 명사/대명사/수사가 존재하면 NP/SG, 아니면 VPG
3) 아니면 NP
그리고 위와 같은 구문인식결과에 대해 두 가지 제약을 체크한다.
1) 모든 병렬노드의 구문노드가 동일해야 한다.
2) 병렬구조 앞에 동사나 전치사가 오는 경우 NP/VPG만이 가능하다.
위와 같은 조건을 만족하는 병렬 구조 중에서 길이가 가장 긴 병렬구조를 선택한다.
이와 같은 병렬노드 파싱을 시도한 경우에도 파싱단위가 특정 길이 이상이면, 정해진 구문패턴에 의해 문장분할을 수행하고, 이를 통해 분할된 결과에 대해 분할 문장 파싱을 수행한다. 이때, 상기 구문 패턴에 의한 문장분할에서는 콤마에 의해 무조건 문장분할 수행한다.
그리고 마지막으로, 지금까지 부분 파싱된 결과를 하나의 챠트로 취급하여 전체 문장을 다시 파싱함으로써 최종 구조분석결과를 생성하게 된다(S470).
상기 네 번째 단계(S400)인 최종 구문 분석결과를 생성하는 방법을 영문특허 예문을 통해 실시예로 나타내면 다음과 같다.
실시예
[입력문장]: ?Construction of fixing a flexible sheet for use in an electronic device comprising a case being formed with a plurality of through holes, a chassis being accommodated in an interior of the case, a flexible sheet being disposed on a surface of the chassis and having a plurality of flexible switches arranged thereon, a circuit board being provided below the chassis and having a connector fixed thereon, and a plurality of manual buttons being provided above each flexible switch and being exposed from the through holes of the case to the outside of the case, the construction of fixing the flexible sheet wherein the flexible sheet comprises a flat plate portion being in close contact with the chassis and a flat cable portion which projects on an edge of the flat plate portion and with which a connecting terminal portion is provided on its end, the flat cable portion is folded back to the chassis to have the connecting terminal portion connected to the connector, and the chassis is provided with a lift-up prevention piece to prevent a part of the flat plate portion of the flexible sheet from being lifted up from a surface of the chassis."
[패턴 적용]: S -> S:[vg], NP wherein S , S
[패턴 인식 결과]:
(S:[vg] Construction of fixing a flexible sheet for use in an electronic device comprising a case being formed with a plurality of through holes, a chassis being accommodated in an interior of the case, a flexible sheet being disposed on a surface of the chassis and having a plurality of flexible switches arranged thereon, a circuit board being provided below the chassis and having a connector fixed thereon, and a plurality of manual buttons being provided above each flexible switch and being exposed from the through holes of the case to the outside of the case), (NP the construction of fixing the flexible sheet) wherein (S the flexible sheet comprises a flat plate portion being in close contact with the chassis and a flat cable portion which projects on an edge of the flat plate portion and with which a connecting terminal portion is provided on its end), (S the flat cable portion is folded back to the chassis to have the connecting terminal portion connected to the connector, and the chassis is provided with a lift-up prevention piece to prevent a part of the flat plate portion of the flexible sheet from being lifted up from a surface of the chassis.)
[인식된 각 구문노드에 대한 파싱 수행]
S[vg], NP, S들에 대한 구문파싱 수행
[병렬구조 인식]
(S:[vg] Construction of fixing a flexible sheet for use in an electronic device comprising (NP a case being formed with a plurality of through holes), (NP a chassis being accommodated in an interior of the case), (NP a flexible sheet being disposed on a surface of the chassis and having a plurality of flexible switches arranged thereon), (NP a circuit board being provided below the chassis and having a connector fixed thereon), and a plurality of manual buttons being provided above each flexible switch and being exposed from the through holes of the case to the outside of the case)
위에서 마지막 노드는 구문노드로 묶지 않는다. 이는 마지막 노드의 끝 범위를 모르기 때문이다.
[각 병렬노드들에 대한 파싱 수행]
인식된 각 NP에 대해 파싱 수행후 병렬구조에 대한 트리 구성
위에서 만일 문형패턴이 존재하지 않은 경우에는 먼저 병렬구조 인식을 수행하고 각 구문노드들을 파싱한 후, 다시 전체 문장에 대한 파싱을 수행하고자 할 때, 문장길이가 특정 길이를 초과한다고 할 때, 콤마에 의해 분할이 이루어진다.
( Construction of fixing a flexible sheet for use in an electronic device comprising (NP a case being formed with a plurality of through holes), (NP a chassis being accommodated in an interior of the case), (NP a flexible sheet being disposed on a surface of the chassis and having a plurality of flexible switches arranged thereon), (NP a circuit board being provided below the chassis and having a connector fixed thereon), and a plurality of manual buttons being provided above each flexible switch and being exposed from the through holes of the case to the outside of the case), ( the construction of fixing the flexible sheet wherein the flexible sheet comprises a flat plate portion being in close contact with the chassis and a flat cable portion which projects on an edge of the flat plate portion and with which a connecting terminal portion is provided on its end), ( the flat cable portion is folded back to the chassis to have the connecting terminal portion connected to the connector, and the chassis is provided with a lift-up prevention piece to prevent a part of the flat plate portion of the flexible sheet from being lifted up from a surface of the chassis.)
다음의 다섯 번째 단계로 상기 구축된 문장/구 패턴에 따른 변환 패턴(605)을 사용하여 상기 생성된 구문 분석결과에 대한 구조 변환을 수행하여 목표 언어의 구조로 변환한 후, 단일어 및 복합명사 사전을 이용하여 각 개별 어휘 변환을 수행한다(S600).
도 7 은 본 발명에 따른 특허 문서를 대상으로 특화된 자동 번역 방법 중 원 시 언어의 구조 분석 결과를 목표 언어의 구조로 변환하는 방법을 나타낸 흐름도로서, 이를 참조하여 상세히 설명한다.
먼저, 상기 세 번째 단계(S300)에서 구축된 변환 패턴(60)을 사용하여 입력된 원시 언어 문장에 대한 구조 분석 결과에 대한 구조적 변환을 수행한다(S510). 이때 상기 구조적 변환은 문장 단위, 절 단위, 구 단위로 수행되며, 사용되는 변환 패턴은(60)은 상기 네 번째 단계(S400)의 구조 분석 결과에 대해 가장 최적으로 매칭되는 변환 패턴이 선택된다.
이를 통해 목표 언어 문장 구조로 변환이 완료되면, 단일어 및 복합명사 사전(70)을 사용하여 각 개별 어휘의 변환을 수행한다(S520). 이때, 상기 수행되는 어휘 변환 과정에서 대역어 선택 모호성, 즉, 중의적 의미를 지닌 원시 어휘의 경우에 대해서는 그 모호성을 해소하고 최적의 대역어를 선택하기 위한 대역어 선택 기능이 수행된다. 그리고 특허 문서의 경우, 전문용어를 많이 포함하는 특성으로 인해, 일반 도메인에서와 같은 복잡한 대역어 선택이 구현되지는 않으며, 주로 사용빈도에 따른 대역어 선택 기법이 적용된다.
이렇게 상기의 구조 변환 및 어휘 변환이 끝나면, 해당 결과들을 생성부에 넘기기 위한 변환 자료 구조를 생성한다(S530).
그러면 마지막인 여섯 번째 단계로서 상기 구조 및 어휘 변환되어 출력되는 변환된 구조 및 어휘를 통해 최종적인 목표 언어 문장을 생성하게 된다(S600).
이상에서와 같이 상세한 설명과 도면을 통해 본 발명의 최적 실시예를 개시 하였다. 용어들은 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
이상에서 설명한 바와 같은 본 발명에 따른 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치 및 방법은 다음과 같은 효과가 있다.
첫째, 보다 좁은 구체적 번역 도메인으로서 특허 도메인을 설정하여 특허 도메인에 특화된 번역 지식을 구축하고 이렇게 구축된 특화된 번역 지식을 사용하고, 또한 특허문서의 긴 문장들에 대해 장문 분할을 수행하여 특허 문서를 자동으로 번역함으로써, 실제 특허 필드에 직접적인 도움을 줄 수 있을 정도로 자동 번역 품질을 향상시킬 수 있다.
둘째, 또한 유무선 통신 기술의 발달과 함께 전 세계적으로 특허의 공유가 가능해진 시점에, 타국의 특허를 보다 쉽고, 보다 경제적으로 참조할 수 있음으로 해서 향후 특허 분쟁의 소지를 보다 낮출 수 있으며, 이러한 타국 특허의 검색/참조에 소비되어 왔던 경제적 비용도 또한 대폭 줄일 수 있다.

Claims (16)

  1. 제한된 도메인의 문서를 구성하는 문장들의 번역에 필요한 번역 지식을 추출하는 지식추출부와,
    상기 추출된 번역 지식이 적용된 사전 및 변환 패턴에 기반하여 입력되는 문장에 대한 번역문을 생성하는 번역부를 포함하는 자동 번역 장치.
  2. 제 1 항에 있어서, 상기 지식추출부는
    형태소 분석과 태깅을 통해 제한된 도메인의 문서에 따른 해당 코퍼스를 구축하여 전문용어를 추출 및 구축하는 전문용어 구축부와,
    가중치를 적용하여 최장우선 방식의 고빈도 표현을 추출하여 문형/구 패턴을 정제하고, 상기 구축된 전문용어에 대해서 대역어를 구축하는 대역어 구축 및 정제부와,
    상기 해당 코퍼스에 기반해서 고빈도 중복 어휘 문자열 및 용례에 따른 해당 도메인의 구문 번역 패턴 및 문장 번역 패턴을 구축하는 문장/구 패턴 구축부를 포함하는 자동 번역 장치.
  3. 제 2 항에 있어서,
    상기 가중치는 제한된 도메인에 따른 어휘별 빈도 및 공기 어휘와의 밀접성에 상응하여 적용되는 것을 특징으로 하는 자동 번역 장치.
  4. 제 1 항에 있어서, 상기 번역부는
    입력되는 문장을 분리하고, 분리한 문장에 나타나는 어휘를 토큰(token)으로 분리하여 기호, 수식 및 단어로 구분하는 전처리부와,
    상기 토큰의 형태소를 분석하고 상기 지식추출부를 통해 어휘 변환된 HMM(Lexicalized Hidden Markov Model)을 이용하여 통계적 품사 태깅하는 형태소 분석 및 태깅부와,
    상기 형태소 분석 및 태깅된 문장에 대해 문형패턴 및 구문패턴에 의한 문장분할 적용하여 패턴의 각 노드에 대해 파싱하여 최종 구문 분석결과를 생성하는 구조분석부와,
    상기 지식추출부의 추출된 번역 지식에 따른 변환 패턴을 사용하여 상기 생성된 구문 분석결과에 대한 구조 변환을 수행하여 목표 언어의 구조로 변환하고, 사전을 이용하여 각 개별 어휘 변환을 수행하는 구조 및 어휘 변환부와,
    상기 구조 및 어휘 변환부에서 출력되는 변환된 구조 및 어휘를 통해 최종적인 목표 언어 문장을 생성하는 생성부를 포함하는 자동 번역 장치.
  5. (a) 원시언어로 작성된 문서들로부터 형태소 분석과 태깅 과정을 통해 제한된 도메인에 따른 특정 코퍼스를 구축하여 전문용어를 추출하는 단계와,
    (b) 제한된 도메인에 따른 가중치를 적용하여 최장우선 방식의 고빈도 표현을 추출하여 문형/구 패턴을 정제하고, 상기 구축된 전문용어에 대해서 대역어를 구축하는 단계와,
    (c) 상기 (a) 단계에서 구축된 특정 코퍼스에 기반하여 구문 번역 패턴 및 문장 번역 패턴을 구축하는 단계와,
    (d) 형태소 분석 및 태깅된 문장에 대해 문형 패턴에 의한 문장분할을 적용하고 문형패턴의 각 노드에 대해 파싱하여 구문 분석결과를 생성하는 단계와,
    (e) 상기 (c) 단계에서 구축된 구문 및 문장 번역 패턴을 사용하여 상기 생성된 구문 분석결과에 대한 구조 변환을 통한 목표 언어의 구조 변환과 각 개별 어휘 변환을 수행하는 단계와,
    (f) 상기 변환된 구조 및 어휘를 통해 목표 언어 문장을 생성하는 단계를 포함하는 자동 번역 방법.
  6. 제 5 항에 있어서, 상기 (a) 단계는
    (a1) 원시언어로 작성된 문서들로부터 구축된 대량의 문서 코퍼스를 입력으로 각 문장으로 분리하고, 상기 분리된 문장의 어휘를 토큰(token)으로 분리하는 단계와,
    (a2) 형태소를 분석하여 상기 각 토큰에 가능한 모든 품사를 부착하는 단계와,
    (a3) 기 정의된 어휘품사문맥 확률 정보 및 어휘확률 정보를 이용하여 각 단어에 특정 품사를 할당하는 통계적 품사 태깅을 수행하여 특정 품사가 할당된 특정 코퍼스를 구축하는 단계와,
    (a4) 상기 구축된 특정 코퍼스에서 전문용어를 추출하는 단계를 포함하는 자동 번역 방법.
  7. 제 6 항에 있어서,
    상기 (a1) 단계는 입력되는 문서가 장문일 경우에는 장문 분리 규칙에 의해서 장문을 몇 개의 문장으로 분리하는 단계를 포함하는 것을 특징으로 하는 자동 번역 방법.
  8. 제 6 항에 있어서,
    상기 (a1) 단계의 토큰은 기호, 수식, 단어 중 어느 하나로 정의되는 것을 특징으로 하는 자동 번역 방법.
  9. 제 6 항에 있어서, 상기 (a4) 단계는 이하의 조건 중 적어도 하나에 만족하는 것을 특징으로 하는 자동 번역 방법.
    조건 1) 미등록어(unknown word): 일반 도메인 사전에 없는 단어
    조건 2) <조건식 1>을 만족하는 단어 wi:
    <수학식 1>
    Figure 112006044030292-PAT00003
    여기에서, f(wi); 일반 도메인에서 단어 wi 의 총빈도수,
    f(wi, tij): 일반 도메인에서 단어 wi 가 품사 tij로 나타나는 빈도,
    f'(wi): 해당 도메인에서 단어 wi 의 총빈도수,
    f'(wi, tij): 해당 도메인에서 단어 wi 가 품사 tij로 나타나는 빈도,
    α: 합계 threshold value (본 발명에서는 0.15로 사용)
    β: 최대 threshold value (본 발명에서는 0.1로 사용) 이다.
  10. 제 5 항에 있어서, 상기 (b) 단계는
    (b1) 상기 구축된 특정 코퍼스로부터 사전 각 엔트리의 각 대역어에 대한 발생 빈도를 계산하는 단계와,
    (b2) 상기 각 대역어와 함께 공기하는(co-occurring) 어휘들을 추출하고 각 어휘들 간의 상호 정보(Mutual Information)를 계산하는 단계와,
    (b3) 상기 어휘 빈도 및 공기 어휘를 통해 얻어진 값들을 사용하여 각 대역어의 사용 가중치를 계산하는 단계와,
    (b4) 상기 대역어 사용 가중치를 적용하여 사전 엔트리의 각 대역어를 특정 도메인에서의 사용 중요도에 따라 정제하는 단계와,
    (b3) 상기 정제된 문형/구 패턴 및 정의된 가중치에 기반하여 상기 구축된 전문용어에 대해서 대역어를 구축하는 단계를 포함하는 자동 번역 방법.
  11. 제 5 항에 있어서,
    상기 (b) 단계의 가중치는 제한된 도메인에 따른 어휘별 빈도 및 공기 어휘와의 밀접성에 상응하는 값인 것을 특징으로 하는 자동 번역 방법.
  12. 제 5 항에 있어서, 상기 (c) 단계는
    (c1) 상기 (a) 단계에서 구축된 특정 코퍼스 중 가장 빈도수가 높은 문자열을 추출하고, 이 추출된 문자열을 통해 고빈도 중복 어휘 문자열 및 용례를 생성하는 단계와,
    (c2) 상기 생성된 고빈도 중복 어휘 문자열 및 용례에 대해 구문 패턴 후보 또는 문형 패턴 후보의 가능성을 판단하는 단계와,
    (c3) 상기 판단결과 구문 패턴 후보로 판단되면, 구의 시작/끝 노드인지, 또는 품사 노드인지 체크하여 특정 구문 번역 패턴을 구축하는 단계와,
    (c4) 상기 판단결과 문형 패턴 후보로 판단되면, 문장 전체에 대해 특정 문장 번역 패턴으로 구축하는 단계를 포함하는 자동 번역 방법.
  13. 제 5 항에 있어서, 상기 (d) 단계는
    (d1) 상기 형태소 분석 및 태깅된 문장에 대해 패턴을 판단하는 단계와,
    (d2) 상기 판단 결과 구문패턴으로 판단되면, 병렬구조를 인식하고 병렬 노드 파싱을 통해 문장분할을 수행하여 구문 노드 파싱을 수행하는 단계와,
    (d3) 상기 판단 결과 문형패턴으로 판단되면, 문형패턴의 각 노드에 대해 구문 노드 파싱을 수행하는 단계와,
    (d4) 상기 구문 노드 파싱된 결과를 하나의 챠트로 취급하여 전체 문장을 다시 파싱함으로써 최종 구조분석결과를 생성하는 단계를 포함하는 자동 번역 방법.
  14. 제 13항에 있어서, 상기 병렬구조 인식은
    상기 판단 결과 구문 노드 파싱해야 할 부분문장의 크기가 특정길이 이상이면, 구문패턴에 의한 병렬 구조 후보를 생성하는 단계와,
    상기 병력 구조의 각 후보에 대한 병렬노드 인식 수단 및 구문노드 제약을 통한 병렬구조를 선택하는 단계를 포함하는 자동 번역 방법.
  15. 제 5 항에 있어서, 상기 (e) 단계는
    (e1) 상기 (c) 단계에서 구축된 구문 및 문장 번역 패턴을 사용하여 입력되는 원시 언어 문서의 구조적 변환을 수행하여 목표 언어의 문장 구조로 변환하는 단계와,
    (e2) 단일어 및 복합명사 사전을 사용하여 원시 언어 문서에 따른 각 원시 어휘에 대한 최적의 대역어를 선택하여 어휘 레벨에서의 변환을 수행하는 단계와,
    (e3) 상기의 구조 변환 및 어휘 변환 결과들을 바탕으로 변환 자료 구조를 생성하는 단계를 포함하는 자동 번역 방법.
  16. 제 15 항에 있어서,
    상기 (e1) 단계의 구조적 변환은 문장 단위, 절 단위, 구 단위로 수행되는 것을 특징으로 하는 자동 번역 방법.
KR1020060056203A 2005-12-05 2006-06-22 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치및 방법 KR100792204B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US11/633,896 US7747427B2 (en) 2005-12-05 2006-12-05 Apparatus and method for automatic translation customized for documents in restrictive domain

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20050117691 2005-12-05
KR1020050117691 2005-12-05

Publications (2)

Publication Number Publication Date
KR20070058950A true KR20070058950A (ko) 2007-06-11
KR100792204B1 KR100792204B1 (ko) 2008-01-08

Family

ID=38355513

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060056203A KR100792204B1 (ko) 2005-12-05 2006-06-22 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치및 방법

Country Status (1)

Country Link
KR (1) KR100792204B1 (ko)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100805190B1 (ko) * 2006-09-07 2008-02-21 한국전자통신연구원 영어 문장 분리 장치 및 방법
KR100911619B1 (ko) * 2007-12-11 2009-08-12 한국전자통신연구원 자동번역 시스템에서의 영어 어휘 패턴 구축 방법 및 장치
KR100912502B1 (ko) * 2007-07-27 2009-08-17 한국전자통신연구원 Pdf 파일을 대상으로 하는 자동 번역 방법
KR100912501B1 (ko) * 2007-08-09 2009-08-17 한국전자통신연구원 번역 지식 구축 방법 및 장치
WO2010074426A2 (ko) * 2008-12-24 2010-07-01 주식회사 씽크풀 번역서비스 제공방법 및 그 시스템
US9529796B2 (en) 2011-09-01 2016-12-27 Samsung Electronics Co., Ltd. Apparatus and method for translation using a translation tree structure in a portable terminal
KR20170135333A (ko) 2016-05-31 2017-12-08 주식회사 라이프시맨틱스 공통 용어체계 기반 의료용어 번역 시스템
CN112818711A (zh) * 2021-02-23 2021-05-18 湖北省地震局(中国地震局地震研究所) 一种翻译科技文献中一词多义的专业术语的机器翻译方法
CN113268980A (zh) * 2021-04-29 2021-08-17 赵天诚 文本识别方法、装置、终端设备和存储介质
CN113722497A (zh) * 2020-05-26 2021-11-30 阿里巴巴集团控股有限公司 基于专利数据的语料生成方法及装置
KR20240078948A (ko) 2022-11-28 2024-06-04 고려대학교 산학협력단 도메인 적응 토큰화 방법 및 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05158969A (ja) * 1991-12-02 1993-06-25 Nec Corp 言語処理システム
KR100453227B1 (ko) * 2001-12-28 2004-10-15 한국전자통신연구원 번역 지원 시스템에서의 유사 문장 검색 방법
KR100542755B1 (ko) * 2003-09-15 2006-01-20 한국전자통신연구원 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체
KR100511409B1 (ko) * 2003-12-23 2005-08-31 한국전자통신연구원 기계번역을 위한 번역단위 추출/검색장치 및 방법
KR100617318B1 (ko) * 2004-12-08 2006-08-30 한국전자통신연구원 2단계 구문분석을 통한 자동 번역 장치 및 방법

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100805190B1 (ko) * 2006-09-07 2008-02-21 한국전자통신연구원 영어 문장 분리 장치 및 방법
US8108202B2 (en) 2007-07-27 2012-01-31 Electronics And Telecommunications Research Institute Machine translation method for PDF file
KR100912502B1 (ko) * 2007-07-27 2009-08-17 한국전자통신연구원 Pdf 파일을 대상으로 하는 자동 번역 방법
KR100912501B1 (ko) * 2007-08-09 2009-08-17 한국전자통신연구원 번역 지식 구축 방법 및 장치
US8121829B2 (en) 2007-08-09 2012-02-21 Electronics And Telecommunications Research Institute Method and apparatus for constructing translation knowledge
KR100911619B1 (ko) * 2007-12-11 2009-08-12 한국전자통신연구원 자동번역 시스템에서의 영어 어휘 패턴 구축 방법 및 장치
WO2010074426A2 (ko) * 2008-12-24 2010-07-01 주식회사 씽크풀 번역서비스 제공방법 및 그 시스템
KR101052004B1 (ko) * 2008-12-24 2011-07-27 주식회사 씽크풀 번역서비스 제공방법 및 그 시스템
WO2010074426A3 (ko) * 2008-12-24 2010-09-16 주식회사 씽크풀 번역서비스 제공방법 및 그 시스템
US9529796B2 (en) 2011-09-01 2016-12-27 Samsung Electronics Co., Ltd. Apparatus and method for translation using a translation tree structure in a portable terminal
KR20170135333A (ko) 2016-05-31 2017-12-08 주식회사 라이프시맨틱스 공통 용어체계 기반 의료용어 번역 시스템
CN113722497A (zh) * 2020-05-26 2021-11-30 阿里巴巴集团控股有限公司 基于专利数据的语料生成方法及装置
CN112818711A (zh) * 2021-02-23 2021-05-18 湖北省地震局(中国地震局地震研究所) 一种翻译科技文献中一词多义的专业术语的机器翻译方法
CN112818711B (zh) * 2021-02-23 2023-11-03 湖北省地震局(中国地震局地震研究所) 一种翻译科技文献中一词多义的专业术语的机器翻译方法
CN113268980A (zh) * 2021-04-29 2021-08-17 赵天诚 文本识别方法、装置、终端设备和存储介质
KR20240078948A (ko) 2022-11-28 2024-06-04 고려대학교 산학협력단 도메인 적응 토큰화 방법 및 장치

Also Published As

Publication number Publication date
KR100792204B1 (ko) 2008-01-08

Similar Documents

Publication Publication Date Title
KR100792204B1 (ko) 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치및 방법
US7747427B2 (en) Apparatus and method for automatic translation customized for documents in restrictive domain
KR101031970B1 (ko) 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법
Castellví et al. Automatic term detection
Shindo et al. Bayesian symbol-refined tree substitution grammars for syntactic parsing
US20130103390A1 (en) Method and apparatus for paraphrase acquisition
JP2000353161A (ja) 自然言語生成における文体制御方法及び装置
Antony et al. Kernel based part of speech tagger for kannada
Amrullah et al. A comparison of different part-of-speech tagging technique for text in Bahasa Indonesia
Nguyen et al. An ontology-based approach for key phrase extraction
Iosif et al. Speech understanding for spoken dialogue systems: From corpus harvesting to grammar rule induction
JP3441400B2 (ja) 言語変換規則作成装置、及びプログラム記録媒体
Elsheikh Timeline of the development of Arabic PoS taggers and Morphological analysers
Brierley et al. Tools for Arabic Natural Language Processing: a case study in qalqalah prosody
Abafogi Enhanced word sense disambiguation algorithm for Afaan Oromoo
Khatun et al. Statistical parsing of Bangla sentences by CYK algorithm
Reda Unsupervised machine learning approach for Tigrigna word sense disambiguation
Naseer et al. Supervised word sense disambiguation for Urdu using Bayesian classification
Souter et al. Using Parsed Corpora: A review of current practice
Eineborg et al. ILP in part-of-speech tagging—an overview
Le et al. An experimental study on lexicalized statistical parsing for Vietnamese
Singh et al. Additional Diverse Techniques for Improvising Lesk Algorithm to Enhance Manipuri Word Sense Disambiguation
Salim Elsheikh et al. TIMELINE OF THE DEVELOPMENT OF ARABIC POS TAGGERS AND MORPHOLOGICALANALYSERS
Aghayev et al. Lemmatization of Nouns in the Azerbaijani Language using Embeddings
Murat et al. Low-resource POS tagging with Deep Affix Representation and Multi-head Attention

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20121129

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20131128

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20151127

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20161121

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee