KR101023209B1 - 문서 번역 장치 및 그 방법 - Google Patents

문서 번역 장치 및 그 방법 Download PDF

Info

Publication number
KR101023209B1
KR101023209B1 KR1020080099995A KR20080099995A KR101023209B1 KR 101023209 B1 KR101023209 B1 KR 101023209B1 KR 1020080099995 A KR1020080099995 A KR 1020080099995A KR 20080099995 A KR20080099995 A KR 20080099995A KR 101023209 B1 KR101023209 B1 KR 101023209B1
Authority
KR
South Korea
Prior art keywords
document
tagging
english
text analysis
text
Prior art date
Application number
KR1020080099995A
Other languages
English (en)
Other versions
KR20100041019A (ko
Inventor
노윤형
최승권
이기영
권오욱
김영길
김창현
서영애
양성일
김운
박은진
오영순
윤창호
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080099995A priority Critical patent/KR101023209B1/ko
Priority to US12/484,550 priority patent/US20100094615A1/en
Publication of KR20100041019A publication Critical patent/KR20100041019A/ko
Application granted granted Critical
Publication of KR101023209B1 publication Critical patent/KR101023209B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Abstract

본 발명은 문서 번역 기법에 관한 것으로, 문서 내 텍스트에 대한 형태소를 분석하여 그에 대응하는 태깅을 수행하며, 태깅된 결과에 대한 텍스트 분석을 수행하고 그 분석 결과를 태깅 정보에 반영하여 출력하면, 출력된 문서에 대한 태깅 결과에 대해 구조 분석을 수행하고, 구조 변환을 수행한 후에, 텍스트 분석 정보를 참조하여 대역어를 선택하고, 형태소 생성을 수행하여 한글 문서에 대응하는 각 형태소를 생성하여 그 번역된 문서를 출력함으로써, 영문 문서를 정확하게 번역하여 그 번역 문서를 출력할 수 있고, 번역 문서에 대한 가독성(readability)을 향상시킬 수 있는 것이다.
문서 번역, 형태소 분석, 태깅 정보, 대역어

Description

문서 번역 장치 및 그 방법{DOCUMENT TRANSLATION APPARATUS AND ITS METHOD}
본 발명은 문서 번역 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 영문을 다른 언어로 번역할 경우 텍스트 분석을 통해 그 연관 관계에 따라 입력된 영문 문서에 대한 번역을 수행하는데 적합한 문서 번역 장치 및 그 방법에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT 성장동력 핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-037-03, 과제명: 응용 특화 한중영 자동번역 기술개발].
잘 알려진 바와 같이, 자동 번역을 수행함에 있어서 대역어의 선택은 최종 출력되는 번역 문서의 품질을 결정하는 중요한 요인이기 때문에 정확하고 자연스러운 대역어 선택을 위한 많은 연구가 진행되고 있다.
이러한 연구는 크게 소스 언어 관점에서 단어 의미의 모호성을 분석하는 기법, 목적 언어 관점에서 자연스러운 대역어 선택에 관한 기법 등에 대해 수행되고 있으며, 이를 위해 공기 정보(co-occurrence information), 선택 제한(selectional restriction) 패턴 정보, 대량의 목적 언어 코퍼스(corpus)로부터 추출한 통계 정보 등이 이용되어 왔다.
하지만, 종래의 연구는 기존의 공기 정보, 선택 제한 패턴 정보, 대량의 목적 언어 코퍼스로부터 미리 대역어 선택 정보를 구축해 둔 상태에서 문장 번역을 하면서 적용하는 것으로, 문서 단위의 번역을 수행하는 경우 주어진 문서 자체의 정보를 충분히 활용하지 못하는 문제점이 있고, 특히, 웹 번역의 경우 끊임없이 새롭게 출현되는 고유 명사, 신조어 등에 대처하기 힘들다는 문제점이 있다.
또한, 영한 번역의 경우 영어 문서에서는 일반적으로 반복되는 표현을 회피하려는 성향이 있는 반면, 한국어 문서에서는 동일한 대상물에 대해서 동일한 용어를 사용하는 경향이 나타나는 등 언어적 특성을 반영하여 번역을 수행하지 못하고 있는 실정이며, 이로 인해 번역 성능이 개선될수록, 부정확하거나 부자연스러운 대역문을 생성하여 사용자가 번역문을 이해하는데 어려움이 발생할 문제점이 있다.
이에 따라, 본 발명은 입력된 문서에 대한 텍스트 분석을 통해 대역어 선택 성능을 향상시킴으로써, 영문 문서에 대한 번역을 수행할 수 있는 문서 번역 장치 및 그 방법을 제공하고자 한다.
또한, 본 발명은 텍스트 분석을 통해 고유 명사, 연관어, 지칭어를 인식하고, 그에 대응하는 대역어를 선택할 수 있는 문서 번역 장치 및 그 방법을 제공하고자 한다.
일 관점에서 본 발명은, 입력된 영문 문서에 대해 형태소 분석 및 태깅을 수행하고, 상기 형태소 분석 및 태깅을 수행한 결과에 대한 텍스트 분석을 수행하며, 그 텍스트 분석 정보가 반영된 태깅 결과를 출력하는 문서 처리 블록과, 상기 문서 처리 블록으로부터 출력된 상기 태깅 결과에 대해 구조 분석 및 구조 변환을 수행한 후, 상기 텍스트 분석 정보를 참조하여 대역어를 선택하고, 상기 선택된 대역어에 대응하는 한글 형태소를 생성하여 상기 입력된 영문 문서에 대응하는 번역 문서를 출력하는 문서 번역 블록을 포함하는 문서 번역 장치를 제공한다.
다른 관점에서 본 발명은, 입력되는 영문 문서의 텍스트를 형태소로 구분 및 분석하여 형태소별로 태깅하는 단계와, 상기 형태소별로 태깅된 결과에 대한 텍스트 분석을 수행하고, 그 텍스트 분석 정보를 제공하는 단계와, 상기 텍스트 분석 정보를 태깅 결과에 반영하거나 조정하여 출력하는 단계와, 출력된 상기 태깅 결과에 따라 문장 구조를 분석하고, 영문 구조에서 한글 구조로 변환하는 단계와, 상기 텍스트 분석 정보를 참조하여 상기 한글 구조로 변환된 문서에 대한 대역어를 선택하고, 이를 이용하여 한글 형태소를 생성하고, 번역된 번역 문서를 출력하는 단계를 포함하는 문서 번역 방법을 제공한다.
본 발명은, 입력된 문서에 대해 형태소 분석 및 태깅을 수행하고, 태깅된 결과에 대한 텍스트 분석을 통해 고유명사, 연관어, 유사어등의 텍스트 분석정보를 생성하고, 생성된 분석정보에 따라 텍스트의 태깅 정보를 수정하고 필요한 정보를 추가하여 출력하면, 출력된 문서에 대한 태깅 정보를 바탕으로 텍스트에 대한 문장 구조를 분석하고, 구조 변환을 수행한 후에, 기 분석한 텍스트 분석 정보를 참조하여 대역어를 선택하고, 그에 따라 형태소를 생성하여 그 번역된 문서를 출력함으로써, 영문 문서의 번역 정확성과 가독성을 향상시킬 수 있다.
또한, 본 발명은 번역할 문서에 대해 텍스트 분석을 수행하여 고유명사, 연관어, 지칭어 등을 추출하고 이를 이용하여 고유명사 인식, 연관어 및 지칭어에 대한 적절한 대역어 선택 성능을 높이는 효과를 얻을 수 있다.
본 발명의 기술요지는, 입력된 영문 문서에 대한 전처리, 형태소 분석 및 태깅 결과에 대해 텍스트 분석을 수행하고, 그 텍스트 분석 결과에 따라 태깅 수정 및 대역어 선택을 수행함으로써, 영문 문서에 대응하는 번역 문서를 출력한다는 것이며, 이러한 기술적 수단을 통해 종래 기술에서의 문제점을 해결할 수 있다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세하게 설명한다.
도 1은 본 발명의 바람직한 실시 예에 따라 텍스트 분석 정보에 따라 입력 문서를 번역하는데 적합한 문서 번역 장치의 블록구성도로서, 문서 처리 블록(102), 문서 번역 블록(104) 및 텍스트 정보 데이터베이스(106)를 포함한다. 여기에서, 문서 처리 블록(102)은 전처리부(102a), 태깅부(102b), 텍스트 분석부(102c) 및 태깅 조정부(102d)를 포함하고, 문서 번역 블록(104)은 구조 분석부(104a), 구조 변환부(104b), 대역어 선택부(104c) 및 형태소 생성부(104d)를 포함한다.
도 1을 참조하면, 문서 처리 블록(102)은 입력된 문서(예를 들면, 영문 문서)에 대한 숫자, 날짜 등을 인식하는 태깅 전처리를 수행하고, 문서 내 형태소를 분석하여 그에 대응하는 태깅을 수행하며, 태깅된 결과에 대한 텍스트 분석을 통해 고유 명사, 명사구 등에 대한 통계 정보를 추출한 후에, 추출된 통계 정보에 대응하는 텍스트 분석 정보를 생성하고, 생성된 분석 정보에 따라 텍스트의 태깅 정보를 수정하고, 분석된 텍스트 정보를 추가하여 출력한다.
여기에서, 문서 처리 블록(102)의 전처리부(102a)는 입력된 문서에 포함된 텍스트 중에서 숫자, 날짜 등을 인식하여 하나의 단위로 청킹(chunking)하고, 이러한 입력 문서를 태깅부(102b)로 전달한다. 여기에서, 날짜는 예를 들면, ‘2008, 06, 05’, ‘JUNE, 05, 2008' 등의 형태로 작성된 텍스트를 판별하여 인식할 수 있다.
그리고, 태깅부(102b)는 전처리부(102a)로부터 전달되는 입력 문서에 대해 텍스트의 형태소를 분석하고, 그 형태소별로 태깅을 수행하여 이를 텍스트 분석부(102c)에 전달한다.
다음에, 텍스트 분석부(102c)는 태깅부(102b)로부터 전달되는 형태소별로 태깅된 입력 문서에 대해 예를 들면, 고유 명사, 명사구, 단어 등에 대한 통계 정보(예를 들면, 발생 빈도수 등)를 추출하여 이를 그 빈도수에 따라 정렬하고, 고유 명사, 명사구, 단어 등에 대한 예를 들면, 동의어, 유사어, 상위어, 하위어 등과 같은 연관 관계를 분석한 후에, 그 텍스트 분석 정보를 형태소별로 태깅된 입력 문서와 함께 태깅 조정부(102d)에 전달한다.
여기에서, 텍스트 분석부(102c)에서는 발생 빈도수가 많은 단어가 일반적으로 입력 문서의 주제와 연관된 단어일 가능성이 높기 때문에 그 빈도수에 따라 정렬하며, 대문자로 시작된 단어의 나열, 정해진 패턴 등을 통해 고유 명사를 인식하고, 기본 명사구 정보를 이용하여 명사구를 추출하며, 워드넷 등과 같은 영어 시소러스 또는 텍스트 정보 데이터베이스(106)를 이용하여 추출된 단어, 고유 명사, 명사구 등의 연관 관계를 분석하며, 단어, 고유 명사, 명사구 등에 대해 인식되는 순서대로 저장된 스택을 이용하여 가장 최근에 나타난 유사어의 연결 관계를 분석한다.
또한, 태깅 조정부(102d)는 형태소별로 태깅된 입력 문서를 그 텍스트 분석 정보에 따라 그 태깅 정보를 수정 또는 추가하여 그 태깅 정보가 조정된 입력 문서를 출력한다.
한편, 문서 번역 블록(104)은 문서 처리 블록(102)으로부터 출력된 문서에 대한 태깅 정보를 바탕으로 텍스트에 대한 문장 구조를 분석하고, 예를 들면, 영문과 한글의 구조 변환을 수행한 후에, 그 텍스트 분석 정보를 참조하여 텍스트에 대응하는 대역어를 선택하고, 선택된 대역어를 이용하여 한글 문서에 대응하는 각 형태소를 생성하여 그 번역된 문서를 출력한다.
여기에서, 문서 번역 블록(104)의 구조 분석부(104a)는 문서 처리 블록(102)의 태깅 조정부(102d)로부터 출력되는 입력 문서에 대한 태깅 정보에 따라 예를 들면, 단어, 고유 명사, 명사구 등에 대한 동의어, 유사어, 상위어, 하위어 등의 연관 관계를 이용하여 그 텍스트의 문장 구조를 분석한 후, 그 구조 분석 결과와 함께 해당 문서를 구조 변환부(104b)에 전달한다.
그리고, 구조 변환부(104b)는 구조 분석부(104a)로부터 전달되는 구조 분석 결과에 따라 해당 문서(즉, 영문 문서)를 예를 들면, 한글 문서 등으로 구조 변환을 수행하여 그 구조 변환된 문서를 대역어 선택부(104c)에 전달한다.
다음에, 대역어 선택부(104c)는 구조 변환부(104b)로부터 전달되는 구조 변환된 문서에 포함된 단어들에 대해 텍스트 분석 정보를 이용하여 대역어를 선택한 후, 이러한 대역어 선택 결과와 함께 해당 문서를 형태소 생성부(104d)로 전달한다.
이어서, 형태소 생성부(104d)는 대역어 선택부(104c)로부터 전달되는 대역어 선택 결과에 따라 해당 문서에 포함된 텍스트에 대응하는 각각의 형태소를 생성하여 그 결과에 따른 번역 문서를 출력한다.
한편, 텍스트 정보 데이터베이스(106)는 예를 들면, 영문 사전 데이터, 한글 사전 데이터, 영어 시소러스(thesaurus), 한글 시소러스 등을 저장하고 있는 것으로, 이들은 필요에 따라 추출되어 문서 처리 블록(102) 또는 문서 번역 블록(104) 으로 제공된다.
다음에, 상술한 바와 같은 구성을 갖는 문서 번역 장치를 이용하여 입력된 영문 문서에 대한 형태소를 분석하여 그에 대응하는 태깅을 수행하며, 태깅된 결과에 대한 텍스트 분석을 통해 그에 대응하는 통계 정보를 추출한 후에, 텍스트간 연관 관계에 대응하는 텍스트 분석 정보를 생성하고, 생성된 텍스트 분석 정보에 따라 텍스트의 태깅 정보를 수정, 추가 등을 수행하여 출력하면, 출력된 문서에 대한 태깅 정보를 바탕으로 텍스트에 대한 문장 구조를 분석하고, 구조 변환을 수행한 후에, 그 텍스트 분석 정보를 참조하여 텍스트에 대응하는 대역어를 선택하고, 선택된 대역어를 이용하여 한글 문서에 대응하는 각 형태소를 생성하여 그 번역된 문서를 출력하는 과정에 대해 설명한다.
도 2는 본 발명의 일 실시 예에 따라 텍스트 분석 정보를 통해 입력 문서에 대한 태깅 및 번역을 수행하여 그에 대응하는 번역 문서를 출력하는 과정을 도시한 플로우차트이다.
도 2를 참조하면, 문서 처리 블록(102)의 전처리부(102a)에서는 입력된 영문 문서에 포함된 텍스트 중에서 숫자, 날짜 등을 인식하는 태깅 전처리를 수행한 후에, 전처리한 영문 문서를 태깅부(102b)로 전달한다(단계202). 여기에서, 태깅 전처리는 예를 들면, ‘2008, 06, 05’, ‘JUNE, 05, 2008' 등의 형태로 작성된 텍스트를 판별하여 인식할 수 있다.
그리고, 문서 처리 블록(102)의 태깅부(102b)에서는 전처리부(102a)로부터 전달되는 영문 문서에 대해 형태소를 구분 및 분석하고, 그 형태소에 대한 태깅을 수행한 후, 태깅된 영문 문서를 텍스트 분석부(102c)에 전달한다(단계204).
다음에, 문서 처리 블록(102)의 텍스트 분석부(102c)에서는 태깅부(102b)로부터 전달되는 태깅된 영문 문서에 대해 예를 들면, 고유 명사, 명사구, 단어 등에 대한 통계 정보(예를 들면, 발생 빈도수 등)를 추출하여 이를 그 빈도수에 따라 정렬한다(단계206).
또한, 문서 처리 블록(102)의 텍스트 분석부(102c)에서는 정렬된 통계 정보에 따라 고유 명사를 추출하고, 그 정렬된 통계 정보에 따라 기본 명사구를 추출한다(단계208, 210). 여기에서, 고유 명사 및 기본 명사구의 추출은 텍스트 정보 데이터베이스(106)에 저장된 예를 들면, 영문 사전 데이터, 한글 사전 데이터, 영어 시소러스(thesaurus), 한글 시소러스 등을 이용하여 수행될 수 있다.
그리고, 문서 처리 블록(102)의 텍스트 분석부(102c)에서는 추출된 고유 명사, 기본 명사구 등에 대한 예를 들면, 동의어, 유사어, 상위어, 하위어 등과 같은 연관 관계를 분석한 후에, 그 텍스트 분석 정보를 형태소별로 태깅된 영문 문서와 함께 태깅 조정부(102d)에 전달한다(단계212).
여기에서, 텍스트 분석부(102c)에서는 예를 들면, 영문 사전 데이터, 한글 사전 데이터, 영어 시소러스(thesaurus), 한글 시소러스 등이 저장된 텍스트 정보 데이터베이스(106)를 이용하여 추출된 단어, 고유 명사, 명사구 등의 연관 관계를 분석할 수 있고, 단어, 고유 명사, 명사구 등에 대해 인식되는 순서대로 저장된 스택을 이용하여 가장 최근에 나타난 유사어의 연결 관계를 분석할 수 있다.
또한, 문서 처리 블록(102)의 태깅 조정부(102d)에서는 형태소별로 태깅된 영문 문서를 텍스트 분석부(102c)로부터 전달되는 텍스트 분석 정보에 따라 그 태깅 정보를 수정 또는 추가하여 그 태깅 정보가 조정된 결과를 출력한다(단계214, 216).
한편, 문서 번역 블록(104)의 구조 분석부(104a)에서는 문서 처리 블록(102)의 태깅 조정부(102d)로부터 출력되는 태깅 결과 영문 문서에 대한 태깅 정보에 따라 예를 들면, 단어, 고유 명사, 명사구 등에 대한 동의어, 유사어, 상위어, 하위어 등의 연관 관계를 이용하여 그 텍스트의 문장 구조를 분석한 후, 그 구조 분석 결과와 함께 해당 문서를 구조 변환부(104b)에 전달하고, 구조 변환부(104b)에서는 구조 분석부(104a)로부터 전달되는 구조 분석 결과에 따라 해당 영문 문서를 예를 들면, 한글 문서 등으로 구조 변환을 수행하여 그 구조 변환된 문서를 대역어 선택부(104c)에 전달한다(단계218).
다음에, 문서 번역 블록(104)의 대역어 선택부(104c)에서는 텍스트 분석 정보를 참조하여 구조 변환부(104b)로부터 전달되는 구조 변환된 문서에 포함된 각각의 단어, 고유 명사, 명사구 등에 대한 대역어를 선택한 후, 이러한 대역어 선택 결과와 함께 해당 문서를 형태소 생성부(104d)로 전달하고, 문서 번역 블록(104)의 형태소 생성부(104d)에서는 대역어 선택부(104c)로부터 전달되는 대역어 선택 결과에 따라 해당 문서에 포함된 텍스트에 대응하는 각각의 형태소를 생성하여 그 결과에 따른 번역 문서를 출력한다(단계220).
따라서, 입력된 영문 문서에 대한 전처리, 형태소 분석을 통한 태깅, 통계 정보에 따른 정렬, 텍스트간 연관 관계에 따른 태깅 정보를 포함하는 영문 문서를 출력하고, 이러한 영문 문서에 대해 구조 분석, 구조 변환, 대역어 선택, 형태소 생성을 통해 입력된 영문 문서에 대응하는 번역 문서를 출력할 수 있다.
도 3a 내지 도 3d는 본 발명에 따라 입력된 영문 문서에 대한 태깅 정보, 통계 정보를 통해 텍스트간 연관 관계를 분석하는 것을 설명하기 위한 도면으로, 태깅부(102b)에 도 3a에 도시된 바와 같은 영문 문서가 전달되면, 도3b에 도시한 바와 같은 태깅 결과를 포함하는 영문 문서를 텍스트 분석부(102c)에 전달하고, 텍스트 분석부(130)에서는 명사류(예를 들면, NN* 태깅)에 대한 단어 빈도수(발생 빈도수)를 추출하여 빈도순으로 도 3c에 도시한 바와 같이 정렬한다.
도 3에서 형태소별로 태깅된 태그에 대해 설명하면, CC는 대등접속사(coor), CD는 수사, DT는 관사, EX는 there, FW는 외국어, IN은 전치사, JJ는 형용사, JJR는 비교급 형용사, JJS는 과거형 형용사, LS는 리스트 아이템(list item), MD는 조동사, NN는 명사, NNS 복수형 명사, NNP는 고유명사, NNPS 복수형 고유명사, PDT는 한정 전치사(pre-determiner), PRP는 대명사, PRP$는 소유대명사, RB는 부사, RBR는 비교급 부사, RBS는 최상급 부사, RP는 접두(미)사(particle), SYM는 심볼, TO는 to, UH는 감탄사, VB는 원형 동사, VBD는 과거형 동사, VBG는 Ing형 동사, VBN는 과거분사, VBP는 현재형 동사, VBZ는 3인칭 현재형 동사, WDT는 which, WP는 관계대명사, WP$는 소유관계대명사, WRB는 관계부사, -LRB-는 (, -RRB-는 ), CONJ는 종속접속사, CONJN는 접속사 that 등을 나타낸다.
여기서, 텍스트 분석부(102c)에서는 추출된 정보를 통하여 이 문서의 주제가 “IBM”의 “revenue”에 관련된 것임을 유추할 수 있고, 대문자 나열 및 “CEO, CFO”와 같은 키워드를 이용하여 “Big Blue”, “Thomson Financial”, “Wall Street”, “IBM”, “Samuel Palmisano”, “Palmisano”, “Mark Loughridge”, “IT”, “Loughridge” 등과 같은 고유명사를 추출하며, big profits, Wall Street estimates, net income, international currencies, lowly dollar, all resources, continuing operations, constant currency rate, international diversification, recurring revenue businesses, conference call, IT projects, cost savings, earnings guidance 등의 명사구를 추출한다.
그리고, 텍스트 분석부(102c)에서는 고유 명사 사전 데이터, 부분 어휘 매칭 정보, 영문 사전 데이터, 한글 사전 데이터, 영어 시소러스(thesaurus), 한글 시소러스 등이 저장된 텍스트 정보 데이터베이스(106)를 통해 연관 관계 리스트를 형성하고, 고유 명사 사전 데이터는 대량의 코퍼스로부터 고유 명사를 추출하여 고유 명사의 의미 분류 및 대역어 정보를 추가하여 구축해 둔 것이다.
한편, 위의 “Big_Blue”에 대한 내용을 보면, “Conrail, IBM, Progressive Insurance”등의 대역어를 가지고 있고, 이 사전의 대역어와 추출된 단어와의 매칭을 토대로, “Big Blue” = “IBM”의 관계가 형성되며, 부분 어휘 매칭에 의해서, “Samuel Palmisano” = “Palmisano”, “Mark Loughridge” = “Loughridge”의 관계가 형성되고, 고유 명사를 제외한 단어들에 대해 워드넷과 같은 시소러스에서 의미적 거리가 가까운 단어들을 그룹핑하면 도 3d에 도시한 바와 같은 의미적인 상하위 관계가 존재한다는 걸 알 수 있고, 이를 통해 유사어 인식 및 의미 분별이 이루어진다.
그리고, 지칭어의 인식에 있어서 “the NOUN”형태에서 “NOUN”이 단일명사일 때, 가장 최근의 유사어 또는 연관어를 검색함으로써 인식하는데, 본 예시 문서에서는, “the company” = “IBM”임을 알 수 있다. 이러한 모든 분석 정보는 태깅 조정부(102d)에 전달되어 고유 명사에 대해서는 태그를 수정하고, 연관어 정보가 태깅 정보에 저장되어 이후에 번역 과정에서 이용된다.
한편, 대역어 선택부(104c)에서는 “Big Blue”나 “the company”의 대역어에 대해 연관어 및 지칭어 정보를 이용하여 “IBM”을 대역어로 출력하게 되고, “Palmisano”나 “Loughridge”등은 의미적으로 CEO, CFO임을 연관어를 통해 알 수 있기 때문에 동사구 패턴 적용시 이를 적용하여 패턴을 선택할 수 있다. 그리고, “income”, “revenue”, “earning”, “profit”에 대해서는 유사어이기는 하지만 한국어로 번역할 때, 대역어를 변별해야 할 경우가 있는데, 그러한 경우 유사어에 대해서는 한국어 변별 사전 데이터를 구축하여 변별된 대역어를 선택하도록 할 수 있으며, 만약 이러한 변별 사전 데이터가 텍스트 정보 데이터베이스(106)에 저장되어 있지 않는 경우에는 유사어들에 대해 대역어를 통일함으로써, 번역의 일관성을 유지시킬 수 있다.
도 4는 본 발명에 따라 텍스트 분석 정보를 이용한 번역으로 인한 효과를 설명하기 위한 도면으로, 도 3a 내지 도 3d를 참조하여 설명한 과정을 수행한 후, 연관어 및 지칭어를 분석하면, “Apple” = “company”, “Michae Lopp”= “Lopp”, “touch technology team” = “team”, “the company”= “Apple” 등과 같은 분석결과가 얻어지고, 이에 따라 대역어 선택부(104c)에서는 위와 같은 연관어 정보를 바탕으로 다음과 같이 대역어 선택을 할 수 있다.
1. Apple seeking engineers with the right touch : Apple의 대역어로 “Apple사”를 선택.
2. The team features opportunities for individuals to contribute across a wide spectrum of disciplines. : "team”의 대역어를 “touch technology team”의 대역어로 대체.
3. The company appears to mean that last cliche about “pushing the envelope.” :”company”를 “Apple사”로 대체.
4. As Lopp put it : to “go crazy” : “Lopp”을 “Michael Lopp”으로 대체 가능하고, “Lopp”의 의미코드로 인명임을 인식할 수 있어서 구조 분석이나 패턴 적용 시 이용할 수 있음.
상술한 바와 같은 과정을 통해 영문 문서에 대응하여 한글로 번역된 결과에서 정확성과 가독성을 향상시킬 수 있다.
이상의 설명에서는 본 발명의 바람직한 실시 예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.
도 1은 본 발명의 바람직한 실시 예에 따라 텍스트간 연관 관계에 따라 입력 문서를 번역하는데 적합한 문서 번역 장치의 블록구성도,
도 2는 본 발명의 일 실시 예에 따라 텍스트간 연관 관계를 통해 입력 문서에 대한 태깅 및 번역을 수행하여 그에 대응하는 번역 문서를 출력하는 과정을 도시한 플로우차트,
도 3a 내지 도 3d는 본 발명에 따라 입력된 영문 문서에 대한 태깅 정보, 통계 정보를 통해 텍스트간 연관 관계를 분석하는 것을 설명하기 위한 도면,
도 4는 본 발명에 따라 텍스트간 연관 관계를 이용한 번역으로 인한 효과를 설명하기 위한 도면.
<도면의 주요부분에 대한 부호의 설명>
102 : 문서 처리 블록 102a : 전처리부
102b : 태깅부 102c : 텍스트 분석부
102d : 태깅 조정부 104 : 문서 번역 블록
104a : 구조 분석부 104b : 구조 변환부
104c : 대역어 선택부 104d : 형태소 생성부
106 : 텍스트 정보 데이터베이스

Claims (10)

  1. 입력된 영문 문서에 대해 형태소 분석 및 태깅을 수행하고, 상기 형태소 분석 및 태깅을 수행한 결과에 대한 텍스트 분석을 수행하며, 그 텍스트 분석 정보가 반영된 태깅 결과를 출력하는 문서 처리 블록과,
    상기 문서 처리 블록으로부터 출력된 상기 태깅 결과에 대해 구조 분석 및 구조 변환을 수행한 후, 상기 텍스트 분석 정보를 참조하여 대역어를 선택하고, 상기 선택된 대역어에 대응하는 한글 형태소를 생성하여 상기 입력된 영문 문서에 대응하는 번역 문서를 출력하는 문서 번역 블록
    을 포함하는 문서 번역 장치.
  2. 제 1 항에 있어서,
    상기 문서 처리 블록은,
    상기 입력된 영문 문서에 대한 숫자 및 날짜를 인식하는 태깅 전처리를 수행하는 전처리부와,
    상기 영문 문서의 텍스트를 형태소로 구분 및 분석하여 형태소별로 태깅하는 태깅부와,
    상기 형태소별로 태깅한 결과에 대한 상기 텍스트 분석을 수행하여 상기 텍스트 분석 정보를 제공하는 텍스트 분석부와,
    상기 텍스트 분석 정보를 태깅 결과에 반영하거나 조정하여 출력하는 태깅 조정부
    를 포함하는 것을 특징으로 하는 문서 번역 장치.
  3. 제 2 항에 있어서,
    상기 텍스트 분석부는, 상기 영문 문서에 대해 고유 명사 및 명사구를 인식하고, 인식된 단어들에 대한 연관 관계를 분석하여 상기 텍스트 분석 정보를 제공하는 것을 특징으로 하는 문서 번역 장치.
  4. 제 3 항에 있어서,
    상기 텍스트 분석부는, 고유 명사 사전 데이터, 부분 어휘 매칭 정보, 영문 사전 데이터, 한글 사전 데이터, 영어 시소러스(thesaurus), 한글 시소러스를 이용하여 상기 텍스트 분석 정보를 제공하는 것을 특징으로 하는 문서 번역 장치.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 문서 번역 블록은,
    상기 문서 처리 블록으로부터 출력된 상기 태깅 결과에 따라 상기 영문 문서의 문장 구조를 분석하는 구조 분석부와,
    상기 영문 문서의 구조 분석 결과에 따라 영문 구조에서 한글 구조로 변환하는 구조 변환부와,
    상기 텍스트 분석 정보를 참조하여 상기 한글 구조로 변환된 문서에 대한 상기 대역어를 선택하는 대역어 선택부와,
    선택된 상기 대역어를 이용하여 상기 한글 형태소를 생성하여 상기 영문 문서에 대응하는 번역된 상기 번역 문서를 출력하는 형태소 생성부
    를 포함하는 것을 특징으로 하는 문서 번역 장치.
  6. 제 5 항에 있어서,
    상기 대역어 선택부는, 상기 한글 구조로 변환된 문서의 고유 명사, 명사구, 단어에 대응하는 상기 대역어를 변별 사전 데이터 및 상기 텍스트 분석 정보를 기반으로 선택하는 것을 특징으로 하는 문서 번역 장치.
  7. 입력되는 영문 문서의 텍스트를 형태소로 구분 및 분석하여 형태소별로 태깅하는 단계와,
    상기 형태소별로 태깅된 결과에 대한 텍스트 분석을 수행하고, 그 텍스트 분석 정보를 제공하는 단계와,
    상기 텍스트 분석 정보를 태깅 결과에 반영하거나 조정하여 출력하는 단계와,
    출력된 상기 태깅 결과에 따라 문장 구조를 분석하고, 영문 구조에서 한글 구조로 변환하는 단계와,
    상기 텍스트 분석 정보를 참조하여 상기 한글 구조로 변환된 문서에 대한 대역어를 선택하고, 이를 이용하여 한글 형태소를 생성하고, 번역된 번역 문서를 출력하는 단계
    를 포함하는 문서 번역 방법.
  8. 제 7 항에 있어서,
    상기 텍스트 분석 정보를 제공하는 단계는, 상기 영문 문서에 대해 고유 명사 및 명사구를 인식하고, 인식된 단어들에 대한 연관 관계를 분석하여 상기 텍스트 분석 정보를 제공하는 방식으로 수행되는 것을 특징으로 하는 문서 번역 방법.
  9. 제 8 항에 있어서,
    상기 텍스트 분석 정보를 제공하는 단계는, 고유 명사 사전 데이터, 부분 어휘 매칭 정보, 영문 사전 데이터, 한글 사전 데이터, 영어 시소러스(thesaurus), 한글 시소러스를 이용하여 상기 텍스트 분석 정보를 제공하는 방식으로 수행되는 것을 특징으로 하는 문서 번역 방법.
  10. 제 7 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 대역어의 선택은, 상기 한글 구조로 변환된 문서의 고유 명사, 명사구, 단어에 대응하는 상기 대역어를 변별 사전 데이터 및 상기 텍스트 분석 정보를 기반으로 선택하는 방식으로 수행되는 것을 특징으로 하는 문서 번역 방법.
KR1020080099995A 2008-10-13 2008-10-13 문서 번역 장치 및 그 방법 KR101023209B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020080099995A KR101023209B1 (ko) 2008-10-13 2008-10-13 문서 번역 장치 및 그 방법
US12/484,550 US20100094615A1 (en) 2008-10-13 2009-06-15 Document translation apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080099995A KR101023209B1 (ko) 2008-10-13 2008-10-13 문서 번역 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20100041019A KR20100041019A (ko) 2010-04-22
KR101023209B1 true KR101023209B1 (ko) 2011-03-18

Family

ID=42099694

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080099995A KR101023209B1 (ko) 2008-10-13 2008-10-13 문서 번역 장치 및 그 방법

Country Status (2)

Country Link
US (1) US20100094615A1 (ko)
KR (1) KR101023209B1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8321398B2 (en) * 2009-07-01 2012-11-27 Thomson Reuters (Markets) Llc Method and system for determining relevance of terms in text documents
US20140025368A1 (en) * 2012-07-18 2014-01-23 International Business Machines Corporation Fixing Broken Tagged Words
US9690771B2 (en) * 2014-05-30 2017-06-27 Nuance Communications, Inc. Automated quality assurance checks for improving the construction of natural language understanding systems
US10120862B2 (en) * 2017-04-06 2018-11-06 International Business Machines Corporation Dynamic management of relative time references in documents
KR102253015B1 (ko) * 2017-11-09 2021-05-17 한국전자통신연구원 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치 및 그 방법
JP7139157B2 (ja) * 2018-06-04 2022-09-20 株式会社ユニバーサルエンターテインメント 検索文生成システム、及び検索文生成方法
CN112579760B (zh) * 2020-12-29 2024-01-19 深圳市优必选科技股份有限公司 人机对话方法、装置、计算机设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010081770A (ko) * 2000-02-18 2001-08-29 윤종용 목적언어 분석에 기반한 언어 번역 방법 및 장치
KR20040051351A (ko) * 2002-12-12 2004-06-18 한국전자통신연구원 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그장치
KR20050063990A (ko) * 2003-12-23 2005-06-29 한국전자통신연구원 기계번역을 위한 번역단위 추출/검색장치 및 방법
KR20090015604A (ko) * 2007-08-09 2009-02-12 한국전자통신연구원 번역 지식 구축 방법 및 장치

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02308370A (ja) * 1989-05-24 1990-12-21 Toshiba Corp 機械翻訳システム
JPH077419B2 (ja) * 1989-06-30 1995-01-30 シャープ株式会社 機械翻訳装置における略称付き固有名詞処理方法
US5416903A (en) * 1991-08-19 1995-05-16 International Business Machines Corporation System and method for supporting multilingual translations of a windowed user interface
US6760695B1 (en) * 1992-08-31 2004-07-06 Logovista Corporation Automated natural language processing
US6167368A (en) * 1998-08-14 2000-12-26 The Trustees Of Columbia University In The City Of New York Method and system for indentifying significant topics of a document
US6243669B1 (en) * 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6473730B1 (en) * 1999-04-12 2002-10-29 The Trustees Of Columbia University In The City Of New York Method and system for topical segmentation, segment significance and segment function
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
GB2390704A (en) * 2002-07-09 2004-01-14 Canon Kk Automatic summary generation and display
US20040230898A1 (en) * 2003-05-13 2004-11-18 International Business Machines Corporation Identifying topics in structured documents for machine translation
CN1910574A (zh) * 2004-01-06 2007-02-07 李仁燮 自动翻译器及其方法和用于编写该方法的记录媒体
US20070021956A1 (en) * 2005-07-19 2007-01-25 Yan Qu Method and apparatus for generating ideographic representations of letter based names
US7747427B2 (en) * 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
JP2007287134A (ja) * 2006-03-20 2007-11-01 Ricoh Co Ltd 情報抽出装置、及び情報抽出方法
US20080154577A1 (en) * 2006-12-26 2008-06-26 Sehda,Inc. Chunk-based statistical machine translation system
KR100912502B1 (ko) * 2007-07-27 2009-08-17 한국전자통신연구원 Pdf 파일을 대상으로 하는 자동 번역 방법
US8041697B2 (en) * 2007-08-31 2011-10-18 Microsoft Corporation Semi-automatic example-based induction of semantic translation rules to support natural language search
KR20100037813A (ko) * 2008-10-02 2010-04-12 삼성전자주식회사 통계적 자동 번역 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010081770A (ko) * 2000-02-18 2001-08-29 윤종용 목적언어 분석에 기반한 언어 번역 방법 및 장치
KR20040051351A (ko) * 2002-12-12 2004-06-18 한국전자통신연구원 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그장치
KR20050063990A (ko) * 2003-12-23 2005-06-29 한국전자통신연구원 기계번역을 위한 번역단위 추출/검색장치 및 방법
KR20090015604A (ko) * 2007-08-09 2009-02-12 한국전자통신연구원 번역 지식 구축 방법 및 장치

Also Published As

Publication number Publication date
KR20100041019A (ko) 2010-04-22
US20100094615A1 (en) 2010-04-15

Similar Documents

Publication Publication Date Title
Şeker et al. Initial explorations on using CRFs for Turkish named entity recognition
US9239826B2 (en) Method and system for generating new entries in natural language dictionary
KR101023209B1 (ko) 문서 번역 장치 및 그 방법
Kammoun et al. The MORPH2 new version: A robust morphological analyzer for Arabic texts
US20040254783A1 (en) Third language text generating algorithm by multi-lingual text inputting and device and program therefor
Sawalha et al. Fine-grain morphological analyzer and part-of-speech tagger for Arabic text
Kapočiūtė-Dzikienė et al. A comparison of Lithuanian morphological analyzers
Borin et al. Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information
Biswas et al. Development of a Bangla sense annotated corpus for word sense disambiguation
Baishya et al. Present state and future scope of Assamese text processing
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
Shquier et al. Fully automated Arabic to English machine translation system: transfer-based approach of AE-TBMT
Maulud et al. Towards a Complete Kurdish NLP Pipeline: Challenges and Opportunities
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
kumar et al. AMRITA_CEN@ FIRE-2014: morpheme extraction and lemmatization for tamil using machine learning
Abdelghany et al. Doc2Vec: An approach to identify Hadith Similarities
Aytan et al. Deep learning-based Turkish spelling error detection with a multi-class false positive reduction model
Raza et al. Saraiki Language Word Prediction And Spell Correction Framework
Abdukerim et al. Uyghur morphological analysis using joint conditional random fields: Based on small scaled corpus
Salim Elsheikh et al. TIMELINE OF THE DEVELOPMENT OF ARABIC POS TAGGERS AND MORPHOLOGICALANALYSERS
Adali et al. An integrated architecture for processing business documents in Turkish
Bhowmik et al. Development of A Word Based Spell Checker for Bangla Language
Ogrodniczuk et al. Improving polish mention detection with valency dictionary
Chaudhary et al. A Study of Transliteration Approaches
Alselwi et al. Extractive Arabic Text Summarization Using PageRank and Word Embedding

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140303

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150226

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160226

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170224

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180226

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20200224

Year of fee payment: 10