KR20120089502A - 번역지식 서버 생성 방법 및 그 장치 - Google Patents

번역지식 서버 생성 방법 및 그 장치 Download PDF

Info

Publication number
KR20120089502A
KR20120089502A KR1020100125870A KR20100125870A KR20120089502A KR 20120089502 A KR20120089502 A KR 20120089502A KR 1020100125870 A KR1020100125870 A KR 1020100125870A KR 20100125870 A KR20100125870 A KR 20100125870A KR 20120089502 A KR20120089502 A KR 20120089502A
Authority
KR
South Korea
Prior art keywords
data
translation knowledge
translation
knowledge
learning
Prior art date
Application number
KR1020100125870A
Other languages
English (en)
Inventor
김창현
서영애
양성일
황금하
최승권
노윤형
이기영
권오욱
김운
박은진
신종훈
김영길
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020100125870A priority Critical patent/KR20120089502A/ko
Priority to US13/316,369 priority patent/US20120150529A1/en
Publication of KR20120089502A publication Critical patent/KR20120089502A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

실시간으로 수집된 번역지식에 기초하여 번역지식 서버를 생성하는 방법 및 그 장치가 개시된다. 초기 번역지식 데이터를 수집하는 데이터 수집부, 데이터 수집부로부터 수집된 초기 번역지식 데이터의 형태소 분석 및 구문 분석을 수행하여 분석된 데이터를 출력하는 데이터 분석부 및 상기 분석된 데이터를 미리 결정된 도메인 정보에 따라 도메인별로 대역어를 결정하거나 학습 자동클러스팅을 통해 도메인을 결정하여 실시간 번역지식을 학습는 번역지식 학습부를 포함하여 구성될 수 있다. 실시간으로 웹 상에 등장하는 문서 및 사용자가 제공하는 문서들을 분석하여 번역지식을 획득하고 실시간으로 번역엔진에 적용함으로써 번역품질을 향상할 수 있다.

Description

번역지식 서버 생성 방법 및 그 장치{METHOD OF GENERATING TRANSLATION KNOWLEDGE SERVER AND APPARATUS FOR THE SAME}
본 발명은 번역지식 서버 생성 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 실시간으로 수집된 번역지식에 기초하여 번역지식 서버를 생성하는 방법 및 그 장치에 관한 것이다.
최근 국제화의 교류가 날로 증가함에 따라 이종 언어 간의 교류를 활발하게 하는 기계번역 활용이 날로 증가하고 있으며, 이와 같은 기계 번역에 있어서 그 정확도를 높이는 것이 중요한 과제이다. 이를 위한, 종래 기계 번역 시스템에서의 성능 향상 방법으로는 크게 대량의 말뭉치를 이용하여 번역 지식을 구축하는 방법 및 대량의 도메인 지식을 확장하는 방법이 있다.
먼저, 대량의 말뭉치를 이용하는 방법은 대량의 말뭉치에서 규칙 혹은 통계 정보를 이용하여 언어 지식을 추출하고, 추출한 언어 지식을 언어 지식이 있는 사람이 번역 사전에 입력하는 방법이다. 둘째로, 대량의 도메인 지식을 확장하는 방법은 기계 번역 시스템에서 사용될 도메인 지식을 꾸준히 확장하는 것으로, 특히 특정 도메인에서 높은 품질의 자동 번역을 얻기 위해서는, 그 도메인에 적합한 지식을 새로 구축함과 동시에 그 도메인에 적합하도록 기존에 구축된 지식과 번역 시스템을 특화하는 작업이 필요하다. 이를 위해 신조어 및 패턴 구축, 엔진 오류 튜닝, 기존에 기축된 지식에 대한 수정 등 특화작업이 필요한데 이런 작업은 통상 이중언어가 가능한 훈련된 언어 학자에 의해 달성된다.
하지만, 이러한 이중언어가 가능한 훈련된 언어 학자는 구하기 힘들뿐만 아니라 대량의 번역문장을 읽어야 하는 시간적 노력을 필요로 하는 한계가 존재하고 있다. 따라서, 특정 도메인에서 양질의 번역 품질을 얻기까지 많은 시간과 비용을 필요로 하며 번역성능 향상을 위한 효율성이 많이 떨어지는 문제점이 있다.
이러한 번역성능 향상을 위한 방법들은 대량의 데이터를 오프라인으로 모으고, 이를 일괄처리하여 번역 지식으로 구축하는 방식을 사용하였다. 이로 인해 매일 매일 등록되는 번역 요구 대상 문서들에 대해 올바른 번역 지식을 실시간으로 구축할 수 없음으로 인해 자동 번역 품질이 저하된다.
원문 오류 수정과 관련해서 기존 방법론에서는 사용자들에게 가이드라인을 제공해주고, 사용자들은 해당 가이드라인을 지켜 원문을 작성하도록 하는 것이 최선이었다. 그리고, 다른 사용자들이 작성하는 가이드라인을 참조하도록 하여 가이드라인 부족으로 인한 문제점을 해결하고자 하였다. 그러나, 가이드라인은 그 지침 자체가 애매할 수밖에 없으며, 가이드라인이 늘어나는 경우 사용자들이 많은 가이드라인을 모두 숙지한 후에 자동번역을 수행하도록 한다는 것은 현실성이 없는 방법이라고 볼 수 있다.
기존 번역지식/번역엔진의 오류와 관련해서는 번역엔진 개발을 지속적으로 진행하면서 파악되는 번역지식의 오류에 대해 해당 지식을 개별 혹은 일괄로 사람이 수정하고, 번역 엔진의 오류도 이와 유사한 방식을 취했다. 그러나, 이러한 방식은 지식 개선 및 엔진 오류를 위해 지속적으로 전문 인력을 필요로 하고 오류 파악, 엔진 및 지식 개선 사이클에 많은 시간이 요구되는 문제점이 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 제 1목적은, 실시간으로 수집된 번역지식에 기초하여 번역지식 서버를 생성하는 장치를 제공하는데 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 제 2 목적은, 실시간으로 수집된 번역지식에 기초하여 번역지식 서버를 생성하는 방법을 제공하는데 있다.
상기한 본 발명의 제 1목적을 달성하기 위한 본 발명의 일 실시예에 따른 번역지식 서버 생성 장치는, 초기 번역지식 데이터를 수집하는 데이터 수집부, 상기 데이터 수집부로부터 수집된 초기 번역지식 데이터의 형태소 분석 및 구문 분석을 수행하여 분석된 데이터를 출력하는 데이터 분석부 및 상기 분석된 데이터를 미리 결정된 도메인 정보에 따라 도메인별로 대역어를 결정하거나 학습 자동클러스팅을 통해 도메인을 결정하여 실시간 번역지식을 실시간 학습하는 번역지식 학습부를 포함하여 구성될 수 있다.
본 발명의 제 2 목적을 달성하기 위한 본 발명의 일 실시예에 따른 번역지식 서버 생성 방법은, 초기 번역지식 데이터를 수집하는 단계, 상기 수집된 초기 번역지식 데이터의 형태소 분석 및 구문 분석을 수행하여 분석된 데이터를 출력하는 단계 및 상기 분석된 데이터를 미리 결정된 도메인 정보에 따라 도메인별로 대역어를 결정하거나 학습 자동클러스팅을 통해 도메인을 결정하여 실시간 번역지식을 실시간 학습하는 단계를 포함하는 단계를 포함하여 구성될 수 있다.
상기와 같은 본 발명에 따른 실시간으로 수집된 번역지식에 기초하여 번역지식 서버를 이용할 경우에는 실시간으로 웹 상에 등장하는 문서 및 사용자가 제공하는 문서들을 분석하여 번역지식을 획득하고 실시간으로 번역엔진에 적용함으로써 번역품질을 향상할 수 있으며, 도메인별로 적용 지식을 달리함으로써 보다 정확한 번역 품질을 얻을 수 있다. 또한, 사용자 참여를 통한 원문오류/번역지식오류/번역엔진오류를 실시간으로 피드백받고 이를 통해 오류에 대한 학습을 진행함으로써 오류수정정보뿐만 아니라 해당 번역서버를 함께 사용하는 모든 사용자의 피드백을 사용할 수 있음으로 해서 사용자가 기대한 품질 이상의 개선을 이룰 수 있다는 이점이 있다.
도 1은 본 발명의 일 실시예에 따른 번역지식 서버 생성 장치의 내부 구조를 도시한 블럭도이다.
도 2는 본 발명의 일 실시예에 따른 번역지식 서버 생성 방법을 설명하기 위한 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
한편, 이하에서 설명될 본 발명의 일 실시예에서는 한국어 입력문을 수신하여 영어로 번역하는 경우를 설명하지만, 입력문 및 번역 대상 언어가 반드시 한국어 및 영어로만 한정되는 것은 아니다.
도 1은 본 발명의 일 실시예에 따른 번역지식 서버 생성 장치의 내부 구조를 도시한 블럭도이다.
도 1을 참조하면, 번역지식 서버 생성 장치는 데이터 수집부(101), 데이터 분석부(103), 번역지식 학습부(105), 도메인 결정부(107)을 포함하여 구성될 수 있다.
데이터 수집부(101)는 실시간으로 초기 번역지식 데이터를 파악하여 수집한다. 데이터 수집부(101)는 두 가지 방법을 이용하여 실시간으로 초기 번역지식 데이터를 파악할 수 있다. 먼저, 데이터 수집부(101)가 자동 파악 방법을 이용하여 실시간으로 초기 번역지식 데이터를 파악하는 과정을 설명하기로 한다. 본 발명의 일 실시예에 따르면, 데이터 수집부(101)는 웹에 존재하는 병렬/단일 말뭉치를 실시간으로 수집하고, HTML 과 같은 태그를 제거하여 번역 지식을 파악할 수 있다.
여기서 말뭉치는 '코퍼스'등으로 칭할 수 있으며, '코퍼스'의 단어 뜻이 저작자의 저작 전부, 혹은 한 특정 분야의 저작 전부를 뜻하게 되면서 '한 덩어리로 볼 수 있는 말의 뭉치'라는 뜻으로 자료 모음 또는 연구 목적에 따라 말뭉치는 다양하게 구성될 수 있다. 예를 들어, 연구 목적이 범용 말뭉치인 경우, 말뭉치는 21세기 세종계획에서 작성하는 말뭉치를 포함할 수 있으며, 연구 목적이 특수 목적 말뭉치인 경우, 의료 종사자가 사용자는 영어를 조사하기 위한 말뭉치, 특정 연령층의 언어를 조사하기 위한 말뭉치 등이 될 수 있다.
둘째로, 데이터 수집부(101)가 수동 파악 방법을 이용하여 실시간으로 초기 번역지식 데이터를 파악하는 과정을 설명하기로 한다. 본 발명의 일 실시예에 따르면, 데이터 수집부(101)는 사용자에 의해 수동으로 수집된 초기 번역지식 데이터를 수신하고, 데이터 분석부(103)로 전달한다.
데이터 분석부(103)는 데이터 수집부(101)로부터 초기 번역지식 데이터, 예를 들어 단일언어 데이터 및 이중언어 데이터를 수신하고, 수신된 번역지식 데이터를 분석하여 분석 번역지식 데이터, 예를 들어 형태소 분석용 지식, 구문 분석용 공기정보 지식, 대역어 지식 등을 출력한다. 여기서, 데이터 분석부(103)에 의해서 분석된 분석 번역지식 데이터는 도메인 결정부(107)에의해 결정된 도메인 정보와 대응되어 저장된다.
먼저, 데이터 분석부(103)가 데이터 수집부(101)로부터 단일언어 데이터를 수신하여 분석하는 경우를 설명하기로 한다. 본 발명의 일 실시예에 따르면, 데이터 수집부(101)로부터 수신된 단일언어 데이터가 한국어 단일언어 데이터인 경우, 데이터 분석부(103)는 데이터 수집부(101)로부터 수신된 번역지식 데이터를 형태소 분석 및 구문 분석을 수행한다. 본 발명의 일 실시예에 따르면, 데이터 분석부(103)는 수신된 한국어 단일언어 데이터는 어절과 어절 사이는 띄어 쓴다는 특성을 이용하여 스페이스(빈칸)를 어절 분리의 구분자로 사용하여 수신된 한국어 입력문에 포함된 단어들을 스페이스 단위로 분리하고, 스페이스 단위로 분리된 단어가 명사 + 조사, 용언 + 어말어미, 용언 + 선어말어미 + 어말어미, 용언 + 명사형어미 + 서술격조사 + 선어말어미 + 어말어미 등으로 형태소를 분석하며, 여기서 형태소는 입력문을 분석하기 위한 기본 단위로 의미를 가지는 요소로서는 더 이상 분석 할 수 없는 가장 작은 문법 단위를 의미하며, 예를 들어 단어의 어근, 단일 어미, 조사, 접두사, 접미사 들과 같이 더 이상 분석하게 되면 뜻을 잃어 버리는 최소 단위를 포함한다.
또한, 본 발명의 일 실시예에 따르면, 데이터 분석부(103)는 수신된 한국어 단일언어 데이터가 “철수가 귀찮게 군다”를 수신할 경우, 구문을 분석할 경우, “군다”는 자동사이므로 주어만을 필수 성분으로 간주하여 올바른 문장으로 분석할 수 있다. 그러면 이하에서는, 예문 1 및 예문 2를 참조하여 데이터 분석부(103)가 데이터 수집부(101)로부터 한국어 단일언어 데이터를 수신하여 분석하는 방법을 설명하기로 한다.
<예문 1>
쏘니 위기의 근본 원인은 위기 의식의 부재이다.
<예문 2>
쏘니를 가장 유명하게 만든 제품은 워크맨이다.
예문 1 및 예문 2를 참조하면, 데이터 분석부(103)는 예문 1에서 “쏘니”를 “쏘/동사 + 니/어미”로 형태소를 분석하고, 예문 2에서 “쏘니”를 “쏘니/고유명사 + 를/조사”로 형태소를 분석한다. 즉, 데이터 분석부(103)의 분석에 의해서 “쏘니”라는 고유 명사를 예문 1 및 예문 2의 전체 분석에 사용할 수 있다. 그러면 이하에서는, 예문 3을 참조하여 데이터 분석부(103)가 데이터 수집부(101)로부터 한국어 단일언어 데이터를 수신하여 분석한 후 분석 번역지식 데이터인 공기정보 지식을 출력하는 경우를 설명하기로 한다.
<예문 3>
내일은 제주와 남부 지방에서 비가 오겠고, 밤에는 중부 지방에서도 차츰 내리겠습니다.
예문 3을 참조하면, 데이터 분석부(103)는“내일은”은 “오겠고”와 “내리겠습니다”모두와 구문 관계를 가질 수 있으므로 정확한 구문 관계 분석이 힘들기 때문에 공기 정보 추출 대상에서 제외한다. 또한, 데이터 분석부(103)는 “제주와 남부 지방에”의 경우, “오겠고”와 “내리겠습니다”모두와 구문 관계를 가질 수 있다고 분석하고, “오겠고”에 문장 분절 기호인 쉼표 “,”가 있기 때문에 “남부지방에서?오겠고”를 올바른 구문 관계로 분석할 수 있기 때문에 “남부지방에서-오겠고”를 공기정보로 추출한다. 또한, 데이터 분석부(103)는 “중부 지방에서도”의 경우, “내리겠습니다”와만 구문 관계를 가질 수 있다고 분석하여 “중부지방에서도-내리겠습니다”를 공기정보로 추출한다.
둘째, 데이터 분석부(103)가 데이터 수집부(101)로부터 이중언어 데이터를 수신하여 분석하는 경우를 설명하기로 한다. 본 발명의 일 실시예에 따르면, 데이터 수집부(101)로부터 수신된 이중언어 데이터가 한/영 이중언어 데이터인 경우, 데이터 분석부(103)는 데이터 수집부(101)로부터 수신된 한/영 이중언어를 각각 형태소 분석 및 구문 분석을 수행하고, 단어단위 정렬을 수행한다. 그러면 이하에서는, 예문 4를 참조하여 데이터 분석부(103)가 데이터 수집부(101)로부터 한/영 이중언어 데이터를 수신하여 분석하는 경우를 설명하기로 한다.
<예문 4>
배가 항구에 정박해있습니다.
→ A ship is in port.
예문 4를 참조하면, 데이터 분석부(103)는 수신된 한/영 이중언어 데이터 중 한국어 문장 “배가 항구에 정박해있습니다.”를 한국어의 어절과 어절 사이는 띄어 쓴다는 특성을 이용하여 스페이스를 어절 분리의 구분자로 사용하여 수신된 한국어 입력문에 포함된 어절들을 스페이스 단위로 분리하여 “배/고유명사 + 가/주격조사 항구/보통명사 + 에/부사격조사 정박하/동사 + 어있/보조용언 + 습니다/종결어미”로 형태소 분석을 수행한다.
데이터 분석부(103)는 영어 문장 “A ship is in port”을 영어의 단어와 단어 사이는 띄어 쓴다는 특성을 이용하여 스페이스를 단어와 단어 분리의 구분자로 사용하여 수신된 영어 입력문에 포함된 단어들을 스페이스 단위로 분리하여 “A”, “ship”, “is”, “in”, “port”를 생성하고, 생성된 단어의 품사, 예를 들어 “A”는 관사, “ship”은 명사, “is”는 동사, “in”은 전치사, “port”는 명사로 결정하는 형태소 분석을 수행한다.
<예문 5>
영희는 배의 통증으로 병원에 갔습니다.
→ A Young-Hee went to a hospital due to the pain in abdomen.
예문 5를 참조하면, 데이터 분석부(103)는 수신된 한/영 이중언어 데이터 중 한국어 문장 “영희는 배의 통증으로 병원에 갔습니다.”를 형태소 분석을 수행하여 “배/명사”라는 형태소 정보를 추출한다. 또한, 데이터 분석부(103)는 수신된 영어 문장의 형태소 분석을 수행한다.
번역지식 학습부(105)는 데이터 분석부(103)에서 분석된 데이터를 도메인별로 대역어를 결정한다. 먼저, 번역지식 학습부(105)는 도메인 결정부(107)로부터 미리 결정된 도메인 정보를 기초로 번역 지식의 도메인을 결정한다. 즉, 번역지식 학습부(105)는 도메인 결정부(107)로부터 수신된 각 도메인별로 해당 도메인을 잘 표현하는 메인 키워드 셋을 설정하고, 이 키워드 셋과의 일치 정도를 계산하여 도메인을 결정한다. 본 발명의 일 실시예에 따르면, 번역지식 학습부(105)는 도메인 결정부(107)로부터 도메인 정보인 “의료”, “과일”, “선박”을 수신하고, 데이터 분석부(103)에서 분석된 데이터가 “의료”도메인에서는 “배”의 대역어가 “abdomen”로 결정되어 (배, abdomen, 의료)로 저장되고, 데이터 분석부(103)에서 분석된 데이터가 “과일”도메인에서는 “배”의 대역어가 “pear”로 결정되어 (배, pear, 과일)로 저장되고, “선박”도메인에서는 “배”의 대역어가 “boat”로 결정되어 저장된다. 번역지식 학습부(105)는 이러한 정보를 실시간으로 추출하고, 이를 번역엔진에 반영함으로써 정확한 대역어 선정이 가능하다. 또한, 번역지식 학습부(105)는 도메인을 특정하지 않고 자동 클러스팅을 통해 도메인을 결정할 수 있다.
번역지식 학습부(105)는 사용자 참여를 통하여 실시간 번역지식 데이터를 학습할 수 있다. 번역지식 학습부(105)가 사용자 참여를 통하여 실시간 번역지식 데이터를 학습하는 방법은 세 가지 방법이 있다. 첫째, 번역지식 학습부(105)가 원문 오류 학습 방법을 기초로 번역지식 데이터를 학습할 수 있다.
자동번역 시스템에서 한국어를 원문으로 하여 대상언어로 번역하여 번역문을 생성한 경우, 번역문의 번역품질에 가장 큰 영향을 미치는 것 중의 하나가 원문의 완성도이다. 한국어 원문이 완벽하다면 대상언어로 번역한 번역문의 번역품질이 좋지만, 그렇지 않으면 번역품질이 급격히 저하된다. 더구나 한국어는 교착어로 인한 형태소 결합 및 띄어쓰기 등에 있어 오류가 아주 많은 편이다. 이와 같은 이유로, 번역지식 학습부(105)는 원문 오류 학습 방법을 통해서 원문 오류 수정을 실행한다. 그러면 이하에서는, 예문 6을 참조하여, 번역지식 학습부(105)는 원문 오류 학습 방법을 통해서 원문 오류 수정하는 경우를 설명하기로 한다.
<예문 6>
문서 번역을 자동 번역을 이용하면 빠른 번역이 가능하다.
예문 6을 참조하면, 사용자가 “문서 번역을 자동번역을”과 같은 이중목적어 문장을 포함하는 문장을 작성하게 되면, 번역지식 학습부(105)는 원문 오류 학습 결과에 의한 오류를 탐지하여 사용자에게 “이중목적어 사용”이라는 오류 메시지를 전달하면, 사용자는 오류 메시지를 기초로 “문서번역을”을 “문서번역에”로 수정하며, 이에 따라 번역지식 학습부(105)는 사용자로부터 초기 번역지식 데이터의 오류 수정 내용을 수신하여 패턴 규칙을 학습하고, 학습된 규칙을 실시간으로 적용할 수 있다.둘째 및 셋째는, 번역지식 학습부(105)가 번역지식 오류 학습 방법/번역엔진 오류 학습 방법을 기초로 번역지식 데이터를 학습할 수 있다. 본 발명의 일 실시예에 따르면, 번역지식 학습부(105)는 사용자에게 초기 번역지식 데이터의 번역 결과의 오류 및 번역엔진의 모듈별 중간 결과도 사용자에게 전달하고, 사용자는 이러한 중간결과를 확인하여 오류를 수정하고, 오류 내용을 리포팅한다. 그러면, 번역지식 학습부(105)는 사용자로부터 리포팅되는 번역엔진 및 번역지식 오류 내용을 학습하고, 학습된 규칙을 실시간으로 적용할 수 있다. 따라서, 번역품질을 개선할 뿐만 아니라, 해당 번역 도메인에서의 오류 학습 데이터로 저장하여 향후 또 다른 사용자의 번역 요구에 활용할 수 있다. 그러면 이하에서는, 도 2를 참조하여 본 발명의 일 실시예에 따른 번역지식 서버 생성 방법을 보다 구체적으로 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 번역지식 서버 생성 방법을 설명하기 위한 흐름도이다.
도 2를 참조하면, 번역지식 서버 생성 장치는 자동 파악 방법 및 수동 파악 방법을 이용하여 실시간으로 초기 번역지식 데이터 파악 및 수집한다(S201). 먼저, 자동 파악 방법을 이용하여 실시간으로 초기 번역지식초기 번역지식 데이터 파악 및 수집하는 과정을 설명하면, 서버 생성 장치는 웹에 존재하는 병렬/단일 말뭉치를 실시간으로 수집하고, HTML 과 같은 태그를 제거하여 번역 지식을 파악할 수 있다.
여기서 말뭉치는 '코퍼스'등으로 칭할 수 있으며, ‘코퍼스’의 단어 뜻이 저작자의 저작 전부, 혹은 한 특정 분야의 저작 전부를 뜻하게 되면서 ‘한 덩어리로 볼 수 있는 말의 뭉치’라는 뜻으로 자료 모음 또는 연구 목적에 따라 말뭉치는 다양하게 구성될 수 있다. 예를 들어, 연구 목적이 범용 말뭉치인 경우, 말뭉치는 21세기 세종계획에서 작성하는 말뭉치를 포함할 수 있으며, 연구 목적이 특수 목적 말뭉치인 경우, 의료 종사자가 사용자는 영어를 조사하기 위한 말뭉치, 특정 연령층의 언어를 조사하기 위한 말뭉치 등이 될 수 있다.
둘째, 수동 파악 방법을 이용하여 실시간으로 초기 번역지식초기 번역지식 데이터 파악 및 수집하는 과정을 설명하면, 번역지식 서버 생성 장치는 사용자에 의해 수동으로 수집된 초기 번역지식 데이터를 수신한다.
번역지식 서버 생성 장치는 초기 번역지식 데이터를 분석한다(S202). 여기서, 초기 번역지식 데이터는 단일언어 데이터 및 이중언어 데이터를 포함할 수 있다. 먼저, 초기 번역지식 데이터가 단일언어 데이터인 경우를 설명하기로 한다. 본 발명의 일 실시예에 따르면, 번역지식 서버 생성 장치는 한국어 단일언어 데이터는 어절과 어절 사이는 띄어 쓴다는 특성을 이용하여 스페이스(빈칸)를 어절 분리의 구분자로 사용하여 수신된 한국어 입력문에 포함된 단어들을 스페이스 단위로 분리하고, 스페이스 단위로 분리된 단어가 명사 + 조사, 용언 + 어말어미, 용언 + 선어말어미 + 어말어미, 용언 + 명사형어미 + 서술격조사 + 선어말어미 + 어말어미 등으로 형태소를 분석하며, 여기서 형태소는 입력문을 분석하기 위한 기본 단위로 의미를 가지는 요소로서는 더 이상 분석 할 수 없는 가장 작은 문법 단위를 의미하며, 예를 들어 단어의 어근, 단일 어미, 조사, 접두사, 접미사 들과 같이 더 이상 분석하게 되면 뜻을 잃어 버리는 최소 단위를 포함한다.
또한, 본 발명의 일 실시예에 따르면, 번역지식 서버 생성 장치가 수신된 한국어 단일언어 데이터가 “철수가 귀찮게 군다”를 수신하여 분석할 경우, “군다”는 자동사이므로 주어만을 필수 성분으로 간주하여 올바른 문장으로 구문 분석할 수 있다.
둘째로, 초기 번역지식 데이터가 이중언어 데이터인 경우를 설명하기로 한다. 본 발명의 일 실시예에 따르면, 이중언어 데이터가 한/영 이중언어 데이터인 경우, 번역지식 서버 생성 장치는 수신된 한/영 이중언어를 각각 형태소 분석 및 구문 분석을 수행하고, 단어단위 정렬을 수행한다.
번역지식 서버 생성 장치는 분석된 데이터의 도메인을 결정한다(S203). 먼저, 번역지식 서버 생성 장치는 미리 결정된 도메인 정보를 기초로 번역 지식의 도메인을 결정한다. 즉, 번역지식 서버 생성 장치는 미리 결정된 각 도메인별로 해당 도메인을 잘 표현하는 메인 키워드 셋을 설정하고, 이 키워드 셋과의 일치 정도를 계산하여 도메인을 결정한다. 본 발명의 일 실시예에 따르면, 번역지식 서버 생성 장치는 미리 결정된 도메인 정보인 “의료”, “과일”, “선박”을 수신하고, 데이터 분석부(103)에서 분석된 데이터가 “의료”도메인에서는 “배”의 대역어가 “abdomen”로 결정되어 (배, abdomen, 의료)로 저장되고, 데이터 분석부(103)에서 분석된 데이터가 “과일”도메인에서는 “배”의 대역어가 “pear”로 결정되어 (배, pear, 과일)로 저장되고, “선박”도메인에서는 “배”의 대역어가 “boat/ship”로 결정되어 저장된다. 번역지식 서버 생성 장치는 이러한 정보를 실시간으로 추출하고, 이를 번역엔진에 반영함으로써 정확한 대역어 선정이 가능하다. 또한, 번역지식 서버 생성 장치는 도메인을 특정하지 않고 자동 클러스팅을 통해 도메인을 결정할 수 있다.
또한, 앞서 설명된 예문 6과 같이 사용자가 “문서 번역을 자동번역을”과 같은 이중목적어 문장을 포함하는 문장을 작성하게 되면, 번역지식 서버 생성 장치는 원문 오류 학습 결과에 의한 오류를 탐지하여 사용자에게 “이중목적어 사용”이라는 오류 메시지를 전달하면, 사용자는 오류 메시지를 기초로 “문서번역을”을 “문서번역에”로 수정하며, 번역지식 서버 생성 장치는 사용자로부터 초기 번역지식 데이터의 오류 수정 내용을 수신하여 패턴 규칙을 학습하고, 학습된 규칙을 실시간으로 적용할 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
101: 데이터 수집부 103: 데이터 분석부
105: 번역지식 학습부 107: 도메인 결정부

Claims (10)

  1. 번역지식 서버 생성 장치에 있어서,
    초기 번역지식 데이터를 수집하는 데이터 수집부;
    상기 데이터 수집부로부터 수집된 초기 번역지식 데이터의 형태소 분석 및 구문 분석을 수행하여 분석된 데이터를 출력하는 데이터 분석부; 및
    상기 분석된 데이터를 미리 결정된 도메인 정보에 따라 도메인별로 대역어를 결정하거나 학습 자동클러스팅을 통해 도메인을 결정하여 실시간 번역지식을 학습하는 번역지식 학습부를 포함하는 서버 생성 장치.
  2. 제 1 항에 있어서, 상기 번역지식 학습부는,
    사용자로부터 초기 번역지식 데이터의 오류 수정 내용을 수신하고, 수신된 오류 수정 내용의 패턴 규칙을 실시간 학습하는 것을 특징으로 하는 서버 생성 장치.
  3. 제 1 항에 있어서, 상기 번역지식 학습부는,
    사용자로부터 번역지식 오류 내용 또는 번역 엔진 오류 내용 중 적어도 하나를 수신하여 패턴 규칙을 실시간 학습하는 것을 특징으로 하는 서버 생성 장치.
  4. 제 1 항에 있어서, 상기 번역지식 데이터는,
    단일언어 데이터 또는 이중언어 데이터 중 하나임을 특징으로 하는 서버 생성 장치.
  5. 제 1 항에 있어서, 데이터 수집부는,
    자동 파악 방법 또는 수동 파악 방법을 이용하여 실시간 초기 번역 지식을 수집하는 것을 특징으로 하는 서버 생성 장치.
  6. 번역지식 서버 생성 방법에 있어서,
    초기 번역지식 데이터를 수집하는 단계;
    상기 수집된 초기 번역지식 데이터의 형태소 분석 및 구문 분석을 수행하여 분석된 데이터를 출력하는 단계; 및
    상기 분석된 데이터를 미리 결정된 도메인 정보에 따라 도메인별로 대역어를 결정하거나 학습 자동클러스팅을 통해 도메인을 결정하여 실시간 번역지식을 학습하는 단계를 포함하는 것을 특징으로 하는 서버 생성 방법.
  7. 제 6 항에 있어서, 상기 학습하는 단계는,
    사용자로부터 초기 번역지식 데이터의 오류 수정 내용을 수신하고, 수신된 오류 수정 내용의 패턴 규칙을 실시간 학습하는 것을 특징으로 하는 서버 생성 방법.
  8. 제 6 항에 있어서, 상기 학습하는 단계는,
    사용자로부터 번역지식 오류 내용 또는 번역 엔진 오류 내용 중 적어도 하나를 수신하여 패턴 규칙을 실시간 학습하는 것을 특징으로 하는 서버 생성 방법.
  9. 제 6 항에 있어서, 상기 번역지식 데이터는,
    단일언어 데이터 또는 이중언어 데이터 중 하나임을 특징으로 하는 서버 생성 방법.
  10. 제 6 항에 있어서, 상기 수집하는 단계는,
    자동 파악 방법 또는 수동 파악 방법을 이용하여 실시간 초기 번역 지식을 수집하는 것을 특징으로 하는 서버 생성 방법.
KR1020100125870A 2010-12-09 2010-12-09 번역지식 서버 생성 방법 및 그 장치 KR20120089502A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100125870A KR20120089502A (ko) 2010-12-09 2010-12-09 번역지식 서버 생성 방법 및 그 장치
US13/316,369 US20120150529A1 (en) 2010-12-09 2011-12-09 Method and apparatus for generating translation knowledge server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100125870A KR20120089502A (ko) 2010-12-09 2010-12-09 번역지식 서버 생성 방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR20120089502A true KR20120089502A (ko) 2012-08-13

Family

ID=46200229

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100125870A KR20120089502A (ko) 2010-12-09 2010-12-09 번역지식 서버 생성 방법 및 그 장치

Country Status (2)

Country Link
US (1) US20120150529A1 (ko)
KR (1) KR20120089502A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150068663A (ko) * 2013-12-12 2015-06-22 한국전자통신연구원 로그 데이터를 이용한 자동 번역 장치 및 그 방법
KR20150086725A (ko) * 2014-01-20 2015-07-29 삼성전자주식회사 사용자 맞춤형 정보를 제공하는 방법 및 장치
KR102185090B1 (ko) * 2020-06-16 2020-12-01 (주)켐녹 딥러닝 기반의 번역 모델을 이용한 웹사이트 관리 장치 및 이의 작동 방법

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US20120253784A1 (en) * 2011-03-31 2012-10-04 International Business Machines Corporation Language translation based on nearby devices
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9152622B2 (en) * 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
WO2014098640A1 (en) * 2012-12-19 2014-06-26 Abbyy Infopoisk Llc Translation and dictionary selection by context
US9235567B2 (en) * 2013-01-14 2016-01-12 Xerox Corporation Multi-domain machine translation model adaptation
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
JP2015138414A (ja) * 2014-01-22 2015-07-30 富士通株式会社 機械翻訳装置、翻訳方法、及び、そのプログラム
US9652453B2 (en) * 2014-04-14 2017-05-16 Xerox Corporation Estimation of parameters for machine translation without in-domain parallel data
US10210155B2 (en) * 2016-03-01 2019-02-19 Panasonic Intellectual Property Management Co., Ltd. Apparatus state estimation method, apparatus state estimation device, and data providing device
US10437933B1 (en) * 2016-08-16 2019-10-08 Amazon Technologies, Inc. Multi-domain machine translation system with training data clustering and dynamic domain adaptation
US10057869B2 (en) * 2016-11-17 2018-08-21 Electronics And Telecommunications Research Institute Network synchronization apparatus and method of time division multiple access (TDMA)-based mesh network satellite communication system
KR102069692B1 (ko) 2017-10-26 2020-01-23 한국전자통신연구원 신경망 기계번역 방법 및 장치

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1315160B1 (it) * 2000-12-28 2003-02-03 Agostini Organizzazione Srl D Sistema e metodo di traduzione automatica o semiautomatica conposteditazione per la correzione degli errori.
US7734459B2 (en) * 2001-06-01 2010-06-08 Microsoft Corporation Automatic extraction of transfer mappings from bilingual corpora
US7383542B2 (en) * 2003-06-20 2008-06-03 Microsoft Corporation Adaptive machine translation service
US7421386B2 (en) * 2003-10-23 2008-09-02 Microsoft Corporation Full-form lexicon with tagged data and methods of constructing and using the same
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US7546235B2 (en) * 2004-11-15 2009-06-09 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US8145473B2 (en) * 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US9798720B2 (en) * 2008-10-24 2017-10-24 Ebay Inc. Hybrid machine translation

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150068663A (ko) * 2013-12-12 2015-06-22 한국전자통신연구원 로그 데이터를 이용한 자동 번역 장치 및 그 방법
KR20150086725A (ko) * 2014-01-20 2015-07-29 삼성전자주식회사 사용자 맞춤형 정보를 제공하는 방법 및 장치
KR102185090B1 (ko) * 2020-06-16 2020-12-01 (주)켐녹 딥러닝 기반의 번역 모델을 이용한 웹사이트 관리 장치 및 이의 작동 방법

Also Published As

Publication number Publication date
US20120150529A1 (en) 2012-06-14

Similar Documents

Publication Publication Date Title
KR20120089502A (ko) 번역지식 서버 생성 방법 및 그 장치
Guzmán et al. The flores evaluation datasets for low-resource machine translation: Nepali-english and sinhala-english
KR100961717B1 (ko) 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
US8046211B2 (en) Technologies for statistical machine translation based on generated reordering knowledge
US20130103390A1 (en) Method and apparatus for paraphrase acquisition
US8121829B2 (en) Method and apparatus for constructing translation knowledge
US20110040553A1 (en) Natural language processing
Deléger et al. Translating medical terminologies through word alignment in parallel text corpora
CN104731774A (zh) 面向通用机译引擎的个性化翻译方法及装置
KR20090061158A (ko) 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정방법 및 장치
KR20080052282A (ko) 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법
Tezcan et al. A neural network architecture for detecting grammatical errors in statistical machine translation
Go et al. Gramatika: A grammar checker for the low-resourced Filipino language
KR20120088032A (ko) 실시간 번역 지식 자동 추출/검증 방법 및 그 장치
Mall et al. Developing a system for machine translation from Hindi language to English language
Aasha et al. Machine translation from English to Malayalam using transfer approach
Millour et al. Unsupervised data augmentation for less-resourced languages with no standardized spelling
Hatem et al. Morphological analysis for rule based machine translation
Bopche et al. Grammar checking system using rule based morphological process for an Indian language
Boubas et al. GENESTEM: A novel approach for an Arabic stemmer using genetic algorithms
Biswas et al. Development of a Bangla sense annotated corpus for word sense disambiguation
Fonseca et al. An architecture for semantic role labeling on portuguese
Fan et al. Automatic extraction of bilingual terms from a chinese-japanese parallel corpus
Ghaffar et al. English to arabic statistical machine translation system improvements using preprocessing and arabic morphology analysis
Takahashi et al. ProQE: Proficiency-wise Quality Estimation dataset for Grammatical Error Correction

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal