KR101753708B1 - 통계적 기계 번역에서 명사구 대역 쌍 추출 장치 및 방법 - Google Patents

통계적 기계 번역에서 명사구 대역 쌍 추출 장치 및 방법 Download PDF

Info

Publication number
KR101753708B1
KR101753708B1 KR1020100122282A KR20100122282A KR101753708B1 KR 101753708 B1 KR101753708 B1 KR 101753708B1 KR 1020100122282 A KR1020100122282 A KR 1020100122282A KR 20100122282 A KR20100122282 A KR 20100122282A KR 101753708 B1 KR101753708 B1 KR 101753708B1
Authority
KR
South Korea
Prior art keywords
noun phrase
language
target language
noun
candidate
Prior art date
Application number
KR1020100122282A
Other languages
English (en)
Other versions
KR20120060666A (ko
Inventor
김상범
윤창호
황영숙
임해창
김민정
Original Assignee
에스케이플래닛 주식회사
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이플래닛 주식회사, 고려대학교 산학협력단 filed Critical 에스케이플래닛 주식회사
Priority to KR1020100122282A priority Critical patent/KR101753708B1/ko
Publication of KR20120060666A publication Critical patent/KR20120060666A/ko
Application granted granted Critical
Publication of KR101753708B1 publication Critical patent/KR101753708B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

본 발명은 병렬 말뭉치를 이용한 통계적 기계 번역에 관한 것으로, 소스 언어 문장과 타겟 언어 문장을 단어 정렬한 말뭉치에서 명사구를 구성할 수 있는 품사 정보를 이용하여 각 언어별로 명사구 후보를 추출하고 추출한 양 언어의 명사구 후보 쌍에서 정렬 확률을 고려하여 정렬 확률이 높은 명사구 후보 쌍을 명사구 대역 쌍으로 추출함으로써 단어 정렬의 성능이 좋지 않은 언어 쌍에서 명사구를 자동 추출하여 단어 정렬에 의존적이지 않고 대역 쌍 추출이 가능한 장치 및 방법을 제공한다.

Description

통계적 기계 번역에서 명사구 대역 쌍 추출 장치 및 방법{APPARATUS AND METHOD FOR EXTRACTING NOUN-PHRASE TRANSLATION PAIRS OF STATISTICAL MACHINE TRANSLATION}
본 발명은 통계적 기계 번역에 관한 것으로서, 더욱 상세하게는 소스 언어 문장과 타겟 언어 문장을 단어 정렬한 말뭉치에서 명사구를 구성할 수 있는 품사 정보를 이용하여 각 언어별로 명사구 후보를 추출하고 추출한 양 언어의 명사구 후보 쌍에서 정렬 확률이 높은 명사구 후보 쌍을 명사구 대역 쌍으로 추출함으로써 소스 언어와 타겟 언어에 대한 병렬 말뭉치가 존재하면 병렬 말뭉치로부터 명사구를 자동 추출하여 단어 정렬에 의존적이지 않고서도 대역 쌍 추출이 가능한 명사구 대역 쌍 추출 장치 및 방법에 관한 것이다.
자동 번역 기술은 한 언어를 다른 언어로 자동으로 전환해주는 소프트웨어적 기술을 의미한다. 이러한 기술은 20세기 중반부터 미국에서 군사적인 목적으로 연구가 시작되었으며, 지금은 세계적으로 정보접근범위의 확대와 휴먼인터페이스의 혁신을 목적으로 다수의 연구소와 민간기업에서 활발히 연구 중이다.
자동 번역 기술의 초기 단계에서는 전문가가 수동으로 작성한 양국어(Bilingual) 사전과 한 언어를 다른 언어로 변환할 수 있는 규칙을 기반으로 발전되어 왔다. 그러나 컴퓨팅 파워의 급속한 발전이 진행된 21세기 초부터는 대량의 데이터로부터 통계적으로 번역 알고리즘을 자동으로 학습하는 통계적 기반 번역 기술에 대한 개발이 활발히 전개되고 있다.
통계적 기반 번역 기술은 기계 번역 분야에 있어서 규칙 기반 기계 번역, 예제 기반 기계 번역 등과 함께 중요한 축이 되어 왔다. 특히, 통계적 기계 번역이 단어 단위의 기계 번역 모형에서 구 단위의 기계 번역 모형으로 확장되면서, 예제 기반 기계 번역은 통계적 기계 번역과 경계가 모호해지고 규칙 기반 기계 번역이 통계적 기계 번역과 함께 자동 기계 번역의 주 축이 되었다.
구 단위의 통계적 기계 번역에서 중요한 문제는 구의 경계를 어떻게 구분할 것인가 하는 것과, 대역구를 어떻게 찾을 수 있느냐 하는 것이다. 현재 주로 사용하는 방법은 아래 수학식 1에 나타난 정의에 따라 단어 정렬 결과에 기반하여 구를 찾는 방법을 적용하고 있다.
Figure 112010079616172-pat00001
이렇게 찾은 대역구 쌍은 단어 정렬과 일치한 구이며, 그 경계는 아래 표 1과 같은 방법으로 구분할 수 있다.
표 1의 그림에서 빗금 친 칸은 단어 정렬이 된 것이며, 굵은 선으로 박스(box) 처리된 사각 영역은 구의 경계를 나타낸 것이다. 예제의 no ― did not처럼, 어느 한 단어에 정렬된 단어가 여러 페어(pairs)일 경우에는 페어가 가능한 모든 단어를 같은 구로 묶고, 어느 한쪽 언어의 단어가 특정 구에 속할 경우에는 정렬되는 다른 언어의 단어들도 대역 쌍으로 포함하는 방식이다. 또한 최소한 한 개 이상의 단어 정렬을 포함하는 것만 구로 추출한다.
표 1의 (a)는 상기의 조건을 모두 충족시킨 구의 경계를 나타낸 것이고, (b)는 한 단어에 정렬된 단어를 모두 포함시키지 않아 상기의 조건에 부합되지 않는 구의 경계, (c)는 한 단어가 특정 구에 속할 경우 정렬되는 다른 언어의 단어들도 대역 쌍에 포함하는 조건에 부합되지 않는 구의 경계를 나타낸 것이다.
Figure 112010079616172-pat00002
이렇게 추출한 대역구 기반의 통계적 기계 번역은 언어학적 정보를 사용하지 않고 다양한 언어 쌍에서 비교적 안정된 성능을 보이고 있다.
그런데, 영어-한국어와 같이 단어 정렬의 성능이 좋지 않은 대역어의 경우 그 오류가 전파된다는 단점이 있다.
도 1은 일 예로 영어-한국어 문장 쌍의 단어 정렬 결과를 나타낸 도면이다.
여러 단어를 묶은 영역(A, B)이 추출하고자 하는 명사구라 할 때, 단어 정렬 결과 영어 문장의 '⑧safety'는 한국어 문장의 '①당연히'에 연결된다. 이때, 어느 한 단어에 정렬된 단어가 여러 페어(pairs)일 경우 같은 구로 묶는 기존 방식을 적용하여 대역 구를 추출하면, 'the cause of the safety accidents'와 '당연히 안전 사고의 원인'가 대역 쌍으로 추출하게 된다. 또한, 'the safety accidents'나 'the cause'의 대역 구를 추출할 때에도 한국어 문장 '④의'가 영어 문장의 '④the'와 '⑦the'에 연결되어 '안전 사고의'나 '의 원인'이 대역 쌍으로 추출하게 된다.
이처럼, 종래 방식에 따라 구 기반의 대역 쌍을 추출하면 적절한 대역 구를 찾지 못하는 문제점이 있다.
본 발명은 상기의 문제점을 해결하기 위해 창안된 것으로서, 소스 언어 문장과 타겟 언어 문장을 단어 정렬한 말뭉치에서 명사구를 구성할 수 있는 품사 정보를 이용하여 각 언어별로 명사구 후보를 추출하고 추출한 양 언어의 명사구 후보 쌍에서 정렬 확률을 고려하여 정렬 확률이 높은 명사구 후보 쌍을 명사구 대역 쌍으로 추출함으로써 소스 언어와 타겟 언어에 대한 병렬 말뭉치가 존재하면 병렬 말뭉치로부터 명사구를 자동 추출하여 단어 정렬에 의존적이지 않고 대역 쌍 추출이 가능한 장치 및 방법을 제공하는 데 그 목적이 있다.
이를 위하여 본 발명의 제1 측면에 따르면, 본 발명의 장치는, 통계적 기계 번역에서 대역 쌍 추출을 위한 장치로서, 소스 언어 문장을 구문 분석한 결과로부터 명사구를 추출하는 소스 언어 명사구 추출기; 타겟 언어 문장을 형태소 단위로 분석한 결과로부터 상기 소스 언어의 명사구와 대응 가능한 명사구 후보를 추출하는 타겟 언어 명사구 후보 추출기; 상기 소스 언어 명사구 추출기로부터 추출된 소스 언어의 명사구와 상기 타겟 언어 명사구 후보 추출기로부터 추출된 타겟 언어의 명사구 후보간 정렬 확률을 계산하여 대역 쌍 스코어를 산출하는 대역쌍 스코어 산출기; 상기 대역쌍 스코어 산출기에서 산출된 스코어들 중에서 가장 높은 스코어를 갖는 대역 쌍을 추출하는 대역쌍 추출기를 포함하는 것을 특징으로 한다.
본 발명의 제2 측면에 따르면, 본 발명의 통계적 기계 번역에서 대역 쌍 추출을 위한 단말 장치는, 소스 언어 문장의 구문 분석 결과, 타겟 언어 문장의 형태소 분석 결과를 저장한 메모리; 상기 메모리에 저장된 소스 언어 문장의 구문 분석 결과로부터 소스 언어의 명사구를 추출하는 소스 언어 명사구 추출기; 상기 메모리에 저장된 타겟 언어 문장의 형태소 분석 결과로부터 소스 언어의 명사구와 대응 가능한 타겟 언어의 명사구 후보를 추출하는 타겟 언어 명사구 후보 추출기; 상기 소스 언어 명사구 추출기로부터 추출된 소스 언어의 명사구와 상기 타겟 언어 명사구 후보 추출기로부터 추출된 타겟 언어의 명사구 후보간 정렬 확률을 계산하여 대역 쌍 스코어를 산출하는 대역쌍 스코어 산출기; 상기 대역쌍 스코어 산출기에서 산출된 스코어들 중에서 가장 높은 스코어를 갖는 대역 쌍을 추출하는 대역쌍 추출기를 포함하는 것을 특징으로 한다.
본 발명의 제3 측면에 따르면, 본 발명의 타겟언어 명사구 대역 쌍 추출기는, 형태소 단위로 분석된 타겟언어 말뭉치에 품사 정보를 부착하고, 상기 형태소 단위로 분석된 타겟언어 말뭉치로부터 품사 정보를 이용하여 명사구 후보를 추출하는 것을 특징으로 한다.
본 발명의 제4 측면에 따르면, 본 발명의 방법은, 통계적 기계 번역에서 대역 쌍 추출을 위한 방법으로서, (a) 소스 언어 문장을 구문 분석한 결과로부터 명사구를 추출하는 단계; (b) 타겟 언어 문장을 형태소 단위로 분석한 결과로부터 상기 소스 언어의 명사구와 대응 가능한 명사구 후보들을 추출하는 단계; (c) 상기 소스 언어의 명사구와 상기 타겟 언어의 명사구 후보들간 정렬 확률을 계산하여 대역 쌍 스코어를 산출하는 단계; (d) 상기 산출된 대역 쌍 스코어들 중에서 가장 높은 스코어를 갖는 대역 쌍을 추출하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 제5 측면에 따르면, 본 발명의 명사구 대역쌍 추출 방법은, 형태소 단위로 분석된 타겟언어 말뭉치에 품사 정보를 부착하고, 상기 형태소 단위로 분석된 타겟언어 말뭉치를 단어 정렬한 결과로부터 품사 정보를 이용하여 명사구 후보를 추출하는 것을 특징으로 한다.
본 발명에 따르면, 소스 언어와 타겟 언어에 대한 병렬 말뭉치가 존재하면 자동으로 명사구 대역 쌍을 추출하므로, 기존의 사전에 없는 신조어의 대역 쌍을 병렬 말뭉치에서 자동으로 추출하는 것이 가능한 효과가 있다.
또한, 기존 대역 쌍 추출은 단어 정렬에 오류가 있으면 대역 쌍 후보 추출부터 오류가 발생하였으나, 본 방법은 단어 정렬에 의존적이지 않으므로 단어 정렬의 오류가 있을 경우에도 이의 영향을 덜 받으면서 대역 쌍 추출이 가능한 효과가 있다.
또한, 본 발명은 기본적으로 소스 언어에 대한 구문 분석기만 사용해도 대역 쌍 추출이 가능하므로 두 언어 모두에 대한 구문 분석기가 불필요하다. 이로써, 본 발명은 두 언어 모두의 구문 분석기를 사용하는 것 보다 구문 분석기의 성능에 영향을 덜 받을 수 있다는 효과가 있다.
도 1은 영어-한국어 문장 쌍의 단어 정렬 결과를 나타낸 예시 도면이다.
도 2는 영어 문장을 구문 구조 분석한 결과를 나타낸 예시 도면이다.
도 3은 본 발명의 실시 예에 따라 명사구 대역 쌍 추출이 가능한 장치를 나타낸 도면이다.
도 4는 본 발명의 실시 예에 따른 명사구 대역 쌍 추출 방법을 나타낸 순서도이다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세하게 설명한다. 본 발명의 구성 및 그에 따른 작용 효과는 이하의 상세한 설명을 통해 명확하게 이해될 것이다. 본 발명의 상세한 설명에 앞서, 동일한 구성요소에 대해서는 다른 도면 상에 표시되더라도 가능한 동일한 부호로 표시하며, 공지된 구성에 대해서는 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 구체적인 설명은 생략하기로 함에 유의한다.
본 발명은 병렬 말뭉치를 이용한 통계적 기계 번역에서 병렬 말뭉치로부터 단어 정렬된 결과를 이용하되 단어 정렬 결과에서 명사구 후보를 추출하여 이를 기반으로 분석하는 것으로서, 단어 정렬의 오류가 있을 경우 이의 영향을 덜 받으면서 기계 번역을 위한 분석이 가능한 구성을 제공한다.
이하에서 언급하는 소스 문장(source sentence) 또는 소스 언어 문장은 번역할 대상이 되는 원시 언어의 문장이고, 타겟 문장(target sentence) 또는 타겟 언어 문장은 소스 문장을 원하는 언어로 번역하여 출력되는 목표 언어의 문장을 의미한다.
도 2는 영어 문장을 구문 구조 분석한 결과를 나타낸 예시 도면이다. 참고로, 도 2는 설명의 이해를 돕기 위해 도 1과 동일한 예시를 든다.
도 2의 영어 문장을 구문 구조 분석한 결과, 소스 트리로부터 NP(Noun Phrase) 또는 BNP라고 분류한 단어 또는 구가 명사구(Noun Phrase)로 볼 수 있다.
즉, 영어 문장에서 'the cause', 'the safety accidents', 'the cause of the safety accidents'가 이에 해당된다. 또한, 대명사 'it'도 명사구로 포함할 수 있으나, 이는 단일 단어로 구성된 명사구로 본 발명에서는 생략한다.
이렇게 구문 분석한 결과로 영어 명사구를 결정하고, 이에 대응되는 타겟 언어 문장의 명사구 추출은 형태소 분석 및 품사 정보, 단어 정렬 정보 등을 이용한다. 특히, 타겟 언어가 한국어의 경우, 한국어는 교착어이므로 형태소 분석을 하지 않으면 자료 부족 문제가 심각해 질 수 있다. 따라서 한국어의 경우 반드시 형태소 분석 결과를 이용한다. 그리고, 한국어의 모든 가능한 형태소 열을 고려할 경우 명사구 후보가 지나치게 많아질 수 있으므로 품사 정보를 이용하여 명사구 후보를 추출할 수 있다.
이를 구현하기 위한 본 발명의 장치에 대하여 구체적으로 설명한다.
도 3은 본 발명의 실시 예에 따라 명사구 대역 쌍 추출이 가능한 장치를 나타낸 도면이다.
도 3을 참조하면, 본 발명의 실시 예에 따른 장치는 타겟 형태소 분석 말뭉치 DB(110), 소스 구문 분석 말뭉치 DB(120), 타겟 언어 명사구 후보 추출기(130), 소스 언어 명사구 추출기(140), 명사구 대역쌍 스코어 산출기(150), 대역쌍 추출기(160), 명사구 대역 사전 DB(170)를 포함한다.
여기서, 타겟 형태소 분석 말뭉치 DB(110), 소스 구문 분석 말뭉치 DB(120), 명사구 대역 사전 DB(170)는 본 발명의 장치가 자립형(stand- alone)으로 컴퓨터 내에서 구현되는 경우 하드디스크 또는 외장메모리 등의 저장 매체에 저장되고, 네트워크 기반으로 구현되는 경우는 서버에 저장된다. 또한, 본 발명의 장치가 고성능, 고용량화인 휴대 단말의 경우 휴대 단말의 메모리에 저장될 수 있다.
타겟 형태소 분석 말뭉치 DB(110)는 타겟 언어의 문장을 형태소로 분석한 말뭉치 정보를 저장한 것이고, 소스 구문 분석 말뭉치 DB(120)는 소스 언어의 문장을 구문 분석한 말뭉치 정보를 저장한 것이다.
여기서, 타겟 형태소 분석 말뭉치 DB(110) 및 소스 구문 분석 말뭉치 DB(120)은 각 언어의 문장으로부터 명사구를 추출하기 위해 소스 언어 문장 및 타겟 언어 문장을 전처리하고 이를 저장해 둔 데이터베이스이다.
이때, 타겟 형태소 분석 말뭉치 DB(110)는 타겟 언어가 한국어와 같이 언어의 특성상 형태소 분석이 반드시 필요한 경우에 한정되는 구성으로, 이에 한정되지 않고 품사 정보를 이용하는 경우에는 해당 단어에 품사 정보를 부착한 말뭉치를 저장할 수 있다. 이때, 타겟 형태소 분석 말뭉치 DB(110)와 별도로, 타겟 언어 문장에 품사 정보를 부착하여 저장한 타겟 품사 부착 말뭉치 DB(미도시)를 추가로 포함할 수 있다.
소스 언어 명사구 추출기(140)는 소스 구문 분석 말뭉치 DB(120)로부터 구문 분석한 소스 말뭉치를 수신하여 소스 언어 문장 내에서 명사구를 추출한다. 이는 이미 도 2에서 언급한 바와 같이 구문 분석한 결과 트리로부터 BNP 또는 NP로 분류되는 단어들을 묶음으로써 추출 가능하다.
타겟 언어 명사구 후보 추출기(130)는 타겟 형태소 분석 말뭉치 DB(110)로부터 형태소 단위로 분석된 타겟 말뭉치를 수신하여 타겟 언어 문장의 명사구 후보를 추출한다.
이때, 영한 말뭉치의 경우, 타겟 언어 명사구 후보 추출기(130)는 영-한, 한-영 말뭉치로부터 단어 정렬을 모두 고려한 합집합(Union) 휴리스틱(heuristic: 발견법)을 적용하고, 이 휴리스틱을 적용한 결과로 앞에서 설명한 단어 정렬에 기반한 구 대역쌍 추출 방법을 적용한다. 적용 결과, 영어 명사구에 대응되는 한국어 구를 모두 선별한다. 그리고, 선별한 구에서 통계 정보를 기반으로 명사구를 구성할 수 있는 품사를 추출하여 추출된 품사로 구성될 수 있는 구를 명사구 후보로 한다.
명사구를 구성할 수 있는 품사는 아래의 표 2와 같이, 명사구 시작에만 가능한 품사, 명사구 끝에만 가능한 품사, 명사구 시작과 끝은 되지 않지만 3개 이상의 형태소로 구성된 명사구 중간에는 가능한 품사, 명사구 어느 위치에도 가능한 품사 등을 포함할 수 있다.
명사구의 시작과 끝에 올 수 있는 형태소 명사, 수사, 대명사
명사구의 끝에만 올 수 있는 형태소 접미사(-들)
명사구의 중간에만 올 수 있는 형태소 접속조사(-와/과), 관형격조사(-의), 관형형어미
이처럼, 타겟 언어 명사구 후보 추출기(130)는 각 언어의 문장별로 소스 언어의 명사구와 타겟 언어의 명사구 후보를 추출하고, 모든 가능한 쌍을 대상으로 적합한 명사구 대역 쌍을 추출한다.
명사구 대역쌍 스코어 산출기(150)는 타겟 언어 명사구 후보 추출기(130)로부터 추출된 타겟 언어의 명사구 후보와 소스 언어 명사구 추출기(140)로부터 추출된 소스 언어의 명사구간 대응 가능한 모든 쌍을 대상으로 정렬 확률을 분석한다. 분석한 정렬 확률 값을 스코어라 한다.
스코어를 산출하는 방법은 아래의 표 3에 나타낸 항목들 중 하나 또는 하나 이상의 스코어를 합산한다.
1. 교집합(Intersection) 정렬 중 소스 명사와 타겟 명사가 정렬된 링크 수
2. 합집합(Union) 정렬 중 소스 명사와 타겟 명사가 정렬된 링크 수
3. 타겟 언어의 명사구 후보 내 명사의 개수
4. 소스 언어의 명사구 내 명사의 개수
5. 타겟 언어의 명사구 후보 내 단어의 개수
6. 소스 언어의 명사구 내 단어의 개수
7. 한 쪽 언어만 명사구 대역 쌍 후보 내에 걸친 단어 정렬 링크 수
8. 한 쪽 언어만 명사구 대역 쌍 후보 내에 걸친 명사 정렬 링크 수
9. 문장 전체 교집합 정렬 링크 수/ 합집합 정렬 링크 수
10. 소스 문장 내 명사구 개수 / 타겟 문장 내 명사구 후보 개수
또한, 명사구 대역쌍 스코어 산출기(150)는 소스 언어의 명사구와 타겟 언어의 명사구 후보 상호간에 대응 가능한 모든 쌍을 대상으로 정렬 확률을 분석할 때 단어 정렬 말뭉치(180)에 저장된 교집합 단어 정렬 말뭉치(182) 또는 합집합 단어 정렬 말뭉치(184)를 근거로 대응 가능한 모든 쌍을 추출한다. 교집합 정렬은 영한 단어 정렬과 한영 단어 정렬 결과에 모두 있는 교집합을 의미하며, 합집합 정렬은 영한 단어 정렬과 한영 단어 정렬 결과 둘 중 하나에라도 있는 것을 모두 포함시킨 합집합을 의미한다.
대역쌍 추출기(160)는 명사구 대역쌍 스코어 산출기(150)에서 각 소스 언어의 명사구에 대해 스코어가 가장 높은 하나의 타겟 언어의 명사구 후보를 추출한다. 이때, 스코어가 가장 높은 타겟 언어의 명사구 후보가 여러 개 존재할 경우 해당 스코어를 갖는 명사구 후보를 모두 추출한다. 추출된 명사구 대역 쌍은 명사구 대역 사전 DB(170)에 저장 및 갱신되어 명사구 대역 사전을 구축하는데 기초 자료가 될 수 있다.
이처럼, 본 발명은 단어 정렬 정보를 사용하지만, 한 단어와 정렬된 모든 다른 언어의 단어를 같은 구에 포함시키는 조건을 적용하지 않았으므로, 도 1의 예시에서 'safety'와 정렬된 '당연히', 또는 'the'와 정렬된 '의'가 반드시 같은 구에 포함되지 않는다.
이에 따라, 본 발명은 단어 정렬의 오류에도 불구하고 추출할 수 있는 명사구 쌍의 양이 많아지지만, 한 문장에서 한국어 명사구 후보의 개수가 지나치게 많아져 전체 시스템의 작동에 무리가 올 수 있다. 따라서, 본 발명은 다음과 같은 세 가지의 경우 소스 언어의 명사구-타겟 언어의 명사구 후보 쌍을 제외하도록 제약을 두어 시스템의 효율성을 높였다.
- 소스 언어의 명사구(영어 명사구)-타겟 언어의 명사구(한국어 명사구) 후보 내 합집합 정렬이 한 개도 없는 경우 제외
- 어느 한 쪽의 명사의 개수가 다른 한 쪽의 명사의 개수의 3배 이상인 경우 제외
- 어느 한 쪽의 길이(단어나 형태소의 개수)가 다른 한 쪽의 5배 이상인 경우 제외
위 조건에서, 두 번째, 세 번째 조건의 기준은 영어는 단어이고 한국어는 형태소이다.
위와 같은 제약을 가한 결과, 이전에 비해 시스템의 효율성은 좋아졌으며, 추출된 명사구 쌍의 결과에는 크게 변함이 없다.
그럼, 이상의 장치를 이용하여 명사구 대역 쌍을 추출하는 방법에 대하여 도 4를 참조하여 설명한다.
먼저, 소스 언어 문장에 대한 전처리 과정으로, 병렬 말뭉치 DB(10)에 저장된 소스 말뭉치(12)를 각 단어에 대하여 품사 정보를 부착하고 이 품사 정보에 근거하여 구문 분석기를 통해 구문 분석한다(S110). 그리고, 구문 분석된 결과를 소스 구문 분석/품사 부착 말뭉치 DB(120)에 저장하여 데이터베이스를 구축한다(S140).
이와 동시에, 병렬 말뭉치 DB(10)에 저장된 타겟 말뭉치(14)를 형태소 분석하고 분석한 형태소에 대하여 품사 정보를 부착한다(S120). 그리고, 그 결과를 타겟 형태소 분석/품사 부착 말뭉치 DB(110)에 저장하여 데이터베이스를 구축한다(S140).
또한, 또 다른 전처리 과정으로, 병렬 말뭉치 DB(10)를 단어 정렬하여 소스-타겟 단어 정렬 DB(180)을 구축한다(S130, S140). 여기서, 소스-타겟 단어 정렬 DB(180)는 소스 언어-타겟 언어에 대하여 어느 한 방향에 대한 정렬 결과를 모두 합집합 한 합집합(union) 단어 정렬과, 소스 언어와 타겟 언어의 양 방향에 대한 정렬 결과에 모드 있는 교집합 한 교집합(intersection) 단어 정렬로 구분될 수 있다.
이렇게 구축된 데이터베이스(110,120,180) 및 말뭉치 DB(10)는 본 발명의 장치가 자립형(stand- alone)으로 컴퓨터 내에서 구현되는 경우 하드디스크 또는 외장메모리 등의 저장 매체에 저장하고, 네트워크 기반으로 구현되는 경우는 서버에 저장하여 구축한다. 또한, 본 발명의 장치가 고성능, 고용량화인 휴대 단말의 경우 휴대 단말의 메모리에 저장하여 구축할 수 있다.
이후, 소스 구문 분석/품사 부착 말뭉치 DB(120)에 저장된 말뭉치로부터 명사구를 추출한다(S150). 이의 추출 방법은 소스 말뭉치를 구문 분석한 결과를 이용하여 쉽게 얻을 수 있다.
타겟 형태소 분석/품사 부착 말뭉치 DB(110)에 저장된 말뭉치로부터 타겟 언어의 명사구 후보를 추출한다(S160). 이의 추출 방법은 초기에 소스 언어의 명사구와 대응될 수 있는 타겟 언어의 명사구를 모두 선별하고, 선별한 구에서 통계 정보를 기반으로 명사구를 구성할 수 있는 품사를 추출함으로써 추출된 품사에 근거하여 품사로 구성될 수 있는 구를 명사구 후보로 추출한다.
즉, 명사구의 시작과 끝, 끝에만, 중간에만 올 수 있는 형태소의 품사를 구별하여 해당 조건에 만족하는 구를 모두 추출한다.
이후, 상기의 과정에서 추출한 소스 언어의 명사구와 타겟 언어의 명사구 후보로부터 대응 가능한 모든 쌍을 대상으로 정렬 확률을 분석한 스코어를 산출한다(S170).
즉, 소스 언어의 명사구 내 명사/단어/명사구 개수, 타겟 언어의 명사구 후보 내 명사/단어/명사구 개수, 합집합 또는 교집합 단어 정렬에 의해 소스 명사와 타겟 명사가 정렬된 링크 수, 한 쪽 언어만 명사구 대역 쌍 후보 내에 걸친 단어/명사 정렬 링크 수 등에 의해 스코어를 산출한다.
이후, 산출된 스코어 순으로 정렬하여 스코어가 가장 높은 하나의 명사구 대역 쌍을 선별한다(S180).
이후, 선별한 명사구 대역 쌍을 명사구 대역 사전에 저장 및 갱신하여 사전을 구축한다(S190).
이러한 과정에 따르면, 소스 언어와 타겟 언어에 대한 병렬 말뭉치로부터 자동으로 명사구 대역 쌍을 추출할 수 있으므로 단어 정렬의 오류가 있을 경우에도 이의 영향을 덜 받으면서 대역 쌍 추출이 가능하고, 기존의 사전에 없는 신조어(미등록어)의 대역 쌍을 병렬 말뭉치에서 자동 추출할 수 있다.
한편, 본 발명은 이상에서 설명한 단어 정렬 방법을 소프트웨어적인 프로그램으로 구현하여 컴퓨터로 읽을 수 있는 소정 기록 매체에 기록해 둠으로써 다양한 재생 장치에 적용할 수 있다.
다양한 재생 장치는 PC, 노트북, 휴대용 단말 등일 수 있다.
예컨대, 기록 매체는 각 재생 장치의 내장형으로 하드 디스크, 플래시 메모리, RAM, ROM 등이거나, 외장형으로 CD-R, CD-RW와 같은 광디스크, 콤팩트 플래시 카드, 스마트 미디어, 메모리 스틱, 멀티미디어 카드일 수 있다.
이 경우, 컴퓨터로 읽을 수 있는 기록 매체에 기록한 프로그램은, 앞서 설명한 바와 같이 소스 언어 문장을 구문 분석한 결과로부터 명사구를 추출하는 과정과, 타겟 언어 문장을 형태소 단위로 분석한 결과로부터 소스 언어의 명사구와 대응 가능한 명사구 후보들을 추출하는 과정과, 소스 언어의 명사구와 타겟 언어의 명사구 후보들간 정렬 확률을 계산하여 대역 쌍 스코어를 산출하는 과정과, 산출된 대역 쌍 스코어들 중에서 가장 높은 스코어를 갖는 대역 쌍을 추출하는 과정을 포함하여 실행될 수 있다.
또한, 한국어에 대하여 명사구 추출을 위한 프로그램은, 형태소 단위로 분석된 한국어 말뭉치에 품사 정보를 부착하고, 형태소 단위로 분석된 한국어 말뭉치를 단어 정렬한 결과로부터 명사구 후보를 추출하는 과정으로 실행될 수 있다.
이상의 설명은 본 발명을 예시적으로 설명한 것에 불과하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술적 사상에서 벗어나지 않는 범위에서 다양한 변형이 가능할 것이다. 따라서 본 발명의 명세서에 개시된 실시 예들은 본 발명을 한정하는 것이 아니다. 본 발명의 범위는 아래의 특허청구범위에 의해 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술도 본 발명의 범위에 포함되는 것으로 해석해야 할 것이다.
통계적 기계 번역 시스템에서, 종래 기술에 따른 대역 쌍 추출은 단어 정렬에 의존적이어서 단어 정렬에 오류가 있으면 대역 쌍 후보 추출부터 오류가 발생하였으나, 본 발명은 소스 언어 및 타겟 언어의 병렬 말뭉치로부터 품사 정보를 이용하여 각 언어별로 명사구 후보를 추출하고 추출한 두 언어의 명사구 후보 쌍에서 정렬 가능한 확률이 높은 쌍을 추출함으로써 단어 정렬의 오류가 있을 경우에도 용이하게 구 대역쌍 추출이 가능하고, 기존의 사전에 없는 신조어(미등록어)의 대역 쌍을 병렬 말뭉치에서 자동으로 추출하는 것이 가능하다. 이로써, 자동 번역기 또는 자동 사전 구축을 통한 번역의 품질을 향상시킬 수 있다.
110: 타겟 형태소 분석 말뭉치 DB
120: 소스 구문 분석 말뭉치 DB
130: 타겟 언어 명사구 후보 추출기
140: 소스 언어 명사구 추출기
150: 명사구 대역쌍 스코어 산출기
160: 대역쌍 추출기
170: 명사구 대역 사전 DB
180: 단어 정렬 DB
182: 교집합 단어 정렬 말뭉치
184: 합집합 단어 정렬 말뭉치

Claims (27)

  1. 통계적 기계 번역에서 대역 쌍 추출을 위한 장치로서,
    소스 언어 문장으로부터 추출된 소스 언어의 명사구와 타겟 언어 문장으로부터 추출된 타겟 언어의 명사구 후보간 정렬 확률을 기반으로 대역 쌍 스코어를 산출하는 대역쌍 스코어 산출기; 및
    상기 산출된 스코어들을 기반으로 대역 쌍을 추출하는 대역쌍 추출기를 포함하며,
    상기 대역쌍 스코어 산출기는,
    상기 정렬 확률 분석 시 상기 타겟 언어의 명사구 후보의 추출 제약과 관련되는 제약기준조건이 만족되는 지의 여부를 판단한 결과에 기초하여 상기 타겟 언어의 명사구 후보를 제거하는 것을 특징으로 하는 통계적 기계 번역에서 명사구 대역 쌍 추출 장치.
  2. 제 1 항에 있어서,
    상기 소스 언어 문장을 구문 분석한 결과로부터 상기 소스 언어의 명사구를 추출하는 소스 언어 명사구 추출기; 및
    상기 타겟 언어 문장을 형태소 단위로 분석한 결과로부터 확인되는 상기 타겟 언어 문장의 품사 정보를 기반으로 상기 소스 언어의 명사구와 대응 가능한 타겟 언어의 명사구 후보를 추출하는 타겟 언어 명사구 후보 추출기를 더 포함하며,
    상기 타겟 언어 문장을 형태소 분석한 결과는 정렬 알고리즘을 통해 단어 정렬한 결과를 포함하는 것을 특징으로 하는 통계적 기계 번역에서 명사구 대역 쌍 추출 장치.
  3. 제 1 항에 있어서,
    상기 대역쌍 스코어 산출기는
    상기 소스 언어의 명사구 내 명사/단어/명사구 개수, 상기 타겟 언어의 명사구 후보 내 명사/단어/명사구 개수, 합집합(union) 또는 교집합(intersection) 단어 정렬에 의해 소스 언어의 명사와 타겟 언어의 명사가 정렬된 링크 수, 한 쪽 언어만 명사구 대역 쌍 후보 내에 걸친 단어/명사 정렬 링크 수 중 하나 또는 하나 이상을 합산하여 산출하는 것을 특징으로 하는 통계적 기계 번역에서 명사구 대역 쌍 추출 장치.
  4. 제 1 항에 있어서,
    상기 대역쌍 추출기는,
    상기 스코어들 중에서 가장 높은 스코어를 갖는 대역 쌍을 추출하며, 상기 가장 높은 스코어를 갖는 대역 쌍이 여러 개일 경우 모든 대역 쌍을 추출하는 것을 특징으로 하는 통계적 기계 번역에서 명사구 대역 쌍 추출 장치.
  5. 제 1 항에 있어서,
    상기 제약기준조건은,
    상기 소스 언어의 명사구와 상기 타겟 언어의 명사구 후보 내 합집합 정렬이 존재하지 않은 제1 조건, 상기 소스 언어의 명사구 및 상기 타겟 언어의 명사구 후보 중 어느 하나인 제1 명사구의 명사의 개수가 나머지 다른 하나인 제2 명사구의 명사의 개수보다 제1 임계치 이상인 제2 조건, 및 상기 제1 명사구의 언어의 길이가 상기 제2 명사구의 언어의 길이보다 제2 임계치 이상인 제3 조건을 포함하며,
    상기 대역쌍 스코어 산출기는,
    상기 제1 조건, 상기 제2 조건, 상기 제3 조건 중 어느 하나가 만족되면, 상기 타겟 언어의 명사구 후보를 제거하는 것을 특징으로 하는 통계적 기계 번역에서 명사구 대역 쌍 추출 장치.
  6. 제 5 항에 있어서,
    상기 제1 조건은, 상기 소스 언어의 명사구와 상기 타겟 언어의 명사구 후보 내 합집합 정렬이 한 개도 없는 경우이며,
    상기 제2 조건은, 제1 명사구의 명사의 개수가 제2 명사구의 명사의 개수의 3개 이상인 경우이며,
    상기 제3 조건은, 상기 제1 명사구의 언어의 길이(단어나 형태소의 개수)가 상기 제2 명사구의 언어의 5배 이상인 경우인 것을 특징으로 하는 통계적 기계 번역에서 명사구 대역 쌍 추출 장치.
  7. [청구항 7은(는) 설정등록료 납부시 포기되었습니다.]
    제 1 항에 있어서,
    상기 소스 언어는 영어이고 상기 타겟 언어는 한국어인 것을 특징으로 하는 통계적 기계 번역에서 명사구 대역 쌍 추출 장치.
  8. 통계적 기계 번역에서 대역 쌍 추출을 위한 단말기로서,
    소스 언어 문장으로부터 추출된 소스 언어의 명사구와 타겟 언어 문장으로부터 추출된 타겟 언어의 명사구 후보간 정렬 확률을 기반으로 대역 쌍 스코어를 산출하는 대역쌍 스코어 산출기; 및
    상기 산출된 스코어들을 기반으로 대역 쌍을 추출하는 대역쌍 추출기를 포함하며,
    상기 대역쌍 스코어 산출기는,
    상기 정렬 확률 분석 시 상기 타겟 언어의 명사구 후보의 추출 제약과 관련되는 제약기준조건이 만족되는 지의 여부를 판단한 결과에 기초하여 상기 타겟 언어의 명사구 후보를 제거하는 것을 특징으로 하는 단말기.
  9. [청구항 9은(는) 설정등록료 납부시 포기되었습니다.]
    제 8 항에 있어서,
    상기 소스 언어 문장의 구문 분석 결과, 상기 타겟 언어 문장의 형태소 분석 결과를 저장한 메모리;
    상기 소스 언어 문장의 구문 분석 결과로부터 상기 소스 언어의 명사구를 추출하는 소스 언어 명사구 추출기; 및
    상기 타겟 언어 문장을 형태소 단위로 분석한 결과로부터 확인되는 상기 타겟 언어 문장의 품사 정보를 기반으로 상기 소스 언어의 명사구와 대응 가능한 타겟 언어의 명사구 후보를 추출하는하는 타겟 언어 명사구 후보 추출기를 더 포함하며,
    상기 타겟 언어 문장을 형태소 분석한 결과는 정렬 알고리즘을 통해 단어 정렬한 결과를 포함하는 것을 특징으로 하는 단말기.
  10. [청구항 10은(는) 설정등록료 납부시 포기되었습니다.]
    제 8 항에 있어서,
    상기 대역쌍 스코어 산출기는
    상기 소스 언어의 명사구 내 명사/단어/명사구 개수, 상기 타겟 언어의 명사구 후보 내 명사/단어/명사구 개수, 합집합(union) 또는 교집합(intersection) 단어 정렬에 의해 소스 언어의 명사와 타겟 언어의 명사가 정렬된 링크 수, 한 쪽 언어만 명사구 대역 쌍 후보 내에 걸친 단어/명사 정렬 링크 수 중 하나 또는 하나 이상을 합산하여 산출하는 것을 특징으로 하는 단말기.
  11. [청구항 11은(는) 설정등록료 납부시 포기되었습니다.]
    제 8 항에 있어서,
    상기 대역쌍 추출기는,
    상기 스코어들 중에서 가장 높은 스코어를 갖는 대역 쌍을 추출하며, 상기 가장 높은 스코어를 갖는 대역 쌍이 여러 개일 경우 모든 대역 쌍을 추출하는 것을 특징으로 하는 단말기.
  12. [청구항 12은(는) 설정등록료 납부시 포기되었습니다.]
    제 8 항에 있어서,
    상기 제약기준조건은,
    상기 소스 언어의 명사구와 상기 타겟 언어의 명사구 후보 내 합집합 정렬이 존재하지 않은 제1 조건, 상기 소스 언어의 명사구 및 상기 타겟 언어의 명사구 후보 중 어느 하나인 제1 명사구의 명사의 개수가 나머지 다른 하나인 제2 명사구의 명사의 개수보다 제1 임계치 이상인 제2 조건, 및 상기 제1 명사구의 언어의 길이가 상기 제2 명사구의 언어의 길이보다 제2 임계치 이상인 제3 조건을 포함하며,
    상기 대역쌍 스코어 산출기는,
    상기 제1 조건, 상기 제2 조건, 상기 제3 조건 중 어느 하나가 만족되면, 상기 타겟 언어의 명사구 후보를 제거하는 것을 특징으로 하는 단말기.
  13. [청구항 13은(는) 설정등록료 납부시 포기되었습니다.]
    제 12 항에 있어서,
    상기 제1 조건은, 상기 소스 언어의 명사구와 상기 타겟 언어의 명사구 후보 내 합집합 정렬이 한 개도 없는 경우이며,
    상기 제2 조건은, 제1 명사구의 명사의 개수가 제2 명사구의 명사의 개수의 3개 이상인 경우이며,
    상기 제3 조건은, 상기 제1 명사구의 언어의 길이(단어나 형태소의 개수)가 상기 제2 명사구의 언어의 5배 이상인 경우인 것을 특징으로 하는 단말기.
  14. 형태소 단위로 분석된 타겟 언어 말뭉치에 품사 정보를 부착하고, 상기 형태소 단위로 분석된 타겟 언어 말뭉치로부터 품사 정보를 이용하여 타겟 언어의 명사구 후보를 추출하되,
    상기 타겟 언어의 명사구 후보와 다른 언어의 명사구간의 정렬 확률 분석 시 상기 타겟 언어의 명사구 후보의 추출 제약과 관련되는 제약기준조건이 만족되는 지의 여부를 판단한 결과에 기초하여 상기 타겟 언어의 명사구 후보를 제거하는 것을 특징으로 하는 명사구 대역쌍 추출 장치.
  15. 제 14 항에 있어서,
    상기 명사구 후보는 상기 타겟 언어 말뭉치를 단어 정렬한 결과에서 명사구를 구성할 수 있는 품사를 모두 추출함에 따라 생성하며,
    상기 명사구를 구성할 수 있는 품사는 명사구 시작에만 가능한 품사, 명사구 끝에만 가능한 품사, 명사구 시작과 끝은 되지 않지만 3개 이상의 형태소로 구성된 명사구 중간에는 가능한 품사, 명사구 어느 위치에도 가능한 품사를 포함하는 것을 특징으로 하는 명사구 대역쌍 추출 장치.
  16. [청구항 16은(는) 설정등록료 납부시 포기되었습니다.]
    제 14 항에 있어서,
    상기 제약기준조건은,
    상기 타겟 언어의 명사구 후보와 상기 다른 언어의 명사구 내 합집합 정렬이 존재하지 않은 제1 조건, 상기 타겟 언어 및 상기 다른 언어 중 어느 하나인 제1 언어의 명사의 개수가 나머지 다른 하나인 제2 언어의 명사의 개수보다 제1 임계치 이상인 제2 조건, 상기 제1 언어의 길이가 상기 제2 언어의 길이보다 제2 임계치 이상인 제3 조건을 포함하며,
    상기 제1 조건, 상기 제2 조건, 상기 제3 조건 중 어느 하나가 만족되면 상기 타겟 언어의 명사구 후보가 제거되는 것을 특징으로 하는 명사구 대역쌍 추출 장치.
  17. [청구항 17은(는) 설정등록료 납부시 포기되었습니다.]
    제 16 항에 있어서,
    상기 제1 조건은 상기 타겟 언어의 명사구 후보와 상기 다른 언어의 명사구 내 합집합 정렬이 한 개도 없는 경우이며,
    상기 제2 조건은 상기 제1 언어의 명사의 개수가 상기 제2 언어의 명사의 개수의 3개 이상인 경우이며,
    상기 제3 조건은 상기 제1 언어의 길이(단어나 형태소의 개수)가 상기 제2 언어의 5배 이상인 경우인 것을 특징으로 하는 명사구 대역쌍 추출 장치.
  18. [청구항 18은(는) 설정등록료 납부시 포기되었습니다.]
    제 14 항에 있어서,
    상기 타겟 언어는 한국어인 것을 특징으로 하는 명사구 대역쌍 추출 장치.
  19. 통계적 기계 번역에서 대역 쌍 추출을 위해 명사구 대역 쌍 추출 장치에서 수행되는 방법으로서,
    소스 언어 문장으로부터 추출된 소스 언어의 명사구와 타겟 언어 문장으로부터 추출된 타겟 언어의 명사구 후보간 정렬 확률을 기반으로 대역 쌍 스코어를 산출하는 단계; 및
    상기 산출된 스코어들을 기반으로 대역 쌍을 추출하는 단계를 포함하며,
    상기 대역 쌍 스코어를 산출하는 단계는,
    상기 정렬 확률 분석 시 상기 타겟 언어의 명사구 후보의 추출 제약과 관련되는 제약기준조건이 만족되는 지의 여부를 판단한 결과에 기초하여 상기 타겟 언어의 명사구 후보를 제거하는 것을 특징으로 하는 통계적 기계 번역에서 명사구 대역 쌍 추출 방법.
  20. [청구항 20은(는) 설정등록료 납부시 포기되었습니다.]
    제 19 항에 있어서,
    상기 소스 언어 문장을 구문 분석한 결과로부터 상기 소스 언어의 명사구를 추출하는 단계; 및
    상기 타겟 언어 문장을 형태소 단위로 분석한 결과로부터 확인되는 상기 타겟 언어 문장의 품사 정보를 기반으로 상기 소스 언어의 명사구와 대응 가능한 타겟 언어의 명사구 후보를 추출하는 단계를 더 포함하는 것을 특징으로 하는 통계적 기계 번역에서 명사구 대역 쌍 추출 방법.
  21. [청구항 21은(는) 설정등록료 납부시 포기되었습니다.]
    제 19 항에 있어서,
    상기 대역 쌍 스코어를 산출하는 단계는,
    상기 소스 언어의 명사구 내 명사/단어/명사구 개수, 상기 타겟 언어의 명사구 후보 내 명사/단어/명사구 개수, 합집합 또는 교집합 단어 정렬에 의해 소스 언어의 명사와 타겟 언어의 명사가 정렬된 링크 수, 한 쪽 언어만 명사구 대역 쌍 후보 내에 걸친 단어/명사 정렬 링크 수 중 하나 또는 하나 이상을 합산하여 산출하며,
    상기 대역 쌍을 추출하는 단계는,
    상기 스코어들 중에서 가장 높은 스코어를 갖는 대역 쌍을 추출하며, 상기 가장 높은 스코어를 갖는 대역 쌍이 여러 개일 경우 모든 대역 쌍을 추출하는 것을 특징으로 하는 통계적 기계 번역에서 명사구 대역 쌍 추출 방법.
  22. [청구항 22은(는) 설정등록료 납부시 포기되었습니다.]
    제 19 항에 있어서,
    상기 제약기준조건은,
    상기 소스 언어의 명사구와 상기 타겟 언어의 명사구 후보 내 합집합 정렬이 존재하지 않은 제1 조건, 상기 소스 언어의 명사구 및 상기 타겟 언어의 명사구 후보 중 어느 하나인 제1 명사구의 명사의 개수가 나머지 다른 하나인 제2 명사구의 명사의 개수보다 제1 임계치 이상인 제2 조건, 및 상기 제1 명사구의 언어의 길이가 상기 제2 명사구의 언어의 길이보다 제2 임계치 이상인 제3 조건을 포함하며,
    상기 대역 쌍 스코어를 산출하는 단계는,
    상기 제1 조건, 상기 제2 조건, 상기 제3 조건 중 어느 하나가 만족되면, 상기 타겟 언어의 명사구 후보를 제거하는 것을 특징으로 하는 통계적 기계 번역에서 명사구 대역 쌍 추출 방법.
  23. [청구항 23은(는) 설정등록료 납부시 포기되었습니다.]
    제 22 항에 있어서,
    상기 제1 조건은, 상기 소스 언어의 명사구와 상기 타겟 언어의 명사구 후보 내 합집합 정렬이 한 개도 없는 경우이며,
    상기 제2 조건은, 제1 명사구의 명사의 개수가 제2 명사구의 명사의 개수의 3개 이상인 경우이며,
    상기 제3 조건은, 상기 제1 명사구의 언어의 길이(단어나 형태소의 개수)가 상기 제2 명사구의 언어의 5배 이상인 경우인 것을 특징으로 하는 통계적 기계 번역에서 명사구 대역 쌍 추출 방법.
  24. 명사구 대역 쌍 추출 장치에서 수행되는 방법으로서,
    형태소 단위로 분석된 타겟 언어 말뭉치에 품사 정보를 부착하고, 상기 형태소 단위로 분석된 타겟 언어 말뭉치를 단어 정렬한 결과로부터 품사 정보를 이용하여 타겟 언어의 명사구 후보를 추출하되,
    상기 타겟 언어의 명사구 후보와 다른 언어의 명사구간의 정렬 확률 분석 시 상기 타겟 언어의 명사구 후보의 추출 제약과 관련되는 제약기준조건이 만족되는 지의 여부를 판단한 결과에 기초하여 상기 타겟 언어의 명사구 후보를 제거하는 것을 특징으로 하는 명사구 대역쌍 추출 방법.
  25. [청구항 25은(는) 설정등록료 납부시 포기되었습니다.]
    제 24 항에 있어서,
    상기 타겟 언어의 명사구 후보 추출은 상기 타겟 언어의 명사구를 구성할 수 있는 품사 정보에 근거하고,
    상기 타겟 언어의 명사구를 구성할 수 있는 품사 정보는 명사구 시작에만 가능한 품사, 명사구 끝에만 가능한 품사, 명사구 시작과 끝은 되지 않지만 3개 이상의 형태소로 구성된 명사구 중간에는 가능한 품사, 명사구 어느 위치에도 가능한 품사를 포함하는 것을 특징으로 하는 명사구 대역쌍 추출 방법.
  26. [청구항 26은(는) 설정등록료 납부시 포기되었습니다.]
    제 24 항에 있어서,
    상기 제약기준조건은,
    상기 타겟 언어의 명사구 후보와 상기 다른 언어의 명사구 내 합집합 정렬이 존재하지 않은 제1 조건, 상기 타겟 언어 및 상기 다른 언어 중 어느 하나인 제1 언어의 명사의 개수가 나머지 다른 하나인 제2 언어의 명사의 개수보다 제1 임계치 이상인 제2 조건, 상기 제1 언어의 길이가 상기 제2 언어의 길이보다 제2 임계치 이상인 제3 조건을 포함하며,
    상기 제1 조건, 상기 제2 조건, 상기 제3 조건 중 어느 하나가 만족되면 상기 타겟 언어의 명사구 후보가 제거되는 것을 특징으로 하는 명사구 대역쌍 추출 방법.
  27. [청구항 27은(는) 설정등록료 납부시 포기되었습니다.]
    제 19 항 내지 제 26 항 중 어느 한 항에 의한 방법을 컴퓨터에서 실행시키는 컴퓨터 프로그램이 저장된 컴퓨터 판독가능 기록매체.
KR1020100122282A 2010-12-02 2010-12-02 통계적 기계 번역에서 명사구 대역 쌍 추출 장치 및 방법 KR101753708B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100122282A KR101753708B1 (ko) 2010-12-02 2010-12-02 통계적 기계 번역에서 명사구 대역 쌍 추출 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100122282A KR101753708B1 (ko) 2010-12-02 2010-12-02 통계적 기계 번역에서 명사구 대역 쌍 추출 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20120060666A KR20120060666A (ko) 2012-06-12
KR101753708B1 true KR101753708B1 (ko) 2017-07-20

Family

ID=46611525

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100122282A KR101753708B1 (ko) 2010-12-02 2010-12-02 통계적 기계 번역에서 명사구 대역 쌍 추출 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101753708B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391885B (zh) * 2014-11-07 2017-07-28 哈尔滨工业大学 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法
KR20200072802A (ko) 2018-12-13 2020-06-23 한국전자통신연구원 실시간 통역 시스템 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007018359A (ja) * 2005-07-08 2007-01-25 Sharp Corp 言語処理装置及び言語処理方法と、言語処理プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007018359A (ja) * 2005-07-08 2007-01-25 Sharp Corp 言語処理装置及び言語処理方法と、言語処理プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
제18회 한글 및 한국어 정보처리 학술대회(2006.10.31)

Also Published As

Publication number Publication date
KR20120060666A (ko) 2012-06-12

Similar Documents

Publication Publication Date Title
Virga et al. Transliteration of proper names in cross-lingual information retrieval
US8548794B2 (en) Statistical noun phrase translation
KR101762866B1 (ko) 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
US8209163B2 (en) Grammatical element generation in machine translation
US20130018650A1 (en) Selection of Language Model Training Data
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
KR101266361B1 (ko) 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
Dyer Using a maximum entropy model to build segmentation lattices for MT
KR100496873B1 (ko) 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법
CN1542648A (zh) 用于词分析的系统和方法
US20090216522A1 (en) Apparatus, method, and computer program product for determing parts-of-speech in chinese
Bouamor et al. Automatic construction of a multiword expressions bilingual lexicon: A statistical machine translation evaluation perspective
KR101753708B1 (ko) 통계적 기계 번역에서 명사구 대역 쌍 추출 장치 및 방법
Mrinalini et al. Pause-based phrase extraction and effective OOV handling for low-resource machine translation systems
Afli et al. Building and using multimodal comparable corpora for machine translation
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
Saad Mining documents and sentiments in cross-lingual context
Nguyen et al. A tree-to-string phrase-based model for statistical machine translation
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
Schafer et al. Statistical machine translation using coercive two-level syntactic transduction
KR101721536B1 (ko) 품사간 정렬 경향을 반영한 통계적 단어 정렬 방법 및 이를 이용한 기계 번역 장치
Spasic et al. Unsupervised multi-word term recognition in Welsh
Boito et al. Investigating language impact in bilingual approaches for computational language documentation
JP2006127405A (ja) バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination