KR20090015604A - 번역 지식 구축 방법 및 장치 - Google Patents

번역 지식 구축 방법 및 장치 Download PDF

Info

Publication number
KR20090015604A
KR20090015604A KR1020070080065A KR20070080065A KR20090015604A KR 20090015604 A KR20090015604 A KR 20090015604A KR 1020070080065 A KR1020070080065 A KR 1020070080065A KR 20070080065 A KR20070080065 A KR 20070080065A KR 20090015604 A KR20090015604 A KR 20090015604A
Authority
KR
South Korea
Prior art keywords
word
sentence
language sentence
phrase
source language
Prior art date
Application number
KR1020070080065A
Other languages
English (en)
Other versions
KR100912501B1 (ko
Inventor
황영숙
김영길
최승권
김창현
서영애
이기영
양성일
노윤형
윤창호
권오욱
박은진
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020070080065A priority Critical patent/KR100912501B1/ko
Priority to US12/155,127 priority patent/US8121829B2/en
Publication of KR20090015604A publication Critical patent/KR20090015604A/ko
Application granted granted Critical
Publication of KR100912501B1 publication Critical patent/KR100912501B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Abstract

본 발명은 번역기에서 사용할 번역 지식을 자동 구축하는 방법 및 장치에 관한 것이다. 본 발명은 소스언어 문장과 상기 소스언어 문장의 번역 문장에 대응하는 타겟언어 문장이 입력되면 상기 소스언어 문장 및 상기 타겟언어 문장의 각 형태소에 품사, 원형, 기본구내에서의 상대적 위치 정보 및 구문 정보를 부착하여 상기 소스언어 문장 및 타겟언어 문장을 변환한 후, 상기 변환한 소스언어 문장과 타겟언어 문장의 단어 정렬과 구문 정렬을 수행하고 상기 단어 정렬 결과와 상기 구문 정렬 결과에서 단어 구문 번역 지식, 이중언어 용언 하위범주 번역 지식 및 이중언어 문형 번역 지식을 추출한다.
대역사전, 단어 정렬, 구문 정렬, 의존관계 분석기, 단어/구문 대역 사전 구축, 이중언어 용언 하위범주 패턴 추출, 이중언어 문형 추출, 이중언어 단어/구문 클러스터

Description

번역 지식 구축 방법 및 장치{METHOD AND APPARATUS FOR CONSTRUCTING TRANSLATION KNOWLEDGE}
본 발명은 번역 장치에서 사용할 번역 지식을 자동 구축하는 방법에 관한 것으로 특히, 교착과 굴절 현상이 심한 한국어를 교착 및 굴절 현상이 없거나 심하지 않은 영어 및 중국어로 자동 번역해 주는 번역 장치에서 사용할 번역 지식을 기존에 보유하고 있던 단어 대역 사전, 자율학습 그리고 언어처리 모듈을 활용하여 점증적으로 자동 구축하는 방법에 대한 것이다.
본 발명은 정보통신부 및 정보통신연구진흥원의 IT신성장동력핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-037-02, 과제명: 응용 특화 한중영 자동번역 기술개발].
번역 지식은 기계번역의 방법론에 관계없이 다양한 방법으로 유용하게 사용될 수 있다. 특히, 단어나 구문단위를 넘어서서 용언의 하위범주화 관계 및 문장의 틀 단위에서의 번역 지식은 번역 및 외국어 학습 시스템 등에서도 유용하게 활용될 수 있다. 즉, 획득된 번역지식은 통계기반의 자동번역 시스템뿐 만 아니라 예제 기반/패턴 기반의 자동 번역 시스템 및 외국어 교육용 프로그램에도 활용 가능하다.
기계번역 시스템은 소스 언어의 문장들로 이루어진 텍스트를 입력 받아 타겟 언어로 번역하여 그 결과를 출력하는 시스템으로 단어/구문 대역 사전(lexicon), 번역 규칙, 번역 패턴 등을 이용하거나 통계적 번역 모델을 학습하여 번역을 수행한다. 일반적으로 번역 규칙이나 번역 패턴을 이용하는 번역 시스템은 정확한 지식이 필수적이므로 전문가에 의해 번역지식을 획득하는 것이 보편적이나, 상당한 시간과 비용이 소요되므로 자동으로 지식을 추출하거나 도구를 개발하고 반자동으로 지식을 획득하고자 하는 노력들이 있어 왔다.
기존에 시도된 접근법 중의 하나는 켄지 이마무라(Kenji Imamura)에 의한 것으로 "Feedback cleaning of machine translation rules using automatic evaluation,(the 41st Annual Meeting of the Association for Computational Linguistics(ACL 2003))"이 있다. 이는 예제기반과 변환주도 방식의 일본어-영어 기계번역을 위해 자동으로 대역지식 및 변환규칙을 학습하고 정련하는 방법에 대한 것이다.
켄지 이마무라는 일본어와 영어 병렬 문장 쌍에 대해 각 언어의 구문분석기를 사용하여 일본어와 영어 문장을 각각 구문분석하고, 단어 정렬 알고리즘을 사용하여 단어 정렬을 수행한 후, 영어와 일본어의 구문 범주가 동일한 구문들 간을 연결하여 구문 정렬을 하고, 그 결과로부터 구문대역 정보와 단어 대역 지식을 획득하였다. 그리고 구문정렬 결과로부터 구문범주와 문법적 역할을 수행하는 기능어로 구성된 변환규칙을 추출하였다. 변환규칙은 변환대상 구문의 구문범주와 소스 언어 구문의 패턴, 타겟언어 구문의 패턴, 그리고 소스언어 구문의 예제들로 구성되었다. 그리고 정확한 변화규칙을 추출하기 위해 이중언어 말뭉치를 정련하는 작업을 수행하였다. 이중언어 말뭉치는 직역(literal translation)과 의역(non-literal translation) 말뭉치로 구분되었으며, 직역(literal translation) 말뭉치는 소스 언어와 타겟 언어 문장을 구성하는 단어들의 정렬 고리(alignment link)를 최대화하는 문장 쌍들로 구성하고, 그 외는 의역(non-literal translation) 말뭉치로 보았다. 변환규칙은 직역 말뭉치로부터 추출되었고, 의역 말뭉치에서 구가 있으면, 그 구로부터 일반화된 구문 변환규칙이 또한 추출되었다. 그 외 일반화되기 어려운 부분에 대해서는 어휘를 그대로 사용하여 번역 패턴을 추출하였다.
그러나 위에서 설명한 켄지 이마무라의 방법론은 구문 정렬을 할 때, 양방향 언어 사이에 동일한 구문범주를 갖는 경우에 대해서만 구문정렬을 시도한다. 이는 언어구조와 문화적 배경이 다른 두 언어 사이에 적용할 경우 추출된 번역지식의 재현율을 저하시키고, 번역지식이 구축된다 해도 문장 단위의 너무나 일반화된 지식이 되어 단어 의미 모호성과 단어 재배열의 복잡성의 문제가 있었다.
본 발명이 이루고자 하는 기술적 과제는 번역과정에서 발생하는 의미적 모호성과 언어의 구조적 차이로 인한 단어 재배열의 복잡성(word-reordering complexity) 문제를 최소화하고, 시간과 비용을 절감하기 위해 번역 지식을 자동으로 구축하는 번역 지식 구축 방법을 제공하는 것이다.
상기 과제를 달성하기 위한 본 발명의 하나의 특징에 따른 번역 지식 구축 장치의 번역 지식을 구축하는 방법은 소스언어 문장과 상기 소스언어 문장의 번역 문장에 대응하는 타겟언어 문장이 입력되면 상기 소스언어 문장 및 상기 타겟언어 문장을 통사, 구문 정보가 표현된 형태로 변환한 후, 상기 변환된 소스언어 문장과 상기 변환된 타겟언어 문장의 단어 정렬과 구문 정렬을 수행하고 상기 단어 정렬 결과와 상기 구문 정렬 결과에서 이중언어 용언 하위범주 번역 지식을 추출한다.
상기 과제를 달성하기 위한 본 발명의 다른 특징에 따른 번역 지식 구축 장치는 소스언어 문장과 상기 소스언어 문장의 번역 문장에 대응하는 타겟언어 문장을 입력 받아 상기 소스언어 문장 및 상기 타겟언어 문장의 각 형태소에 원형, 품사, 기본구 내에서의 상대적 위치 정보 및 구문정보를 부착하여 상기 소스언어 문장 및 상기 타겟언어 문장을 변환하는 소스언어 및 타겟언어 문장 변환기, 기 보유 대역사전과 자율 학습 알고리즘을 적용하여 단어와 구문을 정렬하는 단어 구문 정렬 수단 및 상기 단어 구문 정렬 수단의 단어 구문 정렬 결과에 기반하여 단어 구 문 번역 지식, 이중언어 용언 하위범주 번역 지식, 이중언어 문형 번역 지식을 획득하는 번역 지식 획득 수단을 포함한다.
본 발명에 의하면, 단어와 구문 대역 지식, 어휘 수준의 용언 하위범주 번역 지식, 관용적/숙어적 표현을 위한 문형 번역 지식을 구축하고 동일한 의미를 갖는 단어/구문 번역 지식을 클러스터링함으로써 번역지식을 일반화하여, 의미적 중의성의 문제를 해소하고, 용언 하위범주 패턴과 문형 번역 패턴의 경우 어휘적/의미적 문맥에 따라 구축되므로 의미 모호성이 해결될 수 있을 뿐만 아니라, 언어의 구조적 차이에 의해 발생하는 어순 재배열의 문제도 단문 단위에서 이중언어 번역 패턴으로 구성함으로써 해소할 수 있다. 이러한 의미 중의성 해결 및 계산복잡도 감소는 결과적으로 번역의 정확성 및 효율을 향상시키는 효과를 가져다 줄 것이다.
또한, 번역 지식 획득의 모든 과정을 자동화함으로써 지식 획득에 소요되는 시간과 비용을 최소화 할 수 있다.
아울러 자동으로 구축된 번역지식은 단순한 단어 혹은 구문의 차원을 뛰어넘어 문장단위의 번역 지식이고, 용언 하위범주 번역 지식의 경우 문맥에 따라 상호 호응하는 논항/용언의 관계를 명확하게 제시할 수 있으므로 외국어 학습 도우미와 같은 응용 프로그램을 제작, 활용 가능하게 하는 등 그 산업적/교육적 차원에서의 활용 범위를 확장할 수 있다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명 이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
이제 본 발명의 실시예에 따른 번역 지식 구축 방법 및 장치에 대해 도면을 참고로 하여 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 번역 지식 구축 장치의 구성도이다.
도 1에 도시한 바와 같이 본 발명의 실시예에 따른 번역 지식 구축 장치는 소스언어 문장 변환기(110), 타켓언어 문장 변환기(120), 이중언어 문장 맵 생성기(130), 단어 구문 정렬 모듈(140), 번역 지식 획득 모듈(150) 및 번역기(160)를 포함한다.
소스언어 문장 변환기(110)는 소스언어 문장을 입력 받아 형태소의 원형, 품사, 형태소간 의존관계를 형태소의 자질 정보로 사용할 수 있도록 문장을 재구성하고, 타켓언어 문장 변환기(120)는 타켓언어 문장을 입력 받아 형태소의 원형, 품 사, 형태소간 의존관계를 형태소의 자질 정보로 사용할 수 있도록 문장을 재구성한다. 이중언어 문장 맵 생성기(130)는 소스언어 문장과 타겟언어 문장 쌍으로부터 단어정렬을 효과적으로 할 수 있도록 소스언어 문장과 타겟언어 문장의 형태소를 형태소 고유 식별 번호로 부호화한다. 단어 구문 정렬 모듈(140)은 기 보유 대역사전과 자율 학습 알고리즘을 적용하여 자동으로 단어와 구문을 정렬하고 번역 지식 획득 모듈(150)은 단어 정렬 결과 및 구문 정렬 결과에 기반하여 번역 지식을 획득한다. 번역기(160)는 번역할 문장을 입력 받아 획득된 번역 지식을 활용하여 자동 번역하여 번역결과를 출력한다.
도 2는 본 발명의 실시예에 따른 단어 구문 정렬 모듈(140)의 구성도이다.
단어 구문 정렬 모듈(140)은 단어 정렬기(141), 단어 정렬 후처리기(142) 및 단어 정렬 기반 구문 정렬기(143)을 포함한다.
단어 정렬기(141)는 자율학습에 의해 단어를 정렬하여 형태소 표층형, 형태소 원형 및 품사 중 적어도 하나를 사용한 복수의 단어 정렬 결과를 출력한다. 단어 정렬 후처리기(142)는 기 보유 대역 사전을 이용하여 상기 단어 정렬기(141)가 출력한 단어 정렬의 오류를 수정한다. 단어 정렬 기반 구문 정렬기(143)는 단어 정렬 결과와 구문 의존관계 정보를 활용하여 구문정렬을 수행한다.
도 3은 본 발명의 실시예에 따른 번역 지식 획득 모듈(150)의 구성도이다.
번역 지식 획득 모듈(150)은 단어 구문 번역 지식 추출기(151), 이중언어 용언 하위범주 번역 지식 추출기(152), 이중언어 문형 번역 지식 추출기(153) 및 이중언어 단어 구문 클러스터(154)를 포함한다.
단어 구문 번역 지식 추출기(151)는 단어/구문 정렬 결과를 입력으로 받아 단어와 구문들의 번역 정보를 추출하여 단어/구문 번역 사전 데이터베이스에 저장 한다. 이중언어 용언 하위범주 번역 지식 추출기(152)는 소스언어 문장의 중심어인 용언을 찾고 용언과 의존관계에 있는 단어/구문을 추적하여 용언의 하위 범주 관계 틀을 형성하고, 타겟언어 문장의 단어/구문 대역을 자질구조 형태로 표현한 후, 소스 언어의 용언 하위 범주 틀에 타겟언어의 대역 자질구조 정보를 연결하여 이중언어 용언 하위범주 번역 지식을 추출하여 용언 하위범주 번역 패턴 데이터베이스에 저장한다. 이중언어 문형 번역 지식 추출기(153)는 관용적/숙어적 표현을 사용한 문장을 대상으로 번역 패턴을 추출하여 이중언어 문형 데이터베이스에 저장한다. 이중언어 단어 구문 클러스터(154)는 추출된 번역 지식들을 의미적으로 동일한 그룹으로 나누어 일반화 시킨다.
다음, 본 발명의 실시예에 따라 번역 지식 구축 방법에 대해 도4를 참조하여 상세하게 설명한다. 도 4는 본 발명의 실시예에 따른 번역 지식 구축 방법을 나타낸 순서도이다.
본 발명의 실시예에 따른 번역 지식 구축 장치는 소스언어 문장과 타겟언어 문장 쌍을 입력받아 상기 소스언어 문장과 타겟언어 문장을 단어정렬과 구문정렬을 수행한 후, 단어정렬 결과와 구문정렬 결과로부터 번역지식을 추출한다.
먼저, 번역 지식 구축 장치로 문장 단위로 정렬된 소스언어 문장과 타겟언어 문장 쌍이 입력된다. 소스언어는 번역지식을 사용할 번역기에 입력되는 언어이고, 타겟언어는 번역지식을 사용할 번역기에서 소스언어에 대한 번역문으로 출력되는 언어 를 의미한다.
예를 들어, 한국어를 영어나 중국어로 번역하는 번역기에서 사용할 번역 지식을 구축하는 경우, 한국어가 소스언어가 되고 영어나 중국어가 타켓언어가 된다. 소스언어 문장과 타켓언어 문장은 형태소 분석, 품사 태깅 및 구문 분석되어 입력된다. 예를 들어, 소스언어 문장이 "계단에서 떨어지어서 세 곳이 골절되었습니다."이면 입력되는 형태는 아래와 같다.
<한국어 구문 분석 결과>
골절되[일반동사]+었[과거시제선어말어미]+습니다[평서형종결어미]+.[문미기호]
세-곳[용언불가능보통명사]+이[주격조사]
떨어지[일반동사]+어서[종속연결어미]
계단[용언불가능보통명사]+에서[부사격조사]
타겟언어 문장이 "I fell down the stairs and fractured my leg in three places."인 경우, 입력되는 형태는 아래와 같다. 아래에서 의존관계 단어/구 번호는 의존관계에 있는 단어나 구의 번호를 나타내고 -1은 문장의 중심어인 용언임을 나타낸다. 예를 들어, 단어 2인 fell은 단어 6인 fractured와 인과 의존관계에 있고 fracturede는 중심어이므로 의존관계 단어/구 번호가 -1이다. 그리고 구문기호 NP(Noun Phrase) 는 명사구, VP(Verb Phrase)는 동사구, PP(Preposition Phrase)는 전치사구, S(Sentence)는 문장을 의미한다.
<영어 구문 분석 결과>
--------------------------------------------------------------------
단어/구 의존관계 구문기호 표층형/품사/원형
번호 단어/구 번호
--------------------------------------------------------------------
1 6 NP I/PRP/i
2 6 VP fell/VBP/fell
3 2 VP down/RB/down
4 2 NP the/DT/the stairs/NNS/stair
5 6 VP and/CC/and
6 -1 VP fractured/VBD/fracture
7 6 NP my/DT/my leg/NN/leg
8 6 PP in/IN/in
9 8 NP three/CD/three places/NNS/place
10 6 S ././.
번역 지식 구축 장치는 소스언어 문장 및 타켓언어 문장을 통사, 구문정보가 표현된 형태로 변환한다(S410). 소스언어 문장 변환기(110)는 소스언어 문장의 각 형태소에 원형, 품사, 기본구 내에서의 상대적 위치정보(B: 구문의 시작위치에 나타나는 단어, I-구문의 내부에 나타나는 단어, O: 구문을 구성하지 않는 단어), 구문정보(N: 명사구, V:동사구, P:전치사구등)를 부착한다. 위에서 예로 든 소스언어 문장을 변환하면 아래와 같다. 여기서, eyNNF는 용언불가능 보통명사를, eyPOC는 부사격조사를, eyVBB는 일반동사를, eyEEG는 종속연결어미를, eyPOA는 주격조사, eyERD는 과거시제선어말어미를, eyEEA는 평서형종결어미를, eySYA는 문미기호를 의미한다.
<문장변환: 형태소에 품사, 원형, 위치정보, 구문정보 표현>
계단|eyNNF|계단||B-N|
에서|eyPOC|에서||O|
떨어지|eyVBB|떨어지||B-V|
어서|eyEEG|어서||O|
3|eyNUC|3|단위|B-N|
곳|eyNNF|곳|단위|I-N|
이|eyPOA|이||O|
골절되|eyVBB|골절되||B-V|
었|eyERD|었||O|
습니다|eyEEA|습니다||O|
.|eySYA|.||O|
타켓언어 문장 변환기(120)는 타겟언어 문장의 각 형태소에 원형, 품사, 기본구 내에서의 상대적 위치 정보, 구문정보를 부착한다. 위에서 예로 든 타겟언어 문장을 변환하면 아래와 같다.
<문장변환: 형태소에 품사, 원형, 위치정보, 구문정보 표현>
I|PRP|i||B-N|
fell|VBP|fell||B-V|
down|RB|down||I-V|
the|DT|the||B-N|
stairs|NNS|stair||I-N|
and|CC|and||O|
fractured|VBD|fracture||B-V|
my|DT|my||B-N|
leg|NN|leg||I-N|
in|IN|in||B-P|
three|CD|three||B-N|
places|NNS|place||I-N|
.|.|.||O|
원형, 품사 및 구문정보가 부착된 소스언어 및 타겟언어 형태소는 번역의 기본 단위인 토큰으로 인식되며, 단어 구문 정렬 모듈(140)의 입력으로 주어진다.
이중언어 문장 맵 생성기(130)는 단어정렬을 효과적으로 할 수 있도록 소스언어 및 타겟언어의 형태소를 형태소 고유 식별 번호로 부호화한다(S420). 즉, 문장을 구성하는 형태소를 형태소 고유 식별 번호로 대체한다.
단어 정렬기(141)는 자율학습에 의해 단어 정렬을 수행한다(S430).
소스언어 문장과 타겟언어의 문장을 형태소의 표층형, 원형, 품사 중 적어도 하나를 사용하여 문장을 재구성한 복수의 재구성된 문장 쌍을 생성한 후, 상기 재구성된 문장 쌍 각각에 대해 소스언어 문장과 타겟언어 문장에서 서로 대응되는 단 어를 찾아낸다. 따라서, 단어 정렬기(141)는 형태소 표층형, 형태소 원형 및 품사 중 적어도 하나를 사용하여 정렬한 복수의 단어 정렬 결과를 출력한다.
예를 들어 설명하면, 위에서 예를 든 소스언어 문장과 타겟언어 문장을 형태소의 표층형만 사용하여 재구성한 결과와 형태소의 표층형과 품사를 함께 사용하여 재구성한 결과는 아래와 같다.
< 형태소의 표층형만 사용한 문장 재구성>
계단 에서 떨어지 어서 3 곳 이 골절되 었 습니다 .
I fell down the stairs and fractured my leg in three places.
< 형태소의 표층형과 품사를 함께 사용한 문장 재구성>
계단|eyNNF 에서|eyPOC 떨어지|eyVBB 어서|eyEEG 3|eyNUC 곳|eyNDA 이|eyPOA 골절되|eyVBB 었|eyERD 습니다|eyEEA .|eySYA
I|PRP fell|VBP down|RB the|DT stairs|NNS and|CC fractured|VBD my|DT leg|NN in|IN three|CD places|NNS .|.
위와 같이 표층형만 사용하여 재구성한 소스언어 문장과 타겟언어 문장 쌍과표층형과 품사를 함께 사용하여 재구성한 문장 쌍 각각의 소스언어 문장과 타겟언언 문장에서 자율학습에 의해 대응되는 단어를 찾아내어, 표층형만 사용한 단어 정렬 결과와 표층형과 품사를 함께 사용한 단어 정렬 결과를 출력한다.
단어 정렬 후처리기(142)는 단어 정렬기(141)의 정렬 오류를 수정하고 단어 정렬 후처리를 수행한다(S440). 단어 정렬 후처리기(142)는 기 보유하고 있던 대역 사전을 활용하여 상기 복수의 단어 정렬 결과를 보정하고, 상기 복수의 단어 정렬 결과들에 대해 보정된 단어 정렬 결과를 제외하고 교집합을 취하여 동시에 일치하는 단어 정렬을 올바른 단어 정렬로 결정한다. 그 외의 경우는 단어정렬 결과에서 제거한다.
이 때 사용된 대역사전은 고빈도 어휘들로 구성되어 있으며, 기존에 전문가에 의해 혹은 자동으로 구축된 것으로 필터링 과정을 통해 오류가 제거된 사전이다. 단어 정렬 결과 보정 및 후처리는 상기 복수의 단어 정렬 결과 모두에 대해 수행하지 않고, 우수한 단어 정렬 결과 2개 이상을 선택하여 수행할 수도 있다.
단어 정렬 기반 구문 정렬기(143)는 소스 언어의 의존관계 정보와 단어 정렬 결과를 이용하여 구문정렬을 수행한다(S450). 소스언어와 타겟언어의 구문은 각각 연속한 단어 시퀀스가 되어야 한다. 그리고 소스 언어 단어들에 대해 정렬된 타겟 언어의 단어 시퀀스를 매핑하고, 소스 언어 단어들의 의존관계에 의해 구문의 경계를 결정한다.
단어 구문 번역 지식 추출기(151)는 단어 구문 정렬 모듈(140)의 단어/구문 정렬 결과를 입력 받아 단어 구문 번역 지식을 추출한다(S460). 이때 추출된 번역 지식 중에는 정렬 오류로 인해 잘못된 지식이 포함될 수 있으므로 단어 및 구문의 출현빈도와 통계 검증 방법을 이용하여 필터링한 후, 단어 구문 번역 사전 데이터베이스에 저장 한다.
이중언어 용언 하위범주 번역 지식 추출기(152)는 이중언어 용언 하위범주 번역 지식을 자동으로 추출한다(S470). 이중언어 용언 하위범주 번역 지식을 추출하는 과정을 도 5를 참조하여 설명한다. 도 5는 이중언어 용언 하위범주 번역 지식 을 추출하는 과정을 나타낸 도면이다.
먼저, 소스언어 문장 내에서의 의존관계 정보를 이용하여 문장의 중심어인 용언을 찾는다. 도 5에서 용언은 '골절되었습니다'이다. 다음으로, 중심어와 의존관계에 있는 단어와 구문을 추적하여, 소스 언어 문장 단위에서 용언의 하위범주 관계 틀을 형성한다. 도 5에서 '3곳이'는 용언인 '골절되었습니다'와 술어-목적어 의존관계에 있고, '계단에서 떨어지'는 용언인 '골절되었습니다'와 인과 의존관계에 있다. 그리고, 정렬된 타겟언어 문장 내에서 각 성분에 대해 정렬된 단어/구문 대역을 찾아 자질구조 형태로 표현한다. 도 5에서 '3곳이'에 대한 대역은 'my leg in three places'이고 '계단에서 떨어지'에 대한 대역은 'I fell down the stairs'이다. 자질 구조에는 각 단어/구문의 문장 내 배열 순서와 소스 언어의 용언 하위범주와의 대역관계가 채워지도록 한다. 그리고 최종적으로 소스 언어의 용언 하위 범주 틀에 타겟언어의 대역 자질구조 정보를 연결하여 용언 하위범주 번역 패턴 데이터베이스에 저장한다.
이중언어 문형 번역지식 추출기(153)는 관용적/숙어적 표현을 사용한 문장을 대상으로 문형 번역 지식을 추출한다(S480). 이때, 핵심적인 사항은 관용적/숙어적 표현을 찾아내는 것이며, 단어 및 구문 정렬 결과를 대상으로 소스 언어의 각 단어/구문에 대한 타겟 언어의 단어/구문 생산성(fertility)을 통계적으로 분석하고, 평균 분포 이상의 생산성을 보인 단어/구문을 포함하는 문장쌍을 추출하여 이들로부터 문형 번역지식을 추출하여 이중언어 문형 데이터베이스에 저장한다.
이중언어 단어 구문 클러스터(154)는 추출된 번역 지식들을 의미적으로 동일 한 그룹으로 나누어 일반화시킨다(S490). 이중언어 번역지식 클러스터(154)는 동일한 영어 구문을 대역으로 취하는 한국어 구문들은 동일한 의미를 갖는다는 가정하에 구성되는데, '갈아타는 비행기'에 대한 대역이 'transit flight'이고 '연결편 비행기'에 대한 대역도 'transit flight' 인 경우, transit_flight_class={갈아타는 비행기, 연결편 비행기}이 되어, '갈아타는 비행기'와 '연결편 비행기'는 동일한 의미의 한국어 구문으로 인식되며, 이들 한국어 구문은 클러스터 이름으로 대체되어 번역지식은 일반화된다.
획득된 번역지식은 입력된 소스 언어의 문장으로부터 타겟 언어의 문장을 생성하기 위해 패턴기반 혹은 통계기반의 자동번역기(400)내에서 사용된다.
본 발명의 실시예는 이상에서 설명한 장치 및/또는 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하기 위한 프로그램, 그 프로그램이 기록된 기록 매체 등을 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시예의 기재로부터 본 발명이 속하는 기술분야의 전문가라면 쉽게 구현할 수 있는 것이다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
도 1은 본 발명의 실시예에 따른 번역 지식 구축 장치의 구성도이다.
도 2는 본 발명의 실시예에 따른 단어 구문 정렬 모듈(140)의 구성도이다.
도 3은 본 발명의 실시예에 따른 번역 지식 획득 모듈(150)의 구성도이다.
도 4는 본 발명의 실시예에 따른 번역 지식 구축 방법을 나타낸 순서도이다.
도 5는 이중언어 용언 하위범주 번역 지식을 추출하는 과정을 나타낸 도면이다.

Claims (14)

  1. 번역 지식 구축 장치에서 번역 지식을 구축하는 방법에 있어서,
    소스언어 문장과 상기 소스언어 문장의 번역 문장에 대응하는 타겟언어 문장을 입력 받는 단계;
    상기 소스언어 문장 및 상기 타겟언어 문장을 통사, 구문 정보가 표현된 형태로 변환하는 단계;
    상기 변환된 소스언어 문장과 상기 변환된 타겟언어 문장의 단어 정렬과 구문 정렬을 수행하는 단계; 및
    상기 단어 정렬 결과와 상기 구문 정렬 결과에서 의존관계정보를 이용하여 이중언어 용언 하위범주 번역 지식을 추출하는 단계를 포함하는 번역 지식 구축 방법.
  2. 제1항에 있어서
    상기 변환된 소스언어 문장과 타겟언어 문장을 구성하는 형태소를 형태소 고유 식별 번호로 대체하는 단계를 더 포함하며
    상기 수행하는 단계는 상기 형태소 고유 식별 번호로 대체된 소스언어 문장과 타겟언어 문장의 단어 정렬과 수문 정렬을 수행하는 번역 지식 구축 방법.
  3. 제1항에 있어서
    상기 단어 정렬 결과와 상기 구문 정렬 결과에서 단어 구문 번역 지식을 추출하는 단계; 및
    상기 단어 정렬 결과와 상기 구문 정렬 결과에서 이중언어 문형 번역 지식을 추출하는 단계를 더 포함하는 번역 지식 구축 방법.
  4. 제3항에 있어서,
    상기 이중언어 문형 번역 지식을 추출하는 단계는,
    상기 단어 정렬 결과와 상기 구문 정렬 결과에서 소스언어의 각 단어 및 구문에 대한 타겟 언어의 단어 및 구문 생산성을 통계적으로 분석하는 단계: 및
    소스언어 문장과 타켓언어 문장 쌍 중에서 평균 분포 이상의 생산성을 보인 단어 및 구문을 포함하는 소스언어 문장과 타겟언어 문장 쌍으로부터 상기 이중언어 문형 번역 지식을 추출하여 저장하는 단계를 포함하는 번역 지식 구축 방법.
  5. 제1항에 있어서,
    입력되는 상기 소스언어 문장과 상기 타겟언어 문장은 형태소 분석, 품사 태깅 및 구문 분석이 되어 있는 번역지식 구축 방법.
  6. 제1항에 있어서,
    상기 변환하는 단계는,
    상기 소스언어 문장의 각 형태소에 형태소의 원형, 형태소의 품사, 기본구 내에서의 형태소의 상대적 위치 정보 및 구문 정보를 부착하는 단계; 및
    상기 타겟언어 문장의 각 형태소에 형태소의 원형, 품사, 기본구 내에서의 상대적 위치 정보 및 구문 정보를 부착하는 단계를 포함하는 번역 지식 구축 방법.
  7. 제1항에 있어서,
    상기 정렬을 수행하는 단계는,
    상기 변환된 소스언어 문장과 상기 변환된 타겟언어 문장을 형태소의 표층형, 형태소의 원형, 형태소의 품사 중 적어도 하나를 사용하여 문장을 재구성한 복수의 재구성된 문장 쌍을 생성하는 단계;
    상기 복수의 재구성된 문장 쌍 각각에 대해 소스언어 문장과 타겟언어 문장에서 서로 대응되는 단어를 찾아내어 복수의 단어 정렬 결과를 출력하는 단계;
    기 보유하고 있던 대역 사전을 활용하여 상기 복수의 단어 정렬 결과를 보정하는 단계;
    상기 복수의 단어 정렬 결과들에 대해 보정된 단어 정렬 결과를 제외하고 교집합을 취하여 동시에 일치하는 단어 정렬을 올바른 단어 정렬 결과로 결정하는 후처리 단계; 및
    상기 올바른 단어 정렬 결과와 소스언어의 의존관계 정보를 이용하여 구문 정렬을 수행하는 단계를 포함하는 번역 지식 구축 방법.
  8. 제1항에 있어서,
    상기 이중언어 용언 하위범주 번역 지식을 추출하는 단계는,
    상기 소스언어 문장 내에서의 의존관계 정보를 이용하여 문장의 중심어인 용언을 찾는 단계:
    상기 용언과 의존관계에 있는 단어와 구문을 추적하여, 상기 소스언어 문장 에서 상기 용언의 하위범주 관계 틀을 형성하는 단계:
    상기 타겟언어 문장 내에서 상기 소스언어 문장의 각 단어 및 구문에 대한 단어 및 구문 대역을 찾는 단계:
    상기 용언의 하위범주 관계 틀에 상기 단어 및 구문 대역을 연결하여 상기 용언 하위범주 번역 지식을 추출하는 단계를 포함하는 번역 지식 구축 방법.
  9. 제8항에 있어서,
    상기 단어 및 구문 대역은 자질 구조 형태로 표현되어 있는 번역 지식 구축 방법.
  10. 소스언어 문장과 상기 소스언어 문장의 번역 문장에 대응하는 타겟언어 문장을 입력 받아 상기 소스언어 문장 및 상기 타겟언어 문장의 각 형태소에 원형, 품사, 기본구 내에서의 상대적 위치 정보 및 구문정보를 부착하여 상기 소스언어 문장 및 상기 타겟언어 문장을 변환하는 소스언어 및 타겟언어 문장 변환기;
    기 보유 대역사전과 자율 학습 알고리즘을 적용하여 단어와 구문을 정렬하는 단어 구문 정렬 수단; 및
    상기 단어 구문 정렬 수단의 단어 구문 정렬 결과에 기반하여 단어 구문 번역 지식, 이중언어 용언 하위범주 번역 지식, 이중언어 문형 번역 지식을 획득하는 번역 지식 획득 수단을 포함하는 번역 지식 구축 장치.
  11. 제10항에 있어서,
    입력되는 상기 소스언어 문장과 상기 타겟언어 문장은 형태소 분석, 품사 태깅 및 구문 분석이 되어 있는 번역지식 구축 장치.
  12. 제10항에 있어서,
    상기 변환한 소스언어 문장과 타겟언어 문장을 구성하는 형태소를 형태소 고유 식별 번호로 대체하는 이중언어 문장 맵 생성기를 더 포함하는 번역 지식 구축 장치.
  13. 제10항에 있어서,
    상기 단어 구문 정렬 수단은,
    상기 변환한 소스언어 문장과 타겟언어 문장을 형태소의 표층형, 원형, 품사 중 적어도 하나를 사용하여 문장을 재구성한 복수의 재구성된 문장 쌍을 생성한 후, 상기 복수의 재구성된 문장 쌍 각각에 대해 소스언어 문장과 타겟언어 문장에서 서로 대응되는 단어를 찾아내어 복수의 단어 정렬 결과를 출력하는 단어 정렬기;
    기 보유 대역 사전을 이용하여 상기 복수의 단어 정렬 결과의 오류를 보정하고, 상기 복수의 단어 정렬 결과에 대해 보정된 단어 정렬 결과를 제외하고 교집합을 취하여 동시에 일치하는 단어 정렬을 올바른 단어 정렬 결과로 결정하는 단어 정렬 후처리기; 및
    상기 올바른 단어 정렬 결과와 구문 의존 관계 정보를 이용하여 구문 정렬을 수행하는 구문 정렬기를 포함하는 번역 지식 구축 장치,
  14. 제10항에 있어서,
    상기 번역 지식 획득 수단은,
    상기 단어 구문 정렬 수단의 단어 구문 정렬 결과를 입력 받아 단어와 구문들의 번역 정보를 추출하여 저장하는 단어 구문 번역 지식 추출기;
    상기 소스언어 문장 내에서의 의존관계 정보를 이용하여 문장의 중심어인 용언을 찾고, 상기 용언과 의존관계에 있는 단어와 구문을 추적하여, 상기 소스언어 문장에서 용언의 하위범주 관계 틀을 형성한 후, 상기 타겟언어 문장 내에서 상기 소스언어 문장의 각 단어 및 구문에 대한 단어 및 구문 대역을 찾아 상기 용언의 하위범주 관계 틀에 상기 단어 및 구문 대역을 연결하여 용언 하위범주 번역 지식을 추출하는 이중언어 용언 하위범주 번역 지식 추출기; 및
    관용적, 숙어적 표현을 사용한 문장을 대상으로 번역 패턴을 추출하여 저장하는 이중언어 문형 번역 지식 추출기를 포함하는 번역 지식 구축 장치.
KR1020070080065A 2007-08-09 2007-08-09 번역 지식 구축 방법 및 장치 KR100912501B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020070080065A KR100912501B1 (ko) 2007-08-09 2007-08-09 번역 지식 구축 방법 및 장치
US12/155,127 US8121829B2 (en) 2007-08-09 2008-05-29 Method and apparatus for constructing translation knowledge

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070080065A KR100912501B1 (ko) 2007-08-09 2007-08-09 번역 지식 구축 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20090015604A true KR20090015604A (ko) 2009-02-12
KR100912501B1 KR100912501B1 (ko) 2009-08-17

Family

ID=40347338

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070080065A KR100912501B1 (ko) 2007-08-09 2007-08-09 번역 지식 구축 방법 및 장치

Country Status (2)

Country Link
US (1) US8121829B2 (ko)
KR (1) KR100912501B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101023209B1 (ko) * 2008-10-13 2011-03-18 한국전자통신연구원 문서 번역 장치 및 그 방법
WO2014025135A1 (ko) * 2012-08-10 2014-02-13 에스케이텔레콤 주식회사 문법 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체
KR101416098B1 (ko) * 2010-10-12 2014-07-09 한국전자통신연구원 구단위 번역 지식 학습 방법 및 이를 수행하는 장치
KR20160060822A (ko) * 2014-11-20 2016-05-31 한국전자통신연구원 용언의 문형정보를 이용한 선택 제약 사전 구축 방법 및 시스템
CN110874535A (zh) * 2018-08-28 2020-03-10 阿里巴巴集团控股有限公司 依存关系对齐组件、依存关系对齐训练方法、设备及介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100037813A (ko) * 2008-10-02 2010-04-12 삼성전자주식회사 통계적 자동 번역 장치 및 방법
KR101301535B1 (ko) * 2009-12-02 2013-09-04 한국전자통신연구원 하이브리드 번역 장치 및 그 방법
KR101356417B1 (ko) * 2010-11-05 2014-01-28 고려대학교 산학협력단 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
KR101762866B1 (ko) * 2010-11-05 2017-08-16 에스케이플래닛 주식회사 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
US8874433B2 (en) * 2011-05-20 2014-10-28 Microsoft Corporation Syntax-based augmentation of statistical machine translation phrase tables
US9330087B2 (en) * 2013-04-11 2016-05-03 Microsoft Technology Licensing, Llc Word breaker from cross-lingual phrase table
JP6705318B2 (ja) * 2016-07-14 2020-06-03 富士通株式会社 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
CN110781689B (zh) * 2019-10-25 2021-08-06 北京小米智能科技有限公司 信息处理方法、装置及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08101837A (ja) * 1994-09-30 1996-04-16 Toshiba Corp 機械翻訳装置における翻訳規則学習方法
GB2295470A (en) * 1994-11-28 1996-05-29 Sharp Kk Machine translation system
KR100379735B1 (ko) * 2000-06-01 2003-04-11 박홍원 코드화를 통한 자연어 처리장치 및 방법
KR20010110496A (ko) * 2000-06-05 2001-12-13 문유진 용언을 중심으로 한 의미분석 지식 베이스의 구축방법
KR100530154B1 (ko) * 2002-06-07 2005-11-21 인터내셔널 비지네스 머신즈 코포레이션 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
US7249012B2 (en) 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7356457B2 (en) * 2003-02-28 2008-04-08 Microsoft Corporation Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words
KR100792204B1 (ko) * 2005-12-05 2008-01-08 한국전자통신연구원 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치및 방법
US7747427B2 (en) * 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101023209B1 (ko) * 2008-10-13 2011-03-18 한국전자통신연구원 문서 번역 장치 및 그 방법
KR101416098B1 (ko) * 2010-10-12 2014-07-09 한국전자통신연구원 구단위 번역 지식 학습 방법 및 이를 수행하는 장치
WO2014025135A1 (ko) * 2012-08-10 2014-02-13 에스케이텔레콤 주식회사 문법 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체
KR20140021838A (ko) * 2012-08-10 2014-02-21 에스케이텔레콤 주식회사 문법 오류 검출 방법 및 이를 위한 오류검출장치
US9575955B2 (en) 2012-08-10 2017-02-21 Sk Telecom Co., Ltd. Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
KR20160060822A (ko) * 2014-11-20 2016-05-31 한국전자통신연구원 용언의 문형정보를 이용한 선택 제약 사전 구축 방법 및 시스템
CN110874535A (zh) * 2018-08-28 2020-03-10 阿里巴巴集团控股有限公司 依存关系对齐组件、依存关系对齐训练方法、设备及介质
CN110874535B (zh) * 2018-08-28 2023-07-25 阿里巴巴集团控股有限公司 依存关系对齐组件、依存关系对齐训练方法、设备及介质

Also Published As

Publication number Publication date
US8121829B2 (en) 2012-02-21
US20090043564A1 (en) 2009-02-12
KR100912501B1 (ko) 2009-08-17

Similar Documents

Publication Publication Date Title
KR100912501B1 (ko) 번역 지식 구축 방법 및 장치
US9390087B1 (en) System and method for response generation using linguistic information
Shaalan Rule-based approach in Arabic natural language processing
KR100961717B1 (ko) 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
KR20120089502A (ko) 번역지식 서버 생성 방법 및 그 장치
KR101818598B1 (ko) 자동 번역 엔진 서버 및 자동 번역 방법
Said et al. A hybrid approach for Arabic diacritization
US20110040553A1 (en) Natural language processing
CN103688254A (zh) 用于自动评估写作的基于示例的错误检测系统、方法及错误检测设备
Umber et al. NL-based automated software requirements elicitation and specification
Bahadur et al. EtranS-A complete framework for English to Sanskrit machine translation
KR20080052282A (ko) 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법
Hettige et al. Computational model of grammar for english to sinhala machine translation
Politsyna et al. The framework for hypothesis verification and Analysis of natural language processing for the Russian language
Mall et al. Developing a system for machine translation from Hindi language to English language
Singha et al. Part of speech tagging in Manipuri with hidden markov model
Ngo et al. Building an English-Vietnamese bilingual corpus for machine translation
Roy et al. Suffix based automated parts of speech tagging for Bangla language
Hughes et al. Automatic extraction of tagset mappings from parallel-annotated corpora
Garje et al. Transmuter: an approach to rule-based English to Marathi machine translation
CN112380877B (zh) 一种用于篇章级英译中机器翻译测试集的构建方法
Batoulis et al. Automatic business process model translation with BPMT
Dedhia et al. Techniques to automatically generate entity relationship diagram
Al-Daoud et al. A framework to automate the parsing of Arabic language sentences.
Malik et al. Qualitative Analysis of Contemporary Urdu Machine Translation Systems.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20130729

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee