KR101092353B1 - 영한 자동번역 시스템의 번역문 생성 방법 및 장치 - Google Patents

영한 자동번역 시스템의 번역문 생성 방법 및 장치 Download PDF

Info

Publication number
KR101092353B1
KR101092353B1 KR1020080131756A KR20080131756A KR101092353B1 KR 101092353 B1 KR101092353 B1 KR 101092353B1 KR 1020080131756 A KR1020080131756 A KR 1020080131756A KR 20080131756 A KR20080131756 A KR 20080131756A KR 101092353 B1 KR101092353 B1 KR 101092353B1
Authority
KR
South Korea
Prior art keywords
verb
english
korean
information
unit
Prior art date
Application number
KR1020080131756A
Other languages
English (en)
Other versions
KR20100073162A (ko
Inventor
최승권
김영길
서영애
양성일
이기영
김창현
권오욱
노윤형
윤창호
오영순
김운
박은진
황금하
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080131756A priority Critical patent/KR101092353B1/ko
Publication of KR20100073162A publication Critical patent/KR20100073162A/ko
Application granted granted Critical
Publication of KR101092353B1 publication Critical patent/KR101092353B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

기존의 영한 자동번역 시스템의 번역문 생성 기술은, 조동사 형태에서 조동사 의미 자질로의 매핑을 구축하기 어려우며, 의미 자질들을 조합하는 조합규칙에 의해 생성되는 대역어가 자연스럽지 못하다는 단점이 있다. 또한, 조동사의 의미 정보는 시간 부사와 같은 다른 구문 성분에 의해 쉽게 변할 수 있는데, 종래에는 의미 변화를 적극적으로 반영할 수 없다는 단점이 있다. 이에 본 발명은, 대용량의 품사부착 영어 말뭉치를 대상으로 원문 조동사 테이블과 그에 대응되는 대역 조동사 테이블로 구성되는 조동사 테이블 DB를 구축함으로써, 영한 자동번역에서 영어 조동사 군에 대응되는 자연스러운 한국어 선어말어미(pre-ending morpheme)를 자동으로 부착하여 한국어 번역문을 생성하기 위한 번역문 생성 기술을 마련하고자 한다.
조동사 테이블, 선어말어미, 자동생성

Description

영한 자동번역 시스템의 번역문 생성 방법 및 장치{METHOD AND APPARATUS FOR GENERATING TRANSLATION SENTENCE IN ENGLISH-KOREAN TRANSLATION SYSTEM}
본 발명은 영한 자동번역 시스템의 번역문 생성 기술에 관한 것으로, 특히 영어의 조동사군을 한국어의 선어말어미(pre-ending morpheme)로 자동 생성하는데 적합한 영한 자동번역 시스템의 번역문 생성 방법 및 장치에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다.[2006-S-037-03, 응용 특화 한중영 자동번역 기술개발]
영어에서 조동사 군이라 함은, 동사 앞에 올 수 있는 하나 이상의 조동사 집합을 말한다. 예를 들어, ‘must+동사’,‘can+동사’,‘be+과거분사’와 같은 하나의 조동사뿐만 아니라‘must+have+과거분사’,‘have+to+원형동사’,‘can+not+but+원형동사’등과 같은 두 단어 이상의 조동사 집합도 조동사군으로 분류된다.
영어를 한국어로 번역하는 영한 자동번역 시스템의 번역문 생성 기술은 다음 두 가지 방법으로 크게 구분될 수 있다.
(1) 규칙을 토대로 하여 각 조동사 형태로부터 조동사 의미 자질을 매핑(mapping)하고, 이 조동사 의미자질을 해당 언어로 전달하여 전달된 조동사의 의미자질 조합에 의해 해당 언어의 대역어를 생성하는 방법.
(2) 말뭉치를 기반으로 하여 조동사군 형태 대 해당 언어 조동사군 형태로 문자열 단위로 매핑하여 해당 언어 조동사군을 생성하는 방법.
그런데 이러한 영한 자동번역 시스템의 번역문 생성 기술은 몇 가지 단점들을 지니고 있다.
예컨대, 방법 (1)은 조동사 형태에서 조동사 의미 자질로의 매핑을 구축하기 어려우며, 의미 자질들을 조합하는 조합규칙에 의해 생성되는 대역어가 자연스럽지 못하다는 단점이 있다.
또한, 조동사의 의미 정보는 시간 부사와 같은 다른 구문 성분에 의해 쉽게 변할 수 있는데, 방법 (2)는 이러한 의미 변화를 적극적으로 반영할 수 없다는 단점이 있다.
이에 본 발명은, 대용량의 품사부착 영어 말뭉치를 대상으로 원문 조동사 테이블과 그에 대응되는 대역 조동사 테이블로 구성되는 조동사 테이블 DB를 구축함으로써, 영한 자동번역에서 영어 조동사 군에 대응되는 자연스러운 한국어 선어말 어미(pre-ending morpheme)를 자동으로 부착하기 위한 번역문 생성 기술을 마련하고자 한다.
또한 본 발명은, 입력된 원문으로부터 조동사군 및 시간 부사구의 문법적, 의미적 정보를 동사에 자질 리스트로 자동 전달함으로써, 영한 자동번역에서 영어 조동사 군에 대응되는 한국어 선어말 어미를 자동으로 부착하기 위한 번역문 생성 기술을 마련하고자 한다.
또한 본 발명은, 동사에 전달된 자질 리스트와 조동사 테이블 DB의 원문 조동사 테이블을 매칭시켜 적절한 선어말 어미를 자동으로 생성하는 번역문 생성 기술을 마련하고자 한다.
본 발명의 과제를 해결하기 위한 일 관점에 따르면, 영한 자동번역 시스템의 영어 입력문의 동사에 부여되는 조동사 자질을 키 정보로 하여 조동사 테이블과 매칭시키는 과정과, 상기 조동사 테이블과 매칭되는 한국어 선어말어미를 한국어 출력문의 동사의 선어말 어미로 생성하는 과정을 포함하는 영한 자동번역 시스템의 번역문 생성 방법을 제공한다.
본 발명의 과제를 해결하기 위한 다른 관점에 따르면, 영한 자동번역을 위해 영어 입력문이 원문 형태로 입력될 경우에, 영한 번역사전 데이터베이스와 영한 조동사 패턴 데이터베이스를 참조하여 영어 입력문을 형태소 단위로 분석하는 영어 형태소 분석부와, 상기 영어 형태소 분석부로부터의 영어 입력문에 대한 형태소 분 석 결과에 따라 영어 조동사군을 동사 자질에 부착시켜 영어 입력문을 변형하는 자질 변형부와, 영어 말뭉치로부터 영어 원문 및 대역 조동사 테이블을 구축하는 조동사 테이블 구축부와, 상기 자질 변형부로부터의 동사 자질들로부터 상기 조동사 테이블 구축부와의 매칭을 통해 한국어 선어말 어미와 생성코드를 한국어 동사 자질로 재전송하는 선어말어미 처리부를 포함하는 영한 자동번역 시스템의 번역문 생성 장치를 제공한다.
상술한 바와 같이 본 발명에 의하면, 영어에서 조동사 군이나 시간 부사구가 동사에 전달하는 정보를 가지고 한국어에서 영어 동사에 전달된 정보에 대응되는 선어말어미(pre-ending morpheme)를 자동으로 생성할 수 있는 효과가 있으며, 이는 단지 영어와 한국어뿐만 아니라 한국어를 목표언어로 하는 모든 자동 번역 시스템 및 한국어 생성 시스템에도 적용되는 효과가 있다.
이하 첨부된 도면을 참조하여 본 발명의 실시 예에 대하여 상세하게 설명한다.
도 1은 본 실시예에 따라 영어 조동사군에 대응되는 적절한 한국어 선어말 어미(pre-ending morpheme)를 자동으로 부착하기 위한 영어 자동번역 시스템의 번역문 생성 장치에 대한 전체 구성도로서, 영어 형태소 분석부(100), 영한 번역사전 DB(Data Base)(102), 영한 조동사 패턴 DB(104), 자질 변형부(200), 구조 분석부(300), 영/한 변환부(400), 한국어 생성부(500), 선어말어미 처리부(600), 조동사 테이블 구축부(700)를 포함한다.
도 1에 도시한 바와 같이, 영어 형태소 분석부(100)는 영한 자동번역을 위해 영어 입력문이 원문 형태로 입력될 경우에, 영한 번역사전 DB(102)와 영한 조동사 패턴 DB(104)를 참조하여 영어 입력문을 형태소 단위로 분석하는 역할을 한다.
영한 조동사 패턴 DB(104)는 선어말 어미를 자동으로 생성하기 위해 두 단어 이상의 조동사 숙어의 형태를 갖는 영한 조동사 패턴을 포함한다.
자질 변형부(200)는 영어 형태소 분석부(102)로부터의 영어 입력문에 대한 형태소 분석 결과에 따라 영어 조동사군을 동사 자질에 부착시켜 영어 입력문을 변형하는 역할을 한다.
구조 분석부(300)는 자질 변형부(200)로부터 전달받은 품사 부착된 영어 조동사군의 형태소 분석 결과를 이용하여 영어 구조를 분석한다. 이 구조 분석부(300)에서는 시간 부사구의 시제 정보가 동사의 시제 정보로 전달되게 된다.
구조 분석부(300)의 구조 분석된 결과는 영/한 변환부(400)로 제공되고, 영한 변환부(400)는 구조 분석된 결과를 한국어 구조로 변환하여 한국어 생성부(500)로 전달하는 역할을 한다.
한국어 생성부(500)는 영/한 변환부(400)로부터 전달된 한국어 구조를 한국어 형태소 단위로 생성하는 역할을 한다.
이때, 한국어 형태소 단위에서 동사에 부착된 조동사군 정보 자질들은 선어 말어미 처리부(600)를 통해 키(key) 정보로 변환되고, 선어말어미 처리부(600)는 이렇게 변환된 키 정보가 조동사 테이블 구축부(700)에 의해 구축된 조동사 테이블 DB와 매칭되는지를 검사한다.
그리고, 매칭되는 조동사 테이블 DB 엔트리가 존재할 경우, 영어 조동사군 정보에 대응되는 한국어 선어말어미 정보가 선어말어미 처리부(600)로부터 한국어 생성부(500)로 다시 전달된다.
이에 따라, 한국어 생성부(500)에서는 한국어 선어말어미 정보가 반영된 한국어 번역문을 최종적으로 출력하게 된다.
한편, 도 2는 도 1의 영한 자동번역 시스템의 번역문 생성 장치에서 조동사 테이블 구축부(700)를 보다 상세히 나타낸 구성도로서, 영어문장 대량 수집부(702), 품사 부착 말뭉치 구축부(704), 조동사군 추출부(706), 동일 조동사군 제거부(708), 원문 조동사 테이블 구축부(710), 대역 조동사 테이블 구축부(712), 생성코드 자동 부착부(714), 조동사 테이블 DB(716)를 포함한다.
영어문장 대량 수집부(702)는 영어 대용량 말뭉치를 수집하며, 품사 부착 말뭉치 구축부(704)는 영어문장 대량 수집부(702)를 통해 수집된 영어 대용량 말뭉치에 대해 영어 형태소 품사를 부착하는 역할을 한다.
조동사군 추출부(706)는 품사 부착 말뭉치 구축부(704)를 통해 영어 형태소 품사가 부착된 말뭉치로부터 조동사군과 동사를 모두 추출한다.
동일 조동사군 제거부(708)는 조동사군 추출부(706)를 통해 추출된 조동사군과 동사 중에서 중복되는 동일 조동사군을 제거하며, 제거되는 빈도 순에 따라 고 빈도의 조동사군이 상위로 배열되게 된다.
원문 조동사 테이블 구축부(710)는 동일 조동사군 제거부(708)에 의해 중복성이 배제된 영어 조동사군에 대해서 조동사군의 형태에 대응되는 문법적/의미적 정보를 동사 사전으로부터 전달받은 동사의미정보와 더불어 다음과 같은 순서의 원문 조동사 테이블 키(key) 정보를 자동 배열 생성한다. 이때의 키 정보는, 예컨대 동사의미 정보, 조동사(modal) 정보, 부정(negation) 정보, 상(aspect) 정보, 태(voice) 정보, 시제(tense) 정보들이 포함될 수 있다.
대역 조동사 테이블 구축부(712)는 원문 조동사 테이블 구축부(710)를 통해 자동 배열된 원문 조동사 테이블 키 정보에 대해 한국어 선어말 어미를 부착시킨다.
생성코드 자동 부착부(714)는 대역 조동사 테이블 구축부(712)를 통해 부착된 선어말 어미가 한국어에서 불규칙 활용 가능하기 때문에, 선어말 어미의 종결 음절에 따른 생성코드를 부착시키며, 이에 의하여 조동사 테이블 DB(716)이 구축되게 된다.
다음은 도 2에서 설명된 조동사 테이블 DB를 구축하는 실제 예를 나타낸다.
1) 영어 문장 대량 수집부에 의해 영어 문장이 수집된 예;
Exercise is the best way to lose weight.
You must have done the work at once.
You must try harder.
You can say me about it.
It was not raining.
You must try again.
2) 품사 부착 말뭉치 구축부에 의해 품사가 부착된 예;
exercise/NN be/VBZ the/DT best/JJ way/NN to/TO lose/VB weight/NN ./SYM you/PRP must/MD have/MD do/VN the/DT work/NN at/IN once/RB ./SYM
you/PRP must/MD try/VB hard/RBR ./SYM
you/PRP can/MD say/VB me/PRP about/IN it/PRP ./SYM
it/PRP be/VBD not/RB rain/VG ./SYM
you/PRP must/MD try/VB again/RB ./SYM
3) 조동사군 추출부에 의해 조동사가 추출된 예;
must/MD have/MD do/VN
must/MD try/VB
can/MD say/VB
be/VBD not/RB rain/VG
must/MD try/VB
4) 동일 조동사군 제거부에 의해 동일 조동사군이 제거되고 빈도순에 따라 정렬된 예;
must/MD try/VB
must/MD have/MD do/VN
can/MD say/VB
be/VBD not/RB rain/VG
5) 원문 조동사 테이블 구축부에 의해 원문 조동사 테이블 키 정보가 자동으로 구축된 예;
키 정보는 동사의미 정보, 조동사 정보, 부정 정보, 상 정보, 태 정보, 시제 정보의 순서로 배열된다. 그리고 각각의 정보가 가질 수 있는 값은 다음과 같다:
동사의미 정보: durative(지속성), stative(상태성), punctual(일시성)
조동사 정보: nul(없음), can, could, must, will 등
부정 정보: nul(없음), t(부정)
상 정보: nul(없음), perf(완료), prog(진행), perf-prog(완료진행)
태 정보: nul(없음), passive(수동태)
시제 정보: nul(없음), pres(현재), past(과거)
이상의 정보에 대한 값에 따라 다음과 같은 키 정보가 생성될 수 있다.
must/MD try/VB : durative_must_nul_nul_nul_pres
must/MD have/MD do/VN : durative_must_nul_perf_nul_pres
can/MD say/VB : durative_can_nul_nul_nul_pres
be/VBD not/RB rain/VG : durative_nul_t_prog_nul_past
6) 대역 조동사 테이블 구축부에 의해 대역부가 구축된 예;
must/MD try/VB : durative_must_nul_nul_nul_pres : 어야_하
must/MD have/MD do/VN : durative_must_nul_perf_nul_pres : ㅆ어야_하
can/MD say/VB : durative_can_nul_nul_nul_pres : ㄹ_수_있
be/VBD not/RB rain/VG : durative_nul_t_prog_nul_past : 고_있지_않았
7) 생성코드 자동 부착부에 의해 생성코드가 부착된 예;
must/MD try/VB : durative_must_nul_nul_nul_pres : 아야_하 : BV00016
must/MD have/MD do/VN : durative_must_nul_perf_nul_pres : 았어야_하 : BV00116
can/MD say/VB : durative_can_nul_nul_nul_pres : ㄹ_수_있 : EA00422
be/VBD not/RB rain/VG : durative_nul_t_prog_nul_past : 고_있지_않았 : EV00003
8) 조동사 테이블 DB;
[KEY] durative_must_nul_nul_nul_pres
[CONTENT] (KROOT 아야_하)(GCODE BV00016)
[KEY] durative_must_nul_perf_nul_pres
[CONTENT] (KROOT 았어야_하)(GCODE BV00016)
[KEY] durative_can_nul_nul_nul_pres
[CONTENT] (KROOT ㄹ_수_있)(GCODE BA00022)
[KEY] durative_nul_t_prog_nul_past
[CONTENT] (KROOT 고_있지_않았)(GCODE BV00003)
도 3은 본 실시예에 따른 도 2의 조동사 테이블 구축부(700)에서 조동사 테이블 DB(716)에 관한 실제 예를 나타낸 것이다.
도 4 및 도 5는 본 실시예에 따른 도 2의 조동사 테이블 구축부(700)의 생성 코드 자동 부착부(714)에서 사용하는 좌접속 및 우접속 생성 코드표를 각각 예시한 것이다.
먼저, 좌접속 생성 코드표는 한국어 형태소가 자신의 왼쪽에 오는 형태소와 어떤 활용을 할지에 대한 정보를 코드로 표시한 것이며, 우접속 생성 코드표는 한국어 형태소가 자신의 오른쪽에 오는 형태소와 어떤 활용을 할지에 대한 정보를 코드로 표시한 것이다. 따라서, 하나의 한국어 형태소의 생성코드는 좌접속 코드 정보와 우접속 코드 정보로 표시될 수 있으며, 좌접속 및 우접속 생성 코드표에 의해 생성되는 포맷은 아래에서 예시하는 바와 같다.
1) 생성코드의 포맷 : “좌접속 품사”,“우접속 품사”,“0”,“좌접속 품사 생성 코드”,“우접속 품사 생성 코드”
2) 단일단어의 생성코드 : 예컨대, 클릭하 : VV00016
3) 복합단어의 생성코드 : 예컨대, 찰칵_소리가_나 : DV00500
위의 예에서‘클릭하’라는 동사는 좌접속 생성 코드표에서 V00과 우접속 생성 코드표에서 V16을 가져와서 조합한 결과를 나타낸 것이며,‘찰칵_소리가_나’라는 동사는 좌접속 생성 코드표에서 D05와 우접속 생성 코드표에서 V00을 가져와서 조합한 결과를 나타낸 것이다.
도 6은 본 실시예에 따른 영한 자동번역 시스템의 번역문 생성 방법, 구체적으로 도 1의 선어말 어미 처리부(600)의 수행 과정을 예시한 흐름도이다.
도 6에 예시한 바와 같이, 선어말 어미 처리부(600)는 한국어 생성부(500)로부터 동사의 자질 정보를 입력받는다(S100).
이후 단계(S102)에서 선어말 어미 처리부(600)는 현재의 동사가 마지막인지를 판단하는데(S102), 현재의 동사가 마지막이면 본 과정을 종료하며, 현재의 동사가 마지막이 아니면 계속해서 선어말 어미 및 생성코드가 입력된 동사의 자질에 재입력되게 된다.
현재의 동사가 마지막이 아닐 경우, 키 정보의 6자리에는 다음의 정보 흐름이 있게 된다.
먼저, 동사의 의미정보가 존재하는 경우(S104), 키 정보의 첫 번째 자리에는 의미정보가 채워지며(S106), 동사의 의미정보가 존재하지 않는 경우에는 키 정보의 첫 번째 자리에는 널(null)이 채워지게 된다.
동사에 조동사 정보가 존재하는 경우(S108), 키 정보의 두 번째 자리에는 조동사 정보가 채워지며(S110), 동사의 조동사 정보가 존재하지 않는 경우에는 키 정보의 두 번째 자리에는 널이 채워지게 된다.
동사에 부정 정보가 존재하는 경우(S112), 키 정보의 세 번째 자리에는 부정 정보가 채워지며(S114), 동사의 부정 정보가 존재하지 않는 경우에는 키 정보의 세 번째 자리에는 널이 채워지게 된다.
동사에 상 정보가 존재하는 경우(S116), 키 정보의 네 번째 자리에는 상 정보가 채워지며(S118), 동사의 상 정보가 존재하지 않는 경우에는 키 정보의 네 번째 자리에는 널이 채워지게 된다.
동사에 태 정보가 존재하는 경우(S120), 키 정보의 다섯 번째 자리에는 태 정보가 채워지며(S122), 동사의 태 정보가 존재하지 않는 경우에는 키 정보의 다섯 번째 자리에는 널이 채워지게 된다.
동사에 시제 정보가 존재하는 경우(S124), 키 정보의 여섯 번째 자리에는 시제 정보가 채워지며(S126), 동사의 시제 정보가 존재하지 않는 경우에는 키 정보의 여섯 번째 자리에는 널이 채워지게 된다.
이러한 과정들을 거쳐 후보 키가 생성되며(S218), 생성된 후보 키는 조동사 테이블 DB(716)의 원문 조동사 테이블 키와 키 매칭이 이루어지게 된다(S130).
따라서, 매칭되는 키에 대한 선어말 어미 및 생성 코드가 입력으로 주어졌던 한국어 생성부(500)의 동사의 자질 정보에 재입력되게 된다.
도 7은 본 실시예에 따른 도 1의 영어 형태소 분석부(100)에서 두 개 이상의 단어로 이루어지는 영한 조동사 패턴을 예시적으로 나타낸 것이다.
이러한 영한 조동사 패턴은, 조동사와 같은 성질을 가지나 동사의 조동사 자질로 만들어지지 않고 패턴으로 만들어지기 때문에, 직접 선어말 어미가 기술되며 영어 형태소 분석 시에 직접 매칭되어 한국어 생성부(500)에 선어말 어미가 직접 전달되게 된다.
이상 설명한 바와 같이, 본 실시예에 따르면, 대용량의 품사부착 영어 말뭉치를 대상으로 원문 조동사 테이블과 그에 대응되는 대역 조동사 테이블로 구성되는 조동사 테이블 DB를 구축함으로써, 영한 자동번역에서 영어 조동사 군에 대응되는 자연스러운 한국어 선어말어미를 자동으로 부착시킬 수 있다.
또한 본 발명은, 입력된 원문으로부터 조동사군 및 시간 부사구의 문법적, 의미적 정보를 동사에 자질 리스트로 자동 전달함으로써, 영한 자동번역에서 영어 조동사 군에 대응되는 한국어 선어말 어미를 자동으로 부착할 수 있다.
또한 본 발명은, 동사에 전달된 자질 리스트와 조동사 테이블 DB의 원문 조동사 테이블을 매칭시켜 적절한 선어말 어미를 자동으로 생성할 수 있다.
앞서 언급한 실시예는 본 발명을 한정하는 것이 아니라 예증하는 것이며, 이 분야의 당업자라면 첨부한 청구항에 의해 정의된 본 발명의 범위로부터 벗어나는 일 없이, 많은 다른 실시예를 설계할 수 있음을 유념해야 한다. 청구항에서는, 괄호 안에 있는 어떤 참조 기호도 본 발명을 한정하도록 해석되지 않아야 한다. "포함하는", "포함한다" 등의 표현은, 전체적으로 모든 청구항 또는 명세서에 열거된 것을 제외한 구성 요소 또는 단계의 존재를 배제하지 않는다. 구성 요소의 단수의 참조부는 그러한 구성 요소의 복수의 참조부를 배제하지 않으며, 그 반대도 마찬가지이다. 본 발명은, 몇몇 별개의 구성 요소를 포함하는 하드웨어 수단 및 적절히 프로그램된 컴퓨터 수단에 의해 실시될 수 있다. 몇몇 수단을 열거하는 청구항에서, 이들 수단의 몇몇은 하드웨어의 같은 항목에 의해 구현될 수 있다. 서로 다른 종속항에 확실한 수단이 기술되었다고 하는 단순한 사실은, 이러한 수단의 조합이 사용될 수 없다는 것을 나타내지 않는다.
도 1은 본 발명의 일 관점에 따른 영한 자동번역 시스템의 번역문 생성 장치에 대한 구성 블록도,
도 2는 도 1의 조동사 테이블 구축부의 상세 구성 블록도,
도 3은 본 실시예에 따라 도 2의 조동사 테이블 구축부에서 조동사 테이블 DB에 관한 예시도,
도 4는 본 실시예에 따라 도 2의 조동사 테이블 구축부의 생성코드 자동 부착부에서 사용하는 좌접속 생성 코드표 예시도,
도 5는 본 실시예에 따라 도 2의 조동사 테이블 구축부 구성도의 생성코드 자동 부착부에서 사용하는 우접속 생성 코드표 예시도,
도 6은 본 발명의 다른 관점에 따른 영한 자동번역 시스템의 번역문 생성 방법을 설명하는 흐름도,
도 7은 본 실시예에 따라 도 1의 영어 형태소 분석부에서 두 개 이상의 단어로 이루어지는 영한 조동사 패턴에 대한 예시도.
<도면의 주요 부분에 대한 부호의 설명>
100 : 영어 형태소 분석부 104 : 영한 조동사 패턴 DB
200 : 자질 변형부 300 : 구조 분석부
400 : 영한 변환부 500 : 한국어 생성부
600 : 선어말어미 처리부 700 : 조동사 테이블 구축부

Claims (10)

  1. 삭제
  2. 영한 자동번역 시스템의 영어 입력문의 동사에 부여되는 조동사 자질을 키 정보로 하여 조동사 테이블과 매칭시키는 과정과,
    상기 조동사 테이블과 매칭되는 한국어 선어말어미를 한국어 출력문의 동사의 선어말 어미로 생성하는 과정을 포함하며,
    상기 조동사 테이블과 매칭시키는 과정은,
    품사 부착 말뭉치로부터 조동사군을 추출하는 과정과,
    상기 추출된 조동사군으로부터 동일 조동사군을 제거하는 과정과,
    상기 동일 조동사군들로부터 원문 조동사 테이블을 구축하는 과정과,
    상기 원문 조동사 테이블에 대응되는 대역 조동사 테이블을 구축하는 과정과,
    상기 대역 조동사 테이블에 대해 생성코드를 부착하는 과정과,
    상기 생성코드에 대응하는 조동사 테이블 데이터베이스를 구축하여 상기 조동사 자질과의 매칭 여부를 판단하는 과정
    을 포함하는 영한 자동번역 시스템의 번역문 생성 방법.
  3. 제 2 항에 있어서,
    상기 한국어 출력문의 동사의 선어말 어미로 생성하는 과정은,
    상기 동사의 자질 정보를 토대로 상기 동사의 의미 정보 존재 여부를 판단하여 상기 키 정보에 의미 정보를 채우는 과정과,
    상기 동사의 자질 정보를 토대로 상기 동사의 조동사 정보의 존재 여부를 판단하여 상기 키 정보에 조동사 정보를 채우는 과정과,
    상기 동사의 자질 정보를 토대로 상기 동사의 부정 정보 존재 여부를 판단하여 상기 키 정보에 부정 정보를 채우는 과정과,
    상기 동사의 자질 정보를 토대로 상기 동사의 상 정보 존재 여부를 판단하여 상기 키 정보에 상 정보를 채우는 과정과,
    상기 동사의 자질 정보를 토대로 상기 동사의 태 정보 존재 여부를 판단하여 상기 키 정보에 태 정보를 채우는 과정과,
    상기 동사의 자질 정보를 토대로 상기 동사의 시제 정보 존재 여부를 판단하여 상기 키 정보에 시제 정보를 채우는 과정과,
    상기 조동사 테이블의 조동사 테이블 데이터베이스와 후보 키를 대상으로 키 매칭을 시도하여 선어말 어미 및 생성코드를 동사 자질 정보로 재입력하는 과정
    을 포함하는 영한 자동번역 시스템의 번역문 생성 방법.
  4. 제 3 항에 있어서,
    상기 생성코드는, 좌측 형태소와 자신의 형태소 사이의 활용형을 결정하는 좌접속 생성 코드표, 우측 형태소와 자신의 형태소 사이의 활용형을 결정하는 우접속 생성 코드표로 이루어지는 것을 특징으로 하는 영한 자동번역 시스템의 번역문 생성 방법.
  5. 영한 자동번역을 위해 영어 입력문이 원문 형태로 입력될 경우에, 영한 번역사전 데이터베이스와 영한 조동사 패턴 데이터베이스를 참조하여 영어 입력문을 형태소 단위로 분석하는 영어 형태소 분석부와,
    상기 영어 형태소 분석부로부터의 영어 입력문에 대한 형태소 분석 결과에 따라 영어 조동사군을 동사 자질에 부착시켜 영어 입력문을 변형하는 자질 변형부와,
    영어 말뭉치로부터 영어 원문 및 대역 조동사 테이블을 구축하는 조동사 테이블 구축부와,
    상기 자질 변형부로부터의 동사 자질들로부터 상기 조동사 테이블 구축부와의 매칭을 통해 한국어 선어말 어미와 생성코드를 한국어 동사 자질로 재전송하는 선어말어미 처리부
    를 포함하는 영한 자동번역 시스템의 번역문 생성 장치.
  6. 제 5 항에 있어서,
    상기 영한 자동번역 시스템의 번역문 생성 장치는,
    상기 자질 변형부로부터 전달받은 품사 부착된 영어 조동사군의 형태소 분석 결과를 이용하여 영어 구조를 분석하는 구조 분석부와,
    상기 구조 분석부의 구조 분석된 결과를 한국어 구조로 변환하는 영한 변환부와,
    상기 영한 변환부로부터 전달된 한국어 구조를 한국어 형태소 단위로 생성하며, 상기 선어말어미 처리부를 통해 한국어 선어말어미 정보가 반영된 한국어 번역문을 최종 출력하는 한국어 생성부
    를 더 포함하는 영한 자동번역 시스템의 번역문 생성 장치.
  7. 제 6 항에 있어서,
    상기 선어말어미 처리부는,
    한국어 형태소 단위에서 동사에 부착된 조동사군 정보 자질을 키 정보로 변환하고, 상기 변환되는 키 정보가 상기 조동사 테이블 구축부에 의해 구축된 조동사 테이블 데이터베이스와 매칭되면 상기 영어 조동사군에 대응되는 한국어 선어말어미 정보를 상기 한국어 생성부로 재 전송하는 것을 특징으로 하는 영한 자동번역 시스템의 번역문 생성 장치.
  8. 제 5 항에 있어서,
    상기 영한 조동사 패턴 데이터베이스는, 선어말어미를 자동 생성하기 위해 적어도 두 단어 이상의 조동사 숙어의 영어 원문 패턴을 갖는 것을 특징으로 하는 영한 자동번역 시스템의 번역문 생성 장치.
  9. 제 8 항에 있어서,
    상기 영한 조동사 패턴 데이터베이스는,
    상기 영어 원문 패턴에 대응되는 한국어 대역 패턴 및 영한 조동사 패턴 키를 갖는 것을 특징으로 하는 영한 자동번역 시스템의 번역문 생성 장치.
  10. 제 5 항에 있어서,
    상기 조동사 테이블 구축부는,
    품사 부착 말뭉치로부터 조동사군을 추출하는 조동사군 추출부와,
    상기 조동사군 추출부로부터 추출된 조동사군으로부터 동일 조동사군을 제거하는 동일 조동사군 제거부와,
    상기 동일 조동사군들로부터 원문 조동사 테이블을 구축하는 원문 조동사 테이블 구축부와,
    상기 원문 조동사 테이블에 대응되는 대역 조동사 테이블을 구축하는 대역 조동사 테이블 구축부와,
    상기 대역 조동사 테이블에 대해 생성코드를 부착하는 생성코드 자동 부착부와,
    상기 생성코드 자동 부착부에 의해 부착된 생성코드를 갖는 조동사 테이블이 구축되는 조동사 테이블 데이터베이스
    를 포함하는 영한 자동번역 시스템의 번역문 생성 장치.
KR1020080131756A 2008-12-22 2008-12-22 영한 자동번역 시스템의 번역문 생성 방법 및 장치 KR101092353B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080131756A KR101092353B1 (ko) 2008-12-22 2008-12-22 영한 자동번역 시스템의 번역문 생성 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080131756A KR101092353B1 (ko) 2008-12-22 2008-12-22 영한 자동번역 시스템의 번역문 생성 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20100073162A KR20100073162A (ko) 2010-07-01
KR101092353B1 true KR101092353B1 (ko) 2011-12-09

Family

ID=42636165

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080131756A KR101092353B1 (ko) 2008-12-22 2008-12-22 영한 자동번역 시스템의 번역문 생성 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101092353B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102485647B1 (ko) * 2021-05-18 2023-01-05 김장호 구분 알고리즘을 이용한 조동사 영어 학습 방법 및 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"한영 기계번역에서 선어말어미의 처리", 한국어학회 학국어학 제8집, 홍종선 외 1인, pp.103-130 (1998.12.30.) 1부.*

Also Published As

Publication number Publication date
KR20100073162A (ko) 2010-07-01

Similar Documents

Publication Publication Date Title
US11250842B2 (en) Multi-dimensional parsing method and system for natural language processing
US8515733B2 (en) Method, device, computer program and computer program product for processing linguistic data in accordance with a formalized natural language
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
Reshamwala et al. Review on natural language processing
US9798720B2 (en) Hybrid machine translation
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
Tiedemann Recycling translations: Extraction of lexical data from parallel corpora and their application in natural language processing
KR100912501B1 (ko) 번역 지식 구축 방법 및 장치
Unnikrishnan et al. A novel approach for English to South Dravidian language statistical machine translation system
Hämäläinen et al. Advances in synchronized XML-MediaWiki dictionary development in the context of endangered Uralic languages
Zeroual et al. Adapting a decision tree based tagger for Arabic
Packard Lexical access in Chinese speech comprehension and production
Aasha et al. Machine translation from English to Malayalam using transfer approach
Ptaszynski et al. Part-of-speech tagger for Ainu language based on higher order Hidden Markov Model
Mridha et al. New approach of solving semantic ambiguity problem of bangla root words using universal networking language (UNL)
Bal et al. A morphological analyzer and a stemmer for Nepali
KR101757222B1 (ko) 한글 문장에 대한 의역 문장 생성 방법
KR101092353B1 (ko) 영한 자동번역 시스템의 번역문 생성 방법 및 장치
Paul et al. English to Nepali statistical machine translation system
Nimaiti et al. A Rule Based Approach for Japanese-Uyghur Machine Translation System
Desai et al. Automated paradigm selection for FSA based Konkani verb morphological analyzer
Mridha et al. Solving semantic problem of phrases in NLP using universal networking language (UNL)
Boroş et al. Romanian-English speech translation
KR101117790B1 (ko) 품사별 결합 정보를 이용한 형태소 분석 시스템 및 방법
JP2004118461A (ja) 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151127

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20161121

Year of fee payment: 6