KR100561227B1 - 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증장치 및 방법 - Google Patents

한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증장치 및 방법 Download PDF

Info

Publication number
KR100561227B1
KR100561227B1 KR1020030094025A KR20030094025A KR100561227B1 KR 100561227 B1 KR100561227 B1 KR 100561227B1 KR 1020030094025 A KR1020030094025 A KR 1020030094025A KR 20030094025 A KR20030094025 A KR 20030094025A KR 100561227 B1 KR100561227 B1 KR 100561227B1
Authority
KR
South Korea
Prior art keywords
pattern
phrase
chinese
idiom
korean
Prior art date
Application number
KR1020030094025A
Other languages
English (en)
Other versions
KR20050063815A (ko
Inventor
류철
홍문표
김영길
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020030094025A priority Critical patent/KR100561227B1/ko
Priority to US10/892,268 priority patent/US7447628B2/en
Publication of KR20050063815A publication Critical patent/KR20050063815A/ko
Application granted granted Critical
Publication of KR100561227B1 publication Critical patent/KR100561227B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Abstract

본 발명은 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증 장치에 관한 것으로서, 현재 한국어와 중국어 용언구 패턴 사전에서 보유한 용언구 패턴으로 적용이 되지 않는 용언구 패턴 원문부를 자동으로 추출하고, 이에 대해 중국어 대역어를 기반으로 하는 새로운 한-중 용언구 패턴을 자동 생성하는 한편, 새롭게 생성된 하나의 한-중 용언구 패턴을 유사한 복수의 용언구 패턴 후보로 자동 확장한 다음, 자동 확장된 한-중 용언구 패턴 후부들에 대하여 대용량 코퍼스 기반의 자동 검증 작업을 수행하여 적합한 용언구 패턴을 한국어와 중국어 용언구 패턴 사전DB에 새롭게 등록하고, 오류패턴으로 판정된 용언구 패턴을 오류패턴DB에 따로 저장한 후 재사용하여 새로 생성되는 한국어와 중국어 용언구 패턴의 정확도를 높이도록 되어 있다.
본 발명은 한국어와 중국어 용언구 패턴을 자동으로 용이하게 대량 수집할 수 있고, 이처럼 자동으로 증가되는 용언구 패턴에 의해 한-중 기계번역시스템의 번역률의 신속한 상승을 이룰 수 있는 효과가 있다.
기계번역시스템, 용언구 패턴, 코퍼스, 문장구조 분석기, 한국어, 중국어

Description

한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증 장치 및 방법{VERB PATTERN AUTOMATIC EXTENSION AND VERIFICATION APPARATUS OF KOREAN-CHINESE MACHINE TRANSLATION SYSTEM AND METHOD THEREOF}
도 1은 본 발명에 따른 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증 장치를 도시한 구성도,
도 2는 본 발명에 따른 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증 장치의 작동과정을 도시한 플로차트.
<도면의 주요부분에 대한 부호의 설명>
10: 용언구패턴 사전DB 20: 문장구조 분석기
21: 원시 코퍼스 30: 용언구 패턴 자동생성기
31: 대용량 코퍼스DB 32: 오류패턴DB
본 발명은 한-중 기계번역시스템에 관한 것이며, 보다 상세히는 한국어와 중 국어간의 기계번역에서 사용되는 용언구 패턴을 자동으로 생성하는 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증 장치에 관한 것이다.
컴퓨터 시스템과 컴퓨터 네트워크의 발달로 대량의 코퍼스를 획득하여 처리하고 데이터베이스(DB)화 할 수 있게 됨에 따라서 서로 다른 언어(예컨대, 한국어와 중국어)를 자동번역하기 위한 언어처리 방법론에 많은 진보를 가져올 수 있었다.
예컨대, 원시 코퍼스로부터 자동번역에 사용되는 정보를 추출하는 시도로 n-gram에 기초하여 통계적 정보를 추출하는 방법이 대표적으로 알려져 있는데, 이 방법은 자동번역의 용어 사전을 구축하고 통계정보를 제공하기 때문에 자동번역의 정확도를 높여준다.
또한, 병렬 코퍼스로부터 변환규칙을 자동 추출하는 방법도 언어 번역 지식을 구축하는 효과적인 방법으로 알려져 있으나 정확도가 만족할 만한 수준은 아닌 것으로 알려져 있다.
한편, 자동번역에 있어서 풍부한 용언구 패턴 사전을 확보하는 것은 자동번역의 품질을 높이는데 중요한 역할을 하므로, 특정한 언어가 시대와 사회를 반영하여 변화함에 따라서 용어와 쓰임새가 변하고 지속적으로 새로운 표현들이 생겨날 때마다 용언구 패턴을 확장하는 일이 필요하다.
하지만, 종래의 자동번역에 있어서 기본적인 용언구 패턴을 확보하는 작업은 렉시코그래퍼(lexicographer)라고 불리는 사전 지식 구축자들에 의하여 수행되므 로, 대량의 용언구 패턴을 구축하는데 한계가 있다.
특히, 종래의 용언구 패턴 기반 한-중 기계번역시스템은 상기와 같은 렉시코그래퍼들이 오프라인 상에서 수동으로 구축한 용언구 패턴을 사용하기 때문에, 용언구 패턴 구축의 효율이 떨어질 뿐만 아니라, 결과적으로 용언구 패턴 수의 절대적인 부족으로 인한 패턴 커버리지(coverage)의 문제를 야기하여 최상의 성능을 낼 수 없는 단점이 있다.
본 발명은 상술한 종래의 문제점을 극복하기 위한 것으로서, 상세하게는 한-중 기계번역시스템에서 자동번역용으로 사용되는 대용량의 한국어와 중국어 용언구 패턴 사전을 확보하기 위한 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증 장치를 제공하는데 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명의 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증장치는, 한국어와 중국어 용언구 패턴이 등록되어 있는 용언구 패턴 사전DB; 새롭게 입력되는 한국어 원시 코퍼스에 포함된 각각의 문장에 대한 구조 분석을 수행하여 각 문장에 포함되어 있는 용언구 패턴 중에 현재 용언구 패턴 사전DB에 등록되어 있지 않은 용언구 패턴을 검출하는 문장구조 분석기; 및 상기 문장구조 분석기에 의해 검출된 미등록 용언구 패턴의 원문부를 자동 생성하고 상기 원문부의 용언구 패턴에 대응하는 중국어 동사 대역어를 상기 용언구 패턴 사전DB에서 찾아 중국어 대역부를 자동 생성하여 새로운 용언구 패턴을 자동 생성하 여 용언구 패턴 사전DB에 등록하며, 이 새로운 용언구 패턴과 상기 중국어 동사 대역어와 동일한 대역어를 가지는 한국어 용언구 패턴에 대해 태(Voice)의 동일성과, 어휘패턴 여부, 중국어 대역어 여부를 확인하는 패턴 확장 과정을 수행하여 특정한 용언구 패턴 후보를 추가한 후, 확장된 용언구 패턴 후보가 대용량 코퍼스DB에 등록되어 있는지 여부를 판별하는 자동 오류 검증 과정을 수행하여 적합한 것으로 승인된 확장 용언구 패턴을 한국어와 중국어 용언구 패턴 사전DB에 새롭게 등록하고, 오류패턴으로 판정된 확장 용언구 패턴을 오류패턴DB에 등록하는 용언구 패턴 자동생성기;를 포함하여 구성된다.
상기 목적을 달성하기 위한 본 발명의 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증방법은, 새롭게 입력되는 한국어 원시 코퍼스에 포함된 각각의 문장에 대한 구조 분석을 수행하여 각 문장에 포함되어 있는 용언구 패턴 중에 현재 용언구 패턴 사전DB에 등록되어 있지 않은 용언구 패턴을 검출한 후 검출된 미등록 용언구 패턴의 원문부를 자동 생성하는 제 1단계; 상기 원문부의 용언구 패턴에 대응하는 중국어 동사 대역어를 상기 용언구 패턴 사전DB에서 찾아 중국어 대역부를 자동 생성하여 새로운 용언구 패턴을 자동 생성하여 용언구 패턴 사전DB에 등록하는 제 2단계; 상기 새로운 용언구 패턴과 상기 중국어 동사 대역어와 동일한 대역어를 가지는 한국어 용언구 패턴에 대해 태(Voice)의 동일성과, 어휘패턴 여부, 중국어 대역어 여부를 확인하는 패턴 확장 과정을 수행하여 특정한 용언구 패턴 후보를 추가하여 생성하는 제 3단계; 및 확장된 용언구 패턴 후보가 대용량 코 퍼스DB에 등록되어 있는지 여부를 판별하는 자동 오류 검증 과정을 수행하여 적합한 것으로 승인된 확장 용언구 패턴을 한국어와 중국어 용언구 패턴 사전DB에 새롭게 등록하고, 오류패턴으로 판정된 확장 용언구 패턴을 오류패턴DB에 등록하는 제 4단계;를 포함하는 것을 특징으로 한다.
또한, 본 발명은 상기한 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증방법에 대해 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체에 저장될 수 있다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명하면 다음과 같다.
도 1은 본 발명에 따른 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증 장치를 도시한 구성도이다.
도면을 참조하면, 용언구 패턴 사전DB(10)에는 한국어와 중국어 용언구 패턴이 등록되어 있다.
문장구조 분석기(20)는 새롭게 입력되는 한국어 원시 코퍼스(21)에 포함된 각각의 문장에 대한 구조 분석을 수행하여 각 문장에 포함되어 있는 용언구 패턴 중에 현재 용언구 패턴 사전DB(10)에 등록되어 있지 않은 용언구 패턴을 검출한다.
용언구 패턴 자동생성기(30)는 상기 문장구조 분석기(20)에 의해 검출된 미등록 용언구 패턴의 원문부를 자동 생성하고 상기 원문부의 용언구 패턴에 대응하 는 중국어 동사 대역어를 상기 용언구 패턴 사전DB(10)에서 찾아 중국어 대역부를 자동 생성하여 새로운 용언구 패턴을 자동 생성하여 용언구 패턴 사전DB(10)에 새롭게 등록한다.
상기 용언구 패턴 자동생성기(30)는 이 새로운 용언구 패턴과 상기 중국어 동사 대역어와 동일한 대역어를 가지는 한국어 용언구 패턴에 대해 태(Voice)의 동일성과, 어휘패턴 여부 , 중국어 대역어 여부를 확인하는 패턴 확장 과정을 수행하여 특정한 용언구 패턴 후보를 추가한다.
상기 용언구 패턴 자동생성기(30)는 확장된 용언구 패턴 후보가 대용량 코퍼스DB(31)에 등록되어 있는지 여부를 판별하는 자동 오류 검증 과정을 수행하여 적합한 것으로 승인된 확장 용언구 패턴을 한국어와 중국어 용언구 패턴 사전DB(10)에 새롭게 등록하고, 오류패턴으로 판정된 확장 용언구 패턴을 오류패턴DB(32)에 등록한다.
상기 용언구 패턴 자동생성기(30)는 상기와 같은 자동 오류 검증 과정을 수행한 결과 오류패턴으로 판정된 확장 용언구 패턴 후보에 대하여 렉시코그래퍼에게 수동 검증 요청을 수행한다.
상기 용언구 패턴 자동생성기(30)는 오류패턴으로 판정된 확장 용언구 패턴 후보가 적합하다는 렉시코그래퍼의 검증 결과가 입력되면 해당 확장 용언구 패턴을 한국어와 중국어 용언구 패턴 사전DB(10)에 새롭게 등록하고, 해당 확장 용언구 패턴 후보가 오류패턴이라는 렉시코그래퍼의 검증 결과가 입력되면 판정된 확장 용언구 패턴을 오류패턴DB(32)에 등록한다.
상기 오류패턴DB(32)에 등록된 오류패턴들은 상기 용언구 패턴 자동생성기(30)가 새로운 용언구 패턴을 자동 생성한 후 자동 확장할 때, 상기 렉시코그래퍼가 처리하는 후부 패턴에서 제외된다.
상기와 같이 구성된 본 발명에 따른 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증 장치에 대한 동작을 도 2를 참조하여 설명한다.
도 2를 참조하면, 가장 먼저 문장구조 분석기(20)는 새롭게 입력되는 한국어 원시 코퍼스(21)에 포함된 각각의 문장에 대한 구조 분석을 수행하여(S10) 각 문장에 포함되어 있는 용언구 패턴 중에 현재 용언구 패턴 사전DB(10)에 등록되어 있지 않은 용언구 패턴을 검출하고(S12), 검출된 미등록 용언구 패턴을 상기 용언구 패턴 자동생성기(30)로 전달한다.
이때, 상기 문장구조 분석기(20)는 원시 코퍼스(21)의 각 문장에 대해서 구조 분석을 수행하여 각각의 문장에 포함되어 있는 용언구 패턴이 현재 용언구 패턴 사전DB(10)에 등록되어 있어 매칭이 되었는지, 부분 매칭이 되었는지, 매칭이 되지 않았는지를 판단할 수 있다.
여기서, 매칭이 되었다 함은 용언구 패턴에 결합되어 있는 격 성분이 현재 용언구 패턴 사전DB(10)에 정확하게 일치되는 패턴으로 존재한다는 것이고, 부분 매칭이라 함은 용언구 패턴에 결합되어 있는 격 성분의 일부가 매칭되는 패턴으로 현재 용언구 패턴 사전DB(10)에 등록에 존재한다는 것이며, 매칭이 되지 않았다 함은 용언구 패턴에 결합되어 있는 격 성분을 가진 패턴이 현재 용언구 패턴 사전DB(10)에 존재하지 않는다는 것을 의미한다.
이어서, 상기 용언구 패턴 자동생성기(30)는 문장구조 분석기(20)에 의해 검출된 미등록 용언구 패턴으로부터 용언구 패턴 원문부를 자동 생성하고(S14), 상기 원문부의 용언구 패턴에 대응하는 중국어 동사 대역어를 상기 용언구 패턴 사전DB(10)에서 찾아 중국어 대역부를 자동 생성하여(S16) 새로운 용언구 패턴을 자동 생성하고(S18), 자동 생성된 용언구 패턴을 상기 용언구 패턴 사전DB(10)에 새롭게 등록한다(S20).
예컨대, 원시 코퍼스(21)에 '나는 새 자동차를 아버지께 드렸다.' 라는 문장이 용언구 패턴을 기반으로 하는 상기 문장구조 분석기(20)에 의한 매칭 작업에 실패하였다면, 상기 용언구 패턴 자동생성기(30)는 '나'에 해당하는 의미코드 '사람'을 변수 A로 일컫게 하고, '새 자동차'에 해당하는 의미코드 '자동차'를 변수 B로 일컫게 하여 아래와 같은 원문부를 완성한다.
A=사람!가 B=자동차!를 드리!다
이어서, 상기 변수 A와 B, 그리고 상기 용언구 패턴 사전DB(10)에 등록된 중국어 동사 대역어 표현을 이용하여 아래와 같은 대역부를 작성한다.
A 給 B
마지막으로, 상기 원문부와 대억부를 합하여 아래와 같이 원시 코퍼스(21)에 기반한 새로운 용언구 패턴을 자동으로 생성한 후, 이 새로운 용언구 패턴을 상기 용언구 패턴 사전DB(10)에 등록한다.
A=사람!가 B=자동차!를 드리!다 > A 給 B
일단, 상기와 같이 원시 코퍼스(21)에 기반한 새로운 용언구 패턴을 자동으로 생성하고 나면, 상기 용언구 패턴 자동생성기(30)는 이 새로운 용언구 패턴과 상기 중국어 동사 대역어와 동일한 대역어를 가지는 한국어 용언구 패턴에 대해 태(Voice)의 동일성과, 어휘패턴 여부, 중국어 대역어 여부를 확인하는 패턴 확장 과정을 수행하여 복수의 특정한 용언구 패턴 후보를 새롭게 추가한 후(S22), 자동 검증 및 수동 검증 과정을 거쳐 상기 용언구 패턴 사전DB(10)에 등록한다.
상기 용언구 패턴 자동생성기(30)는 다음의 실시예와 같이 패턴 확장 과정을 수행한다.
1단계: 기 등록된 한-중 용언구 패턴에서 새로 등록할 용언구 패턴의 대역부의 중국어 동사를 찾는다.
만약, 상기 용언구 패턴 자동생성기(30)에 의해 새롭게 자동 생성된 용언구 패턴이 다음과 같다면, 상기 상기 용언구 패턴 자동생성기(30)은 給이라는 중국어 동사를 찾는다.
A=사람!가 B=자동차!를 드리!다 > A 給 B
2단계: 특정한 중국어 동사(예컨대, 給)를 찾은 다음, 동일한 중국어 동사(대역어)를 가지며 표제어가 다른 한국어 패턴끼리 1:1 비교한다. 즉, 하나의 중국어 동사 밑에 n개의 한국어 패턴이 존재할 경우, n(n-1)/2 쌍을 서로 비교한다.
예컨대, 중국어 동사 '給'에 대하여 동일 중국어 대역어를 갖는 패턴끼리 비교하면 다음과 같은 한국어 패턴이 서로 비교된다.
A=사람!가 B=자동차!를 드리!다
A=사람!가 B=사람!에게 C=채소!를 주!다
A=사람!가 B=재화!를 수여하!다
3단계: 상기와 같이 비교된 한국어 패턴들이 다음의 세 가지 조건을 모두 만족하면, 다른 한국어 표제어 밑에 있는 한국어 동사구 패턴을 자신의 표제어를 사용하여 치환한다.
조건 1) 비교 대상인 두 한국어 동사 표제어의 태 (Voice)가 같다
조건 2) 비교 대상인 두 한국어 동사 중 어느 것도 어휘패턴이 아니다
조건 3) 중국어 동사가 加以, 進行, 做, 作 가 아니다
치환 예) A=사람!가 B=사람!에게 C=채소!를 드리!다
이와 같은 절차를 통해 상기 용언구 패턴 자동생성기(30)에 의해 새롭게 자동 생성된 'A=사람!가 B=자동차!를 드리!다 > A 給 B'라는 용언구 패턴으로부터 'A=사람!가 B=사람!에게 C=채소!를 드리!다 > A 給 B'라는 확장된 패턴이 추가적으로 자동 생성된다.
상기와 같이 확장된 패턴이 생성되고 나면, 상기 용언구 패턴 자동생성기(30)는 확장된 용언구 패턴의 정확성 향상을 위해 상기 확장 용언구 패 턴 후보가 대용량 코퍼스DB(31)에 등록되어 있는지 여부를 판별하는 자동 오류 검증 과정을 먼저 수행하여(S24) 적합한 것으로 승인된 확장 용언구 패턴을 한국어와 중국어 용언구 패턴 사전DB(10)에 새롭게 등록한다(S20).
이때, 상기 용언구 패턴 자동생성기(30)는 대용량 코퍼스DB(31)에 대해 패턴매칭을 시도하여, 확장된 용언구 패턴이 상기 대용량 코퍼스DB(31)에 2회 이상 등장하면(S24) 올바른 패턴으로 용언구 패턴 사전DB(10)에 바로 등록시키고, 그렇지 않은 경우 한-중 기계번역시스템의 렉시코그래퍼에게 생성된 확장 용언구 패턴 후보의 적합성을 묻기 위한 수동 검증을 요청한다(S26).
이때 만약, 상기 렉시코그래퍼에게 검증되는 확장 용언구 패턴 후보가 적합한 것으로 판정되면(S28) 해당 확장 용언구 패턴 후보는 용언구 패턴 사전DB(10)에 등록된다(S20).
하지만, 상기 렉시코그래퍼에게 검증되는 확장 용언구 패턴 후보가 부적합한 오류패턴으로 판정되면(S28) 해당 확장 용언구 패턴 후보는 용언구 패턴 사전DB(10)에 등록되지 않고 상기 오류패턴DB(32)에 등록된다(S30).
이처럼 오류패턴DB(32)에 등록된 용언구 패턴들은 곧바로 삭제되는 것이 아니라 향후 이러한 패턴이 자동으로 생성되지 못하게 하는 역할을 담당한다.
실제로, 상기 렉시코그래퍼가 이후의 수동 검증 작업을 수행할 때 이들 오류패턴들이 검증 전에 자동으로 제외되면 확장 용언구 패턴 후보의 수를 줄일 수 있게 되고, 이러한 방법으로 오류를 미리 제외시키면 렉시코그래퍼의 작업량이 경감되면 더 많은 용언구 패턴이 등록될 수 있다.
상술한 바와 같이 본 발명에 따른 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증 장치는 현재 한국어와 중국어 용언구 패턴 사전에서 보유한 용언구 패턴으로 적용이 되지 않는 용언구 패턴 원문부를 자동으로 추출하고, 이에 대해 중국어 대역어를 기반으로 하는 새로운 한-중 용언구 패턴을 자동 생성하는 한편, 새롭게 생성된 하나의 한-중 용언구 패턴을 유사한 복수의 용언구 패턴 후보로 자동 확장하여 적합하게 자동 생성 및 확장된 한-중 용언구 패턴들을 한국어와 중국어 용언구 패턴 사전DB에 새롭게 등록하도록 되어 있으므로, 한국어와 중국어 용언구 패턴을 자동으로 용이하게 대량 수집할 수 있는 장점이 있으며, 이처럼 자동으로 증가되는 용언구 패턴에 의해 한-중 기계번역시스템의 번역률의 신속한 상승을 이룰 수 있는 효과가 있다.
본 발명에 따른 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증 장치는 자동 확장된 한-중 용언구 패턴에 대하여 대용량 코퍼스 기반의 자동 검증 작업을 수행하여 오류패턴으로 판정된 용언구 패턴을 오류패턴DB에 따로 저장한 후 재사용하여 한국어와 중국어 용언구 패턴의 정확도를 높이도록 되어 있으므로, 향후 자동 생성된 용언구 패턴의 품질을 점진적으로 향상시키는 장점이 있다.

Claims (6)

  1. 한국어와 중국어 용언구 패턴이 등록되어 있는 용언구 패턴 사전DB;
    새롭게 입력되는 한국어 원시 코퍼스에 포함된 각각의 문장에 대한 구조 분석을 수행하여 각 문장에 포함되어 있는 용언구 패턴 중에 현재 용언구 패턴 사전DB에 등록되어 있지 않은 용언구 패턴을 검출하는 문장구조 분석기; 및
    상기 문장구조 분석기에 의해 검출된 미등록 용언구 패턴의 원문부를 자동 생성하고 상기 원문부의 용언구 패턴에 대응하는 중국어 동사 대역어를 상기 용언구 패턴 사전DB에서 찾아 중국어 대역부를 자동 생성하여 새로운 용언구 패턴을 자동 생성하여 용언구 패턴 사전DB에 등록하며, 이 새로운 용언구 패턴과 상기 중국어 동사 대역어와 동일한 대역어를 가지는 한국어 용언구 패턴에 대해 태(Voice)의 동일성과, 어휘패턴 여부, 중국어 대역어 여부를 확인하는 패턴 확장 과정을 수행하여 특정한 용언구 패턴 후보를 추가한 후, 확장된 용언구 패턴 후보가 대용량 코퍼스DB에 등록되어 있는지 여부를 판별하는 자동 오류 검증 과정을 수행하여 적합한 것으로 승인된 확장 용언구 패턴을 한국어와 중국어 용언구 패턴 사전DB에 새롭게 등록하고, 오류패턴으로 판정된 확장 용언구 패턴을 오류패턴DB에 등록하는 용언구 패턴 자동생성기;
    를 포함하는 것을 특징으로 하는 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증 장치.
  2. 제 1 항에 있어서, 상기 용언구 패턴 자동생성기는 자동 오류 검증 과정을 수행한 결과 오류패턴으로 판정된 확장 용언구 패턴 후보에 대하여 렉시코그래퍼에게 수동 검증 요청을 수행하는 것을 특징으로 하는 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증 장치.
  3. 제 2 항에 있어서, 상기 용언구 패턴 자동생성기에서 오류패턴으로 판정된 확장 용언구 패턴 후보에 대하여 렉시코그래퍼에게 수동 검증 요청을 수행한 후,
    해당 확장 용언구 패턴 후보가 적합하다는 렉시코그래퍼의 검증 결과가 입력되면 해당 확장 용언구 패턴을 한국어와 중국어 용언구 패턴 사전DB에 새롭게 등록하고,
    해당 확장 용언구 패턴 후보가 오류패턴이라는 렉시코그래퍼의 검증 결과가 입력되면 판정된 확장 용언구 패턴을 오류패턴DB에 등록하는 것을 특징으로 하는 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증 장치.
  4. 한-중 기계번역 시스템을 위해 청구항 1의 장치를 이용한 용언구 패턴 확장 검증방법에 있어서,
    새롭게 입력되는 한국어 원시 코퍼스에 포함된 각각의 문장에 대한 구조 분석을 수행하여 각 문장에 포함되어 있는 용언구 패턴 중에 현재 용언구 패턴 사전DB에 등록되어 있지 않은 용언구 패턴을 검출한 후 검출된 미등록 용언구 패턴의 원문부를 자동 생성하는 제 1단계;
    상기 원문부의 용언구 패턴에 대응하는 중국어 동사 대역어를 상기 용언구 패턴 사전DB에서 찾아 중국어 대역부를 자동 생성하여 새로운 용언구 패턴을 자동 생성하여 용언구 패턴 사전DB에 등록하는 제 2단계;
    상기 새로운 용언구 패턴과 상기 중국어 동사 대역어와 동일한 대역어를 가지는 한국어 용언구 패턴에 대해 태(Voice)의 동일성과, 어휘패턴 여부, 중국어 대역어 여부를 확인하는 패턴 확장 과정을 수행하여 특정한 용언구 패턴 후보를 추가하여 생성하는 제 3단계; 및
    확장된 용언구 패턴 후보가 대용량 코퍼스DB에 등록되어 있는지 여부를 판별하는 자동 오류 검증 과정을 수행하여 적합한 것으로 승인된 확장 용언구 패턴을 한국어와 중국어 용언구 패턴 사전DB에 새롭게 등록하고, 오류패턴으로 판정된 확장 용언구 패턴을 오류패턴DB에 등록하는 제 4단계;를 포함하는 것을 특징으로 하는 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증방법.
  5. 제 4항에 있어서, 상기 제 4단계는
    자동 오류 검증 과정을 수행한 결과 오류패턴으로 판정된 확장 용언구 패턴 후보에 대하여 렉시코그래퍼에게 수동 검증 요청을 수행하는 단계;
    해당 확장 용언구 패턴 후보가 적합하다는 렉시코그래퍼의 검증 결과가 입력 되면 해당 확장 용언구 패턴을 한국어와 중국어 용언구 패턴 사전DB에 새롭게 등록하는 단계; 및
    해당 확장 용언구 패턴 후보가 오류패턴이라는 렉시코그래퍼의 검증 결과가 입력되면 판정된 확장 용언구 패턴을 오류패턴DB에 등록하는 단계;로 이루어진 것을 특징으로 하는 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증방법.
  6. 제 4항 또는 5항에 기재된 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증방법에 대해 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020030094025A 2003-12-19 2003-12-19 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증장치 및 방법 KR100561227B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020030094025A KR100561227B1 (ko) 2003-12-19 2003-12-19 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증장치 및 방법
US10/892,268 US7447628B2 (en) 2003-12-19 2004-07-16 Verb pattern automatic extension and verification apparatus and method for use in Korean-Chinese machine translation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030094025A KR100561227B1 (ko) 2003-12-19 2003-12-19 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증장치 및 방법

Publications (2)

Publication Number Publication Date
KR20050063815A KR20050063815A (ko) 2005-06-28
KR100561227B1 true KR100561227B1 (ko) 2006-03-15

Family

ID=34675868

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030094025A KR100561227B1 (ko) 2003-12-19 2003-12-19 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증장치 및 방법

Country Status (2)

Country Link
US (1) US7447628B2 (ko)
KR (1) KR100561227B1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100757340B1 (ko) * 2006-03-30 2007-09-11 엔에이치엔(주) 자동 추출을 이용한 형태소 분석기 성능 향상 방법 및 상기방법을 수행하는 시스템
KR100831037B1 (ko) * 2006-09-29 2008-05-20 한국전자통신연구원 병렬 말뭉치를 이용한 신조어의 대역어 자동 선정 방법 및장치
KR100911834B1 (ko) * 2007-12-11 2009-08-13 한국전자통신연구원 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치
KR100886687B1 (ko) * 2007-12-12 2009-03-04 한국전자통신연구원 중국어 미등록어 자동 추출 방법 및 장치
KR100956794B1 (ko) 2008-08-28 2010-05-11 한국전자통신연구원 다단계 용언구 패턴을 적용한 번역장치와 이를 위한적용방법 및 추출방법
TWI391832B (zh) * 2008-09-09 2013-04-01 Inst Information Industry 中文文章偵錯裝置、中文文章偵錯方法以及儲存媒體
US9713774B2 (en) 2010-08-30 2017-07-25 Disney Enterprises, Inc. Contextual chat message generation in online environments
KR101356417B1 (ko) * 2010-11-05 2014-01-28 고려대학교 산학협력단 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
US9552353B2 (en) * 2011-01-21 2017-01-24 Disney Enterprises, Inc. System and method for generating phrases
US9176947B2 (en) 2011-08-19 2015-11-03 Disney Enterprises, Inc. Dynamically generated phrase-based assisted input
US9245253B2 (en) 2011-08-19 2016-01-26 Disney Enterprises, Inc. Soft-sending chat messages
US9165329B2 (en) 2012-10-19 2015-10-20 Disney Enterprises, Inc. Multi layer chat detection and classification
US10742577B2 (en) 2013-03-15 2020-08-11 Disney Enterprises, Inc. Real-time search and validation of phrases using linguistic phrase components
US10303762B2 (en) 2013-03-15 2019-05-28 Disney Enterprises, Inc. Comprehensive safety schema for ensuring appropriateness of language in online chat
CN103839232B (zh) * 2014-01-17 2016-09-07 河海大学 一种基于团块模型的行人阴影抑制方法
CN103778111A (zh) * 2014-02-24 2014-05-07 周龙金 手机短信中英文自动翻译及英语学习的系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5878385A (en) * 1996-09-16 1999-03-02 Ergo Linguistic Technologies Method and apparatus for universal parsing of language
KR100283100B1 (ko) 1998-12-03 2001-03-02 정선종 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법
US7734459B2 (en) 2001-06-01 2010-06-08 Microsoft Corporation Automatic extraction of transfer mappings from bilingual corpora
TW513362B (en) * 2001-07-06 2002-12-11 Chiang-Shui Su Brake auxiliary device

Also Published As

Publication number Publication date
US20050137851A1 (en) 2005-06-23
US7447628B2 (en) 2008-11-04
KR20050063815A (ko) 2005-06-28

Similar Documents

Publication Publication Date Title
KR100561227B1 (ko) 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증장치 및 방법
JP3971373B2 (ja) ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US8606559B2 (en) Method and apparatus for detecting errors in machine translation using parallel corpus
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
US20170169009A1 (en) Apparatus and method for amending language analysis error
JP2009151777A (ja) 音声言語パラレルコーパスのアライメント方法及び装置
Zhang et al. The NiCT-ATR Statistical Machine Translation System for IWSLT 2006
KR100617318B1 (ko) 2단계 구문분석을 통한 자동 번역 장치 및 방법
KR19980078534A (ko) 절단위 분할기를 갖춘 영한 번역 장치 및 그 영어 해석 방법
JPS6118072A (ja) 辞書デ−タの自動登録方式
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
KR20150111587A (ko) 디비피디아를 활용한 uri 스포팅 시스템 및 방법
KR100422809B1 (ko) 기계 번역을 위한 장문 분할 방법
KR20010057763A (ko) 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법
JPH07146868A (ja) 自然言語処理装置
KR100957416B1 (ko) 동의어를 이용한 검색 서비스 제공 방법 및 시스템
Schwartz et al. The University of Illinois submission to the WMT 2015 Shared Translation Task
JPH10240736A (ja) 形態素解析装置
JPS62180462A (ja) 音声入力かな漢字変換装置
Ortiz et al. On the use of statistical machine-translation techniques within a memory-based translation system (AMETRA)
JPH03125264A (ja) キーワード抽出装置
JPH0869467A (ja) 日本語文書処理装置
KR20190066859A (ko) 한국어 형태소 분석방법
JPH06149869A (ja) 形態素解析装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090303

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee