KR20010097365A - 영한기계번역 시스템 및 방법 - Google Patents

영한기계번역 시스템 및 방법 Download PDF

Info

Publication number
KR20010097365A
KR20010097365A KR1020000021360A KR20000021360A KR20010097365A KR 20010097365 A KR20010097365 A KR 20010097365A KR 1020000021360 A KR1020000021360 A KR 1020000021360A KR 20000021360 A KR20000021360 A KR 20000021360A KR 20010097365 A KR20010097365 A KR 20010097365A
Authority
KR
South Korea
Prior art keywords
dictionary
translation
salmon
verb
wordnet
Prior art date
Application number
KR1020000021360A
Other languages
English (en)
Inventor
김영택
김유섭
Original Assignee
김영택
김유섭
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김영택, 김유섭 filed Critical 김영택
Priority to KR1020000021360A priority Critical patent/KR20010097365A/ko
Publication of KR20010097365A publication Critical patent/KR20010097365A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 연어사전DB에 등록되지 않은 단어가 입력되었을 때 번역이 되지 않는 문제를 해결하기 위하여 워드넷DB을 이용하여 대역어를 선택하여 동사의 번역률을 향상키고자 하는 장치에 관한 것으로서, 영한기계번역에서 대역어 선택장치의 구성은 동사와 목적어의 관계에서 의미를 최적화하여 저장되어 있는 최적화된 연어사전DB와, 영어단어들에서 유사의미의 관계를 정리하여 저장되어 있는 워드넷DB와, 입력된 문장에서 단어의 어휘를 분석하는 어휘분석모듈과, 문장의 구조를 분석해내는 과정으로 문법과 문장구조를 분석하기 위한 구문분석모듈과, 동사와 목적어의 관계따른 연어사전DB에서 의미를 찾아내는 의미분석모듈과, 연어사전DB에 등록되지 않은 영어단어를 워드넷DB에서 의미상 비슷한 단어를 찾어주는 대역어선택모듈과, 한글로 번역된 문장을 만들어 주는 문장생성모듈로 구성되어 있다.

Description

영한기계번역 시스템 및 방법{English-Korean translator System and method}
본 발명은 영한기계번역의 의미분석부에서 대역어 선택 장치에 관한 것으로, 보다 상세하게는 입력되는 영어문장중에서, 목적어에 따라서 동사의 번역어를 선택하는 방법으로, 동사번역의 정확도를 향상시키는 장치에 관한 것이다.
종래에는 동사와 목적어에 따른 동사번역어를 연어사전DB에서 직접 매치 방식으로 선택하였다.
그러나 상기한 종래의 직접 매치방식은 연어사전DB에 등록되지 않은 단어가입력되었을 때에는 번역어를 선택할 수 없으며, 번역이 불가능하다는 문제점이 있었다. 또한 목적어를 사전에 보강하기 위해서 상당한 비용을 필요로 한다.
본 발명은 상기한 문제점을 해결하기 위한 것으로, 입력된 동사와 목적어에서 연어사전DB에 저장되지 않은 목적어가 입력될 경우, 연어사전DB에 저장되어 있는 입력된 동사의 하위에 있는 목적어들과 입력된 목적어와 워드넷DB를 이용하여 의미거리를 측정하고, 입력된 동사의 하위에 있는 목적어들중에서 의미거리가 가장 가까운 목적어를 선택하고, 선택된 목적어의 해당 동사번역어를 선택하여, 동사번역율을 높이는 것을 목적으로 한다.
본 발명의 또 다른 목적은 연어사전DB에 등록되지 않은 단어를 워드넷DB에서 대역어를 선택하는 성질을 이용하여, 연어사전DB의 동사의 하위에 있는 목적어들 중에서 워드넷DB에서 가장 상위에 있는 목적어와 목적어의 번역만 남기고 삭제하는 방법으로 연어사전DB를 최적화하여 번역의 속도를 향상시키는 것을 목적으로 한다.
도1은 본 발명에 따른 일실시예에 있어서 영한기계번역 시스템의 구성도.
도2는 본 발명에 따른 일실시예를 도시한 영한기계번역 방법의 흐름도.
도3은 본 발명에 따른 연어사전DB의 최적화 방법의 흐름도.
도4는 본 발명에 따른 워드넷DB의 구조도.
도5는 본 발명에 따른 연어사전DB의 최적화 방법에서 초기화 알고리즘.
도6는 본 발명에 따른 연어사전DB의 최적화 방법에서 유사도 계산 알고리즘.
도7는 본 발명에 따른 연어사전DB의 최적화 방법에서 동일 의미 예제 제거 알고리즘.
도8는 본 발명에 따른 연어사전DB의 최적화 방법에서 비경계 예제 제거 알고리즘.
도9는 본 발명에 따른 연어사전DB의 최적화 방법에서 비경계 예제를 제거하는 개념도.
도10는 본 발명에 따른 연어사전DB의 최적화 방법에서 최소 오류 예제 제거 알고리즘.
도11는 본 발명에 따른 대역어선택모듈에서 의미거리 계산 알고리즘.
도12는 본 발명에 따른 대역어선택모듈에서 의미거리 개념도.
도13는 본 발명에 따른 대역어선택모듈에서 k-최근점 알고리즘.
도14는 본 발명의 실험실시예에 따른 사전의 크기와 번역률의 관계 그래프.
도15는 본 발명의 실험실시예에 따른 학습예제의 크기와 번역시간의 관계 그래프.
*** 도면의 주요부분에 대한 부호설명 ***
1. 입력장치 2. 출력장치 4. 영한번역기
6. 최적화된 연어사전DB 8. 워드넷DB 10. 어휘분석모듈
11. 구문분석모듈 12. 의미분석모듈
13. 대역어선택모듈 14. 문장생성모듈
어휘분석부, 구문분석부, 의미분석부, 문장생성부를 갖는, 영한기계번역 시스템에 있어서, 상기 의미분석부는, 동사 및 동사의 하위 구조에 동사가 번역될 수 있는 번역어들 및 번역어들의 하위 구조에 동사가 번역될 목적어들 중에서 가장 워드넷DB에서 가장 상위에 있는 목적어와 목적어의 번역어로 구성되어 있는 최적화된 연어사전DB와; 영어단어들의 유사관계를 정리하여 트리구조로 저장되어 있는 워드넷DB와; 입력된 동사와 목적어에서, 상기 최적화된 연어사전DB에 저장되지 않은 목적어는 동사의 하위구조의 목적어들과 워드넷DB에서 의미거리측정하고, k-최근점알고리즘을 이용하여 의미거리가 가장 가까운 단어를 선택하는 대역어선택모듈과; 상기 연어사전DB의 동사와 목적어의 연어관계로부터 동사의 의미를 찾아내는 의미분석모듈;을 갖는다.
상기 대역어 선택모듈에서 의미거리는 하기의 수학식1을 이용하여 측정하는 것을 특징으로 한다.
여기서, b1과 b2는 워드넷DB상의 목적어의 의미와 거리의 개념을 가지는 신셋이고, M=radix/sfp이고, radix는 b1과 b2의 신셋이 중복되는 최하위의 값이고, p는 워드넷DB의 최상위에서 b1과 b2가 중복되는 최하위가지의 단계이며, li는 워드넷DB의 최상위에서 b1까지의 거리이며, lj는 워드넷DB의 최상위에서 b2까지의 거리이다.
어휘분석단계, 구문분석단계, 의미분석단계, 문장생성단계를 갖는 영한기계번역방법에 있어서, 상기 영한번역에서 의미분석단계는, 입력된 문장에서 동사와 목적어의 관계에서 최적화된 연어사전DB를 검색하여 목적어에 따른 동사의 의미가 가장 정확하게 전달될 수 있는 번역어를 선택하는 최적화된 연어사전DB 검색단계와; 최적화된 연어사전DB에서 선택된 번역어로 문장을 생성하는 문장번역단계와;입력된 동사와 목적어에서, 상기 연어사전DB에 등록되지 않은 목적어가 입력된 경우, 입력된 목적어와 연어사전DB에서 동사의 하위 구조에 있는 목적어들과 의미거리계산 알고리즘을 이용하여 거리를 측정하고, 대역어인 거리가 가장 가까운 목적어를 k-최근점 알고리즘을 이용하여 선택하며, 대역어의 상위구조에 있는 동사번역어를 선택하여, 의미가 정확하게 전달될 수 있는 동사번역어를 선택하는 대역어선택단계를 가진다.
상기 연어사전DB의 최적화는, 말뭉치에서 동사-목적어 쌍추출단계 및 학습예제구성단계 및 학습예제에서 1차 최적화단계 및 학습예제에서 2차 최적화단계에 의하되, 상기 말뭉치에서 동사-목적어 쌍추출단계는, 대량의 말뭉치로부터 파서를 이용하여 원하는 동사와 그 목적어의 쌍을 자동으로 추출하며; 상기 학습예제구성단계에서 학습예제의 구성은 목적어와, 목적어의 의미를 나타내는 신셋과, 목적어의 출현빈도와, 해당 동사의 번역어로 구성되데, 목적어의 번역과 동사 번역은 수동으로 이루어지며; 상기 학습예제에서 1차 최적화단계는, 초기학습예제에서 중복되는 예제를 삭제하며, 상기워드넷DB의 동일 경로상의 동사번역을 지닌 동일 경로상의 목적어 중 가장 상위에 위치하는 목적어와 목적어의 번역어만 남기고 삭제하며; 상기 학습예제에서 2차 최적화단계는, 상기 1차 최적화 된 학습예제에서 특정단어를 제거하고 번역하여, 번역에서 오류가 가장 작은 예제부터 차례로 학습 예제에서 삭제하는 것을 특징으로 한다.
상기 최적화된 연어사전DB의 제작단계에서 1차 최적화된계는 초기화 알고리즘, 유사도 계산알고리즘, 동일의미제거 알고리즘, 비경계예제 제거 알고리즘을 이용하며, 2차 최적화단계는 최소 오류예제 제거알고리즘을 이용하여 제작하는 것을 특징으로 한다.
상기 대역어 선택방법단계에서 의미거리는 하기의 수학식2를 이용하여 측정하는 것을 특징으로 하는 영한기계번역 방법.
여기서, b1과 b2는 워드넷DB상의 목적어의 의미와 거리의 개념을 가지는 신셋이고, M=radix/sfp이고, radix는 b1과 b2의 신셋이 중복되는 최하위의 값이고, p는 워드넷DB의 최상위에서 b1과 b2가 중복되는 최하위가지의 단계이며, li는 워드넷DB의 최상위에서 b1까지의 거리이며, lj는 워드넷DB의 최상위에서 b2까지의 거리이다.
최적화된 연어사전DB는 기존의 연어사전을 최적화하여 사용할 수 있는 것을 특징으로 한다.
이하 실시예를 통하여 본 발명을 상세하게 설명한다. 그러나, 이들 실시예는 예시적인 목적일 뿐 본 발명이 이에 한정되는 것은 아니다.
도1은 본 발명에 따른 일실시예에 있어서 영한기계번역 시스템의 구성도로서, 영어가 입력되는 입력장치(1)와, 한글로 번역된 데이터가 출력되는출력장치(2), 영어를 한글로 바꿔주는 영한번역기(4)로 구성된다.
본 발명이 종래의 발명과 구성에서의 차이는 최적화된 연어사전DB(6)와, 워드넷DB(8)와, 의미분석모듈(12)과, 대역어선택모듈(13)이 포함되어 있는 것이다.
최적화된 연어사전DB(6)의 구조 및 제작방법은 아래와 같다.
표1에서 보는 바는 종래의 연어사전DB이다. 연어사전DB의 구조는, 동사를 독립부분으로 하고, 목적어를 종속부분으로 구성되어 있다.
최적화된 연어사전DB(6)과 종래의 연어사전DB와 차이는 동사의 하위구조인 목적어들이 워드넷DB(8)에서 의미상 대표되는 목적어만 하위구조로 구성하는 것이다. 동사는 하위구조인 목적어에 따라서 의미가 달라질 수 있다. 예를들어 설명하면 "build" 동사의 경우 목적어에 따라서 "건축하다", "건설하다", "제작하다", "설립하다", "구축하다"등의 의미가 있다. 목적어가 "house", "center", "housing", "church" 등일 경우에는 "build"동사는 "건축하다"의 의미가 되며, 목적어가 "plant", "ship", "network", "park" 등일 경우에는 "건설하다"의 의미가 된다.
최적화된 연어사전DB(6)를 제작하는 방법은 도3의 연어사전DB 최적화 방법의흐름도에서 보는 바와 같이, 최적화된 연어사전DB(6)의 제작방법(600)은 말뭉치 또는 일반문장에서 동사-목적어 쌍추출(610), 학습예제구성(620), 학습예제를 가지고 1차최적화(630)와, 학습예제에서 2차최적화(640)의 단계를 통하여 연어사전DB를 최적화한다.
말뭉치에서 동사-목적어 쌍을 추출(610)한다. 추출된 동사-목적어 쌍을 이용하여 학습예제구성(620)를 구성하면 표2의 "build"의 예에서 보는 바와 같다. 학습예제의 구성(학습예제의 속성)은 목적어 단어(o)와, 워드넷에서 신셋이라고 불리며, 트리구조에서 목적어의 의미를 가지는 목적어의 의미(s), 동사-목적어 쌍을 추출할 때의 동사-목적어 쌍의 출현빈도(fr), 동사에서 목적어에 따른 해당 동사번역어(c)로 구성된다.
학습예제에서 1차최적화(630)과정은 워드넷DB(8)의 구조를 이용하여 도5의 연어사전DB의 최적화 방법에서 초기화 알고리즘, 도6의 연어사전DB의 최적화 방법에서 유사도 계산 알고리즘, 도7의 연어사전DB의 최적화 방법에서 동일 의미 예제 제거 알고리즘, 도8의 연어사전DB의 최적화 방법에서 비경계 예제 제거 알고리즘의 과정을 통하여 1차 최적화 된다.
최적화된 연어사전DB제작의 초기화단계로서, 말뭉치에서 추출한 학습예제를 최적화하기 위하여 도5의 연어사전DB의 최적화 방법에서 초기화 알고리즘을 이용한다. 벡터와 행렬로 예제 정보를 표현하여 최적화과정에서 사용된다. 초기화 알고리즘에서 ei는 학습예제의 원소이며 목적어단어(oi), 목적어의 의미(si), 출현빈도(fri), 해당동사번역(ci), 학습예제에서의 제거(nullptri)로 구성된다. 학습예제 벡터 Etr은 ei의 출연빈도에 따른 내림차순으로 정리되어 있다. 의미거리 행렬DM은 Etr의 원소간의 의미거리를 측정하고 행렬형태로 구성한다. 도5의 연어사전DB의 최적화 방법에서 초기화 알고리즘은 도6의 연어사전DB의 최적화 방법에서 유사도 계산 알고리즘과 함께 예제 최적화 단계에서 계속적으로 사용된다.
영한번역에서 번역오류를 계산할 때는 번역된 내용을 읽는 사람이 이해 할 수 있는 정도에 다른, 이해도가 반영되어야 한다. 도6의 연어사전DB의 최적화 방법에서 유사도 계산 알고리즘은, 표3처럼 동사의 유사도를 계산하는 단계이다. 예를 들어 "house"가 "build"의 목적어일 때, "build"의 번역은 "건축하다"이다. 그러나 번역으로 "건설하다"를 선택할 경우와 "설립하다"를 선택할 경우에 각각 다른 정도로 유사하게 이해된다. 오류의 정도에 따라서 유사도(SM)를 측정하며, 0<SM<1 에서 0은 의미가 똑같고, 1은 의미가 전혀 다르다고 가정을 한다.
말뭉치에서 동사-목적어 쌍을 추출할 때 동일한 의미의 학습예제가 학습예제 리스트에 포함되어 있고, 중복되는 학습예제를 제거하여야 한다. 도7의 동일 의미 예제 제거 알고리즘은, 두 학습예제 중 출연빈도가 더 작은 예제(frj)가 학습예제 리스트에서 제거되고, 그 예제의 출연빈도는 나머지 학습 예제(fri)의 빈도에 더해지는 과정을 통하여 이루어진다. 1차 최적화 과정에서 계산되는 예제의 빈도는 2차 촤적화 과정에서 제거될 예제를 선택할 때 사용된다.
경로상에서 비경계 예제들을 선택하고 이들을 학습예제로부터 제거한다. 도8의 연어사전DB의 최적화 방법에서 비경계 예제 제거 알고리즘은, 워드넷DB의 트리구조를 이용하여 동일 경로상의 비경계 예제들을 간단하게 구별할 수 있다. 도9의 연어사전DB의 최적화 방법에서 비경계 예제를 제거하는 개념도처럼, 예를 들면 "build"동사의 목적어에서 "building"의 하위 개념인 "center", "hotel", "house" 등은 삭제하고, "dam", "fence"등은 "structure"의 하위 개념으로 "structure"만 남기고 삭제한다. 이 때 출연빈도는 상위 개념의 목적어에 포함하므로써 학습예제에서 1차 최적화 과정이 끝이 난다.
학습예제에서 2차최적화(640)과정은, 더 많은 학습 예제를 제거하기 위하여 실행된다. 도10의 연어사전DB의 최적화 방법에서 최소 오류 예제 제거 알고리즘은 동사번역에서 오류가 가장 적은 예제부터 학습예제에서 제거하는 과정이다. 이 과정은 임의의 실험예제들을 번역하여, 결과로 나온 번역과 원래 그 예제가 취해야 할 번역간의 유사도를 측정하며 측정방법은 도6에서 계산하였다. 연어사전DB에서 제거되었다고 가정한 각각의 학습예제에 대하여 모든 임의의 실험예제들의 번역 유사도의 합계를 계산하고, 이 합계가 가장 작은 학습예제를 선택하여 학습예제 리스트에서 제거한다. 예를 들어 설명하면 "build center"에서 목적어인 "center"를 삭제하고 실험예제를 번역한다. 번역할 때 "build"의 의미가 "건축하다", "건설하다", "제작하다", "설립하다", "구축하다"중 어느 하나로 번역 될 수 있고, 번역된 결과에 따라 유사도 값이 달라질 수 있으며, 실험예제들을 번역한 후 유사도 값들을 저장한다. "center"외에 다른 목적어들도 실험예제들을 번역하는 방법으로 유사도 값들을 합하여 저장한다. 측정된 유사도 값들 중에 가장 작은 학습예제를 선택하여 학습예제 리스트에서 제거한다.
워드넷DB(8)는, 도4의 워드넷DB의 구조도처럼, 신셋이라는 동의어 집단으로 구성되며 워드넷 구성의 기본이 된다. 신셋이 (1.1.1.1.31.1)일 경우 "chap", "fellow"가 되며, 상위단계인 신셋이 (1.1.1.1.31)일 경우에 목적어는 "male"가 되며, 상위단계인 (1.1.1.1)일 경우 목적어는 "human", "man", "person"이 되어 있으며, 상위로 올라갈수록 하위개념을 포괄한다.
어휘분석모듈(10)과, 구문분석모듈(11)은 종래 공개된 기술을 사용한다.
의미분석모듈(12)은 영어를 한글로 번역을 하며, 번역에 관한 정보는 최적화된 연어사전DB(6)를 이용한다.
대역어선택모듈(13)은 최적화된 연어사전DB(6)에 없는 단어가 입력되었을 경우에 워드넷DB(8)를 이용하여 의미가 유사한 단어인 대역어를 선택한다. 타동사와 목적어의 관계인 "I build center"가 입력되었을 때, 목적어인 "center"가 연어사전DB에 없는 경우 "build"의 종속에 포함되는 목적어와 "center"의 거리를 워드넷DB를 이용하여 계산한다.
도2는 본 발명에 따른 일실시예를 도시한 영한기계번역 방법의 흐름도로서, 영어문장입력(100)단계, 영어문장에서 단어의 어휘분석(200)단계, 영어문장의 구문분석(300)단계, 문장의 의미분석(400)단계, 번역된 문장생성(500)의 단계로 되어있다.
의미분석(400)단계는 최적화된 연어사전DB검색(410)단계, 대역어선택(420)단계와 문장의 번역(430)단계의 순서가 있다.
최적화된 연어사전DB검색(410)은, 입력된 영어문장에서 동사와 목적어의 관계에 따라서 최적화된 연어사전DB(6)에서 의미를 찾는 단계이다. 입력된 영어문장에서 목적어에 해당하는 목적어가 최적화된 연어사전DB(6)에 등록되지 않은 경우 대역어선택(420)단계에서 대역어를 선택한다.
대역어선택(420)단계는, 입력된 영어문장에서 목적어에 해당하는 목적어가 최적화된 연어사전DB(6)에 등록되지 않은 경우, 워드넷DB(8)를 이용하여 목적어의 번역도를 선택하고, 연어사전DB(6)에 등록된 동사의 종속부분인 목적어와, 의미거리를 측정하며, 의미거리가 가장 가까운 목적어를 선택하고, 선택된 목적어의 동사번역어를 선택한다. 대역어를 선택하기 위해서는 단어간의 의미거리 측정알고리즘과 k-최근접 알고리즘을 사용한다.
의미거리 측정은 도11의 대역어선택모듈에서 의미거리 계산 알고리즘에서 보는 바와 같다. 워드넷DB(8)의 구조에서 단어와 단어사이의 단계가 몇 가지가 있을 경우는 단어간의 거리를 측정하여 가장 가까운 단어를 선택하여야 의미가 가장 정확하게 전달될 수 있다. 도12의 대역어선택모듈에서 의미거리 개념도에서 보는 바와 같이, 의미거리 삼각형 B가 같은 크기의 삼각형 A보다 워드넷DB상에서 하위에 위치하므로 신셋 b1과 b2의 의미거리는 a1과 a2의 의미거리보다 더 짧다. 또한 삼각형 B가 같은 계층의 삼각형 D보다 크기가 더 작기 때문에 신셋 b1과 b2의 의미거리는 d1과 d2의 의미거리보다도 더 짧다. 의미거리측정을 예를 들어 설명하면 다음과 같다. "plant(4.1.4.8.1.10)"과 "home(4.1.4.8.2.1)은 4번째 계층"4.1.4.8"까지는 공유하고 있으므로 M의 값은 "8.0/2.04=0.5"가 된다. 그리고 두 단어 모두 그 아래로 2개의 계층이 더 존재하므로 의미거리D(b1, b2)의 값은 "(0.5+0.25+0.125)+ (0.5+0.25+0.125)=1.75"가 된다.
k-최근점 알고리즘은 의미거리가 가장 가까운 목적어의 해당 동사번역어를 선택하는 알고리즘이다. xi는 워드넷DB에서의 목적어, f(xi)는 목적어의 의미가 xi일 때의 동사번역어, xq는 입력되는 목적어, f(xq)는 입력되는 목적어의 동사번역어,예를 들면 목적어 "highway"의 워드넷으로부터 의미 "1.1.4.3.19.5.6."를 xq로 하고, 입력되는 목적어 xq와 가장 가까운 학습예제 xi를 사전에서 찾는다. xq에 대하여 사전으로부터 가장 가까운 예제 워드넷DB에서 xi="1.1.4.3.19.5"(road)를 찾는다. f("1.1.4.3.19.5.")="건설하다"를 f("1.1.4.3.3.19.5.6.")로 추정하여 "highway"에 대한 동사의 번역으로 결정한다.
실험실시예
본 실험을 위하여 "Wall Street Journal" 말뭉치(220,047문장, 3,090,149 단어)와 경제 관련 신문기사로 이루어진 말뭉치(41,750문장, 709,755단어)에서 908개의 build-목적어 쌍을 추출하였으며 그밖의 5개 동사에 대하여 1672개의 동사-목적어 쌍을 추출하였다. 그리고 5-집단 교차 검증(5-fold cross validation)을 위하여 무작위로 전체 샘플을 5개의 샘플 집합으로 나누어 4개의 집합으로 학습 샘플을 구성하고 나머지 하나를 검증 샘플로 사용하였다. "build"의 경우, 샘플1, 샘플2, 샘플3은 182개의 쌍을 샘플4, 샘플5는 181개의 쌍을 가지고 있으며, 다음 표4는 각 실험별로 샘플에서 추출된 학습예제의 상황을 한 예로 보여주고 있다.
표4에서 각각의 실험(k)는 5개의 샘플 중 k번째 샘플을 제외한 나머지 샘플들로 학습 예제를 구성하였다. 실험(1)에서는, 샘플1을 제외한 나머지 4개의 샘플들을 모두 726개의 문장을 가지고 있으며 이로부터 241개의 학습예제가 추출되었다. 그리고 샘플1에 나타난 182개의 예제 문장 중 21개는 목적어가 워드넷DB에 정의되지 않았다. 그리고 5번의 실험의 평균으로, 학습 샘플은 726.4개의 문장에서 243.2개의 학습예제를 추출하였고 검증 샘플은 181.6개의 문장 중 18개의 문장에 나타난 목적어가 워드넷DB에 정의되지 않았다.
표5는 k-최근점 학습을 사용하지 않고 연어 관계만으로 번역한 결과와 k-최근점 학습을 사용하여 번역을 선택한 결과를 보여주고 동시에 사전을 최적화하는 과정을 보여주고 있다. 연어관계만을 가지고 번역을 선택할 때 (실험 1) 7.29%의 번역률과 0.026초의 번역시간이 나타났다. 그러나 k-최근점 학습을 여기에 추가하여 번역을 선택하면(실험 2) 87.7%의 번역률 0.096초의 번역시간이 나타났다. 사전의 크기를 줄이는 과정에서 전체 사전의 크기를 초기 사전의 70%로 줄여도 번역률에는 아무런 변화를 보이지 않았으나 번역시간은 계속 증가하였다. 그리고 사전의 크기를 초기 사전의 50%와 30%까지 줄이면 번역률은 오히려 더 좋아지는 현상을 보였으며, 30%부터는 사전의 크기가 100%일 때보다 번역시간이 감소하는 모습을 보여주었다.
"build"외에 말뭉치에서의 빈도가 80회 이상이며 번역 선택시 연어를 이용해야 하는 단어 5개에 대하여 표5와 동일한 실험을 하였다. 5개 동사에 대한 실험결과는 표6과 같다.
사전의 크기와 번역률의 관계는 도14에서와 같이 "build"의 경우 사전이 60% 수준을 유지할 때까지는 번역률에 변화가 없었다. 이는 1차 최적화 과정은 번역률에 아무런 영향을 미치지 않는다는 것을 보여주는 것이다. 다른 동사들의 경우에는 아주 미세한 변화를 보여주었는데 이것은 1차 최적화로 제거되는 예제의 비율이 각 동사마다 조금씩 다르기 때문이다. 또한 사전의 크기가 약 40%가 될 때까지는 예제를 계속 제거하여도 번역률의 하락은 거의 보이지 않았다. 오히려 "build"는 번역률이 약간 좋아지는 모습을 보였는데 이는 2차 최적화로 인하여 번역에 악영향을 미치는 예제들이 제거되었기 때문이다. 다른 동사들 역시 번역률은 크게 떨어지지 않았다. 사전이 절반 이하의 크기로 줄어도 번역률은 크게 떨어지지 않는다.
학습예제의 크기와 번역시간의 관계에서 도15는 "build"와 "pay" 그리고 그 외의 동사의 번역시간을 보여준다. "build"와 "pay"는 사전이 60%가량 될 때가지는 시간이 오히려 증가하는 모습을 보여주었다. 이는 사전 최저고하 과정을 계속하면서 사전의 크기가 줄어들어 입력된 목적어를 사전에서 바로 찾지 못하고 k-최근점 알고리즘을 적용시켜야 하는 경우가 늘어났기 때문이다. 그러나 5동사의 평균은 사전이 작아지면서 소비시간 역시 꾸준히 감소하는 모습을 보여주었는데 이는 동사별로 번역시간의 상승과 하강 지점이 모두 다르기 때문에 발생하는 것이다. 전체적으로 각각의 곡선은 서로 다른 위치를 가지는데, 이는 각 동사에 대해 구축된 예제의 수가 서로 다르기 때문이다. " build"와 "pay"동사는 사전의 크기가 30%수준으로 줄었을 때 번역시간이 최적화 이전보다 감소하는 효과를 보였다.
이상, 일실시예를 들어 본 발명을 설명하였으나, 본 발명은 이에 제한되는 것은 아니다. 영한기계번역을 예를 들어 설명하였으나, 원시언어와 목적언어가 다양한 언어인 경우에도 본발명을 적용할 수 있는 것은 당연한 일이다. 또한, 각 단계의 실행 알고리즘을 도면을 참조하여 설명하였으나, 명세서의 기재를 간명하게 하기 위한 것에 불과하며 도면에 포함된 알고리즘들이 본 발명의 권리범위에 포함되는 것은 당연한 일이다.
이상과 같이 본 발명에 의하면, 영어문장에서 동사의 번역율을 높이며, 번역도 정확하게 할 수 있다. 또한 영한 번역의 시간이 줄어들고, 번역의 정확도를 향상시키는 효과가 있다.

Claims (7)

  1. 어휘분석부, 구문분석부, 의미분석부, 문장생성부를 갖는, 영한기계번역 시스템에 있어서,
    상기 의미분석부는,
    동사 및 동사의 하위 구조에 동사가 번역될 수 있는 번역어들 및 번역어들의 하위 구조에 동사가 번역될 목적어들 중에서 가장 워드넷DB에서 가장 상위에 있는 목적어와 목적어의 번역어로 구성되어 있는 최적화된 연어사전DB와;
    영어단어들의 유사관계를 정리하여 트리구조로 저장되어 있는 워드넷DB와;
    입력된 동사와 목적어에서, 상기 최적화된 연어사전DB에 저장되지 않은 목적어는 동사의 하위구조의 목적어들과 워드넷DB에서 의미거리측정하고, k-최근점알고리즘을 이용하여 의미거리가 가장 가까운 단어를 선택하는 대역어선택모듈과;
    상기 연어사전DB의 동사와 목적어의 연어관계로부터 동사의 의미를 찾아내는 의미분석모듈;을 갖는 영한기계번역 시스템.
  2. 제1항에 있어서,
    상기 대역어 선택모듈에서 의미거리는 하기의 수학식을 이용하여 측정하는 것을 특징으로 하는 영한기계번역 시스템.
    여기서, b1과 b2는 워드넷DB상의 목적어의 의미와 거리의 개념을 가지는 신셋이고, M=radix/sfp이고, radix는 b1과 b2의 신셋이 중복되는 최하위의 값이고, p는 워드넷DB의 최상위에서 b1과 b2가 중복되는 최하위가지의 단계이며, li는 워드넷DB의 최상위에서 b1까지의 거리이며, lj는 워드넷DB의 최상위에서 b2까지의 거리이다.
  3. 어휘분석단계, 구문분석단계, 의미분석단계, 문장생성단계를 갖는 영한기계번역방법에 있어서,
    상기 영한번역에서 의미분석단계는,
    입력된 문장에서 동사와 목적어의 관계에서 최적화된 연어사전DB를 검색하여 목적어에 따른 동사의 의미가 가장 정확하게 전달될 수 있는 번역어를 선택하는 최적화된 연어사전DB 검색단계와;
    최적화된 연어사전DB에서 선택된 번역어로 문장을 생성하는 문장번역단계와;
    입력된 동사와 목적어에서, 상기 연어사전DB에 등록되지 않은 목적어가 입력된 경우, 입력된 목적어와 연어사전DB에서 동사의 하위 구조에 있는 목적어들과 의미거리계산 알고리즘을 이용하여 거리를 측정하고, 대역어인 거리가 가장 가까운 목적어를 k-최근점 알고리즘을 이용하여 선택하며, 대역어의 상위구조에 있는 동사번역어를 선택하여, 의미가 정확하게 전달될 수 있는 동사번역어를 선택하는 대역어선택단계를 가지는 영한기계번역 방법.
  4. 제3항에 있어서,
    상기 연어사전DB의 최적화 방법은, 말뭉치에서 동사-목적어 쌍추출단계 및 학습예제구성단계 및 학습예제에서 1차 최적화단계 및 학습예제에서 2차 최적화단계에 의하되,
    상기 말뭉치에서 동사-목적어 쌍추출단계는, 대량의 말뭉치로부터 파서를 이용하여 원하는 동사와 그 목적어의 쌍을 자동으로 추출하며;
    상기 학습예제구성단계에서 학습예제의 구성은 목적어와, 목적어의 의미를 나타내는 신셋과, 목적어의 출현빈도와, 해당 동사의 번역어로 구성되데, 목적어의 번역과 동사 번역은 수동으로 이루어지며;
    상기 학습예제에서 1차 최적화단계는, 초기학습예제에서 중복되는 예제를 삭제하며, 상기워드넷DB의 동일 경로상의 동사번역을 지닌 동일 경로상의 목적어 중 가장 상위에 위치하는 목적어와 목적어의 번역어만 남기고 삭제하며;
    상기 학습예제에서 2차 최적화단계는, 상기 1차 최적화 된 학습예제에서 특정단어를 제거하고 번역하여, 번역에서 오류가 가장 작은 예제부터 차례로 학습 예제에서 삭제하는 것을 특징으로 하는 영한기계번역 방법.
  5. 제4항에 있어서,
    상기 최적화된 연어사전DB의 제작단계에서 1차 최적화된계는 초기화 알고리즘, 유사도 계산알고리즘, 동일의미제거 알고리즘, 비경계예제 제거 알고리즘을 이용하며, 2차 최적화단계는 최소 오류예제 제거알고리즘을 이용하여 제작하는 것을 특징으로 하는 영한기계번역 방법.
  6. 제3항 내지 제5항 중 어느한 항에 있어서,
    상기 대역어 선택방법단계에서 의미거리는 하기의 수학식을 이용하여 측정하는 것을 특징으로 하는 영한기계번역 방법.
    여기서, b1과 b2는 워드넷DB상의 목적어의 의미와 거리의 개념을 가지는 신셋이고, M=radix/sfp이고, radix는 b1과 b2의 신셋이 중복되는 최하위의 값이고, p는 워드넷DB의 최상위에서 b1과 b2가 중복되는 최하위가지의 단계이며, li는 워드넷DB의 최상위에서 b1까지의 거리이며, lj는 워드넷DB의 최상위에서 b2까지의 거리이다.
  7. 제3항 내지 제5항 중 어느한 항에 있어서,
    최적화된 연어사전DB는 기존의 연어사전을 최적화하여 사용할 수 있는 것을 특징으로 하는 영한번역 방법.
KR1020000021360A 2000-04-21 2000-04-21 영한기계번역 시스템 및 방법 KR20010097365A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000021360A KR20010097365A (ko) 2000-04-21 2000-04-21 영한기계번역 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000021360A KR20010097365A (ko) 2000-04-21 2000-04-21 영한기계번역 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20010097365A true KR20010097365A (ko) 2001-11-08

Family

ID=19666237

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000021360A KR20010097365A (ko) 2000-04-21 2000-04-21 영한기계번역 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20010097365A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100377902B1 (ko) * 2000-05-25 2003-03-29 이근배 한국어 워드넷의 구축방법 및 이에 따라 구축된 한국어워드넷
KR100398344B1 (ko) * 2000-05-13 2003-09-19 주식회사 전유시스템 분해적 표현에 의한 순차 통역식 영한번역 시스템
WO2008070750A1 (en) * 2006-12-05 2008-06-12 Microsoft Corporation Web-based collocation error proofing
KR101023237B1 (ko) * 2008-11-03 2011-03-21 (주)이투오피에스 유비쿼터스 학습 지원 시스템 및 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100398344B1 (ko) * 2000-05-13 2003-09-19 주식회사 전유시스템 분해적 표현에 의한 순차 통역식 영한번역 시스템
KR100377902B1 (ko) * 2000-05-25 2003-03-29 이근배 한국어 워드넷의 구축방법 및 이에 따라 구축된 한국어워드넷
WO2008070750A1 (en) * 2006-12-05 2008-06-12 Microsoft Corporation Web-based collocation error proofing
US7774193B2 (en) 2006-12-05 2010-08-10 Microsoft Corporation Proofing of word collocation errors based on a comparison with collocations in a corpus
KR101023237B1 (ko) * 2008-11-03 2011-03-21 (주)이투오피에스 유비쿼터스 학습 지원 시스템 및 방법

Similar Documents

Publication Publication Date Title
Rigau et al. Combining unsupervised lexical knowledge methods for word sense disambiguation
Bakker et al. Creoles are typologically distinct from non-creoles
KR101799681B1 (ko) 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법
JP2016522524A (ja) 同義表現の探知及び関連コンテンツを検索する方法及び装置
Ahn et al. Natural language contents evaluation system for detecting fake news using deep learning
KR100481598B1 (ko) 복합 형태소 분석 장치 및 방법
Ahn et al. Question Answering with QED at TREC 2005.
JPH03276367A (ja) 用例主導型機械翻訳方法
Smadja et al. Translating collocations for use in bilingual lexicons
Dhomne et al. Accessing database using nlp
KR20010097365A (ko) 영한기계번역 시스템 및 방법
Kumar et al. A survey of machine translation approaches for Konkani to English
KR20030006201A (ko) 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템
KR20020036059A (ko) 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법
KR100376931B1 (ko) 정보 검색 기술을 이용한 한영번역 데이터베이스 시스템 구축 방법
Mussa et al. Word sense disambiguation on english translation of holy quran
KR20000056245A (ko) 예제기반 기계번역에서 분별성이 반영된 유사도를 이용한 번역예문 선정방법
Sierra et al. Extracting semantic clusters from MRDs for an onomasiological search dictionary
Bindu et al. Design and development of a named entity based question answering system for Malayalam language
Yahya et al. Enhancement tools for Arabic web search
KR950013129B1 (ko) 기계번역장치 및 방법
Le et al. Technical term similarity model for natural language based data retrieval in civil infrastructure projects
Bacha et al. Designing a model combination of Arabic, for use in Computer Assisted Teaching
Tseng et al. Character Jacobian: Modeling Chinese character meanings with deep learning model
Yahya et al. Enhancement tools for Arabic Web search: A statistical approach

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
NORF Unpaid initial registration fee