KR100574887B1 - 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법 - Google Patents

기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법 Download PDF

Info

Publication number
KR100574887B1
KR100574887B1 KR1019990068046A KR19990068046A KR100574887B1 KR 100574887 B1 KR100574887 B1 KR 100574887B1 KR 1019990068046 A KR1019990068046 A KR 1019990068046A KR 19990068046 A KR19990068046 A KR 19990068046A KR 100574887 B1 KR100574887 B1 KR 100574887B1
Authority
KR
South Korea
Prior art keywords
vocabulary
neutrality
lexical
information
semantic
Prior art date
Application number
KR1019990068046A
Other languages
English (en)
Other versions
KR20020003574A (ko
Inventor
이종혁
문경희
장두성
Original Assignee
주식회사 케이티
학교법인 포항공과대학교
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티, 학교법인 포항공과대학교 filed Critical 주식회사 케이티
Priority to KR1019990068046A priority Critical patent/KR100574887B1/ko
Publication of KR20020003574A publication Critical patent/KR20020003574A/ko
Application granted granted Critical
Publication of KR100574887B1 publication Critical patent/KR100574887B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야
본 발명은 기계 번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 관한 것임.
2. 발명이 해결하고자 하는 기술적 과제
본 발명은 기존의 일-한 번역 시스템을 이용하여 의미 태깅된 말뭉치를 자동으로 생성하여 구축하며, 이로부터 구문관계 패턴과 문맥정보를 어휘 및 개념 표현 형태로 각각 추출하여 기계번역시 어휘 중의성을 해소하기 위한, 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 그 목적이 있음.
3. 발명의 해결 방법의 요지
본 발명은 기계번역 시스템에 적용되는 어휘 중의성 해소 장치에 있어서, 일-한 기계번역 시스템을 이용하여 자동으로 의미 태깅된 말뭉치를 생성하기 위한 말뭉치 생성 수단; 의미 태깅된 상기 말뭉치로부터 어휘표현과 개념표현 형태로 각각 구문관계패턴과 문맥 정보를 추출하기 위한 추출 수단; 상기 구문관계 패턴과 문맥 정보를 어휘와 개념 형태로 추출하여 이를 처리하기 위한 처리 수단; 상기 처리 수단에서 처리된 공기정보와 담화적 의미제약 정보를 이용하여 어휘 중의성을 해소하기 위한 어휘 중의성 해소 수단; 및 상기 어휘 중의성 해소 수단에서 어휘 중의성이 해소된 결과인 담화적 의미제약 정보에 대한 데이터베이스를 구축하고 필요한 경우 상기 어휘 중의성 해소 수단에 상기 담화적 의미제약 정보를 제공하기 위한 데이터베이스 구축 수단을 포함함.
4. 발명의 중요한 용도
본 발명은 한-일 기계번역 시스템 등에 이용됨.
중의성 해소, 말뭉치, 구문 관계 패턴, 문맥 정보, 기계 번역

Description

기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법{Apparatus And Method For Word Sense Disambiguation In Machine Translation System}
도 1 은 본 발명에 따른 명사 중의성 해소 장치의 일실시예 구성도.
도 2 는 본 발명에 따른 명사 중의성 해소 장치에서의 명사 중의성 해소 방법의 일실시예 흐름도.
도 3 은 본 발명이 적용되는 가도까와 시소러스 개념 계층의 일예시도.
도 4 는 본 발명이 적용되는 명사 중의성 해소를 위해 의미 태깅된 말뭉치에서 추출될 구문관계패턴을 나타내는 일실시예 도표.
도 5 는 본 발명이 적용되는 중의성 명사 "눈"에 대한 구문관계패턴과 문맥정보를 말뭉치로부터 추출한 일예시도.
도 6 은 본 발명이 적용되는 명사의 한 의미와 공기하는 개념정보와 빈도 관계를 나타내는 히스토그램의 일예시도.
도 7 은 본 발명이 적용되는 개념 계층 구조에 기반한 개념 유사도를 계산하여 트리로 나타낸 일예시도.
도 8 은 본 발명에 따른 의미 태깅된 말뭉치에서 자동으로 추출된 공기 정보들을 이용하여 명사 중의성을 해소하는 방법의 일실시예 흐름도.
본 발명은 기계 번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 관한 것이다.
어휘 중의성 해소를 위한 기존 연구들은 그 이용하는 지식원에 따라 크게 규칙 기반 방법(Rule-based approach), 기계 가독형 사전(Machine Readable Dictionary, MRD)을 이용하는 방법(MRD-based approach), 말뭉치를 이용하는 방법(Corpus-based approach)으로 분류할 수 있다.
규칙 기반 방법은 단어 의미 중의성 해결에 필요한 지식을 수작업을 통해서 구축하고 이를 이용하여 단어 의미 중의성을 해결하는 방법이다. 그러나, 이러한 규칙 기반 방법들은 수작업을 통한 규칙 생성의 노력 때문에 어휘 중의성 해소를 위한 지식의 획득에 어려움을 겪게 된다. 또한, 수작업에 의한 규칙 생성을 한다고 할지라도 한-일 기계번역에서 동사나, 조사, 어미 등은 일부 규칙에 의해 어느 정도 규칙을 생성할 수 있으나, 명사의 중의성 해소를 위한 규칙은 매우 복잡하여 수작업에 의존하기 힘들다는 문제점이 있다..
기계 가독형 사전을 이용하는 방법은 어휘 중의성을 해결하고자 하는 단어의 사전에서의 정의나 기술, 주제 코드를 이용하는 방법이다. 그러나, 이러한 방법들은 사전의 정의나 기술에서 사용되는 어휘가 제한적이기 때문에 무제한의 어휘를 갖는 실제 문장에 적용하는 데에는 한계를 갖는다. 그리고, 이 방법이 높은 정확성을 갖기 위해서는 적용되는 도메인에 따라서 잘 정의된 사전의 구축이 필요하다는 문제점이 있다.
말뭉치를 이용하는 방법은 크게 사용하는 말뭉치의 성질에 따라서 비교사 학습(Unsupervised learning) 방법과 교사 학습(Supervised learning) 방법으로 구분할 수 있다. 비교사 학습 방법은 의미 태깅되지 않은 말뭉치를 이용하기 때문에 말뭉치 수집이 용이하지만, 의미를 결정하기 위하여 말뭉치로부터 획득된 주변의 공기 단어들의 의미 제약이 약하다. 교사 학습은 의미 태깅된 말뭉치를 학습 데이터로 이용하므로 의미 분별력은 훨씬 좋아지지만, 이러한 말뭉치를 획득하기가 쉽지 않다. 몇몇 기존 연구에서는 수작업에 의해 의미 태깅된 말뭉치를 구축하여 이용하고 있으나, 이를 위해서는 많은 인력이 필요하며 구축할 수 있는 양 또한 제한적일 수 밖에 없다. 또한, 추출된 지식을 개념이 아닌 실제 어휘로 저장하고 있기 때문에 지식의 저장공간이 크고 적용률이 저하된다는 문제점이 있다.
본 발명은 상기 문제점을 해결하기 위하여 안출된 것으로, 기존의 일-한 번역 시스템을 이용하여 의미 태깅된 말뭉치를 자동으로 생성하여 구축하며, 이로부터 구문관계 패턴과 문맥정보를 어휘와 개념 형태로 각각 추출하여 기계번역시 어휘 중의성을 해소하기 위한, 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기 록 매체를 제공하는데 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명은, 기계번역 시스템에 적용되는 어휘 중의성 해소 장치에 있어서, 일-한 기계번역 시스템을 이용하여 자동으로 의미 태깅된 말뭉치를 생성하기 위한 말뭉치 생성 수단; 의미 태깅된 상기 말뭉치로부터 어휘표현과 개념표현 형태로 각각 구문관계패턴과 문맥 정보를 추출하기 위한 추출 수단; 상기 구문관계 패턴과 문맥 정보를 어휘와 개념 형태로 추출하여 이를 처리하기 위한 처리 수단; 상기 처리 수단에서 처리된 공기정보와 담화적 의미제약 정보를 이용하여 어휘 중의성을 해소하기 위한 어휘 중의성 해소 수단; 및 상기 어휘 중의성 해소 수단에서 어휘 중의성이 해소된 결과인 담화적 의미제약 정보에 대한 데이터베이스를 구축하고 필요한 경우 상기 어휘 중의성 해소 수단에 상기 담화적 의미제약 정보를 제공하기 위한 데이터베이스 구축 수단을 포함한다.
또한, 본 발명은 기계번역 시스템에 적용되는 어휘 중의성 해소 방법에 있어서, 일-한 기계번역 시스템을 이용하여 자동으로 의미 태깅된 말뭉치를 생성하는 제 1 단계; 의미 태깅된 상기 말뭉치로부터 어휘와 개념 표현 형태로 각각 구문관계패턴과 문맥 정보를 추출하는 제 2 단계; 상기 구문관계 패턴과 문맥 정보를 추출하여 이를 처리하는 제 3 단계; 상기 제 3 단계에서 어휘 및 개념 형태로 처리된 공기정보와 담화적 의미제약 정보를 이용하여 어휘 중의성을 해소하는 제 4 단계; 및 상기 제 4 단계에서 어휘 중의성이 해소된 결과를 담화적 의미제약 데이터베이 스에 저장하는 제 5 단계를 포함한다.
또한, 본 발명은 어휘 중의성 해소를 위하여, 대용량 프로세서를 구비한 기계번역 시스템에, 일-한 기계번역 시스템을 이용하여 자동으로 의미 태깅된 말뭉치를 생성하는 제 1 기능; 의미 태깅된 상기 말뭉치로부터 어휘와 개념 표현 형태로 각각 구문관계패턴과 문맥 정보를 추출하는 제 2 기능; 상기 구문관계 패턴과 문맥 정보를 추출하여 이를 처리하는 제 3 기능; 상기 제 3 단계에서 어휘 및 개념 형태로 처리된 공기정보와 담화적 의미제약 정보를 이용하여 어휘 중의성을 해소하는 제 4 기능; 및 상기 제 4 단계에서 어휘 중의성이 해소된 결과를 담화적 의미제약 데이터베이스에 저장하는 제 5 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 포함한다.
어휘 중의성 해소는 기계번역 시스템 개발시 중요하게 다루어져야 할 문제 중의 하나이다. 특히, 표음어인 한국어를 원시언어로 하는 한-일 기계번역 시스템에서는 많은 중의성 어휘가 존재한다.
어휘 중의성은 주로 명사, 동사, 조사, 어미 등에서 발생하나, 동사, 조사, 어미 등은 중의성 해소를 위한 선택제약 정보를 어느 정도 수작업에 의해 기술할 수 있는 반면, 명사는 선택제약 등 이용할 수 있는 어휘지식이 미약하기 때문에 어휘 중의성 해소에 많은 어려움이 있다.
따라서, 본 발명에서는 기존의 일-한 번역 시스템을 이용하여 의미 태깅된 말뭉치를 자동으로 생성하고, 이로부터 구문관계패턴과 문맥정보를 어휘와 개념 형태로 각각 추출하여 통계/일반화 처리한 공기 정보와 담화 레벨에서 의미 중의성 해소한 결과를 저장한 담화적 의미제약 정보를 이용하여 한-일 기계번역시 명사 중의성 해소에 이용하는 방법을 제안한다.
이하, 도 1 내지 도 8 을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 본 발명에 따른 명사 중의성 해소 장치의 일실시예 구성도이며, 도 2 는 본 발명에 따른 명사 중의성 해소 장치에서의 명사 중의성 해소 방법의 일실시예 흐름도이고, 도 3 은 본 발명이 적용되는 가도까와 시소러스 개념 계층의 일예시도이다. 또한, 도 4 는 본 발명이 적용되는 명사 중의성 해소를 위해 의미 태깅된 말뭉치에서 추출될 구문관계패턴을 나타내는 일실시예 도표이며, 도 5 는 본 발명이 적용되는 중의성 명사 "눈"에 대한 구문관계패턴과 문맥정보를 말뭉치로부터 추출한 일예시도이고, 도 6 은 본 발명이 적용되는 명사의 한 의미와 공기하는 개념정보와 빈도 관계를 나타내는 히스토그램의 일예시도이다. 또한, 도 7 은 본 발명이 적용되는 개념 계층 구조에 기반한 개념 유사도를 계산하여 트리로 나타낸 일예시도이며, 도 8 은 본 발명에 따른 의미 태깅된 말뭉치에서 자동으로 추출된 공기 정보들을 이용하여 명사 중의성을 해소하는 방법의 일실시예 흐름도이다.
즉, 도 1 에 도시된 바와 같이 한-일 기계번역 시스템 내의 명사 중의성 해소를 위한 명사 중의성 해소 장치는, 번역하고자 하는 문장을 입력하기 위한 입력부(101), 일-한 기계번역 시스템(COBALT-J/K)을 이용하여 자동으로 의미 태깅된 말뭉치를 생성하는 말뭉치 생성부(102), 의미 태깅된 말뭉치로부터 구문관계패턴과 문맥 정보를 추출하는 추출부(103), 구문 관계 패턴과 문맥 정보를 어휘와 개념 형 태로 추출하여 이를 통계/일반화 처리하는 처리부(104), 통계/일반화 처리된 공기정보와 담화적 의미 제약을 이용하여 한-일 기계번역 시스템에서 명사 중의성을 해소하는 명사 중의성 해소부(105), 명사 중의성 해소된 결과를 일정 담화 길이 동안 데이터베이스에 저장하여 다른 문장에서 그 명사가 나타날 때, 중의성 해소에 도움을 주기 위한 담화적 의미 제약 데이터베이스 구축부(106) 및 그 결과를 출력하는 출력부(107)를 포함한다. 여기서 명사 중의성 해소부와 담화적 의미제약 데이터베이스 구축부는 서로 상호작용하며 수행된다. 이하, 각 구성의 기능을 상세히 설명하면 다음과 같다.
우선, 말뭉치 생성부(102)는 일-한 기계 번역 시스템(COBALT-J/K: Collocation-Based Language Translator from Japanese to Korean)(이하, 간단히 "COBALT-J/K"라 함)을 이용하여 학습 자료로 사용될 의미 구분된 한국어 말뭉치를 생성한다(201).
한국어와 일본어는 언어 계통상 알타이 어족에 속하는 동족 언어로 동일 한자 문화권에 속하며 문법 체계가 비슷하고 언어 유형론적인 측면에서도 많은 유사성을 가지고 있다. COBALT-J/K는 이러한 언어적 유사성을 최대한 이용한 직접 번역 방식만을 채택하더라도 고품질의 번역 성능을 보여주고 있다.
따라서, 본 발명에서는 의미 태깅된 말뭉치를 생성하기 위하여 COBALT-J/K가 번역을 수행할 때 내부적으로 다의성을 해소하기 위해서 사용하는 가도까와 시소러스의 코드들을 번역된 한국어 어휘 뒤에 태깅하여 번역문을 생성하도록 함으로써 의미 태깅된 한국어 말뭉치를 자동으로 생성하였다. 따라서, 말뭉치에 같은 어휘가 나타날지라도 뒤에 태깅된 의미 코드에 따라 다른 의미임을 구별할 수 있다.
가도까와 시소러스는 도 3 에서 보는 바와 같이 4계층 구조를 가지고 있고, L1계층부터 L100계층까지의 각 계층의 개념은 10개의 하위 개념으로 분류되며, 각각의 개념은 중복되지 않는 숫자로 코딩된다. 한국어 어휘들은 4번째 계층인 L1000계층의 개념코드로 의미 태깅된다.
다음으로 추출부(103)는 의미 태깅된 말뭉치로부터 구문관계패턴과 문맥 정보를 추출한다(202).
중의성 명사와 의미적 제약을 가지는 공기정보들은 일정한 구문관계를 가지고 한 문장 속에 출현하기도 하고 특정 구문관계를 갖지 않지만 의미적으로 제약을 주는 것도 있다.
따라서, 본 발명에서는 공기 개념정보(Conceputal Co-occurrence Information, CCI)로서 개념으로 표현된 구문관계패턴(Local Syntactic Pattern, LSP)(501)과 일정한 구문관계를 갖지 않지만 의미제약을 주는 문맥정보(Unordered Co-occuring Words, UCW)(502)를 말뭉치로부터 추출하여 사용하였다.
구문관계패턴(501)은 한국어 말뭉치에서 조사의 분포를 고려하여 명사가 다른 명사나 용언과 수식 또는 피수식의 관계 등으로 사용되는 표현들을 어순, 구문 관계, 품사, 형태적 특성을 반영하여 중요도에 따라 구분 정리한 상위 10개의 구문관계패턴(Local Syntactic Pattern, LSP)들이며, 이를 도 4 에 나타내었다.
이들 수식 관계 쌍들은 의미적으로 빈번히 공기하면서 서로 강한 의미적인 제약을 가진다. 또한, 문장에서 구문의존관계와 상관없이 중의성 단어와 같이 자주 나타나는 단어들을 말뭉치로부터 추출하여 문맥정보로 정의하였다. 이러한 단어들은 비록 중의성 단어와 구문관계는 존재하지 않지만 의미해소에 도움을 줄 수 있는 어휘들이다.
구문관계패턴과 문맥정보는 도 5 에 도시된 바와 같이 어휘 표현 형태와 개념 표현 형태 2가지로 추출하였다. 어휘표현 형태는 명사 중의성 해소를 위하여 보다 정확한 정보가 될 수 있는 반면 말뭉치에서 각 어휘가 나타나는 평균 빈도수가 매우 낮으며, 말뭉치에 나타나지 않는 어휘도 다수 존재하게 된다.
그러나, 개념표현 형태는 어휘표현 보다는 정확도가 낮지만 1,000개의 개념만으로 표현하므로 평균 빈도수가 높고 말뭉치에 나타나지 않는 어휘도 대신할 수 있는 장점을 가지므로 두 가지 정보의 상호 보완을 위하여 어휘와 개념 표현 형태 2가지로 공기 정보를 추출하여 이용한다.
COBALT-J/K에 의해 생성된 의미 태깅된 말뭉치에는 일-한 사전에 나타나지 않은 한국어는 절대 나타나지 않게 된다. 따라서, 특정 의미에 대해서는 공기 정보를 얻지 못하는 결과를 초래하게 된다.
예를 들어, 일-한 사전에 "芽"의 대역어가 "(가지의)눈"이 아니라 "싹"으로 등록이 되어 있다면 COBALT-J/K에 의해 생성된 의미 태깅된 말뭉치에는 "bud"의 의미를 갖는 "눈"이라는 어휘는 존재하지 않는다. 따라서, "눈"의 의미 중의성 해소를 위해 의미 태깅된 말뭉치에서 구문관계패턴이나 문맥정보 등의 공기 정보를 수집할 때, "bud" 의미의 공기 정보는 획득할 수 없는 단점을 가지고 있다.
따라서, 이러한 문제점을 해결하기 위하여 유의어 사전을 이용하면 해결할 수 있다. 의미 태깅된 말뭉치에는 "bud"의 의미를 가지는 "눈"이라는 어휘는 존재하지 않지만 "싹"이라는 어휘는 존재한다. 따라서, "bud"의 의미를 가지는 "눈"의 공기 정보를 추출하고자 할 때 "눈"과 "싹"이 유의어라는 정보를 가지고 있는 유의어 사전을 이용하여 "눈" 대신 "싹"의 공기정보를 추출하면 일-한 번역 시스템을 이용함으로써 발생하는 단점을 최소화할 수 있다.
도 5 는 중의성 단어 "눈"에 대한 어휘 및 개념 표현의 구문관계패턴과 문맥정보를 의미 태깅된 말뭉치로부터 추출한 예이다.
일반화 처리부(104)는 구문 관계 패턴과 문맥 정보를 추출하여 이를 통계/일반화 처리한다(203). 어휘 표현 형태로 추출된 구문 관계 패턴과 문맥 정보는 통계 처리만을 거치며, 개념 표현 형태로 추출된 구문 관계 패턴과 문맥 정보는 통계/일반화 처리를 거친다.
추출된 구문관계패턴과 문맥정보는 해당 명사의 여러 의미에 공기될 수 있으므로 각 의미에 대한 변별력을 구하여 높은 변별력을 가진 정보만을 사용할 필요가 있다.
다음은 개념 표현을 예로 들어 의미 분별력을 결정하는 과정을 설명한다.
어휘 W의 두 가지 의미 S1, S2 에 대하여 S1과 공기하는 개념과 개수는 {C1(2), C2(10), C5(23)}이고, S2와 공기하는 개념과 개수는 {C1(20), C3(4), C4(12)}이라고 가정할 때, 개념 C1은 의미 S1과 S2의 공기정보에 모두 존재한다. 그러나 C1은 S2와의 공기빈도가 크기 때문에 S2의 의미결정에 크게 기여한다. 따라 서, 개념의 변별 과정을 거쳐 C1을 S2의 공기정보에 속하게 한다.
본 발명에서는 샤논(Shannon)의 정보 이론에 기반한 분류 정보를 이용하여 중의성 단어에 대한 개념들의 변별력을 구하는 [수학식 1]과 [수학식 2]를 사용하였다. 개념 Ck가 한 단어의 여러 의미와 공기하는 경우, 그 중에서 DSk 값이 일정한 임계치보다 큰 의미 Si를 선택하여 공기하게 함으로써 변별성이 있는 개념만을 사용할 수 있도록 하는 것이다.
Figure 111999019120722-pat00001
Figure 111999019120722-pat00002
이와 같이 개념의 통계 처리 과정을 거쳐 중의성 어휘에 대한 구문관계패턴과 문맥정보에는 패턴간의 중복된 개념들이 어휘 중의성 해소 중요도에 따라 선별 및 분리되었다. 이러한 통계처리 방법은 어휘표현 공기정보에도 같은 방식으로 적용된다.
앞에서 언급한 바와 같이 일본어 말뭉치의 번역문인 의미 태깅된 한국어 말뭉치에는 어휘들이 가도까와 시소러스의 L1000계층의 의미코드로 표현된다. 따라서 정리된 개념정보에는 한 패턴안에 많으면 1000개의 개념이 존재할 수 있으므로, 이중에서 중의성 해소에 기여도가 가장 높은 대표적인 개념들을 추출하여 효율적인 지식원으로 사용하는 것이 필요하다. 즉, 도 6 은 구문관계패턴의 개념코드와 출현빈도의 관계를 히스토그램(Histogram)으로 표현한 것이다.
개념 코드 '514'처럼 공기빈도가 높은 개념들은 L1000계층의 코드 그대로 사용하고, 비교적 적게 나타나지만 코드 '855' 주변에 가까이 있는 밀집한 공기 개념들에 대해서는 L1000계층의 상위 계층 L100의 코드로 표현한다. 공기 빈도가 높은 개념들은 중의성 어휘의 의미결정에 크게 영향을 미칠 수 있기 때문이다. 도 5 의 코드 '514'와 같은 빈도수가 높은 개념들을 선택한 후, 그 코드를 제거하면 개념코드 '500'에서 '600'사이에 남는 개념들 역시 밀집한 공기 개념들을 구성한다. 이러한 개념들에 대해서도 개념과 출현빈도관계를 L100의 코드로 표현하고 지식을 추출한다. 이러한 과정을 본 발명에서는 개념의 필터링(filtering)을 위한 일반화 과정으로 정의한다.
일반화를 위하여 본 발명에서는 개념계층에서의 출현빈도 분포에 관한 표준편차
Figure 111999019120722-pat00003
, 그리고 출현빈도의 상대적 크기를 나타내는
Figure 111999019120722-pat00004
을 사용한다.
Figure 111999019120722-pat00005
Figure 111999019120722-pat00006
상기 [수학식 3] 및 [수학식 4]에서
Figure 111999019120722-pat00007
은 개념
Figure 111999019120722-pat00008
의 가도까와 시소러스 계층에서의 출현빈도를 표현하고,
Figure 111999019120722-pat00009
은 전체개념(즉,
Figure 111999019120722-pat00010
에서의 1000개 개념)의 평균 출현빈도를 나타내고,
Figure 111999019120722-pat00011
은 개념 계층
Figure 111999019120722-pat00012
에서의 개념노드의 개수이다.
위의 수식을 이용하여 일반화하는 과정은 다음과 같다. 우선 중의성 단어 W의 의미 Si에 관한 공기패턴의 개념들의 출현빈도
Figure 111999019120722-pat00013
를 [수학식 3]을 이용하여 분포모양을 분석한다.
만약, 표준편차의 값이 사전(previously)에 정의한 임계치(threshold)
Figure 111999019120722-pat00014
보다 크면 공기 개념의 분포에 정점 코드가 존재한다고 판정하고, [수학식 4]를 이용하여 그 정점 코드의 빈도의 상대 크기
Figure 111999019120722-pat00015
를 임계치
Figure 111999019120722-pat00016
와 비교하여 이보다 크면 해당 코드를 선택하고, 선택된 그 개념의 빈도는 0으로 지정하여 상위 계층의 처리과정에서 다시 고려하지 않는다.
다음으로는 개념 계층 Ll에서 일반화되지 못한 나머지의 값들을 이용하여 상위 계층에서 일반화를 시도한다. 예를 들면, 계층 L1000에서 일반화 과정을 거친후 상위 계층인 L100 에서 고찰하기 위하여, L1000의 개념 코드 '100'부터 '109'까지의 유사한 개념의 빈도를 합산하여 상위 개념인 '10'의 출현 빈도로 지정하게 된다.
개념의 일반화를 통해 최종 추출된 구문관계패턴은 ({'n028', 'n419', 'n501', 'n504', 'n507', 'n508', 'n538', 'n50'}, type2, "눈"(eye))과 같은 형태로 얻어질 수 있다. 이러한 정보는 다음 절에서 서술할 어휘 중의성 해소 알고리즘에서 사용된다.
명사 중의성 해소부(105)는 어휘와 개념 형태의 통계/일반화 처리된 공기정보와 담화적 의미제약 정보를 이용하여 한-일 기계번역 시스템에서 명사 중의성을 해소한다(204).
본 발명이 적용되는 한-일 기계번역 시스템에서 명사 중의성 해소는 동사의 선택제약, 명사의 구문관계패턴, 문맥정보 및 담화적 의미제약 정보, 어휘출현 빈도 등 지식들을 사용한다. 동사의 선택제약은 한-일 번역기 개발과정에서 중의성 동사에 대해 수작업으로 작성된 공기패턴이다. 담화적 의미제약 정보는 명사의 중의성 해소를 수행하면서 동사의 선택제약이나, 구문관계패턴정보, 문맥정보에 의해 의미가 확실히 결정이 된 경우 그 어휘와 결정된 의미를 담화적 의미제약 데이터베이스에 저장한 정보이다.
이는 현재 중의성 어휘가 나타난 문장에는 의미 중의성 해소를 할 수 있는 충분한 공기정보가 주어지지 않더라도 이 문장의 근처에서 이 어휘에 주어졌던 의미로 다시 쓰였을 가능성이 높다는 지역성의 원리에 근거하여 의미제약을 주기 위한 정보이다. 따라서, 이 담화적 의미 제약 데이터베이스는 현재 문장 이전에 나타난 일정한 윈도우 크기만큼의 문장들에서 나타났던 중의성 어휘와 결정된 의미를 저장하고 있다.
명사 W에 대한 위에 언급한 지식을 이용한 중의성 해소 알고리즘은 후술되는 [수학식 5] 내지 [수학식 8] 등을 통하여 구현된다. 여기에서 S(W)는 중의성 명사 W의 의미 집합이며, P(V)는 W와 입력 문장에서 같이 나타나는 동사 V에서 중의성 명사 W에 가하는 의미 제약의 집합이고, LSP(W)는 구문관계패턴 정보를, 그리고 USW(W)는 W의 문맥정보를 표현한다.
Ci와 Pj는 개념 유형을 표현하고, Sk 는 W의 k번째 의미를 뜻한다. [수학식 8]의 Csim(Ci,Pj)는 가도까와 시소러스에 기반한 개념 Ci 와 Pj사이의 유사도를 계산하는 수식이다. [수학식 8]에서 weight는 개념의 가중치를 표현함으로, 유사도 계산시 개념 Ci의 부모(parent)개념이 형제(sibling) 개념보다 유사한 특징을 더 많이 가지고 있으며, 이러한 관계를 중요시 한다는 것을 뜻한다. 개념 Ci가 Pj의 시소러스상의 하위 개념이면 가중치(weight)를 1로 지정하고, 그렇지 않으면 0.5의 값을 지정함으로서 유사도 값을 감소시킨다. [수학식 8]의 최대 공통 상위 개념(MSCA:Most Specific Common Ancestor)은 두 개념이 공유하고 있는 가장 가까 운 상위 개념을 가리킨다.
이러한 관계를 반영하여 개념간의 유사도를 계산하면 도 7 에서 표현한 것과 같다. 개념 Ci와 개념 P1, P2, P3간의 유사도는 모두 0.3보다 크고, P4 및 기타 개념간의 유사도는 0.3보다 작다. 이러한 특성을 고려하여 명사 중의성 알고리즘의 실행에 필요한 임계치를 0.3으로 결정한다.
중의성 단어 W에 대하여 의미 결정 과정은 도 8 과 같다. 의미 결정을 위하여 상기의 공기정보들을 중요도에 따라 8단계로 순차적으로 적용하고 각 단계에서 의미 중의성 해소 조건을 만족하면 그 단계에서 의미를 결정해 버린다.
먼저, 공기하는 동사로부터의 선택제약을 적용하여 만족도 Vsim(S(W),SR(V))을 계산한다(801).
계산 값이 임계치 값 0.3보다 크면 W의 의미를 이 단계에서 결정한다(802,804).
계산값이 임계치 값보다 작으면 W의 어휘표현 형태의 구문관계패턴들과 입력 문장을 비교한다. 이 때, 입력 문장에 구문관계패턴을 만족하는 구문관계의 어휘가 존재하면 이 단계에서 의미를 결정한다(803,805,806).
어휘표현 구문관계패턴에서 매칭이 일어나지 않으면 어휘표현 문맥정보와의 매칭을 시도한다. 마찬가지로 여기서 어휘의 직접 매칭이 일어나면 의미를 결정한다(807,808,809).
어휘표현 문맥정보에서도 매칭이 일어나지 않으면 W의 개념표현 구문관계패턴을 적용하여 지역정보 만족도 Lsim(S(W),LCP(W))를 계산하고(810), 임계치 0.3보 다 크면 W의 의미를 이 단계에서 결정한다(812).
임계치보다 크지 않으면(811), 다음으로 개념표현 문맥정보를 적용하여 유사도 Ssim(S(W),USW(W))를 계산하고(813) 임계치 0.3과의 비교를 거쳐 의미를 결정한다(814,815).
위의 지식들을 적용해도 W의 의미를 결정하지 못할 때에는 담화적 의미제약 데이터베이스에서 해당 중의성 명사를 검색하여 존재하면 저장된 의미로 의미를 결정하고(816,817,818) 그렇지 않으면, W의 말뭉치에서의 의미 사용 빈도가 큰 것을 선택한다(819). 본 발명에서는 임계치 값들을 도 5 에서 나타낸 개념간의 유사도 관계를 기반하여 0.3으로 정하였다.
즉, 개념간에 최상위 계층 Li의 개념을 제외한 개념 중에서 최하위 계층의 친 형제 또는 직속 친족의 관계가 없으면 유사하지 않고 의미제약이 없다고 간주한다. 즉, 도 6 에서 Ci에 대해 P1, P2, P3에 해당하는 의미코드가 임계치 이상의 유사도를 갖는 것으로 간주한다.
다음 수식에서 'n'은 어휘 W의 의미 개수이고, 'm'은 문장에서 동사 V의 W의 격에 해당하는 선택제약의 개념코드 개수이고, 'w'는 의미 Sk의 j번째 구문관계패턴의 개념코드 개수이고, 'r'은 의미 Sk의 문맥정보의 개념코드 개수이다.
Figure 111999019120722-pat00017
Figure 111999019120722-pat00018
Figure 111999019120722-pat00019
Figure 111999019120722-pat00020
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.
상기와 같은 본 발명은 한-일 기계번역에서 명사의 중의성 해소 문제를 해결함으로써 보다 고품질의 번역 성능을 기대할 수 있는 우수한 효과가 있다.

Claims (9)

  1. 기계번역 시스템에 적용되는 어휘 중의성 해소 장치에 있어서,
    일-한 기계번역 시스템을 이용하여 자동으로 의미 태깅된 말뭉치를 생성하기 위한 말뭉치 생성 수단;
    의미 태깅된 상기 말뭉치로부터 어휘표현과 개념표현 형태로 각각 구문관계패턴과 문맥 정보를 추출하기 위한 추출 수단;
    상기 구문관계 패턴과 문맥 정보를 어휘와 개념 형태로 추출하여 이를 처리하기 위한 처리 수단;
    상기 처리 수단에서 처리된 공기정보와 담화적 의미제약 정보를 이용하여 어휘 중의성을 해소하기 위한 어휘 중의성 해소 수단; 및
    상기 어휘 중의성 해소 수단에서 어휘 중의성이 해소된 결과인 담화적 의미제약 정보에 대한 데이터베이스를 구축하고 필요한 경우 상기 어휘 중의성 해소 수단에 상기 담화적 의미제약 정보를 제공하기 위한 데이터베이스 구축 수단
    을 포함하는 어휘 중의성 해소 장치.
  2. 제 1 항에 있어서.
    상기 말뭉치 생성 수단에서 말뭉치에 같은 어휘가 나타나더라도 뒤에 태깅된 의미 코드에 따라 다른 의미로 구별되는 것을 특징으로 하는 어휘 중의성 해소 장 치.
  3. 제 1 항에 있어서,
    상기 처리 수단은,
    상기 구문관계 패턴과 문맥 정보를 어휘와 개념 형태로 추출하여, 통계 처리과정을 거쳐 어휘 중의성 해소의 중요도에 따라 선별 및 분리하기 위한 통계 처리 수단; 및
    상기 개념에 대한 일반화를 수행하기 위한 일반화 처리 수단
    을 포함하는 어휘 중의성 해소 장치.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 어휘 중의성 해소 수단의 상기 공기정보는, 동사의 선택제약, 명사의 구문 관계패턴, 문맥정보, 담화적 의미제약 정보, 어휘출현 빈도를 포함하는 것을 특징으로 하는 어휘 중의성 해소 장치.
  5. 기계번역 시스템에 적용되는 어휘 중의성 해소 방법에 있어서,
    일-한 기계번역 시스템을 이용하여 자동으로 의미 태깅된 말뭉치를 생성하는 제 1 단계;
    의미 태깅된 상기 말뭉치로부터 어휘와 개념 표현 형태로 각각 구문관계패턴과 문맥 정보를 추출하는 제 2 단계;
    상기 구문관계 패턴과 문맥 정보를 추출하여 이를 처리하는 제 3 단계;
    상기 제 3 단계에서 어휘 및 개념 형태로 처리된 공기정보와 담화적 의미제약 정보를 이용하여 어휘 중의성을 해소하는 제 4 단계; 및
    상기 제 4 단계에서 어휘 중의성이 해소된 결과를 담화적 의미제약 데이터베이스에 저장하는 제 5 단계
    를 포함하는 어휘 중의성 해소 방법.
  6. 제 5 항에 있어서,
    상기 제 1 단계의 상기 말뭉치에 같은 어휘가 나타나더라도 뒤에 태깅된 의미 코드에 따라 다른 의미로 구별되는 것을 특징으로 하는 어휘 중의성 해소 방법.
  7. 제 5 항에 있어서,
    상기 제 3 단계는,
    상기 구문관계 패턴과 문맥 정보를 어휘와 개념 형태로 추출하여, 통계 처리과정을 거쳐 상기 개념을 어휘 중의성 해소의 중요도에 따라 선별 및 분리하는 제 5 단계; 및
    상기 개념에 대한 일반화를 수행하는 제 6 단계
    를 포함하는 어휘 중의성 해소 방법.
  8. 제 5 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 제 4 단계의 상기 공기정보는 동사의 선택제약, 명사의 구문 관계패턴, 문맥정보, 담화적 의미제약 정보, 어휘출현 빈도를 포함하는 것을 특징으로 하는 어휘 중의성 해소 방법.
  9. 어휘 중의성 해소를 위하여, 대용량 프로세서를 구비한 기계번역 시스템에,
    일-한 기계번역 시스템을 이용하여 자동으로 의미 태깅된 말뭉치를 생성하는 제 1 기능;
    의미 태깅된 상기 말뭉치로부터 어휘와 개념 표현 형태로 각각 구문관계패턴과 문맥 정보를 추출하는 제 2 기능;
    상기 구문관계 패턴과 문맥 정보를 추출하여 이를 처리하는 제 3 기능;
    상기 제 3 단계에서 어휘 및 개념 형태로 처리된 공기정보와 담화적 의미제약 정보를 이용하여 어휘 중의성을 해소하는 제 4 기능; 및
    상기 제 4 단계에서 어휘 중의성이 해소된 결과를 담화적 의미제약 데이터베 이스에 저장하는 제 5 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1019990068046A 1999-12-31 1999-12-31 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법 KR100574887B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990068046A KR100574887B1 (ko) 1999-12-31 1999-12-31 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990068046A KR100574887B1 (ko) 1999-12-31 1999-12-31 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20020003574A KR20020003574A (ko) 2002-01-15
KR100574887B1 true KR100574887B1 (ko) 2006-04-27

Family

ID=19635134

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990068046A KR100574887B1 (ko) 1999-12-31 1999-12-31 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100574887B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100397879B1 (ko) * 2000-03-31 2003-09-13 김시환 의미를 갖는 단어코드를 이용한 작업처리시스템 및 그 방법
KR100397639B1 (ko) * 2000-08-29 2003-09-13 우요섭 어휘의 중의성 해소를 위한 의미 태깅 장치 및 그 방법
KR100560168B1 (ko) * 2003-12-24 2006-03-13 한국전자통신연구원 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템및 그 방법
KR100956794B1 (ko) 2008-08-28 2010-05-11 한국전자통신연구원 다단계 용언구 패턴을 적용한 번역장치와 이를 위한적용방법 및 추출방법

Also Published As

Publication number Publication date
KR20020003574A (ko) 2002-01-15

Similar Documents

Publication Publication Date Title
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
KR101031970B1 (ko) 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN106776562A (zh) 一种关键词提取方法和提取系统
Konstas et al. Inducing document plans for concept-to-text generation
CN110609983B (zh) 一种政策文件结构化分解方法
Gupta et al. A survey of common stemming techniques and existing stemmers for indian languages
CN110502744B (zh) 一种针对历史公园评价的文本情感识别方法及装置
CN110069636B (zh) 融合依存关系与篇章修辞关系的事件时序关系识别方法
US11170169B2 (en) System and method for language-independent contextual embedding
CN113168499A (zh) 检索专利文档的方法
CN109408628B (zh) 一种解析句子语义结构的方法及相关设备
CN107247613A (zh) 语句解析方法及语句解析装置
CN106610952A (zh) 一种混合的文本特征词汇提取方法
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
Galvez et al. Term conflation methods in information retrieval: Non‐linguistic and linguistic approaches
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
CN112800244A (zh) 一种中医药及民族医药知识图谱的构建方法
KR100574887B1 (ko) 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법
CN114970516A (zh) 数据增强方法及装置、存储介质、电子设备
Bladier et al. German and French neural supertagging experiments for LTAG parsing
Moghadam et al. Comparative study of various Persian stemmers in the field of information retrieval
Jebbor et al. Overview of knowledge extraction techniques in five question-answering systems

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100409

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee