KR100559472B1 - 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법 - Google Patents

영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법 Download PDF

Info

Publication number
KR100559472B1
KR100559472B1 KR1020030096049A KR20030096049A KR100559472B1 KR 100559472 B1 KR100559472 B1 KR 100559472B1 KR 1020030096049 A KR1020030096049 A KR 1020030096049A KR 20030096049 A KR20030096049 A KR 20030096049A KR 100559472 B1 KR100559472 B1 KR 100559472B1
Authority
KR
South Korea
Prior art keywords
korean
english
semantic
vocabulary
vector
Prior art date
Application number
KR1020030096049A
Other languages
English (en)
Other versions
KR20050064574A (ko
Inventor
이기영
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020030096049A priority Critical patent/KR100559472B1/ko
Publication of KR20050064574A publication Critical patent/KR20050064574A/ko
Application granted granted Critical
Publication of KR100559472B1 publication Critical patent/KR100559472B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 영한 자동번역 시스템에서 병렬 코퍼스로부터 구축된 의미 벡터를 사용하여 영어 명사의 문맥에 적당한 자연스러운 대역어를 선택하는 시스템 및 방법에 관한 것이다.
본 발명은 영한 자동번역 시스템에서 문맥에 맞는 자연스러운 대역어를 선택하는 성능을 높이기 위해 사전에 등록된 각 영어 명사 어휘에 할당된 워드넷 의미코드와 영한 병렬 코퍼스에 대한 어휘 정렬 과정에 의해 얻어진 의미 벡터를 이용하여 영어 어휘에 대한 의미를 결정하고, 해당 의미를 가지는 한국어 대역어 후보들 가운데 가장 적합한 한국어 대역어를 선택하도록 하는 것으로, 입력된 문장의 특정 명사 어휘에 대해서 테스트 벡터를 구축하고, 기구축된 의미 벡터와의 유사도를 계산하고, 영어 어휘의 의미가 결정된 후, 사전에서 해당 영어 어휘의 대역어들 중, 기 구축된 한국어 공기 정보를 이용하여 문맥에 가장 자연스러운 한국어 대역어를 선택한다.
기계번역, 자동번역, 대역어 선택, 의미 벡터

Description

영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를 사용한 대역어 선택시스템 및 방법{System for Target word selection using sense vectors and Korean local context information for English-Korean Machine Translation and thereof}
도 1은 본 발명이 적용되는 의미 벡터를 이용한 영한 대역어 선택 장치에서 대역어 선택을 위한 지식인 의미 벡터와 한국어 국소 문맥 정보의 구축 방법에 관한 일실시예를 보인 도면,
도 2는 본 발명에 따른 대역어 선택모듈을 보인 블록구성도,
도 3은 입력문에 대해 본 발명이 적용되는 의미 벡터와 한국어 국소 문맥 정보를 사용하여 해당 영어 어휘의 대역어를 선택하는 방법을 설명하기 위한 순서도.
* 도면의 주요 부분에 대한 부호의 설명
201 : 테스트 벡터 구성부 202 : 벡터간 유사도 계산부
203 : 의미 결정부 204 : 확률 계산부
205 : 대역어 선택부
본 발명은 영한 자동번역 시스템에서 다수의 한국어로 번역될 수 있는 영어 명사 어휘에 대해서 영한 병렬 코퍼스로부터 구축된 의미벡터와 한국어 코퍼스로부터 구축된 국소 문맥 정보를 사용하여 입력 문장의 문맥에 맞는 자연스러운 한국어 대역어를 선택할 수 있는 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를 사용한 대역어 선택방법 및 상기 방법을 실현시키기 위한 프로그램에 관한 것이다.
본 발명에서 사용되는 용어를 정의하면 다음과 같다.
영한 병렬 코퍼스라 함은 영어 문장과 그에 대한 한국어 대역 문장으로 구성되며, 본 발명에서 사용되는 대역어 선택 지식의 주된 추출 대상이라 할 수 있다.
명사 어휘 정렬이라 함은 영한 병렬 코퍼스를 구성하는 각각의 영어 문장 및 한국어 문장 쌍에 대해서 영어 명사 어휘에 대한 그 대역 한국어 명사 어휘를 매핑시키는 작업이라 할 수 있다.
의미 벡터라 함은 N-차원으로 구성되며, 그 구성요소는 각 영어 명사와 공기(co-occurring)하는 어휘들의 가중치값을 나타내며, 이러한 정보는 영한 병렬 코퍼스로부터 추출된다. 의미 벡터의 차원은 상호 정보(MI: Mutual Information)에 근거하여 영어 명사 어휘와 높은 관계를 가지는 어휘들의 개수로서 정의된다.
자동번역 시스템의 경우, 원문에서 각 어휘가 가지는 고유한 의미를 손실하지 않고, 대역어로 변환시키는 기술은 자연스러운 번역 품질을 얻는데 있어서 매우 중요한 요소라고 할 수 있다. 현재까지는 주로 단순한 공기 정보에 의존한 대역어 선택 기술들이 제공되어 왔지만, 그 성능은 실용적인 자동번역 결과를 얻기에는 매우 미흡한 실정이다.
동시에 원시 언어의 어휘가 가지는 의미적 모호성을 해소하기 위한 몇몇 기술들이 제안되었지만, 실제 자동번역에서 대역어를 선택할 때에는 원문 어휘가 가지는 의미적 모호성만을 해소해서는 자연스러운 대역어를 얻을 수 없으며, 목표 언어의 측면도 고려해야 한다.
따라서, 상기와 같은 문제점을 해결하기 위해서는 우선, 원문 어휘의 의미적 모호성을 해결해야 하며, 이 단계에서 결정된 의미를 지니는 대역 후보들 가운데, 생성될 한국어 문맥에 가장 적합한 대역어를 선택하는 방법이 요구된다.
본 발명은 상기한 종래 문제를 해결하기 위한 것으로, 상세하게는 사전에 등록된 각 영어 명사 어휘에 할당된 워드넷 의미코드와 영한 병렬 코퍼스에 대한 어휘 정렬 과정에 의해 얻어진 의미 벡터를 이용하여 영어 어휘에 대한 의미를 결정하고, 해당 의미를 가지는 한국어 대역어 후보들 가운데 가장 적합한 한국어 대역어를 선택함으로써 영한 자동번역 시스템에서 문맥에 맞는 자연스러운 대역어를 선택하는 성능을 향상시킬 수 있는 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를 사용한 대역어 선택방법 및 상기 방법을 실현시키기 위한 프로그램이 기록된 기록매체를 제공하는데 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명은 입력된 문장으로부터 변환 단계에서 대역어 선택 모호성을 가지는 어휘에 대해 해당 어휘의 의미 벡터와 동일한 차원의 테스트 벡터를 구성하는 테스트 벡터 구성부; 상기 테스트 벡터 구성부에서 구해진 테스트 벡터와 이미 구축된 의미 벡터와의 유사도를 계산하는 벡터간 유사도를 계산하여 의미 코드를 결정하는 의미 결정부; 상기 의미 결정부에서 결정된 의미 코드를 갖는 다수의 대역어 후보들에 대해 한국어 국소 문맥 정보DB에 저장된 정보를 이용하여 확률적으로 명사, 형용사의 의미가 통하는 최적의 대역어를 계산하는 대역어 선택부; 를 포함하는 것을 특징으로 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를 사용한 대역어 선택시스템을 제공한다.
상기 목적을 달성하기 위하여 본 발명은 영한 자동번역 시스템에서 다양한 한국어 대역어로 번역될 수 있는 영어 어휘의 대역어 선택 모호성을 해소하기 위한 방법에 있어서, 원문과 대역문의 쌍으로 이루어진 병렬 코퍼스로부터 각 문장 쌍에 대하여 어휘 정렬을 수행하고, 의미 벡터 및 한국어 국소 문맥 정보를 구축하는 제 1단계; 입력된 문장에 대하여 대역어 선택 모호성이 있는 어휘를 대상으로 테스트 벡터를 구성한 후, 기 구축된 의미 벡터와의 유사도를 계산하여 해당 어휘의 의미를 결정하는 제 2단계; 및 결정된 의미코드를 갖는 대역어들을 사전에서 로딩하여 각각의 후보 대역어들 중, 생성될 한국어 문장의 문맥에 가장 적합한 대역어를 선택하는 제 3단계;를 포함하는 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를 사용한 대역어 선택방법을 제공한다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명에 따른 한국어 대역어 선택에 대한 각각의 실시 예를 설명하기 전에, 본 발명에서 사용하는 영한 전자 사전의 각 엔트리에 대한 의미 자질을 설명한다. 영한 전자 사전의 경우, 의미 코드 자질로서 'SEM'이라는 자질을 두었고, 그 자질값은 WordNet1.71의 의미체계를 따르는 420개의 의미 코드중 하나가 할당된다. 그리고, 의미 코드에 따라서 그 대역어를 분류하는 방법을 개시하고자 한다.
일반적으로, 영어 어휘는 두 개 이상의 한국어로 번역될 수 있는 다의어(polysemous word)가 많다. 표 1은 대표적인 영어 명사의 예를 보인 것이다.
어휘 의미코드 대역어
race/NOUN social event #1 경선, 선거전, 경주, 경쟁
people #1 인종
표 1은 영어 어휘 'race/NOUN'에 대한 의미코드에 따른 대역어 분류 예를 나타낸다. 표 1에서 영어 어휘 'race/NOUN'은 두개의 의미코드 social event #1과 people #1 를 지니며, 각각의 의미코드에 해당하는 한국어 대역어들을 각각 "경선, 선거전, 경주, 경쟁"과 "인종"으로 분류하였다.
도 1은 본 발명이 적용되는 의미 벡터를 이용한 영한 대역어 선택 장치에서 대역어 선택을 위한 지식인 의미 벡터와 한국어 국소 문맥 정보의 구축 방법에 관 한 일실시예를 보인 도면이다.
도면을 참조하면, 본 발명은 병렬 코퍼스(101)의 영어 문장과 한국어 문장 각각에 대하여, 영어 형태소 분석기, 영어 태거, 한국어 형태소 분석기, 한국어 태거를 사용하여 형태소 분석/태깅 작업이 수행된다(102).
이렇게 태깅된 병렬 코퍼스의 각 문장에 대해서 영한 전자사전의 정보를 사용하여 명사 정렬이 이루어진다.(103)
본 발명은 영한 전자사전(106)을 참조하여, 각 대역어가 어떤 의미 코드를 가지는지 알 수 있으며, 이러한 정보를 사용하여 의미 벡터를 구축하고(104), 한국어 국소 문맥 정보를 구축(105)하여 구축된 각각의 정보를 의미 벡터DB(107)와 한국어 국소 문맥 정보DB(108)에 저장한다.
의미 벡터는 N-차원의 벡터로 구성되며, 그 구성요소는 각 영어 명사와 공기하는 어휘들의 가중치값을 나타내며, 이러한 정보는 병렬 코퍼스로부터 추출된다.
이때, 공기 정보로서 허용되는 품사는 형용사와 명사로 한정한다. 그 이유는 전치사와 같은 기능어류의 어휘들은 의미를 결정하는데 변별력을 갖고 있지 않기 때문이다.
의미 벡터의 차원 N은 상호 정보(MI: Mutual Information)에 근거하여 영어 명사 어휘와 높은 관계를 가지는 어휘들의 개수로서 정의된다.
다음의 수학식들은 각각 상호 정보와 의미벡터 SV 및 그 구성요소들을 나타낸다.
Figure 112003049325932-pat00001
Figure 112003049325932-pat00002
Figure 112003049325932-pat00003
(si는 임의의 의미)
수학식 1은 상호 정보(MI)에 대한 공식을 나타내며, 수학식 2는 의미 벡터와 그 구성요소를 나타낸다. 수학식 2에서 각 구성요소에 대한 가중치값은 수학식 3과 같다.
즉, 의미 벡터의 각 구성요소는 공기 어휘에 대한 의미의 조건부 확률값을 나타내며, 그 값은 0과 1사이의 값을 가지며, 1에 가까울수록 해당 공기 어휘(co-occurring word)가 영어 명사 어휘의 특정 의미 결정에 매우 강력한 단서가 된다는 것을 나타낸다.
이러한 의미 벡터는 각 영어 명사 어휘에 대해 서로 다른 의미 코드의 개수만큼 만들어진다. 예를 들어, 표 1에 제시된 'race/NOUN'의 경우, 2개의 의미 벡터가 만들어진다.
한국어 국소 문맥 정보는 표 1과 같이 동일한 의미코드를 갖는 한국어 대역어의 개수가 2개 이상일 경우, 그 중 최적의 대역어를 선택하기 위하여 사용된다. 도 1에서 보이는 바와 같이, 한국어 국소 문맥 정보는 병렬 코퍼스의 한국어 파트만을 사용하여 구축되며, 형용사, 명사에 한정하여 상호 공기하는 빈도 정보를 나 타낸다.
도 3는 본 발명에 따른 대역어 선택모듈을 보인 구성도이다. 도면을 참조하하면, 본 발명의 테스트 벡터 구성부(201)는 입력된 문장으로부터 변환 단계에서 대역어 선택 모호성을 가지는 어휘에 대해 해당 어휘의 의미 벡터와 동일한 차원의 테스트 벡터를 만든다.
벡터간 유사도 계산부(202)는 상기 테스트 벡터 구성부(201)에서 구해진 테스트 벡터와 이미 구축된 의미 벡터와의 유사도를 계산한다.
의미 결정부(203)는 대역어 선택 모호성을 지니는 영어 명사 어휘에 대해서 의미 코드가 결정되면 해당 의미 코드를 가지는 대역어 후보를 결정한다.
확률 계산부(204)는 상기 의미 결정부(203)에서 결정된 의미 코드를 가지는 대역어 후보들에 대해 한국어 국소 문맥 정보DB(107)에 저장된 정보를 이용하여 확률적으로 명사, 형용사의 의미가 통하는 최적의 대역어를 계산한다.
대역어 선택부(205)는 입력된 문장으로부터 모호한 어휘에 대해 상기 확률 계산부(204)에서 확률적으로 가장 근접되게 계산된 대역어를 결정하고, 그 대역어를 이용하여 대역표현을 할 수 있도록 한다.
이하, 도 3을 참조하여 번역할 문장이 입력되었을 때, 의미 벡터와 한국어 국소 문맥 정보를 사용하여 해당 영어 어휘의 대역어를 선택하는 방법을 설명한다.
도면을 참조하면, 테스트 벡터 구성부(201)로 입력문이 들어오면, 변환 단계에서는 대역어 선택 모호성을 가지는 어휘에 대해 상기 테스트 벡터 구성부(201)에서는 해당 어휘의 의미 벡터와 동일한 차원의 테스트 벡터를 만든다(301).
테스트 벡터의 각 구성요소는 0 또는 1의 값을 가지며, 입력 문장에 포함된 각각의 영어 명사 어휘에 대한 공기 어휘가 해당 영어 명사 어휘의 의미 벡터의 구성 요소일 경우에는 1을 지니며, 그렇지 않을 경우에는 0을 지닌다.
예를 들어, 'bank/NOUN'의 의미 벡터가 (w(rain), w(commercial), w(money))라고 가정하고, 입력 문장이 "Rain broke the bank"라고 하면 (1, 0, 0)의 테스트 벡터가 생성된다.
입력 문장으로부터 얻어진 테스트 벡터와 기 구축된 의미 벡터와의 유사도는 cosine measure를 사용하며, 벡터간 유사도 계산부(202)에서는 다음의 수학식 4에 의해 두 벡터 간의 유사도를 계산한다.(302).
Figure 112003049325932-pat00004
본 발명은 상기에서 설명한 바와 같이 대역어 선택 모호성을 지니는 영어 명사 어휘에 대해서 의미 코드가 결정되면, 의미 결정부(203)에서는 해당 의미 코드를 가지는 대역어 후보를 결정하게 된다(303).
이때, 결정된 어휘의 의미 코드를 갖는 한국어 대역어가 2개 이상일 경우에는 확률 계산부(204)에서는 도 1에서 기술한 한국어 국소 문맥 정보DB(108)에 저장된 정보를 사용하여 인접하는 명사나 또는 형용사와 의미상 가장 근접한 대역어를 확률적으로 계산하게 되며, 대역어 선택부(205)에서는 상기 확률 게산부(204)에 의해 계산되어 입력된 문장의 어휘와 가장 근접한 최적의 대역어를 결정한다(304).
다음의 실시예 1은 영어 명사 'change/NOUN'가 한국어로 번역되는 다양한 경우에 보인 것이다.
[실시예 1]
interest rate changes (이자율 변동)
changes in your cells (세포의 변화)
requests for services changes (서비스 변경 요청)
본 발명은 상기한 실시예 1에서 알 수 있듯이 영어 명사 'change/NOUN'의 대역어 '변동', '변화', '변경'은 단순히 영어 어휘 'change/NOUN'의 의미 결정만으로는 결정될 수 없다. 왜냐하면, 'change/NOUN'의 대역어 '변동', '변화', '변경'은 동일한 의미 코드를 가지며, 이러한 미묘한 한국어 대역어 선택은 한국어 국소 문맥 정보를 고려하여야만 가장 자연스러운 대역어를 선택할 수 있다.
앞에서 상술했듯이, 대역어 선택에 대한 미묘한 차이의 해소는 병렬 코퍼스의 한국어 파트로부터 구축된 한국어 국소 문맥 정보에 의존한다. 한국어 국소 문맥 정보는 형용사, 명사로 구성된 공기 빈도로 구성되며, 영한 자동번역 시스템의 생성부로 넘어온 한국어 어휘들의 시퀀스에 대한 확률값을 구함으로써, 최적의 한국어 대역어를 선택한다.
상기와 같은 본 발명의 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를 사용한 대역어 선택방법은 컴퓨터로 읽을 수 있는 기록 매체에 저장될 수 있다. 이러한 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있도록 프로그램 및 데이터가 저장되는 모든 종류의 기록매체를 포함하는 것으로, 그 예로는 씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등에 저장될 수 있다.
이상의 실시 예에서 본 발명은 의미 벡터를 이용하는 영한 대역어 선택 장치를 일례로 들어 설명하였지만 본 발명이 의미 벡터를 이용하는 영한 대역어 선택 장치에만 한정되는 것은 아니다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하는 것이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
이상에서 설명한 바와 같이 본 발명은 영한 자동번역 시스템에서 영어와 한국어 모두를 고려하여 문맥에 자연스러운 대역어를 선택할 수 있고, 또한 공기 정보에 의해 대역어 선택을 수행하으로 명사구의 헤드 어휘 뿐만 아니라 기타 어휘에 대한 대역어 선택도 가능하다.

Claims (6)

  1. 입력된 문장으로부터 변환 단계에서 대역어 선택 모호성을 가지는 어휘에 대해 해당 어휘의 의미 벡터와 동일한 차원의 테스트 벡터를 구성하는 테스트 벡터 구성부;
    상기 테스트 벡터 구성부에서 구해진 테스트 벡터와 이미 구축된 의미 벡터와의 유사도를 계산하여 의미 코드를 결정하는 의미 결정부;
    상기 의미 결정부에서 결정된 의미 코드를 갖는 다수의 대역어 후보들에 대해 한국어 국소 문맥 정보DB에 저장된 정보를 이용하여 확률적으로 명사, 형용사의 의미가 통하는 최적의 대역어를 계산하는 대역어 선택부;
    를 포함하는 것을 특징으로 하는 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를 사용한 대역어 선택시스템.
  2. 영한 자동번역 시스템에서 다양한 한국어 대역어로 번역될 수 있는 영어 어휘의 대역어 선택 모호성을 해소하기 위한 방법에 있어서,
    원문과 대역문의 쌍으로 이루어진 병렬 코퍼스로부터 각 문장 쌍에 대하여 어휘 정렬을 수행하고, 의미 벡터 및 한국어 국소 문맥 정보를 구축하는 제 1단계;
    입력된 문장에 대하여 대역어 선택 모호성이 있는 어휘를 대상으로 테스트 벡터를 구성한 후, 기 구축된 의미 벡터와의 유사도를 계산하여 해당 어휘의 의미코드를 결정하는 제 2단계; 및
    결정된 의미코드를 갖는 대역어들을 사전에서 로딩하여 각각의 후보 대역어들 중, 상기 제1단계에서 구축된 한국어 국소 문맥 정보에 가장 적합한 대역어를 선택하는 제 3단계;
    를 포함하는 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를 사용한 대역어 선택방법.
  3. 제 2항에 있어서, 상기 제 1단계는,
    병렬 말뭉치를 구성하는 각 원문 및 대역문 각각에 대해서, 형태소 분석 및 태깅을 수행하고, 형용사와 명사를 추출하는 것을 특징으로 하는 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를 사용한 대역어 선택방법.
  4. 제 2항에 있어서, 상기 제 2단계는,
    상기 테스트 벡터와 상기 의미 벡터간의 유사도를 코사인 메저(measure)에 의해 유사도를 계산하는 것을 특징으로 하는 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를 사용한 대역어 선택방법.
  5. 제 2항에 있어서, 상기 테스트 벡터와 상기 의미 벡터간의 유사도는 다음의 수학식에 의해 구해지는 것을 특징으로 하는 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를 사용한 대역어 선택방법.
    Figure 112003049325932-pat00005
  6. 제 2항 내지 제 5항에 기재된 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를 사용한 대역어 선택방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020030096049A 2003-12-24 2003-12-24 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법 KR100559472B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030096049A KR100559472B1 (ko) 2003-12-24 2003-12-24 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030096049A KR100559472B1 (ko) 2003-12-24 2003-12-24 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20050064574A KR20050064574A (ko) 2005-06-29
KR100559472B1 true KR100559472B1 (ko) 2006-03-10

Family

ID=37256158

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030096049A KR100559472B1 (ko) 2003-12-24 2003-12-24 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법

Country Status (1)

Country Link
KR (1) KR100559472B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170015010A (ko) * 2015-07-31 2017-02-08 삼성전자주식회사 대역 어휘 결정 장치 및 방법
CN109271624A (zh) * 2018-08-23 2019-01-25 腾讯科技(深圳)有限公司 一种目标词确定方法、装置及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100779164B1 (ko) * 2005-12-09 2007-11-26 한국전자통신연구원 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률정보를 이용한 복합명사 대역어 생성 장치 및 방법
KR100886688B1 (ko) * 2007-12-11 2009-03-04 한국전자통신연구원 한국어 수량사 생성 방법 및 장치
KR101762866B1 (ko) * 2010-11-05 2017-08-16 에스케이플래닛 주식회사 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
KR101137713B1 (ko) * 2012-01-18 2012-04-25 유니챌(주) 외국어 학습 기능을 제공하는 단말기 및 그 제어방법
KR102454092B1 (ko) * 2020-10-26 2022-10-14 (주)링글잉글리시에듀케이션서비스 사전 정의 재정렬 시스템 및 그 방법
KR20220056004A (ko) * 2020-10-27 2022-05-04 삼성전자주식회사 전자 장치 및 이의 제어 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170015010A (ko) * 2015-07-31 2017-02-08 삼성전자주식회사 대역 어휘 결정 장치 및 방법
KR102396250B1 (ko) 2015-07-31 2022-05-09 삼성전자주식회사 대역 어휘 결정 장치 및 방법
CN109271624A (zh) * 2018-08-23 2019-01-25 腾讯科技(深圳)有限公司 一种目标词确定方法、装置及存储介质

Also Published As

Publication number Publication date
KR20050064574A (ko) 2005-06-29

Similar Documents

Publication Publication Date Title
KR100453227B1 (ko) 번역 지원 시스템에서의 유사 문장 검색 방법
Gupta et al. A survey of text question answering techniques
US5418717A (en) Multiple score language processing system
US5541836A (en) Word disambiguation apparatus and methods
US9075793B2 (en) System and method of providing autocomplete recommended word which interoperate with plurality of languages
US20130018650A1 (en) Selection of Language Model Training Data
JPH10232866A (ja) データ処理方法及び装置
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
JPH06314294A (ja) 機械翻訳方法及び機械翻訳装置
US7475005B2 (en) Translation system, dictionary updating server, translation method, and program and recording medium for use therein
Ahmed The role of linguistic feature categories in authorship verification
US8554539B2 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
KR100559472B1 (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
Smadja et al. Translating collocations for use in bilingual lexicons
KR100617319B1 (ko) 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법
JP2004070636A (ja) 概念検索装置
JP4900947B2 (ja) 略語抽出方法、略語抽出装置およびプログラム
Khoo et al. Using statistical and contextual information to identify two‐and three‐character words in Chinese text
US7343280B2 (en) Processing noisy data and determining word similarity
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
JP4401269B2 (ja) 対訳判断装置及びプログラム
JP2005326952A (ja) 概念辞書への単語登録方法、装置、およびプログラム
JP2011081626A (ja) 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム
Baishya et al. Present state and future scope of Assamese text processing
JP4059501B2 (ja) 自然語辞書更新装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090303

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee