KR100385863B1 - 상호정보를 이용한 한국어-영어 질의어 변환방법 및 장치 - Google Patents

상호정보를 이용한 한국어-영어 질의어 변환방법 및 장치 Download PDF

Info

Publication number
KR100385863B1
KR100385863B1 KR10-1999-0016791A KR19990016791A KR100385863B1 KR 100385863 B1 KR100385863 B1 KR 100385863B1 KR 19990016791 A KR19990016791 A KR 19990016791A KR 100385863 B1 KR100385863 B1 KR 100385863B1
Authority
KR
South Korea
Prior art keywords
query
band
language
mutual information
threshold
Prior art date
Application number
KR10-1999-0016791A
Other languages
English (en)
Other versions
KR20000073477A (ko
Inventor
장명길
박세영
맹성현
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-1999-0016791A priority Critical patent/KR100385863B1/ko
Publication of KR20000073477A publication Critical patent/KR20000073477A/ko
Application granted granted Critical
Publication of KR100385863B1 publication Critical patent/KR100385863B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 상호정보를 이용한 한국어-영어 질의어 변환방법 및 장치에 관한 것으로, 사용자로 하여금 질의어의 언어와 다른 언어로 쓰여진 문서를 검색할 수 있게 하는 교차언어 문서검색에 있어서 상호정보를 질의어의 변환 과정의 여러 단계에 적용하여 고품질의 질의어를 생성할 수 있는 질의어 변환 방법 및 장치을 제공하는데 그 목적이 있다.
이를 위한 본 발명은, 원시 언어의 질의어에 대하여 형태소 분석과 품사 태깅에 의하여 검색을 위한 키워드를 추출하는 키워드 추출수단; 대역사전의 탐색을 통해 상기 키워드 추출수단에 의해 추출된 원시 언어 키워드를 다른 언어의 후보 키워드들로 변환하는 질의어 변환수단; 상기 질의어 변환수단에 의해 생성된 후보 대역어들에 대해 대역어 언어의 검색 대상 텍스트 코퍼스로부터 상호관련성 정보를 계산해 상기 상호관련성 정보가 임의의 제1 임계치 이상이 되는 후보 대역어를 최종 질의어로 선택하는 제1 대역 질의어 결정수단; 및 상기 제1 대역 질의어 결정수단에 의해 대역 질의어가 결정되지 않은 단어들에 대해 상기 상호관련성 정보의 크기에 따라 서로 다른 가중치를 부여하여 대역 질의어를 결정하는 제2 대역 질의어 결정수단을 포함한다.

Description

상호정보를 이용한 한국어-영어 질의어 변환방법 및 장치{Method and device of korean-to-english query translation using mutual information}
본 발명은 상호정보를 이용한 한국어-영어 질의어 변환방법 및 장치에 관한 것으로, 더욱 자세하게는 사용자로 하여금 질의어의 언어와 다른 언어로 쓰여진 문서를 검색할 수 있게 하는 교차언어 문서검색에 있어서 상호정보를 질의어의 변환 과정의 여러 단계에 적용하여 고품질의 질의어를 생성할 수 있도록 함으로써, 교차언어 문서검색의 정확도를 높여주는 질의어 변환 방법 및 장치에 관한 것이다.
본 발명은 특히 텍스트 정보검색에서 질의어의 언어와 검색 대상 언어가 다른 경우에 질의어 변환을 통하여 쉽게 다른 언어 문서를 검색할 수 있게 하는 교차언어 문서검색에 있어, 상호정보를 이용하여 질의어 변환시의 대역어 모호성 해소와 질의어 단어 가중치 부여를 통하여 고품질의 대역 질의어를 생성할 수 있는 질의어 변환방법 및 그 장치에 관한 것이다.
종래에는 질의어 변환에 의한 교차언어 문서검색에 있어, 단순히 대역사전만을 사용하기 때문에, 많은 단어 모호성을 가진 대역 단어들을 포함하는 변환된 질의어를 이용하여 문서를 검색하면 단일언어 문서검색의 약 40% 내지 60%에 불과한 검색 정확도를 얻는 것으로 알려졌다. 이후에 효과적인 질의어 변환 방법에 대한 연구의 결과로 대역 단어 모호성 해소를 위하여 단어 공기 빈도 정보를 이용하는 방법이나, 시소러스와 같은 단어 개념 정보를 이용하는 방법이 연구되었다. 하지만, 단순히 단어 빈도 정보를 이용하는 경우에 두 단어의 단순한 공기 빈도 절대값을 사용하기 때문에 대량의 텍스트 코퍼스에서 대역 단어의 상대적인 중요도를 결정하는 것이 어려워 대역 모호성 해소에 무리가 있다. 이것은 결국 부정확한 대역어 생성을 낳아 이러한 대역 질의를 사용한 교차언어 문서검색의 성능 하락을 가져오게 된다.
따라서, 본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 대역 단어의 공기 정보로 단어의 절대 빈도를 사용하는 대신에 검색 대상의 대규모 텍스트 코퍼스로부터 단어 쌍의 상대적인 공기 정보로 상호정보를 추출하여, 이를 대역 단어의 단어 모호성 해소에 적용하고, 또한 대역어 해소가 되지 않고 남은 대역 단어들에 대하여 질의어 단어 가중치 부여에 이러한 대역 단어의 상호 정보를 적용함으로써, 고품질의 대역 질의어를 생성할 수 있고, 이로 인해 교차언어 문서검색의 검색 정확도를 매우 향상시킬 수 있는 질의어 변환방법 및 그 장치를 제공하는데 있다.
도1은 본 발명에 따른 상호정보를 이용한 질의어 변환장치의 블럭 구성도.
도2는 실제 TREC-6의 교차언어 문서검색 환경의 AP통신 코퍼스에서 추출한 검색 질의어들의 상호정보 추출의 예를 나타낸 도면.
도3은 한국어 질의 "자동차 공기 오염"에 대한 대역사전 기반의 질의어 변환 결과에 추출한 상호정보 값을 나타낸 도면.
도4는 TREC-6 교차언어 문서검색 환경에서 본 발명의 질의어 변환 방식의 교차언어 문서검색의 실험 결과를 나타낸 도면.
*도면의 주요부분에 대한 부호의 설명
11 : 키워드 추출부
12 : 사전기반 질의어 변환부
13 : 대역어 모호성 해소부
14 : 질의어 단어 가중치 부여부
15 : 대역사전
16 : 영어 코퍼스
상기 목적을 달성하기 위한 본 발명에 따른 질의어 변환장치는, 교차언어 문서 검색을 위한 질의어 변환장치에 있어서, 원시 언어의 질의어에 대하여 형태소 분석과 품사 태깅에 의하여 검색을 위한 키워드를 추출하는 키워드 추출수단; 대역사전의 탐색을 통해 상기 키워드 추출수단에 의해 추출된 원시 언어 키워드를 다른 언어의 후보 키워드들로 변환하는 질의어 변환수단; 상기 질의어 변환수단에 의해 생성된 후보 대역어들에 대해 대역어 언어의 검색 대상 텍스트 코퍼스로부터 상호 정보를 계산해 상기 상호 정보가 임의의 제1 임계치 이상이 되는 후보 대역어를최종 질의어로 선택하는 제1 대역 질의어 결정수단; 및 상기 제1 대역 질의어 결정수단에 의해 대역 질의어가 결정되지 않은 단어들에 대해 상기 상호 정보의 크기에 따라 서로 다른 가중치를 부여하여 대역 질의어를 결정하는 제2 대역 질의어 결정수단을 포함한 것을 특징으로 한다.
또한, 상기 목적을 달성하기 위한 본 발명에 따른 질의어 변환방법은, 교차언어 문서 검색을 위한 질의어 변환방법에 있어서, 원시 언어의 질의어에 대하여 형태소 분석과 품사 태깅에 의하여 검색을 위한 키워드를 추출하는 제1단계; 대역사전의 탐색을 통해 상기 제1단계에서 추출된 원시 언어 키워드를 다른 언어의 후보 키워드들로 변환하는 제2단계; 상기 제2단계에서 변환된 후보 대역어들에 대해 대역어 언어의 검색 대상 텍스트 코퍼스로부터 상호 정보를 계산하여, 상기 상호 정보가 임의의 제1 임계치 이상이 되는 후보 대역어를 최종 질의어로 선택하는 제3단계; 및 상기 제3단계에서 결정되지 않은 단어들에 대해 상기 상호 정보의 크기에 따라 서로 다른 가중치를 부여하여 최종 대역 질의어를 결정하는 제4단계를 포함한 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.
도1은 본 발명에 따른 상호정보를 이용한 질의어 변환장치의 블럭 구성도로서, 도면에서 11은 키워드 추출부, 12는 사전기반 질의어 변환부, 13은 대역어 모호성 해소부, 14는 질의어 단어 가중치 부여부, 15는 대역사전, 16은 영어 코퍼스를 각각 나타낸다.
본 발명은 원시 질의어로부터 고품질의 목적 질의어를 생성하기 위하여 단순한 대역 사전 뿐만 아니라 검색 문서의 텍스트 코퍼스의 문서로부터 추출한 단어 공기 정보인 상호정보를 이용하는 다단계 질의어 변환 과정을 구성한다. 이 다단계 질의어 변환 과정은 도1과 같이 키워드 추출부(11), 대역 사전 기반 질의어 변환부(12), 대역어 모호성 해소부(13), 그리고 질의어 단어 가중치 부여부(14)를 두어 고품질의 목적 질의어를 생성한다.
키워드 추출부(11)는 질의어 변환 단계의 첫번째 단계로, 원시 언어의 질의어에 대하여 형태소 분석과 품사 태깅에 의하여 검색을 위한 키워드를 추출한다. 여기서, 품사 태거의 역할은 형태소 분석으로 생성된 다수의 후보 형태소 열로부터 정확한 형태소 열을 얻기 위한 것으로, 이러한 태거 없이는 질의어 변환 과정에 모든 불필요한 키워드들이 모두 검색에 사용되어 검색의 효과를 떨어뜨리게 된다.
대역 사전 기반 질의어 변환부(12)는 이렇게 키워드 추출부(11)에서 추출된 원시 질의어 키워드에 대하여 대역 사전을 이용해 다른 언어의 대역 단어로 변환하여, 다수개의 후보 대역어를 생성한다. 본 발명의 질의어 변환부(12)에서는 대역 사전 참조가 단어-대-단어(word-by-word) 변환과 구절(phrase-level) 변환으로 이루어진다. 원시 질의어에서 정확한 구의 인식은 구절 참조에 의해 대역 사전의 구절 변환에 의하여 대역 질의어가 찾아지게 되나, 보통 구절 대역사전은 신조어, 전문용어 등의 미등록어(unknown word) 문제와 함께 대역 사전의 완벽한 구축에 어려움이 있다. 실제 질의어 변환에서 미등록 단어로 인한 질의 변환 실패나 교차언어 문서 검색 성능 하락은 많은 부분을 차지하고 있다.
대역어 모호성 해소부(13)는 사전기반 질의어 변환부(12)에 의해 생성된 여러 개의 후보 대역어들에 대하여 대역어 모호성을 해소하는데, 이때 대역어 언어의 검색 대상 텍스트 코퍼스로부터 추출한 단어 공기 정보인 상호정보를 활용한다. 즉, 대역어 모호성 해소부(13)는 언어의 텍스트 코퍼스를 통해 단어의 발생 빈도로부터 얻어진 대역어 단어들간의 상호 관련성 정보를 이용해, 상기 상호정보가 임의의 임계치(본 발명의 실시예에서는 2.0) 이상이 되면 상호 이 높은 것으로 인식 하여 이를 최종 대역어로 선택한다. 텍스트 코퍼스로부터 얻는 상호정보 계산식은 수학식 1과 같다.
즉, 상호정보는 단어 x와 단어 y가 N 크기의 텍스트 코퍼스 상에서 임의의 문맥(context) 범위(본 발명에서는 두 단어가 함께 나타나는 문맥의 범위 w를 6으로 하여 실험에 의해 얻었음)에서 함께 존재하는 상대적인 통계치이다. 다시말해, 상호정보는 텍스트 코퍼스 상에서 두 단어가 동시에 존재하는 빈도수를 의미한다. 상호정보 MI(x,y)가 임의의 임계치 이상이면 단어의 상호 관련성은 높아, 이를 최종 대역어로 선택할 수 있으나, MI(x,y)가 0보다 적은 값을 가지면 단어 x와 y는 서로 상보적 분포를 가지기 때문에, 이를 대역어 모호성을 해소하는데, 직접적으로 적용할 수 없다. 따라서, 상호정보 값을 대역어 모호성 해소에 적용하기 위하여 적당한 임계값을 두고 대역어 모호성 해소 기준으로 사용한다.
도2는 본 발명의 실시 예에서 사용하는 영어 질의어들의 영어 텍스트 코퍼스상에서의 상호정보의 예들을 보여준다.
질의어 단어 가중치 부여부(14)는 질의어 변환의 마지막 단계로, 대역어 모호성 해소부(13)에 의해 모호성이 해소되지 않은 단어들에 대해 질의어 가중치를 부여하여 최종 질의어를 선택하는 기능부로, 여기에서 상호정보 값을 이용한다. 이때, 상호정보는 모호성 해소에 적용된 상호정보 임계값보다 작은 값으로 하나 이상 할당되는데, 질의어 단어 쌍들의 상호정보 값의 분포를 고려하여 임의의 구간에서 그 구간 상호정보 값에 대한 상대적인 질의 가중치를 부여하는 방법을 적용한다. 즉, 질의어 단어 가중치 부여부(14)에서는 대역어 모호성 해소부(13)에서 두 단어의 상호정보가 임의의 임계치(2.0) 이하가 되는 경우에 그의 상호정보에 따라 가중치를 부여하여 최종 대역 질의어를 결정한다. 본 발명의 실시예에서는 상호정보가 1보다 크고 2.0보다 작을 경우에는 0.75의 가중치를 부여하고, 1보다 작고 0보다 클 경우에는 0.6의 가중치를 부여한다.
상호정보를 이용한 질의어 변환은 도1의 질의어 변환 블록도의 장치들로 수행되는데, 실제 질의어 변환은 원시 질의어와 검색 대상 텍스트 문서 코퍼스(16), 그리고 대역 사전(15)을 필요로 한다. 또한 질의어 변환에 의하여 생성된 질의어들의 품질은 교차언어 문서검색 시스템에 의하여 검색 성능을 비교함으로써 알 수 있다.
일반 대역 사전을 이용한 질의어 변환에서는 대상 질의어의 단어가 여러 개의 대역 단어들로 번역되는 대역 모호성이 발생한다. 예를 들어, 한국어 질의어가"자동차 공기 오염"인 경우, 이를 대역 사전을 통하여 영어 질의어로의 변환을 수행하면 "자동차"는 "motocar", "automobile", "car"로 변환되고, "공기"는 "air", "atmosphere", "empty vessel", "bowl"로 변환되고, "오염"은 "pollution", "contamination"으로 각각 변환된다. 이들 대역어를 모두 사용하여 검색을 하면 검색 성능의 하락을 가져오게 된다. 본 발명의 상호정보를 활용한 다단계 질의어 변환 방법의 작용은 위의 한국어-영어 질의어 변환과 교차언어 문서검색의 실험에 의하여 그 실시 예를 설명할 수 있다.
본 발명의 실시 예에서 사용한 대역어 모호성 해소를 위한 상호정보 임계값은 2.0으로 하였고, 질의어 단어 가중치 부여를 위한 상호정보 구간별 가중치는 도 4와 같이 상호정보 MI가 1.0보다 크면 0.75로하고, 그렇지 않고 상호정보 MI가 0부터 1의 범위에 있으면 0.6으로 하였다.
위의 한국어-영어 질의의 변환의 예에서 상호정보를 이용한 대역어 모호성 해소와 질의어 단어 가중치 부여의 실시 예를 설명한다.
앞의 "자동차 공기 오염"의 한국어 질의의 경우 단순한 대역 사전 기반 질의어 단어 변환에서는 번역 모호성으로 인하여 여러 영어 단어들이 도3과 같이 나타나고, 한국어 단어의 영어 변환 단어들 w1(자동차), w2(공기), w3(오염) 사이의 선에는 각 단어 쌍의 상호정보 MI 값이 계산된다. 단어 w1(자동차)과 w2(공기)사이의 경우 대역 단어 automobile과 air가 가장 큰 상호정보 값을 가짐을 보여주고 있고, 단어 w2(공기)와 w3(오염) 사이의 경우는 air와 pollution이 가장 큰 상호정보 값을 가진다. 따라서, 이 예에서는 대역 단어 air와 pollution의 경우인 도3의 4b가 상호정보 값이 임계값 2를 넘는 대역어 모호성 해소가 적용되어 최종 대역어들로 선택된다.
그 다음은 상호정보를 이용한 질의어 단어 가중치 부여의 실시 예를 살펴본다.
대역어 모호성 해소를 위한 상호정보 임계값을 2.0으로 설정하였기 때문에 상호정보 구간 가중치 부여를 위한 상호정보 값은 1.0을 기준으로 하여, 가중치 0.75가 된다. 따라서, 상호정보 MI 값이 1.0과 2.0 사이에 있는 단어 쌍들은 질의어 가중치 값을 0.75를 가지고 나머지 단어 쌍들 n은 1 - 0.75의 값을 n으로 나누어 가지게 된다. 즉, 0.25/n 값이 부여된다. 도3의 예에서 대역 단어 automobile과 air의 경우 도3의 4a는 상호정보 구간별 질의어 가중치 부여에 의하여 질의어 단어 w1(자동차)의 대역 단어들은 각각 (motocar, 0.125), (automobile, 0.75), 그리고 (car, 0.125)의 단어 가중치를 가진다.
본 발명의 교차언어 문서검색을 위한 한국어-영어 질의어 변환 방법의 작용은 TREC-6의 교차언어 문서검색 환경에서 실험으로 수행된다. 먼저, 교차언어용 영어 질의어 집합을 수작업을 통해 한국어로 번역하고, 이 질의어를 본 발명의 한국어-영어 질의어 변환 방법 및 장치에 의하여 변환된 영어 질의어를 생성한다. 그리고, 본 발명의 질의어 방법의 교차언어 문서검색 성능 평가를 위한 영어 문서검색 시스템으로 미국 Cornell대학에서 개발한 Smart 11.0 시스템을 사용하여 검색을 수행하였다. 검색 결과는 원래 영어 질의어를 사용하는 경우와 한국어에서 변환된 영어 질의어를 사용하는 경우의 두 가지에 의한 검색 정확도를 11-포인트(point)평균 정확도로 계산하였다. 이때, 단일언어 문서검색에 대한 교차언어 문서검색 성능 효과가 도5의 실험 결과에서와 같이 평균 약 78.6% 정도에 달했다. 이것은 일반적으로 단순한 대역사전을 사용하는 방법에 비하여 약 20% 정도의 교차언어 문서검색 성능이 향상되었음을 보여준다.
이상 설명한 바와 같이 본 발명에 의하면, 한국어 질의어를 사용하여 영어 문서를 검색하는 한-영 교차언어 문서검색에서 고품질의 영어 질의어를 생성할 수 있어, 높은 성능의 검색 정확도를 얻을 수 있다. 또한, 본 발명은 한국어-영어 질의어 변환 뿐만 아니라 다양한 언어간의 질의어 변환에 적용하여 교차언어 문서검색에 활용할 수 있어 교차언어 문서검색에 의하여 보다 풍부하고 정확한 정보를 획득할 수 있다.
이상에서 본 발명에 대한 기술사상을 첨부도면과 함께 서술하였지만 이는 본 발명의 가장 양호한 실시예를 예시적으로 설명한 것이지 본 발명을 한정하는 것은 아니다. 또한, 이 기술분야의 통상의 지식을 가진 자이면 누구나 본 발명의 기술사상의 범주를 이탈하지 않는 범위 내에서 다양한 변형 및 모방이 가능함은 명백한 사실이다.

Claims (7)

  1. 교차언어 문서 검색을 위한 질의어 변환장치에 있어서,
    원시 언어의 질의어에 대하여 형태소 분석과 품사 태깅에 의하여 검색을 위한 키워드를 추출하는 키워드 추출수단;
    대역사전의 탐색을 통해 상기 키워드 추출수단에 의해 추출된 원시 언어 키워드를 다른 언어의 후보 키워드들로 변환하는 질의어 변환수단;
    상기 질의어 변환수단에 의해 생성된 후보 대역어들에 대해 대역어 언어의 검색 대상 텍스트 코퍼스로부터 상호 정보를 계산해 상기 상호 정보가 임의의 제1 임계치 이상이 되는 후보 대역어를 최종 질의어로 선택하는 제1 대역 질의어 결정수단; 및
    상기 제1 대역 질의어 결정수단에 의해 대역 질의어가 결정되지 않은 단어들에 대해 상기 상호 정보의 크기에 따라 서로 다른 가중치를 부여하여 대역 질의어를 결정하는 제2 대역 질의어 결정수단
    을 포함한 것을 특징으로 하는 질의어 변환장치.
  2. 제 1 항에 있어서,
    상기 제1 대역 질의어 결정수단은 계산된 단어간의 상호 정보가 약 2.0이상이면 상기 단어를 최종 대역 질의어로 설정하는 것을 특징으로 하는 질의어 변환장치.
  3. 제 1 항에 있어서,
    상기 제2 대역 질의어 결정수단은, 상기 단어간의 상호 정보가 상기 제1 임계치보다는 작고 제2 임계치보다는 큰 경우에는 임의의 제1 가중치를 부여하고, 그렇지 않고 상기 단어간의 상호 정보가 상기 제2 임계치보다는 작고 임의의 제3 임계치보다는 큰 경우에는 임의의 제2 가중치를 부여하는 것을 특징으로 하는 질의어 변환장치.
  4. 교차언어 문서 검색을 위한 질의어 변환방법에 있어서,
    원시 언어의 질의어에 대하여 형태소 분석과 품사 태깅에 의하여 검색을 위한 키워드를 추출하는 제1단계;
    대역사전의 탐색을 통해 상기 제1단계에서 추출된 원시 언어 키워드를 다른 언어의 후보 키워드들로 변환하는 제2단계;
    상기 제2단계에서 변환된 후보 대역어들에 대해 대역어 언어의 검색 대상 텍스트 코퍼스로부터 상호 정보를 계산하여, 상기 상호 정보가 임의의 제1 임계치 이상이 되는 후보 대역어를 최종 질의어로 선택하는 제3단계; 및
    상기 제3단계에서 결정되지 않은 단어들에 대해 상기 상호 정보의 크기에 따라 서로 다른 가중치를 부여하여 최종 대역 질의어를 결정하는 제4단계
    를 포함한 것을 특징으로 하는 질의어변환방법.
  5. 제 4 항에 있어서,
    상기 제4단계는, 상기 단어간의 상호 정보가 상기 제1 임계치보다는 작고 제2 임계치보다는 큰 경우에는 임의의 제1 가중치를 부여하고, 그렇지 않고 상기 단어간의 상호 정보가 상기 제2 임계치보다는 작고 임의의 제3 임계치보다는 큰 경우에는 임의의 제2 가중치를 부여하여 최종 대역 질의어를 결정하는 것을 특징으로 하는 질의어 변환방법.
  6. 제 5 항에 있어서,
    상기 제1 임계치는 약 2.0, 상기 제2 임계치는 약 1.0, 상기 제3 임계치는 약 0이고, 상기 제1 가중치는 약 0.75 상기 제2 가중치는 약 0.6인 것을 특징으로 하는 질의어 변환방법.
  7. 교차언어 문서 검색을 위해 대역 질의어 변환 기능을 실행시키키 위한 프로그램을 기록한 기록매체에 있어서,
    원시 언어의 질의어에 대하여 형태소 분석과 품사 태깅에 의하여 검색을 위한 키워드를 추출하는 제1단계;
    대역사전의 탐색을 통해 상기 추출된 원시 언어 키워드를 다른 언어의 후보 키워드들로 변환하는 제2단계;
    상기 변환된 다른 언어의 후보 키워드들에 대해 대역어 언어의 검색 대상 텍스트 코퍼스로부터 상호 정보를 계산하여, 상기 상호 정보가 임의의 제1 임계치이상이 되는 후보 대역어를 최종 질의어로 선택하는 제3단계; 및
    상기 제3단계에서 결정되지 않은 단어들에 대해 상기 상호 정보의 크기에 따라 서로 다른 가중치를 부여하여 최종 대역 질의어를 결정하는 제4단계
    를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR10-1999-0016791A 1999-05-11 1999-05-11 상호정보를 이용한 한국어-영어 질의어 변환방법 및 장치 KR100385863B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-1999-0016791A KR100385863B1 (ko) 1999-05-11 1999-05-11 상호정보를 이용한 한국어-영어 질의어 변환방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-1999-0016791A KR100385863B1 (ko) 1999-05-11 1999-05-11 상호정보를 이용한 한국어-영어 질의어 변환방법 및 장치

Publications (2)

Publication Number Publication Date
KR20000073477A KR20000073477A (ko) 2000-12-05
KR100385863B1 true KR100385863B1 (ko) 2003-06-02

Family

ID=19584775

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-1999-0016791A KR100385863B1 (ko) 1999-05-11 1999-05-11 상호정보를 이용한 한국어-영어 질의어 변환방법 및 장치

Country Status (1)

Country Link
KR (1) KR100385863B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160009916A (ko) 2014-07-17 2016-01-27 동아대학교 산학협력단 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010088527A (ko) * 2001-08-02 2001-09-28 윤성현 번역 소프트웨어의 인터넷 웹 문서 쌍방향 번역 처리방법및 이 번역 소프트웨어를 탑재한 기록매체
KR100956413B1 (ko) * 2008-05-21 2010-05-06 한국과학기술정보연구원 언어 교차 검색 방법 및 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160009916A (ko) 2014-07-17 2016-01-27 동아대학교 산학협력단 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법

Also Published As

Publication number Publication date
KR20000073477A (ko) 2000-12-05

Similar Documents

Publication Publication Date Title
EP0399533B1 (en) Machine translation system and method of machine translation
US5867812A (en) Registration apparatus for compound-word dictionary
KR960038734A (ko) 음성 인식 방법 및 장치
KR100853173B1 (ko) 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템 및그에 적용되는 번역 처리 방법 및 그 훈련방법
KR20190019683A (ko) 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석 방법
KR100481598B1 (ko) 복합 형태소 분석 장치 및 방법
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
Rathod et al. Survey of various POS tagging techniques for Indian regional languages
KR101616031B1 (ko) 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법
KR100385863B1 (ko) 상호정보를 이용한 한국어-영어 질의어 변환방법 및 장치
Smadja et al. Translating collocations for use in bilingual lexicons
Diwakar et al. Transliteration among indian languages using wx notation
KR100617319B1 (ko) 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법
KR101735314B1 (ko) 하이브리드 번역 장치 및 그 방법
JP2007317000A (ja) 機械翻訳装置、その方法およびプログラム
KR940022311A (ko) 기계번역장치 및 방법
Doermann et al. Translation lexicon acquisition from bilingual dictionaries
KR100278310B1 (ko) 확률의존문법을 후향언어모델로 사용하는 연속음성 인식시스템및 그 방법
Bakhshaei et al. Extracting parallel fragments from comparable documents using a generative model
Selvaramalakshmi et al. A novel PSS stemmer for string similarity joins
KR100347055B1 (ko) 한국어 형태소 분석방법
Zheng et al. Grapheme-to-phoneme conversion based on a fast TBL algorithm in mandarin TTS systems
JP2004258759A (ja) テキスト解析装置、方法及びプログラム
Pham et al. Adaptation in Statistical Machine Translation for Low-resource Domains in English-Vietnamese Language
Sahana et al. CASE STUDY ON SPEECH TO SCRIPT TRANSLATION FROM ENGLISH TO BEARY

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110511

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee