KR20000073477A - Method and device of korean-to-english query translation using mutual information - Google Patents

Method and device of korean-to-english query translation using mutual information Download PDF

Info

Publication number
KR20000073477A
KR20000073477A KR1019990016791A KR19990016791A KR20000073477A KR 20000073477 A KR20000073477 A KR 20000073477A KR 1019990016791 A KR1019990016791 A KR 1019990016791A KR 19990016791 A KR19990016791 A KR 19990016791A KR 20000073477 A KR20000073477 A KR 20000073477A
Authority
KR
South Korea
Prior art keywords
query
band
language
mutual information
threshold
Prior art date
Application number
KR1019990016791A
Other languages
Korean (ko)
Other versions
KR100385863B1 (en
Inventor
장명길
박세영
맹성현
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR10-1999-0016791A priority Critical patent/KR100385863B1/en
Publication of KR20000073477A publication Critical patent/KR20000073477A/en
Application granted granted Critical
Publication of KR100385863B1 publication Critical patent/KR100385863B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Abstract

PURPOSE: A Korean-English query conversion method using inter-information and an apparatus thereof are provided for generating a high quality inquiry language by adapting an inter-information to multiple processes of a conversion operation. CONSTITUTION: An inquiry language conversion apparatus using an inter-information includes a keyword extractor(11), a dictionary based inquiry language converter(12), a band language ambiguity overcoming unit(13), an inquiry language word weight providing unit(14), and a band dictionary(15). The keyword extractor(11) extracts a keyword for a search based on a type analysis and a part of a speech tagging with respect to an inquiry language of an original language.

Description

상호정보를 이용한 한국어-영어 질의어 변환방법 및 장치{Method and device of korean-to-english query translation using mutual information}Method and device of korean-to-english query translation using mutual information}

본 발명은 상호정보를 이용한 한국어-영어 질의어 변환방법 및 장치에 관한 것으로, 더욱 자세하게는 사용자로 하여금 질의어의 언어와 다른 언어로 쓰여진 문서를 검색할 수 있게 하는 교차언어 문서검색에 있어서 상호정보를 질의어의 변환 과정의 여러 단계에 적용하여 고품질의 질의어를 생성할 수 있도록 함으로써, 교차언어 문서검색의 정확도를 높여주는 질의어 변환 방법 및 장치에 관한 것이다.The present invention relates to a method and an apparatus for converting Korean-English queries using mutual information, and more particularly, to querying mutual information in a cross-language document search that enables a user to search for a document written in a language different from that of a query language. The present invention relates to a query conversion method and apparatus for improving the accuracy of cross-language document retrieval by enabling high quality query to be applied to various stages of the conversion process.

본 발명은 특히 텍스트 정보검색에서 질의어의 언어와 검색 대상 언어가 다른 경우에 질의어 변환을 통하여 쉽게 다른 언어 문서를 검색할 수 있게 하는 교차언어 문서검색에 있어, 상호정보를 이용하여 질의어 변환시의 대역어 모호성 해소와 질의어 단어 가중치 부여를 통하여 고품질의 대역 질의어를 생성할 수 있는 질의어 변환방법 및 그 장치에 관한 것이다.In the present invention, in the case of cross-language document retrieval that makes it possible to search different language documents easily through query conversion, especially when the language of the query language and the search target language are different in the text information retrieval, the bandword ambiguity in the conversion of the query word using mutual information The present invention relates to a query conversion method and an apparatus capable of generating a high quality band query by resolving and assigning a query word weight.

종래에는 질의어 변환에 의한 교차언어 문서검색에 있어, 단순히 대역사전만을 사용하기 때문에, 많은 단어 모호성을 가진 대역 단어들을 포함하는 변환된 질의어를 이용하여 문서를 검색하면 단일언어 문서검색의 약 40% 내지 60%에 불과한 검색 정확도를 얻는 것으로 알려졌다. 이후에 효과적인 질의어 변환 방법에 대한 연구의 결과로 대역 단어 모호성 해소를 위하여 단어 공기 빈도 정보를 이용하는 방법이나, 시소러스와 같은 단어 개념 정보를 이용하는 방법이 연구되었다. 하지만, 단순히 단어 빈도 정보를 이용하는 경우에 두 단어의 단순한 공기 빈도 절대값을 사용하기 때문에 대량의 텍스트 코퍼스에서 대역 단어의 상대적인 중요도를 결정하는 것이 어려워 대역 모호성 해소에 무리가 있다. 이것은 결국 부정확한 대역어 생성을 낳아 이러한 대역 질의를 사용한 교차언어 문서검색의 성능 하락을 가져오게 된다.Conventionally, in cross-language document search by query conversion, only a band dictionary is used, so when a document is searched using a converted query including band words with many word ambiguities, it is about 40% to one-word search. It is known that the search accuracy is only 60%. Later, as a result of research on effective query conversion method, the method of using word air frequency information to solve band word ambiguity or using word concept information such as the thesaurus was studied. However, in the case of simply using word frequency information, since the simple air frequency absolute value of two words is used, it is difficult to determine the relative importance of band words in a large amount of text corpus. This results in inaccurate band word generation, resulting in poor performance of cross-language document retrieval using these band queries.

따라서, 본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 대역 단어의 공기 정보로 단어의 절대 빈도를 사용하는 대신에 검색 대상의 대규모 텍스트 코퍼스로부터 단어 쌍의 상대적인 공기 정보로 상호정보를 추출하여, 이를 대역 단어의 단어 모호성 해소에 적용하고, 또한 대역어 해소가 되지 않고 남은 대역 단어들에 대하여 질의어 단어 가중치 부여에 이러한 대역 단어의 상호 정보를 적용함으로써, 고품질의 대역 질의어를 생성할 수 있고, 이로 인해 교차언어 문서검색의 검색 정확도를 매우 향상시킬 수 있는 질의어 변환방법 및 그 장치를 제공하는데 있다.Accordingly, the present invention is to solve the above problems of the prior art, an object of the present invention is to replace the relative air of the word pair from the large text corpus of the search target instead of using the absolute frequency of the word as the air information of the band words By extracting the mutual information from the information, applying it to the word ambiguity resolution of the band word, and applying the mutual information of the band word to the query word weighting on the remaining band words without the band word resolution, The present invention provides a method and apparatus for converting a query word, which can generate a, thereby greatly improving the search accuracy of cross-language document search.

도1은 본 발명에 따른 상호정보를 이용한 질의어 변환장치의 블럭 구성도.1 is a block diagram of a query conversion device using mutual information according to the present invention;

도2는 실제 TREC-6의 교차언어 문서검색 환경의 AP통신 코퍼스에서 추출한 검색 질의어들의 상호정보 추출의 예를 나타낸 도면.Fig. 2 is a diagram showing an example of mutual information extraction of search query words extracted from an AP communication corpus in a cross-language document search environment of TREC-6.

도3은 한국어 질의 "자동차 공기 오염"에 대한 대역사전 기반의 질의어 변환 결과에 추출한 상호정보 값을 나타낸 도면.FIG. 3 is a diagram illustrating mutual information values extracted from a band dictionary based query conversion result for Korean query "car air pollution"; FIG.

도4는 TREC-6 교차언어 문서검색 환경에서 본 발명의 질의어 변환 방식의 교차언어 문서검색의 실험 결과를 나타낸 도면.Fig. 4 is a diagram showing the experimental results of the cross-language document search of the query conversion method of the present invention in the TREC-6 cross-language document search environment.

*도면의 주요부분에 대한 부호의 설명* Explanation of symbols for main parts of the drawings

11 : 키워드 추출부11: keyword extraction unit

12 : 사전기반 질의어 변환부12: dictionary-based query conversion unit

13 : 대역어 모호성 해소부13: Bandword ambiguity resolution part

14 : 질의어 단어 가중치 부여부14: query word weighting unit

15 : 대역사전15: Band Dictionary

16 : 영어 코퍼스16: English Corpus

상기 목적을 달성하기 위한 본 발명에 따른 질의어 변환장치는, 교차언어 문서 검색을 위한 질의어 변환장치에 있어서, 원시 언어의 질의어에 대하여 형태소 분석과 품사 태깅에 의하여 검색을 위한 키워드를 추출하는 키워드 추출수단; 대역사전의 탐색을 통해 상기 키워드 추출수단에 의해 추출된 원시 언어 키워드를 다른 언어의 후보 키워드들로 변환하는 질의어 변환수단; 상기 질의어 변환수단에 의해 생성된 후보 대역어들에 대해 대역어 언어의 검색 대상 텍스트 코퍼스로부터 상호 정보를 계산해 상기 상호 정보가 임의의 제1 임계치 이상이 되는 후보 대역어를 최종 질의어로 선택하는 제1 대역 질의어 결정수단; 및 상기 제1 대역 질의어 결정수단에 의해 대역 질의어가 결정되지 않은 단어들에 대해 상기 상호 정보의 크기에 따라 서로 다른 가중치를 부여하여 대역 질의어를 결정하는 제2 대역 질의어 결정수단을 포함한 것을 특징으로 한다.In accordance with an aspect of the present invention, there is provided an apparatus for query query conversion. The apparatus for query query converting a cross-language document includes: keyword extraction means for extracting a keyword for searching by morpheme analysis and part-of-speech tagging of a query language of a source language; ; Query word converting means for converting a source language keyword extracted by said keyword extracting means into candidate keywords of another language by searching a band dictionary; Computing mutual information from the candidate text corpus of the bandword language for the candidate bandwords generated by the query word converting means, and determining a first band query word for selecting a candidate bandword whose final information is equal to or greater than an arbitrary first threshold as a final query. Way; And second band query determining means for determining a band query by giving different weights to words for which the band query is not determined by the first band query determining means according to the size of the mutual information. .

또한, 상기 목적을 달성하기 위한 본 발명에 따른 질의어 변환방법은, 교차언어 문서 검색을 위한 질의어 변환방법에 있어서, 원시 언어의 질의어에 대하여 형태소 분석과 품사 태깅에 의하여 검색을 위한 키워드를 추출하는 제1단계; 대역사전의 탐색을 통해 상기 제1단계에서 추출된 원시 언어 키워드를 다른 언어의 후보 키워드들로 변환하는 제2단계; 상기 제2단계에서 변환된 후보 대역어들에 대해 대역어 언어의 검색 대상 텍스트 코퍼스로부터 상호 정보를 계산하여, 상기 상호 정보가 임의의 제1 임계치 이상이 되는 후보 대역어를 최종 질의어로 선택하는 제3단계; 및 상기 제3단계에서 결정되지 않은 단어들에 대해 상기 상호 정보의 크기에 따라 서로 다른 가중치를 부여하여 최종 대역 질의어를 결정하는 제4단계를 포함한 것을 특징으로 한다.In addition, the query conversion method according to the present invention for achieving the above object, in the query conversion method for cross-language document search, extracting a keyword for the search by morphological analysis and part-of-speech tagging for the query language of the source language Stage 1; A second step of converting a source language keyword extracted in the first step into candidate keywords of another language by searching a band dictionary; Calculating a mutual information from the search target text corpus of the bandword language with respect to the candidate bandwords converted in the second step, and selecting a candidate bandword whose final information is equal to or greater than an arbitrary first threshold as a final query; And a fourth step of determining a final band query by assigning different weights to words not determined in the third step according to the size of the mutual information.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도1은 본 발명에 따른 상호정보를 이용한 질의어 변환장치의 블럭 구성도로서, 도면에서 11은 키워드 추출부, 12는 사전기반 질의어 변환부, 13은 대역어 모호성 해소부, 14는 질의어 단어 가중치 부여부, 15는 대역사전, 16은 영어 코퍼스를 각각 나타낸다.1 is a block diagram of a query conversion apparatus using mutual information according to the present invention, in which 11 is a keyword extraction unit, 12 is a dictionary-based query conversion unit, 13 is a band word ambiguity resolving unit, and 14 is a query word weighting unit. , 15 are band dictionaries, and 16 are English corpus.

본 발명은 원시 질의어로부터 고품질의 목적 질의어를 생성하기 위하여 단순한 대역 사전 뿐만 아니라 검색 문서의 텍스트 코퍼스의 문서로부터 추출한 단어 공기 정보인 상호정보를 이용하는 다단계 질의어 변환 과정을 구성한다. 이 다단계 질의어 변환 과정은 도1과 같이 키워드 추출부(11), 대역 사전 기반 질의어 변환부(12), 대역어 모호성 해소부(13), 그리고 질의어 단어 가중치 부여부(14)를 두어 고품질의 목적 질의어를 생성한다.The present invention constructs a multi-step query conversion process using mutual information, which is word air information extracted from a text corpus of search documents, as well as a simple band dictionary, to generate a high quality target query from a source query. This multi-stage query conversion process includes a keyword extraction unit 11, a band dictionary-based query conversion unit 12, a band word ambiguity elimination unit 13, and a query word weighting unit 14 as shown in FIG. Create

키워드 추출부(11)는 질의어 변환 단계의 첫번째 단계로, 원시 언어의 질의어에 대하여 형태소 분석과 품사 태깅에 의하여 검색을 위한 키워드를 추출한다. 여기서, 품사 태거의 역할은 형태소 분석으로 생성된 다수의 후보 형태소 열로부터 정확한 형태소 열을 얻기 위한 것으로, 이러한 태거 없이는 질의어 변환 과정에 모든 불필요한 키워드들이 모두 검색에 사용되어 검색의 효과를 떨어뜨리게 된다.The keyword extracting unit 11 is a first step of the query conversion step. The keyword extracting unit 11 extracts a keyword for searching by morphological analysis and part-of-speech tagging of the query language of the source language. Here, the part of the part-of-speech tagger is to obtain an accurate morphological sequence from a plurality of candidate morphological columns generated by morphological analysis. Without this tagging, all unnecessary keywords are used in a search process to reduce the effectiveness of the search.

대역 사전 기반 질의어 변환부(12)는 이렇게 키워드 추출부(11)에서 추출된 원시 질의어 키워드에 대하여 대역 사전을 이용해 다른 언어의 대역 단어로 변환하여, 다수개의 후보 대역어를 생성한다. 본 발명의 질의어 변환부(12)에서는 대역 사전 참조가 단어-대-단어(word-by-word) 변환과 구절(phrase-level) 변환으로 이루어진다. 원시 질의어에서 정확한 구의 인식은 구절 참조에 의해 대역 사전의 구절 변환에 의하여 대역 질의어가 찾아지게 되나, 보통 구절 대역사전은 신조어, 전문용어 등의 미등록어(unknown word) 문제와 함께 대역 사전의 완벽한 구축에 어려움이 있다. 실제 질의어 변환에서 미등록 단어로 인한 질의 변환 실패나 교차언어 문서 검색 성능 하락은 많은 부분을 차지하고 있다.The band dictionary-based query term converter 12 converts the raw query keyword extracted by the keyword extractor 11 into band words of another language using a band dictionary to generate a plurality of candidate band words. In the query conversion unit 12 of the present invention, the band dictionary reference is composed of word-by-word conversion and phrase-level conversion. In the original query, the exact phrase recognition is found by the phrase conversion of the band dictionary by the phrase reference, but the phrase band dictionary is usually composed of the band dictionary with the unknown word problem such as new words and terminology. There is a difficulty. In actual query conversion, query conversion failure due to unregistered words or cross-language document retrieval performance are a large part.

대역어 모호성 해소부(13)는 사전기반 질의어 변환부(12)에 의해 생성된 여러 개의 후보 대역어들에 대하여 대역어 모호성을 해소하는데, 이때 대역어 언어의 검색 대상 텍스트 코퍼스로부터 추출한 단어 공기 정보인 상호정보를 활용한다. 즉, 대역어 모호성 해소부(13)는 언어의 텍스트 코퍼스를 통해 단어의 발생 빈도로부터 얻어진 대역어 단어들간의 상호 관련성 정보를 이용해, 상기 상호정보가 임의의 임계치(본 발명의 실시예에서는 2.0) 이상이 되면 상호 이 높은 것으로 인식 하여 이를 최종 대역어로 선택한다. 텍스트 코퍼스로부터 얻는 상호정보 계산식은 수학식 1과 같다.The bandword ambiguity solving unit 13 cancels bandword ambiguity for a plurality of candidate bandwords generated by the dictionary-based query word converting unit 12. In this case, the mutual information, which is word air information extracted from the search target text corpus of the bandword language, is removed. Take advantage. That is, the bandword ambiguity canceling unit 13 uses the correlation information between the bandword words obtained from the frequency of occurrence of the word through the text corpus of the language, so that the mutual information is equal to or greater than an arbitrary threshold value (2.0 in the embodiment of the present invention). If it is, the mutual name is recognized as high and the final band language is selected. The mutual information calculation obtained from the text corpus is shown in Equation 1.

즉, 상호정보는 단어 x와 단어 y가 N 크기의 텍스트 코퍼스 상에서 임의의 문맥(context) 범위(본 발명에서는 두 단어가 함께 나타나는 문맥의 범위 w를 6으로 하여 실험에 의해 얻었음)에서 함께 존재하는 상대적인 통계치이다. 다시말해, 상호정보는 텍스트 코퍼스 상에서 두 단어가 동시에 존재하는 빈도수를 의미한다. 상호정보 MI(x,y)가 임의의 임계치 이상이면 단어의 상호 관련성은 높아, 이를 최종 대역어로 선택할 수 있으나, MI(x,y)가 0보다 적은 값을 가지면 단어 x와 y는 서로 상보적 분포를 가지기 때문에, 이를 대역어 모호성을 해소하는데, 직접적으로 적용할 수 없다. 따라서, 상호정보 값을 대역어 모호성 해소에 적용하기 위하여 적당한 임계값을 두고 대역어 모호성 해소 기준으로 사용한다.That is, the mutual information exists in which the word x and the word y coexist together in an arbitrary context range (in the present invention, obtained by an experiment with a range w of 6 in which the two words appear together) on an N size text corpus. Relative statistics. In other words, mutual information refers to the frequency with which two words exist simultaneously on the text corpus. If the mutual information MI (x, y) is greater than or equal to a certain threshold, the word is highly correlated and can be selected as the final band word.However, if MI (x, y) has a value less than 0, the words x and y are complementary to each other. Since it has a distribution, it is not directly applicable to solving the bandword ambiguity. Therefore, in order to apply the mutual information value to the bandword ambiguity resolution, an appropriate threshold value is used as the bandword ambiguity resolution standard.

도2는 본 발명의 실시 예에서 사용하는 영어 질의어들의 영어 텍스트 코퍼스상에서의 상호정보의 예들을 보여준다.2 shows examples of mutual information on an English text corpus of English query words used in an embodiment of the present invention.

질의어 단어 가중치 부여부(14)는 질의어 변환의 마지막 단계로, 대역어 모호성 해소부(13)에 의해 모호성이 해소되지 않은 단어들에 대해 질의어 가중치를 부여하여 최종 질의어를 선택하는 기능부로, 여기에서 상호정보 값을 이용한다. 이때, 상호정보는 모호성 해소에 적용된 상호정보 임계값보다 작은 값으로 하나 이상 할당되는데, 질의어 단어 쌍들의 상호정보 값의 분포를 고려하여 임의의 구간에서 그 구간 상호정보 값에 대한 상대적인 질의 가중치를 부여하는 방법을 적용한다. 즉, 질의어 단어 가중치 부여부(14)에서는 대역어 모호성 해소부(13)에서 두 단어의 상호정보가 임의의 임계치(2.0) 이하가 되는 경우에 그의 상호정보에 따라 가중치를 부여하여 최종 대역 질의어를 결정한다. 본 발명의 실시예에서는 상호정보가 1보다 크고 2.0보다 작을 경우에는 0.75의 가중치를 부여하고, 1보다 작고 0보다 클 경우에는 0.6의 가중치를 부여한다.The query word weighting unit 14 is a final step of query conversion, and is a function unit that selects a final query by assigning a query weight to words whose ambiguity has not been resolved by the bandword ambiguity canceling unit 13. Use informational values. At this time, the mutual information is assigned one or more values smaller than the mutual information threshold applied to the ambiguity resolution, and given a relative query weight for the interval mutual information value in any interval in consideration of the distribution of the mutual information values of the query word pairs. Apply the method. That is, the query word weighting unit 14 determines the final band query by weighting the mutual information of the two words in the band word ambiguity eliminating unit 13 according to the mutual information when the mutual information of the two words is equal to or less than a certain threshold (2.0). do. In the exemplary embodiment of the present invention, when the mutual information is larger than 1 and smaller than 2.0, a weight of 0.75 is assigned, and when the mutual information is smaller than 1 and larger than 0, a weight of 0.6 is assigned.

상호정보를 이용한 질의어 변환은 도1의 질의어 변환 블록도의 장치들로 수행되는데, 실제 질의어 변환은 원시 질의어와 검색 대상 텍스트 문서 코퍼스(16), 그리고 대역 사전(15)을 필요로 한다. 또한 질의어 변환에 의하여 생성된 질의어들의 품질은 교차언어 문서검색 시스템에 의하여 검색 성능을 비교함으로써 알 수 있다.The query transformation using mutual information is performed with the apparatuses of the query transformation block diagram of FIG. 1, and the actual query transformation requires a raw query, a searched text document corpus 16, and a band dictionary 15. In addition, the quality of the query words generated by the query conversion can be known by comparing the search performance by the cross-language document search system.

일반 대역 사전을 이용한 질의어 변환에서는 대상 질의어의 단어가 여러 개의 대역 단어들로 번역되는 대역 모호성이 발생한다. 예를 들어, 한국어 질의어가 "자동차 공기 오염"인 경우, 이를 대역 사전을 통하여 영어 질의어로의 변환을 수행하면 "자동차"는 "motocar", "automobile", "car"로 변환되고, "공기"는 "air", "atmosphere", "empty vessel", "bowl"로 변환되고, "오염"은 "pollution", "contamination"으로 각각 변환된다. 이들 대역어를 모두 사용하여 검색을 하면 검색 성능의 하락을 가져오게 된다. 본 발명의 상호정보를 활용한 다단계 질의어 변환 방법의 작용은 위의 한국어-영어 질의어 변환과 교차언어 문서검색의 실험에 의하여 그 실시 예를 설명할 수 있다.In query conversion using a general band dictionary, band ambiguity occurs in which a word of a target query word is translated into a plurality of band words. For example, if the Korean query is "Car Air Pollution", converting it to English query language through the band dictionary converts "car" to "motocar", "automobile", "car", and "air" Are converted to "air", "atmosphere", "empty vessel", "bowl", and "contamination" to "pollution" and "contamination", respectively. Searching using all of these band words will result in poor search performance. The operation of the multi-level query conversion method using the mutual information of the present invention can be described by the above-described Korean-English query conversion and cross-language document search experiment.

본 발명의 실시 예에서 사용한 대역어 모호성 해소를 위한 상호정보 임계값은 2.0으로 하였고, 질의어 단어 가중치 부여를 위한 상호정보 구간별 가중치는 도 4와 같이 상호정보 MI가 1.0보다 크면 0.75로하고, 그렇지 않고 상호정보 MI가 0부터 1의 범위에 있으면 0.6으로 하였다.The mutual information threshold value for band word ambiguity resolution used in the embodiment of the present invention was 2.0, and the weight of each information interval for query word weighting is 0.75 when the mutual information MI is greater than 1.0, as shown in FIG. If mutual information MI was in the range of 0 to 1, it was 0.6.

위의 한국어-영어 질의의 변환의 예에서 상호정보를 이용한 대역어 모호성 해소와 질의어 단어 가중치 부여의 실시 예를 설명한다.In the above example of Korean-English query conversion, an embodiment of resolving bandword ambiguity using mutual information and assigning query word weights will be described.

앞의 "자동차 공기 오염"의 한국어 질의의 경우 단순한 대역 사전 기반 질의어 단어 변환에서는 번역 모호성으로 인하여 여러 영어 단어들이 도3과 같이 나타나고, 한국어 단어의 영어 변환 단어들 w1(자동차), w2(공기), w3(오염) 사이의 선에는 각 단어 쌍의 상호정보 MI 값이 계산된다. 단어 w1(자동차)과 w2(공기)사이의 경우 대역 단어 automobile과 air가 가장 큰 상호정보 값을 가짐을 보여주고 있고, 단어 w2(공기)와 w3(오염) 사이의 경우는 air와 pollution이 가장 큰 상호정보 값을 가진다. 따라서, 이 예에서는 대역 단어 air와 pollution의 경우인 도3의 4b가 상호정보 값이 임계값 2를 넘는 대역어 모호성 해소가 적용되어 최종 대역어들로 선택된다.In the case of the Korean query of "car air pollution", in the simple band dictionary-based query word conversion, several English words appear as shown in Fig. 3 due to translation ambiguity, and the English conversion words of the Korean word w1 (car) and w2 (air) In the line between and w3 (pollution), the mutual information MI value of each word pair is calculated. In the case of the words w1 (car) and w2 (air), the band words automobile and air have the largest mutual information value, and in the case of the words w2 (air) and w3 (pollution), air and pollution are the most It has a large mutual information value. Accordingly, in this example, 4b of FIG. 3, which is the case of the band words air and pollution, is selected as the final band words by applying bandword ambiguity resolution of which the mutual information value exceeds the threshold 2.

그 다음은 상호정보를 이용한 질의어 단어 가중치 부여의 실시 예를 살펴본다.Next, an embodiment of query word weighting using mutual information will be described.

대역어 모호성 해소를 위한 상호정보 임계값을 2.0으로 설정하였기 때문에 상호정보 구간 가중치 부여를 위한 상호정보 값은 1.0을 기준으로 하여, 가중치 0.75가 된다. 따라서, 상호정보 MI 값이 1.0과 2.0 사이에 있는 단어 쌍들은 질의어 가중치 값을 0.75를 가지고 나머지 단어 쌍들 n은 1 - 0.75의 값을 n으로 나누어 가지게 된다. 즉, 0.25/n 값이 부여된다. 도3의 예에서 대역 단어 automobile과 air의 경우 도3의 4a는 상호정보 구간별 질의어 가중치 부여에 의하여 질의어 단어 w1(자동차)의 대역 단어들은 각각 (motocar, 0.125), (automobile, 0.75), 그리고 (car, 0.125)의 단어 가중치를 가진다.Since the mutual information threshold for eliminating the wordword ambiguity is set to 2.0, the mutual information value for assigning the mutual information interval weight is 0.75 based on 1.0. Therefore, word pairs having a mutual information MI value between 1.0 and 2.0 have a query weight value of 0.75 and the remaining word pairs n have a value of 1-0.75 divided by n. That is, a value of 0.25 / n is given. In the example of FIG. 3, in the case of the band words automobile and air, 4a of FIG. 3 indicates that the band words of the query word w1 (auto) are (motocar, 0.125), (automobile, 0.75), has a word weight of (car, 0.125).

본 발명의 교차언어 문서검색을 위한 한국어-영어 질의어 변환 방법의 작용은 TREC-6의 교차언어 문서검색 환경에서 실험으로 수행된다. 먼저, 교차언어용 영어 질의어 집합을 수작업을 통해 한국어로 번역하고, 이 질의어를 본 발명의 한국어-영어 질의어 변환 방법 및 장치에 의하여 변환된 영어 질의어를 생성한다. 그리고, 본 발명의 질의어 방법의 교차언어 문서검색 성능 평가를 위한 영어 문서검색 시스템으로 미국 Cornell대학에서 개발한 Smart 11.0 시스템을 사용하여 검색을 수행하였다. 검색 결과는 원래 영어 질의어를 사용하는 경우와 한국어에서 변환된 영어 질의어를 사용하는 경우의 두 가지에 의한 검색 정확도를 11-포인트(point) 평균 정확도로 계산하였다. 이때, 단일언어 문서검색에 대한 교차언어 문서검색 성능 효과가 도5의 실험 결과에서와 같이 평균 약 78.6% 정도에 달했다. 이것은 일반적으로 단순한 대역사전을 사용하는 방법에 비하여 약 20% 정도의 교차언어 문서검색 성능이 향상되었음을 보여준다.The operation of the Korean-English query translation method for cross-language document retrieval of the present invention is experimentally performed in the cross-language document retrieval environment of TREC-6. First, the English language query set for cross-language is translated into Korean by hand, and the English language is converted by the Korean-English query conversion method and apparatus of the present invention. In addition, the search was performed using the Smart 11.0 system developed by Cornell University in the United States as an English document search system for evaluating cross-language document search performance of the query method of the present invention. The search results were calculated with 11-point average accuracy by using the original English query and the conversion of Korean query. At this time, the cross-language document search performance effect on the single-language document search reached an average of about 78.6% as shown in the experimental results of FIG. This shows that the cross-language document retrieval performance is improved by about 20% compared to the simple band dictionary method.

이상 설명한 바와 같이 본 발명에 의하면, 한국어 질의어를 사용하여 영어 문서를 검색하는 한-영 교차언어 문서검색에서 고품질의 영어 질의어를 생성할 수 있어, 높은 성능의 검색 정확도를 얻을 수 있다. 또한, 본 발명은 한국어-영어 질의어 변환 뿐만 아니라 다양한 언어간의 질의어 변환에 적용하여 교차언어 문서검색에 활용할 수 있어 교차언어 문서검색에 의하여 보다 풍부하고 정확한 정보를 획득할 수 있다.As described above, according to the present invention, a high-quality English query can be generated from a Korean-English cross-language document search for searching an English document using a Korean query, and thus a high performance search accuracy can be obtained. In addition, the present invention can be applied to cross-language document search by applying not only Korean-English query language conversion but also query language conversion between various languages, so that richer and more accurate information can be obtained by cross-language document search.

이상에서 본 발명에 대한 기술사상을 첨부도면과 함께 서술하였지만 이는 본 발명의 가장 양호한 실시예를 예시적으로 설명한 것이지 본 발명을 한정하는 것은 아니다. 또한, 이 기술분야의 통상의 지식을 가진 자이면 누구나 본 발명의 기술사상의 범주를 이탈하지 않는 범위 내에서 다양한 변형 및 모방이 가능함은 명백한 사실이다.The technical spirit of the present invention has been described above with reference to the accompanying drawings, but this is by way of example only for describing the best embodiment of the present invention and not for limiting the present invention. In addition, it is obvious that any person skilled in the art can make various modifications and imitations without departing from the scope of the technical idea of the present invention.

Claims (7)

교차언어 문서 검색을 위한 질의어 변환장치에 있어서,In the query converter for cross-language document search, 원시 언어의 질의어에 대하여 형태소 분석과 품사 태깅에 의하여 검색을 위한 키워드를 추출하는 키워드 추출수단;Keyword extracting means for extracting a keyword for searching by querying morphemes and part-of-speech tagging of the source language; 대역사전의 탐색을 통해 상기 키워드 추출수단에 의해 추출된 원시 언어 키워드를 다른 언어의 후보 키워드들로 변환하는 질의어 변환수단;Query word converting means for converting a source language keyword extracted by said keyword extracting means into candidate keywords of another language by searching a band dictionary; 상기 질의어 변환수단에 의해 생성된 후보 대역어들에 대해 대역어 언어의 검색 대상 텍스트 코퍼스로부터 상호 정보를 계산해 상기 상호 정보가 임의의 제1 임계치 이상이 되는 후보 대역어를 최종 질의어로 선택하는 제1 대역 질의어 결정수단; 및Computing mutual information from the candidate text corpus of the bandword language for the candidate bandwords generated by the query word converting means, and determining a first band query word for selecting a candidate bandword whose final information is equal to or greater than an arbitrary first threshold as a final query. Way; And 상기 제1 대역 질의어 결정수단에 의해 대역 질의어가 결정되지 않은 단어들에 대해 상기 상호 정보의 크기에 따라 서로 다른 가중치를 부여하여 대역 질의어를 결정하는 제2 대역 질의어 결정수단Second band query determining means for determining a band query by assigning different weights to words for which the band query is not determined by the first band query determining means according to the size of the mutual information; 을 포함한 것을 특징으로 하는 질의어 변환장치.Query converter comprising a. 제 1 항에 있어서,The method of claim 1, 상기 제1 대역 질의어 결정수단은 계산된 단어간의 상호 정보가 약 2.0이상이면 상기 단어를 최종 대역 질의어로 설정하는 것을 특징으로 하는 질의어 변환장치.And the first band query word determining means sets the word as the final band query word when the calculated mutual information between the words is about 2.0 or more. 제 1 항에 있어서,The method of claim 1, 상기 제2 대역 질의어 결정수단은, 상기 단어간의 상호 정보가 상기 제1 임계치보다는 작고 제2 임계치보다는 큰 경우에는 임의의 제1 가중치를 부여하고, 그렇지 않고 상기 단어간의 상호 정보가 상기 제2 임계치보다는 작고 임의의 제3 임계치보다는 큰 경우에는 임의의 제2 가중치를 부여하는 것을 특징으로 하는 질의어 변환장치.The second band query word determining means assigns an arbitrary first weight when the mutual information between the words is less than the first threshold and greater than the second threshold, and the mutual information between the words is greater than the second threshold. And a second weighted value if it is smaller than the third threshold. 교차언어 문서 검색을 위한 질의어 변환방법에 있어서,In the query conversion method for cross-language document search, 원시 언어의 질의어에 대하여 형태소 분석과 품사 태깅에 의하여 검색을 위한 키워드를 추출하는 제1단계;A first step of extracting a keyword for searching by using morpheme analysis and part-of-speech tagging for a query language of a source language; 대역사전의 탐색을 통해 상기 제1단계에서 추출된 원시 언어 키워드를 다른 언어의 후보 키워드들로 변환하는 제2단계;A second step of converting a source language keyword extracted in the first step into candidate keywords of another language by searching a band dictionary; 상기 제2단계에서 변환된 후보 대역어들에 대해 대역어 언어의 검색 대상 텍스트 코퍼스로부터 상호 정보를 계산하여, 상기 상호 정보가 임의의 제1 임계치 이상이 되는 후보 대역어를 최종 질의어로 선택하는 제3단계; 및Calculating a mutual information from the search target text corpus of the bandword language with respect to the candidate bandwords converted in the second step, and selecting a candidate bandword whose final information is equal to or greater than an arbitrary first threshold as a final query; And 상기 제3단계에서 결정되지 않은 단어들에 대해 상기 상호 정보의 크기에 따라 서로 다른 가중치를 부여하여 최종 대역 질의어를 결정하는 제4단계A fourth step of determining a final band query by giving different weights to words not determined in the third step according to the size of the mutual information; 를 포함한 것을 특징으로 하는 질의어변환방법.Query word conversion method comprising the. 제 4 항에 있어서,The method of claim 4, wherein 상기 제4단계는, 상기 단어간의 상호 정보가 상기 제1 임계치보다는 작고 제2 임계치보다는 큰 경우에는 임의의 제1 가중치를 부여하고, 그렇지 않고 상기 단어간의 상호 정보가 상기 제2 임계치보다는 작고 임의의 제3 임계치보다는 큰 경우에는 임의의 제2 가중치를 부여하여 최종 대역 질의어를 결정하는 것을 특징으로 하는 질의어 변환방법.The fourth step assigns an arbitrary first weight if the mutual information between the words is less than the first threshold and greater than the second threshold, otherwise the mutual information between the words is less than the second threshold and any And if greater than the third threshold, give a final second weight to determine the final band query. 제 5 항에 있어서,The method of claim 5, 상기 제1 임계치는 약 2.0, 상기 제2 임계치는 약 1.0, 상기 제3 임계치는 약 0이고, 상기 제1 가중치는 약 0.75 상기 제2 가중치는 약 0.6인 것을 특징으로 하는 질의어 변환방법.And wherein the first threshold is about 2.0, the second threshold is about 1.0, the third threshold is about 0, and the first weight is about 0.75 and the second weight is about 0.6. 교차언어 문서 검색을 위해 대역 질의어 변환 기능을 실행시키키 위한 프로그램을 기록한 기록매체에 있어서,A recording medium having recorded thereon a program for executing a band query conversion function for cross-language document retrieval, 원시 언어의 질의어에 대하여 형태소 분석과 품사 태깅에 의하여 검색을 위한 키워드를 추출하는 제1단계;A first step of extracting a keyword for searching by using morpheme analysis and part-of-speech tagging for a query language of a source language; 대역사전의 탐색을 통해 상기 추출된 원시 언어 키워드를 다른 언어의 후보 키워드들로 변환하는 제2단계;A second step of converting the extracted source language keyword into candidate keywords of another language by searching a band dictionary; 상기 변환된 다른 언어의 후보 키워드들에 대해 대역어 언어의 검색 대상 텍스트 코퍼스로부터 상호 정보를 계산하여, 상기 상호 정보가 임의의 제1 임계치 이상이 되는 후보 대역어를 최종 질의어로 선택하는 제3단계; 및Calculating a mutual information from candidate text corpus of a bandword language with respect to candidate keywords of the converted other languages, and selecting a candidate bandword whose final information is equal to or greater than an arbitrary first threshold as a final query; And 상기 제3단계에서 결정되지 않은 단어들에 대해 상기 상호 정보의 크기에 따라 서로 다른 가중치를 부여하여 최종 대역 질의어를 결정하는 제4단계A fourth step of determining a final band query by giving different weights to words not determined in the third step according to the size of the mutual information; 를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium having recorded thereon a program for executing the program.
KR10-1999-0016791A 1999-05-11 1999-05-11 Method and device of korean-to-english query translation using mutual information KR100385863B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-1999-0016791A KR100385863B1 (en) 1999-05-11 1999-05-11 Method and device of korean-to-english query translation using mutual information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-1999-0016791A KR100385863B1 (en) 1999-05-11 1999-05-11 Method and device of korean-to-english query translation using mutual information

Publications (2)

Publication Number Publication Date
KR20000073477A true KR20000073477A (en) 2000-12-05
KR100385863B1 KR100385863B1 (en) 2003-06-02

Family

ID=19584775

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-1999-0016791A KR100385863B1 (en) 1999-05-11 1999-05-11 Method and device of korean-to-english query translation using mutual information

Country Status (1)

Country Link
KR (1) KR100385863B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010088527A (en) * 2001-08-02 2001-09-28 윤성현 Bilingual Translation Processing Method in Translation Software For Internet Web Documents
KR100956413B1 (en) * 2008-05-21 2010-05-06 한국과학기술정보연구원 Method and system for language-cross search
KR20160009916A (en) * 2014-07-17 2016-01-27 동아대학교 산학협력단 Query Translator and Method for Cross-language Information Retrieval using Liguistic Resources from Wikipedia and Parallel Corpus

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010088527A (en) * 2001-08-02 2001-09-28 윤성현 Bilingual Translation Processing Method in Translation Software For Internet Web Documents
KR100956413B1 (en) * 2008-05-21 2010-05-06 한국과학기술정보연구원 Method and system for language-cross search
KR20160009916A (en) * 2014-07-17 2016-01-27 동아대학교 산학협력단 Query Translator and Method for Cross-language Information Retrieval using Liguistic Resources from Wikipedia and Parallel Corpus

Also Published As

Publication number Publication date
KR100385863B1 (en) 2003-06-02

Similar Documents

Publication Publication Date Title
EP0399533B1 (en) Machine translation system and method of machine translation
WO2005091167A2 (en) Systems and methods for translating chinese pinyin to chinese characters
KR950004036A (en) Dictionary Search Device
KR100853173B1 (en) Automatic speech interpretation system based on statistical automatic translation mode, translation processing method and training method thereof
KR100481598B1 (en) Apparatus and method for analyzing compounded morpheme
Rathod et al. Survey of various POS tagging techniques for Indian regional languages
KR101616031B1 (en) Query Translator and Method for Cross-language Information Retrieval using Liguistic Resources from Wikipedia and Parallel Corpus
Smadja et al. Translating collocations for use in bilingual lexicons
KR100385863B1 (en) Method and device of korean-to-english query translation using mutual information
Mittal et al. Part of speech tagging of Punjabi language using N gram model
KR100617319B1 (en) Apparatus for selecting target word for noun/verb using verb patterns and sense vectors for English-Korean machine translation and method thereof
Govilkar et al. Part of speech tagger for Marathi language
Saito et al. Multi-language named-entity recognition system based on HMM
Garvin et al. The conversion of phonetic into orthographic English: A machine-translation approach to the problem
Doermann et al. Translation lexicon acquisition from bilingual dictionaries
KR940022311A (en) Machine Translation Device and Method
KR20160085100A (en) Apparatus for Hybride Translation
KR100278310B1 (en) Continuous Speech Recognition System Using Probability Dependent Method as Backward Language Model and Its Method
Selvaramalakshmi et al. A novel PSS stemmer for string similarity joins
Zong et al. An improved template-based approach to spoken language translation.
Zheng et al. Grapheme-to-phoneme conversion based on a fast TBL algorithm in mandarin TTS systems
KR100347055B1 (en) Korean morpheme analyzing method
Pham et al. Adaptation in Statistical Machine Translation for Low-resource Domains in English-Vietnamese Language
KR20090042201A (en) Method and apparatus for automatic extraction of transliteration pairs in dual language documents
CN107239441B (en) Dictionary paraphrasing method and device

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110511

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee