KR101616031B1 - 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법 - Google Patents

위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법 Download PDF

Info

Publication number
KR101616031B1
KR101616031B1 KR1020140090447A KR20140090447A KR101616031B1 KR 101616031 B1 KR101616031 B1 KR 101616031B1 KR 1020140090447 A KR1020140090447 A KR 1020140090447A KR 20140090447 A KR20140090447 A KR 20140090447A KR 101616031 B1 KR101616031 B1 KR 101616031B1
Authority
KR
South Korea
Prior art keywords
query
translation
language
word
wikipedia
Prior art date
Application number
KR1020140090447A
Other languages
English (en)
Other versions
KR20160009916A (ko
Inventor
고영중
김성호
Original Assignee
동아대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동아대학교 산학협력단 filed Critical 동아대학교 산학협력단
Priority to KR1020140090447A priority Critical patent/KR101616031B1/ko
Publication of KR20160009916A publication Critical patent/KR20160009916A/ko
Application granted granted Critical
Publication of KR101616031B1 publication Critical patent/KR101616031B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 위키피디아로부터 손쉽게 다국어 사전을 구축하고 소규모 병렬코퍼스를 사용해서도 번역의 성능을 높일 수 있도록 한 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법에 관한 것으로, 원본 언어로 표현된 질의어가 입력되는 질의 입력 모듈;입력된 원본 언어로 표현된 질의어를 번역 가능한 단위로 질의를 분할하는 질의 분할 모듈;분할된 질의어를 가지고, 구축된 위키피디아의 언어 자원 집합을 이용하여, 질의어를 번역하거나 번역 후보군을 추출하는 질의 번역 모듈;바로 번역되거나 번역 후보군을 갖는 질의어들 간의 상호 의미 관계를 계산하여 최적의 번역 단어를 선택하는 작업을 거쳐 번역 모호성을 제거하는 질의 선택 모듈;최종 목적 언어로 표현된 질의어를 가지고, 검색을 수행하도록 질의어를 출력하는 질의 출력 모듈;을 포함하는 것이다.

Description

위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법{Query Translator and Method for Cross-language Information Retrieval using Liguistic Resources from Wikipedia and Parallel Corpus}
본 발명은 교차언어 검색기의 질의어 번역에 관한 것으로, 구체적으로 위키피디아로부터 손쉽게 다국어 사전을 구축하고 소규모 병렬코퍼스를 사용해서도 번역의 성능을 높일 수 있도록 한 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법에 관한 것이다.
전통적인 정보검색(Information retrieval) 시스템은 질의어(query)로 표현된 사용자의 정보 의도(Inforamtion needs)를 바탕으로 사용자가 원하는 모든 적합한 문서를 찾아주는 것이 주요 목적이다.
하지만, WWW(World Wide Web)의 특성에 따라 인터넷 사용자가 전 세계적으로 늘어나고 있고, 그에 따라서 각 국의 사용자 언어로 표현된 문서는 기하급수적으로 늘고 있다.
이러한 상황에서 전통적인 정보 검색 시스템은 단일 언어로 작성된 문서만을 다루기 때문에 다른 언어로 표현된 유용한 문서는 검색하지 못하는 단점을 가진다.
따라서, 교차언어 정보검색(Cross-language information retrieval) 시스템은 이러한 전통적인 정보검색 시스템의 한계를 넘어서 질의어에 적합한 유용한 다국어 문서(Multilingual document)를 사용자에게 제공할 수 있다는 장점을 가진다.
이러한 사용자의 요구 변화로 인해서 점차적으로 다국어(Multilingual)를 처리할 수 있는 교차언어 정보검색 시스템(Cross-language information retrieval)의 필요성이 대두되고 있다.
교차언어 검색이란 예를 들어 한국어로 질의문을 작성해도 영어로 작성된 관련 문서도 검색 가능하게 하는 기술을 의미하며 이 기술의 핵심 기술이 번역 기술이다.
종래의 질의 번역은 몇 가지 기술을 활용하여 진행되어 왔는데, 첫째 다국어 사전을 구축하여 번역하는 기술, 둘째 대규모의 병렬코퍼스를 이용하여 단어의 번역 확률을 추정하여 활용하는 방법 등이 있다.
하지만, 이들 기술들은 다국어 사전 구축과 대규모 병렬 코퍼스 구축이라는 고비용의 데이터 생성의 과정이 필요하다.
이와 같이 교차언어 정보검색은 원본 언어(Source language)로 표현된 질의어를 기반으로 목적 언어(Target language)로 쓰인 문서들까지 검색하는 시스템을 말한다.
이러한 원본 언어로 표현된 질의어를 목적 언어로 번역하기 위해서는 번역을 위한 사전이나 병렬 말뭉치(Parallel corpus) 등의 정보 집합이 필요하다.
하지만, 이러한 지식 기반의 정보 집합의 구축은 방대한 양의 정보를 필요로 함으로 복잡한 전처리 과정이 필요하고, 정보에 대한 수정 및 보완이 용이하지 않는 단점을 가진다.
대한민국 등록특허 제10-0956413호 대한민국 등록특허 제10-0385863호
본 발명은 이와 같은 종래 기술의 교차언어 정보검색 시스템에서의 문제를 해결하기 위한 것으로, 위키피디아로부터 손쉽게 다국어 사전을 구축하고 소규모 병렬코퍼스를 사용해서도 번역의 성능을 높일 수 있도록 한 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 위키피디아로부터 양질의 다국어 사전을 자동으로 추출하고 소량의 병렬코퍼스로부터 추출된 신뢰도가 낮은 번역 확률을 다국어 사전 정보와 결합하여 높은 성능의 질의문 번역을 할 수 있도록 한 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 신뢰성이 높고, 단어나 구, 고유명사 등의 정보를 방대하게 포함하고 있는 위키피디아를 활용하여 한국어와 영어간의 이중 어휘 목록(Bilingual lexicon) 및 동의어(Synonym), 다의어(Polysemy) 정보를 자동으로 구축하여 질의어 번역을 수행하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 질의 번역 과정에서 발생하는 번역의 모호성을 해결하기 위해서 여러 의미(sense)를 가진 후보 단어들 중에 최적의 단어를 선정하기 위한 과정을 거쳐 최종적으로 번역된 질의어를 얻는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 번역된 질의어에 대한 검색의 성능을 향상시키기 위해서 위키피디아의 본문 단어의 연결(Link) 정보를 바탕으로 무작위 행보 알고리즘(Random walk algorithm)을 활용하여 질의어 확장을 수행하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
이와 같은 목적을 달성하기 위한 본 발명에 따른 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템은 원본 언어로 표현된 질의어가 입력되는 질의 입력 모듈;입력된 원본 언어로 표현된 질의어를 번역 가능한 단위로 질의를 분할하는 질의 분할 모듈;분할된 질의어를 가지고, 구축된 위키피디아의 언어 자원 집합을 이용하여, 질의어를 번역하거나 번역 후보군을 추출하는 질의 번역 모듈;바로 번역되거나 번역 후보군을 갖는 질의어들 간의 상호 의미 관계를 계산하여 최적의 번역 단어를 선택하는 작업을 거쳐 번역 모호성을 제거하는 질의 선택 모듈;최종 목적 언어로 표현된 질의어를 가지고, 검색을 수행하도록 질의어를 출력하는 질의 출력 모듈;을 포함하는 것을 특징으로 한다.
여기서, 질의 번역 모듈은 언어 자원 집합만으로 번역되지 않는 질의어의 경우에는 기계 판독 사전을 이용하여 단어에 대한 번역 후보군을 추출하는 것을 특징으로 한다.
다른 목적을 달성하기 위한 본 발명에 따른 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법은 위키피디아 사전을 구축하는 단계;질의 입력 및 입력 질의의 분리를 통하여 원시 입력 질의를 처리하는 단계;단어별 번역 후보 생성 및 번역 단어 선택 과정을 통하여 목적 언어 번역 질의를 출력하는 질의 번역 단계;질의어 연관 단어 가중치 계산, 상위 K개 단어 선택을 통하여 확장된 목적 언어 번역 질의를 하는 질의 확장 단계;를 포함하는 것을 특징으로 한다.
여기서, 위키피디아 사전을 구축하는 단계는, 단어나 구, 개체명을 번역하기 위한 이중어휘 사전구축, 같은 뜻을 다른 단어로 표현한 동의어 사전 구축, 다른 뜻을 같은 단어로 표현한 다의어 사전구축 과정을 포함하는 것을 특징으로 한다.
그리고 이중어휘 사전구축은 위키피디아의 인터 위키 정보를 활용하여 한국어와 영어 간의 이중 어휘 목록을 구축하는 것을 특징으로 한다.
그리고 동의어 사전 구축에 의한 동의어 집합은, 질의 번역 이전의 경우에는 다양하게 입력된 사용자 질의어에 대한 처리를 위하여 원본 언어의 동의어를 처리하고, 질의 번역 이후의 경우에는 번역된 질의어 이외에 같은 의미의 다른 표현을 추가하기 위해 번역된 목적 언어를 대상으로 동의어를 처리하는 것을 특징으로 한다.
그리고 동의어 집합은 한국어 위키피디아의 '넘겨주기 문서'와 영어 위키피디아의 'Redirect'를 대상으로 추출하는 것을 특징으로 한다.
그리고 다의어 사전구축에 의한 다의어 집합은, 번역의 모호성을 가지고 있는 질의어에 대한 의미 후보군을 추출하기 위한 데이터로 '동음이의어 문서'만을 추출하여 구축하고, 모호성을 가지고 있는 원본 단어와 원본 단어가 해석될 수 있는 여러 주제들, 그 주제에 해당하는 목적 단어로 구축되는 것을 특징으로 한다.
그리고 단어별 번역 후보 생성 과정은, 동의어 사전을 이용한 동의어 처리, 이중 어휘 사전을 이용한 단어별 목적 언어 단어 생성, 다의어 사전을 이용한 다의어 처리를 하여 위키피디아 사전 기반 번역 후보 생성 단계를 포함하는 것을 특징으로 한다.
그리고 번역 단어 선택 과정은, 질의어 번역 후보 열이 추출되면, 병렬코퍼스 기반 번역 확률을 추출하는 단계와, 인덱싱 코퍼스 기반 상호 정보량 계산 단계와, 번역 확률과 상호정보량을 이용한 최적의 번역 질의어 선택을 하는 단계를 통하여, 최적의 번역 질의어를 추출하는 것을 특징으로 한다.
이와 같은 본 발명에 따른 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법은 다음과 같은 효과를 갖는다.
첫째, 위키피디아의 언어자원과 병렬 코퍼스를 이용하여 높은 정확도로 사용자의 질의문을 번역할 수 있다.
둘째, 위키피디아를 언어학적 자원으로 활용함으로써 언어확장성을 높이고, 소량의 병렬 코퍼스만을 요구함으로써 높은 정확률뿐만 아니라 구축 비용을 최소화할 수 있다.
셋째, 여러 의미(sense)를 가진 후보 단어들 중에 최적의 단어를 선정하기 위한 과정을 거쳐 최종적으로 번역된 질의어를 얻어 질의 번역 과정에서 발생하는 번역의 모호성을 해결할 수 있다.
도 1은 본 발명에 따른 교차언어 검색기의 질의어 번역 시스템의 구성도
도 2는 본 발명에 따른 교차언어 검색 과정을 나타낸 플로우 차트
도 3은 단어별 번역 후보 생성 과정을 나타낸 플로우 차트
도 4는 번역 단어 선택 과정을 나타낸 플로우 차트
도 5는 질의어 번역 후보 열의 일 예를 나타낸 구성도
도 6은 병렬코퍼스 기반 번역 확률 추출 계산식을 나타낸 구성도
도 7은 인덱싱 코퍼스 기반 상호 정보량 계산식을 나타낸 구성도
도 8은 번역 확률과 상호정보량을 이용한 최적의 번역 질의어 선택 계산식을 나타낸 구성도
도 9는 최적의 번역 질의어의 일 예를 나타낸 구성도
이하, 본 발명에 따른 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.
본 발명에 따른 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.
도 1은 본 발명에 따른 교차언어 검색기의 질의어 번역 시스템의 구성도이다.
본 발명은 교차언어 정보검색 시스템을 구현하기 위해서 비교적 널리 연구되어지고 있는 질의어 번역(Query translation) 방법을 사용한다.
하지만, 단순한 질의어 번역의 경우에는 질의 단어의 번역 모호성(Translation ambiguity)이 존재하며, 이는 질의어 번역의 고질적인 문제로 교차언어 정보검색 시스템의 성능을 저하시키는 원인이 된다.
따라서 본 발명은 위키피디아가 다국어로 서비스되고 있으며, 신뢰성이 높고, 단어나 구, 고유명사 등의 정보를 방대하게 포함하고 있다는 장점을 활용하여 한국어와 영어 간의 이중 어휘 목록(Bilingual lexicon) 및 동의어(Synonym), 다의어(Polysemy) 정보를 자동으로 구축하여 질의어 번역을 수행한다.
그리고 질의 번역 과정에서 발생하는 번역의 모호성을 해결하기 위해서 여러 의미(sense)를 가진 후보 단어들 중에 최적의 단어를 선정하기 위한 과정을 거쳐 최종적으로 번역된 질의어를 얻게 된다.
번역된 질의어에 대한 검색의 성능을 향상시키기 위해서 위키피디아의 본문 단어의 연결(Link) 정보를 바탕으로 무작위 행보 알고리즘(Random walk algorithm)을 활용하여 질의어 확장을 수행한다.
본 발명에 따른 교차언어 검색기의 질의어 번역 시스템은 도 1에서와 같이, 원본 언어로 표현된 질의어 Qs가 입력되는 질의 입력 모듈(10)과, 입력된 원본 언어로 표현된 질의어 Qs를 번역 가능한 단위로 질의를 분할하는 질의 분할 모듈(20)과, 분할된 질의어를 가지고, 미리 구축했던 위키피디아의 언어 자원 집합(60)을 이용하여, 질의어를 번역하거나 번역 후보군을 추출하는 질의 번역 모듈(30)과, 바로 번역되거나 번역 후보군을 가진 질의어들 간의 상호 의미 관계를 계산하여 최적의 번역 단어를 선택하는 작업을 거쳐 번역 모호성을 제거하는 질의 선택 모듈(40)과, 최종적으로 목적 언어로 표현된 질의어를 가지고, 검색을 수행하도록 질의어를 출력하는 질의 출력 모듈(50)을 포함한다.
여기서, 질의 번역 모듈(30)은 언어 자원 집합만으로 번역되지 않는 질의어의 경우에는 기계 판독 사전을 이용하여 단어에 대한 번역 후보군을 추출한다.
이와 같은 본 발명에 따른 교차언어 검색기의 질의어 번역 시스템은 위키피디아로부터 다국어 사전뿐 아니라 동의어, 다의어 정보를 추출하여 다국어 언어자원을 구축하고, 병렬코퍼스를 확보하여 번역확률을 추출하며, 이 두 가지 정보를 결합하여 가장 높은 번역 질의어를 찾아주는 알고리즘을 이용하여 질의문을 번역한다.
이와 같은 본 발명에 따른 교차언어 검색기의 질의어 번역 시스템은 위키피디아에 존재하는 여러 가지 정보를 이용하여 번역에 유용한 어휘(특히, 고유명사)들에 대한 다국어 사전(동의어, 다의어 포함)을 inter-wiki link, redirect page와 disambiguation page 등을 이용하여 손쉽게 구축할 수 있도록 한 것이다.
또한, 병렬코퍼스를 이용해서 Giza ++ 툴을 사용하면 병렬코퍼스에 출현한 단어들의 번역 확률을 얻을 수 있다.
본 발명에서는 이러한 병렬코퍼스 구축에 많은 비용이 소비된다는 문제를 해결하기 위하여, 적은 양의 병렬코퍼스를 사용하고도 높은 성능의 질의 번역을 수행할 수 있는 번역 기술을 포함한다.
그리고 소스 언어의 번역가능한 타겟단어들의 리스트를 다국어사전을 통해 구할 수 있고 번역 확률과 인덱싱 코퍼스에서 두 단어가 동시에 출현하는 정도를 상호정보량으로 구축한 수치를 활용하여 하나의 번역 질의문을 만들어 낸다.
본 발명에 따른 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법을 구체적으로 설명하면 다음과 같다.
도 2는 본 발명에 따른 교차언어 검색 과정을 나타낸 플로우 차트이다.
본 발명에 따른 교차언어 검색 과정은, 이중어휘 사전구축,동의어 사전 구축,다의어 사전구축 과정을 통하여 위키피디아 사전을 구축하는 단계(S201)와, 질의 입력 및 입력 질의의 분리를 통하여 원시 입력 질의를 처리하는 단계(S202)와, 위키피디아 사전, 기계판독 사전을 이용한 단어별 번역 후보 생성(S203a) 및 병렬코퍼스, 색인 데이터를 이용한 번역 단어 선택(S203b) 과정을 통하여 목적 언어 번역 질의를 출력하는 질의 번역 단계(S203)와, 위키피디아 컨셉 링크 그래프 생성, 무작위 행보 알고리즘을 이용한 질의어 연관 단어 가중치 계산, 상위 K개 단어 선택을 통하여 확장된 목적 언어 번역 질의를 하는 질의 확장 단계(S204)를 포함한다.
위키피디아 사전을 구축하는 단계(S201)에서 위키피디아의 언어 자원 집합(60)은 다음과 같이 생성한다.
언어 자원 집합 생성을 위하여 먼저, 전처리 작업으로 위키피디아에 포함된 정보를 바탕으로 이중 어휘 목록, 동의어 집합, 다의어 집합을 생성한다.
1. 단어나 구, 개체명을 번역하기 위한 이중 어휘 목록
2. 같은 뜻을 다른 단어로 표현한 동의어 집합
3. 다른 뜻을 같은 단어로 표현한 다의어 집합
먼저, 이중 어휘 목록은 위키피디아가 다국어로 서비스되고 있으며, 다국
어 연결 정보인 인터 위키 정보를 위키피디아의 '일반 문서'에서 제공하고있다는 점을 활용하여 구축한다.
한국어 위키피디아에서 어떠한 하나의 개체를 설명하고 있는 일반 문서는 같은 주제에 대해서 한국어 이외의 다른 언어로 표현된 문서가 존재할 수 있다.
위키피디아의 경우에는 같은 주제에 대해서 다른 언어로 표현된 문서가 서비스되고 있다면, 인터 위키 정보를 본문에서 하이퍼텍스트 형태로 제공하여, 다른 언어로 쓰인 주제를 볼 수 있도록 하였다.
따라서, 본 발명에서는 이러한 위키피디아의 인터 위키 정보를 활용하여, 한국어와 영어 간의 이중 어휘 목록을 구축한다.
표 1은 한국어와 영어의 이중 어휘 목록을 구축한 데이터베이스 Scheme 및 구축된 예시이다.
Figure 112014067323796-pat00001
두 번째는 동의어 집합을 생성하는 과정이다.
동의어 집합은 질의어 번역 이전과 질의어 번역 이후에 각각 사용된다. 질의 번역 이전의 경우에는 다양하게 입력된 사용자 질의어에 대한 처리하기 위하여 원본 언어의 동의어를 처리한다.
질의 번역 이후의 경우에는 번역된 질의어 이외에 같은 의미의 다른 표현을 추가하기 위해 번역된 목적 언어를 대상으로 동의어를 처리한다.
동의어 집합은 한국어 위키피디아의 '넘겨주기 문서'와 영어 위키피디아의 'Redirect'를 대상으로 추출한다.
표 2는 동의어 집합을 구축한 데이터베이스 Scheme 및 구축된 예시이다.
Figure 112014067323796-pat00002
마지막으로, 다의어 집합을 생성하는 과정이다.
다의어 집합은 번역의 모호성을 가지고 있는 질의어에 대한 의미 후보군을 추출하기 위한 데이터이다.
다의어 집합을 구축하기 위해서는 '동음이의어 문서'만을 추출하여 구축하고, 모호성을 가지고 있는 원본 단어와 원본 단어가 해석될 수 있는 여러 주제들, 그리고 그 주제에 해당하는 목적 단어로 구축된다.
표 4는 다의어 집합을 구축한 데이터베이스 Scheme 및 구축된 예시이다.
Figure 112014067323796-pat00003
그리고 위키피디아 사전, 기계판독 사전을 이용한 단어별 번역 후보 생성(S203a) 및 병렬코퍼스, 색인 데이터를 이용한 번역 단어 선택(S203b) 과정을 구체적으로 설명하면 다음과 같다.
도 3은 단어별 번역 후보 생성 과정을 나타낸 플로우 차트이고, 도 4는 번역 단어 선택 과정을 나타낸 플로우 차트이다.
단어별 번역 후보 생성 과정은 도 3에서와 같이, 동의어 사전을 이용한 동의어 처리, 이중 어휘 사전을 이용한 단어별 목적 언어 단어 생성, 다의어 사전을 이용한 다의어 처리를 하여 위키피디아 사전 기반 번역 후보 생성 단계(S301)와, 기계 판독 사전을 이용한 위키피디아 사전에 없는 질의어에 대한 번역 후보 생성을 하는 기계 판독 사전 기반 번역 후보 생성 단계(S302)를 통하여 도 5에서와 같은 질의어 번역 후보 열을 추출한다.(S303)
그리고 번역 단어 선택 과정은 도 4에서와 같이, 질의어 번역 후보 열이 추출되면(S303), 병렬코퍼스 기반 번역 확률을 추출하고(S310), 인덱싱 코퍼스 기반 상호 정보량 계산(S320) 및 번역 확률과 상호정보량을 이용한 최적의 번역 질의어 선택을 하여(S330), 최적의 번역 질의어를 추출한다.(S340)
도 6은 병렬코퍼스 기반 번역 확률 추출 계산식을 나타낸 것이고, 도 7은 인덱싱 코퍼스 기반 상호 정보량 계산식을 나타낸 것이다.
그리고 도 8은 번역 확률과 상호정보량을 이용한 최적의 번역 질의어 선택 계산식을 나타낸 것이다.
상기 S330 단계의 번역 확률과 상호정보량을 이용한 최적의 번역 질의어 선택을 하기 위한 계산은 도 8의 계산식에서와 같이,
Figure 112016024333905-pat00015
으로 이루어지고, 원본 질의어
Figure 112016024333905-pat00016
,
목적 질의어
Figure 112016024333905-pat00017
, cij는 목적언어 번역 질의어, sj는 원시 입력 질의어,
Figure 112016024333905-pat00018
는 i번째 목적언어 번역 질의어 번역 점수이다.
이와 같이, 구축한 언어자원 집합을 이용하여 질의어를 번역하거나 번역 후보군을 추출하기 위하여, 먼저 입력된 원본 질의어의 불용어(Stopword)를 제거하고, 번역 가능한 단어나 구로 분할하는 작업을 거친다.
이는 질의어가 단어뿐만 아니라 구나 개체명 단위로 번역될 수 있기 때문이다.
예를 들어, NTCIR-5 데이터의 영어 질의 집합의 1번 질의어인 'Time Warner, American Online (AOL), Merger, Impact'을 번역 가능한 단어나 구로 분할한다고 하면, 'Time', 'Warner', 'Time Warner', 'American', 'Online', 'American Online', 'AOL', 'Merger', 'Impact'로 질의어가 분할된다.
다음으로, 미리 구축해 두었던 언어 자원 집합을 이용하여, 분할된 질의어를 번역하게 된다.
구축된 언어 자원 집합을 이용한 질의어 번역은 분할된 질의 단어를 바탕으로 먼저, 동의어 집합을 거쳐 원본 질의어의 동의어를 처리한다.
이후에 분할된 질의 단어가 모호성을 가지고 있다면, 다의어 집합을 이용해 질의어에 대한 번역 후보군을 추출하고, 분할된 질의 단어가 모호성을 가지지 않는다면, 이중 어휘 목록을 이용하여 바로 번역하게 된다.
따라서, 위의 NTCIR의 영어 테스트 질의를 언어 자원 집합을 이용하여, 질의어를 번역하면 표 4와 같은 결과를 얻을 수 있다.
Figure 112014067323796-pat00004
이후에 각각의 질의어가 번역된 결과에 따라 분할된 질의어 중 최장으로 일치된 번역 단어가 있다면, 최장 일치된 단어만 사용되게 된다.
아울러, 중복된 번역의 경우에는 중복을 제거하게 된다. 그리하여, 최종적으로 언어 자원 집합을 이용하여 번역된 단어는 'Time Warner => 타임워너','American Online => AOL', 'Merger => 인수 합병'으로 번역된다.
하지만, 'Impect'와 같이 위키피디아에 존재하지 않는 단어의 경우와 같이 언어자원 집합을 이용해서는 번역되지 않는 단어가 발생하게 된다.
이와 같이 번역되지 않는 질의어의 경우에는 기계 판독 사전을 사용하여 번역한다.
예를 들어, 번역되지 않은 'Impact'라는 단어는 '충돌', '충격', '영향', '효과', '꽉 밀어 넣다', '강한 충격을 주다' 등의 여러 의미로 해석될 수 있다.
따라서, 이러한 번역 모호성을 가지는 단어에 대해서는 다의어 집합과 같이 번역될 수 있는 모든 후보군을 추출하고, 앞서 번역된 단어들 간의 의미 관계를 계산하여 최종적으로 가장 최적의 번역 단어를 선정하게 된다.
도 9는 최적의 번역 질의어의 일 예를 나타낸 것이다.
그리고 표 5는 원본 질의어를 바탕으로 언어 자원 집합과 기계 판독 사전을 이용하여 번역된 예를 나타낸 것이다.
Figure 112014067323796-pat00005
이와 같이 번역이 확정된 단어의 경우에는 하나의 번역 후보만을 가지게 되고, 번역이 확정되지 않은 단어의 경우에는 여러 개의 번역 후보를 가지고 있다.
최종적으로 번역이 확정되지 않는 단어의 경우에는 확정된 단어들과의 의미 관계를 계산하여, 가장 최적의 번역 단어를 선정하게 된다
이와 같은 본 발명에 따른 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법은 위키피디아 활용과 소량의 병렬코퍼스를 이용함으로써 보다 확장성 높고, 저비용의 고성능 질의문 번역기를 개발함으로써 다국어로 작성되는 빅데이터 분석에 활용될 수 있도록 한 것이다.
이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.
그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
10. 질의 입력 모듈 20. 질의 분할 모듈
30. 질의 번역 모듈 40. 질의 선택 모듈
50. 질의 출력 모듈 60. 언어 자원 집합

Claims (9)

  1. 원본 언어로 표현된 질의어가 입력되는 질의 입력 모듈;
    입력된 원본 언어로 표현된 질의어를 번역 가능한 단위로 질의를 분할하는 질의 분할 모듈;
    분할된 질의어를 가지고, 구축된 위키피디아의 언어 자원 집합을 이용하여, 질의어를 번역하거나 번역 후보군을 추출하는 질의 번역 모듈;
    바로 번역되거나 번역 후보군을 갖는 질의어들 간의 상호 의미 관계를 계산하여 최적의 번역 단어를 선택하는 작업을 거쳐 번역 모호성을 제거하는 질의 선택 모듈;
    최종 목적 언어로 표현된 질의어를 가지고, 검색을 수행하도록 질의어를 출력하는 질의 출력 모듈;을 포함하고,
    상기 질의 선택 모듈은 질의어 번역 후보 열이 추출되면, 병렬코퍼스 기반 번역 확률을 추출하고, 인덱싱 코퍼스 기반 상호 정보량 계산하여 번역 확률과 상호정보량을 이용한 최적의 번역 질의어 선택을 하고, 번역 확률과 상호정보량을 이용한 최적의 번역 질의어 선택 계산은,
    Figure 112016024333905-pat00019
    으로 이루어지고, 원본 질의어
    Figure 112016024333905-pat00020
    ,
    목적 질의어
    Figure 112016024333905-pat00021
    , cij는 목적언어 번역 질의어, sj는 원시 입력 질의어,
    Figure 112016024333905-pat00022
    는 i번째 목적언어 번역 질의어 번역 점수인 것을 특징으로 하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템.
  2. 위키피디아 사전을 구축하는 단계;
    질의 입력 및 입력 질의의 분리를 통하여 원시 입력 질의를 처리하는 단계;
    단어별 번역 후보 생성 및 번역 단어 선택 과정을 통하여 목적 언어 번역 질의를 출력하는 질의 번역 단계;
    질의어 연관 단어 가중치 계산, 상위 K개 단어 선택을 통하여 확장된 목적 언어 번역 질의를 하는 질의 확장 단계;를 포함하고,
    번역 단어 선택 과정은,
    질의어 번역 후보 열이 추출되면, 병렬코퍼스 기반 번역 확률을 추출하는 단계와, 인덱싱 코퍼스 기반 상호 정보량 계산 단계와, 번역 확률과 상호정보량을 이용한 최적의 번역 질의어 선택을 하는 단계를 포함하고,
    번역 확률과 상호정보량을 이용한 최적의 번역 질의어 선택 계산은,
    Figure 112016024333905-pat00023
    으로 이루어지고, 원본 질의어
    Figure 112016024333905-pat00024
    ,
    목적 질의어
    Figure 112016024333905-pat00025
    , cij는 목적언어 번역 질의어, sj는 원시 입력 질의어,
    Figure 112016024333905-pat00026
    는 i번째 목적언어 번역 질의어 번역 점수인 것을 특징으로 하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법.
  3. 제 2 항에 있어서, 위키피디아 사전을 구축하는 단계는,
    단어나 구, 개체명을 번역하기 위한 이중어휘 사전구축, 같은 뜻을 다른 단어로 표현한 동의어 사전 구축, 다른 뜻을 같은 단어로 표현한 다의어 사전구축 과정을 포함하는 것을 특징으로 하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법.
  4. 제 3 항에 있어서, 이중어휘 사전구축은 위키피디아의 인터 위키 정보를 활용하여 한국어와 영어 간의 이중 어휘 목록을 구축하는 것을 특징으로 하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법.
  5. 제 3 항에 있어서, 동의어 사전 구축에 의한 동의어 집합은,
    질의 번역 이전의 경우에는 다양하게 입력된 사용자 질의어에 대한 처리를 위하여 원본 언어의 동의어를 처리하고,
    질의 번역 이후의 경우에는 번역된 질의어 이외에 같은 의미의 다른 표현을 추가하기 위해 번역된 목적 언어를 대상으로 동의어를 처리하는 것을 특징으로 하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법.
  6. 제 5 항에 있어서, 동의어 집합은 한국어 위키피디아의 '넘겨주기 문서'와 영어 위키피디아의 'Redirect'를 대상으로 추출하는 것을 특징으로 하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법.
  7. 제 3 항에 있어서, 다의어 사전구축에 의한 다의어 집합은,
    번역의 모호성을 가지고 있는 질의어에 대한 의미 후보군을 추출하기 위한 데이터로 '동음이의어 문서'만을 추출하여 구축하고,
    모호성을 가지고 있는 원본 단어와 원본 단어가 해석될 수 있는 여러 주제들, 그 주제에 해당하는 목적 단어로 구축되는 것을 특징으로 하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법.
  8. 제 2 항에 있어서, 단어별 번역 후보 생성 과정은,
    동의어 사전을 이용한 동의어 처리, 이중 어휘 사전을 이용한 단어별 목적 언어 단어 생성, 다의어 사전을 이용한 다의어 처리를 하여 위키피디아 사전 기반 번역 후보 생성 단계를 포함하는 것을 특징으로 하는 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 방법.
  9. 삭제
KR1020140090447A 2014-07-17 2014-07-17 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법 KR101616031B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140090447A KR101616031B1 (ko) 2014-07-17 2014-07-17 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140090447A KR101616031B1 (ko) 2014-07-17 2014-07-17 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20160009916A KR20160009916A (ko) 2016-01-27
KR101616031B1 true KR101616031B1 (ko) 2016-04-28

Family

ID=55309262

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140090447A KR101616031B1 (ko) 2014-07-17 2014-07-17 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101616031B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897274B (zh) * 2017-01-09 2020-07-14 北京众荟信息技术股份有限公司 一种跨语种的点评复述方法
KR102509822B1 (ko) 2017-09-25 2023-03-14 삼성전자주식회사 문장 생성 방법 및 장치
KR102141346B1 (ko) * 2018-06-15 2020-08-05 부산외국어대학교 산학협력단 단어 의미분석 및 단어 번역지식을 기반으로한 문장 번역 방법 및 장치
KR102395811B1 (ko) * 2021-11-24 2022-05-09 주식회사 엘솔루 기계번역 모델을 위한 한문고서 말뭉치 증강방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100385863B1 (ko) * 1999-05-11 2003-06-02 한국전자통신연구원 상호정보를 이용한 한국어-영어 질의어 변환방법 및 장치
KR100956413B1 (ko) 2008-05-21 2010-05-06 한국과학기술정보연구원 언어 교차 검색 방법 및 시스템
EP2691845A4 (en) * 2010-06-03 2018-01-10 Thomson Licensing DTV Semantic enrichment by exploiting top-k processing

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
D.Nguyen 외, WikiTranslate: Query Translation for Cross-lingual Information Retrieval using only Wikipedia, 9th Workshop CLEF 2008/2009, pp.58-65, 2009.
김성호, 위키피디아에 기반한 영어-한국어 간의 교차언어 정보검색에서의 질의어 번역 및 확장, 동아대 석사학위 논문, 2011.*

Also Published As

Publication number Publication date
KR20160009916A (ko) 2016-01-27

Similar Documents

Publication Publication Date Title
US20070011132A1 (en) Named entity translation
Jang et al. Using mutual information to resolve query translation ambiguities and query term weighting
KR101616031B1 (ko) 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법
CN111428031B (zh) 一种融合浅层语义信息的图模型过滤方法
Aasha et al. Machine translation from English to Malayalam using transfer approach
Sharma et al. Exploiting Wikipedia API for Hindi-English cross-language information retrieval
Souza et al. Extraction of keywords from texts: an exploratory study using Noun Phrases
Dadashkarimi et al. A probabilistic translation method for dictionary-based cross-lingual information retrieval in agglutinative languages
Bajpai et al. Cross language information retrieval: In indian language perspective
Gupta et al. Quality Estimation of Machine Translation Outputs Through Stemming
Al-Taani et al. Searching concepts and keywords in the Holy Quran
JP2004348514A (ja) 対訳語抽出方法、対訳辞書構築方法及び翻訳メモリ構築方法
Fan et al. Automatic extraction of bilingual terms from a chinese-japanese parallel corpus
Iswarya et al. Adapting hybrid machine translation techniques for cross-language text retrieval system
Giang et al. Building Structured Query in Target Language for Vietnamese English Cross Language Information Retrieval Systems
Kharate et al. Survey of Machine Translation for Indian Languages to English and Its Approaches
Pishartoy et al. Extending capabilities of English to Marathi machine translator
Wang et al. Web-based pattern learning for named entity translation in Korean–Chinese cross-language information retrieval
Ghaffar et al. English to arabic statistical machine translation system improvements using preprocessing and arabic morphology analysis
Mohamed et al. Semantic relatedness based query translation disambiguation approach for cross-language web search
Simões et al. Enriching a portuguese wordnet using synonyms from a monolingual dictionary
JPH04130578A (ja) 未登録語検索方法および装置
Liu et al. A CLIR-oriented OOV translation mining method from bilingual webpages
JP2002269085A (ja) 機械翻訳装置及び方法
Liu et al. Shared Word Embedding Space Modeling Method Based on Orthogonal Projection

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190409

Year of fee payment: 4