KR100463376B1 - 원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법 - Google Patents

원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법 Download PDF

Info

Publication number
KR100463376B1
KR100463376B1 KR10-2002-0078215A KR20020078215A KR100463376B1 KR 100463376 B1 KR100463376 B1 KR 100463376B1 KR 20020078215 A KR20020078215 A KR 20020078215A KR 100463376 B1 KR100463376 B1 KR 100463376B1
Authority
KR
South Korea
Prior art keywords
language
cluster
translation
target language
sentences
Prior art date
Application number
KR10-2002-0078215A
Other languages
English (en)
Other versions
KR20040050394A (ko
Inventor
유초롱
윤승
최미란
오승신
박준
이영직
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2002-0078215A priority Critical patent/KR100463376B1/ko
Publication of KR20040050394A publication Critical patent/KR20040050394A/ko
Application granted granted Critical
Publication of KR100463376B1 publication Critical patent/KR100463376B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 원시언어로 입력되는 문장을 자동 번역하여 대상언어로 출력하는 번역엔진 장치, 그 번역방법 및 상기 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독가능한 기록매체에 관한 것이다.
이를 위하여 본 발명은, 원시언어의 클러스터와 매핑되는 대상언어의 클러스터를 저장하고 있는 매핑 테이블; 입력되는 원시언어 문장에서 직접 번역이 가능한 문장을 직접 번역하는 직접번역부; 상기 입력된 원시언어 문장의 형태소 분석을 통하여 상기 원시언어 문장 내에서 핵심이 되는 언어는 유지하고, 다른 부분은 은닉시켜 상기 문장의 구조를 단순화하는 전처리부; 상기 구조단순화 과정을 거친 상기 원시언어 문장을 번역단위인 클러스터로 나누는 클러스터링부; 상기 매핑 테이블을 이용하여 상기 원시언어의 클러스터에 매핑되는 대상언어의 클러스터를 결정하는 매핑부; 및 상기 대상언어의 클러스터들의 순서를 재배치하고, 상기 대상언어를 완성된 문장 형태로의 복원을 수행하는 후처리 및 생성부를 포함한다.
본 발명에 따르면, 대화체 문장을 대상으로 여러 도메인 환경에서 사용가능하고, 사용자 인터페이스에 상관없이 독립적인 번역엔진으로서 사용가능하다.

Description

원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법{A Translation Engine Apparatus for Translating from Source Language to Target Language and Translation Method thereof}
본 발명은 언어 번역 시스템에 관한 것으로서 보다 상세하게는, 원시언어로 입력되는 문장을 자동 번역하여 대상언어로 출력하는 번역엔진 장치 및 그 번역방법, 그리고 상기 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
자동번역 시스템은 대화체 음성인식 기술, 언어번역 기술, 음성합성 기술의 요소기술과 더불어 요소기술간의 정합 및 제어를 다루는 시스템통합기술이 어우러진 복합기술로서, 현재에도 음성정보처리산업 전 분야에 걸쳐 영향을 미치고 있으며, 앞으로 더 큰 영향을 미칠 것이다.
자동통역 기술은 아직 미개척 분야로서 적기에 연구를 추진하여 이에 대한 기술 경쟁력을 확보할 수 있다. 1993년 미국, 일본, 독일 3국간 초보적인 시연을 통하여 자동통역기술의 실용화 가능성이 확인된 이래 선진국 중심으로 기술개발이 진행되고 있으나, 현재 전 세계적으로 해결되지 않은 기술을 확보하는 기술 연구형으로 아직 본격적인 실용화를 위해서는 더 많은 연구가 필요한 상태이고, 다국어간 효율적인 자동통역을 위한 표준화 작업이 태동하고 있는 시점에서 자동통역 시스템의 코아부분인 번역엔진의 개발을 추진함으로써 언어번역 기술 발전에 큰 영향을 미칠 수 있다.
자동통역 기술의 완성도는 세계적으로 아직 높지 않으나, 현재 기술력으로도 작업의 내용이 명확히 정의된 여러 제한된 응용분야에 대해서는 가까운 장래에 자동통역 시스템이 구현가능하고, 코아 핵심부분은 번역엔진의 기술개발 역시 화두로 떠오르고 있다. 그러므로 자동통역 시장의 선점을 위해서는 적기에 번역엔진에 대한 연구개발이 필요하다.
최근 세계화의 가속화로 인한 국가간 인적, 물적 교류가 빈번해 지고 있으며, 개인적인 관광과 여행을 목적으로 해외에 나가는 경우가 많아짐에 따라서, 외국어에 대한 필요성이 한층 더 가중되고 있다. 현재 외국어 사용이 잦은 사람들을 위해 휴대용 통역기 등의 사용이 보편화되고 전화만을 이용한 자동통역서비스 등은 사용자가 손쉽게 자동통역 시스템에 접근할 수 있도록 해주고 있다.
기존의 자동통역 시스템에서의 번역방법 중 중간언어를 사용하여 번역을 수행하는 방법이 있었다. 중간언어 체계는 원시언어와 중간언어 사이의 번역, 중간언어와 대상언어 사이의 번역단계가 전체 번역엔진을 구성하고 있다. 이 방법의 잇점은 각 언어와 중간언어 사이의 번역엔진만 작성하면 중간언어 체계를 사용하는 여러 외국어 사이의 자동통역이 가능하다. 그러나 중간언어를 정의 하는데 있어서 한정된 도메인 상에서 제한된 구성을 가지고 있으므로 확장이 용이하지 않다는 단점이 있었다.
한편, 대한민국 특허출원 제2002-63736호에는, 제1 언어로 입력되는 음성을 인식하여 제2 언어로 재생 출력시키는 통역 장치 및 그 방법이 개시되어 있다. 상기 통역 장치는 음성인식모듈, 번역모듈, 음성재생모듈, 저장모듈 및 상기 각 모듈을 제어하는 제어모듈을 구비하여, 외부에서 입력된 제1언어의 음성을 인식하고 상기 음성을 기저장된 문장과 비교하여 유사문장을 검출한 후, 상기 제1언어의 유사문장을 사용자가 지정한 제2언어로 번역하고 상기 번역된 제2언어의 문장을 음성재생하여 출력하는 것이다. 그러나, 상기 통역장치 및 방법에서는 입력되는 음성을 정확하게 인식하지 못하는 경우 잘못된 통역 결과를 가져올 수 있으며, 이러한 음성인식 분야를 적용하는데 기술적인 어려움이 있다. 또한, 통역 장치나 기타 번역이 필요한 여러 시스템에 접목하여 사용하기 위해서는 별도의 인터페이스를 구현해야 하는 번거로움이 있었다.
본 발명은, 상술한 바와 같이 중간언어를 사용함으로써 발생하는 문제점과 통역 장치나 기타 번역이 필요한 여러 시스템과의 인터페이스 문제점을 해결하기 위해 제안된 것으로서, 텍스트 형식의 원시언어를 입력 받아 이를 자동 통역하여완전한 형태의 대상언어로 출력하고, 대화체 문장을 대상으로 여러 도메인 환경에서 사용이 가능하며, 입력 데이터 형태를 통일하는 경우 통역 또는 번역 시스템과의 인터페이스에 상관 없이 독립적으로 사용이 가능하게 하는 통역을 위한 번역엔진 장치 및 그 통역방법을 제공하는데 그 목적이 있다.
도 1은 본 발명의 일실시예에 따른 번역엔진 장치의 구성도이다.
도 2는 본 발명의 일실시예로 한국어 및 영어 클러스터 테이블의 일부를 도시한 개략도이다.
도 3은 본 발명의 일실시예에 따른 매핑 테이블의 일부를 도시한 개략도이다.
도 4는 본 발명의 일실시예에 따른 재배치 테이블의 일부를 도시한 개략도이다.
도 5는 본 발명의 일실시예에 따른 번역엔진의 번역과정을 보이는 흐름도이다.
* 도면의 주요 부분에 대한 부호의 설명 *
100 : 입력부 200 : 제어부
300 : 출력부 400 : 언어번역엔진부
401 : DTST처리부 402 : 전처리부
403 : NCCT 처리부 404 : 클러스터링부
405 : 매핑부 406 : 후처리 및 생성부
407 : 클러스터링 테이블 408 : 매핑 테이블
409 : 재배치 테이블
상기 목적을 달성하기 위한 본 발명에 따른 번역엔진 장치는, 원시언어의 클러스터와 매핑되는 대상언어의 클러스터를 저장하고 있는 매핑 테이블; 입력되는 원시언어 문장에서 직접 번역이 가능한 문장을 직접 번역하는 직접번역부; 상기 입력된 원시언어 문장의 형태소 분석을 통하여 상기 원시언어 문장 내에서 핵심이 되는 언어는 유지하고, 다른 부분은 은닉시켜 상기 문장의 구조를 단순화하는 전처리부; 상기 구조단순화 과정을 거친 상기 원시언어 문장을 번역단위인 클러스터로 나누는 클러스터링부; 상기 매핑 테이블을 이용하여 상기 원시언어의 클러스터에 매핑되는 대상언어의 클러스터를 결정하는 매핑부; 및 상기 대상언어의 클러스터들의 순서를 재배치하고, 상기 대상언어를 완성된 문장 형태로의 복원을 수행하는 후처리 및 생성부를 포함한다.
또한, 상기 목적을 달성하기 위한 본 발명에 따른 번역엔진의 번역방법은, 입력된 원시언어 문장을 확인하여 직접 번역이 가능한 문장은 직접 번역하고, 나머지 문장은 형태소 분석을 통하여 상기 원시언어 문장 내에서 핵심이 되는 언어는 유지하고, 다른 부분은 은닉시켜 상기 문장의 구조를 단순화하는 전처리단계; 상기단순화된 원시언어 문장을 번역단위인 클러스터 단위로 나누는 클러스터링단계; 원시언어 클러스터 및 대상언어 클러스터 쌍을 저장한 매핑 테이블을 검색하여 상기 원시언어의 클러스터에 해당하는 대상언어의 클러스터를 결정하는 매핑단계; 및 상기 결정된 대상언어 클러스터를 재배치하고 완전한 문장형태로 복원하는 후처리단계를 포함한다.
또한, 상기 목적을 달성하기 위한 본 발명은, 입력된 원시언어 문장을 확인하여 직접 번역이 가능한 문장은 직접 번역하고, 나머지 문장은 형태소 분석을 통하여 상기 원시언어 문장 내에서 핵심이 되는 언어는 유지하고, 다른 부분은 은닉시켜 상기 문장의 구조를 단순화하는 전처리기능; 상기 단순화된 원시언어 문장을 번역단위인 클러스터 단위로 나누는 클러스터링기능; 원시언어 클러스터 및 대상언어 클러스터 쌍을 저장한 매핑 테이블을 검색하여 상기 원시언어의 클러스터에 해당하는 대상언어의 클러스터를 결정하는 매핑기능; 및 상기 결정된 대상언어 클러스터를 재배치하고 완전한 문장형태로 복원하는 후처리기능을 실현시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 기록매체를 제공한다.
이하, 본 발명의 바람직한 실시예를 첨부한 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 번역엔진 장치의 구성도이다. 도 1을 참조하면, 본 발명에 따른 번역엔진 장치는, 입력데이터로 사용되는 원시언어 텍스트 문장의 입력을 처리하는 입력부(100), 상기 입력부(100)를 통해 외부에서 텍스트 형식의 원시언어가 들어오면, 상기 원시언어의 직접 번역을 위한 소정의 전처리 과정을 수행한 후 원시언어를 직접 번역하는 DTST(Direct Translation Sentence Table)처리부(401), 상기 입력된 원시언어의 형태소 분석 과정을 거쳐 문장 구조를 단순화하여 핵심 골격이 되는 부분을 유지하게 하는 전처리부(402), 상기 전처리 과정을 거친 후 클러스터링 되지 않고 남게될 품사의 연쇄체에 대한 대역 품사 연쇄체를 검색하는 NCCT(Not-Clustered Contents Table)처리부(403), 상기 전처리부(402)에서 단순화된 원시언어 문장을 번역단위인 클러스터로 나누는 클러스터링부(404), 상기 원시언어의 클러스터에 해당하는 대상언어의 클러스터를 매핑 테이블에서 검색하는 매핑부(405), 상기 매핑된 대상언어의 클러스터들 사이의 순서를 재정렬하고, 완전한 문장으로 만들기 위한 다수의 후처리 및 생성과정을 거쳐 완전한 형태의 대상언어 문장을 생성해 내는 후처리 및 생성부(406), 사용자가 입력한 원시언어 문장을 번역된 대상언어 형태로 출력하는 출력부(300) 및 상기 각 기능부의 동작을 결정하고 상기 번역엔진의 전반적인 동작을 제어하는 제어부(200)로 구성된다.
도 1을 참조하여, 본 발명에 따른 번역엔진 장치의 동작을 설명한다. 도 1에 도시된 바와 같이, 상기 입력부(100)는 음성신호가 음성인식된 결과인 텍스트 형태이거나, 사용자가 키보드 등의 입력장치 등을 이용하여 원시언어 문장을 입력하는기능을 담당한다.
상기 DTST처리부(401)는 상기 입력된 원시언어 중에서 직접 번역이 가능한 관용문장 등에 대한 번역이 이루어진다. 예를 들어, '안녕하세요'라는 관용어는 형태소 분석 과정을 거칠 필요 없이 바로 'hello'로 직접 번역한다. 이와 같이, 상기 직접번역부는 원시언어의 관용어 또는 관용문장에 해당하는 대상언어를 저장하고 있으며, 원시언어와 대상언어의 매핑 쌍으로 이루어진 DTST 테이블(미도시)을 이용하여 직접 번역을 수행한다. 여기서, 상기 DTST 테이블은 원시언어와 대상언어의 완전한 문장형태가 매핑된 테이블 구조가 아니라, 원시언어의 경우 DTST 처리부(401)에서 간단한 전처리 과정을 거친 후 해당되는 대상언어와 대응된다. 상기한 간단한 전처리 과정은 예를 들어, 원시언어가 한국어인 경우 '안녕하세요'와 '안녕하십니까','안녕'과 같은 경우를 고려한 것이다. '하세요', '하십니까'와 같은 어미의 변화에도 영어를 대상언어로 번역되면 'hello'가 된다. 이를 위해 원시언어에 대한 간단한 전처리 과정을 통해 번역과정에서 영향을 미치지 않는 어미 등의 처리를 거친 후 DTST 테이블을 구성하게 된다. 이와 같이, 직접 번역이 가능한 문장은 전처리 과정없이 번역결과를 출력부(300)로 보내고, 그렇지 않은 입력문장들은 상기 전처리부(402)에서 전처리과정을 거친 후 다음 번역과정으로 이전된다.
상기 전처리부(402)는 형태소 분석 기능을 수행한다. 대화체 문장과 같은 특수한 형태의 문장을 대상으로 하는 번역엔진을 구축하기 위해서는, 대화체에서만 사용되는 문형적 특징을 추출하여 번역에 사용할 수 있어야 한다. 이를 위해서 형태소 분석과정에서 대화체 문장을 위한 형태소 사전과 품사 n-gram/bi-gram 정보가필요하다. 상기 전처리부(402)에서 사용하는 형태소 분석기는, 그 대상으로 하는 문장 특성에 적합한 형태이어야 한다. 형태소 분석을 통하여 입력된 원시언어 문장에 대한 형태소 분석 결과를 구조 단순화 작업을 거쳐 문장 내에서 핵심 골격이 되는 부분만을 유지하고, 그 이외의 부분은 데이터를 은닉시켜 다음 단계의 NCCT 처리부(403)의 입력데이터로 넘겨준다. 상기 전처리부(402)에서는 명사의 경우, 형태소 분석 결과만을 사용하지 않고 의미 기반 분류작업을 통해 대표 명사 집합을 구성하는 방법으로 구조단순화 작업을 수행한다.
상기 NCCT 처리부(403)는 상기한 바와 같이, 상기 입력된 원시언어가 전처리 과정을 거친 후, 이후에 클러스터링부(404)에서 클러스터링되지 않고 남게될 품사 연쇄들에 대한 정보를 포함하고 있는 NCCT 테이블(미도시)을 이용하여 미리 그 해당하는 대역 품사 연쇄체를 검색한다.
상기 클러스터링부(404)는 상기와 과정을 거친 후의 원시언어를 토대로 번역단위로 클러스터링(clustering)한다. 여기서, 클러스터링이란 상기 입력데이터를 클러스터(cluster) 단위로 나누는 것을 말한다. 일반적으로, PC의 저장기술 측면에서의 클러스터는 하드디스크 위에 파일을 저장하는 논리적 단위이며, 컴퓨터의 운영체계에 의해 관리된다. 파일이 하드디스크에 저장되면 적어도 하나 이상의 클러스터를 차지하게 되며, 아주 커다란 파일인 경우 여러 개의 클러스터에 걸쳐 저장되는 수도 있다. 그러나, 비록 하나의 파일이 여러 개의 클러스터에 나뉘어 있다고 해도, 이 클러스터들이 항상 연속되어 있어야만 하는 것은 아니며, 하드디스크의 이곳 저곳에 흩어져 있는 것도 가능하다. 본 발명에 따른 번역엔진 장치에서 사용되는 번역단위는 구를 기반으로 하여 2-3개의 어절을 포함한 하나의 클러스터가 된다. 상기 구는 기존의 문법에서 정의된 구와는 달리, 통계적으로 유의미한 품사(또는 형태소) 연쇄체를 의미한다.
상기 전처리가 끝난 말뭉치(language corpora)에서 우선 모든 가능한 일정 길이의 품사(또는 형태소) 연쇄체를 찾아낸 후, 상기 연쇄체 중 정해진 임계치를 넘어서 클러스터로 인정할 수 있는 연쇄체를 상기 클러스터링 테이블(407)에 저장함으로써 클러스터링한다. 이때, 상기 품사(또는 형태소)의 일정 길이는 언어에 따라 다르며, 상기 임계치 역시 말뭉치 크기와 언어에 따라 달라진다.
도 2는 본 발명의 일실시예로 한국어 및 영어 클러스터 테이블의 일부를 도시한 것이다. 도 2(a)에서 모아진 한국어 클러스터 테이블의 일례에서, 영문자는 품사, 상세하게는 형태소 태그를 의미하고, 한국어는 형태소를 의미한다. 그리고, 단위는 공백 문자를 기준으로 센 것이다.
도 2(a)에서 'ncn+jco 하/pvg(2단위)'의 경우를 살펴보면 다음과 같다.
1) 'ncn+jco' : 비서술성 명사+목적격 조사
2) 'ncn+jco'와 '하' 사이 : 공백문자
3) '하/pvg : pvg(일반동사)라는 형태소 태그를 가지는 '하다'라는 일반동사
상기 세 개의 연쇄체가 하나의 2단위 짜리 클러스터를 이루는 것이다.
도 2(b)는 모아진 영어 클러스터 테이블의 일례를 도시한 것으로서, 소문자는 영어 형태소를 나타내고, 대문자는 형태소 태그를 나타내며, 한국어에서와 마찬가지로 각 단위는 공백 문자를 기준으로 센 것이다.
이와 같이, 상기 클러스터링에 사용되는 클러스터링 테이블(407)은 상기 전처리부(402)에서의 전처리 과정이 끝난 말뭉치를 대상으로 클러스터 구성이 가능한 유의미한 클러스터 연쇄열을 자동으로 추출해내 빈도순으로 리스트를 작성한 후, 지정된 도메인에 맞는 한계값을 설정해 그 범주 내에 드는 클러스터들을 테이블에 기록하는 방법으로 작성한다.
상기 클러스터링부(404)는 상기 전처리된 문장을 입력으로 받아 상기와 같이 만들어진 클러스터 테이블(407)에서 적용 가능한 클러스터들을 찾아낸 후, 상기 입력 문장을 찾아낸 클러스터 단위로 묶어 매핑부(405)에 전달하게 된다.
상기 매핑부(405)는 상기한 번역단위 클러스터의 대역 클러스터를 찾아내기 위하여 매핑 테이블(408)의 정보를 이용한다. 즉, 상기 매핑부(405)는 상기 매핑 테이블(408)을 검색하여 상기 클러스터링 된 원시언어에 대한 대상언어 클러스터를 찾아낸다. 상기 매핑 테이블(408)은 훈련데이터로 사용되는 클러스터 단위의 원시언어와 대상언어의 말뭉치를 통해 원시언어와 대상언어 클러스터들 사이의 통계 정보를 이용하여 가장 높은 확률 값을 갖는 클러스터들의 쌍을 정의해 놓은 테이블이다. 여기서, 상기 매핑 테이블(408)의 작성은 상기한 클러스터링 테이블(407)의 각 클러스터들 사이의 매핑 확률 값을 측정하여 작성한다.
도 3은 본 발명의 일실시예에 따른 매핑 테이블의 일부를 도시한 것이다. 도 3에서는 본 발명의 일례로서, 원시언어가 한국어이고 대상언어가 영어일 때의 매핑 테이블을 도시하고 있다. 도 3에 도시된 바와 같이, 매핑 테이블(408)에는 원시언어의 클러스터와 대상언어의 클러스터의 쌍이 매핑되어 있으며, 상기 클러스터 쌍의 매핑 확률이 그 뒤에 나타나 있다. 예를 들어, 도 3에 도시된 바와 같이,「<이것/npd 교환/ncpa+해/xsv> <NOUN me/PRON you/PRON> 1.94032521748263e-048」에서, 앞 부분의 「<이것/npd 교환/ncpa+해/xsv>」는 원시언어(여기서는 한국어) 클러스터이고, 중간 부분의「<NOUN me/PRON you/PRON>」는 상기 원시언어에 매핑되는 대상언어(여기서는 영어) 클러스터이며, 끝 부분의「1.94032521748263e-048」는 상기 두 클러스터 쌍이 매핑되는 확률을 나타낸다.
한편, 상기 매핑 테이블(408)에는 클러스터 쌍 뿐만 아니라, 바람직하게는 원시언어와 대상언어의 품사 쌍도 저장되어 있다. 예를 들어, 도 3에 도시된 바와 같이,「되/pvg by/PREP 1.86594467428775e-153」에서 앞 부분의「되/pvg」는 원시언어의 품사이고,「by/PREP」는 상기 원시언어에 매핑되는 대상언어의 품사이며, 끝 부분의「1.86594467428775e-153」는 상기 두 품사가 매핑되는 확률을 나타낸다.
매핑부(405)는 이와 같은 매핑 테이블(408)을 이용하여 전처리되어 입력되는 원시언어의 클러스터에 매핑되는 대상언어의 클러스터를 검색한다. 이때, 상기 대상언어 클러스터의 검색시, 매핑확률값을 이용한다. 즉, 매핑확률을 확인하여 가장 높은 확률값을 갖는 대상언어 클러스터를 찾게 된다.
이와 같이, 상기 입력된 원시언어 문장의 클러스터가 상기 매핑 테이블(408)에 의해 일련의 대상언어 클러스터로 변환된 후, 상기 후처리 및 생성부(406)는 상기 대상언어 클러스터의 순서를 재배치하고, 상기 클러스터 내에 포함된 형태소 태깅정보에 기반하여 단어 변환과정을 거친다. 즉, 입력된 원시언어 문장이 상기 매핑 테이블(408)에 의해 일련의 대상언어 클러스터로 변환된 후, 상기 대상언어 클러스터의 순서를 재배치하고 상기 클러스터 내의 변수는 단어 변환 과정을 통하여 적절한 대상언어 단어로 변환한다. 이러한 문장 재배치는 상기 매핑의 결과인 클러스터 집합과 클러스터링 안된 단어들을 통계적인 방법에 의해 자주 출현하는 순서를 추출하여 가장 확률이 높은 순서를 적용하여 재배치하는 것이다. 이와 같은 클러스터의 재배치를 위해서는 통계 정보를 추출하는 과정이 필요하다. 기존에는 클러스터 재배치 테이블을 이용하여 한 문장을 구성하는 클러스터가 여러 개가 있을 때, 어떻게 재배치를 하는 것이 좋은지 훈련 데이터로부터 빈도수만을 구하여 이용하였다. 그러나, 단순한 빈도수만을 이용한 배치 정보는 정확한 문장 배치 정보를 제공하지 못하고, 더구나 빈도가 적은 경우의 특수한 상황을 처리하지 못하는 경직된 구조이기 때문에 이 방법을 사용하지 않고, 대신에 순서의 부분정보를 이용하여 보다 정확한 통계정보를 추출하기 위하여 bigram 및 trigram을 이용하여 재배치테이블(reordering table;409)을 구성하고 상기 재배치 테이블(409)을 이용하여 본 발명에 따른 클러스터의 순서를 재배치하는 것이다.
도 4는 본 발명의 일실시예에 따른 재배치 테이블의 일부를 도시한 것이다.도 4의 재배치 테이블에서, 문장의 앞,뒤에 있는 <S>, </S>는 경계 정보를 얻기 위해 임의로 추가한 기호이다. 도 4에 도시된 바와 같이, 재배치 테이블(409)에는 대상언어 클러스터의 배치 순서가 나타나 있으며, 각 배치 순서에 따른 확률값이 그 뒤에 나타나 있다. 예를 들어, 도 4에 도시된 바와 같이,「<contact/VERB NOUN> <of/PREP NOUN> 0.1」에서, 앞 부분의 클러스터 「<contact/VERB NOUN>」와 중간 부분의 「<of/PREP NOUN>」가 상기와 같이 배치될 확률은 0.1 이라는 것을 나타내는 것이다.
또한, 상기 재배치 테이블(409)에는 대상언어 클러스터들의 재배치 뿐만 아니라, 바람직하게는 대상언어의 품사들의 재배치도 저장되어 있다. 예를 들어, 도 4에 도시된 바와 같이,「PRON VERB 0.638078016016533」과 같이 주어, 동사 및 상기 두 품사간의 어순에 대한 확률값이 저장되어 있는 것이다.
이와 같은 과정을 통해, 후처리 및 생성부(406)에서는 완전한 형태의 대상언어 문장으로 변환하여 출력한다. 한편, 후처리과정에서는 고빈도 클러스터 순서와 함께 가장 확률이 높은 클러스터 순서정보를 이용하여 클러스터의 재배치를 실행한다.
상기 출력부(300)는 사용자가 입력한 원시언어를 상기한 번역과정을 통해 번역한 대상언어를 출력하는 기능을 담당한다.
상기 제어부(300)는 상기한 각 기능부, 즉 입력부(100), 출력부(300), DTST 처리부(401), 전처리부(402), NCCT처리부(403), 클러스터링부(404), 매핑부(405), 그리고 후처리 및 생성부(406)를 각각 제어하며, 특히 상기 각 기능부들의 동작시점과 종료 시점을 결정하고, 번역엔진이 원활히 진행되도록 번역엔진 장치의 전반 제어 동작을 수행한다.
상기와 같이 구성되는 본 발명의 실시예에 따른 번역엔진 장치에서의 실제 번역과정을 도 5를 참조하여 설명하면 다음과 같다.
도 5는 본 발명의 일실시예에 따른 번역엔진의 번역과정을 보이는 흐름도로서, 본 발명의 실시예에 따른 번역엔진 장치에서의 번역순서를 도시하고 있다. 도 5를 참조하면, 입력부(100)를 통해 원시언어의 텍스트가 입력되면(S21), 상기 입력된 텍스트에 대한 전처리 과정을 수행하기 전에, 상기 입력된 텍스트 중에서 DTST 처리부(401)에 의해 직접 번역이 가능한 문장이 있는지 판단한다(S22). 예를 들어, 입력되는 원시언어 텍스트 중에 '안녕하세요'라는 관용어가 포함된 경우, 상기 DTST 처리부(401)는 일반적인 원시언어 관용어 또는 관용문장에 해당하는 대상언어 쌍을 미리 기록해둔 테이블(미도시)에 상기한 관용어 '안녕하세요'에 해당하는 대상언어가 포함됨을 판단한다. 또한, 상기 DTST 처리부(401)는 직접 번역가능한 단어들 사이의 통계학적인 산출값에 의해 해당 단어의 대상언어를 판단할 수도 있다. 상기 단계(S22)에서의 판단결과, 상기 입력 텍스트 중 직접 번역가능한 문장이 있는 경우, 상기 직접 번역이 가능한 문장에 대하여 직접 번역을 수행한 후(S29), 출력부(300)를 통해 출력한다(S28).
상기 단계(S22)에서의 판단결과, 상기 입력 텍스트 중 직접 번역이 가능하지 않는 문장이 있는 경우, 상기 입력 텍스트 문장들의 형태소를 분석하고 상기 문장 내의 핵심 골격만을 남기는 문장 구조 단순화 과정(전처리 과정)을 수행한다(S23). 예를 들어, 원시언어가 한국어이고, 「7월 10일 호놀룰루행 JAL 007편을 예약하고 싶습니다」라는 원시언어 텍스트가 입력되는 경우, 「7/nnn+월/nbu 10/nnn+일/nbu 호놀룰루/nq@행/ncn(nq) JAL/nq 007/nnn 편/nbn+을/jco 예약/ncpa+하/xsv+고/ecx 싶/px+습니다/ef」와 같이 형태소를 분석하고, 「nnn nbu nnn nbu nq ncn JAL nq nnn 편/nbn+jco 예약/ncpa+하/xsv」와 같이 문장의 핵심이 되는 단어만을 남기는 전처리 과정을 수행한다. 상기 형태소 분석 및 전처리 과정은 일례를 나타내는 것이며, 다른 방법으로도 수행이 가능할 것이다.
상기 전처리 과정을 거친 후, 클러스터링되지 않고 남게될 품사 연쇄체들에 대하여 미리 해당 대역 품사 연쇄체를 검색한다(S24). 이어, 상기와 같은 과정들을 거친 원시언어 입력 텍스트 문장을 클러스터링 테이블(407)을 기반으로 번역단위인 클러스터 단위로 나눈다(S25). 이때, 상기 클러스터링 테이블(407)에서 높은 확률과 적용 우선 순위가 높은 클러스터를 찾아 표시한다. 상기 예의 경우에서는, 「<nnn nbu nnn nbu nq ncn JAL> <nq nnn 편/nbn+jco> 예약/ncpa+하/xsv」로 클러스터링을 완료한다. 이어, 상기 번역단위인 클러스터가 매핑 테이블(408)에 존재하는지 검색하여 적절한 대역 클러스터 쌍을 찾아낸다(S26). 예를 들어, 상기 예에서 대상언어가 영어인 경우, 「<NUM of/PREP NOUN> <NUM for/PREP NOUN on/PREP> <i/PRON like/VERB to/PREP make/VERB NOUN for/PREP NOUN>」와 같이 상기 입력된 한국어 클러스터에 대응되는 영어 클러스터를 찾아내는 것이다. 계속하여, 상기 대상언어의 클러스터들을 재배치(reordering)를 완료하고 완전한 문장형태로 복원하여(S27), 출력부(300)를 통해 출력한다(S28). 따라서, 상기한 예에서, 「<i/PRON like/VERB to/PREP make/VERB NOUN or/PREP NOUN> <NUM for/PREP NOUN on/PERP> <NUM of/PERP NOUN>」와 같이 상기 찾아낸 클러스터들을 재배치하고, 상기 전처리 과정에서 은닉되었던 정보를 복원하여 최종 번역문 「i'd like to make a reservation for JAL flight seven for Honolulu on the tenth of July」을 생성한다. 상기 생성된 최종 번역문은 상기 출력부(300)를 통해 출력된다.
본 발명에 따른 번역엔진 장치는 시스템 인터페이스에 상관없이 독립적으로 동작이 가능한 번역엔진으로써, 대화체를 지원하는 자동통역 시스템의 코아 번역엔진으로 사용될 수 있다.
본 발명의 상세한 설명 및 도면에는 본 발명을 이해를 돕기 위한 바람직한 일실시예를 개시한 것으로서 본 발명의 권리범위를 한정하는 것은 아니며, 본 발명의 권리의 범위는 상기한 상세한 설명에 의해 결정되는 것이 아니라 첨부한 청구범위에 결정되어야만 할 것이다.
본 발명에 의하면, 대화체 문장을 대상으로 여러 도메인 환경에서 사용가능하고, 사용자가 입력한 원시언어를 대상언어로 정확하게 번역하여 출력할 수 있다.
또한, 본 발명에 의한 번역엔진 장치와 그 번역방법은 사용자 인터페이스에 상관없이 독립적인 번역엔진으로서 사용가능한 잇점을 갖는다.
상술한 상세한 설명 및 도면에 개시된 내용은 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자에게는 본 발명의 정신을 벗어나지 않는 범위 내에서 다양한 수정 및 변경이 가능함은 명백한 것이다.

Claims (14)

  1. 원시언어의 클러스터와 매핑되는 대상언어의 클러스터를 저장하고 있는 매핑 테이블;
    입력되는 원시언어 문장에서 직접 번역이 가능한 문장을 직접 번역하는 직접번역부;
    상기 입력된 원시언어 문장의 형태소 분석을 통하여 상기 원시언어 문장 내에서 핵심이 되는 언어는 유지하고, 다른 부분은 은닉시켜 상기 문장의 구조를 단순화하는 전처리부;
    상기 구조단순화 과정을 거친 상기 원시언어 문장을 번역단위인 클러스터로 나누는 클러스터링부;
    상기 매핑 테이블을 이용하여 상기 원시언어의 클러스터에 매핑되는 대상언어의 클러스터를 결정하는 매핑부; 및
    상기 대상언어의 클러스터들의 순서를 재배치하고, 상기 대상언어를 완성된 문장 형태로의 복원을 수행하는 후처리 및 생성부를 포함하는 것을 특징으로 하는 원시언어를 대상언어로 번역하는 번역엔진 장치.
  2. 제 1항에 있어서,
    상기 전처리부에 의한 전처리 과정을 거친 상기 원시언어 문장에 대하여 이후에 클러스터링되지 않고 남게될 품사 연쇄체에 대응되는 대역 품사 연쇄체를 검색하는 NCCT 처리부를 더 포함하는 것을 특징으로 하는 원시언어를 대상언어로 번역하는 번역엔진 장치.
  3. 제 1항에 있어서, 상기 직접번역부는,
    원시언어 및 상기 원시언어에 대응하는 대상언어의 쌍으로 이루어진 테이블을 이용하여 직접 번역을 수행하는 것을 특징으로 하는 원시언어를 대상언어로 번역하는 번역엔진 장치.
  4. 제 1항에 있어서, 상기 클러스터링부는,
    상기 전처리가 끝난 원시언어 문장의 말뭉치를 대상으로 클러스터 구성이 가능한 클러스터 연쇄열을 추출하여 사용 빈도순으로 저장한 클러스터링 테이블을 이용하여 상기 입력된 원시언어 문장을 클러스터로 구분하는 것을 특징으로 하는 원시언어를 대상언어로 번역하는 번역엔진 장치.
  5. 제 1항에 있어서, 상기 매핑 테이블은,
    상기 원시언어 클러스터와 상기 대상언어의 클러스터 사이의 매핑 확률값을 이용하여 상기 원시언어 및 대상언어의 클러스터 쌍을 저장하는 것을 특징으로 하는 원시언어를 대상언어로 번역하는 번역엔진 장치.
  6. 입력된 원시언어 문장을 확인하여 직접 번역이 가능한 문장은 직접 번역하고, 나머지 문장은 형태소 분석을 통하여 상기 원시언어 문장 내에서 핵심이 되는 언어는 유지하고, 다른 부분은 은닉시켜 상기 문장의 구조를 단순화하는 전처리단계;
    상기 단순화된 원시언어 문장을 번역단위인 클러스터 단위로 나누는 클러스터링단계;
    원시언어 클러스터 및 대상언어 클러스터 쌍을 저장한 매핑 테이블을 검색하여 상기 원시언어의 클러스터에 해당하는 대상언어의 클러스터를 결정하는 매핑단계; 및
    상기 결정된 대상언어 클러스터를 재배치하고 완전한 문장형태로 복원하는 후처리단계를 포함하는 것을 특징으로 하는 원시언어를 대상언어로 번역하는 번역방법.
  7. 제 6항에 있어서,
    상기 전처리단계를 거친 상기 원시언어 문장에 대하여 이후에 클러스터링되지 않고 남게될 품사 연쇄체에 대응하는 대역 품사 연쇄체를 미리 검색하는 NCCT 처리단계를 더 포함하는 것을 특징으로 하는 원시언어를 대상언어로 번역하는 번역방법.
  8. 제 1항에 있어서, 상기 전처리단계의 직접 번역과정은,
    '어간 + 어미'으로 구성된 원시단어가 입력되는 경우, 상기 어미의 활용과는무관하게 상기 어간에 대응되는 대상언어로 직접 번역하는 것을 특징으로 하는 원시언어를 대상언어로 번역하는 번역방법.
  9. 제 6항에 있어서, 상기 전처리단계는,
    원시언어 및 상기 원시언어에 대응하는 대상언어의 쌍을 이루는 테이블을 이용하여 직접 번역을 수행하는 것을 특징으로 하는 원시언어를 대상언어로 번역하는 번역방법.
  10. 제 6항에 있어서, 상기 매핑 테이블은,
    훈련데이터로 사용되는 클러스터 단위의 원시언어와 대상언어의 말뭉치를 통해, 상기 원시언어 및 대상언어 클러스터들 사이의 통계 정보를 이용하여 매핑 확률값이 가장 높은 클러스터 쌍을 저장하고 있는 것을 특징으로 하는 원시언어를 대상언어로 번역하는 번역방법.
  11. 제 6항에 있어서, 상기 후처리단계는,
    상기 대상언어 클러스터에 포함된 형태소 태깅정보를 기반으로 하여 대상언어로 변환하는 단계를 더 포함하는 것을 특징으로 하는 원시언어를 대상언어로 번역하는 번역방법.
  12. 제 6항에 있어서, 상기 대상언어 클러스터의 재배치는,
    통계정보에 따른 클러스터의 사용빈도 및 사용확률이 높은 순서를 적용하여 상기 대상언어 클러스터를 재배치하는 것을 특징으로 하는 원시언어를 대상언어로 번역하는 번역방법.
  13. 제 6항에 있어서, 상기 후처리단계는,
    상기 전처리단계에서 은닉되었던 단어 정보를 복원하는 단계를 더 포함하는 것을 특징으로 하는 원시언어를 대상언어로 번역하는 번역방법.
  14. 입력된 원시언어 문장을 확인하여 직접 번역이 가능한 문장은 직접 번역하고, 나머지 문장은 형태소 분석을 통하여 상기 원시언어 문장 내에서 핵심이 되는 언어는 유지하고, 다른 부분은 은닉시켜 상기 문장의 구조를 단순화하는 전처리기능;
    상기 단순화된 원시언어 문장을 번역단위인 클러스터 단위로 나누는 클러스터링기능;
    원시언어 클러스터 및 대상언어 클러스터 쌍을 저장한 매핑 테이블을 검색하여 상기 원시언어의 클러스터에 해당하는 대상언어의 클러스터를 결정하는 매핑기능; 및
    상기 결정된 대상언어 클러스터를 재배치하고 완전한 문장형태로 복원하는 후처리기능을 실현시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 기록매체.
KR10-2002-0078215A 2002-12-10 2002-12-10 원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법 KR100463376B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0078215A KR100463376B1 (ko) 2002-12-10 2002-12-10 원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0078215A KR100463376B1 (ko) 2002-12-10 2002-12-10 원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법

Publications (2)

Publication Number Publication Date
KR20040050394A KR20040050394A (ko) 2004-06-16
KR100463376B1 true KR100463376B1 (ko) 2004-12-29

Family

ID=37344597

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0078215A KR100463376B1 (ko) 2002-12-10 2002-12-10 원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법

Country Status (1)

Country Link
KR (1) KR100463376B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101220841B1 (ko) * 2008-12-02 2013-01-10 한국전자통신연구원 자동번역을 위한 번역메모리 적용 방법 및 그 장치
US8265922B2 (en) 2008-12-02 2012-09-11 Electronics And Telecommunications Research Institute Method and apparatus for applying translation memory in automatic translation system
KR101666611B1 (ko) * 2015-07-06 2016-10-14 임수연 온라인 쇼핑몰 웹 사이트 및 상품db에 대한 자동 번역 방법 및 장치
WO2023128170A1 (ko) * 2021-12-28 2023-07-06 삼성전자 주식회사 전자 장치, 전자 장치의 제어 방법 및 프로그램이 기록된 기록매체

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0567144A (ja) * 1991-09-07 1993-03-19 Hitachi Ltd 前編集支援方法およびその装置
KR940022312A (ko) * 1993-03-15 1994-10-20 김영택 기계번역장치 및 방법
KR19990017309A (ko) * 1997-08-22 1999-03-15 박원훈 원문의 복잡도에 따라 융통성을 갖는 기계번역 시스템
KR20010057775A (ko) * 1999-12-23 2001-07-05 오길록 문장골격을 기반으로 한 자동번역 시스템 및 그 방법
KR20010081770A (ko) * 2000-02-18 2001-08-29 윤종용 목적언어 분석에 기반한 언어 번역 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0567144A (ja) * 1991-09-07 1993-03-19 Hitachi Ltd 前編集支援方法およびその装置
KR940022312A (ko) * 1993-03-15 1994-10-20 김영택 기계번역장치 및 방법
KR19990017309A (ko) * 1997-08-22 1999-03-15 박원훈 원문의 복잡도에 따라 융통성을 갖는 기계번역 시스템
KR20010057775A (ko) * 1999-12-23 2001-07-05 오길록 문장골격을 기반으로 한 자동번역 시스템 및 그 방법
KR20010081770A (ko) * 2000-02-18 2001-08-29 윤종용 목적언어 분석에 기반한 언어 번역 방법 및 장치

Also Published As

Publication number Publication date
KR20040050394A (ko) 2004-06-16

Similar Documents

Publication Publication Date Title
US6243669B1 (en) Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6442524B1 (en) Analyzing inflectional morphology in a spoken language translation system
US6223150B1 (en) Method and apparatus for parsing in a spoken language translation system
US6278968B1 (en) Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6356865B1 (en) Method and apparatus for performing spoken language translation
US6266642B1 (en) Method and portable apparatus for performing spoken language translation
KR101266361B1 (ko) 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
WO2010046782A2 (en) Hybrid machine translation
WO2000045376A1 (en) A method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
KR20080084803A (ko) 교차-언어 지식 검색을 위한 시스템 및 방법
Wang et al. MUXING: a telephone-access Mandarin conversational system.
CN101470701A (zh) 支持基于有限状态机的语义规则的文本分析器及其方法
Kuo et al. Learning transliteration lexicons from the web
CN103164398A (zh) 汉维电子辞典及其自动转译汉维语的方法
CN103164397A (zh) 汉哈电子辞典及其自动转译汉哈语的方法
KR100463376B1 (ko) 원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법
CN103164395A (zh) 汉柯电子辞典及其自动转译汉柯语的方法
CN103164396A (zh) 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法
KR100474359B1 (ko) 키워드 기반 N-gram 언어모델 구축 방법
Tukur et al. Parts-of-speech tagging of Hausa-based texts using hidden Markov model
Keenan Large vocabulary syntactic analysis for text recognition
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20081202

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee