KR20130102926A - 중국어 자동 번역을 위한 생략 성분 복원 방법 및 장치, 이를 포함하는 중국어 자동 번역 방법 및 장치 - Google Patents

중국어 자동 번역을 위한 생략 성분 복원 방법 및 장치, 이를 포함하는 중국어 자동 번역 방법 및 장치 Download PDF

Info

Publication number
KR20130102926A
KR20130102926A KR1020120024128A KR20120024128A KR20130102926A KR 20130102926 A KR20130102926 A KR 20130102926A KR 1020120024128 A KR1020120024128 A KR 1020120024128A KR 20120024128 A KR20120024128 A KR 20120024128A KR 20130102926 A KR20130102926 A KR 20130102926A
Authority
KR
South Korea
Prior art keywords
sentence
chinese
word
type
translation
Prior art date
Application number
KR1020120024128A
Other languages
English (en)
Inventor
김운
권오욱
박은진
오영순
김영길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020120024128A priority Critical patent/KR20130102926A/ko
Publication of KR20130102926A publication Critical patent/KR20130102926A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

중국어 자동 번역을 위한 생략 성분 복원 방법 및 장치, 이를 포함하는 중국어 자동 번역 방법 및 장치이 개시된다. 중국어 자동 번역을 위한 생략 성분 복원 방법은 입력된 중국어 대화체 문장을 단어 단위로 분리하는 단계와, 단어 단위로 분리된 결과 및 각각의 단어에 대한 형태소 분석 정보에 기초하여 자질을 추출하는 단계와, 추출된 자질에 기초하여 입력된 중국어 대화체 문장의 생략 유형을 추정하고, 추정된 생략 유형에 따라 생략된 성분을 복원하는 단계를 포함하여 구성된다. 따라서, 정확한 자동 번역의 결과를 제공할 수 있다.

Description

중국어 자동 번역을 위한 생략 성분 복원 방법 및 장치, 이를 포함하는 중국어 자동 번역 방법 및 장치{METHOD AND APPARATUS OF ELLIPSIS COMPONENT RESTORATION FOR CHINESE MACHINE TRANSLATION, METHOD AND APPARATUS FOR CHINESE MACHINE TRANSLATION FOR COMPRISING THE SAME}
본 발명은 중국어 자동 번역에 관한 것으로, 더욱 상세하게는 중국어 자동 번역을 위한 중국어 대화체 문장에서 생략 성분을 복원하는 방법 및 장치와, 이를 포함하는 중국어 자동 번역 방법 및 장치에 관한 것이다.
자동 번역(Machine Translation)기술이란 언어 장벽에 의한 의사소통 문제를 해결하기 위해 자연어 처리 기법을 이용하여 제1 언어(원시언어)로부터 제2 언어(목적언어)로 변환해주는 기술을 의미한다.
처리 방법에 따라 규칙 기반의 방법(Rule-based approach)과 말뭉치 기반의 방법(Corpus-based approach)으로 분류할 수 있다. 규칙 기반의 방법은 언어학자 혹은 번역가 등이 그 언어의 특성에 맞추어 형태소 정보, 구문 정보 등 번역에 사용되는 지식과 구문 구조 규칙, 변환 규칙 등의 규칙을 직접 구축하여 자동 변역을 수행한다.
반면에 말뭉치 기반의 방법은 주관적일 수 있는 인간의 언어능력에 직접 의존하기보다는 대량의 대역어 또는 이중 말뭉치 등 인간 세상에 존재하는 말뭉치로부터 원문과 대응되는 대역문을 통계적 기법을 통해 학습하고, 단어, 절, 문장 기반 등의 그 대응관계 정보를 추출하여 새로운 문장에 대해 기존에 학습된 통계적 정보를 이용하여 자동 번역을 수행한다.
그 중, 규칙 기반의 방법은 지식과 규칙의 영향을 많이 받으며, 어떠한 도메인에도 좋은 성능을 발휘하지만 지식을 구축함에 있어서 많은 언어학적 전문 인력을 필요로 하고, 정교한 지식을 구축해야 한다.
또한, 말뭉치 기반의 방법은 말뭉치 영향을 많이 받기 때문에 말뭉치만 있으면 쉽게 여러 언어로 확장이 가능 하지만, 여러 도메인을 모두 커버할 수 있는 대량의 말뭉치를 필요로 한다.
한편, 자동 번역을 함에 있어서, 어떠한 처리방법을 사용하든지 대부분의 자동번역 시스템은 원문을 기반으로 번역문을 생성하며, 원문보다 멋진 번역문을 생성할 수 없다.
따라서, 원문이 모호하거나 비정형적인 생략, 굴절 어순이 존재할 경우 불가피하게 번역문도 왜곡되어 번역되거나, 잘못된 번역문을 생성할 수 밖에 없는 문제가 있다. 구체적으로, 원문이 모호할 경우 정확한 번역문 생성할 수 있도록 적절한 표현으로 다시 작성해야하며, 생략된 표현의 경우에 따라 자동 또는 반자동 처리를 거쳐 정확한 번역문 또는 그에 근접한 번역문을 생성해야만 한다.
특히, 중국어 대화체는 한국어 및 다른 언어의 대화체와 유사하게 생략, 굴절, 변형, 도치와 같은 비정형적인 표현들도 많지만, 한국어 대화체처럼 어순에 자유롭고 주어가 흔히 생략되는 현상과 조금 다른 양상을 나타낸다.
중국어 대화체 생략에는 수량사 생략, 긴축문 등 중국어에 대화체에만 존재하는 독특한 특성들이 있다. 긴축문이란 중국어 복문을 생략하여 하나의 단문처럼 사용하는 경우를 의미한다.
이와 같이, 중국어 복문 중 하나 또는 그 이상의 문장 성분을 생략하기 때문에 긴축문과 단일문의 구분이 어려우며, 생략 여부에 따라 다양하게 표현되기 때문에 긴축문의 처리에 어려움이 있다.
긴축문에서 흔히 생략하는 문장 성분으로는 복문의 경계인 쉼표를 생략하고, 경우에 따라, 중복된 주어, 부사, 연결사 등을 생략한다. 생략문 형태는 크게 두 가지로 분류할 수 있다.
첫째, 복합어나 현상을 하나의 용어로 축약하는 경우이다. 예를 들면, "국가과학위원회"와 같은 복합명사는 "국과위"로 축약하여 표현하고, "안타까워 눈물이 난다"와 같은 표현이나 현상을 메신저 대화체에서는 "안습" 이라는 용어로 생략하여 사용하기도 한다.
중국어 역시 이런 용어 축약이 많으며, 타 언어에 비해 상이한 점은 어떤 현상에 대해 4 자성어로 축약하여 표현한다는 점이다.
둘째, 문장 성분을 생략하는 경우이다. 문장에는 주격어, 목적격어, 문장부호 등 여러 성분들이 있는데 이 중 하나 또는 그 이상의 문장 성분을 줄여서 표현하는 것을 말한다.
예를 들면, "잘 해야죠." 이 문장에는 누가 무엇을 해야 하는지 생략되어 있다. 중국어에서 긴축문이 이에 해당된다. 전자의 경우 흔히 웹으로부터 축약된 용어 또는 표현을 텍스트 마이닝 기법을 동원하여 추출한 다음, 축약 용어를 신조어로 등록하고 대역어 부착을 통해 정확한 번역을 수행한다.
후자의 경우, 아직까지 많은 연구가 이루어지지 않았지만, 생략문 전체를 번역 메모리(TM: Translation Memory)로 저장하여 처리하는 방법을 사용하고 있다.
종래의 생략 성분의 처리 방법은 1) 생략문을 번역 메모리에 저장하여 처리하는 방법과 2) 축약문을 구조화 번역 메모리 또는 번역 메모리 확장 매칭 방법을 통해 처리하는 방법과 3) 언어학자들이 중국어 생략에 관하여 이론적으로 그 현상, 특징 등을 분석한 연구로 나눌 수 있다.
상기 방법 또는 연구의 문제점을 분석해 보면 다음과 같다. 첫째, 번역 메모리(TM: Translation Memory)를 사용함으로써, 정확한 번역문을 생성할 수 있도록 하는 방법으로, 원문과 기존에 사람이나 기계에 의해 정확하게 번역된 대역문을 쌍으로 저장하고, 원문과 동일한 문장이 입력되면 기존 번역문을 그대로 활용하는 방법을 의미한다. 이러한 번역 메모리는 CAT(Computer-Aided Translation) 시스템에서 많이 활용되었으며, 빈번하게 사용되는 문장에 대하여 자동 번역 처리를 거치지 않고 바로 번역문을 제공해줄 수 있게 됨으로써, 높은 번역 성능(속도와 번역 정확도)으로 인해 많이 각광을 받았다. 그러나, 모든 문장을 저장해두어야 하고, 이러한 문장의 번역문을 사람 또는 기계 번역의 힘을 빌려 정확히 구축해야 하며, 이 경우 번역 메모리의 용량이 기하급수적으로 증가하게 되는 문제가 있다.
둘째, 번역 메모리의 상술한 문제점을 보완하고자 구조화 번역 메모리 방법을 시도하거나 번역 메모리 적용시 원문을 확장하여 적용하는 방법이 시도되고 있다.
예를 들어, "서울역으로 가는 방법 알려주세요."와 같은 문장을 "NN/place으로 가는 방법 알려주세요."로 구조화할 수 있으며, NN은 명사를 의미하고, place는 장소를 나타낸다.
즉, 장소라는 의미를 가진 명사를 변수화한 것이다. 그러나, 구조화 번역 메모리 방법은 일부 성분에만 적용할 수 있는 제한적인 방법이며, 커버리지를 확장하는데 제한적이다.
또한, 번역 메모리 적용시에 확장 규칙을 적용하여 번역 메모리의 매칭율을 향상시키려는 방법 역시 번역 메모리라는 제한적인 범위를 벗어나지 못하는 한계가 있으며, 번역 메모리에 없는 문장은 해결할 수 없다는 문제점이 있다.
셋째, 중국 언어 학자들에 의해 중국어 생략 관련 연구가 꾸준히 진행되고는 있지만, 자연어 처리 기술을 통한 연구가 거의 전무한 상태이다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 중국어 대화체 문장의 생략 성분을 복원하여 정확한 자동 번역 결과를 제공할 수 있는 중국어 자동 번역을 위한 생략 성분 복원 방법을 제공하는 데 있다.
또한, 본 발명의 다른 목적은, 중국어 대화체 문장의 생략 성분을 복원하여 정확한 자동 번역 결과를 제공할 수 있는 중국어 자동 번역을 위한 생략 성분 복원 장치를 제공하는 데 있다.
또한, 본 발명의 또 다른 목적은, 중국어 대화체 문장의 생략 성분을 복원하여 정확한 자동 번역 결과를 제공할 수 있는 중국어 자동 번역을 위한 생략 성분 복원 방법을 포함하는 중국어 자동 번역 방법을 제공하는 데 있다.
또한, 본 발명의 또 다른 목적은, 중국어 대화체 문장의 생략 성분을 복원하여 정확한 자동 번역 결과를 제공할 수 있는 중국어 자동 번역을 위한 생략 성분 복원 장치를 포함하는 중국어 자동 번역 장치를 제공하는 데 있다.
상기한 본 발명의 목적을 달성하기 위한 본 발명의 일 실시예에 따른 중국어 자동 번역을 위한 생략 성분 복원 방법은, 입력된 중국어 대화체 문장을 단어 단위로 분리하는 단계와, 상기 단어 단위로 분리된 결과 및 각각의 상기 단어에 대한 형태소 분석 정보에 기초하여 상기 입력된 중국어 대화체 문장에서 생략된 성분의 유무 및 생략 유형을 추정할 수 있는 자질을 추출하는 단계와, 상기 추출된 자질에 기초하여 상기 입력된 중국어 대화체 문장의 상기 생략 유형을 추정하고, 추정된 상기 생략 유형에 따라 상기 생략된 성분을 복원하는 단계를 포함한다.
여기서, 형태소 분석 정보는 각각의 상기 단어의 품사 정보 및 상기 단어의 의미 정보를 포함할 수 있다.
여기서, 생략 유형은 복문을 단문으로 표현한 문장 생략 유형, 수사 또는 양사를 생략한 수량사 생략 유형 및 문장 부호가 생략된 문장 부호 생략 유형 중 적어도 하나를 포함할 수 있다.
여기서, 생략 유형을 추정할 수 있는 자질은 상기 문장 생략 유형의 경우에 상기 입력된 중국어 대화체 문장에 적어도 두 개의 용언의 존재, 연결사의 존재 및 부사의 중복 사용 중 적어도 하나를 포함할 수 있다.
또한, 생략 유형을 추정할 수 있는 자질은 상기 수량사 생략 유형의 경우에 상기 입력된 중국어 대화체 문장에 존재하는 상기 양사의 좌우에 위치한 품사의 정보를 포함할 수 있다.
또한, 생략 유형을 추정할 수 있는 자질은 상기 문장 부호 생략 유형의 경우에 상기 입력된 중국어 대화체 문장의 종류가 의문문인 경우에 의문형 단어의 존재, 상기 입력된 중국어 대화체 문장이 복문이고, 상기 문장 부호가 생략된 경우 적어도 두 개의 용언의 존재 및 상기 입력된 중국어 대화체 문장의 문미어와 문두어의 연결 여부를 포함할 수 있다.
여기서, 생략 유형에 따라 복원하는 단계는 상기 문장 생략 유형의 경우에 상기 연결사에 기초하여 생략된 문장에 올 수 있는 문두 연결사를 패턴 또는 학습을 통하여 결정하고, 결정된 상기 연결사를 복원할 수 있다.
또한, 생략 유형에 따라 복원하는 단계는 상기 수량사 생략 유형의 경우에 상기 입력된 중국어 대화체 문장에 존재하는 상기 양사에 기초하여 수사를 복원할 수 있다.
또한, 생략 유형에 따라 복원하는 단계는 상기 문장 부호 생략 유형의 경우에 상기 입력된 중국어 대화체 문장에 의문 부호, 감탄 기호 및 쉼표를 추가하여 복원할 수 있다.
상기한 본 발명의 다른 목적을 달성하기 위한 본 발명의 일 실시예에 따른 중국어 자동 번역을 위한 생략 성분 복원 장치는 입력된 중국어 대화체 문장을 단어 단위로 분리하는 단어 분리부와, 각각의 상기 단어에 대한 형태소 분석 정보를 저장하는 중국어 형태소 사전과, 상기 단어 단위로 분리된 결과 및 각각의 상기 단어에 대한 형태소 분석 정보에 기초하여 상기 입력된 중국어 대화체 문장에서 생략된 성분의 유무 및 생략 유형을 추정할 수 있는 자질을 추출하는 자질 추출 모듈과, 상기 추출된 자질에 기초하여 상기 입력된 중국어 대화체 문장의 상기 생략 유형을 추정하는 생략 유형 추정 모듈과, 추정된 상기 생략 유형에 따라 상기 생략된 성분을 복원하는 생략 성분 복원 모듈을 포함하는 복원부를 포함한다.
상기한 본 발명의 또 다른 목적을 달성하기 위한 본 발명의 일 실시예에 따른 중국어 자동 번역 방법은 입력된 중국어 대화체 문장이 번역 메모리(Translation Memory: TM) 및 구조화된 번역 메모리 중 적어도 하나에 매칭되는지 판단하는 단계와, 상기 입력된 중국어 대화체 문장이 상기 번역 메모리 및 상기 구조화된 번역 메모리 중 적어도 하나에 매칭되지 않는 경우에 상기 입력된 중국어 대화체 문장을 단어 단위로 분리하는 단계와, 상기 단어 단위로 분리된 결과 및 각각의 상기 단어에 대한 형태소 분석 정보에 기초하여 상기 입력된 중국어 대화체 문장에서 생략된 성분의 유무 및 생략 유형을 추정할 수 있는 자질을 추출하는 단계와, 상기 추출된 자질에 기초하여 상기 입력된 중국어 대화체 문장의 상기 생략 유형을 추정하고, 추정된 상기 생략 유형에 따라 상기 생략된 성분을 복원하는 단계와, 중국어 형태소 사전에 기초하여 상기 중국어 대화체 문장에 포함된 복수의 단어에 대해 상기 중국어 대화체 문장의 문맥을 고려하여 품사 태깅을 수행하는 단계와, 품사가 태깅된 상기 중국어 대화체 문장을 한국어로 번역하는 단계를 포함한다.
여기서, 형태소 분석 정보는 각각의 상기 단어의 품사 정보 및 상기 단어의 의미 정보를 포함할 수 있다.
여기서, 생략 유형은 복문을 단문으로 표현한 문장 생략 유형, 수사 또는 양사를 생략한 수량사 생략 유형 및 문장 부호가 생략된 문장 부호 생략 유형 중 적어도 하나를 포함할 수 있다.
여기서, 생략 유형을 추정할 수 있는 자질은 상기 문장 생략 유형의 경우에 상기 입력된 중국어 대화체 문장에 적어도 두 개의 용언의 존재, 연결사의 존재 및 부사의 중복 사용 중 적어도 하나를 포함할 수 있다.
또한, 생략 유형을 추정할 수 있는 자질은 상기 수량사 생략 유형의 경우에 상기 입력된 중국어 대화체 문장에 존재하는 상기 양사의 좌우에 위치한 품사의 정보를 포함할 수 있다.
또한, 생략 유형을 추정할 수 있는 자질은 상기 문장 부호 생략 유형의 경우에 상기 입력된 중국어 대화체 문장의 종류가 의문문인 경우에 의문형 단어의 존재, 상기 입력된 중국어 대화체 문장이 복문이고, 상기 문장 부호가 생략된 경우 적어도 두 개의 용언의 존재 및 상기 입력된 중국어 대화체 문장의 문미어와 문두어의 연결 여부를 포함할 수 있다.
여기서, 생략 유형에 따라 복원하는 단계는 상기 문장 생략 유형의 경우에 상기 연결사에 기초하여 생략된 문장에 올 수 있는 문두 연결사를 패턴 또는 학습을 통하여 결정하고, 결정된 상기 연결사를 복원할 수 있다.
또한, 생략 유형에 따라 복원하는 단계는 상기 수량사 생략 유형의 경우에 상기 입력된 중국어 대화체 문장에 존재하는 상기 양사에 기초하여 수사를 복원할 수 있다.
또한, 생략 유형에 따라 복원하는 단계는 상기 문장 부호 생략 유형의 경우에 상기 입력된 중국어 대화체 문장에 의문 부호, 감탄 기호 및 쉼표를 추가하여 복원할 수 있다.
상기한 본 발명의 또 다른 목적을 달성하기 위한 본 발명의 일 실시예에 따른 중국어 자동 번역 장치는, 번역 메모리(Translation Memory: TM) 및 구조화된 번역 메모리 중 적어도 하나를 저장하는 번역 메모리/구조화된 번역 메모리 데이터베이스와, 입력된 중국어 대화체 문장이 상기 번역 메모리 및 상기 구조화된 번역 메모리 중 적어도 하나에 매칭되는지 여부를 판단하는 매칭부와, 상기 입력된 중국어 대화체 문장이 상기 번역 메모리 및 상기 구조화된 번역 메모리 중 적어도 하나에 매칭되지 않는 경우에 상기 입력된 중국어 대화체 문장을 단어 단위로 분리하는 단어 분리부와, 각각의 상기 단어에 대한 형태소 분석 정보를 저장하는 중국어 형태소 사전과, 상기 단어 단위로 분리된 결과 및 각각의 상기 단어에 대한 형태소 분석 정보에 기초하여 상기 입력된 중국어 대화체 문장에서 생략된 성분의 유무 및 생략 유형을 추정할 수 있는 자질을 추출하는 자질 추출 모듈과, 상기 추출된 자질에 기초하여 상기 입력된 중국어 대화체 문장의 상기 생략 유형을 추정하는 생략 유형 추정 모듈과, 추정된 상기 생략 유형에 따라 상기 생략된 성분을 복원하는 생략 성분 목원 모듈을 포함하는 복원부와, 상기 중국어 형태소 사전에 기초하여 상기 중국어 대화체 문장에 포함된 복수의 단어에 대해 상기 중국어 대화체 문장의 문맥을 고려하여 품사 태깅을 수행하는 품사 태깅부와, 품사가 태깅된 상기 중국어 대화체 문장을 한국어로 번역하는 번역부를 포함한다.
상기와 같은 본 발명에 따른 중국어 자동 번역을 위한 생략 성분 복원 방법 및 장치, 이를 포함하는 중국어 자동 번역 방법 및 장치에 따르면, 한국어 및 다른 언어의 대화체에서 나타나는 생략되는 표현들과 다른 양상을 보이는 중국어 대화체 문장에 포함된 생략 표현을 생략 유형별로 분류하고, 생략 유형에 따라 생략된 표현을 복원하고, 복원된 중국어 대화체 문장을 번역함으로써 정확한 자동 번역의 결과를 제공할 수 있다.
또한, 입력된 중국어 대화체 문장이 번역 메모리 및 구조화된 번역 메모리 중 적어도 하나에 매칭되는지 여부를 먼저 판단하고, 번역 메모리 및 구조화된 메모리 중 적어도 하나에 매칭되지 않는 경우에 입력된 중국어 대화체 문장의 생략된 표현을 복원하고, 복원된 중국어 대화체 문장을 번역함으로써, 종래에 번역 메모리 또는 구조화된 번역 메모리만 사용하는 경우에 생략된 표현을 포함하는 중국어 대화체 문장을 정확히 번역을 할 수 없는 문제점을 극복할 수 있다.
또한, 중국어 대화체 문장의 형태소 분석 단계에서 적용되기 때문에 규칙 기반의 자동 번역뿐만 아니라, 말뭉치 기반의 통계적 자동 번역에서도 적용될 수 있다.
도 1은 본 발명의 일 실시예에 따른 중국어 자동 번역을 위한 생략 성분 복원 방법을 나타내는 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 중국어 자동 번역을 위한 생략 성분 복원 장치의 구성을 나타내는 블록도이다.
도 3은 본 발명의 일 실시예에 따른 중국어 자동 번역 방법을 나타내는 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 중국어 자동 번역 장치의 구성을 나타내는 블록도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 중국어 자동 번역을 위한 생략 성분 복원 방법을 나타내는 흐름도이다.
도 1을 참조하면, 중국어 자동 번역을 위한 생략 성분 복원 방법은 입력된 중국어 대화체 문장을 단어 단위로 분리하고(S 1000), 단어 단위로 분리된 결과 및 각각의 단어에 대한 형태소 분석 정보에 기초하여 입력된 중국어 대화체 문장에서 생략된 성분의 유무 및 생략 유형을 추정할 수 있는 자질을 추출하며(S 1100), 추출된 자질에 기초하여 입력된 중국어 대화체 문장의 생략 유형을 추정할 수 있다(S 1200).
또한, 입력된 중국어 대화체 문장에서 생략된 성분의 유무 및 생략 유형을 추정할 수 있는 자질을 추출하는데 분리된 각각의 단어에 대한 형태소 분석 정보를 추가적인 자질로 사용함으로써 생략된 성분의 추정 확률을 향상시킬 수 있으며, 형태소 분석 정보는 각 단어의 품사 정보 및 각 단어의 의미 정보를 포함할 수 있다.
또한, 상술한 생략 유형은 복문을 단문으로 표현한 문장 생략 유형, 수사 또는 양사를 생략한 수량사 생략 유형 및 문장 부호가 생략된 문장 부호 생략 유형 중 적어도 하나를 포함할 수 있다.
상술한 각각의 생략 유형을 추정할 수 있는 자질은 문장 생략 유형의 경우에는 입력된 중국어 대화체 문장에 적어도 두 개의 용언의 존재, 연결사의 존재 및 부사의 중복 사용 중 적어도 하나를 포함할 수 있고, 수량사 생략 유형의 경우에는 입력된 중국어 대화체 문장에 존재하는 양사의 좌우에 위치한 품사의 정보를 포함할 수 있으며, 문장 부호 생략 유형의 경우에 입력된 중국어 대화체 문장의 종류가 의문문인 경우에 의문형 단어의 존재, 입력된 중국어 대화체 문장이 복문이고, 문장 부호가 생략된 경우 적어도 두 개의 용언의 존재 및 입력된 중국어 대화체 문장의 문미어와 문두어의 연결 여부를 포함할 수 있다.
구체적으로, 문장 생략 유형은 복수의 문장이 결합된 문장으로, 중국어 대화체 복문의 특징은 각각의 문장에서 사용된 용언이 생략되지 않아 반드시 두 개의 용언이 존재하게 되며, 복수의 문장을 단문으로 축약하는 과정에서 문장과 문장을 연결하는 연결사가 생략되지 않는 경우가 많다. 또한, 문장이 생략되는 경우에 각 문장에서 사용된 부사가 생략되지 않아 중복하여 부사가 사용되는 특징이 있고, 이러한 특징들이 문장 생략 유형을 추정할 수 있는 자질이 될 수 있다.
예를 들어, "
Figure pat00001
"는 문장이 생략된 유형으로 "당신이 가고 싶으면 가십시오."의 의미이며, 여기서 복문 경계 기호인 "쉼표"와, 주격어인 "당신"과, 가정을 나타내는 문두 연결사인 "만약/~면"이 생략되었다. 그러나, "가다"라는 단어가 중복하여 두 번 사용되었고, "가다"의 품사는 용언이며, 문장 사이를 연결하는 연결사 "
Figure pat00002
"가 존재하므로, 이러한 특징을 자질로 추출하여 문장이 생략된 것을 추정할 수 있다.
또한, 수량사 생략 유형을 살펴보면, 중국어에는 다양한 수량사가 존재하고, 타 언어와 달리 수량사를 많이 사용하는 특징이 있다. 중국어 대화체 문장에서는 수량사가 빈번하게 사용되며, 수량사 전부를 생략하는 것이 아니라 수량사 중 수사를 생략하는 경우가 많다.
예를 들어, 중국어 대화체 문장인 "
Figure pat00003
."는 "저한테 매주 한 병 주세요."라는 의미지만, 이 중국어 문장에는 "병"이라는 양사만 있고, 수사가 생략되었음을 알 수 있다. 따라서, 수량사 생략 추정은 양사의 좌우에 위치하는 단어의 품사를 통해 알 수 있으며, 특히, 양사 앞에 수사가 생략되고, 용언 뒤에 바로 양사가 존재하면 수량사가 생략된 것으로 추정할 수 있으며, 이러한 특징을 자질로 추출하여 수량사가 생략된 것을 추정할 수 있다.
또한, 문장 부호 생략 유형은 하나 이상의 문장 사이에 쉼표가 없거나, 문미 기호가 없는 경우로 일부의 문장에서는 문장 부호 생략이 문제되지 않지만, 많은 문장에서 문장 부호는 큰 역할을 하기 때문에 문제가 될 수 있다. 특히, 중국어의 용언은 양태에 따라 변형이 이루어지지 않기 때문에 의문문이나 감탄문의 구분을 용언이 아닌 문장 부호가 구분하는 역할을 수행하게 된다.
따라서, 문장 부호 생략이 추정 가능한 문장은 추정하여 적절히 복원하는 것이 필요하다. 문장 부호 생략 유형의 경우는 문장이 의문문인 경우에 의문형 단어의 존부를 통하여 추정하며, 복문이지만 문장 부호가 없는 경우에 문장이 생략된 유형과 같이 앞뒤 용언의 존재 여부, 문미어와 문두 주어를 연결하였는지를 통해 문장 부호의 생략을 추정할 수 있고, 이러한 특징이 자질로 활용될 수 있다.
다음으로, 추정된 생략 유형에 따라 생략된 성분을 복원할 수 있다(S 1300).
상술한 각각의 생략 유형에 따른 생략된 성분의 복원은 문장 생략 유형의 경우에 연결사에 기초하여 생략된 문장에 올 수 있는 문두 연결사를 패턴 또는 학습을 통하여 결정하고, 결정된 연결사를 이용하여 복원할 수 있고, 수량사 생략 유형의 경우에 입력된 중국어 대화체 문장에 존재하는 양사에 기초하여 수사를 복원할 수 있으며, 문장 부호 생략 유형의 경우에 입력된 중국어 대화체 문장에 의문 부호, 감탄 기호 및 쉼표를 추가하여 복원할 수 있다.
구체적으로, 문장 생략 유형의 경우에 문장 사이의 연결사를 통해 올 수 있는 문두 연결사를 패턴 또는 학습을 통하여 문두 연결사를 복원하며, 문장의 주어를 복원하는 경우는 모호성이 있으므로, 앞 또는 뒤 문장의 "나 또는 당신"과 같은 단서어를 통해 같은 단어로 복원할 수 있다.
예를 들어, "
Figure pat00004
"는 문장이 생략된 유형으로 "당신이 가고 싶으면 가십시오."의 의미로 상기 문장은 "만약 당신이 가고 싶으면, 당신이 가십시오."로 복원할 수 있다.
또한, 수량사 생략 유형의 경우에 양사에 따라 수사를 복원할 수 있고, 대부분 "하나"라는 수사를 추가하여 복원한다. 한편, 중국어에만 존재하고, 한국어에는 존재하지 않는 양사는 한국어의 생성 관점에서 "좀", "일부" 등의 쉬운 단어로 교체하여 복원할 수도 있다.
또한, 문장 부호 생략 유형의 경우에 문장 사이에 쉼표를 추가하거나, 감탄문으로 추정되면, 감탄사를 추가하고, 의문문으로 추정될 경우 의문기호를 추가하여 중국어 대화체 문장을 복원할 수 있다.
도 2는 본 발명의 일 실시예에 따른 중국어 자동 번역을 위한 생략 성분 복원 장치의 구성을 나타내는 블록도이다.
도 2를 참조하면, 중국어 자동 번역을 위한 생략 성분 복원 장치(100)는 중국어 대화체 문장을 입력받아 중국어 대화체 문장에 포함된 생략된 성분을 복원하여 출력할 수 있고, 중국어 자동 번역을 위한 생략 성분 복원 장치(100)는 단어 분리부(110), 중국어 형태소 사전(120) 및 복원부(130)를 포함할 수 있다.
단어 분리부(110)는 입력된 중국어 대화체 문장을 단어 단위로 분리할 수 있다.
중국어 형태소 사전(120)은 각각의 단어에 대한 형태소 분석 정보를 저장할 수 있고, 입력된 중국어 대화체 문장에서 생략된 성분의 유무 및 생략 유형을 추정할 수 있는 자질을 추출하는데 분리된 각각의 단어에 대한 형태소 분석 정보를 추가적인 자질로 사용함으로써 생략된 성분의 추정 확률을 향상시키는데 사용될 수 있고, 형태소 분석 정보는 각 단어의 품사 정보 및 각 단어의 의미 정보를 포함할 수 있다.
복원부(130)는 단어 단위로 분리된 결과 및 각각의 단어에 대한 형태소 분석 정보에 기초해 중국어 대화체 문장의 생략 성분을 유형에 따라 추정하여 복원할 수 있고, 복원부(130)는 자질 추출 모듈(131), 생략 유형 추정 모듈(132) 및 생략 성분 복원 모듈(133)을 포함할 수 있다.
자질 추출 모듈(131)은 단어 단위로 분리된 결과 및 각각의 단어에 대한 형태소 분석 정보에 기초하여 입력된 중국어 대화체 문장에서 생략된 성분의 유무 및 생략 유형을 추정할 수 있는 자질을 추출할 수 있다.
생략 유형 추정 모듈(132)은 추출된 자질에 기초하여 입력된 중국어 대화체 문장의 생략 유형을 추정할 수 있다.
구체적으로, 상기 생략 유형은 복문을 단문으로 표현한 문장 생략 유형, 수사 또는 양사를 생략한 수량사 생략 유형 및 문장 부호가 생략된 문장 부호 생략 유형 중 적어도 하나를 포함할 수 있다.
상술한 각각의 생략 유형을 추정할 수 있는 자질은 문장 생략 유형의 경우에는 입력된 중국어 대화체 문장에 적어도 두 개의 용언의 존재, 연결사의 존재 및 부사의 중복 사용 중 적어도 하나를 포함할 수 있고, 수량사 생략 유형의 경우에는 입력된 중국어 대화체 문장에 존재하는 양사의 좌우에 위치한 품사의 정보를 포함할 수 있으며, 문장 부호 생략 유형의 경우에 입력된 중국어 대화체 문장의 종류가 의문문인 경우에 의문형 단어의 존재, 입력된 중국어 대화체 문장이 복문이고, 문장 부호가 생략된 경우 적어도 두 개의 용언의 존재 및 입력된 중국어 대화체 문장의 문미어와 문두어의 연결 여부를 포함할 수 있다.
구체적으로, 문장 생략 유형은 복수의 문장이 결합된 문장으로, 중국어 대화체 복문의 특징은 각각의 문장에서 사용된 용언이 생략되지 않아 반드시 두 개의 용언이 존재하게 되며, 복수의 문장을 단문으로 축약하는 과정에서 문장과 문장을 연결하는 연결사가 생략되지 않는 경우가 많다. 또한, 문장이 생략되는 경우에 각 문장에서 사용된 부사가 생략되지 않아 중복하여 부사가 사용되는 특징이 있고, 이러한 특징들이 문장 생략 유형을 추정할 수 있는 자질이 될 수 있다.
예를 들어, "
Figure pat00005
"는 문장이 생략된 유형으로 "당신이 가고 싶으면 가십시오."의 의미이며, 여기서 복문 경계 기호인 "쉼표"와, 주격어인 "당신"과, 가정을 나타내는 문두 연결사인 "만약/~면"이 생략되었다. 그러나, "가다"라는 단어가 중복하여 두 번 사용되었고, "가다"의 품사는 용언이며, 문장 사이를 연결하는 연결사 "
Figure pat00006
"가 존재하므로, 이러한 특징을 자질로 추출하여 문장이 생략된 것을 추정할 수 있다.
또한, 수량사 생략 유형을 살펴보면, 중국어에는 다양한 수량사가 존재하고, 타 언어와 달리 수량사를 많이 사용하는 특징이 있다. 중국어 대화체 문장에서는 수량사가 빈번하게 사용되며, 수량사 전부를 생략하는 것이 아니라 수량사 중 수사를 생략하는 경우가 많다.
예를 들어, 중국어 대화체 문장인 "
Figure pat00007
."는 "저한테 매주 한 병 주세요."라는 의미지만, 이 중국어 문장에는 "병"이라는 양사만 있고, 수사가 생략되었음을 알 수 있다. 따라서, 수량사 생략 추정은 양사의 좌우에 위치하는 단어의 품사를 통해 알 수 있으며, 특히, 양사 앞에 수사가 생략되고, 용언 뒤에 바로 양사가 존재하면 수량사가 생략된 것으로 추정할 수 있으며, 이러한 특징을 자질로 추출하여 수량사가 생략된 것을 추정할 수 있다.
또한, 문장 부호 생략 유형은 하나 이상의 문장 사이에 쉼표가 없거나, 문미 기호가 없는 경우로 일부의 문장에서는 문장 부호 생략이 문제되지 않지만, 많은 문장에서 문장 부호는 큰 역할을 하기 때문에 문제가 될 수 있다. 특히, 중국어의 용언은 양태에 따라 변형이 이루어지지 않기 때문에 의문문이나 감탄문의 구분을 용언이 아닌 문장 부호가 구분하는 역할을 수행하게 된다.
따라서, 문장 부호 생략이 추정 가능한 문장은 추정하여 적절히 복원하는 것이 필요하다. 문장 부호 생략 유형의 경우는 문장이 의문문인 경우에 의문형 단어의 존부를 통하여 추정하며, 복문이지만 문장 부호가 없는 경우에 문장이 생략된 유형과 같이 앞뒤 용언의 존재 여부, 문미어와 문두 주어를 연결하였는지를 통해 문장 부호의 생략을 추정할 수 있고, 이러한 특징이 자질로 활용될 수 있다.
생략 성분 복원 모듈(133)은 추정된 생략 유형에 따라 생략된 성분을 복원할 수 있다.
상술한 각각의 생략 유형에 따른 생략된 성분의 복원은 문장 생략 유형의 경우에 연결사에 기초하여 생략된 문장에 올 수 있는 문두 연결사를 패턴 또는 학습을 통하여 결정하고, 결정된 연결사를 이용하여 복원할 수 있고, 수량사 생략 유형의 경우에 입력된 중국어 대화체 문장에 존재하는 양사에 기초하여 수사를 복원할 수 있으며, 문장 부호 생략 유형의 경우에 입력된 중국어 대화체 문장에 의문 부호, 감탄 기호 및 쉼표를 추가하여 복원할 수 있다.
구체적으로, 문장 생략 유형의 경우에 문장 사이의 연결사를 통해 올 수 있는 문두 연결사를 패턴 또는 학습을 통하여 문두 연결사를 복원하며, 문장의 주어를 복원하는 경우는 모호성이 있으므로, 앞 또는 뒤 문장의 "나 또는 당신"과 같은 단서어를 통해 같은 단어로 복원할 수 있다.
예를 들어, "
Figure pat00008
"는 문장이 생략된 유형으로 "당신이 가고 싶으면 가십시오."의 의미로 상기 문장은 "만약 당신이 가고 싶으면, 당신이 가십시오."로 복원할 수 있다.
또한, 수량사 생략 유형의 경우에 양사에 따라 수사를 복원할 수 있고, 대부분 "하나"라는 수사를 추가하여 복원한다. 한편, 중국어에만 존재하고, 한국어에는 존재하지 않는 양사는 한국어의 생성 관점에서 "좀", "일부" 등의 쉬운 단어로 교체하여 복원할 수도 있다.
또한, 문장 부호 생략 유형의 경우에 문장 사이에 쉼표를 추가하거나, 감탄문으로 추정되면, 감탄사를 추가하고, 의문문으로 추정될 경우 의문기호를 추가하여 중국어 대화체 문장을 복원할 수 있다.
도 3은 본 발명의 일 실시예에 따른 중국어 자동 번역 방법을 나타내는 흐름도이다.
도 3을 참조하면, 중국어 자동 번역 방법은 중국어 대화체 문장을 입력받고(S 2000), 입력된 중국어 대화체 문장이 번역 메모리(Translation Memory: TM) 및 구조화된 번역 메모리 중 적어도 하나에 매칭되는지 여부를 판단할 수 있다(S 2100). 판단 결과 중국어 대화체 문장이 번역 메모리 및 구조화된 번역 메모리 중 적어도 하나에 매칭된다면, 매칭된 문장에 대한 정확한 번역문을 상기 입력된 중국어 대화체 문장에 대한 번역문으로 바로 사용할 수 있다.
상기 번역 메모리(Translation Memory: TM)는 원문의 문장을 정확하게 번역한 기 저장된 번역문으로 기 번역한 정보를 의미하고, 구체적으로, 원문의 문장과 사람이나 기계를 통하여 정확하게 번역된 번역문을 쌍으로 매칭된 데이터를 의미할 수 있다. 또한, 구조화된 번역 메모리는 문자열 위주로 구성되어 있는 번역 메모리를 변수화가 가능한 부분을 변수화하여 번역 메모리의 커버리지를 확장한 데이터를 의미할 수 있다.
예를 들어, "서울역으로 가는 방법 알려주세요."와 같은 문장을 "NN/place으로 가는 방법 알려주세요."로 구조화할 수 있다. 이때, NN은 명사의 뜻이며, place는 장소를 나타낸다. 즉, 장소라는 의미를 가진 명사로 변수화한 것을 의미할 수 있다.
다음으로, 입력된 중국어 대화체 문장이 번역 메모리 및 구조화된 번역 메모리 중 적어도 하나에 매칭되지 않는 경우에 입력된 중국어 대화체 문장을 단어 단위로 분리하고(S 2200), 단어 단위로 분리된 결과 및 각각의 단어에 대한 형태소 분석 정보에 기초하여 입력된 중국어 대화체 문장에서 생략된 성분의 유무 및 생략 유형을 추정할 수 있는 자질을 추출하며(S 2300), 추출된 자질에 기초하여 입력된 중국어 대화체 문장의 생략 유형을 추정할 수 있다(S 2400).
한편, 입력된 중국어 대화체 문장에서 생략된 성분의 유무 및 생략 유형을 추정할 수 있는 자질을 추출하는데 분리된 각각의 단어에 대한 형태소 분석 정보를 추가적인 자질로 사용함으로써 생략된 성분의 추정 확률을 향상시킬 수 있으며, 형태소 분석 정보는 각 단어의 품사 정보 및 각 단어의 의미 정보를 포함할 수 있다.
또한, 상술한 생략 유형은 복문을 단문으로 표현한 문장 생략 유형, 수사 또는 양사를 생략한 수량사 생략 유형 및 문장 부호가 생략된 문장 부호 생략 유형 중 적어도 하나를 포함할 수 있다.
상술한 각각의 생략 유형을 추정할 수 있는 자질은 문장 생략 유형의 경우에는 입력된 중국어 대화체 문장에 적어도 두 개의 용언의 존재, 연결사의 존재 및 부사의 중복 사용 중 적어도 하나를 포함할 수 있고, 수량사 생략 유형의 경우에는 입력된 중국어 대화체 문장에 존재하는 양사의 좌우에 위치한 품사의 정보를 포함할 수 있으며, 문장 부호 생략 유형의 경우에 입력된 중국어 대화체 문장의 종류가 의문문인 경우에 의문형 단어의 존재, 입력된 중국어 대화체 문장이 복문이고, 문장 부호가 생략된 경우 적어도 두 개의 용언의 존재 및 입력된 중국어 대화체 문장의 문미어와 문두어의 연결 여부를 포함할 수 있다.
구체적으로, 문장 생략 유형은 복수의 문장이 결합된 문장으로, 중국어 대화체 복문의 특징은 각각의 문장에서 사용된 용언이 생략되지 않아 반드시 두 개의 용언이 존재하게 되며, 복수의 문장을 단문으로 축약하는 과정에서 문장과 문장을 연결하는 연결사가 생략되지 않는 경우가 많다. 또한, 문장이 생략되는 경우에 각 문장에서 사용된 부사가 생략되지 않아 중복하여 부사가 사용되는 특징이 있고, 이러한 특징들이 문장 생략 유형을 추정할 수 있는 자질이 될 수 있다.
예를 들어, "
Figure pat00009
"는 문장이 생략된 유형으로 "당신이 가고 싶으면 가십시오."의 의미이며, 여기서 복문 경계 기호인 "쉼표"와, 주격어인 "당신"과, 가정을 나타내는 문두 연결사인 "만약/~면"이 생략되었다. 그러나, "가다"라는 단어가 중복하여 두 번 사용되었고, "가다"의 품사는 용언이며, 문장 사이를 연결하는 연결사 "
Figure pat00010
"가 존재하므로, 이러한 특징을 자질로 추출하여 문장이 생략된 것을 추정할 수 있다.
또한, 수량사 생략 유형을 살펴보면, 중국어에는 다양한 수량사가 존재하고, 타 언어와 달리 수량사를 많이 사용하는 특징이 있다. 중국어 대화체 문장에서는 수량사가 빈번하게 사용되며, 수량사 전부를 생략하는 것이 아니라 수량사 중 수사를 생략하는 경우가 많다.
예를 들어, 중국어 대화체 문장인 "
Figure pat00011
."는 "저한테 매주 한 병 주세요."라는 의미지만, 이 중국어 문장에는 "병"이라는 양사만 있고, 수사가 생략되었음을 알 수 있다. 따라서, 수량사 생략 추정은 양사의 좌우에 위치하는 단어의 품사를 통해 알 수 있으며, 특히, 양사 앞에 수사가 생략되고, 용언 뒤에 바로 양사가 존재하면 수량사가 생략된 것으로 추정할 수 있으며, 이러한 특징을 자질로 추출하여 수량사가 생략된 것을 추정할 수 있다.
또한, 문장 부호 생략 유형은 하나 이상의 문장 사이에 쉼표가 없거나, 문미 기호가 없는 경우로 일부의 문장에서는 문장 부호 생략이 문제되지 않지만, 많은 문장에서 문장 부호는 큰 역할을 하기 때문에 문제가 될 수 있다. 특히, 중국어의 용언은 양태에 따라 변형이 이루어지지 않기 때문에 의문문이나 감탄문의 구분을 용언이 아닌 문장 부호가 구분하는 역할을 수행하게 된다.
따라서, 문장 부호 생략이 추정 가능한 문장은 추정하여 적절히 복원하는 것이 필요하다. 문장 부호 생략 유형의 경우는 문장이 의문문인 경우에 의문형 단어의 존부를 통하여 추정하며, 복문이지만 문장 부호가 없는 경우에 문장이 생략된 유형과 같이 앞뒤 용언의 존재 여부, 문미어와 문두 주어를 연결하였는지를 통해 문장 부호의 생략을 추정할 수 있고, 이러한 특징이 자질로 활용될 수 있다.
다음으로, 추정된 생략 유형에 따라 생략된 성분을 복원할 수 있다(S 2500).
상술한 각각의 생략 유형에 따른 생략된 성분의 복원은 문장 생략 유형의 경우에 연결사에 기초하여 생략된 문장에 올 수 있는 문두 연결사를 패턴 또는 학습을 통하여 결정하고, 결정된 연결사를 이용하여 복원할 수 있고, 수량사 생략 유형의 경우에 입력된 중국어 대화체 문장에 존재하는 양사에 기초하여 수사를 복원할 수 있으며, 문장 부호 생략 유형의 경우에 입력된 중국어 대화체 문장에 의문 부호, 감탄 기호 및 쉼표를 추가하여 복원할 수 있다.
구체적으로, 문장 생략 유형의 경우에 문장 사이의 연결사를 통해 올 수 있는 문두 연결사를 패턴 또는 학습을 통하여 문두 연결사를 복원하며, 문장의 주어를 복원하는 경우는 모호성이 있으므로, 앞 또는 뒤 문장의 "나 또는 당신"과 같은 단서어를 통해 같은 단어로 복원할 수 있다.
예를 들어, "
Figure pat00012
"는 문장이 생략된 유형으로 "당신이 가고 싶으면 가십시오."의 의미로 상기 문장은 "만약 당신이 가고 싶으면, 당신이 가십시오."로 복원할 수 있다.
또한, 수량사 생략 유형의 경우에 양사에 따라 수사를 복원할 수 있고, 대부분 "하나"라는 수사를 추가하여 복원한다. 한편, 중국어에만 존재하고, 한국어에는 존재하지 않는 양사는 한국어의 생성 관점에서 "좀", "일부" 등의 쉬운 단어로 교체하여 복원할 수도 있다.
또한, 문장 부호 생략 유형의 경우에 문장 사이에 쉼표를 추가하거나, 감탄문으로 추정되면, 감탄사를 추가하고, 의문문으로 추정될 경우 의문기호를 추가하여 중국어 대화체 문장을 복원할 수 있다.
다음으로, 중국어 형태소 사전에 기초하여 중국어 대화체 문장에 포함된 복수의 단어에 대해 중국어 대화체 문장의 문맥을 고려하여 품사 태깅을 수행할 수 있다(S 2600). 단계 2500에서 생략된 성분을 포함한 중국어 대화체 문장을 생략 성분이 복원된 완전한 문장으로 복원하였으므로, 입력된 중국어 대화체 문장의 문맥을 고려하여 정확성이 있는 품사 태깅을 할 수 있어, 구문 분석의 실패 오류를 감소시킬 수 있다. 상기 중국어 형태소 사전은 각각의 단어에 대한 형태소 분석 정보를 저장할 수 있고, 형태소 분석 정보는 각 단어의 품사 정보 및 각 단어의 의미 정보를 포함할 수 있다.
다음으로, 품사가 태깅된 중국어 대화체 문장을 한국어로 번역할 수 있다(S 2700). 단계 2700은 번역 엔진을 통하여 한국어로 번역을 수행할 수 있고, 번역 엔진은 구문 분석 모듈, 구문 구조 변환 모듈 및 한국어 생성 모듈 등 한국어로 번역하기 위해 사용되는 일반적인 엔진일 수 있다.
도 4는 본 발명의 일 실시예에 따른 중국어 자동 번역 장치의 구성을 나타내는 블록도이다.
도 4를 참조하면, 중국어 자동 번역 장치(200)는 중국어 대화체 문장을 입력받아 중국어 대화체 문장에 포함된 생략된 성분을 복원하고, 생략 성분이 복원된 중국어 대화체 문장을 한국어로 번역할 수 있고, 중국어 자동 번역 장치(200)는 번역 메모리/구조화된 번역 메모리 데이터베이스(210), 매칭부(220), 단어 분리부(230), 중국어 형태소 사전(240), 복원부(250), 품사 태깅부(260) 및 번역부(270)를 포함할 수 있다.
번역 메모리/구조화된 번역 메모리 데이터베이스(210)는 번역 메모리(Translation Memory: TM) 및 구조화된 번역 메모리 중 적어도 하나를 저장할 수 있다.
상기 번역 메모리(Translation Memory: TM)는 원문의 문장을 정확하게 번역한 기 저장된 번역문으로 기 번역한 정보를 의미하고, 구체적으로, 원문의 문장과 사람이나 기계를 통하여 정확하게 번역된 번역문을 쌍으로 매칭된 데이터를 의미할 수 있다. 또한, 구조화된 번역 메모리는 문자열 위주로 구성되어 있는 번역 메모리를 변수화가 가능한 부분을 변수화하여 번역 메모리의 커버리지를 확장한 데이터를 의미할 수 있다.
예를 들어, "서울역으로 가는 방법 알려주세요."와 같은 문장을 "NN/place으로 가는 방법 알려주세요."로 구조화할 수 있다. 이때, NN은 명사의 뜻이며, place는 장소를 나타낸다. 즉, 장소라는 의미를 가진 명사로 변수화한 것을 의미할 수 있다.
매칭부(220)는 입력된 중국어 대화체 문장이 번역 메모리 및 상기 구조화된 번역 메모리 중 적어도 하나에 매칭되는지 여부를 판단할 수 있다. 판단 결과 중국어 대화체 문장이 번역 메모리 및 구조화된 번역 메모리 중 적어도 하나에 매칭된다면, 매칭된 문장에 대한 정확한 번역문을 상기 입력된 중국어 대화체 문장에 대한 번역문으로 바로 사용할 수 있다. 이 경우 후술할 번역부(270)를 통해 한국어로 번역을 수행할 필요가 없어 신속하고, 정확도가 있는 번역문을 얻을 수 있다.
단어 분리부(230)는 입력된 중국어 대화체 문장이 번역 메모리 및 구조화된 번역 메모리 중 적어도 하나에 매칭되지 않는 경우에 입력된 중국어 대화체 문장을 단어 단위로 분리할 수 있다.
중국어 형태소 사전(240)은 각각의 단어에 대한 형태소 분석 정보를 저장할 수 있고, 입력된 중국어 대화체 문장에서 생략된 성분의 유무 및 생략 유형을 추정할 수 있는 자질을 추출하는데 분리된 각각의 단어에 대한 형태소 분석 정보를 추가적인 자질로 사용함으로써 생략된 성분의 추정 확률을 향상시키는데 사용될 수 있고, 형태소 분석 정보는 각 단어의 품사 정보 및 각 단어의 의미 정보를 포함할 수 있다.
복원부(250)는 단어 단위로 분리된 결과 및 각각의 단어에 대한 형태소 분석 정보에 기초해 중국어 대화체 문장의 생략 성분을 유형에 따라 추정하여 복원할 수 있고, 복원부(250)는 자질 추출 모듈(251), 생략 유형 추정 모듈(252) 및 생략 성분 복원 모듈(253)을 포함할 수 있다.
자질 추출 모듈(251)은 단어 단위로 분리된 결과 및 각각의 단어에 대한 형태소 분석 정보에 기초하여 입력된 중국어 대화체 문장에서 생략된 성분의 유무 및 생략 유형을 추정할 수 있는 자질을 추출할 수 있다.
생략 유형 추정 모듈(252)은 추출된 자질에 기초하여 입력된 중국어 대화체 문장의 생략 유형을 추정할 수 있다.
구체적으로, 상기 생략 유형은 복문을 단문으로 표현한 문장 생략 유형, 수사 또는 양사를 생략한 수량사 생략 유형 및 문장 부호가 생략된 문장 부호 생략 유형 중 적어도 하나를 포함할 수 있다.
상술한 각각의 생략 유형을 추정할 수 있는 자질은 문장 생략 유형의 경우에는 입력된 중국어 대화체 문장에 적어도 두 개의 용언의 존재, 연결사의 존재 및 부사의 중복 사용 중 적어도 하나를 포함할 수 있고, 수량사 생략 유형의 경우에는 입력된 중국어 대화체 문장에 존재하는 양사의 좌우에 위치한 품사의 정보를 포함할 수 있으며, 문장 부호 생략 유형의 경우에 입력된 중국어 대화체 문장의 종류가 의문문인 경우에 의문형 단어의 존재, 입력된 중국어 대화체 문장이 복문이고, 문장 부호가 생략된 경우 적어도 두 개의 용언의 존재 및 입력된 중국어 대화체 문장의 문미어와 문두어의 연결 여부를 포함할 수 있다.
구체적으로, 문장 생략 유형은 복수의 문장이 결합된 문장으로, 중국어 대화체 복문의 특징은 각각의 문장에서 사용된 용언이 생략되지 않아 반드시 두 개의 용언이 존재하게 되며, 복수의 문장을 단문으로 축약하는 과정에서 문장과 문장을 연결하는 연결사가 생략되지 않는 경우가 많다. 또한, 문장이 생략되는 경우에 각 문장에서 사용된 부사가 생략되지 않아 중복하여 부사가 사용되는 특징이 있고, 이러한 특징들이 문장 생략 유형을 추정할 수 있는 자질이 될 수 있다.
예를 들어, "
Figure pat00013
"는 문장이 생략된 유형으로 "당신이 가고 싶으면 가십시오."의 의미이며, 여기서 복문 경계 기호인 "쉼표"와, 주격어인 "당신"과, 가정을 나타내는 문두 연결사인 "만약/~면"이 생략되었다. 그러나, "가다"라는 단어가 중복하여 두 번 사용되었고, "가다"의 품사는 용언이며, 문장 사이를 연결하는 연결사 "
Figure pat00014
"가 존재하므로, 이러한 특징을 자질로 추출하여 문장이 생략된 것을 추정할 수 있다.
또한, 수량사 생략 유형을 살펴보면, 중국어에는 다양한 수량사가 존재하고, 타 언어와 달리 수량사를 많이 사용하는 특징이 있다. 중국어 대화체 문장에서는 수량사가 빈번하게 사용되며, 수량사 전부를 생략하는 것이 아니라 수량사 중 수사를 생략하는 경우가 많다.
예를 들어, 중국어 대화체 문장인 "
Figure pat00015
."는 "저한테 매주 한 병 주세요."라는 의미지만, 이 중국어 문장에는 "병"이라는 양사만 있고, 수사가 생략되었음을 알 수 있다. 따라서, 수량사 생략 추정은 양사의 좌우에 위치하는 단어의 품사를 통해 알 수 있으며, 특히, 양사 앞에 수사가 생략되고, 용언 뒤에 바로 양사가 존재하면 수량사가 생략된 것으로 추정할 수 있으며, 이러한 특징을 자질로 추출하여 수량사가 생략된 것을 추정할 수 있다.
또한, 문장 부호 생략 유형은 하나 이상의 문장 사이에 쉼표가 없거나, 문미 기호가 없는 경우로 일부의 문장에서는 문장 부호 생략이 문제되지 않지만, 많은 문장에서 문장 부호는 큰 역할을 하기 때문에 문제가 될 수 있다. 특히, 중국어의 용언은 양태에 따라 변형이 이루어지지 않기 때문에 의문문이나 감탄문의 구분을 용언이 아닌 문장 부호가 구분하는 역할을 수행하게 된다.
따라서, 문장 부호 생략이 추정 가능한 문장은 추정하여 적절히 복원하는 것이 필요하다. 문장 부호 생략 유형의 경우는 문장이 의문문인 경우에 의문형 단어의 존부를 통하여 추정하며, 복문이지만 문장 부호가 없는 경우에 문장이 생략된 유형과 같이 앞뒤 용언의 존재 여부, 문미어와 문두 주어를 연결하였는지를 통해 문장 부호의 생략을 추정할 수 있고, 이러한 특징이 자질로 활용될 수 있다.
생략 성분 복원 모듈(253)은 추정된 생략 유형에 따라 생략된 성분을 복원할 수 있다.
상술한 각각의 생략 유형에 따른 생략된 성분의 복원은 문장 생략 유형의 경우에 연결사에 기초하여 생략된 문장에 올 수 있는 문두 연결사를 패턴 또는 학습을 통하여 결정하고, 결정된 연결사를 이용하여 복원할 수 있고, 수량사 생략 유형의 경우에 입력된 중국어 대화체 문장에 존재하는 양사에 기초하여 수사를 복원할 수 있으며, 문장 부호 생략 유형의 경우에 입력된 중국어 대화체 문장에 의문 부호, 감탄 기호 및 쉼표를 추가하여 복원할 수 있다.
구체적으로, 문장 생략 유형의 경우에 문장 사이의 연결사를 통해 올 수 있는 문두 연결사를 패턴 또는 학습을 통하여 문두 연결사를 복원하며, 문장의 주어를 복원하는 경우는 모호성이 있으므로, 앞 또는 뒤 문장의 "나 또는 당신"과 같은 단서어를 통해 같은 단어로 복원할 수 있다.
예를 들어, "
Figure pat00016
"는 문장이 생략된 유형으로 "당신이 가고 싶으면 가십시오."의 의미로 상기 문장은 "만약 당신이 가고 싶으면, 당신이 가십시오."로 복원할 수 있다.
또한, 수량사 생략 유형의 경우에 양사에 따라 수사를 복원할 수 있고, 대부분 "하나"라는 수사를 추가하여 복원한다. 한편, 중국어에만 존재하고, 한국어에는 존재하지 않는 양사는 한국어의 생성 관점에서 "좀", "일부" 등의 쉬운 단어로 교체하여 복원할 수도 있다.
또한, 문장 부호 생략 유형의 경우에 문장 사이에 쉼표를 추가하거나, 감탄문으로 추정되면, 감탄사를 추가하고, 의문문으로 추정될 경우 의문기호를 추가하여 중국어 대화체 문장을 복원할 수 있다.
품사 태깅부(260)는 중국어 형태소 사전(240)에 기초하여 중국어 대화체 문장에 포함된 복수의 단어에 대해 중국어 대화체 문장의 문맥을 고려하여 품사 태깅을 수행할 수 있다. 복원부(250)에서 생략된 성분을 포함한 중국어 대화체 문장을 생략 성분이 복원된 완전한 문장으로 복원하였으므로, 입력된 중국어 대화체 문장의 문맥을 고려하여 정확성이 있는 품사 태깅을 할 수 있어, 구문 분석의 실패 오류를 감소시킬 수 있다.
번역부(270)는 품사가 태깅된 중국어 대화체 문장을 한국어로 번역할 수 있다. 구체적으로, 번역부(270)는 번역 엔진을 통하여 한국어로 번역을 수행할 수 있고, 번역 엔진은 구문 분석 모듈, 구문 구조 변환 모듈 및 한국어 생성 모듈 등 한국어로 번역하기 위해 사용되는 일반적인 엔진일 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 생략 성분 복원 장치 110: 단어 분리부
120: 중국어 형태소 사전 130: 복원부
131: 자질 추출 모듈 132: 생략 유형 추정 모듈
133: 생략 성분 복원 모듈 200: 중국어 자동 번역 장치
210: 번역 메모리/구조화된 번역 메모리 데이터베이스
220: 매칭부 230: 단어 분리부
240: 중국어 형태소 사전 250: 복원부
251: 자질 추출 모듈 252: 생략 유형 추정 모듈
253: 생략 성분 복원 모듈 260: 품사 태깅부
270: 번역부

Claims (1)

  1. 입력된 중국어 대화체 문장을 단어 단위로 분리하는 단계;
    상기 단어 단위로 분리된 결과 및 각각의 상기 단어에 대한 형태소 분석 정보에 기초하여 자질을 추출하는 단계; 및
    상기 추출된 자질에 기초하여 상기 입력된 중국어 대화체 문장의 상기 생략 유형을 추정하고, 추정된 상기 생략 유형에 따라 상기 생략된 성분을 복원하는 단계를 포함하는 중국어 자동 번역을 위한 생략 성분 복원 방법.
KR1020120024128A 2012-03-08 2012-03-08 중국어 자동 번역을 위한 생략 성분 복원 방법 및 장치, 이를 포함하는 중국어 자동 번역 방법 및 장치 KR20130102926A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120024128A KR20130102926A (ko) 2012-03-08 2012-03-08 중국어 자동 번역을 위한 생략 성분 복원 방법 및 장치, 이를 포함하는 중국어 자동 번역 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120024128A KR20130102926A (ko) 2012-03-08 2012-03-08 중국어 자동 번역을 위한 생략 성분 복원 방법 및 장치, 이를 포함하는 중국어 자동 번역 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20130102926A true KR20130102926A (ko) 2013-09-23

Family

ID=49452437

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120024128A KR20130102926A (ko) 2012-03-08 2012-03-08 중국어 자동 번역을 위한 생략 성분 복원 방법 및 장치, 이를 포함하는 중국어 자동 번역 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20130102926A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763222A (zh) * 2018-05-17 2018-11-06 腾讯科技(深圳)有限公司 一种漏译检测、翻译方法及装置、服务器及存储介质
US11604931B2 (en) 2019-09-27 2023-03-14 Samsung Electronics Co., Ltd. Electronic device and controlling method of electronic device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763222A (zh) * 2018-05-17 2018-11-06 腾讯科技(深圳)有限公司 一种漏译检测、翻译方法及装置、服务器及存储介质
CN108763222B (zh) * 2018-05-17 2020-08-04 腾讯科技(深圳)有限公司 一种漏译检测、翻译方法及装置、服务器及存储介质
US11604931B2 (en) 2019-09-27 2023-03-14 Samsung Electronics Co., Ltd. Electronic device and controlling method of electronic device

Similar Documents

Publication Publication Date Title
Yeh Speech act identification using semantic dependency graphs with probabilistic context-free grammars
Fernandes et al. Latent structure perceptron with feature induction for unrestricted coreference resolution
Ueffing et al. Improved models for automatic punctuation prediction for spoken and written text.
US20140163951A1 (en) Hybrid adaptation of named entity recognition
US20050086047A1 (en) Syntax analysis method and apparatus
CN104573099B (zh) 题目的搜索方法及装置
Diab et al. Tharwa: A Large Scale Dialectal Arabic-Standard Arabic-English Lexicon.
KR20110027361A (ko) 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
KR100911834B1 (ko) 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치
Dien et al. POS-tagger for English-Vietnamese bilingual corpus
Nguyen et al. Named entity recognition for Vietnamese
Mansouri et al. State-of-the-art english to persian statistical machine translation system
Aasha et al. Machine translation from English to Malayalam using transfer approach
CN107861937B (zh) 对译语料库的更新方法、更新装置以及记录介质
Nguyen et al. Vietnamese treebank construction and entropy-based error detection
KR20130102926A (ko) 중국어 자동 번역을 위한 생략 성분 복원 방법 및 장치, 이를 포함하는 중국어 자동 번역 방법 및 장치
Chopra et al. Improving quality of machine translation using text rewriting
Curto et al. Automatic readability classifier for european portuguese
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
JP2005284723A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Saini et al. Relative clause based text simplification for improved english to hindi translation
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
Neme A fully inflected Arabic verb resource constructed from a lexicon of lemmas by using finite-state transducers
JP4708682B2 (ja) 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体
Falavarjani et al. Advantages of dependency parsing for free word order natural languages

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination