KR20120105063A - 문장 자질 정보에 기반한 생략 성분 복원 방법 및 이를 위한 장치 - Google Patents

문장 자질 정보에 기반한 생략 성분 복원 방법 및 이를 위한 장치 Download PDF

Info

Publication number
KR20120105063A
KR20120105063A KR1020100129425A KR20100129425A KR20120105063A KR 20120105063 A KR20120105063 A KR 20120105063A KR 1020100129425 A KR1020100129425 A KR 1020100129425A KR 20100129425 A KR20100129425 A KR 20100129425A KR 20120105063 A KR20120105063 A KR 20120105063A
Authority
KR
South Korea
Prior art keywords
sentence
unit
information
translation
component
Prior art date
Application number
KR1020100129425A
Other languages
English (en)
Inventor
서영애
김창현
양성일
황금하
최승권
노윤형
이기영
권오욱
김운
박은진
신종훈
오영순
김영길
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020100129425A priority Critical patent/KR20120105063A/ko
Publication of KR20120105063A publication Critical patent/KR20120105063A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

문장 자질 정보에 기반한 생략 성분 복원 방법 및 이를 위한 장치가 개시된다. 수신된 원시 언어 및 원시 언어의 번역문인 목적 언어의 대역문의 형태소를 분석하는 형태소 분석부; 분석된 결과를 이용하여 용언구 단위의 구문 분석하는 구문 분석부; 분석된 원시 언어 정보를 이용하여 생략 성분 발생 유무를 인식하여 결과를 출력하는 생략 성분 인식부; 인식 결과 원시 언어에 생략 성분 현상이 발생된 경우, 목적 언어의 정보를 이용하여 생략된 용언구에 대응하는 주어 정보를 인식하는 선행사 인식부; 주어 정보와 원시 언어를 이용하여 문장 자질 정보를 추출하는 문장 자질 추출부; 및 추출된 문장 자질 정보 및 주어 정보를 이용하여 생략 성분 복원 정보를 생성하는 생략 복원 지식 생성부를 포함하는 번역 지식 구축 장치을 포함하고, 번역 지식 구축 장치로부터 구축된 번역 지식을 이용하여 수신된 원시 언어를 원시 언어에 대한 목적 언어의 번역문으로 번역하는 번역문 생성 장치를 포함하는 것을 특징한다. 따라서, 생략된 주어에 대한 올바른 선행사 정보를 제공하기 때문에, 올바른 번역문의 생성이 가능하다.

Description

문장 자질 정보에 기반한 생략 성분 복원 방법 및 이를 위한 장치{METHOD OF RECOVERING OMITTED COMPONENT BASED ON SENTENCE FEATURES INFORMATION AND APPARATUS FOR THE SAME}
본 발명은 생략 성분 복원 방법 및 장치에 관한 것으로, 더욱 상세하게는 문장 자질 정보에 기반한 생략 성분 복원 방법 및 장치에 관한 것이다.
일반적으로, 하나의 문장은 구문구조 규칙에 의해 생성되며, 모든 모국어 화자는 접속사를 이용하여 문장을 확장하는 능력을 갖고 있다. 따라서, 자동번역 시스템에서 번역하고자 하는 한국어 입력문의 상당수는 용언구(verbal phrase)의 접속구조를 가지고 있다.
한국어는 굴절어의 특징을 가지고 있기 때문에, 용언의 연결어미를 이용하여 각 용언구가 연결된다. 따라서, 용언구 단위로 번역을 수행하는 자동번역 시스템에서는 각 한국어 용언구에 대응하는 번역 대상 언어 용언구의 번역결과를 의미적으로 올바르게 연결하기 위하여 한국어의 연결어미에 대응하는 적절한 (번역 대상 언어)접속사를 선택하여 이를 연결하고, 용언구들간의 상대 순서를 결정하여, 번역 대상 언어 용언구 생성에 필요한 정보를 제공함으로써, 번역 대상 언어로 번역된 번역문을 생성하게 된다.
하지만, 한국어에서 외국어로 번역하는 시스템은 시판된 제품의 수도 비교적 적고 개발에도 적지 않은 어려움을 겪고 있다. 그 이유로는 한국어 어순의 자유로움, 한국어와 외국어의 불일치, 용언 체계의 상이점 등의 원인과 한국어의 교차어적 특성으로 인한 조사와 어미의 복잡한 결합, 한자어휘의 뜨어쓰기 무시, 접미사 처리 등의 형태적 원인이 있을 수 있다.
또한, 한국어는 문장 성분의 생략이 자주 일어나기 때문이다. 특히, 한국어는 주어 성분의 생략이 매우 빈번하게 발생되며, 이러한 현상은 자연 언어 처리 시스템의 성능 저하의 한 원인이 된다. 또한, 자동번역 시스템의 경우, 번역대상 입력문을 수신하여 타겟 언어로 번역할 경우 올바르지 않은 문장으로 번역될 수 있다. 예를 들어, 번역대상 입력문으로 한국어 입력문을 수신할 경우, 한국어 입력문에 포함된 문장들에 생략 성분이 존재한다면, 생략 성분이 존재하는 문장들을 타겟 언어로 번역할 시 올바르지 않은 문장으로 번역될 수 있다.
따라서, 생략된 한국어의 주어 성분을 복원함으로써 번역된 문장에서 주어를 기술하여 주어야 올바른 문장 번역이 가능하다. 생략 성분의 복원과 관련된 종래 유사 기술들은 크게 2가지 분류로 나누어 볼 수 있다.
첫째, 언어학적 지식에 기반한 규칙 기반의 처리 시스템이다. 즉, 언어의 근접성, 평행성 등의 형태소 및 구문 정보를 이용한 규칙을 기반으로 하여 생략 성분의 선행사를 찾을 수 있으며, 조응 현상을 이론적으로 설명한 중심화 이론 등에 기반하여 선행사를 찾을 수 있다. 이러한 시스템은 특별한 언어 자원이 필요하지 않아 비교적 손쉽게 구현이 가능하며, 시스템 구축에 드는 비용에 비해 시스템의 성능이 비교적 좋다는 장점이 있으나, 새로운 규칙의 추가가 어려운 문제점 등으로 인해 추가적인 성능 향상에 한계가 있다.
둘째, 코퍼스에 기반한 정보를 이용하여 생략 성분을 찾을 수 있다. 이 방법은 조응 정보가 표시된 코퍼스(anaphora-annotated corpus) 또는 원시 코퍼스 등을 이용하여 생략 성분 복원을 위한 확률 정보를 추출하고 이에 기반하여 선행사(antecedent)를 찾는다. 이 방법은 코퍼스의 양이 적을 경우 성능이 떨어진다는 점과 코퍼스의 구축에 많은 비용이 든다는 단점이 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 제 1 목적은, 문장 자질 정보에 기반한 생략 성분 복원 장치에 의해 생성된 지식 정보를 이용한 번역 시스템을 제공하는데 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 제 2 목적은, 문장 자질 정보에 기반한 생략 성분 복원 방법을 사용하여 생성된 지식 정보를 이용한 번역 방법을 제공하는데 있다.
상기한 본 발명의 제 1 목적을 달성하기 위한 본 발명의 실시예에 따른 문장 자질 정보에 기반한 생략 성분 복원 장치에 의해 생성된 지식 정보를 이용한 번역 시스템은, 번역하고자 하는 원시 언어 및 상기 원시 언어의 번역문인 목적 언어의 대역문를 수신하고, 상기 수신된 원시 언어 및 목적 언어의 대역문의 형태소 분석을 수행하는 형태소 분석부, 상기 형태소 분석부의 분석된 결과를 이용하여 용언구 단위의 구문 분석을 수행하는 구문 분석부, 상기 구문 분석부의 분석된 원시 언어 정보를 이용하여 생략 성분 발생 유무를 인식하여 결과를 출력하는 생략 성분 인식부, 상기 생략 성분 인식부의 인식 결과 상기 원시 언어에 생략 성분 현상이 발생된 경우, 상기 목적 언어의 정보를 이용하여 상기 생략된 용언구에 대응하는 주어 정보를 인식하는 선행사 인식부, 상기 주어 정보와 원시 언어를 이용하여 문장 자질 정보를 추출하는 문장 자질 추출부 및 상기 추출된 문장 자질 정보 및 주어 정보를 이용하여 생략 성분 복원 정보를 생성하는 생략 복원 지식 생성부를 포함하는 번역 지식 구축 장치을 포함하고, 상기 번역 지식 구축 장치로부터 생성된 번역 지식을 이용하여 수신된 원시 언어를 원시 언어에 대한 목적 언어의 번역문으로 번역하는 번역문 생성 장치를 포함하는 것을 특징으로 한다.
본 발명의 제 2 목적을 달성하기 위한 본 발명의 실시예에 따른 문장 자질 정보에 기반한 생략 성분 복원 방법을 이용하여 생성된 지식 정보를 이용한 번역 방법은, 문장 자질 정보에 기반한 생략 성분 복원 방법은 번역하고자 하는 원시 언어 및 상기 원시 언어의 번역문인 목적 언어의 대역문를 수신하고, 상기 수신된 원시 언어 및 목적 언어의 대역문의 형태소 분석을 수행하는 형태소 분석단계, 상기 형태소 분석단계의 분석된 결과를 이용하여 용언구 단위의 구문 분석을 수행하는 구문 분석단계, 상기 구문 분석단계의 분석된 원시 언어 정보를 이용하여 생략 성분 발생 유무를 인식하여 결과를 출력하는 생략 성분 인식단계, 상기 생략 성분 인식단계의 인식 결과 상기 원시 언어에 생략 성분 현상이 발생된 경우, 상기 목적 언어의 정보를 이용하여 상기 생략된 용언구에 대응하는 주어 정보를 인식하는 선행사 인식단계, 상기 주어 정보와 원시 언어를 이용하여 문장 자질 정보를 추출하는 문장 자질 추출단계, 상기 추출된 문장 자질 정보 및 주어 정보를 이용하여 생략 성분 복원 정보를 생성하는 생략 복원 지식 생성 단계 및 상기 생성된 생략 복원 지식을 이용하여 수신된 원시 언어를 원시 언어에 대한 목적 언어의 번역문으로 번역하는 단계를 포함하여 구성될 수 있다.
상기와 같은 본 발명에 따른 문장 자질 정보에 기반한 생략 성분 복원 방법 및 이를 위한 장치를 이용할 경우 자동번역 시스템에서 한국어의 생략된 성분을 복원하여 대상 언어로 번역하여 번역문을 생성하는 번역문 생성 장치를 이용할 경우에는 대화체 자동번역 시스템이 자동 번역을 수행시에, 생략된 주어에 대한 올바른 선행사 정보를 제공하기 때문에, 올바른 번역문의 생성이 가능함으로써 번역 결과물의 품질을 향상시키는 효과를 가져온다.
도 1은 본 발명의 실시예에 따른 자동번역 시스템에서 번역 지식 구축 장치(200)로부터 수신된 번역 지식을 이용하여 입력문의 생략된 성분을 복원하여 타겟언어로 번역하여 번역문을 생성하는 번역문 생성 장치의 내부 구조를 개략적으로 도시한 블럭도이다.
도 2는 본 발명의 일 실시예에 따른 자동번역 시스템에서 입력문의 생략된 성분을 복원하여 타겟언어로 번역하여 번역문을 생성하는 번역문 생성 장치에 제공되는 번역 지식을 구축하는 번역 지식 구축 장치의 내부 구조를 개략적으로 도시한 블럭도이다.
도 3은 본 발명의 실시예에 따른 자동번역 시스템에서 입력문의 생략된 성분을 복원하여 타겟언어로 번역하여 번역문을 생성하기 위해 사용되는 번역 지식을 구축하는 방법을 설명하기 위한 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 한편, 이하에서 설명될 본 발명의 실시예에서는 한국어 입력문을 수신하여 영어로 번역하는 경우를 설명하지만, 입력문 및 번역 대상 언어가 반드시 한국어 및 영어로만 한정되는 것은 아니다.
도 1은 본 발명의 실시예에 따른 자동번역 시스템에서 번역 지식 구축 장치(200)로부터 수신된 번역 지식을 이용하여 입력문의 생략된 성분을 복원하여 타겟언어로 번역하여 번역문을 생성하는 번역문 생성 장치의 내부 구조를 개략적으로 도시한 블럭도이다.
도 1을 참조하면, 번역문 생성 장치(100)는 형태소 분석부(101), 구문 분석부(102), 생략 성분 복원부(103), 대역문 변환부(104) 및 형태소 생성부(105)를 포함하여 구성될 수 있고, 생략 성분 복원부(103)는 생략 성분 인식 유닛(113), 문장 자질 추출 유닛(123), 문장 자질 매칭 유닛(133), 선행사 선택 유닛(143)을 포함하여 구성될 수 있다.
형태소 분석부(101)는 원시 언어를 수신하고, 수신된 원시 언어의 형태소 분석을 수행한다. 본 발명의 실시예에 따르면, 형태소 분석부(101)는 번역대상 입력문으로 한국어 입력문을 수신하고, 한국어의 어절과 어절 사이는 띄어 쓴다는 특성을 이용하여 스페이스(빈칸)를 어절 분리의 구분자로 사용하여 수신된 한국어 입력문에 포함된 단어들을 스페이스 단위로 분리하고, 스페이스 단위로 분리된 단어가 명사 + 조사, 용언 + 어말어미, 용언 + 선어말어미 + 어말어미, 용언 + 명사형어미 + 서술격조사 + 선어말어미 + 어말어미 등으로 형태소를 분석하며, 여기서 형태소는 입력문을 분석하기 위한 기본 단위로 의미를 가지는 요소로서는 더 이상 분석 할 수 없는 가장 작은 문법 단위를 의미하며, 예를 들어 단어의 어근, 단일 어미, 조사, 접두사, 접미사 들과 같이 더 이상 분석하게 되면 뜻을 잃어 버리는 최소 단위를 포함한다.
구문 분석부(102)는 형태소 분석부(101)에의해 분석된 형태소 분석 결과를 이용하여 구문 분석을 수행한다. 본 발명의 실시예에 따르면, 제 1 구문 분석 유닛(112)가 한국어 입력문 “철수가 귀찮게 군다”를 수신하여 구문을 분석할 경우, “군다”는 자동사이므로 주어만을 필수 성분으로 간주하여 올바른 문장으로 분석할 수 있다. 본 발명의 실시예에 따르면, 제 1 구문 분석 유닛(112)가 한국어 입력문 “철수가 군다”를 수신하여 구문을 분석할 경우, “군다”라는 용언이 주어를 문자의 필수성분으로 요구하기 때문에 주어가 생략되었다고 분석할 수 있다.
생략 성분 인식 유닛(113)은 구문 분석부(102)에의해 분석된 입력문 정보를 이용하여 생략 성분 발생 유무를 인식하여 결과를 문장 자질 추출 유닛(123) 및 선행사 선택 유닛(143)으로 전송한다. 문장 자질 추출 유닛(123)은 생략 성분 인식 유닛(113)으로부터 수신된 주어 성분이 생략된 성분을 위한 입력문의 문장 자질 정보를 추출하여 문장 자질 매칭 유닛(133)으로 전송한다. 여기서, 문장 자질 추출 유닛(113)에 의해서 추출된 문장 자질 정보는 수신된 입력문이 단문일 경우와 복문일 경우에 따라 다르다. 먼저, 수신된 입력문이 단문일 경우에 대해서 설명하기로 한다. 본 발명의 실시예에 따르면, 문장 자질 추출 유닛(123)이 생략 성분 인식 유닛(113)으로부터 한국어 입력문에서 주어가 생략되었다는 정보를 수신할 경우, 문장 자질은 주어 생략이 발생한 한국어 입력문의 “한국어 용언 어휘, 보조 용언 어휘, 시제, 종결어미”를 문장 자질 정보로 추출한다.
둘째, 수신된 입력문이 복문일 경우에 대해서 설명하기로 한다. 본 발명의 실시예에 따르면, 수신된 한국어 입력문이 복문일 경우에 문장 자질 정보를 추출하는 과정은 수신된 한국어 입력문이 단문일 경우와 동일하지만, 생략 현상이 발생한 용언구의 주변 용언구에서 주어 복원과 관련된 정보가 존재하기 때문에, 주어 생략이 발생한 용언구와 의존 관계에 있는 용언구의 정보를 문장 자질 정보에 추가해야 한다.
문장 자질 매칭 유닛(133)는 번역 지식 구축 장치(200)로부터 생성된 생략 성분 복원 정보를 수신하고, 문장 자질 추출 유닛(123)으로부터 문장 자질 정보를 수신한다. 문장 자질 매칭 유닛(133)는 문장 자질 추출 유닛(123)으로부터 수신된 문장 자질 정보를 이용하여 생략 정분 지식 생성부(106)로부터 수신된 생략 성분 복원 정보 중에서 수신된 입력문과 문장 자질 정보가 일치하는 경우를 찾아 그에 대응하는 주어 정보를 생략된 주어 성분으로 인식한다.
선행사 선택 유닛(143)은 생략 성분 인식 유닛(113)으로부터 입력문 정보로부터 주어 성분이 생략되었다는 정보를 수신하고, 문자 자질 매칭 유닛(133)으로부터 수신된 생략된 주어 성분에 해당하는 주어 정보를 수신하여 주어 정보에 해당하는 선행사를 선택한다. 대역문 변환부(104)는 입력문 동사구들의 타겟 언어의 대역표현을 생성하고, 형태소 생성부(105)는 대역문 변화부(204)의 결과를 수신하여 영어 어휘 형태소를 생성하여 타겟 언어로 번역된 번역문을 생성한다. 그러면 이하에서는, 도 2를 참조하여 본 발명의 일 실시예에 따른 자동번역 시스템에서 입력문의 생략된 성분을 복원하여 타겟언어로 번역하여 번역문을 생성하는 번역문 생성 장치 장치에 제공하는 번역 지식을 구축하는 번역 지식 구축 장치의 내부 구조를 보다 구체적으로 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 자동번역 시스템에서 입력문의 생략된 성분을 복원하여 타겟언어로 번역하여 번역문을 생성하는 번역문 생성 장치에 제공하는 번역 지식을 구축하는 번역 지식 구축 장치의 내부 구조를 개략적으로 도시한 블럭도이다.
도 2를 참조하면, 번역 지식 구축 장치는 형태소 분석부(201), 구문 분석부(202), 생략 성분 인식부(203), 문장 자질 추출부(204), 선행사 인식부(205), 생략 성분 복원부(206)를 포함하여 구성될 수 있으며, 형태소 분석부(201)는 제 1 형태소 분석 유닛(211) 및 제 2 형태소 분석 유닛(221)을 포함하여 구성될 수 있고, 제 1 구문 분석 유닛(212) 및 제 2 구문 분석 유닛(222)을 포함하여 구성될 수 있다.
제 1 형태소 분석 유닛(211)은 번역대상 입력문인 원시 언어를 수신하고, 수신된 원시 언어의 형태소 분석을 수행한다. 본 발명의 실시예에 따르면, 형태소 분석부(101)는 한국어 입력문을 수신하고, 한국어의 어절과 어절 사이는 띄어 쓴다는 특성을 이용하여 스페이스(빈칸)를 어절 분리의 구분자로 사용하여 수신된 한국어 입력문에 포함된 단어들을 스페이스 단위로 분리하고, 스페이스 단위로 분리된 단어가 명사 + 조사, 용언 + 어말어미, 용언 + 선어말어미 + 어말어미, 용언 + 명사형어미 + 서술격조사 + 선어말어미 + 어말어미 등으로 형태소를 분석하며, 여기서 형태소는 입력문을 분석하기 위한 기본 단위로 의미를 가지는 요소로서는 더 이상 분석 할 수 없는 가장 작은 문법 단위를 의미하며, 예를 들어 단어의 어근, 단일 어미, 조사, 접두사, 접미사 들과 같이 더 이상 분석하게 되면 뜻을 잃어 버리는 최소 단위를 포함한다.
제 2 형태소 분석 유닛(221)은 번역대상 입력문인 원시 언어에 대한 목적 언어의 대역문을 수신하고, 수신된 목적 언어의 대역문 정보의 형태소 분석을 수행한다. 본 발명의 실시예에 따르면, 제 2 형태소 분석 유닛(121)은 번역대상 입력문인 원시 언어에 대한 목적 언어의 대역문을 수신하고, 대역문의 단어와 단어 사이는 띄어 쓴다는 특성을 이용하여 스페이스를 단어와 단어 분리의 구분자로 사용하여 수신된 영어 입력문에 포함된 단어들을 스페이스 단위로 분리하고, 분리된 단어의 품사, 예를 들어 동사, 명사, 전치사, 접속사 중 어느 것인지 결정한다.
제 1 구문 분석 유닛(212)은 제 1 형태소 분석 유닛(211)에 의해 분석된 형태소 분석 결과를 이용하여 구문 분석을 수행한다. 본 발명의 실시예에 따르면, 제 1 구문 분석 유닛(212)가 원시 언어로 한국어 입력문 “철수가 귀찮게 군다”를 수신하여 구문을 분석할 경우, “군다”는 자동사이므로 주어만을 필수 성분으로 간주하여 올바른 문장으로 분석할 수 있다. 본 발명의 실시예에 따르면, 제 1 구문 분석 유닛(212)가 원시 언어로 한국어 입력문 “철수가 군다”를 수신하여 구문을 분석할 경우, “군다”라는 용언은 “어떠하게”라는 의미를 가지는 부사를 문자의 필수성분으로 요구하기 때문에 올바른 문장이 아니라고 분석할 수 있다.
제 2 구문 분석 유닛(222)은 제 2 형태소 분석 유닛(221) 에 의해 분석된 형태소 분석 결과를 이용하여 구문 분석을 수행한다. 생략 성분 인식부(203)는 제 1 구문 분석 유닛(212)에 의해 분석된 입력문 정보로부터 주어 성분이 생략된 용언구가 있는지를 파악한다. 선행사 인식부(205)는 제 2 구문 분석 유닛(222)에 의해 분석된 목적 언어의 문장 정보를 이용하여 생략 성분 인식부(103)로부터 수신된 주어 성분이 생략된 용언구에 대응하는 목적 언어의 문장에서의 주어 정보를 인식하여 생략 성분 복원부(206)에 전송한다. 이하 예문 1및 2를 참조하여 생략 성분 복원부(206)가 주어 성분이 생략됨을 인식하고, 선행사 인식부(205)가 생략 성분 인식부(203)로부터 수신된 주어 성분이 생략된 용언구에 대응하는 목적 언어의 문장에서의 주어 정보를 인식하는 과정을 설명하기로 한다.
<예문 1>
먹고 싶니? | Do you want to eat?
<예문 2>
뭘 보고 있나요? | What do you read?
예문 1 및 2를 참조하면, 생략 성분 인식부(203)가 원시 언어로 한국어 입력문 “먹고싶니?????”와 목적 언어로 영어 입력문 “Do you want to eat?”를 수신한 경우, 한국어 입력문 “먹고 싶니?????”에서 주어 성분의 생략이 발생되었음을 인식하고 이를 선행사 인식부(205)로 전송한다. 선행사 인식부(205)는 생략 성분 인식부(203)로부터 수신된 주어 성분이 생략된 용언구에 대응하는 영어 입력문“Do you want to eat?” 에서의 주어 정보 “you”를 인식하여 생략 성분 복원부(206)에 전송한다.
문장 자질 추출부(204)는 생략 성분 인식부(203)로부터 수신된 주어 성분이 생략된 용언구를 위한 원시 언어의 문장 자질 정보를 추출하여 생략 성분 복원부(206)로 전송한다. 여기서, 문장 자질 추출부(204)에 의해서 추출된 문장 자질 정보는 수신된 원시 언어가 단문일 경우와 복문일 경우에 따라 다르다. 먼저, 수신된 원시 언어가 단문일 경우에 대해서 설명하기로 한다.
문장 자질 추출부(204)가 생략 성분 인식부(203)로부터 한국어 입력문에서 주어가 생략되었다는 정보를 수신할 경우, 문장 자질은 주어 생략이 발생한 한국어 입력문의 “한국어 용언 어휘, 보조 용언 어휘, 시제, 종결어미”를 문장 자질 정보로 추출한다. 이하, 예문 3 및 4를 참조하여 문장 자질 추출부(104)가 문장 자질을 추출하는 과정을 설명하기로 한다.
<예문 3>
먹고 싶니? | Do you want to eat?
→ (먹, 고싶, 의문형종결어미 | you)
<예문 4>
뭘 보고 있나요? | What do you read?
→ (보, 고있, 의문형종결어미 | you)
예문 3및 4를 참조하면, 문장 자질 추출부(204)가 생략 성분 인식부(203)로부터 원시 언어 “먹고 싶니?”와 목적 언어 “Do you want to eat?”을 수신하고, 원시 언어에서 주어가 생략되었다는 정보를 수신할 경우, 문장 자질은 “먹, 고싶, 의문형 종결어미, you”로 추출하고, 문장 자질 추출부(204)가 생략 성분 인식부(203)로부터 원시 언어 “뭘 보고 있나요?”와 제 2입력문 “What do you read?”를 수신하고, 원시 언어에서 주어가 생략되었다는 정보를 수신할 경우, 문장 자질은 “보, 고있, 의문형종결어미, you”로 추출된다.
둘째, 수신된 원시 언어가 복문일 경우에 대해서 설명하기로 한다. 수신된 원시 언어가 복문일 경우에 문장 자질 정보를 추출하는 과정은 수신된 원시 언어가 단문일 경우와 동일하지만, 생략 현상이 발생한 용언구의 주변 용언구에서 주어 복원과 관련된 정보가 존재하기 때문에, 주어 생략이 발생한 용언구와 의존 관계에 있는 용언구의 정보를 문장 자질 정보에 추가해야 한다. 이하, 예문 5를 참조하여 문장 자질 추출부(104)가 문장 자질을 추출하는 과정을 설명하기로 한다.
<예문 5>
그 사람이 잘 받아들일 거라고 생각하나요? | Do you think he would be receptive?
→ (그 사람, 받아들이, ㄹ거라고, 생각하, null, 의문형종결어미 | you)
예문 5를 참조하면, 문장 자질 추출부(104)가 원시 언어로 한국어 입력문 “그 사람이 잘 받아들일 거라고 생각하나요?” 와 목적 언어로 영어 입력문 “Do you think he would be receptive?”를 수신하고, 한국어 입력문에서 주어가 생략되었다는 정보를 수신할 경우, 생략 현상이 발생한 용언구의 문장 자질 정보와 함께 의존 관계가 있는 “받아들일 거라고”용언구의 문장 자질 정보가 추가되어“그 사람, 받아들이, ㄹ거라고, 생각하, null, 의문형종결어미, you”로 추출된다. 여기서, “null”은 보조 용언의 정보가 없음을 나타낸다.
생략 성분 복원부(206)는 문장 자질 추출부(204)로부터 수신된 문장 자질 정보 및 선행사 인식부(205)로부터 수신된 주어 성분이 생략된 용언구에 대응하는 영어 문장에서의 영어 주어 정보를 이용하여 생략 성분 복원 정보를 생성한다. 그러면 이하에서는, 도 3을 참조하여 도 3은 본 발명의 실시예에 따른 자동번역 시스템에서 입력문의 생략된 성분을 복원하여 타겟언어로 번역하여 번역문을 생성하기 위해 사용되는 번역 지식을 구축하는 방법을 보다 구체적으로 설명하기로 한다.
도 3은 본 발명의 실시예에 따른 자동번역 시스템에서 입력문의 생략된 성분을 복원하여 타겟언어로 번역하여 번역문을 생성하기 위해 사용되는 번역 지식을 구축하는 방법을 설명하기 위한 흐름도이다.
도 3을 참조하면, 번역 지식 구축 장치(200)는 번역대상 입력문을 수신하고, 수신된 입력문의 형태소 분석을 수행한다(S301). 본 발명의 실시예에 따르면, 형태소 분석부(101)는 번역대상 입력문으로 한국어 입력문을 수신하고, 한국어의 어절과 어절 사이는 띄어 쓴다는 특성을 이용하여 스페이스(빈칸)를 어절 분리의 구분자로 사용하여 수신된 한국어 입력문에 포함된 단어들을 스페이스 단위로 분리하고, 스페이스 단위로 분리된 단어가 명사 + 조사, 용언 + 어말어미, 용언 + 선어말어미 + 어말어미, 용언 + 명사형어미 + 서술격조사 + 선어말어미 + 어말어미 등으로 형태소를 분석하며, 여기서 형태소는 입력문을 분석하기 위한 기본 단위로 의미를 가지는 요소로서는 더 이상 분석 할 수 없는 가장 작은 문법 단위를 의미하며, 예를 들어 단어의 어근, 단일 어미, 조사, 접두사, 접미사 들과 같이 더 이상 분석하게 되면 뜻을 잃어 버리는 최소 단위를 포함하며, 이하에서 설명될 본 발명의 실시예에서는 한국어 입력문을 수신하여 영어로 번역하는 경우를 설명하지만, 입력문 및 번역 대상 언어가 반드시 한국어 및 영어로만 한정되는 것은 아니다.
번역 지식 구축 장치(200)는 형태소 분석 결과를 이용하여 구문 분석을 수행한다(S302). 본 발명의 실시예에 따르면, 번역 지식 구축 장치(200)가 한국어 입력문 “철수가 귀찮게 군다”를 수신하여 구문을 분석할 경우, “군다”는 자동사이므로 주어만을 필수 성분으로 간주하여 올바른 문장으로 분석할 수 있다. 본 발명의 실시예에 따르면, 번역 지식 구축 장치(200)가 한국어 입력문 “철수가 군다”를 수신하여 구문을 분석할 경우, “군다” 라는 용언이 주어를 문자의 필수성분으로 요구하기 때문에 주어가 생략되었다고 분석할 수 있다.
번역 지식 구축 장치(200)는 분석된 입력문 정보를 이용하여 생략 성분 발생 유무를 인식하고(S303), 만약, 생략 성분 발생이 발생된 경우, 주어 성분이 생략된 용언구를 위한 입력문의 문장 자질 정보를 추출한다(S304). 여기서, 문장 자질 정보는 수신된 입력문이 단문일 경우와 복문일 경우에 따라 다르다. 먼저, 수신된 입력문이 단문일 경우에 대해서 설명하기로 한다. 본 발명의 실시예에 따르면, 번역 지식 구축 장치(200)가 한국어 입력문에서 주어가 생략되었다는 정보를 수신할 경우, 주어 생략이 발생한 한국어 입력문의 “한국어 용언 어휘, 보조 용언 어휘, 시제, 종결어미”를 문장 자질 정보로 추출한다.
둘째, 수신된 입력문이 복문일 경우에 대해서 설명하기로 한다. 수신된 본 발명의 실시예에 따르면, 한국어 입력문이 복문일 경우에 문장 자질 정보를 추출하는 과정은 수신된 한국어 입력문이 단문일 경우와 동일하지만, 생략 현상이 발생한 용언구의 주변 용언구에서 주어 복원과 관련되 정보가 존재하기 때문에, 주어 생략이 발생한 용언구와 의존 관계에 있는 용언구의 정보를 문장 자질 정보에 추가해야한다.
번역 지식 구축 장치(200)는 생략 성분 복원 정보를 수신하고, 문자 자질 정보를 이용하여 수신된 생략 성분 복원 정보 중에서 수신된 입력문과 문장 자질 정보가 일치하는 경우를 찾아 그에 대응하는 주어 정보를 생략된 주어 성분으로 인식한다(S305). 번역 지식 구축 장치(200)는 주어 성분에 해당하는 주어 정보를 수신하여 주어 정보에 해당하는 선행사를 선택하고(S306), 입력문의 동사구들의 타겟 언어의 대역표현으로 생성한 후, 타겟 언어의 어위 형태소를 생성하여 최종 결과물을 생성한다(S307). 상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 번역문 생성 장치 101, 201: 형태소 분석부
102, 202: 구문 분석부 103: 생략 성분 복원부
104: 대역문 변환부 105: 형태소 생성부
106: 생략 성분 복원 정보 생성부 113: 생략 성분 인식 유닛
123: 문장 자질 추출 유닛 133: 문장 자질 매칭 유닛
143: 선행사 선택 유닛 203: 생략 성분 인식부
204: 문장 자질 추출부 205: 선행사 인식부
206: 생략 성분 복원부 211: 제 1 형태소 분석 유닛
221: 제 2 형태소 분석 유닛 212: 제 1 구문 분석 유닛
222: 제 2 구문 분석 유닛

Claims (1)

  1. 번역하고자 하는 원시 언어 및 상기 원시 언어의 번역문인 목적 언어의 대역문를 수신하고, 상기 수신된 원시 언어 및 목적 언어의 대역문의 형태소 분석을 수행하는 형태소 분석부;
    상기 형태소 분석부의 분석된 결과를 이용하여 용언구 단위의 구문 분석을 수행하는 구문 분석부;
    상기 구문 분석부의 분석된 원시 언어 정보를 이용하여 생략 성분 발생 유무를 인식하여 결과를 출력하는 생략 성분 인식부;
    상기 생략 성분 인식부의 인식 결과 상기 원시 언어에 생략 성분 현상이 발생된 경우, 상기 목적 언어의 정보를 이용하여 상기 생략된 용언구에 대응하는 주어 정보를 인식하는 선행사 인식부;
    상기 주어 정보와 원시 언어를 이용하여 문장 자질 정보를 추출하는 문장 자질 추출부; 및
    상기 추출된 문장 자질 정보 및 주어 정보를 이용하여 생략 성분 복원 정보를 생성하는 생략 복원 지식 생성부를 포함하는 번역 지식 구축 장치을 포함하고,
    상기 번역 지식 구축 장치로부터 생성된 번역 지식을 이용하여 수신된 원시 언어를 원시 언어에 대한 목적 언어의 번역문으로 번역하는 것을 특징으로 하는 번역 시스템.
KR1020100129425A 2010-12-16 2010-12-16 문장 자질 정보에 기반한 생략 성분 복원 방법 및 이를 위한 장치 KR20120105063A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100129425A KR20120105063A (ko) 2010-12-16 2010-12-16 문장 자질 정보에 기반한 생략 성분 복원 방법 및 이를 위한 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100129425A KR20120105063A (ko) 2010-12-16 2010-12-16 문장 자질 정보에 기반한 생략 성분 복원 방법 및 이를 위한 장치

Publications (1)

Publication Number Publication Date
KR20120105063A true KR20120105063A (ko) 2012-09-25

Family

ID=47112139

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100129425A KR20120105063A (ko) 2010-12-16 2010-12-16 문장 자질 정보에 기반한 생략 성분 복원 방법 및 이를 위한 장치

Country Status (1)

Country Link
KR (1) KR20120105063A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190064910A (ko) * 2017-12-01 2019-06-11 한국전자통신연구원 언어모델에 기반한 한국어 생략 성분 복원 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190064910A (ko) * 2017-12-01 2019-06-11 한국전자통신연구원 언어모델에 기반한 한국어 생략 성분 복원 방법

Similar Documents

Publication Publication Date Title
US20150154173A1 (en) Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
US20050086047A1 (en) Syntax analysis method and apparatus
KR100912501B1 (ko) 번역 지식 구축 방법 및 장치
KR20130123037A (ko) 양방향 자동 통역 및 번역 서비스 제공 장치 및 그 방법
JPH077419B2 (ja) 機械翻訳装置における略称付き固有名詞処理方法
KR101818598B1 (ko) 자동 번역 엔진 서버 및 자동 번역 방법
KR20120089502A (ko) 번역지식 서버 생성 방법 및 그 장치
Alqudsi et al. A hybrid rules and statistical method for Arabic to English machine translation
Bassam et al. Formal description of Arabic syntactic structure in the framework of the government and binding theory
Graën et al. Cutter–a universal multilingual tokenizer
Bopche et al. Grammar checking system using rule based morphological process for an Indian language
Koh A comparative error analysis of neural machine translation output: based on film corpus
Foufi et al. Multilingual parsing and MWE detection
KR20120105063A (ko) 문장 자질 정보에 기반한 생략 성분 복원 방법 및 이를 위한 장치
Sharma Rule based grammar checking systems (a survey)
Wu et al. Correcting serial grammatical errors based on n-grams and syntax
Kulick Exploiting separation of closed-class categories for Arabic tokenization and part-of-speech tagging
JP3919732B2 (ja) 機械翻訳装置及び機械翻訳プログラム
KR101559657B1 (ko) 동형이의어 분별에 의한 한국어 의존관계 분석 방법
Lancioni et al. Arabic Meaning Extraction through Lexical Resources: A General-Purpose Data Mining Model for Arabic Texts
Monson et al. Building NLP systems for two resource-scarce indigenous languages: mapudungun and Quechua
KR102143158B1 (ko) 한국어 구문 분석을 활용한 정보 처리 시스템
KR20010026990A (ko) 한국어 구문 분석기
KR100481453B1 (ko) 동사구 패턴 기반 한중 자동 번역 시스템의 &#39;하다&#39; 동사의번역장치 및 방법
Phyue Development of Myanmar-English Bilingual WordNet like Lexicon

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination