KR20160050652A - 신규 언어의 트리뱅크를 구축하는 방법 - Google Patents

신규 언어의 트리뱅크를 구축하는 방법 Download PDF

Info

Publication number
KR20160050652A
KR20160050652A KR1020140149277A KR20140149277A KR20160050652A KR 20160050652 A KR20160050652 A KR 20160050652A KR 1020140149277 A KR1020140149277 A KR 1020140149277A KR 20140149277 A KR20140149277 A KR 20140149277A KR 20160050652 A KR20160050652 A KR 20160050652A
Authority
KR
South Korea
Prior art keywords
language
new
new language
tree
constructing
Prior art date
Application number
KR1020140149277A
Other languages
English (en)
Inventor
최승권
김영길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020140149277A priority Critical patent/KR20160050652A/ko
Publication of KR20160050652A publication Critical patent/KR20160050652A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

신규 언어의 트리뱅크를 구축하는 방법이 개시된다. 이 방법은 기존 언어의 언어 유형을 나타내는 구문 구조(syntactic structure) 또는 의미 구조(semantic structure)를 부착한 코퍼스(corpus)를 입력받는 단계와, 상기 기존 언어와 신규 언어간의 언어 유형 간의 매핑 관계를 정의한 언어 유형 매핑 테이블을 참조하여, 상기 입력받은 기존 언어의 구문 구조 또는 의미 구조에 매핑되는 신규 언어의 구문 구조 또는 의미 구조를 검출하는 과정 및 상기 검출된 신규 언어의 구문 구조 또는 의미 구조를 수집하여, 상기 신규 언어의 트리뱅크를 구축하는 과정을 포함한다.

Description

신규 언어의 트리뱅크를 구축하는 방법{METHOD FOR CONSTRUCTING TREEBANK OF NEW LANGUAGE AND METHOD THEREOF}
본 발명은 신규 언어의 Treebank를 구축하는 방법에 관한 것으로, 더욱 상세하게는 신규 언어의 Treebank를 구축하기 위해 신규 언어의 문장 구조를 분석하는 파서(parser) 뿐만 아니라 신규 언어와 언어 유형적으로 유사한 언어 유형 매핑 테이블을 이용하여 단시간에 반자동으로 신규 언어의 Treebank를 구축하는 시스템 및 방법에 관한 것이다.
구문을 분석하는 기술분야에서, 트리뱅크(Treebank)란 문장의 구문 구조(syntactic structure)나 의미 구조(semantic structure)를 부착한 코퍼스(corpus)를 말한다. 여기서, 코퍼스(corpus: 말뭉치)는 큰 구조를 이루고 있는 말뭉치의 집합을 말한다.
종래의 트리뱅크를 구축하는 방법은 크게 두 가지로 분류할 수 있는데, 하나는 언어학자가 트리뱅크를 수작업으로 구축하는 수동 구축 방법이고, 다른 하나는 문장 구조 분석기(parser)에 의해 트리뱅크를 구축하고, 이를 언어학자가 검토하고 수정하는 반자동 구축 방법이다. 이중 반자동 구축 방법은 1) Treebank 구축을 위한 문장을 수집, 2) 수집된 문장에 대한 전처리, 3)품사 태깅, 4)구문 분석, 5) 수동 교정, 6) Treebank DB 구축하는 절차로 이루어진다.
이러한 종래의 트리뱅크를 구축하기 위한 반자동 구축 방법의 단점은 신규 언어에 대한 품사 태거, 구문 분석기 등을 새롭게 개발하고, 그 성능이 안정화될 때까지 소요되는 시간과 비용이 커서 단기간에 신규 언어 트리뱅크를 구축하기가 어렵다는 것이다.
따라서, 본 발명은 상술한 바와 같은 문제점을 해결하기 위해, 신규 언어와 언어유형적으로 유사한 언어의 트리뱅크를 언어 유형 매핑 테이블을 이용하여 신규 언어의 트리뱅크를 단기간에 구축하고, 구축한 신규 언어의 트리뱅크를 이용하여 신규 언어의 품사 태거와 문장 구조 분석기를 개발하여 반자동으로 단시간에 신규 언어의 Treebank를 구축하는 시스템 및 방법을 기술하는데 그 목적이 있다.
상술한 목적을 달성하기 위한 본 발명의 일면에 따른 신규 언어의 트리뱅크를 구축하는 방법은, 신규 언어의 트리뱅크를 구축하는 방법이 개시된다. 이 방법은 기존 언어의 언어 유형을 나타내는 구문 구조(syntactic structure) 또는 의미 구조(semantic structure)를 부착한 코퍼스(corpus)를 입력받는 단계와, 상기 기존 언어와 신규 언어간의 언어 유형 간의 매핑 관계를 정의한 언어 유형 매핑 테이블을 참조하여, 상기 입력받은 기존 언어의 구문 구조 또는 의미 구조에 매핑되는 신규 언어의 구문 구조 또는 의미 구조를 검출하는 과정 및 상기 검출된 신규 언어의 구문 구조 또는 의미 구조를 수집하여, 상기 신규 언어의 트리뱅크를 구축하는 과정을 포함한다.
본 발명에 따르면, 트리뱅크를 구축하고자 하는 언어가 기존의 트리뱅크 DB와 언어유형학적으로 유사한 언어이건 언어유형학적으로 상이한 언어이건 단시간에 반자동으로 신규 언어의 트리뱅크를 구축할 수 있다.
본 발명은 트리뱅크로부터 기계 학습을 수행하여 엔진 성능을 향상시키는 모든 응용시스템에 적용할 수 있다. 그 구체적인 응용시스템의 예로 자동번역 시스템, 자동통역 시스템, 대화 시스템, 정보 검색 시스템, 대화형 로봇 등 자연 언어 처리 응용시스템에 적용할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 신규 언어의 트리뱅크를 구축하기 위한 시스템의 전체 구성을 개략적으로 보여주는 블록도이다.
도 2는 도 1에 도시된 트리뱅크 구축부의 내부 구성을 상세히 보여주는 블록도이다.
도 3은 도 2에 도시된 언어 유형 매핑 테이블의 일예를 보여주는 도면이다.
도 4는 도 2에서 기존 언어가 영어인 기존언어 트리뱅크와 신규 언어가 스페인어인 신규언어 트리뱅크 간의 언어유형학적으로 유사한 언어들 간의 트리뱅크를 구축하는 실례를 보여주는 도면이다.
도 5는 도 2에서 기존언어가 영어인 기존언어 트리뱅크와 신규언어가 한국어인 신규언어 트리뱅크 간의 언어유형학적으로 상이한 언어들 간의 트리뱅크를 구축하는 실례를 보여주는 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 대해 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시 예에 따른 신규 언어의 트리뱅크를 구축하기 위한 시스템의 전체 구성을 개략적으로 보여주는 블록도이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 신규 언어의 트리뱅크를 구축하기 위한 시스템(101)은 신규 언어의 코퍼스를 저장한 제1 메모리(103), 상기 제1 저장 매체(103)로부터 상기 신규 언어의 코퍼스를 입력받고, 언어 유형 매핑 테이블을 참조하여, 상기 신규 언어의 코퍼스와 언어유형적으로 유사한 신규 언어의 트리뱅크를 단기간에 구축하는 트리뱅크 구축부(104) 및 상기 트리뱅크 구축부(104)에 의해 구축된 신규 언어의 트리뱅크를 데이터베이스 형태로 저장하는 제2 메모리(105)를 포함한다.
본 발명의 일 실시 예에 따른 시스템에 따르면, 사용자가 신규 언어에 대한 트리뱅크 데이터베이스를 구축하기 위해서, 사용자 입력부(102)에 의한 사용자 입력에 따라 제1 메모리(1013)에 저장된 신규언어 코퍼스를 상기 트리뱅크 구축부(104)로 입력시키고, 상기 트리뱅크 구축부(104)는 입력받은 신규언어 코퍼스로부터 구문 구조(syntactic structure)가 부착된 코퍼스로서의 신규 언어의 트리뱅크를 구축한다. 상기 트리뱅크 구축부(104)는 구축된 신규 언어에 대한 트리뱅크를 데이터베이스 형태로 제2 메모리(105)에 저장함으로써, 신규 언어에 대한 트리뱅크가 구축된다.
도 2는 도 1에 도시된 트리뱅크 구축부의 내부 구성을 상세히 보여주는 블록도이다.
도 2를 참조하면, 도 1에 도시된 트리뱅크 구축부(104)에 의해 신규언어 트리뱅크 데이터베이스를 구축하는 방법은 두 가지 방법에 의해 구축될 수 있는데, 하나는 기존 언어의 트리뱅크 데이터베이스(201)가 존재하는 경우에서의 구축 방법이고, 다른 하나는 기존 언어의 트리뱅크 데이터베이스(201)가 존재하지 않는 경우에서의 구축 방법이다.
기존 언어의 트리뱅크 데이터베이스가 존재하는 경우, 트리뱅크 구축부(101)는 기존 언어의 트리뱅크 데이터베이스(201), 포맷 변형부(202), 트리 변형부(204), 단어 번역부(205), 제1 수동 교정부(206), 전처리부(207), 품사 부착부(208), 구문 분석부(209), 제2 수동 교정부(210) 및 결과 평가부(211)를 포함한다.
상기 포맷 변형부(202)는 기존 언어 트리뱅크 데이터베이스(201)의 포맷을 의존구조(Dependency Structure) 포맷으로 변형한다. 이렇게 변형된 의존구조 포맷은 언어유형 매핑테이블(203)에 의해 기존언어와 신규언어간의 언어유형적 차이가 매핑된다.
상기 트리 변형부(204)는 상기 언어유형 매핑테이블(203)을 참조하여 기존 언어의 트리뱅크 데이터베이스(201)의 트리(tree)를 신규 언어의 언어 유형 트리(tree)로 변형한다.
상기 단어 번역부(205)는 변형된 기존 언어의 트리뱅크 데이터베이스(201)의 기존 언어를 신규언어로 단어-대-단어로 번역한다. 이렇게 신규 언어로 번역된 트리뱅크는 제1 수동교정부(206)에 의해 수동으로 교정된 후, 신규 언어 트리뱅크 데이터베이스(105)에 저장된다.
한편, 신규 언어 트리뱅크 데이터베이스를 구축하는 방법 중 기존 언어 트리뱅크 데이터베이스(201)가 존재하지 않는 경우에는, 제1 메모리(103)에 저장된 신규 언어 코퍼스에 의해 제2 메모리(105)에 저장된 신규 언어 트리뱅크 데이터베이스가 반자동으로 구축된다.
상기 전처리부(207)는 상기 제1 메모리(103)에 저장된 신규 언어 코퍼스(103)에 대해 토큰 분리 작업 또는 문장 분리 작업을 수행한다.
상기 품사 부착부(208)는 상기 전처리부(207)에 의해 전처리된 결과에 형태소 품사를 부착한다.
상기 구문 분석부(209)는 상기 형태소 품사가 부착된 결과에 대해 구문 구조(syntactic structure)를 분석하는 작업을 수행한다.
상기 제2 수동교정부(210)에서는 상기 구문 구조를 분석한 결과의 오류 또는 모호성을 수동으로 교정하는 작업을 수행한다.
상기 제2 수동 교정부(210)에 의해 교정된 결과는 제2 메모리(105)에 저장된 신규언어 트리뱅크 데이터베이스를 구축하게 된다.
상기 결과 평가부(211)는 상기 구축된 신규언어 트리뱅크 데이터베이스에 대해 평가를 수행한 후, 그 평가 결과를 상기 품사 부착부(208) 및 상기 구문 분석부(209)에 제공한다. 이렇게 함으로써, 상기 평가 결과는 상기 품사 부착부(208)와 상기 구문 분석부(209)의 학습용으로 다시 활용되게 된다.
도 3은 도 2에 도시된 언어 유형 매핑 테이블의 일예를 보여주는 도면이다.
도 3에 도시된 상기 언어 유형 매핑 테이블(203)에서, 항목 "Key"는 데이터베이스 key를 의미하며, 항목 "Content"는 데이터베이스 Content를 의미한다.
도 3에 도시된 상기 언어 유형 매핑 테이블(203)에서, 항목 "한국어", "영어", "중국어", "스페인어", "불어"에 각각 표시된 "1"은 상기 Content가 적용되는 언어를 의미하며, 1이 표시되지 않고 비어 있는 칸은 상기 Content가 적용되지 않는 언어를 의미한다.
상기 항목 Content에서 화살표 "=>"의 왼쪽은 1로 표시된 언어들에 적용되어야 하는 구조를 말하며, 상기 화살표 "=>"의 오른쪽은 1로 표시되지 않은 언어들에 적용되는 구조를 말한다. 예를 들어 Key "Subject_Verb_Object"에 해당하는 Content는 "(N:subj) V (N:dobj) => (N:subj) (N:dobj) V"인데, 화살표 "=>"의 왼쪽 구조에 해당하는 언어는 영어, 중국어, 스페인어, 불어이며 화살표 "=>" 오른쪽 구조에 해당하는 언어는 한국어임을 알 수 있다.
만약 기존언어가 영어인 트리뱅크 데이터베이스를 가정하고, 상기 영어 트리뱅크로부터 신규언어가 스페인어인 트리뱅크 데이터베이스를 구축하는 경우, 도 3의 언어 유형 매핑 테이블(203)의 Key "Subject_Verb_Object" 에 의해 영어 트리뱅크의 "(N:subj) V (N:dobj)" 구조는 스페인어 트리뱅크로 구조의 변화 없이 그대로 "(N:subj) V (N:dobj)" 구조로 변경될 것이다.
이와 같이 이종의 언어 간에 구조 변경 없이, 트리뱅크가 만들어 지는 경우를 언어 유형학적으로 유사한 언어들 간의 트리 변형이라고 할 수 있다.
이와는 대조적으로 만약 기존 언어가 영어인 트리뱅크를 가정하고, 영어 트리뱅크로부터 신규언어가 한국어인 트리뱅크를 구축하는 경우, 언어 유형 매핑테이블(203)의 Key "Subject_Verb_Object"에 의해 영어 트리뱅크의 "(N:subj) V (N:dobj)" 구조는 한국어 트리뱅크에서 "(N:subj) (N:dobj) V"로 구조가 바뀌어야 한다.
이와 같이 언어 간에 구조 변경이 일어나서 트리뱅크가 만들어 지는 경우가 언어유형학적으로 상이한 언어들 간의 트리 변형이라고 할 수 있다.
도 4에서는 언어유형학적으로 유사한 언어들 간의 신규 언어 트리뱅크의 구축 과정이 도시되며, 특히, 도 3과 같은 언어유형 테이블을 참조하여 기존언어가 영어인 트리뱅크로부터 신규언어가 스페인어인 트리뱅크를 구축하는 언어 유형학적으로 유사한 언어들 간의 신규 언어 트리뱅크의 구축 과정이 도시된다.
도 5에서는 언어유형학적으로 상이한 언어들 간의 신규 언어 트리뱅크의 구축 과정이 도시되며, 특히, 기존언어가 영어인 트리뱅크로부터 신규 언어가 한국어인 신규 트리뱅크를 구축하는 언어 유형학적으로 상이한 언어들 간의 신규 언어 트리뱅크의 구축 과정이 도시된다.
이상과 같이, 본 발명은 비록 한정된 실시 예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술 사상과 아래에 기재될 특허청구범위의 균등 범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.

Claims (1)

  1. 기존 언어의 언어 유형을 나타내는 구문 구조(syntactic structure) 또는 의미 구조(semantic structure)를 부착한 코퍼스(corpus)를 입력받는 단계;
    상기 기존 언어와 신규 언어간의 언어 유형 간의 매핑 관계를 정의한 언어 유형 매핑 테이블을 참조하여, 상기 입력받은 기존 언어의 구문 구조 또는 의미 구조에 매핑되는 신규 언어의 구문 구조 또는 의미 구조를 검출하는 과정;
    상기 검출된 신규 언어의 구문 구조 또는 의미 구조를 수집하여, 상기 신규 언어의 트리뱅크를 구축하는 과정
    을 포함하는 신규 언어의 트리뱅크를 구축하는 방법.
KR1020140149277A 2014-10-30 2014-10-30 신규 언어의 트리뱅크를 구축하는 방법 KR20160050652A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140149277A KR20160050652A (ko) 2014-10-30 2014-10-30 신규 언어의 트리뱅크를 구축하는 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140149277A KR20160050652A (ko) 2014-10-30 2014-10-30 신규 언어의 트리뱅크를 구축하는 방법

Publications (1)

Publication Number Publication Date
KR20160050652A true KR20160050652A (ko) 2016-05-11

Family

ID=56025577

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140149277A KR20160050652A (ko) 2014-10-30 2014-10-30 신규 언어의 트리뱅크를 구축하는 방법

Country Status (1)

Country Link
KR (1) KR20160050652A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11769007B2 (en) 2021-05-27 2023-09-26 International Business Machines Corporation Treebank synthesis for training production parsers
US11967313B2 (en) 2019-03-06 2024-04-23 Samsung Electronics Co., Ltd. Method for expanding language used in speech recognition model and electronic device including speech recognition model

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11967313B2 (en) 2019-03-06 2024-04-23 Samsung Electronics Co., Ltd. Method for expanding language used in speech recognition model and electronic device including speech recognition model
US11769007B2 (en) 2021-05-27 2023-09-26 International Business Machines Corporation Treebank synthesis for training production parsers

Similar Documents

Publication Publication Date Title
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
KR102033435B1 (ko) 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈
US9342499B2 (en) Round-trip translation for automated grammatical error correction
KR102025968B1 (ko) 구문 기반 사전 추출 및 번역 품질 평가 기법
KR100961717B1 (ko) 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
CN103493041B (zh) 使用浅层句法分析器自动评估句子的自动句子评估装置及其错误检测设备和方法
Goyal et al. Web based Hindi to Punjabi machine translation system
KR101762866B1 (ko) 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
KR101500617B1 (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
KR20140021838A (ko) 문법 오류 검출 방법 및 이를 위한 오류검출장치
JP2006268375A (ja) 翻訳メモリシステム
KR100911834B1 (ko) 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치
JP2009151777A (ja) 音声言語パラレルコーパスのアライメント方法及び装置
JP6952967B2 (ja) 自動翻訳装置
EP2833269B1 (en) Terminology verification system and method for machine translation services for domain-specific texts
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
KR101802051B1 (ko) 자연 언어 처리 스키마 및 그 지식 데이터베이스 구축 방법 및 시스템
KR20160050652A (ko) 신규 언어의 트리뱅크를 구축하는 방법
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
Gamallo Otero et al. Automatic generation of bilingual dictionaries using intermediary languages and comparable corpora
JP4007413B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
KR20150010145A (ko) 구문 분석 장치 및 이를 위한 기록매체
Specia A hybrid model for word sense disambiguation in English-Portuguese machine translation
Declerck et al. Cross-linking Austrian dialectal Dictionaries through formalized Meanings
Declerck et al. How to semantically relate dialectal Dictionaries in the Linked Data Framework

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination