KR100687734B1 - 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치및 그 방법 - Google Patents

전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치및 그 방법 Download PDF

Info

Publication number
KR100687734B1
KR100687734B1 KR1020050017658A KR20050017658A KR100687734B1 KR 100687734 B1 KR100687734 B1 KR 100687734B1 KR 1020050017658 A KR1020050017658 A KR 1020050017658A KR 20050017658 A KR20050017658 A KR 20050017658A KR 100687734 B1 KR100687734 B1 KR 100687734B1
Authority
KR
South Korea
Prior art keywords
database
survey
band
bandword
word
Prior art date
Application number
KR1020050017658A
Other languages
English (en)
Other versions
KR20060067071A (ko
Inventor
김영길
김창현
양성일
서영애
홍문표
류철
노윤형
이기영
최승권
권오욱
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20060067071A publication Critical patent/KR20060067071A/ko
Application granted granted Critical
Publication of KR100687734B1 publication Critical patent/KR100687734B1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A41WEARING APPAREL
    • A41BSHIRTS; UNDERWEAR; BABY LINEN; HANDKERCHIEFS
    • A41B13/00Baby linen
    • A41B13/06Slip-in bags; Swaddling clothes
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47DFURNITURE SPECIALLY ADAPTED FOR CHILDREN
    • A47D13/00Other nursery furniture
    • A47D13/02Baby-carriers; Carry-cots

Landscapes

  • Engineering & Computer Science (AREA)
  • Textile Engineering (AREA)
  • Machine Translation (AREA)

Abstract

본 발명에 의한 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치 및 방법은 용언 대역어와 조사 대역어 선택을 위한 어휘/의미 공기 정보를 구축하는 단계; 텍스트 말뭉치에 대하여 국소단문을 생성하는 단계; 상기 국소 단문에 대하여 부분 대역 패턴 후보를 생성하는 단계; 상기 어휘/의미 공기 정보를 기초로 상기 부분 대역 패턴 후보에 대한 목적언어 대역 표현을 생성하여 저장하는 단계;를 포함하는 것을 특징으로 하며, 구축된 전문 분야별 부분 대역 패턴 데이터베이스를 활용하여 기술 매뉴얼, 특허 문서 등의 기술 문서 자동번역에 중요한 언어 자원으로써 직접 활용할 수 있다.
전문 분야, 부분 대역 패턴 데이터베이스

Description

전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치 및 그 방법{Apparatus for constructing verb pattern DB in a technical domain automatically and method thereof}
도 1은 본 발명에 따른 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치의 구성을 보여주는 블럭도이다.
도 2는 본 발명에 의한 전문 분야의 부분 대역 패턴 데이터베이스를 자동으로 구축하는 과정을 보여주는 흐름도이다.
본 발명은 한국어 패턴 추출부에서 추출된 한국어 대역 패턴 후보에 대해 용언 및 조사 대역어 선택을 위한 어휘/의미 공기 데이터베이스를 이용하여 대역 표현을 생성함으로써, 종래의 수작업 방식에 비해 대용량의 전문 분야별 기술문서로부터 전문분야 대역 패턴 데이터베이스를 자동으로 구축할 수 있는 장치 및 방법에 관한 것이다.
실용적인 자동번역 장치를 개발하기 위해서는 번역 프로그램의 개발 못지 않게 형태소 분석 사전, 구문 통계 DB, 대역 사전, 부분 대역 패턴 등 다양한 언어 자원이 필요하다. 종래의 자동 번역 장치는 언어 규칙과 같은 소량의 언어자원에 기반함으로써 자동 번역 장치의 초기 개발 비용이 적게 든다는 장점이 있었지만 번역 품질을 지속적으로 향상시키기에는 한계가 있었다.
따라서, 현재 개발되고 있는 한국어를 원시언어로 사용하는 자동번역 시스템은 대용량의 번역 지식에 기반한 데이터 기반 방식의 번역 시스템이 주로 개발되고 있다. 이러한 데이터 기반 번역 시스템은 규칙 기반 자동번역 시스템에 비해 대용량의 언어자원이 필요하며, 이 언어자원은 주로 수작업을 통해 장기간에 걸쳐 구축되기 때문에 시간뿐만 아니라 이에 대한 번역 지식 구축 소요 비용이 계속 증가하고 있다. 따라서 번역지식에 대한 자동 획득 방법, 기존의 번역 지식을 이용한 확장 방법 등에 대한 관한 연구가 현재 활발하게 진행되고 있는 실정이다.
그리고, 한국어를 원시언어로 하는 자동번역 시스템에 있어서는, 각 용언구 단위의 부분 대역 패턴 데이터베이스가 번역 시스템의 번역 품질을 좌우하는 중요한 번역 지식이다. 일반적으로 이 부분 대역 패턴 데이터베이스를 구축하기 위해서, 용례에 나타나는 한국어 격틀 정보를 추출하고 이에 대한 번역 표현을 전문 번역가를 통해 수동으로 구축하는 단계를 거쳤다. 지금까지 국내에서는 일반분야를 대상으로 약 100,000여 부분 대역 패턴 규모의 데이터베이스가 구축된 바 있지만, 전문 기술 분야에서 나타나는 전문 용언에 대해서는 이와 같은 부분 대역 패턴 데이터베이스가 전혀 구축된 바 없어, 그 필요성이 제기 되고 있다.
본 발명이 이루고자 하는 기술적 과제는 상기와 같은 문제점을 해결하기 이 하여 안출된 것으로서, 전적으로 수작업에 의존하는 부분 대역 패턴 구축 작업을 자동화시킴으로써 각 전문분야별 부분 대역 패턴들을 대용량으로 구축할 수 있는 부분 대역 패턴 데이터베이스 자동 구축 장치 및 그 방법 그리고 상기 방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체에 관한 것이다.
상기의 기술적 과제를 이루기 위하여 본 발명에 의한 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치는 용언 대역어 선택 용례 데이터베이스와 전문 용어 대역어 사전으로부터 용언 대역어 공기 정보를 추출하여 저장하는 용언 대역어 선택 어휘/의미 공기 데이터베이스; 조사 대역어 선택 용례 데이터베이스와 일반 분야 부분 대역 패턴 데이터베이스로부터 조사 대역어 공기 정보를 추출하여 저장하는 조사 대역어 선택 어휘/의미 공기 데이터베이스; 소정의 전문 분야의 텍스트 말뭉치를 입력받아 국소단문을 추출하는 단문인식부; 상기 국소단문내의 각 어절에 나타나는 조사를 대표형 조사로 대치하고, 각 논항에 나타나는 명사구 혹은 복합명사는 그 헤드명사로 대치하며, 상기 용언 대역어 선택 어휘/의미 공기 데이터베이스를 참조하여 한국어 대역 패턴 후보를 선정하여 출력하는 한국어패턴추출부; 및 상기 한국어 대역 패턴 후보에 대한 목적언어 대역 표현을 상기 용언 대역어 선택 어휘/의미 공기 데이터베이스와 조사 대역어 선택 어휘/의미 공기 데이터베이스를 참조하여 생성하는 대역표현생성부;를 포함하는 것을 특징으로 한다.
상기의 기술적 과제를 이루기 위하여 본 발명에 의한 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 방법은 용언 대역어와 조사 대역어 선택을 위한 어휘/의미 공기 정보를 구축하는 단계; 텍스트 말뭉치에 대하여 국소단문을 생성하는 단계; 상기 국소 단문에 대하여 부분 대역 패턴 후보를 생성하는 단계; 상기 어휘/의미 공기 정보를 기초로 상기 부분 대역 패턴 후보에 대한 목적언어 대역 표현을 생성하여 저장하는 단계;를 포함하는 것을 특징으로 한다.
먼저 본 발명이 필요한 이유와 발명의 개요를 설명한 후 바람직한 일 실시예에 대하여 상세히 설명하도록 한다. 현재 일반 분야의 자동번역 뿐만 아니라 전문 분야의 기술 문서에 대한 자동 번역이 절실히 요구되고 있다. 이러한 전문 분야에 대한 자동 번역을 위해서는 각 분야별로 대용량의 부분 대역 패턴 데이터베이스가 필요하다. 그러나 기존의 수작업에 의한 대역 패턴 구축 방법은 구축된 패턴의 품질이 높은 장점이 있지만 패턴 작업의 일관성 부족, 구축 시간 및 소요 비용 증가 등의 문제점을 안고 있어 단 기간 내에 대용량의 대역 패턴 데이터베이스를 구축할 수 없다.
따라서 본 발명에서는 전문분야 문서에서 뽑은 각 전문용언의 용례들에서 한국어 패턴들을 추출하고 이 패턴들에 대해 대역 표현을 자동 생성한다. 기 구축된 각 분야별 전문 용언 대역 사전 및 용언 대역어 선택 데이터베이스에 기반하여, 용언의 대역어를 먼저 결정하고 부사격 어절에 대해서는 조사 대역어 선택 어휘/의미 공기 사전을 이용하여 해당 부사격 조사에 대응하는 원시 언어의 대역어를 결정하여 대역표현을 자동으로 생성한다.
결국 종래의 수작업 패턴 구축 방식과 달리 자동으로 전문 분야별 대역 패턴 데이터베이스를 구축함으로써, 각 분야별 기술 문서에 대한 자동 번역 시스템의 개발이 가능하게 된다.
이하에서, 첨부한 도면을 참조하여 본 발명의 바람직한 일 실시예에 대하여 상세히 설명하기로 한다. 설명의 편의를 위하여 장치와 방법을 함께 관련지어 서술하도록 한다. 도 1은 본 발명에 따른 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치의 구성을 보여주는 블럭도이고, 도 2는 본 발명에 의한 전문 분야의 부분 대역 패턴 데이터베이스를 자동으로 구축하는 과정을 보여주는 흐름도이다.
기술 매뉴얼, 특허 문서에서와 같은 전문 기술 분야에만 나타나는 미등록 용언과 전문적인 의미로 사용되는 일반용언은 패턴 기반의 한국어를 원시언어로 하는 자동번역 시스템의 번역률을 떨어뜨리는 요인으로 작용한다. 이하 본 발명에서는, 한국어를 원시언어로 하는 자동번역 시스템의 대표적인 한영 시스템을 그 예로 사용하여 설명한다.
미등록 용언은 일반 한국어 표준 대사전에 등장하지 않는 각 전문 기술 분야에 등장하는 용언이며 전문적 의미의 일반용언은 조사하다의 경우와 같이 일반 문장에서는 investigate의 의미로 사용되지만 전기/전자 분야에서는 irradiate의미로도 자주 사용되는 경우와 같이 해당 전문분야에서 전문적인 의미로 사용되는 용언을 말한다.
전문 용언은 다음과 같이 5가지의 미등록 전문용언과 전문적 의미를 지니는 일반용언으로 크게 6가지 유형으로 나눌 수 있다.
a. 한자어 + 용언가능형접사 : 융착되다, 피착되다, 대향되다, 압착되다, 촬상하다, 봉입된다, 차폐되다 등
b. 영어독음 + 용언가능형접사 : 셋팅되다, 솔더링되다, 스캔되다, 맵핑되다, 어닐링되다, 그룹핑되다, 쉬프트되다, 캐싱하다, 네비게이션하다 등
c. 영어알파벳 + 용언가능형접사 : random하다, DB화하다, ON하다, Off하다, set하다
d. 접두사 + 용언 : 재사용하다, 재생산하다 등
e. 복합용언 : 지지가능하다, 진공증착하다, 충전완료하다 등
f. 전문적 의미의 일반용언 : 조사하다(irradiate, investigate), 재다(measure, be_proud_of)
이와 같은 전문용언이 포함된 부분 대역 패턴에서의 용언의 의미는 그 변화가 거의 없어 하나의 의미, 대역어를 가지는 경향이 있다. 다음 예제에서는, 용언 봉입되다(be_sealed)의 용례와 용언이 포함된 단문에서 실제 추출되는 한국어 어휘 패턴을 괄호 내에 표시하였다.
a. 이들 용기에는 SF 6 가스가 절연을 확보하기 위하여 봉입되어 있다. (가스!가 봉입되!다)
b. 펀넬의 네크부에 R,G,B 3개의 전자빔을 방출시키는 전자총이 봉입되고 (네크부!에 가스!가 봉입되!다)
c. 발광부에는, 적어도 수은이 봉입되어 있다. (발광부!에 수은!가 봉입되!다)
d. 후방에 마련된 네크부에 봉입되어 R,G,B의 전자빔을 조사한다. (네크부!에 봉입되!다)
"봉입되다"의 용례를 보면, "봉입되다"의 대표적인 부분 대역 패턴이 "A=*!가 B=*!에 봉입되!다 > A be:v sealed at B"임을 알 수 있다. 이와 같은 전문용언의 부분 대역 패턴을 구축하기 위해서는 언어학적인 지식을 보유한 사람이 실제 용례를 보고 부분 대역 패턴을 구축하고, 이에 대해 전문 번역가가 대역 표현을 기술함으로써 하나의 부분 대역 패턴을 만들수 있다.
그러나, 본 발명에서는 이와 같은 수작업을 용언 및 조사 대역어 선택을 위한 어휘/의미 대역어 공기 사전을 이용하여 다음과 같이 전문 분야에서의 부분 대역 패턴 데이터베이스를 자동 구축한다.
먼저, 형태소분석부(101)는 해당 전문 분야의 실제 텍스트 말뭉치를 수집하고 그 대상 문장들에 대하여 각 어절에 대한 형태소 분석을 수행하고, 국소 단문 추출부(102)는 상기 형태소 분석 결과를 이용하여 격 해소의 모호성이 존재하는 관형절을 제외한 국소 단문을 추출한다(S202). 전문분야의 기술 문서에 나타나는 문장들의 특성 중의 하나는 각 어절의 논항이 인접 용언에 의존하는 경향이 있다. 따라서 이러한 언어적 특성을 반영하여 국소 단문 추출부(102)에서는 용언과 용언 사이의 단문에서 한국어 부분 대역 패턴 후보를 추출한다(S203).
다음으로 한국어 패턴 추출부(103)에서는 실제 자동 번역기에서 사용할 경우, 패턴의 매칭률을 높이기 위해 각 어절에 나타나는 조사를 그 조사와 대치되어도 의미변화가 없는 조사들의 그룹에서 대표성을 가지는 대표형 조사로 대치하고 각 논항에 나타나는 명사구 또는 복합 명사는 그 헤드 명사로 대치한다. 여기서 상기 대표형 조사의 예를 들면 주격조사 '이,가'의 대표형 조사로는 '가'를, 목적격 조사 '을,를'의 대표형 조사로는 '를'을, 그리고 부사격 조사 '에서, 에서는, 에서도'의 대표형 조사로는 '에서'로 할 수 있다. 이때 용언 대역어 선택 어휘/의미 공기 데이터베이스(108)에 등록되어 있는 용언을 포함하는 패턴 후보를 선택하고, 중복되는 패턴을 제거한 후, 상위 빈도의 부분 대역 패턴 후보를 선택한다.
그리고, 대역표현 생성부(104)에서는 용언 대역어 선택을 위한 어휘/의미 공기 DB(108)와 조사 대역어 선택을 위한 어휘/의미 공기 DB(112)를 참조하여 한국어 패턴 추출부(103)에서 추출한 부분 대역 패턴 후보에 대한 목적언어 대역 표현을 생성하며, 이를 반복함으로써 최종적으로 전문 기술분야에서 사용할 수 있는 전문분야 부분 대역 패턴 데이터베이스(113)를 구축한다(S204).
상기와 같은 전문분야 부분 대역 패턴 데이터베이스(113)을 구축하는데 있어서 이용되는 어휘/의미 공기 데이터베이스(108, 112)가 먼저 구축(S201)되어야 하는데 아래에서 상술한다.
여기서, 대역 표현 생성을 위해 사용되는 어휘/의미 공기 DB(108, 112)는 기존의 전문용언 대역어 사전(106), 대역어 태깅된 선별적 용례(105, 109), 기존의 일반 분야의 부분 대역 패턴 데이터베이스(110)를 사용하여 3-gram (헤드명사어휘, 조사, 용언), 2-gram(조사, 용언) 공기정보를 추출하며, 이는 용언과 조사의 대역어를 각각 결정하는 데 사용된다. 그리고 대역어 선택 태깅된 용례 데이터베이스는 용언 또는 조사가 하나의 의미로 사용되지 않고 그 주변 어휘/의미 문맥에 따라 대역어가 달리 사용되는 경우 이 공기정보에 데이터를 추가하여 통계치를 수정함으로써 올바른 대역 표현을 생성할 수 있게 한다.
다음은 용언 선택을 위한 기존의 전문용언 대역어 사전의 일례를 보이고 있 다. 각 하나의 사전 엔트리에 대해서 표제어, 대표어, 띄어쓰기, 목적언어대역어 4개의 필드로 구성되어 있다.
LOAD시키다 로드시키다 로드_시키다 load:v
로드시키다 로드시키다 로드_시키다 load:v
망간접속하다 망간접속하다 망간_접속하다 internetwork-connect:v
망동기되다 망동기되다 망_동기되다 be:v_network-synchronized
맞결합되 맞결합되 be:v_cross_coupled
다음은 용언 선택을 위한 용언 대역어 선택 용례 데이터베이스(105)의 일례를 보이고 있다. 이 용례 데이터베이스는 그 용언이 일반 용언이지만 특정 분야에서는 그 의미가 편향적으로 결정되는 용언을 그 대상으로 한다. 이 예에서, "조사하다"는 전문용언이 아닌 일반용언이지만 전기/전자 분야에서는 "investigate"의 의미 외에 "irradiate"의 의미로 자주 사용되기 때문에 이에 대한 대역어 구분을 위해 용례 DB에 대역어 선택 용례를 추가하여, 공기 사전 DB에 반영함으로써 부분 대역 패턴을 생성할 때 올바른 대역 표현을 생성할 수 있다.
<조사하다 조사하다 조사하다 irradiate,investigate>
[investigate] 얼룩 여부를 {조사하였다.}
[investigate] 색상을 {조사하였을때,}
[irradiate] 상기 전리방사선 경화성 수지층에 전리방사선을 {조사하여}
[irradiate] 더욱이 전리방사선을 {조사하여}
[irradiate] 자외선을 {조사하여}
[irradiate] 자외선을 {조사한 후,}
[investigate] 각각의 수명을 {조사했다.}
[irradiate] 전자선을 {조사하여}
그리고 조사 선택을 위한 조사 대역어 선택 용례 데이터베이스(109) 또한 용언 대역어 선택 용례 데이터베이스(105)와 같은 형식으로 조사의 대역어에 관한 단문 단위의 용례를 구축하여 조사의 대역어를 선택하는 데 사용한다.
다음은 일반 분야 부분대역 패턴 데이터베이스에서의 부분대역 패턴의 일례를 보여 주고 있다. 이 패턴의 각 논항 어절은 "변수(A,B,C,...)=의미코드!조사"의 형태로 기술되어 있다. 이 패턴으로부터 서로 변수가 매칭되는 부사격 조사 "로"에 대한 목적언어의 대역어 정보 "as"를 자동으로 추출하여, ($음식, 로, 사용하다 -> as)와 같은 의미 공기 정보 DB를 구축할 수 있다.
A=사람!가 B=곡식!를 C=음식!로 사용하!다 > A use:v B as C
A=사람!가 B=수저류!를 C=작업도구!로 사용하!다 > A use:v B as C
A=사람!가 B=빵!를 C=장식품!로 사용하!다 > A use:v B as C
A=사람!가 B=인공적장소!를 C=장소!로 사용하!다 > A use:v B as C
상술한 바와 같이 본 발명에 의하면 전문 분야의 기술 문서에서 구조 분석 및 자동번역에 사용할 부분 대역 패턴을 자동으로 추출한다. 따라서 이와 같이 전문분야의 부분 대역 패턴을 자동으로 구축함으로써, 수동으로 패턴을 구축하는 데 드는 비용을 줄일 수 있으며, 각 분야별 전문용언 대역어 패턴을 이용하여 구조 분석기 뿐만 아니라 전문 기술 문서에 대한 자동 번역 시스템을 개발할 수 있다.
본 발명에 의한 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
상술한 바와 같이 본 발명에 의한 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치 및 방법에 의하면 전문 분야의 기술 문서에서 구조 분석 및 자동번역에 사용할 부분 대역 패턴을 자동으로 추출할 수 있으며. 따라서 이와 같이 전문 분야의 부분 대역 패턴을 자동으로 구축하여, 수동으로 패턴을 구축하는 데 드는 비용을 줄일 수 있으며, 또한 각 분야별 전문용언 대역어 패턴을 이용하여 구조 분석기 뿐만 아니라 전문 기술 문서에 대한 자동 번역 시스템을 개발할 수 있다.

Claims (10)

  1. 용언 대역어 선택 용례 데이터베이스와 전문 용어 대역어 사전으로부터 용언 대역어 공기 정보를 추출하여 저장하는 용언 대역어 선택 어휘/의미 공기 데이터베이스;
    조사 대역어 선택 용례 데이터베이스와 일반 분야 부분 대역 패턴 데이터베이스로부터 조사 대역어 공기 정보를 추출하여 저장하는 조사 대역어 선택 어휘/의미 공기 데이터베이스;
    소정의 전문 분야의 텍스트 말뭉치를 입력받아 국소단문을 추출하는 단문인식부;
    상기 국소단문내의 각 어절에 나타나는 조사를 그 조사와 대치되어도 의미 변화가 없는 조사들의 그룹에서 대표성을 가지는 대표형 조사로 대치하고, 각 논항에 나타나는 명사구 혹은 복합명사는 그 헤드명사로 대치하며, 상기 용언 대역어 선택 어휘/의미 공기 데이터베이스를 참조하여 한국어 대역 패턴 후보를 선정하여 출력하는 한국어패턴추출부; 및
    상기 한국어 대역 패턴 후보에 대한 목적언어 대역 표현을 상기 용언 대역어 선택 어휘/의미 공기 데이터베이스와 조사 대역어 선택 어휘/의미 공기 데이터베이스를 참조하여 생성하는 대역표현생성부;를 포함하는 것을 특징으로 하는 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치.
  2. 제1항에 있어서, 상기 단문인식부는
    상기 텍스트 말뭉치의 형태소를 분석하는 형태소분석부; 및
    상기 형태소 분석 결과를 입력받아 관형절을 제외한 국소 단문을 추출하는 국소단문추출부;를 포함하는 것을 특징으로 하는 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치.
  3. 제1항에 있어서, 상기 용언 대역어 선택 어휘/의미 공기 데이터베이스 혹은 조사 대역어 선택 어휘/의미 공기 데이터베이스는
    전문용어 대역어 사전, 대역어 태깅된 선별적 용례 데이터베이스, 일반 분야의 부분 대역 패턴 데이터베이스를 참조하여 n-그램 공기 정보를 추출하는 것을 특징으로 하는 전문분야의 부분 대역 패턴 데이터베이스 자동 구축 장치.
  4. 제3항에 있어서, 상기 n-그램 공기정보는
    헤드명사어휘, 조사, 용언으로 형성하는 3-그램, 혹은 조사, 용언으로 형성하는 2-그램 공기 정보인 것을 특징으로 하는 전문분야의 부분 대역 패턴 데이터베이스 자동 구축 장치.
  5. (a) 용언 대역어와 조사 대역어 선택을 위한 어휘/의미 공기 정보를 구축하는 단계;
    (b) 텍스트 말뭉치에 대하여 국소단문을 생성하는 단계;
    (c) 상기 국소 단문에 대하여 부분 대역 패턴 후보를 생성하는 단계; 및
    (d) 상기 어휘/의미 공기 정보를 기초로 상기 부분 대역 패턴 후보에 대한 목적언어 대역 표현을 생성하여 저장하는 단계;를 포함하는 것을 특징으로 하는 전문분야의 부분 대역 패턴 데이터베이스 자동 구축 방법.
  6. 제5항에 있어서, 상기 (a)단계는
    (a1) 용언 대역어 선택 용례 데이터베이스와 전문 용어 대역어 사전으로부터 용언 대역어 공기 정보를 추출하여 용언 대역어 선택 어휘/의미 공기 데이터베이스를 구축하는 단계; 및
    (a2) 조사 대역어 선택 용례 데이터베이스와 일반 분야 부분 대역 패턴 데이터베이스로부터 조사 대역어 공기 정보를 추출하여 조사 대역어 선택 어휘/의미 공기 데이터베이스를 구축하는 단계;를 포함하는 것을 특징으로 하는 전문분야의 부분 대역 패턴 데이터베이스 자동 구축 방법.
  7. 제5항에 있어서, 상기 (b)단계는
    (b1) 상기 텍스트 말뭉치의 형태소를 분석하는 단계; 및
    (b2) 상기 형태소 분석 결과에서 관형절을 제외한 국소 단문을 추출하는 단계;를 포함하는 것을 특징으로 하는 전문분야의 부분 대역 패턴 데이터베이스 자동 구축 방법.
  8. 제6항에 있어서, 상기 (a1)단계는
    전문용어 대역어 사전, 대역어 태깅된 선별적 용례 데이터베이스들로부터 n-그램 공기 정보를 추출하는 단계;를 포함하는 것을 특징으로 하는 전문분야의 부분 대역 패턴 데이터베이스 자동 구축 방법.
  9. 제6항에 있어서, 상기 (a2)단계는
    조사 대역어 태깅된 선별적 용례 데이터베이스와 일반 부분 대역 패턱 데이터베이스들로부터 n-그램 공기 정보를 추출하는 단계;를 포함하는 것을 특징으로 하는 전문분야의 부분 대역 패턴 데이터베이스 자동 구축 방법.
  10. 제8항 또는 제9항에 있어서, 상기 n-그램 공기 정보는
    헤드명사어휘, 조사, 용언으로 형성하는 3-그램, 혹은 조사, 용언으로 형성하는 2-그램 공기 정보인 것을 특징으로 하는 전문분야의 부분 대역 패턴 데이터베이스 자동 구축 방법.
KR1020050017658A 2004-12-14 2005-03-03 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치및 그 방법 KR100687734B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020040105411 2004-12-14
KR20040105411 2004-12-14

Publications (2)

Publication Number Publication Date
KR20060067071A KR20060067071A (ko) 2006-06-19
KR100687734B1 true KR100687734B1 (ko) 2007-02-27

Family

ID=37161692

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050017658A KR100687734B1 (ko) 2004-12-14 2005-03-03 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치및 그 방법

Country Status (1)

Country Link
KR (1) KR100687734B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101266361B1 (ko) 2009-09-10 2013-05-22 한국전자통신연구원 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
KR101740331B1 (ko) 2011-12-15 2017-05-30 한국전자통신연구원 규칙기반 자동번역에서 삽입구 처리 장치 및 그 방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100792203B1 (ko) * 2005-12-07 2008-01-08 한국전자통신연구원 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의대역어 사전 구축 장치 및 방법
KR100818628B1 (ko) * 2006-09-14 2008-04-02 한국전자통신연구원 특허 번역 사전 구축 장치 및 방법
KR100877477B1 (ko) * 2007-06-28 2009-01-07 주식회사 케이티 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법
KR101029318B1 (ko) * 2008-06-03 2011-04-13 포항공과대학교 산학협력단 일반 도메인 코퍼스 클러스터링을 사용한 전문용어온톨로지 관계 자동 구축방법 및 자동 구축 시스템
KR101365944B1 (ko) * 2009-12-18 2014-02-24 한국전자통신연구원 구단위 패턴 구축 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010057763A (ko) * 1999-12-23 2001-07-05 오길록 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법
KR20020043158A (ko) * 2000-12-01 2002-06-08 구타라기 켄 단어 전환 시스템에 사용되는 사전과 같은 데이터베이스구축 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010057763A (ko) * 1999-12-23 2001-07-05 오길록 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법
KR20020043158A (ko) * 2000-12-01 2002-06-08 구타라기 켄 단어 전환 시스템에 사용되는 사전과 같은 데이터베이스구축 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
1020010057763
1020020043158

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101266361B1 (ko) 2009-09-10 2013-05-22 한국전자통신연구원 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
KR101740331B1 (ko) 2011-12-15 2017-05-30 한국전자통신연구원 규칙기반 자동번역에서 삽입구 처리 장치 및 그 방법

Also Published As

Publication number Publication date
KR20060067071A (ko) 2006-06-19

Similar Documents

Publication Publication Date Title
US6760695B1 (en) Automated natural language processing
KR100687734B1 (ko) 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치및 그 방법
US8185377B2 (en) Diagnostic evaluation of machine translators
US7039579B2 (en) Monte Carlo method for natural language understanding and speech recognition language models
US6721697B1 (en) Method and system for reducing lexical ambiguity
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
US6928448B1 (en) System and method to match linguistic structures using thesaurus information
US7552051B2 (en) Method and apparatus for mapping multiword expressions to identifiers using finite-state networks
JP2892548B2 (ja) 自動翻訳装置
US20050086047A1 (en) Syntax analysis method and apparatus
US20160224541A1 (en) System and method for generating and using user semantic dictionaries for natural language processing of user-provided text
KR20120018687A (ko) 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치 및 그 방법
Mihalcea et al. Open mind word expert: Creating large annotated data collections with web users’ help
JP3765799B2 (ja) 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム
JP2006525552A (ja) 音声認識における統計的言語モデリング方法
US7346511B2 (en) Method and apparatus for recognizing multiword expressions
Grishman Iterative alignment of syntactic structures for a bilingual corpus
KR100496873B1 (ko) 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법
WO1997040453A1 (en) Automated natural language processing
Kumar et al. Punjabi to UNL enconversion system
KR100617319B1 (ko) 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법
Đorđević et al. Different approaches in serbian language parsing using context-free grammars
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
May et al. Surprise! What's in a Cebuano or Hindi Name?
Yellin et al. Paths to relation extraction through semantic structure

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130205

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140123

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee