KR20090048319A - 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치 및 방법 - Google Patents

복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치 및 방법 Download PDF

Info

Publication number
KR20090048319A
KR20090048319A KR1020080104184A KR20080104184A KR20090048319A KR 20090048319 A KR20090048319 A KR 20090048319A KR 1020080104184 A KR1020080104184 A KR 1020080104184A KR 20080104184 A KR20080104184 A KR 20080104184A KR 20090048319 A KR20090048319 A KR 20090048319A
Authority
KR
South Korea
Prior art keywords
noun
compound
nouns
sentence
descriptive
Prior art date
Application number
KR1020080104184A
Other languages
English (en)
Other versions
KR100975044B1 (ko
Inventor
양성일
김영길
서영애
박은진
김창현
권오욱
이기영
김운
오영순
노윤형
황영숙
최승권
윤창호
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20090048319A publication Critical patent/KR20090048319A/ko
Application granted granted Critical
Publication of KR100975044B1 publication Critical patent/KR100975044B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 명사가 여러 게 나열되는 복합 명사 내부의 의미 구조 분석을 통해 의미의 왜곡이 없는 문장 형태로 변환하여, 명사가 나열된 형태에서 생략된 문장 성분을 자동으로 복원하여 의미 왜곡이 없는 문장으로 생성하는 문장 성분 복원 장치 및 그 방법에 관한 것이다. 본 발명에 의해, 분석된 복합 명사의 의미 구조를 바탕으로 의미를 왜곡시키지 않으면서, 다른 형태의 표현을 생성할 수 있게 된다.

Description

복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치 및 방법{Apparatus of sentence generation using compound noun pharse analysis and method thereof}
본 발명은 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치 및 그 방법에 관한 것이다. 보다 상세하게는, 한국어 명사가 여러게 나열되는 복합 명사 내부의 의미 구조 분석을 통해 의미의 왜곡이 없는 문장 형태로 변환하여, 명사가 나열된 형태에서 생략된 문장 성분을 자동으로 복원하고 동일한 의미의 문장으로 생성하는 문장 성분 복원 장치 및 그 방법에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호:2006-S-037-02, 과제명:응용 특화 한중영 자동 기술개발].
한국어 문장의 구성은 명사 및 동사와 같은 내용어, 조사 어미와 같은 기능어로 크게 나눌 수 있다. 문장의 핵심적인 의미 전달은 내용어에 의해 이루어지며, 한국어 명사구의 경우 잦은 기능어의 생략으로 명사 나열에 의한 복합 명사가 발생된다. 이렇게 발생되는 복합 명사를 구성하는 단위 명사들은 일부 문장 성분을 생 략시켜 발생된 것으로, 생략 성분의 복원에 의해 본래의 문장 형태를 추정할 수 있다. 한국어 복합 명사의 경우, 생략되는 문장 성분은 대부분 접사 및 조사와 같은 기능어로 국한되며, 기능어의 복원은 단위 명사 간의 격관계와 의미 관계를 분석하여 이루어질 수 있다.
먼저, 본 발명에서 사용되는 용어를 정의하면 다음과 같다.
한국어에서 복합 명사라 함은 '한국통신심의위원'과 같은 형태로 단위가 이루어지는 명사들의 모음으로 전체가 하나의 명사 역할을 해내는 독립 품사를 의미한다.
한국어에서 서술성 명사라 함은 용언화 접사와 붙어 용언의 역할을 수행할 수 있는 명사를 의미한다.
한국어에서 용언화 접사라 함은 '하다', '되다', '시키다'와 같은 특정 명사와 붙어 전체가 하나의 용언 역할을 해내는 독립 품사를 생성할 수 있는 접사를 의미한다.
그리고, 명사-명사간 소유격의 의미 제약 조건이라 함은 '사람-신체', '동물-먹이'와 같이 명사간 소유 관계를 의미적으로 분석할 수 있도록 패턴화된 데이터를 의미한다.
그리고, 명사-동사간 격관계의 의미 제약 조건이라함은 단문을 이끄는 용언의 주격, 목적격과 같은 격관계를 채우는 명사의 의미와 용언 간의 의미적 분석 조건을 패턴화한 데이터를 의미한다.
그리고, 복합 명사의 문장 생성이라 함은 복합 명사의 의미를 분석하여 복원 하는 문장의 생략 성분을 생성하는 것을 의미한다. 예컨대, 도 1에 도시한 바와 같이, '어린이 차별 금지','공기업 민영화 찬성'과 같은 복합 명사에 대해 '어린이를 차별하는 것을 금지한다', '공기업을 민영화하는 것을 찬성한다'와 같이 복합 명사의 뜻을 나타낼 수 있도록 문장으로 생성하는 것을 의미한다.
종래 기술을 살펴보면, 종래 복합 명사 처리 장치는 명사구 내부를 분석하여 정보를 추출하고자 하는 경우, 명사-명사간 의미 관계에 의한 명사구의 의미 구조를 분석하여 핵심어를 추출하거나 명사의 병렬구조와 같은 언어적 구조 정보를 추출하여 사용하여 왔다. 그리고, 명사-명사간 의미 관계 분석은 지금까지 지역성(locality)에 의거하여 인접한 명사들과 공기 정보를 이용한 중의성 해결 방식이 수행되어 왔다. 이렇게 추출된 언어적 구조 정보는 정보 검색이나 명사구 묶음과 같은 분야에 활용될 수 있는 정보를 제공하게 된다.
그러나, 복합명사에서 나열된 명사만을 이용하여 의미 구조를 분석하는 경우, 추출된 정보는 발생된 명사의 형태만을 이용하는 수동적인 형태의 정보를 제공하게 된다. 따라서, 기계어 번역과 같이 원문의 형태를 동일한 의미를 가지면서 다른 형태로 변형하고자 하는 분야에서 요구되는 다른 형태의 표현 생성과 같은 대역어 생성 분야나, 다양한 형태의 문장을 동일 의미 구조로 정규화하는 문장 정규화 과정에서 복합 명사는 처리하기 어려운 문제점이 발생한다.
한국어는 굴절어의 특성을 갖고 있어, 기능어가 발달하였으며, 이로 인해 문장 성분의 대부분이 조사, 접사와 같은 기능어와 명사가 결합된 형태가 차지한다. 이렇게 발생하는 명사의 나열은 기능어나 연결 구문의 생략으로 문장 내 복합 명사 의 사용이 빈번하도록 만든다. 아울러, 부분 자유 어순과 자유로운 띄어쓰기의 사용은 한국어의 분석의 어려움을 가중시킨다.
따라서, 한국어 복합 명사의 경우, 생략된 기능어를 복원하면 내포된 의미를 더 명확히 나타낼 수 있다. 즉, 복합 명사 분석에 의해 생략된 문장 성분 정보를 복원하여 문장으로 표현하였을 경우(동일한 의미를 갖는 경우를 복합 명사의 분석이 성공한 것으로 간주할 경우) 분석 결과는 좀더 명확해 질 수 있다.
상술한 바와 같이, 한국어 복합 명사의 처리는 매우 중요하며, 나열되는 명사의 처리를 위해 기반 명사구 분석, 복합 명사 분해, 명사구 묶음 등의 명사 처리를 위한 많은 연구가 진행되고 있는 실정이다.
본 발명은 상기한 바와 같은 문제점을 해결하기 위해 고안된 것으로서,
분석된 복합 명사의 의미 구조를 바탕으로 의미를 왜곡시키지 않으면서, 다른 형태의 표현을 생성할 수 있는 장치 및 방법을 제공하는 것을 목적으로 한다. 보다 상세하게는, 복합 명사구 내의 단위 명사를 서술성 명사와 비서술성 명사로 구분하여 서술성 명사와 비서술성 명사 간의 관계를 동사-명사의 관계로 간주하고, 비서술성 명사끼리의 관계는 명사-명사의 관계로 간주하여 의미 제약 조건을 사용함으로써, 명사 내부의 의미를 분석하여, 이를 나타내는 조사 및 접사와 같은 기능어 문장 성분을 복원하여 복합 명사를 완전한 문장으로 복원하기 위한 장치 및 방법을 제공하는 것으로 목적으로 한다.
본 발명의 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치는, 형태소 분석기로부터 복합 명사의 형태소 분석 결과를 입력받아 상기 복합 명사 내의 단위 명사를 서술성 명사와 비서술성 명사로 구분하여, 비서술성 명사에 각각 해당하는 의미 코드를 부착하는 복합명사 처리부; 의미 제약 조건을 이용해 상기 복합 명사 내의 비서술성 명사 간 관계나 비서술성 명사와 서술성 명사 간 관계를 분석하여 조사 및 용언화 접사를 복원하는 의미관계 복원부; 상기 단위 명사에 붙는, 접미사와 의존 명사 처리에 의한 표현을 생성하는 접미사 및 의존명사 복원부; 및 상기 의미 제약 조건을 이용해 상기 복합 명사 내의 서술성 명사를 기준으로 비서술성 명사와의 격 관계를 결정하여 관형절이나 병렬 구문을 생성하는 관형절 처리부를 구비한다.
특히, 상기 의미 제약 조건은, 명사-명사간 소유격의 의미 제약 조건 및 명사-동사간 격 관계 의미 제약 조건을 포함하는 것을 특징으로 한다.
또한, 상기 명사-동사간 격관계 의미 제약 조건은, 상기 복합 명사의 구문 구조 분석을 위한 패턴화된 데이터인 것을 특징으로 한다.
또한, 접미사 및 의존명사 복원부는, 상기 복합 명사 내에 접사 표현을 갖는 서술성 명사가 포함된 경우, 상기 서술성 명사와 상기 접사를 분리하여 조사 및 용언화 접사를 복원하는 것을 특징으로 한다.
또한, 상기 관형절 처리부는, 상기 복합 명사 내의 서술성 명사을 기준으로, 앞에 있는 비서술성 명사와 바로 뒤에 있는 단위 명사를 비교하여 격 관계를 결정 하는 것을 특징으로 한다.
한편, 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 방법은, 복합 명사 내의 단위 명사를 서술성 명사와 비서술성 명사로 구분하는 단계; 상기 복합 명사 내의 비서술성 명사에 각각 해당하는 의미 코드를 부착하는 단계; 의미 제약 조건을 이용해 상기 복합 명사 내의 비서술성 명사 간 관계나 비서술성 명사와 서술성 명사 간 관계를 분석하여 조사 및 용언화 접사를 복원하는 단계; 상기 단위 명사에 붙는, 접미사와 의존 명사 처리에 의한 표현을 생성하는 단계; 및 상기 의미 제약 조건을 이용해 상기 복합 명사 내의 서술성 명사를 기준으로 비서술성 명사와의 격 관계를 결정하여 관형절이나 병렬 구문을 생성하는 단계를 포함한다.
특히, 상기 접미사와 의존 명사 처리에 의한 표현을 생성하는 단계는, 상기 복합 명사 내에 접사 표현을 갖는 서술성 명사가 포함된 경우, 상기 서술성 명사와 상기 접사를 분리하여 조사 및 용언화 접사를 복원하는 단계를 포함하는 것을 특징으로 한다.
또한, 상기 의미 제약 조건은, 명사-명사간 소유격의 의미 제약 조건 및 명사-동사간 격 관계 의미 제약 조건을 포함하는 것을 특징으로 한다.
또한, 상기 명사-동사간 격관계 의미 제약 조건은, 상기 복합 명사의 구문 구조 분석을 위한 패턴화된 데이터인 것을 특징으로 한다.
또한, 상기 관형절이나 병렬 구문을 생성하는 단계는, 상기 복합 명사 내의 서술성 명사을 기준으로, 앞에 있는 비서술성 명사와 바로 뒤에 있는 단위 명사를 비교하여 격 관계를 결정하는 것을 특징으로 한다.
본 발명에 의해 다음과 같은 효과을 얻을 수 있다.
본 발명은 복합 명사를 자동으로 동일 의미의 문장 형태로 변환하여 좀 더 명확하게 표현해주므로, 한국어 복합 명사를 원문으로 하는 기계 번역 시스템에서 복합 명사 대역어 생성 장치, 또는 한국어 문장과 복합 명사간 의미 유사성을 처리하는 문장 정규화 처리 장치에 적용될 수 있다.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
이하 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세히 설명한다.
도 2는 본 발명에 따른 한국어 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치를 설명하기 위한 도면이다.
본 발명의 한국어 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치(100)는 복합 명사 처리부(110), 의미관계 복원부(120), 접미사 및 의존명사 처리부(130), 관형절 처리부(140), 의미부착 형태소DB(150), 및 의미제약조건DB(160)를 구비한다.
먼저, 복합 명사 처리부(110)는 한국어 형태소 분석기(10)으로부터 입력되는 한국어 복합 명사의 형태소 분석 결과를 입력받아 단위 명사를 추출한다. 그리고, 복합 명사 처리부(110)는 추출된 단위 명사들을 접사, 서술성 명사, 비서술성 명사로 구분하고, 의미부착 형태소DB(150)에 구축된 의미코드를 참고하여 접사, 서술성 명사, 비서술성 명사에 대해 각각 해당하는 의미코드를 부착한다. 여기서, 한국어 형태소 분석기(10)는 텍스트 스트링의 형태로 입력되는 한국어 문장의 형태소를 분석하고, 복합 명사 처리부(110)는 한국어 형태소 분석기(10)로부터 출력되는 형태소 분석 결과를 입력으로 삼는다. 한편, 도 3은 의미부착 형태소DB(150)에서 '밤'이라는 단위 명사가 등록된 예시를 보여주는 도면이다.
의미관계 복원부(120)는 복합 명사 처리부(110)에서 구분된 복합 명사를 입력받아 비서술성 명사간 관계나 비서술성 명사와 서술성 명사간 관계를 의미제약조건DB(160)에 구축된 의미 제약 조건을 이용하여 의미 관계를 결정한다. 이때 의미 제약 조건은 명사-명사간 소유격의 의미 제약 조건 및 명사-동사간 격관계 의미 제약 조건을 포함한다. 여기서 명사-동사간 격관계 의미 제약 조건은 구문 구조 분석을 위한 패턴화된 데이터(patterned data)이고, 이는 비서술성 명사와 서술성 명사간의 의미 관계(예컨대, 목적격 또는 주격)결정을 위해 사용될 수 있다. 이렇게 결정되는 의미 관계는 올바른 격조사 생성과 단문 생성의 판단을 제공한다. 본 발명에서는 약 300개로 분류된 의미코드를 사용하는 한국어 동사구 의미 패턴을 사용한다. 표 1은 의미 제약 조건으로 사용되는 동사구 의미 패턴의 일예이다.
{조직}!가 {정치활동}!에 참여!하다 {사람}!가 {경제활동}!에 참여!하다 {사람}!가 {조직}!에 참여!하다
대괄호 "{", "}"로 묶인 부분은 명사의 의미코드를 나타내며, 구분자 "!"로 구분되는 격조사를 함께 나타낸다. 패턴에 기술되는 격조사는 주격은 "가", 목적격은 "를"과 같이 표기되도록 대표형을 지정하여 사용한다. 서술성 명사는 용언의 형태로 동사구 의미 패턴의 오른쪽 마지막에 기술된다. 복합 명사를 구성하는 단위 명사는 어휘 사전에 서술성과 비서술성으로 구분되는 품사 정보와 동사구 의미 패턴의 격 정보를 비교하기 위한 의미코드를 등록하여 사용한다.
의미관계 복원부(120)는 의미제약조건DB(160)에 구축된 의미 제약 조건을 이용하여 복합 명사의 단위 명사간 의미 관계를 결정하고, 결정된 의미 관계에 따라 해당 단위 명사에 소유격, 목적격, 용언화 접사와 같은 기능어를 복원한다. 보다 상세하게는, 의미 관계 복원부(120)는 소유격과 같은 명사간 관계에 대해서는 '의'와 같이 소유를 나타내는 조사를 생성하고, 주격이나 목적격과 같은 명사-동사간 관계에 대해서는 '이/가', '을/를'과 같은 격 관계에 따른 조사를 생성한다. 그리고, 의미관계 복원부(120)는 서술성 명사에 대해서는 문장내 용언으로 변환하기 위해 '하다'와 같은 용언화 접사를 생성한다. 여기서 '서술성 명사'는 전술한 바와 같이, 용언화 접사와 붙어 용언의 역할을 수행할 수 있는 명사를 의미한다. 예컨대, '제한','철폐'와 같은 명사가 '하다'와 같은 용언화 접사와 붙어 '제한하다', '철폐하다' 처럼 용언의 역할을 수행할 수 있으므로, '서술성 명사'에 해당된다.
접미사 및 의존명사 처리부(130)는 복합 명사 내부에 접사 표현을 갖는 서술성 명사가 포함된 경우, 서술성 명사와 접사를 분리하여 조사 및 용언화 접사를 복원한다. 접미사 및 의존명사 처리부(130)에서 서술성 명사와 접사를 분리한 뒤 조사 및 용언화 접사를 복원하는 과정은 전술한 의미관계 복원부(120)에서 조사 및 용언화 접사를 복원하는 과정과 동일한 과정을 통해 달성될 수 있다. 예컨대, 접미사 및 의존명사 처리부(130)는 '지망생'과 같은 복합 명사 내부에 등장하는 단위 명사에 붙은 접사를 구분하여 '지망하는 (지망)생{사람}'와 같이 용언화 접사를 복원한다. 한편, 서술성 명사는 명사-동사간 의미 관계를 파악하기 위한 용언의 역할을 하고, 분리된 접사는 독립된 비서술성 명사의 역할을 할 수 있도록 구분된다.
아울러, 접미사 및 의존명사 처리부(130)는 복합명사 내의 단위 명사에 붙는 접미사 및 의존 명사 처리에 의한 표현을 생성하여 문장의 표현이 자연스러울 수 있도록 한다. 예컨대, 서술성 명사가 '차별 금지'와 같은 단위 명사의 나열인 경우, 의존 명사 '것'을 생성하여 '차별하는 것을 금지하다'와 같은 표현으로 수정한다. 여기서 의존 명사는 의미가 형식적이어서 다른 말 아래에 기대어 쓰이는 명사를 의미하며, '것','따름','뿐','데' 따위가 있을 수 있다.
한편, 일부 복원이 불가능한 비서술성 명사의 나열은 기본적으로 관형격 조사 "의"로 연결되는 것을 가정할 수 있다. 아울러, 뒤에 비서술성 명사를 격 관계로 갖는 서술성 명사는 용언화 접사와 함께 관형격 어미를 부여할 수 있다. 이러한 휴리스틱 규칙은 동작 규칙과 배제 규칙으로 나뉘어 기술되며, 대용량의 말 뭉치에서 수집된 어휘 공기 정보를 사용하여 확률 가중치를 지정할 수 있다. 표 2는 휴리스틱 복원을 위한 동작 규칙의 일예를 나타낸다.
동작 규칙 동작 예
{서술성명사+서술성명사}→{관형격어미+의존명사}복원 국회연설불허→국회(에서) 연설(하는 것을) 불허(하다)
{서술성명사+비서술성명사}→{관형격어미}복원 해충 방제 구역→해충(을) 방제(하는) 구역
관형절 처리부(140)는 서술성 명사 뒤에 등장하는 단위 명사의 의미 관계(격 관계)를 의미제약조건DB(160)에 구축된 명사-동사간 격 관계의 의미 제약 조건을 이용하여 결정하고, 결정된 격 관계에 따라 관형절이나 병렬 구문을 생성한다. 관형절 처리부(140)에서 의미 관계를 결정하기 위하여 명사-동사간 격 관계의 의미 제약 조건을 적용할 때, 마치 앞에 있는 서술성 명사의 용언적 사용을 뒤에 나오는 단위 명사를 수식하기 위한 관형절의 관계로 사용하여 서술성 명사의 격 성분을 뒤에 나오는 단위 명사에 대해 주격이나 목적격과 같은 필수격으로 취급하여 우선 격 정보를 채우도록 의미를 결정한다. 그리고, 이러한 의미 제약 조건이 만족될 때에는 서술성 명사를 관형절로 생성하고, 그렇지 않을 경우에는 '하고'와 같은 병렬 구문을 생성하도록 한다.
격 관계 결정을 위한 대상 단위 명사는, 서술성 명사가 관형절을 이끌 수 있으므로, 서술성 명사의 앞에 나타나는 비서술성 명사들과 바로 뒤에 나타나는 1개의 단위 명사를 비교하여 격 관계를 결정한다. 이때, 격 관계 결정을 위한 의미 제약 조건의 가중치는 수학식 1과 같은 수식에 의해 결정될 수 있다.
Figure 112008073642778-PAT00001
서술성 명사는 v, 격 관계의 대상이 되는 비서술성 명사와 해당 의미코드는 w1,n 과 s1,n으로 나타낸다.
도 4 및 도 5는 본 발명에 따른 한국어 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 방법을 세부적으로 설명하기 위한 도면이다.
이하에서는, 본 발명에 따른 한국어 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치가 '공무원 입시 지망생 나이 제한 제도 철폐'라는 복합 명사를 입력받아 문장 성분을 복원하고 동일 의미 문장을 생성하는 과정을 예로 들어 설명하기로 한다.
도 4 및 도 5를 참조하면, 한국어 형태소 분석기는 텍스트 스트링의 형태로 입력되는 한국어 문장의 형태소를 분석하여 분석 결과를 복합 명사 처리부에 출력한다(S10).
복합 명사 처리부는 한국어 형태소 분석기로부터 출력되는 형태소 분석 결과를 입력으로 삼아 단위 명사를 추출한다(S20). '공무원 입시 지망생 나이 제한 제도 철폐'라는 복합 명사는 복합 명사 처리부에 의해 단위 명사인 '공무원', '입시', '지망생', '나이', '제한', '제도', '철폐'로 추출된다.
S20단계에서 추출된 각 단위 명사는 서술성 명사와 비서술성 명사로 구분되어 문장 생성을 위한 대상인 복합 명사 분석 결과(예컨대, "공무원/N 입시/N 지망/V+생/P 나이/N 제한/N 제도/V 철폐/V";200)의 형태로 변환된다. 도 5의 참조부호 200에서 '/N', '/V', '/P'와 같은 표지는 각각 비서술성 명사, 서술성 명사, 접사 를 나타내는 표지이다.
다음으로, 의미 관계 복원부는 이렇게 추출된 복합 명사 분석 결과(200)를 의미제약조건DB에 구축된 명사-명사간 소유격의 의미 제약 조건(300), 명사-동사간 격관계 의미 제약 조건(310)을 사용하여 단위 명사간 의미 관계를 분석하여 그 의미 관계를 결정한다(S40).
S40 단계에서 의미 관계가 결정되면, 결정된 의미 관계에 따라 조사 및 용언화 접사를 복원한다(S50). 보다 상세하게는, 소유격과 같은 명사간 관계에 대해서는 '의'과 같이 소유를 나타내는 조사를 생성하고, 주격이나 목적격과 같은 명사-동사간 관계에 대해서는 '이/가', '을/를'과 같은 격 관계에 따른 조사를 생성한다. 그리고, 서술성 명사에 대해서는 문장 내 용언으로 변환하기 위해 '하다'와 같은 용언화 접사를 생성한다. 예컨대, 도 5의 참조부호 200의 복합 명사에 대하여 전술한 바와 같은 방식으로 조사 및 용언화 접사를 복원하면, 참조부호 210과 같이 "공무원(의) 입시(를) 지망/V+생/P 나이(를) 제한(하다) 제도(를) 철폐(하다)"와 같은 문장으로 복원될 수 있다.
전술한 바와 같이, 본 발명에서는 명사-명사간 소유격의 의미 제약 조건(300), 명사-동사간 격관계 의미 제약 조건(310)을 사용하여 단위 명사간 의미 관계를 분석하여, 그 의미 관계를 결정하고, 의미 결정이 완료되면 서술성 명사를 중심으로 하는 단문으로 간주한다. 그리고, 각 격 정보를 채우는 명사에 해당 격조사를 복원하고, 서술성 명사의 용언화 접사를 복원하여 문장 복원을 시도한다.
다음으로, S50 단계에서 복원된 복합 명사 내부에 접사 표현을 갖는 서술성 명사가 포함된 경우, 서술성 명사와 접사(접미사)를 분리하여 조사 및 용언화 접사를 복원한다. 이때, 서술성 명사는 명사-동사간 의미 관계를 파악하기 위한 용언의 역할을 하고, 분리된 접사는 독립된 비서술성 명사의 역할을 할 수 있도록 구분된다. 복합 명사 내부에 접사 표현을 갖는 서술성 명사가 포함된 경우, 서술성 명사와 접사를 분리한 뒤 조사 및 용언화 접사를 복원하는 과정은 전술한 S50 단계에서 조사 및 용언화 접사를 복원하는 과정과 동일한 과정을 통해 달성될 수 있다. 도 5의 참조부호 200에서 '지망생'은 접사를 포함하는 서술성 명사로 S60 단계에서 접사 처리에 의한 문장 생성의 대상이 된다. '지망생'과 같은 복합 명사 내부에 등장하는 단위 명사에 붙은 접사를 구분하여 '지망하는 (지망)생{사람}'와 같이 용언화 접사를 복원한다.
다음으로, 접미사 및 의존명사 처리에 의한 표현을 생성한다(S60). 예컨대, 서술성 명사가 '차별 금지'와 같은 단위 명사의 나열인 경우, 의존 명사 '것'을 생성하여 '차별하는 것을 금지하다'와 같은 표현으로 수정한다.
마지막으로, 서술성 명사 뒤에 나오는 비서술성 명사와의 명사-동사간 격관계 의미 제약 조건을 이용해 격 관계를 결정하여 관형절이나 병렬 구문을 생성한다(S70). S70 단계에서 격 관계를 결정하기 위하여 명사-동사간 격 관계의 의미 제약 조건을 적용할 때, 앞에 나온 서술성 명사의 용언적 사용을 뒤에 나오는 단위 명사를 수식하기 위한 관형절의 관계로 사용하여 서술성 명사의 격성분을 뒤에 나오는 단위 명사에 대해 주격이나 목적격과 같은 필수격으로 취급하여 우선 격정보를 채우도록 의미를 결정한다. 그리고, 이러한 의미 제약 조건이 만족될 때에는 서 술성 명사를 관형절로 생성하고, 그렇지 않을 경우에는 '하고'와 같은 병렬 구문을 생성하도록 한다.
S70 단계를 거친 복합 명사 '공무원 입시 지망생 나이 제한 제도'는 다음과 같은 완성된 문장으로 표현될 수 있다.
"공문원의 입시를 지망하는 지망생의 나이를 제한하는 제도를 철폐하다"
완성된 문장은 격관계에 의해 조사와 용언화 접사, 어미가 생성된 형태로 세 개의 단문이 모인 복문의 형태로 완전한 문장을 생성하게 됨을 알 수 있다. 즉, '공무원 입시 지망생 나이 제한 제도 철폐'는 '공무원 입시를 지망하다', '지망생의 나이를 제한하다', '제도를 철폐하다'의 세 개의 단문이 모여 '공문원의 입시를 지망하는 지망생의 나이를 제한하는 제도를 철폐하다'라는 복문 형태의 완전한 문장으로 생성되는 것을 확인할 수 있다.
전술한 바에 따르면, 복합 명사를 완전한 형태의 문장으로 처리하는 효과가 있다. 즉, 분석된 복합 명사의 의미 구조를 바탕으로 의미를 왜곡시키지 않으면서, 다른 형태의 표현을 생성할 수 있게 된다.
본 발명은, 한국어 복합 명사를 원문으로 하는 기계 번역 시스템에서 복합 명사 대역어 생성 장치, 또는 한국어 문장과 복합 명사간 의미 유사성을 처리하는 문장 정규화 처리 장치에 적용될 수 있다. 이러한 복합 명사의 문장 복원은 동일한 의미의 다른 표현에 대한 패러프레이징이나 기계번역, 문장 정규화를 통한 데이터 부족 해소 등에 이용될 수 있을 것이다.
한편, 본 발명에서는 한국어의 복합 명사에 대하여 동일 의미 문장 생성을 위해 문장 성분을 복원하는 과정을 설명하였지만, 일본어와 같이 한국어와 유사한 구조를 갖는 언어에도 본 발명이 적용될 수 있을 것이다.
이상에서와 같이 도면과 명세서에서 최적의 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로, 본 기술 분야의 통상의 지식을 가진자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
도 1은 한국어 복합 명사에 대해 동일 의미를 갖도록 생성된 문장의 일예를 나타내는 예시도이다.
도 2는 본 발명에 따른 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치를 설명하기 위한 도면이다.
도 3은 도 2의 의미부착 형태소DB에 등록된 단위 명사의 일예를 보여주기 위한 도면이다.
도 4는 본 발명에 따른 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 방법을 설명하기 위한 도면이다.
도 5는 도 4의 복합 명사의 동일 의미 문장을 생성하는 과정을 설명하기 위한 예시도이다.

Claims (10)

  1. 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치로서,
    형태소 분석기로부터 상기 복합 명사의 형태소 분석 결과를 입력받아 상기 복합 명사 내의 단위 명사를 서술성 명사와 비서술성 명사로 구분하여, 비서술성 명사에 각각 해당하는 의미 코드를 부착하는 복합명사 처리부;
    의미 제약 조건을 이용해 상기 복합 명사 내의 비서술성 명사 간 관계나 비서술성 명사와 서술성 명사 간 관계를 분석하여 조사 및 용언화 접사를 복원하는 의미관계 복원부;
    상기 단위 명사에 붙는, 접미사와 의존 명사 처리에 의한 표현을 생성하는 접미사 및 의존명사 처리부; 및
    상기 의미 제약 조건을 이용해 상기 복합 명사 내의 서술성 명사를 기준으로 비서술성 명사와의 격 관계를 결정하여 관형절이나 병렬 구문을 생성하는 관형절 처리부를 구비하는 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치.
  2. 청구항 1에 있어서,
    상기 의미 제약 조건은,
    명사-명사간 소유격의 의미 제약 조건 및 명사-동사간 격 관계 의미 제약 조건을 포함하는 것을 특징으로 하는 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치.
  3. 청구항 2에 있어서,
    상기 명사-동사간 격 관계 의미 제약 조건은, 상기 복합 명사의 구문 구조 분석을 위한 패턴화된 데이터인 것을 특징으로 하는 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치.
  4. 청구항 1에 있어서,
    접미사 및 의존명사 복원부는,
    상기 복합 명사 내에 접사 표현을 갖는 서술성 명사가 포함된 경우, 상기 서술성 명사와 상기 접사를 분리하여 조사 및 용언화 접사를 복원하는 것을 특징으로 하는 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치.
  5. 청구항 1에 있어서,
    상기 관형절 처리부는,
    상기 복합 명사 내의 서술성 명사을 기준으로, 앞에 있는 비서술성 명사와 바로 뒤에 있는 단위 명사를 비교하여 격 관계를 결정하는 것을 특징으로 하는 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치.
  6. 복합 명사의 동일 의미 문장 생성을 위해 문장 성분을 복원하는 방법으로서,
    상기 복합 명사 내의 단위 명사를 서술성 명사와 비서술성 명사로 구분하는 단계;
    상기 복합 명사 내의 비서술성 명사에 각각 해당하는 의미 코드를 부착하는 단계;
    의미 제약 조건을 이용해 상기 복합 명사 내의 비서술성 명사 간 관계나 비서술성 명사와 서술성 명사 간 관계를 분석하여 조사 및 용언화 접사를 복원하는 단계;
    상기 단위 명사에 붙는, 접미사와 의존 명사 처리에 의한 표현을 생성하는 단계; 및
    상기 의미 제약 조건을 이용해 상기 복합 명사 내의 서술성 명사를 기준으로 비서술성 명사와의 격 관계를 결정하여 관형절이나 병렬 구문을 생성하는 단계를 포함하는 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 방법.
  7. 청구항 6에 있어서,
    상기 접미사와 의존 명사 처리에 의한 표현을 생성하는 단계는,
    상기 복합 명사 내에 접사 표현을 갖는 서술성 명사가 포함된 경우, 상기 서술성 명사와 상기 접사를 분리하여 조사 및 용언화 접사를 복원하는 단계를 포함하는 것을 특징으로 하는 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 방법.
  8. 청구항 6에 있어서,
    상기 의미 제약 조건은,
    명사-명사간 소유격의 의미 제약 조건 및 명사-동사간 격 관계 의미 제약 조건을 포함하는 것을 특징으로 하는 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 방법.
  9. 청구항 6에 있어서,
    상기 명사-동사간 격 관계 의미 제약 조건은, 상기 복합 명사의 구문 구조 분석을 위한 패턴화된 데이터인 것을 특징으로 하는 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 방법.
  10. 청구항 6에 있어서,
    상기 관형절이나 병렬 구문을 생성하는 단계는,
    상기 복합 명사 내의 서술성 명사을 기준으로, 앞에 있는 비서술성 명사와 바로 뒤에 있는 단위 명사를 비교하여 격 관계를 결정하는 것을 특징으로 하는 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 방법.
KR1020080104184A 2007-11-09 2008-10-23 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치 및 방법 KR100975044B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20070114154 2007-11-09
KR1020070114154 2007-11-09

Publications (2)

Publication Number Publication Date
KR20090048319A true KR20090048319A (ko) 2009-05-13
KR100975044B1 KR100975044B1 (ko) 2010-08-11

Family

ID=40857506

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080104184A KR100975044B1 (ko) 2007-11-09 2008-10-23 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치 및 방법

Country Status (1)

Country Link
KR (1) KR100975044B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170055146A (ko) * 2015-11-11 2017-05-19 주식회사 엠글리쉬 영어 발음기호를 이용한 외국어 및 자국어 표시장치 및 방법
KR20170059665A (ko) * 2015-11-23 2017-05-31 주식회사 엠글리쉬 외국어 리듬 동작 감지 센서 기반의 운동 학습 장치, 그리고 이를 이용한 운동 학습 방법
KR20180110316A (ko) * 2017-03-28 2018-10-10 (주)아크릴 자연어 문장을 확장하는 장치와 상기 자연어 문장을 확장하는 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100512541B1 (ko) * 2000-02-29 2005-09-06 김영택 기계번역 장치 및 시스템, 방법
KR100513161B1 (ko) * 2003-12-26 2005-09-08 한국전자통신연구원 기계번역 대역어 선정을 위한 한국어 복합명사 의미결정장치 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170055146A (ko) * 2015-11-11 2017-05-19 주식회사 엠글리쉬 영어 발음기호를 이용한 외국어 및 자국어 표시장치 및 방법
KR20170059665A (ko) * 2015-11-23 2017-05-31 주식회사 엠글리쉬 외국어 리듬 동작 감지 센서 기반의 운동 학습 장치, 그리고 이를 이용한 운동 학습 방법
KR20180110316A (ko) * 2017-03-28 2018-10-10 (주)아크릴 자연어 문장을 확장하는 장치와 상기 자연어 문장을 확장하는 방법

Also Published As

Publication number Publication date
KR100975044B1 (ko) 2010-08-11

Similar Documents

Publication Publication Date Title
Yeniterzi Exploiting morphology in Turkish named entity recognition system
Darwish Building a shallow Arabic morphological analyser in one day
Çöltekin A set of open source tools for Turkish natural language processing.
Ahmadi KLPT–Kurdish language processing toolkit
Gómez-Rodríguez et al. Memory limitations are hidden in grammar
Zeroual et al. Adapting a decision tree based tagger for Arabic
Moeljadi et al. Building an HPSG-based Indonesian resource grammar (INDRA)
KR100975044B1 (ko) 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치 및 방법
Sarveswaran et al. Thamizhifst: A morphological analyser and generator for Tamil verbs
Veerappan et al. A rule based kannada morphological analyzer and generator using finite state transducer
Parameshwari An implementation of APERTIUM morphological analyzer and generator for Tamil
KR101757222B1 (ko) 한글 문장에 대한 의역 문장 생성 방법
Ketui et al. A rule-based method for thai elementary discourse unit segmentation (ted-seg)
Ehsan et al. A Pairwise Document Analysis Approach for Monolingual Plagiarism Detection.
Hammadi et al. Grammatical relation extraction in Arabic language
Raulji et al. Sanskrit-Gujarati constituency mapper for machine translation system
Aslamzai et al. Pashto language stemming algorithm
KR20200073524A (ko) 특허 문서의 키프레이즈 추출 장치 및 방법
Bautista et al. Can Numerical Expressions Be Simpler? Implementation and Demostration of a Numerical Simplification System for Spanish.
Serikov et al. Universal and independent: Multilingual probing framework for exhaustive model interpretation and evaluation
KR100481579B1 (ko) 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치 및그 방법
Tanaka et al. Acquiring and generalizing causal inference rules from deverbal noun constructions
Prathibha et al. Development of morpholoical analyzer for kannada verbs
Subhash et al. A rule based approach for root word identification in malayalam language
Rahman et al. An implementation of Apertium based Assamese morphological analyzer

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee