KR20040042196A - 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치 및그 방법 - Google Patents

정보추출을 위한 이벤트 문장의 단문 구조 분석 장치 및그 방법 Download PDF

Info

Publication number
KR20040042196A
KR20040042196A KR1020020070367A KR20020070367A KR20040042196A KR 20040042196 A KR20040042196 A KR 20040042196A KR 1020020070367 A KR1020020070367 A KR 1020020070367A KR 20020070367 A KR20020070367 A KR 20020070367A KR 20040042196 A KR20040042196 A KR 20040042196A
Authority
KR
South Korea
Prior art keywords
sentence
information
short
range
essential
Prior art date
Application number
KR1020020070367A
Other languages
English (en)
Other versions
KR100481579B1 (ko
Inventor
임수종
임명은
윤보현
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2002-0070367A priority Critical patent/KR100481579B1/ko
Publication of KR20040042196A publication Critical patent/KR20040042196A/ko
Application granted granted Critical
Publication of KR100481579B1 publication Critical patent/KR100481579B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치 및 그 방법에 관한 것이다.
본 발명은 단문 범위 인식부(10)가 입력된 복잡한 이벤트 문장을 단문 분할을 위한 문장 형태 정보를 이용하거나 용언을 중심으로 관형절을 고려하여 단문의 범위를 인식하면, 필수 성분 생성부(20)가 범위가 인식된 단문에 대해 하위범주 정보와 개체명 공기 정보를 이용하여 필수 성분을 생성한 다음, 필수 성분 확장부(30)가 생성된 필수 성분을 복합 명사 사전과 개체명 정보를 인식하고 확장하여 최종적으로 단문 구조 분석된 문장을 얻도록 되어 있으며,
이에 따라서, 길고 복잡한 이벤트 문장에 대해서 용언을 중심으로 단문 분할하고 분할된 문장의 구조를 분석하여 정보를 추출하는데 있어서 중요한 정보를 좀더 정확하게 제공하여 정보 추출 시스템의 전체적인 성능을 향상시킬 수 있다.

Description

정보추출을 위한 이벤트 문장의 단문 구조 분석 장치 및 그 방법 { Apparatus for shallow parsing event sentence for information extraction and method thereof }
본 발명은 자연어로 작성된 문서 집합에서 원하는 정보를 선택하여 구조화된 표현으로 생성하는 정보 추출 시스템(Information extraction system)에 관한 것이며, 보다 상세히는 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치 및 그 방법에 관한 것이다.
일반적으로 정보 추출 시스템에서 자연어로 작성된 문서 집합에서 원하는 정보를 선택하여 구조화된 표현으로 생성하는 정보 추출 작업을 수행할 때에는 문서에서 정보 추출의 대상이 되는 인명, 조직명, 장소, 시간 등의 개체명이 포함된 문장을 이벤트 문장의 구조를 분석하여 최종적으로 유용한 정보를 추출한다.
그러나, 자연어 문장의 특성상 이러한 이벤트 문장들은 한 개 이상의 동사를 포함하는 복문의 형태로 되어 있고, 그 문장 안에 정보 추출 대상이 되지 않는 부분을 포함하고 있기 때문에 복문을 단문으로 분할하여 구조를 분석해야 할 필요성이 제기된다.
실제로, 복문 형태의 이벤트 문장에 대한 단문 구조 분석 시 한 문장에 중심어인 용언이 복수개인 경우, 예컨대 "사고 항공기는 이날 오전 9시 37분 베이징을 출발해 오전 11시 35분경 김해공항에 도착할 예정이었다."라는 문장에 대하여 용언을 중심으로 (항공기는, 출발하다), (베이징을, 출발하다), (김해공항에, 도착하다)와 같이 문장을 나누어 용언의 필수 정보에 해당하는 명사 상당어구를 인식하며, 이러한 단문 구조 분석은 부분적인 자연어 문장에 대한 이해로 응용이 가능한 문서 요약, 질의응답, 정보 추출 분야의 기본 기술이다.
상기와 같은 종래의 단문 구조 분석 기술은 한국어의 구문 특성 및 의미 정보를 이용하는 방법과 통계정보를 이용한 방법으로 나눌 수 있다.
상기 구문 특성 및 의미 정보를 이용하는 방법은 정확성은 높으나 모든 한국어에 대해 의미 정보를 구축하는 것이 불가능하기 때문에 의미 정보를 구축하지 못 하는 한국어 문장은 단문 구조 분석을 할 수 없는 문제점이 있고, 특히 이벤트 문장의 경우는 인명, 지명 등의 신조어를 중심으로 구성되기 때문에 단문 구조를 분석할 수 있는 문장의 수가 현저히 줄어든다.
상기 통계정보를 이용하는 방법은 미리 수집된 대규모의 한국어 용례를 자동으로 통계정보로 바꾸기 때문에 정보 구축비용이 상대적으로 저렴하지만, 수동으로 구축된 의미 정보에 비해 정확성이 떨어지고 정보 추출용 이벤트 문장의 특성을 고려하지 않고 통계 정보만을 사용하기 때문에 자료 희귀성 문제가 발생한다.
따라서, 본 발명은 상술한 종래의 문제점을 극복하기 위한 것으로서, 본 발명의 목적은 하위범주 정보와 통계 정보를 복합적으로 사용하고 개체명 공기 정보를 이용하여 일반적인 한국어 특성을 고려한 분석 규칙과 정보 추출의 대상이 되는 복잡한 이벤트 문장을 정보 추출이 용이하도록 단문으로 분할한 후 분할된 단문의문장 구조를 분석하도록 된 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치 및 그 방법을 제공하는데 있다.
상기 본 발명의 목적을 달성하기 위한 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치는, 입력된 복잡한 이벤트 문장을 단문 분할을 위한 문장 형태 정보를 이용하거나 용언을 중심으로 관형절을 고려하여 단문의 범위를 인식하는 단문 범위 인식부와; 범위가 인식된 단문에 대해 하위범주 정보와 개체명 공기 정보를 이용하여 필수 성분을 생성하는 필수 성분 생성부; 생성된 필수 성분을 복합 명사 사전과 개체명 정보를 인식하고 확장하여 최종적으로 단문 구조 분석된 문장을 얻는 필수 성분 확장부로 구성된다.
상기 본 발명의 목적을 달성하기 위한 정보추출을 위한 이벤트 문장의 단문 구조 분석 방법은, 입력된 복잡한 이벤트 문장을 단문 분할을 위한 문장 정보를 이용하거나 용언을 중심으로 단문의 범위를 인식하는 단계와; 범위가 인식된 단문에 대해 하위범주 정보와 개체명 공기 정보를 이용하여 필수 성분을 생성하는 단계; 및 생성된 필수 성분을 복합 명사 사전과 개체명 정보를 인식하여 확장을 하는 단계로 이루어진다.
도 1은 본 발명에 따른 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치를 도시한 구성도,
도 2는 본 발명에 따른 정보추출을 위한 이벤트 문장의 단문 구조 분석 방법을 도시한 흐름도,
도 3은 본 발명에 따른 단문 범위 인식 방법을 도시한 흐름도,
도 4는 본 발명에 따른 필수 성분 생성 방법을 도시한 흐름도,
도 5는 본 발명에 따른 필수 성분 확장 방법을 도시한 흐름도이다.
<도면의 주요부분에 대한 부호의 설명>
10: 단문 범위 인식부
20: 필수성분 생성부
30: 필수성분 확장부
이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로한다.
도 1을 참조하면, 단문 범위 인식부(10)는 입력된 복잡한 이벤트 문장을 단문 분할을 위한 문장 형태 정보를 이용하거나 용언을 중심으로 관형절을 고려하여 단문의 범위를 인식한다.
상기 단문 범위 인식부(10)는 복잡한 이벤트 문장에 대한 품사 태깅과 개체명 인식을 통해서 문장의 기본 정보를 획득한 후에 문장을 단문 단위로 인식하기 위한 단문 분할 규칙을 적용하여 먼저 문장의 형태를 이용하거나 접속 어미를 사용하여 단문의 범위를 인식하고, 문장의 형태를 이용하거나 접속 어미를 사용할 수 없는 경우 한국어의 관형절 특징을 고려하여 용언을 중심으로 왼쪽과 오른쪽에 있는 필수 성분 후보를 중심으로 단문의 범위를 인식한다.
필수 성분 생성부(20)는 범위가 인식된 단문에 대해 하위범주 정보와 개체명 공기 정보를 이용하여 필수 성분을 생성한다.
상기 필수성분 생성부(20)는 단문 범위가 인식된 단문에 대해 먼저 필수 성분의 후보를 추출하여 후보가 한 개인 경우 필수 성분으로 채택하고 여러 개가 있을 경우에는 하위 범주정보를 먼저 적용하여 필수 성분을 생성하고 하위범주가 존재하지 않을 경우에는 개체명을 고려한 공기 정보를 사용하여 필수 성분을 생성한다.
필수 성분 확장부(30)는 생성된 필수 성분을 복합 명사 사전과 개체명 정보를 인식하고 확장하여 최종적으로 단문 구조 분석된 문장을 얻는다.
상기 필수성분 확장부(30)는 필수 성분이 인식된 단문에 대해 필수 성분의 범위를 확장하기 위하여 복합 명사 사전과 비교하고 개체명 정보를 인식하여 인식된 필수 성분의 왼쪽으로 필수 성분을 확장하여 단문의 문장 구조를 분석한다.
상기와 같이 구성되는 본 발명에 따른 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치는 도 2 내지 도 5에 도시된 방법에 의해 다음과 같이 작동한다.
도 2를 참조하면, 복잡한 이벤트 문장이 상기 단문 범위 인식부(10)로 입력되면 단문 범위 인식부(10)는 복잡한 이벤트 문장에 대한 품사 태깅, 즉 형태소 분석과 개체명 인식 과정을 거친 후 단문 분할을 위한 문장 정보와 용언을 중심으로 단문의 범위를 인식하게 된다(S100).
이때, 상기 단문 범위 인식부(10)는 도 3에 도시된 바와 같이, 사용자가 이벤트 문장이라고 판단되는 문장을 입력하면(S101), 입력된 문장에 대한 품사 태깅(S102)과 개체명 인식(S103)을 거쳐서 문장에 대한 기본 정보를 얻게 된다.
또한, 상기 단문 범위 인식부(10)는 품사 태깅(S102)과 개체명 인식(S103) 단계를 거친 문장에 대하여 단문 분할을 위한 아래와 같은 문장 형태 정보나 접속 어미를 이용하는 단문 분할 규칙을 사용하여 일차적으로 단문의 범위를 인식하고 분할한다.
즉, "김성진 청와대 부대변인이 김대중 대통령과 알렉산더 크바스니예프스키 폴란드 대통령이 오는 4일 정상회담을 갖는다고 1일 발표했다."라는 이벤트 문장에대하여
"-김성진 청와대 부대변인이 1일 발표했다.
-김대중 대통령과 알렉산더 크바스니예프스키 폴란드 대통령이 오는 4일 정상회담을 갖는다."
와 같은 문장 형태 정보를 이용하여 일차적으로 단문의 범위를 인식하거나, "고, 으며, 며, 으면서, 면서, 고서, 은데, ㄴ데, 던데, 는데, 거니와, 으나, 나, 으나마, 나마, 어도, 지만, 으되, 되, 건만, 느니, 거나, 든지"와 같은 접속 어미를 이용하여 일차적으로 단문의 범위를 인식한다.
또한, 상기와 같은 문장 형태 정보나 접속 어미를 사용하여 단문 범위가 인식되지 않는 경우, 상기 단문 범위 인식부(10)는 문장의 용언을 인식하고(S105) 용언을 기준으로 하여 단문의 범위를 인식하여 분할한다(S106).
그러나, 한국어의 구조적 특징에 의해 관형형 어미(-는, -은, -을, -ㄹ, -ㄴ, -던)가 부착된 용언의 경우에는 오른쪽에 필수 성분이 존재하여 오른쪽에 출현하는 용언과 필수 성분을 공유하지만 관형절의 종류에 따라 단문 분할을 확장해야 할 경우와 아닌 경우로 나뉜다.
예컨대, 관형절의 종류를 보면
1) 필수 성분 중 하나가 탈락되어 용언의 오른쪽에 존재하는 관계 관형절
2) 관형형 어미가 부착되었음에도 불구하고 용언의 오른쪽에 필수성분이 모두 존재하면서 사실, 소식, 보도, 사건, 냄새, 소문, 결심 등의 보문명사의 수식을 받는 동격 관형절
3) 동격 관형절과 마찬가지로 용언의 오른쪽에 필수성분이 모두 존재하면서 용언의 오른쪽에는 의존명사가 존재하는 의존 관형절
로 구분하여, 단문 분할의 범위를 확대할 필요가 없는 동격/의존 관형절이 아닌 경우는 관계 관형절로 간주하고 단문의 범위를 확장한다.
예컨대, "225명의 승객과 승무원을 태우고 대만을 떠나 홍콩으로 가던 대만의 중화항공 여객기가 25일 오후 대만해협에 추락했다."라는 이벤트 문장에 대하여 상기 단문 범위 인식부(10)는 '태우다', '떠나다', '가다', '추락하다'라는 4개의 용언을 중심으로 왼쪽에 있는 어절로 다음과 같이 단문의 범위를 인식하여 분할한다.
1-1. 225명의 승객과 승원을 태우고
1-2. 대만을 떠나
1-3. 홍콩으로 가던 대만의 중화항공 여객기가
1-4. 대만의 중화항공 여객기가 25일 오후 대만해협에 추락했다.
여기서, 상기 '가던'은 용언에 부착된 관형형 어미에 의해 관형절로 판명되고 보문명사나 의존명사가 오른쪽 어절에 존재하지 않기 때문에 관계 관형절로 간주하여 상기 1-3과 같이 오른쪽 어절에서 격조사가 나오는 부분까지를 '가다'라는 용언의 단문 범위로 설정한다.
상기와 같이 입력 이벤트 문장에 대하여 단문의 범위가 인식되고 나면 상기 필수 성분 생성부(20)가 범위가 인식된 단문에 대한 용언의 필수 성분을 생성하기위해서 용언의 하위범주 정보와 개체명 공기 정보를 이용하여 후보 필수 성분 중에서 적합한 필수 성분을 생성한다(S200).
이때, 상기 필수 성분 생성부(20)는 도 4에 도시된 바와 같이, 복잡한 이벤트 문장에 대하여 문장의 형태나 접속 어미, 용언을 기준으로 범위가 인식되어 분할된 단문을 입력받아(S201) 용언을 중심으로 해당 범위 내에 있는 필수 성분의 후보를 인식한다(S202). 참고로, 본 발명에 따른 실시예에서는 필수 성분을 주어, 목적어, 부사어로 한정하였고 필수 성분의 후보 자격을 품사적으로 일반 명사, 의존명사, 대명사, 수사에 조사가 결합된 어절로 한정하였다.
이어서, 상기 필수 성분 생성부(20)는 인식된 필수 성분의 후보가 하나인 경우 이 후보를 필수 성분으로 생성하고, 둘 이상인 경우는 하위범주 정보와 개체명 공기 정보를 이용하여 필수 성분을 결정한다(S203,S204).
이때, 상기 필수 성분 생성부(20)는 각 용언에 해당하는 하위범주 정보를 얻기 위해 약 1만여개의 동사만을 대상으로 대표 조사 정보를 이용하여 ETRI에서 구축한 하위범주 사전을 이용하며, 하나의 용언에 대해서 여러 가지 형태의 조사 정보가 존재하고 또 이런 조사가 문장에서 부분적으로 쓰이기 때문에 순서나 개수를 제한적으로 적용하지 않고 부분적으로 존재여부만을 사용한다.
예컨대, 동사 '태우다'에 대하여 ETRI에서 구축한 하위범주 사전에는 4개의 하위범주 정보가 있지만 조사 정보를 제한시키면 '-이 -을 -에 태우다'와 같은 한가지 형태로 축소시킬 수 있으며, 상기 필수 성분 생성부(20)는 이렇게 축소된 정보를 이용하여 조사 정보에 맞는 후보만을 대상으로 필수 성분을 결정한다.
그러나, 한국어의 경우는 명사에 용언화 접미사가 부착된 형태의 용언이 많기 때문에 모든 용언의 하위범주 정보를 구축한다는 것은 불가능에 가깝다. 따라서 이러한 하위범주 정보의 단점을 보완하기 위해서 상기 필수 성분 생성부(20)는 통계정보인 공기 정보를 사용한다.
본 발명에 따른 실시예에서는 말뭉치에서 자주 나타나는 표현이 실제로 유효하다는 사실을 기반으로 하여 공기정보는 하위범주 사전에 등록되지 않아 조사 정보를 얻을 수 없는 경우에 한하여 구축된 공기정보를 적용하기 위하여 (명사, 조사, 용언)의 정보를 수집하였고 수집 방법은 상기한 단문 분할 규칙을 적용하여 단문 분할 후 용언의 왼쪽 어절이 명사+조사의 형태인 경우 수집하였다.
또한, 공기정보 수집의 목적이 하위범주 사전에 등록되지 않은 저빈도 용언이나 명사 파생 동사에 대한 정보를 수집하는 것이지만 이러한 종류의 용언에 대해서 (명사, 조사, 용언)의 정보만을 수집할 경우 자료 희귀성(data sparseness) 문제가 발생하여 신뢰성 높은 정보를 구축하기 어렵기 때문에 상대적으로 빈번하게 발생하는 (조사, 용언) 쌍을 수집하여 보조적으로 사용하였고, 단문 분할의 대상 문장이 인명, 조직명, 장소, 시간 등의 개체명이 존재하는 이벤트 문장이기 때문에 (명사, 조사, 용언)의 정보를 수정하여 개체명으로 인식된 명사는 해당 개체명의 범주를 사용하였다.
실제로, 공기 정보를 이용하여 대상 (명사, 조사, 용언)에 대한 공기값(Co(v, n, p))은 다음의 수학식 1을 이용하여 구하고, 조사가 생략된 경우의 공기값(Co(v, n))은 수학식 2를 이용하여 구한다.
상기 수학식에 있어서,n은 명사,p는 조사,v는 동사를 의미하며,d는 거리를 의미하는데 상기 수학식에서 거리란 1어절을 단위로 하며 동사를 기준으로 하여 좌우거리 1어절에 대하여 가중치 값을 부여하여 계산한다. λ1, λ2는 상수 값으로 (명사, 조사, 동사)의 공기값과 (조사, 동사) 공기값 중에서 어떤 값에 가중치를 줄 것인지를 결정한다. , , 는 각각 명사, 조사, 동사들의 빈도에 기반한 조건부 확률(conditional probability) 값을 나타낸다.
예컨대, 상기한 1-1 내지 1-4와 같이 인식되어 분할된 단문의 범위에 대하여 상기 필수 성분 생성부(20)는 다음과 같은 필수 성분을 생성한다.
2-1. (승무원을, 태우다)
2-2. (대만을, 떠나다)
2-3. (홍콩으로, 가다), (여객기가, 가다)
2-4. (여객기가, 추락하다), (대만해협에, 추락하다)
여기서, 상기 필수 성분 생성부(20)는 단문의 범위 안에서 각각의 용언에 대한 하위범주 정보에서 조사 정보를 획득하게 되는데, 일예로 용언 '태우다'는 '-이 -을 -에 태우다'와 같은 한가지 형태의 조사 정보를 가지므로 '승무원을'을 필수 성분으로 채택하여 생성하고, 4개의 동사 중에서 명사 파생동사인 '추락하다'는 1만여개의 동사만을 대상으로 하는 ETRI의 하위범주사전의 엔트리로 등록되어 있지 않기 때문에 공기 정보를 사용하여 용언의 왼쪽 어절이 명사+조사의 형태인 '여객기가'와 '대만해협에'를 필수 성분으로 채택하여 생성한다.
상기와 같이 범위가 인식된 단문들의 필수 성분이 생성되고 나면 상기 필수 성분 확장부(30)가 마지막으로 복합명사사전과 개체명 인식 정보를 사용하여 단문 구조 분석 결과를 얻게 된다(S300).
이때, 도 5에 도시된 바와 같이, 상기 필수 성분 확장부(30)가 필수 성분 생성부(20)에 의해 생성된 필수 성분을 입력받으면(S301), 이 필수 성분이 복합명사나 개체명인 경우 조사가 부착된 어절 이외에 확장할 필요가 있으므로 이런 경우에 먼저 필수 성분에서 왼쪽으로 탐색하며 일반명사, 의존명사, 대명사, 수사인 경우는 구로 묶어 이것을 복합명사나 개체명의 후보로 인식한다.
이렇게 확장된 구에 대하여 상기 필수 성분 확장부(30)는 먼저 복합명사사전을 참조하여 복합 명사에 해당되는지를 참조하여 복합명사사전에 등록된 경우 복합명사로 확장을 한다(S302). 그렇지 않은 경우는 상기 단문 범위 인식부(10)에 의해 인식된 개체명 정보를 이용하여 확장 여부를 판단하여(S303), 이상의 과정을 거쳐서 최종적으로 복잡한 이벤트 문장을 단문으로 분할하고 용언을 중심으로 하여 단문의 구조 분석 결과를 얻어 정보 추출 시스템의 데이터베이스에 저장한다(S304).
예컨대, 상기한 2-1 내지 2-4와 같이 필수 성분이 생성된 경우 상기 필수 성분 확장부(30)는 필수 성분을 복합 명사 사전과 개체명 정보를 인식하고 확장하여 다음과 같이 최종적으로 단문 구조 분석된 문장을 얻는다.
3-1. (225명의 승객과 승무원을, 태우다)
3-2. (대만을, 떠나다)
3-3. (홍콩으로, 가다), (대만의 중화항공 여객기가, 가다)
3-4. (대만의 중화항공 여객기가, 추락하다), (대만해협에, 추락하다)
여기서, 3-1의 '225명의 승객과'와 3-3과 3-4의 '대만의 중화항공'로 표현된 내용은 필수 성분인 '승무원을'과 '여객기가'에서 왼쪽으로 탐색한 수사, 일반명사가 묶여 확장된 구이다.
상술한 바와 같이 본 발명에 따른 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치 및 그 방법은 하위범주 정보와 통계 정보를 복합적으로 사용하고 객체명 공기 정보를 이용하여 일반적인 한국어 특성을 고려한 분석 규칙과 정보 추출의 대상이 되는 복잡한 이벤트 문장을 정보 추출이 용이하도록 단문으로 분할한 후 분할된 단문의 문장 구조를 분석하도록 되어 있기 때문에, 정보 추출 시에 한국어의 복문을 하나의 단위로 처리하여 정보 추출의 방해가 되는 부분을 줄이고 정보 추출 시스템의 단문 구조 분석 성능을 향상시키는 효과가 있다.
이상에서 설명한 것은 본 발명에 따른 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치 및 그 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.

Claims (8)

  1. 입력된 복잡한 이벤트 문장을 단문 분할을 위한 문장 형태 정보를 이용하거나 용언을 중심으로 관형절을 고려하여 단문의 범위를 인식하는 단문 범위 인식부와;
    범위가 인식된 단문에 대해 하위범주 정보와 개체명 공기 정보를 이용하여 필수 성분을 생성하는 필수 성분 생성부; 및
    생성된 필수 성분을 복합 명사 사전과 개체명 정보를 인식하고 확장하여 최종적으로 단문 구조 분석된 문장을 얻는 필수 성분 확장부
    로 구성되는 것을 특징으로 하는 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치.
  2. 제 1 항에 있어서, 상기 단문 범위 인식부는
    복잡한 이벤트 문장에 대한 품사 태깅과 개체명 인식을 통해서 문장의 기본 정보를 획득한 후에 문장을 단문 단위로 인식하기 위해 먼저 문장의 형태를 이용하거나 접속 어미를 사용하여 단문의 범위를 인식하고, 문장의 형태를 이용하거나 접속 어미를 사용할 수 없는 경우 한국어의 관형절 특징을 고려하여 용언을 중심으로 왼쪽과 오른쪽에 있는 필수 성분 후보를 중심으로 단문의 범위를 인식하는 것을 특징으로 하는 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치.
  3. 제 1 항에 있어서, 상기 필수 성분 생성부는
    단문 범위가 인식된 단문에 대해 먼저 필수 성분의 후보를 추출하여 후보가 한 개인 경우 필수 성분으로 채택하고 여러 개가 있을 경우에는 하위 범주정보를 먼저 적용하여 필수 성분을 생성하고 하위범주가 존재하지 않을 경우에는 개체명을 고려한 공기 정보를 사용하여 필수 성분을 생성하는 것을 특징으로 하는 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치.
  4. 제 1 항에 있어서, 상기 필수성분 확장부는
    필수 성분이 인식된 단문에 대해 필수 성분의 범위를 확장하기 위하여 복합 명사 사전과 비교하고 개체명 정보를 인식하여 인식된 필수 성분의 왼쪽으로 필수 성분을 확장하여 단문의 문장 구조를 분석하는 것을 특징으로 하는 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치.
  5. 입력된 복잡한 이벤트 문장을 단문 분할을 위한 문장 정보를 이용하거나 용언을 중심으로 단문의 범위를 인식하는 단계와;
    범위가 인식된 단문에 대해 하위범주 정보와 개체명 공기 정보를 이용하여필수 성분을 생성하는 단계; 및
    생성된 필수 성분을 복합 명사 사전과 개체명 정보를 인식하여 확장을 하는단계
    로 이루어지는 것을 특징으로 하는 정보추출을 위한 이벤트 문장의 단문 구조 분석 방법.
  6. 제 5 항에 있어서, 상기 단문 범위 인식 단계에서는
    복잡한 이벤트 문장에 대한 품사 태깅과 개체명 인식을 통해서 문장의 기본 정보를 획득한 후에 문장을 단문 단위로 인식하기 위해 먼저 문장의 형태를 이용하거나 접속 어미를 사용하여 단문의 범위를 인식하고, 문장의 형태를 이용하거나 접속 어미를 사용할 수 없는 경우 한국어의 관형절 특징을 고려하여 용언을 중심으로 왼쪽과 오른쪽에 있는 필수 성분 후보를 중심으로 단문의 범위를 인식하는 것을 특징으로 하는 정보추출을 위한 이벤트 문장의 단문 구조 분석 방법.
  7. 제 5 항에 있어서, 상기 필수 성분 생성 단계에서는
    필수 성분이 인식된 단문에 대해 필수 성분의 범위를 확장하기 위하여 복합 명사 사전과 비교하고 개체명 정보를 인식하여 인식된 필수 성분의 왼쪽으로 필수 성분을 확장하여 단문의 문장 구조를 분석하는 것을 특징으로 하는 정보추출을 위한 이벤트 문장의 단문 구조 분석 방법.
  8. 제 5 항에 있어서, 상기 필수 성분 확장 단계에서는
    필수 성분이 인식된 단문에 대해 필수 성분의 범위를 확장하기 위하여 복합 명사 사전과 비교하고 개체명 정보를 인식하여 인식된 필수 성분의 왼쪽으로 필수 성분을 확장하여 단문의 문장 구조를 분석하는 것을 특징으로 하는 정보추출을 위한 이벤트 문장의 단문 구조 분석 방법.
KR10-2002-0070367A 2002-11-13 2002-11-13 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치 및그 방법 KR100481579B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0070367A KR100481579B1 (ko) 2002-11-13 2002-11-13 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치 및그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0070367A KR100481579B1 (ko) 2002-11-13 2002-11-13 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치 및그 방법

Publications (2)

Publication Number Publication Date
KR20040042196A true KR20040042196A (ko) 2004-05-20
KR100481579B1 KR100481579B1 (ko) 2005-04-08

Family

ID=37339013

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0070367A KR100481579B1 (ko) 2002-11-13 2002-11-13 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치 및그 방법

Country Status (1)

Country Link
KR (1) KR100481579B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100617317B1 (ko) * 2004-12-15 2006-08-30 한국전자통신연구원 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치
KR20170030297A (ko) * 2015-09-09 2017-03-17 삼성전자주식회사 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
KR20180083105A (ko) * 2017-01-12 2018-07-20 엘에스산전 주식회사 프로젝트 화면 작성장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101349970B1 (ko) * 2011-07-05 2014-01-14 네이버 주식회사 문서에서 사건정보를 추출하는 사건정보 추출 시스템 및 방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100617317B1 (ko) * 2004-12-15 2006-08-30 한국전자통신연구원 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치
KR20170030297A (ko) * 2015-09-09 2017-03-17 삼성전자주식회사 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
KR20220103675A (ko) * 2015-09-09 2022-07-22 삼성전자주식회사 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
KR20220150859A (ko) * 2015-09-09 2022-11-11 삼성전자주식회사 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
US11756539B2 (en) 2015-09-09 2023-09-12 Samsung Electronic Co., Ltd. System, apparatus, and method for processing natural language, and non-transitory computer readable recording medium
KR20230151966A (ko) * 2015-09-09 2023-11-02 삼성전자주식회사 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
KR20240040704A (ko) * 2015-09-09 2024-03-28 삼성전자주식회사 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
KR20180083105A (ko) * 2017-01-12 2018-07-20 엘에스산전 주식회사 프로젝트 화면 작성장치

Also Published As

Publication number Publication date
KR100481579B1 (ko) 2005-04-08

Similar Documents

Publication Publication Date Title
Miller et al. A novel use of statistical parsing to extract information from text
Filippova et al. Overcoming the lack of parallel data in sentence compression
Han et al. Chinese named entity recognition with conditional random fields in the light of chinese characteristics
Llidó et al. Extracting temporal references to assign document event-time periods
Elbarougy et al. A proposed natural language processing preprocessing procedures for enhancing arabic text summarization
KR100481579B1 (ko) 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치 및그 방법
Hirpassa Information extraction system for Amharic text
Nguyen et al. A vietnamese question answering system
Jabbar et al. A comparative review of Urdu stemmers: Approaches and challenges
Elsheikh Timeline of the development of Arabic PoS taggers and Morphological analysers
Govilkar et al. Part of speech tagger for Marathi language
KR100975044B1 (ko) 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치 및 방법
Rakhimova et al. Lemmatization of big data in the Kazakh language
Islam et al. A generalized approach to word segmentation using maximum length descending frequency and entropy rate
May et al. Surprise! What's in a Cebuano or Hindi Name?
Rush A Computer Assisted Language Analysis System.
Winiwarter et al. Morphological analysis in integrated natural language interfaces to deductive databases
Loftsson Tagging and parsing Icelandic text
Sithamparanathan et al. A sinhala and tamil extension to generic environment for context-aware correction
Mengliev et al. Building a comprehensive Uzbek lexicon: bridging dialects for text standardization
Hurskainen Information retrieval and two-directional word formation
Sainin et al. Corpus Analysis: A Case Study on Kadazandusun Newspaper Archive
Salama et al. Building a POS-Annotated Corpus For Egyptian Children
Salim Elsheikh et al. TIMELINE OF THE DEVELOPMENT OF ARABIC POS TAGGERS AND MORPHOLOGICALANALYSERS
Hanum et al. Evaluation of Malay grammar on translation of Al-Quran sentences using Earley algorithm

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100323

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee