KR20040032355A - 문서에서 이벤트 문장을 추출하는 장치 및 그 방법 - Google Patents

문서에서 이벤트 문장을 추출하는 장치 및 그 방법 Download PDF

Info

Publication number
KR20040032355A
KR20040032355A KR1020020061459A KR20020061459A KR20040032355A KR 20040032355 A KR20040032355 A KR 20040032355A KR 1020020061459 A KR1020020061459 A KR 1020020061459A KR 20020061459 A KR20020061459 A KR 20020061459A KR 20040032355 A KR20040032355 A KR 20040032355A
Authority
KR
South Korea
Prior art keywords
sentence
document
extracting
event
qualities
Prior art date
Application number
KR1020020061459A
Other languages
English (en)
Other versions
KR100481580B1 (ko
Inventor
임명은
김태현
윤보현
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2002-0061459A priority Critical patent/KR100481580B1/ko
Priority to US10/335,888 priority patent/US20040073548A1/en
Publication of KR20040032355A publication Critical patent/KR20040032355A/ko
Application granted granted Critical
Publication of KR100481580B1 publication Critical patent/KR100481580B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 문서에서 이벤트 문장을 추출하는 장치 및 그 방법에 관한 것이다.
본 발명은 언어처리부(10)에서 입력 문서집합에 대해 형태소 분석 및 개체명 인식을 수행하고, 문서집합 학습부(20)에서 학습용 문서들을 언어처리한 결과를 이용해 동사, 명사 및 명사구 자질을 추출하고 각각에 대한 가중치를 계산함으로써 중요 자질을 선택해 데이터베이스에 저장하며, 이벤트 문장 추출부(30)에서 언어처리부(10)가 추출용 문서를 언어처리한 결과와 문서집합 학습부(20)가 학습한 결과를 비교 분석함으로써 추출용 문서 내의 각 문장에 대한 가중치를 계산하고 추출 조건에 따라 이벤트 문장을 추출하도록 되어 있으며,
이에 따라서, 문서로부터 도메인 의존적인 정보를 함축하고 있는 유용한 자료들을 선별하여 손쉽게 획득할 수 있다.

Description

문서에서 이벤트 문장을 추출하는 장치 및 그 방법 { Apparatus for extracting event sentences in documents and method thereof }
본 발명은 정보 추출 시스템(Information extraction system)에 관한 것이며, 보다 상세히는 특정 도메인과 관련된 문서집합을 이용해 도메인 특정적인 사건의 내용을 포함하고 있는 이벤트 문장을 추출하도록 된 문서에서 이벤트 문장을 추출하는 장치 및 그 방법에 관한 것이다.
일반적으로, 문서에 대한 정보 추출 시스템은 정보추출을 위해 대상 도메인을 한정한 상태에서 패턴형태의 도메인 의존적인 정보를 구축하고 이를 이용해 텍스트의 특정 부분을 추출하는 방식을 사용하며, 이러한 방식은 다시 크게 두 가지 방식으로 나누어 볼 수 있다.
첫째는 텍스트에서 개체(entity)명들을 인식하고, 템플릿 성분(element), 템플릿 관계(relationship), 시나리오 템플릿을 점차로 구성하면서 추출하고자 하는 정보를 획득하는 방식이고, 둘째는 우선 텍스트에서 중요 부분을 추출한 후에 이를 대상으로 수동으로 만들어진 패턴과의 비교를 수행해 원하는 정보를 찾아내는 방식이다.
그러나, 상기한 바와 같은 첫 번째 정보 추출 방식의 경우 각 단계에서 이용하는 도메인 정보 구축을 위해 우선 해당 도메인에서 중요시되는 정보들을 찾아내야 한다는 문제가 있고, 두 번째 정보 추출 방식의 경우는 텍스트에서 중요 부분을 추출하는 문제를 단순히 어휘정보에만 의존해 해결하고 있기 때문에 실질적인 정보추출 대상들을 효과적으로 추출해내지 못하는 단점이 있다.
따라서, 본 발명은 상술한 종래의 문제점을 극복하기 위한 것으로서, 본 발명의 목적은 다양한 자질들을 이용해 도메인 별로 특정한 주제와 관련이 있는 문서집합을 자동으로 학습하고, 학습된 정보를 이용해 특정 도메인에서 다루어지는 특정한 주제와 관련한 이벤트의 구체적인 내용들인 이벤트의 주체, 객체, 발생 일시 및 장소 등에 관한 정보를 포함하고 있는 이벤트 문장을 추출함으로써 문서로부터 도메인 의존적인 정보를 함축하고 있는 유용한 자료들을 선별하여 손쉽게 획득할 수 있도록 된 문서에서 이벤트 문장을 추출하는 장치 및 그 방법을 제공하는데 있다.
상기 본 발명의 목적을 달성하기 위한 문서에서 이벤트 문장을 추출하는 장치는, 도메인 별로 특정한 주제와 관련이 있는 학습용 입력 문서집합에 대해 형태소 분석 및 개체명 인식을 수행하는 언어처리부와; 상기 언어처리부에서 학습용 문서들을 언어처리한 결과를 이용해 특정한 자질들을 추출하고 중요 자질들을 선택해데이터베이스에 저장하는 문서집합 학습부; 및 상기 언어처리부에서 추출용 문서를 언어처리한 결과와 상기 문서집합 학습부에서 학습한 결과를 이용해 추출용 문서로부터 이벤트 문장을 추출하는 이벤트 문장 추출부로 구성된다.
상기 본 발명의 목적을 달성하기 위한 문서에서 이벤트 문장을 추출하는 방법은, 도메인 별로 특정한 주제와 관련이 있는 문서집합을 지정하여 입력하는 단계와; 언어처리부가 입력 문서들에 대해 형태소 분석 및 개체명 인식을 수행하는 언어처리 단계; 문서집합 학습부가 상기 언어처리부에서 학습용 문서들을 언어처리한 결과를 이용해 동사, 명사 및 명사구 자질들을 추출하고 중요 자질들을 선택해 데이터베이스에 저장하는 문서집합 학습단계; 및 이벤트 문장 추출부가 상기 언어처리부에서 추출용 문서를 언어처리한 결과와 상기 문서집합 학습부에서 특정 도메인에 대한 문서집합을 학습한 결과를 이용해 추출용 문서로부터 이벤트 문장을 추출하는 이벤트 문장 추출 단계로 이루어진다.
도 1은 본 발명에 따른 문서에서 이벤트 문장을 추출하는 장치를 도시한 구성도,
도 2는 본 발명에 따른 문서에서 이벤트 문장을 추출하는 방법을 도시한 흐름도,
도 3은 문서집합에 대한 언어처리 방법을 도시한 흐름도,
도 4는 특정 문장에 대한 언어처리 결과를 도시한 실시예,
도 5는 문서집합에 대한 학습 방법을 도시한 흐름도,
도 6은 문서집합 학습부에서 자질의 가중치를 계산하는 방법과 특정 도메인을 대상으로 수집된 도메인 정보를 도시한 실시예,
도 7은 문서집합에서 이벤트 문장을 추출하는 방법을 도시한 흐름도,
도 8은 이벤트 문장 추출부에서 문장의 가중치를 계산하고 조건에 따라 문장을 추출하는 방법을 도시한 실시예,
도 9는 특정 문서에 대한 이벤트 문장 추출 결과를 도시한 실시예이다.
<도면의 주요부분에 대한 부호의 설명>
10: 언어처리부 20: 문서집합 학습부
21,22,23: 데이터베이스 30: 이벤트 문장 추출부
이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.
도 1을 참조하면, 언어처리부(10)는 도메인 별로 특정한 주제와 관련이 있는 학습용 입력 문서집합(11)에 대해 형태소 분석 및 개체명 인식을 수행한다.
문서집합 학습부(20)는 상기 언어처리부(10)에서 학습용 문서들(11)을 언어처리한 결과를 이용해 특정한 자질들을 추출하고 중요 자질들을 선택해 데이터베이스에 저장한다.
상기 문서집합 학습부(20)는 언어처리된 문서집합(11)으로부터 동사, 명사 및 명사구 자질을 추출하고 이에 대해 통계 정보인 어휘 출현 빈도, 어휘의 문헌 빈도, 어휘가 나타난 문장 번호 목록을 수집하고, 이를 이용하여 상기 각 자질의 가중치를 계산한 결과에서 상위 가중치를 갖는 자질들을 선택해 데이터베이스(21,22,23)에 저장한다.
이벤트 문장 추출부(30)는 상기 언어처리부(10)에서 추출용 문서(12)를 언어처리한 결과와 상기 문서집합 학습부(20)에서 학습한 결과를 이용해 추출용 문서(12)로부터 이벤트 문장(31)을 추출한다.
상기 이벤트 문장 추출부(30)는 언어처리된 추출용 문서(12)로부터 각 문장에 포함되어 있는 동사, 명사 및 명사구 자질에 대한 정보를 수집하고 이에 대해 상기 문서집합 학습부(20)에서 학습한 각 자질의 정보를 획득한 후, 각 자질의 가중치 및 서로 다른 한 쌍의 자질이 문서집합(11)의 특정한 문장 내에서 동시에 출현한 횟수를 나타내는 공기 정보를 이용해 문장 가중치를 계산하고, 이 문장 가중치와 문장 내 특정 자질의 포함 정도를 이용하여 주어지는 조건에 따라 이벤트 문장(31)을 추출한다.
상기와 같이 구성되는 본 발명에 따른 문서에서 이벤트 문장을 추출하는 장치는 도 2 내지 도 9에 도시된 방법에 의해 다음과 같이 작동한다.
최초에, 상기 언어처리부(10)에 도메인 별로 특정한 주제와 관련이 있는 문서집합(11)이 지정되어 입력되면, 상기 언어처리부(10)는 입력 문서들(11)에 대해 형태소 분석 및 개체명 인식을 수행하여 언어처리를 한다(S100).
이때, 상기 언어처리부(10)는 도 3에 도시된 바와 같이, 학습 단계에서 사용되는 학습용 문서(11)나 추출 단계의 입력인 추출용 문서(12)를 대상으로 형태소 분석(S101) 및 개체명 인식(S102)을 수행하고, 그 결과를 각각 문서집합 학습부(20)와 이벤트 문장 추출부(30)에 전달한다.
또한, 도 4의 (가)에 나타낸 바와 같은 특정 문장에 대해서 상기 언어처리부(10)가 형태소 분석(S101)을 수행하면 도 4의 (나)와 같이 품사별로 태깅된 형태소 분석 결과를 얻게 되고, 이 결과를 대상으로 다시 개체명 인식(S102)을 수행하면 도 4의 (다)와 같이 개체명에 따라서 태깅된 결과를 얻게 된다.
상기와 같이 언처처리부(10)에 의해 특정 주제와 관련이 있는 학습용 문서집합(11)에 대한 언어처리가 수행되고 나면, 상기 문서집합 학습부(20)는 도 5에 도시된 바와 같이, 언어처리부(10)에서 학습용 문서들(11)을 언어처리한 결과를 이용해 동사, 명사 및 명사구 자질들을 추출하고 중요 자질들을 선택해 데이터베이스(21,22,23)에 저장하여 문서집합(11)에 대한 학습을 수행한다(S200).
이때, 상기 문서집합 학습부(20)는 언어처리부(10)로부터 전달된 언어처리결과 데이터를 대상으로 동사 및 명사 자질을 먼저 추출한 후 그에 대한 통계정보를 획득한 후(S201), 추출한 명사들의 자질 중에서 동일 문장에 인접해 나타난 명사 자질의 쌍을 결합하여 명사구를 생성하고(S202), 상기 동사, 명사 및 명사구 자질을 대상으로 그 통계정보를 이용하여 자질 가중치를 계산한 다음(S203), 각 자질별로 가장 높은 가중치 값을 갖는 자질들을 중요 자질로 선택하여 데이터베이스(21,22,23)에 저장한다(S204). 여기서, 데이터베이스 23에 저장되는 동사 자질은 도메인의 주제를 이끌어 가는 핵심 행위 및 상황을 대표하는 역할을 하고, 데이터베이스 21과 22에 각각 저장되는 명사 자질과 명사구 자질은 도메인 의존적인 정보를 반영하는 역할을 한다.
상기 문서집합 학습부(20)에서는 언어처리 결과에서 '동사(PV)' 및 '명사+동사(NC+XSV)'의 형태로 태깅된 어휘들을 동사 자질로 추출하고, 동사 중에서 '하다', '되다', '다하다' 등과 같이 문장 내에서 보조적으로 사용되어 특별한 의미를 갖지 못하는 동사는 추출대상 자질에서 제외한다.
상기 문서집합 학습부(20)에서는 언어처리 결과에서 명사형으로 사용되는 단어들을 명사 자질로 추출한다. 이때 특성상 변형이 많은 어휘의 경우는 품사정보를 명사 자질로 삼고, 그렇지 않은 경우는 어휘 자체를 명사 자질로 삼는다. 즉, '일반명사(NC)', '인칭명사(PERSON)', '장소(LOCATION)', '조직명(ORGANIZATION)' 등의 품사를 갖는 단어들은 어휘 자체를 명사 자질로 사용하고, '숫자(NN)', '퍼센트(PERCENT)', '일자(DATE)', '시간(TIME)', '금액(MONEY)', '양(QUANTITY)' 등의 품사를 갖는 단어들은 품사정보를 명사 자질로 사용한다. 이는 이벤트에서 중요한 정보인 이벤트 발생 일자나 시간, 수량 등에 대한 정보가 단순히 어휘 빈도가 낮다는 이유로 학습 데이터에서 누락되지 않도록 하기 위함이다.
상기 문서집합 학습부(20)에서는 동일 문장 내에 인접해 나타나는 두 개의 명사 자질들을 결합한 것을 명사구 자질로 사용한다.
특히, 도 6을 참조하면, 상기 문서집합 학습부(20)는 동사 및 명사 자질 추출(S201)과 명사구 생성(S202) 과정을 거쳐 얻어진 각 자질을 대상으로 도 6의 (가)에 나타낸 바와 같은 아래의 수학식1,2를 이용해 동사 및 명사 자질 가중치(wi또는 wj)와 명사구 자질 가중치(wij)를 계산한다(S203).
상기 수학식에 있어서, tf는 각 자질에 대한 출현 빈도를 의미하고, df는 각 자질에 대한 문헌 빈도를 의미하며, D는 문서집합의 문서 개수를 의미한다.
이때, 상기 문서집합 학습부(20)는 동사 및 명사 자질의 경우는 각 자질별로 최대 가중치 값(wmax)을 이용해 정규화된 자질 가중치 값을, 명사구의 경우는 해당명사구를 이루는 두 개의 명사 자질의 가중치 값의 평균값을 각각의 자질 가중치로 삼는다.
또한, 상기 문서집합 학습부(20)는 각 자질별로 계산된 가중치 값에 따라 자질들을 내림차순으로 정렬하고, 이중에서 높은 순위를 가지는 자질들을 선택하여 데이터베이스에 저장한다(S204). 참고로, 도 6의 (나)는 '비행기 사고'라는 특정 도메인을 대상으로 도메인에서 중요하게 사용된 명사 자질, 동사 자질 및 명사구 자질들을 각각 선택한 결과를 나타내고 있으며, 상기 문서집합 학습부(20)의 학습 결과에 의해 도 6의 (나)와 같이 각 자질에 대해 자질의 어휘(term), 가중치(weight), 어휘 출현 빈도(term frequency), 어휘가 출현한 문장 번호 목록(sentence number list)을 얻게 된다.
상기와 같이 문서집합(11)에 대한 학습이 수행되고 나면, 끝으로 상기 이벤트 문장 추출부(30)는 도 7에 도시된 바와 같이, 상기 언어처리부(10)에서 추출용 문서(12)를 언어처리한 결과와 상기 문서집합 학습부(20)에서 특정 도메인에 대한 문서집합(11)을 학습한 결과를 이용해 추출용 문서(12)로부터 이벤트 문장을 추출하는 이벤트 문장 추출 작업을 수행한다(S300).
이때, 상기 이벤트 문장 추출부(30)는 추출용 문서(12)를 언어처리한 결과와 도메인 학습 결과를 이용하여 문장 내에 포함된 자질들을 찾아내고 각 자질에 대한 도메인 학습 정보를 결합하여 문장을 분석하며(S301), 문장 분석 결과를 이용하여 각 문장의 가중치를 계산하고(S302), 계산된 문장 가중치 및 문장 내의 특정 자질포함 정도를 이용하여 이벤트 문장(31)을 추출한다(S303).
상기 이벤트 문장 추출부(30)는 문장 분석 과정(S301)을 통하여 추출용 문서(12)를 언어처리한 결과로부터 동사 자질과 명사 자질을 추출하고, 추출한 명사 자질들 중에서 동일 문장에 인접해 나타난 명사 자질의 쌍을 결합한 결과를 명사구로 생성하여 각 문장별로 포함하고 있는 자질에 대한 정보를 수집하고, 입력 문서집합에서 얻은 각 자질들에 대해 가중치를 계산한 결과로부터 각 자질별로 높은 가중치 값을 갖는 자질들을 선택해 데이터베이스에 저장한 결과를 이용하여 각 자질의 가중치와 자질이 출현한 문장 목록을 얻는다. 또한, 이 과정에서 상기 이벤트 문장 추출부(30)는 언어처리(S100)된 각 문장의 태그정보를 참조해 문장 별로 3W 자질에 해당되는 정보를 얼마나 포함하고 있는지에 대한 정보, 즉 3W 자질 정보를 수집한다. 이때 3W 자질이란, 영어권에서 사용되는 Who, When, Where에 해당되는 개념을 각각 이벤트의 주체 및 객체, 발생일시, 그리고 장소에 해당되는 정보를 식별하기 위해 사용한 것을 말한다.
이는 상기 개체명 인식(S102)의 결과로 얻어진 태그정보를 이용하여 문장 내 단어들 중 '인칭명사(PERSON)' 또는 '조직명(ORGANIZATION)'이라는 태그를 가지는 단어는 Who 자질, '일자(DATE)' 또는 '시간(TIME)'이라는 태그를 가지는 단어는 When 자질, '장소(LOCATION)'이라는 태그를 가지는 단어는 Where 자질에 각각 매칭시켜 얻는다.
상기 이벤트 문장 추출부(30)는 문장 가중치 계산 과정(S302)을 통하여 각 문장 별로 도 8의 (다)에 나타낸 바와 같은 아래의 수학식 3을 이용해 문장 가중치를 계산하며, 각 문장의 가중치가 계산되면 이를 이용해 단일 문서 내에서 문장들을 내림차순으로 정렬한다.
상기 수학식 3에 있어서, Co_vni,j와 Co_vpi,j는 문장 가중치 계산 과정(S302)에서 문장에 포함되어 있는 명사 자질과 명사구 자질을 문장 가중치 계산에 반영하기 위한 값으로서, Co_vni,j는 도 8의 (가)에 나타낸 바와 같은 아래의 수학식 4를 이용해 계산되고 i번째 문장에서 동사 j와 공기하는 명사 자질들에 대한 가중치 합의 평균을 의미하며, Co_vpi,j는 도 8의 (나)에 나타낸 바와 같은 아래의 수학식 5를 이용해 계산되고 i번째 문장에서 동사 j와 공기하는 명사구 자질들에 대한 가중치 합의 평균을 의미한다.
상기 수학식 3 내지 수학식 5에 있어서, Ci,verb와 Ci,noun, Ci,np는 각 문장 i내에 출현한 동사, 명사, 명사구 자질의 수를 나타내고,,은 학습의 결과로 얻은 각 자질의 가중치를 나타내며,은 각각 동사 j와 명사 k의 공기빈도, 동사 j와 명사구 l의 공기빈도를 나타내고, α와 β는 명사와 명사구 자질이 문장 추출에 기여하는 정도에 따라 조정되는 상수값이다.
상기 이벤트 문장 추출부(30)는 문장 가중치 계산시에 문장 내에 포함되어 있는 모든 명사, 명사구, 및 동사 자질에 대한 가중치 값과 이들 자질들이 출현한 문장번호 목록을 사용하며, 상기 학습용 문서집합(11)에서 각 자질들이 출현한 문장번호 목록은 동사 자질과 다른 자질, 즉 동사와 명사, 동사와 명사구 간의 공기정보를 얻기 위해 사용된다. 또한, 상기 명사 및 명사구 자질은 도메인 의존적인 정보를 반영하기 위해 문장 가중치 계산에 사용되고, 상기 동사 자질은 특정 도메인의 주제를 이끌어 가는 핵심 행위 및 상황을 대표하기 위해 문장 가중치 계산에 사용된다.
상기와 같이 각 문장의 가중치가 계산되면 상기 이벤트 문장 추출부(30)는 계산된 문장 가중치를 이용해 단일 문서 내에서 문장들을 내림차순으로 정렬한 후, 문장 추출 과정(S303)을 통하여 문장 단위로 얻어진 3W 자질 정보와 문장 가중치 정보를 조합하여 도 8의 (라)에 나타낸 바와 같은 알고리즘에 따라 이벤트문장(31)을 추출한다.
도 8의 (라)에 나타낸 알고리즘에 따르면 상기 이벤트 문장 추출부(30)는 문장 추출 과정(S303)에서 우선 추출용 문서(12)내의 모든 문장에 대해 When 및 Where 자질을 포함하면서 문장 가중치 Wi가 0이 아닌 문장들을 이벤트 문장으로 추출하고, 다음으로 추출용 문서(12)내에서 추출되지 않고 남은 문장들 중에서 최대 가중치를 갖는 문장을 선택해 이 문장의 가중치 Wi가 θ1보다 크거나, 문서 내에서 추출된 문장의 수가 θ2보다 작으면서 문장 가중치 Wi가 0보다 큰 경우에는 이 문장을 이벤트 문장으로 추출함을 알 수 있다. 참고로, 도 8의 (라)에서 θ1은 문장 가중치의 임계값, θ2는 문장 선택 개수의 임계값을 나타내고, selected는 문서 내에서 이미 선택된 이벤트 문장의 개수를 나타낸다.
실제로, 본 발명에 따른 문서에서 이벤트 문장을 추출하는 장치 및 그 방법에 의하여, '비행기 사고' 도메인과 관련된 특정 문서인 도 9의 (가)에 대해 언어처리(S100)를 수행하면 도 9의 (나)와 같은 문서학습 결과(S200)를 얻게 되고, 도 9의 (나)를 이용해 이벤트 문장 추출(S300)을 수행함으로써 도 9의 (다)와 같은 결과를 얻게 된다.
상술한 바와 같이 본 발명에 따른 문서에서 이벤트 문장을 추출하는 장치 및그 방법은 다양한 자질들을 이용해 도메인 별로 특정한 주제와 관련이 있는 문서집합을 자동으로 학습하고, 학습된 정보를 이용해 특정 도메인에서 다루어지는 특정한 주제와 관련한 이벤트의 구체적인 내용들인 이벤트의 주체, 객체, 발생 일시 및 장소 등에 관한 정보를 포함하고 있는 이벤트 문장을 추출함으로써 문서로부터 도메인 의존적인 정보를 함축하고 있는 유용한 자료들을 선별하여 손쉽게 획득할 수 있도록 되어 있기 때문에, 기본적인 수준의 정보추출 요구를 만족시켜줄 수 있으며, 특히 획득 정보를 정보 추출을 위한 도메인 정보 구축을 위한 기본 자료로 활용할 수 있으므로 도메인 의존적인 정보를 이용해 사용자가 원하는 정보를 추출해주는 정보추출 시스템에서의 도메인 정보 구축에 필요한 노력을 절감할 수 있는 장점이 있다.
이상에서 설명한 것은 본 발명에 따른 문서에서 이벤트 문장을 추출하는 장치 및 그 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.

Claims (11)

  1. 도메인 별로 특정한 주제와 관련이 있는 학습용 입력 문서집합에 대해 형태소 분석 및 개체명 인식을 수행하는 언어처리부와;
    상기 언어처리부에서 학습용 문서들을 언어처리한 결과를 이용해 특정한 자질들을 추출하고 중요 자질들을 선택해 데이터베이스에 저장하는 문서집합 학습부; 및
    상기 언어처리부에서 추출용 문서를 언어처리한 결과와 상기 문서집합 학습부에서 학습한 결과를 이용해 추출용 문서로부터 이벤트 문장을 추출하는 이벤트 문장 추출부
    로 구성되는 것을 특징으로 하는 문서에서 이벤트 문장을 추출하는 장치.
  2. 제 1 항에 있어서, 상기 문서집합 학습부는
    언어처리된 문서집합으로부터 동사, 명사 및 명사구 자질을 추출하고 이에 대해 통계 정보인 어휘 출현 빈도, 어휘의 문헌 빈도, 어휘가 나타난 문장 번호 목록을 수집하고, 이를 이용하여 상기 각 자질의 가중치를 계산한 결과에서 상위 가중치를 갖는 자질들을 선택해 데이터베이스에 저장하는 것을 특징으로 하는 문서에서 이벤트 문장을 추출하는 장치.
  3. 제 1 항에 있어서, 상기 이벤트 문장 추출부는
    언어처리된 추출용 문서로부터 각 문장에 포함되어 있는 동사, 명사 및 명사구 자질에 대한 정보를 수집하고 이에 대해 상기 문서집합 학습부에서 학습한 각 자질의 정보를 획득한 후, 각 자질의 가중치 및 서로 다른 한 쌍의 자질이 문서집합의 특정한 문장 내에서 동시에 출현한 횟수를 나타내는 공기 정보를 이용해 문장 가중치를 계산하고, 이 문장 가중치와 문장 내 특정 자질의 포함 정도를 이용하여 주어지는 조건에 따라 이벤트 문장을 추출하는 것을 특징으로 하는 문서에서 이벤트 문장을 추출하는 장치.
  4. 도메인 별로 특정한 주제와 관련이 있는 문서집합을 지정하여 입력하는 단계와;
    언어처리부가 입력 문서들에 대해 형태소 분석 및 개체명 인식을 수행하는 언어처리 단계;
    문서집합 학습부가 상기 언어처리부에서 학습용 문서들을 언어처리한 결과를 이용해 동사, 명사 및 명사구 자질들을 추출하고 중요 자질들을 선택해 데이터베이스에 저장하는 문서집합 학습단계; 및
    이벤트 문장 추출부가 상기 언어처리부에서 추출용 문서를 언어처리한 결과와 상기 문서집합 학습부에서 특정 도메인에 대한 문서집합을 학습한 결과를 이용해 추출용 문서로부터 이벤트 문장을 추출하는 이벤트 문장 추출 단계
    로 이루어지는 것을 특징으로 하는 문서에서 이벤트 문장을 추출하는 방법.
  5. 제 4 항에 있어서, 상기 문서집합 학습단계는
    학습용 문서를 언어처리한 결과로부터 동사 및 명사 자질을 추출하고 그에 대한 통계정보를 획득하는 단계와;
    추출된 명사들의 쌍을 결합하여 명사구를 생성하는 단계;
    동사, 명사 및 명사구 자질들의 통계정보를 이용해 각각의 가중치를 계산하는 단계; 및
    가중치가 계산된 각 자질들의 집합에서 중요한 자질들을 선택해 데이터 베이스에 저장하는 단계
    로 이루어지는 것을 특징으로 하는 문서에서 이벤트 문장을 추출하는 방법.
  6. 제 5 항에 있어서, 상기 추출된 명사들의 쌍을 결합하여 명사구를 생성하는 단계에서는
    추출한 명사 자질들 중에서 동일 문장에 인접해 나타난 명사 자질의 쌍을 결합한 결과를 명사구로 생성하는 것을 특징으로 하는 문서에서 이벤트 문장을 추출하는 방법.
  7. 제 5 항에 있어서, 상기 가중치가 계산된 각 자질들의 집합에서 중요한 자질들을 선택해 데이터 베이스에 저장하는 단계에서는
    입력 문서집합에서 얻은 각 자질들에 대해 가중치를 계산한 결과 각 자질별로 높은 가중치 값을 갖는 자질들을 선택해 데이터베이스에 저장하는 것을 특징으로 하는 문서에서 이벤트 문장을 추출하는 방법.
  8. 제 4 항에 있어서, 이벤트 문장 추출 단계는
    추출용 문서를 언어처리한 결과로부터 문장 내에 포함된 자질들을 찾아내고 각 자질에 대한 도메인 학습 정보를 결합하는 문장 분석 단계와;
    문장 분석 단계에서 수집한 결과를 이용해 각 문장의 가중치를 계산하는 단계; 및
    계산된 문장 가중치 및 문장 내 특정 자질 포함 정도를 이용해 이벤트 문장을 추출하는 문장 추출 단계
    로 이루어지는 것을 특징으로 하는 문서에서 이벤트 문장을 추출하는 방법.
  9. 제 8항에 있어서, 상기 문장 분석 단계는
    추출용 문서를 언어처리한 결과로부터 동사 자질과 명사 자질을 추출하고,추출한 명사 자질들 중에서 동일 문장에 인접해 나타난 명사 자질의 쌍을 결합한 결과를 명사구로 생성하여 각 문장별로 포함하고 있는 자질에 대한 정보를 수집하고,
    입력 문서집합에서 얻은 각 자질들에 대해 가중치를 계산한 결과 각 자질별로 높은 가중치 값을 갖는 자질들을 선택해 데이터베이스에 저장한 결과를 이용하여 각 자질의 가중치와 자질이 출현한 문장 목록을 얻으며,
    언어처리한 결과로부터 각 문장 별로 3W 자질 대한 정보를 얼마나 포함하고 있는지에 대한 3W 자질 정보를 수집하는 것을 특징으로 하는 문서에서 이벤트 문장을 추출하는 방법.
  10. 제 9 항에 있어서, 상기 문장 가중치 계산 단계는
    각 문장에 대해 수집한 명사, 명사구 및 동사 자질의 가중치 및 공기 정보를 이용해 문장 가중치를 계산하고,
    계산된 문장 가중치를 기준으로 문서 내의 문장들을 내림차순으로 정렬하는 것을 특징으로 하는 문서에서 이벤트 문장을 추출하는 방법.
  11. 제 10 항에 있어서, 상기 문장 추출 단계는
    각 문장에 대해 수집한 3W 자질의 포함 정도에 대한 정보와 계산된 문장 가중치를 이용해 조건에 부합되는 이벤트 문장들을 추출하는 것을 특징으로 하는 문서에서 이벤트 문장을 추출하는 방법.
KR10-2002-0061459A 2002-10-09 2002-10-09 문서에서 이벤트 문장을 추출하는 장치 및 그 방법 KR100481580B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR10-2002-0061459A KR100481580B1 (ko) 2002-10-09 2002-10-09 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
US10/335,888 US20040073548A1 (en) 2002-10-09 2003-01-03 System and method of extracting event sentences from documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0061459A KR100481580B1 (ko) 2002-10-09 2002-10-09 문서에서 이벤트 문장을 추출하는 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20040032355A true KR20040032355A (ko) 2004-04-17
KR100481580B1 KR100481580B1 (ko) 2005-04-08

Family

ID=32064914

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0061459A KR100481580B1 (ko) 2002-10-09 2002-10-09 문서에서 이벤트 문장을 추출하는 장치 및 그 방법

Country Status (2)

Country Link
US (1) US20040073548A1 (ko)
KR (1) KR100481580B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170673A (zh) * 2017-12-26 2018-06-15 北京百度网讯科技有限公司 基于人工智能的信息格调识别方法和装置
KR102596815B1 (ko) * 2023-03-20 2023-11-02 주식회사 중고나라 중고 상품 게시글의 개체명 인식 방법

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348241A (ja) * 2003-05-20 2004-12-09 Hitachi Ltd 情報提供方法、サーバ及びプログラム
US20070067320A1 (en) * 2005-09-20 2007-03-22 International Business Machines Corporation Detecting relationships in unstructured text
US8417513B2 (en) * 2008-06-06 2013-04-09 Radiant Logic Inc. Representation of objects and relationships in databases, directories, web services, and applications as sentences as a method to represent context in structured data
US8984398B2 (en) * 2008-08-28 2015-03-17 Yahoo! Inc. Generation of search result abstracts
US8510249B2 (en) * 2008-10-10 2013-08-13 Nec Corporation Determining whether text information corresponds to target information
KR101095866B1 (ko) * 2008-12-10 2011-12-21 한국전자통신연구원 웹 기반의 정보 저장 및 검색 방법, 이를 위한 정보 관리 시스템
JP4701292B2 (ja) * 2009-01-05 2011-06-15 インターナショナル・ビジネス・マシーンズ・コーポレーション テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
KR101173561B1 (ko) * 2010-10-25 2012-08-13 한국전자통신연구원 질문 형태 및 도메인 인식 장치 및 그 방법
CN103699689B (zh) 2014-01-09 2017-02-15 百度在线网络技术(北京)有限公司 事件知识库的构建方法及装置
CN104573006A (zh) * 2015-01-08 2015-04-29 南通大学 一种公共卫生突发事件领域知识库的构建方法
CN105138631B (zh) * 2015-08-20 2019-10-11 小米科技有限责任公司 知识库的构建方法及装置
US11157920B2 (en) * 2015-11-10 2021-10-26 International Business Machines Corporation Techniques for instance-specific feature-based cross-document sentiment aggregation
CN108108350B (zh) * 2017-11-29 2021-09-14 北京小米移动软件有限公司 名词识别方法及装置
CN109101538A (zh) * 2018-06-29 2018-12-28 中译语通科技股份有限公司 一种面向中文专利文本的实体抽取方法和系统
CN112287664B (zh) * 2020-12-28 2021-04-06 望海康信(北京)科技股份公司 文本指标数据解析方法、系统及相应设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3040945B2 (ja) * 1995-11-29 2000-05-15 松下電器産業株式会社 文書検索装置
US6473730B1 (en) * 1999-04-12 2002-10-29 The Trustees Of Columbia University In The City Of New York Method and system for topical segmentation, segment significance and segment function
JP3791879B2 (ja) * 1999-07-19 2006-06-28 富士通株式会社 文書要約装置およびその方法
US20040117352A1 (en) * 2000-04-28 2004-06-17 Global Information Research And Technologies Llc System for answering natural language questions
US20020152202A1 (en) * 2000-08-30 2002-10-17 Perro David J. Method and system for retrieving information using natural language queries

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170673A (zh) * 2017-12-26 2018-06-15 北京百度网讯科技有限公司 基于人工智能的信息格调识别方法和装置
CN108170673B (zh) * 2017-12-26 2021-08-24 北京百度网讯科技有限公司 基于人工智能的信息格调识别方法和装置
KR102596815B1 (ko) * 2023-03-20 2023-11-02 주식회사 중고나라 중고 상품 게시글의 개체명 인식 방법

Also Published As

Publication number Publication date
KR100481580B1 (ko) 2005-04-08
US20040073548A1 (en) 2004-04-15

Similar Documents

Publication Publication Date Title
KR100481580B1 (ko) 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
Leacock et al. Using corpus statistics and WordNet relations for sense identification
Bikel et al. An algorithm that learns what's in a name
US7295965B2 (en) Method and apparatus for determining a measure of similarity between natural language sentences
DE60123952T2 (de) Erzeugung von einem einheitlichen aufgabeabhängigen sprachmodell mittels informationsauffindungverfahren
Wilks et al. Sense tagging: Semantic tagging with a lexicon
EP1217533A2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
KR20020072140A (ko) 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법
Etaiwi et al. Statistical Arabic name entity recognition approaches: A survey
CN116227466B (zh) 一种语义不同措辞相似的句子生成方法、装置及设备
Varaprasad et al. Applications and Techniques of Natural Language Processing: An Overview.
CN113743090A (zh) 一种关键词提取方法及装置
RU2538304C1 (ru) Способ автоматизированной семантической классификации текстов на естественном языке
Nama et al. Sentiment analysis of movie reviews: A comparative study between the naive-bayes classifier and a rule-based approach
CN110750967A (zh) 一种发音的标注方法、装置、计算机设备和存储介质
KR20020036059A (ko) 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법
Joshi et al. Word embeddings in low resource Gujarati language
Hirpassa Information extraction system for Amharic text
Leveling et al. On metonymy recognition for geographic IR.
Bani et al. Combining conditional random fields and word embeddings to improve Amazigh part-of-speech Tagging
CN112650838A (zh) 一种基于历史案件大数据的智能问答方法及系统
JP2007286925A (ja) 部分翻訳装置
KR100431190B1 (ko) 주제 적응 품사 태깅 시스템 및 방법
JP3752535B2 (ja) 訳語選択装置、及び翻訳装置
Minn et al. Myanmar word stemming and part-of-speech tagging using rule based approach

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110228

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee