KR20030068856A - 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치및 그 방법 - Google Patents

비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치및 그 방법 Download PDF

Info

Publication number
KR20030068856A
KR20030068856A KR1020020008514A KR20020008514A KR20030068856A KR 20030068856 A KR20030068856 A KR 20030068856A KR 1020020008514 A KR1020020008514 A KR 1020020008514A KR 20020008514 A KR20020008514 A KR 20020008514A KR 20030068856 A KR20030068856 A KR 20030068856A
Authority
KR
South Korea
Prior art keywords
event
template
information
extracting
user
Prior art date
Application number
KR1020020008514A
Other languages
English (en)
Other versions
KR100504632B1 (ko
Inventor
임수종
정의석
윤보현
왕지현
임명은
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2002-0008514A priority Critical patent/KR100504632B1/ko
Publication of KR20030068856A publication Critical patent/KR20030068856A/ko
Application granted granted Critical
Publication of KR100504632B1 publication Critical patent/KR100504632B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)

Abstract

본 발명은 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치 및 그 방법에 관한 것이다.
본 발명은 사용자가 추출정보 명세서부(10)에 추출하고자 하는 정보를 지정하여 입력하면, 이벤트 템플릿 추출부(20)가 입력된 정보추출용 문서(21)에 추출정보 명세부(10)에 지정된 정보가 포함되어 있는가를 판별하여 특정한 논항구조로 된 문장단위의 이벤트 템플릿을 추출하고, 이벤트 템플릿 통합부(30)가 이벤트 템플릿들을 논항구조와 그 내용의 일치 여부에 따라서 서로 통합한 후, 템플릿 추출부(40)가 통합된 이벤트 템플릿들 중에서 사용자가 추출하고자 하는 정보만을 보유한 템플릿을 추출하여 데이터 베이스(41)에 저장하도록 되어 있으며,
이에 따라서, 인터넷이나 회사에서 보유하고 있는 문서의 구조를 알 수 없는 일반 한국어 문서에서 특정 영역의 정보 구축을 최소화하면서 원하는 정보를 용이하게 추출할 수 있으며, 특히 사용자가 접근할 수 있는 정보의 양을 넓히면서 원하는 정보에 접근하는 시간을 줄 일 수 있다.

Description

비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치 및 그 방법 { APPARATUS FOR EXTRACTING INFORMATION DESIRED BY USERS FROM UNSTRUCTURED DOCUMENTS AND METHOD THEREOF }
본 발명은 전자문서에 내포된 정보를 추출하는 장치 및 그 방법에 관한 것이며, 보다 상세히는 이벤트 템플릿을 이용하여 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치 및 그 방법에 관한 것이다.
컴퓨터 사용이 급증하면서 많이 사용되는 종래의 전자문서는 HTML과 같은 문서 구조 태그를 사용하여 작성한 반구조 문서와 문서 구조 태그를 사용하지 않고 작성한 비구조 문서로 구분되며, 특히 상기 반구조 문서의 경우에는 문서 구조 태그 정보를 이용한 특정한 규칙을 사용하여 래퍼(Wrapper)로 문서에 내포된 특정한 정보를 추출하고, 비구조 문서는 자연언어를 분석하여 문서에 내포된 특정한 정보를 추출한다.
그러나, 상기와 같이 래퍼를 사용하거나 자연언어를 분석하여 전자문서에 내포된 특정한 정보를 추출하는 방식은 실제로 문서에 내포된 특정 정보만을 사용하고자 하는 사용자 입장에서 볼 때 특정한 문서와 해당 문서에서 원하는 정보가출현하는 부분을 찾는 것이 매우 번거롭고 시간이 많이 소요되는 문제점이 있다.
예컨대, 사용자가 특정 문서에서 특정 공연의 공연일, 공연장소를 알아내기 위하여 특정 공연명을 키워드로 하여 정보를 검색할 경우, 정보 추출의 결과물이 단답형의 공연일, 공연 장소로 출현하지 않고 공연명이 내포된 문서 전체로 출현하거나 혹은 문서에서 일부분을 하이라이트 하는 방식으로 출현하기 때문에 추출된 정보의 결과물을 사용자가 이용하기 위해서는 소정의 시간을 소비하면서 다시 문서를 읽어야 하는 번거로움이 있으며, 문서의 양이 방대한 경우 이러한 검색 방법은 검색의 정확성이 떨어지는 단점이 있다.
따라서, 본 발명은 상술한 종래의 문제점을 극복하기 위한 것으로서, 본 발명의 목적은 사용자가 정보를 추출하고자 하는 비구조 문서를 수집한 상태에서 "누가", "언제", "어디서", "무엇을", "어떻게"라는 정보를 내포하고 있는 이벤트 템플릿을 이용하여 특정한 정보만을 추출할 수 있도록 된 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치 및 그 방법을 제공하는데 있다.
상기 본 발명의 목적을 달성하기 위한 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치는, 사용자가 추출하고자 하는 정보를 지정하여 입력하는 추출정보 명세부와; 정보추출용 문서가 입력되면 상기 추출정보 명세부에 지정된 정보가 포함되어 있는가를 판별하여 특정한 논항구조로 된 문장단위의 이벤트 템플릿을 추출하는 이벤트 템플릿 추출부; 상기 이벤트 템플릿 추출부에서 생성된 이벤트 템플릿들을 논항구조와 그 내용의 일치 여부에 따라서 서로 통합하는 이벤트 템플릿 통합부; 및 상기 이벤트 템플릿 통합부에서 통합된 이벤트 템플릿들 중에서 사용자가 추출하고자 하는 정보만을 보유한 템플릿을 추출하여 데이터 베이스에 저장하는 템플릿 추출부로 구성된다.
상기 본 발명의 목적을 달성하기 위한 비구조 문서에서 사용자가 요구하는 정보를 추출하는 방법은, 사용자가 추출정보 명세서부에 추출하고자 하는 정보를 지정하여 입력하는 단계와; 이벤트 템플릿 추출부가 입력된 정보추출용 문서에 상기 추출정보 명세부에 지정된 정보가 포함되어 있는가를 판별하여 특정한 논항구조로 된 문장단위의 이벤트 템플릿을 추출하는 단계; 이벤트 템플릿 통합부가 상기 이벤트 템플릿 추출부에서 생성된 이벤트 템플릿들을 논항구조와 그 내용의 일치 여부에 따라서 서로 통합하는 단계; 및 템플릿 추출부가 상기 이벤트 템플릿 통합부에서 통합된 이벤트 템플릿들 중에서 사용자가 추출하고자 하는 정보만을 보유한 템플릿을 추출하여 데이터 베이스에 저장하는 단계로 이루어진다.
도 1은 본 발명에 따른 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치를 도시한 구성도,
도 2는 이벤트 템플릿의 논항구조를 도시한 구성도,
도 3은 본 발명에 따른 비구조 문서에서 사용자가 요구하는 정보를 추출하는 방법을 도시한 흐름도,
도 4는 이벤트 템플릿을 추출하는 방법을 도시한 흐름도,
도 5는 특정한 문서에서 추출된 이벤트 템플릿을 도시한 구성도,
도 6은 이벤트 템플릿을 통합하는 방법을 도시한 흐름도,
도 7은 추출된 이벤트 템플릿을 통합하여 생성한 통합 이벤트 템플릿을 도시한 구성도,
도 8은 템플릿을 추출하는 방법을 도시한 흐름도이다.
<도면의 주요부분에 대한 부호의 설명>
10: 추출정보 명세부 20: 이벤트 템플릿 추출부
30: 이벤트 템플릿 통합부 40: 템플릿 추출부
41: 데이터 베이스 42: 도메인 명사사전
이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.
도 1과 도 2를 참조하면, 추출정보 명세부(10)는 사용자가 추출하고자 하는정보를 지정하여 입력한다.
이벤트 템플릿 추출부(20)는 정보추출용 문서(21)가 입력되면 상기 추출정보 명세부(10)에 지정된 정보가 포함되어 있는가를 판별하여 특정한 논항구조로 된 문장단위의 이벤트 템플릿을 추출한다.
상기 이벤트 템플릿 추출부(20)는 정보 추출 대상을 개체형으로 국한하여 이벤트 템플릿을 추출하며, 특히 특정 도메인에 얽매여 특정 도메인의 패턴을 이용하는 것이 아니라, "누가", "언제", "어디서", "무엇을", "어떻게"라는 정보를 서술하는 문장만을 대상으로 하여 특정한 논항구조로 된 문장단위의 이벤트 템플릿을 추출한다.
상기 이벤트 템플릿 추출부(20)에서 추출하는 이벤트 템플릿의 논항구조의 서술부(PREDICATE name=)는 이벤트를 대변하는 동사(이벤트 동사)와 동사의 의미를 강화하는 일반명사로 되어 "어떻게"라는 의미를 내포한다.
상기 이벤트 템플릿 추출부(20)에서 추출하는 이벤트 템플릿의 논항구조의 논항부는 이벤트 주관자(PERSON 또는 ORGANIZATION) 또는 이벤트 명칭(TITLE)을 대변하는 개체형으로 되어 "누가" 또는 "무엇을"이라는 의미를 내포하는 2개의 가변논항(ARG1 type=, ARG2 type=)과, 이벤트 시간(DATE)과 장소(LOCATION)를 대변하는 시간 개체형과 장소 개체형으로 되어 "언제"와 "어디서"라는 의미를 내포하는 2개의 고정논항(TIME type=,LOCATION type=)으로 구성된다.
상기 이벤트 템플릿 추출부(20)의 개체형 가변논항은 필요에 따라서 추가할수 있으며, "개체형"이란 일반 명사가 아닌 특정한 인명, 조직, 지명 같은 명사를 말한다.
이벤트 템플릿 통합부(30)는 상기 이벤트 템플릿 추출부(20)에서 생성된 이벤트 템플릿들을 논항구조와 그 내용의 일치 여부에 따라서 서로 통합한다.
템플릿 추출부(40)는 상기 이벤트 템플릿 통합부(30)에서 통합된 이벤트 템플릿들 중에서 사용자가 추출하고자 하는 정보만을 보유한 템플릿을 추출하여 데이터 베이스(41)에 저장한다.
상기 템플릿 추출부(40)는 사용자가 추출하고자 하는 분야에 해당하는 명사만을 모아놓은 도메인 명사사전(42)에 있는 내용과 상기 통합 이벤트 템플릿의 서술부(PREDICATE name=)에 있는 동사의 의미를 강화하는 일반명사의 관련 여부를 판별하여 템플릿을 추출하고, 템플릿의 논항부에 있는 논항과 데이터 베이스(41)의 필드와의 매칭 규칙을 미리 정의한 논항-필드 매칭규칙에 따라서 추출된 템플릿을 데이터 베이스(41)에 저장하여 정보 수요자(43)에게 제공한다.
상기와 같이 구성되는 본 발명에 따른 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치는 다음과 같이 작동한다.
도 3 내지 도 8을 참조하면, 최초에 사용자는 상기 추출정보 명세서부(10)에 추출하고자 하는 정보를 지정하여 입력한다(S100).
상기와 같이 추출 정보가 입력된 상태에서, 상기 이벤트 템플릿 추출부(20)로 정보추출용 문서(21)가 입력되면, 상기 이벤트 템플릿 추출부(20)는 입력된 정보추출용 문서(21)에 상기 추출정보 명세부(10)에 지정된 정보가 포함되어 있는가를 판별하여 특정한 논항구조로 된 문장단위의 이벤트 템플릿을 추출한다(S200).
이때, 상기 이벤트 템플릿 추출부(20)는 정보추출용 문서(21)가 입력되면(S201), 제일 먼저 특정한 문서를 선택하여 해당 문서에 포함되어 있는 개체형 논항을 문장단위로 인식하여 이벤트 템플릿의 대상이 되는 문장인가를 판별한 후(S202), 이벤트를 대변하는 이벤트 동사를 인식한다(S203).
예컨대, 한 문장에 2개 이상의 개체형 논항이 포함되어 있고, 그 중 1개 이상의 논항이 인명이나 조직명일 때 해당 문장을 이벤트 템플릿의 대상 문장으로 인식하고, 그렇지 않으면 이벤트 템플릿의 대상 문장이 아니라고 인식한 후 새로운 문장에 대하여 개체형 논항을 인식한다.
또한, 상기 이벤트 동사를 인식한 후에는, 이벤트 동사의 하위 범주 정보를 인식하는 표층 패턴 인식 과정을 거쳐 상기 이벤트 동사의 의미를 강화할 수 있는 일반명사를 선택한 후(S204), 템플릿 필러(Filler)에 의해 상기한 각 단계들을 거쳐서 인식된 논항과 이벤트 동사 및 이벤트 동사의 명사로 된 논항구조를 구비한 문장단위의 이벤트 템플릿을 추출한다(S205,S206).
도 5를 참조하면, 2개 이상의 논항을 갖고, 그 중 1개 이상이 인명이나 조직명인 이벤트 템플릿의 추출 대상 문장이 도 5의 (가)와 같이 선택된 경우, 선택된 문장에 대한 이벤트 템플릿은 도 5의 (나)에 도시된 바와 같은 형태로 추출된다.
상기와 같이 이벤트 템플릿들이 생성되고 나면, 다음으로 상기 이벤트 템플릿 통합부(30)는 상기 이벤트 템플릿 추출부(20)에서 생성된 이벤트 템플릿들을 논항구조와 그 내용의 일치 여부에 따라서 서로 통합한다(S300).
이때, 상기 이벤트 템플릿 통합부(30)는 이벤트 템플릿이 입력되면(S301) 논항구조의 구성과 논항의 개수를 인식한 후, 인식된 논항구조에 "누가", "언제", "어디서", "무엇을", "어떻게"라는 정보가 모두 포함되어 있으면, 해당 이벤트 템플릿을 중복 관계의 후보로 분류하고, 그렇지 않으면 해당 이벤트 템플릿을 보완 관계의 후보로 분류한다(S302).
또한, 논항구조의 인식 및 이벤트 템플릿들간의 상호 관계(예컨대, 중복 관계와 보완 관계)가 분류되면, 다음으로 중복 관계의 후보와 보완 관계의 후보로 분류된 이벤트 템플릿들을 대상으로 논항구조의 내용을 인식하고, 논항구조와 내용이 모두 일치하는가를 판별하여 이벤트 템플릿들의 중복 관계 및 보완 관계 여부를 최종적으로 결정한다(S303).
상기와 같이 이벤트 템플릿들의 중복 관계 및 보완 관계 여부가 최종적으로 결정되고 나면, 상기 이벤트 템플릿 통합부(30)는 보완 관계의 이벤트 템플릿들을 대상으로 논항구조의 논항부에서 서로 중복되는 논항을 판별한 후, 중복되지 않고 서로 다른 논항에 대하여 새롭게 논항을 삽입하여 정보를 보강함으로써 보완 관계가 성립하는 이벤트 템플릿들을 통합하고, 중복 관계의 이벤트 템플릿들을 대상으로 논항구조의 논항부에서 한 쪽의 논항을 삭제함으로써 중복 관계가 성립하는 이벤트 템플릿들을 통합한다(S304). 즉, 상기 이벤트 템플릿 통합부(30)는 중복 관계와 보완 관계가 성립하는 이벤트 템플릿들에 대하여 논항구조의 논항부를 먼저 통합한다.
이어서, 상기 이벤트 템플릿 통합부(30)는 논항구조의 논항부가 서로 통합된 이벤트 템플릿들을 대상으로 서술부의 이벤트 동사가 동일하면 한 쪽의 동사를 삭제하고, 그렇지 않으면 대표되는 동사를 선택하는 한편, 동사의 의미를 강화하기 위한 일반명사는 의미가 상대적으로 협소한 것을 삭제함으로써 최종적으로 통합된 이벤트 템플릿을 생성한다(S305,S306).
도 7을 참조하면, 보완 관계가 성립하는 2개의 이벤트 템플릿이 실제로 통합되는 과정은 다음과 같다.
도 7의 (가)에 도시된 이벤트 템플릿의 논항구조는 서술부와 2개의 개체형 가변논항으로 구성되고, 도 7의 (나)에 도시된 이벤트 템플릿의 논항구조는 서술부와 1개의 개체형 가변논항과 2개의 고정논항으로 구성된다.
상기 2개의 이벤트 템플릿은 "누가(예컨대, 이등우)"를 의미하는 1개의 개체형 가변논항만 서로 중복되고, 나머지 각각의 개체형 가변논항과 고정논항은 서로 중복되지 않는다. 또한, 각각의 서술부의 이벤트 동사는 다르고 이벤트 동사의 의미를 강화하기 위한 일반명사는 동일하다.
따라서, 상기 논항 통합(S304) 및 이벤트 동사 통합(S305) 방법에 의해 논항을 새롭게 삽입하여 보강하고 대표 이벤트 동사(예컨대, "공연하다")와 일반명사를 선택하여 2개의 이벤트 템플릿을 통합하면, 도 7의 (다)에 도시된 바와 같은 통합 이벤트 템플릿을 생성할 수 있다.
마지막으로, 상기와 같이 이벤트 템플릿들이 통합되고 나면, 상기 템플릿 추출부(40)는 상기 이벤트 템플릿 통합부(30)에서 통합된 이벤트 템플릿들 중에서 사용자가 추출하고자 하는 정보만을 보유한 템플릿을 추출하여 데이터 베이스(41)에 저장한다(S400).
이때, 상기 템플릿 추출부(40)는 통합된 이벤트 템플릿이 입력되면(S401) 사용자가 추출하고자 하는 분야에 해당하는 명사만을 모아놓은 도메인 명사사전(42)에 있는 내용과 상기 통합 이벤트 템플릿의 서술부에 있는 동사의 의미를 강화하는 일반명사의 관련 여부를 판별하여 템플릿을 추출한다(S402).
상기와 같이 템플릿이 추출되면 템플릿 추출부(40)는 템플릿의 논항부에 있는 논항과 데이터 베이스(41)의 필드와의 매칭 규칙을 미리 정의한 논항-필드 매칭규칙에 따라서 추출된 템플릿을 데이터 베이스(41)에 저장하며(S403), 실제로 상기 데이터 베이스(41)에 저장되는 템플릿은 XML 표현 생성기에 의해 XML 형식으로 저장되고, 이에 따라서 정보 수요자(43)에게는 XML 형식으로 표현된 특정한 정보가 제공된다.
상술한 바와 같이 본 발명에 따른 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치 및 그 방법은 사용자가 정보를 추출하고자 하는 비구조 문서를 수집한 상태에서 "누가", "언제", "어디서", "무엇을", "어떻게"라는 정보를 내포하고 있는 이벤트 템플릿을 이용하여 특정한 정보만을 추출할 수 있도록 되어 있기 때문에, 특정한 도메인의 정보에 구애됨이 없이 인터넷이나 회사에서 보유하고 있는 문서의 구조를 알 수 없는 일반 한국어 문서에서 특정 영역의 정보 구축을 최소화하면서 원하는 정보를 용이하게 추출할 수 있으며, 특히 사용자가 접근할 수 있는 정보의 양을 넓히면서 원하는 정보에 접근하는 시간을 줄 일 수 있는 효과가 있다.
이상에서 설명한 것은 본 발명에 따른 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치 및 그 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.

Claims (7)

  1. 사용자가 추출하고자 하는 정보를 지정하여 입력하는 추출정보 명세부와;
    정보추출용 문서가 입력되면 상기 추출정보 명세부에 지정된 정보가 포함되어 있는가를 판별하여 특정한 논항구조로 된 문장단위의 이벤트 템플릿을 추출하는 이벤트 템플릿 추출부;
    상기 이벤트 템플릿 추출부에서 생성된 이벤트 템플릿들을 논항구조와 그 내용의 일치 여부에 따라서 서로 통합하는 이벤트 템플릿 통합부; 및
    상기 이벤트 템플릿 통합부에서 통합된 이벤트 템플릿들 중에서 사용자가 추출하고자 하는 정보만을 보유한 템플릿을 추출하여 데이터 베이스에 저장하는 템플릿 추출부
    로 구성되는 것을 특징으로 하는 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치.
  2. 제 1 항에 있어서, 상기 이벤트 템플릿 추출부에서 추출하는 이벤트 템플릿의 논항구조는,
    이벤트를 대변하는 동사와 동사의 의미를 강화하는 일반명사로 되어 "어떻게"라는 의미를 내포하는 서술부(PREDICATE name=); 및
    이벤트 주관자(PERSON 또는 ORGANIZATION) 또는 이벤트 명칭(TITLE)을 대변하는 개체형으로 되어 "누가" 또는 "무엇을"이라는 의미를 내포하는 2개의 가변논항(ARG1 type=, ARG2 type=)과, 이벤트 시간(DATE)과 장소(LOCATION)를 대변하는 시간 개체형과 장소 개체형으로 되어 "언제"와 "어디서"라는 의미를 내포하는 2개의 고정논항(TIME type=,LOCATION type=)으로 된 논항부
    로 구성되는 것을 특징으로 하는 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치.
  3. 제 1 항 또는 제 2 항에 있어서, 상기 템플릿 추출부는
    사용자가 추출하고자 하는 분야에 해당하는 명사만을 모아놓은 도메인 명사사전에 있는 내용과 상기 통합 이벤트 템플릿의 서술부에 있는 동사의 의미를 강화하는 일반명사의 관련 여부를 판별하여 템플릿을 추출하고, 템플릿의 논항부에 있는 논항과 데이터 베이스의 필드와의 매칭 규칙을 미리 정의한 논항-필드 매칭규칙에 따라서 추출된 템플릿을 데이터 베이스에 저장하는 것을 특징으로 하는 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치.
  4. 사용자가 추출정보 명세서부에 추출하고자 하는 정보를 지정하여 입력하는 단계와;
    이벤트 템플릿 추출부가 입력된 정보추출용 문서에서 상기 추출정보 명세부에 지정된 정보가 포함되어 있는가를 판별하여 특정한 논항구조로 된 문장단위의 이벤트 템플릿을 추출하는 단계;
    이벤트 템플릿 통합부가 상기 이벤트 템플릿 추출부에서 생성된 이벤트 템플릿들을 논항구조와 그 내용의 일치 여부에 따라서 서로 통합하는 단계; 및
    템플릿 추출부가 상기 이벤트 템플릿 통합부에서 통합된 이벤트 템플릿들 중에서 사용자가 추출하고자 하는 정보만을 보유한 템플릿을 추출하여 데이터 베이스에 저장하는 단계
    로 이루어지는 것을 특징으로 하는 비구조 문서에서 사용자가 요구하는 정보를 추출하는 방법.
  5. 제 4 항에 있어서, 상기 이벤트 템플릿을 추출하는 단계는
    정보추출용 문서가 입력되면 특정한 문서를 선택하여 해당 문서에 포함되어 있는 개체형 논항을 문장단위로 인식하는 단계와;
    논항 인식 결과, 이벤트 템플릿의 대상이 되는 문장이라고 판별되면 이벤트를 대변하는 동사를 인식하는 단계;
    상기 이벤트 동사를 인식한 후, 이벤트 동사의 하위 범주 정보를 인식하는 표층 패턴 인식 과정을 거쳐 상기 이벤트 동사의 의미를 강화할 수 있는 명사를 선택하는 단계; 및
    템플릿 필러에 의해 상기 단계를 거쳐서 인식된 논항과 이벤트 동사 및 이벤트 동사의 명사로 된 논항구조를 구비한 문장단위의 이벤트 템플릿을 추출하는 단계
    로 이루어지는 것을 특징으로 하는 비구조 문서에서 사용자가 요구하는 정보를 추출하는 방법.
  6. 제 4 항에 있어서, 상기 이벤트 템플릿을 통합하는 단계는
    이벤트 템플릿이 입력되면 논항구조의 구성과 논항의 개수를 인식한 후, 해당 이벤트 템플릿을 중복 관계의 후보와 보완 관계의 후보로 분류하는 단계와;
    중복 관계의 후보와 보완 관계의 후보로 분류된 이벤트 템플릿들을 대상으로 논항구조의 내용을 인식하여 이벤트 템플릿들의 중복 관계 및 보완 관계 여부를 결정하는 단계;
    보완 관계의 이벤트 템플릿들을 대상으로 논항구조의 논항부에서 서로 중복되는 논항을 판별하여 보완 관계의 이벤트 템플릿을 통합하고, 중복 관계의 이벤트 템플릿들을 대상으로 논항구조의 논항부에서 한 쪽의 논항을 삭제하여 중복 관계의 이벤트 템플릿을 통합하는 단계; 및
    논항구조의 논항부가 서로 통합된 이벤트 템플릿들을 대상으로 서술부의 이벤트 동사의 일치 여부에 따라서 특정한 동사를 선택하고, 해당 동사의 의미를 강화하기 위한 일반명사를 선택하여 최종적으로 통합된 이벤트 템플릿을 생성하는 단계
    로 이루어지는 것을 특징으로 하는 비구조 문서에서 사용자가 요구하는 정보를 추출하는 방법.
  7. 제 4 항에 있어서, 상기 사용자가 추출하고자 하는 정보만을 보유한 템플릿을 추출하는 단계는
    사용자가 추출하고자 하는 분야에 해당하는 명사만을 모아놓은 도메인 명사사전에 있는 내용과 상기 통합 이벤트 템플릿의 서술부에 있는 동사의 의미를 강화하는 일반명사의 관련 여부를 판별하여 템플릿을 추출하는 단계; 및
    템플릿의 논항부에 있는 논항과 데이터 베이스의 필드와의 매칭 규칙을 미리 정의한 논항-필드 매칭규칙에 따라서 추출된 템플릿을 데이터 베이스에 저장하는 단계
    로 이루어지는 것을 특징으로 하는 비구조 문서에서 사용자가 요구하는 정보를 추출하는 방법.
KR10-2002-0008514A 2002-02-18 2002-02-18 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치및 그 방법 KR100504632B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0008514A KR100504632B1 (ko) 2002-02-18 2002-02-18 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0008514A KR100504632B1 (ko) 2002-02-18 2002-02-18 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치및 그 방법

Publications (2)

Publication Number Publication Date
KR20030068856A true KR20030068856A (ko) 2003-08-25
KR100504632B1 KR100504632B1 (ko) 2005-08-03

Family

ID=32221684

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0008514A KR100504632B1 (ko) 2002-02-18 2002-02-18 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치및 그 방법

Country Status (1)

Country Link
KR (1) KR100504632B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101441664B1 (ko) * 2012-11-16 2014-09-29 목원대학교 산학협력단 능동적 데이터 수집을 이용한 범죄지도 서버 및 위험지역 알림 서비스 방법
CN104809105A (zh) * 2015-05-11 2015-07-29 苏州大学 基于最大熵的事件论元及论元角色的识别方法及系统
KR20170048736A (ko) * 2015-10-27 2017-05-10 한국전자통신연구원 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말
CN111222305A (zh) * 2019-12-17 2020-06-02 共道网络科技有限公司 一种信息结构化方法和装置
CN112528625A (zh) * 2020-12-11 2021-03-19 北京百度网讯科技有限公司 事件抽取的方法、装置、计算机设备以及可读存储介质
CN113673210A (zh) * 2020-05-13 2021-11-19 复旦大学 文档生成系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000023961A (ko) * 1999-12-22 2000-05-06 김정태 정보 모델링방법 및 데이터베이스 검색시스템
KR100369436B1 (ko) * 2000-03-31 2003-01-24 (주)루루커뮤니케이션즈 동적 멀티 웹 표시 검색 방법
KR100437695B1 (ko) * 2001-01-20 2004-06-26 우종표 수분산 난연 폴리우레탄 수지 및 그 제조방법
KR100483630B1 (ko) * 2001-09-12 2005-04-18 주식회사 핸디소프트 워크플로우 모니터링을 위한 개인화된 템플릿 생성 시스템및 방법
KR20030030339A (ko) * 2001-10-09 2003-04-18 주식회사 드리머 온라인망을 기반으로 하는 특정 주제별 전문 컨텐츠 관리방법

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101441664B1 (ko) * 2012-11-16 2014-09-29 목원대학교 산학협력단 능동적 데이터 수집을 이용한 범죄지도 서버 및 위험지역 알림 서비스 방법
CN104809105A (zh) * 2015-05-11 2015-07-29 苏州大学 基于最大熵的事件论元及论元角色的识别方法及系统
CN104809105B (zh) * 2015-05-11 2017-12-26 苏州大学 基于最大熵的事件论元及论元角色的识别方法及系统
KR20170048736A (ko) * 2015-10-27 2017-05-10 한국전자통신연구원 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말
CN111222305A (zh) * 2019-12-17 2020-06-02 共道网络科技有限公司 一种信息结构化方法和装置
CN111222305B (zh) * 2019-12-17 2024-03-22 共道网络科技有限公司 一种信息结构化方法和装置
CN113673210A (zh) * 2020-05-13 2021-11-19 复旦大学 文档生成系统
CN113673210B (zh) * 2020-05-13 2023-12-01 复旦大学 文档生成系统
CN112528625A (zh) * 2020-12-11 2021-03-19 北京百度网讯科技有限公司 事件抽取的方法、装置、计算机设备以及可读存储介质
CN112528625B (zh) * 2020-12-11 2024-02-23 北京百度网讯科技有限公司 事件抽取的方法、装置、计算机设备以及可读存储介质

Also Published As

Publication number Publication date
KR100504632B1 (ko) 2005-08-03

Similar Documents

Publication Publication Date Title
Strzalkowski Natural language information retrieval
KR100533810B1 (ko) 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
Srihari et al. Infoxtract: A customizable intermediate level information extraction engine
CN110222045A (zh) 一种数据报表获取方法、装置及计算机设备、存储介质
CN105760462B (zh) 基于关联数据查询的人机交互方法及装置
Mahmood et al. Query based information retrieval and knowledge extraction using Hadith datasets
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
Piskorski et al. An Intelligent Text Extraction and Navigation System.
Sun A natural language interface for querying graph databases
Opitz et al. Induction of a large-scale knowledge graph from the Regesta Imperii
KR100504632B1 (ko) 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치및 그 방법
Fudholi et al. Ontology-based information extraction for knowledge enrichment and validation
Lamparter et al. Knowledge extraction from classification schemas
Litvak et al. Multilingual Text Analysis: Challenges, Models, and Approaches
Mahajani et al. Ranking-based sentence retrieval for text summarization
Haj et al. Automated generation of terminological dictionary from textual business rules
Elleuch et al. Lexical data mining‐based approach for the self‐enrichment of LMF standardized dictionaries: Case of the syntactico‐semantic knowledge
KR101088483B1 (ko) 이종 분류체계들을 매핑시키는 방법 및 장치
Šukys et al. SBVR based natural language interface to ontologies
Vickers Ontology-based free-form query processing for the semantic web
Ganino et al. Ontology population from raw text corpus for open-source intelligence
JPH0782500B2 (ja) 未登録語獲得方式
Utama et al. An Automatic Construction for Class Diagram from Problem Statement using Natural Language Processing
JP7312841B2 (ja) 法律分析装置、及び法律分析方法
JPS63228326A (ja) キ−ワ−ド自動抽出方式

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080701

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee