KR101831058B1 - 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템 - Google Patents

구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템 Download PDF

Info

Publication number
KR101831058B1
KR101831058B1 KR1020160070465A KR20160070465A KR101831058B1 KR 101831058 B1 KR101831058 B1 KR 101831058B1 KR 1020160070465 A KR1020160070465 A KR 1020160070465A KR 20160070465 A KR20160070465 A KR 20160070465A KR 101831058 B1 KR101831058 B1 KR 101831058B1
Authority
KR
South Korea
Prior art keywords
text
argument
predicate
ternary
relation
Prior art date
Application number
KR1020160070465A
Other languages
English (en)
Other versions
KR20170083946A (ko
Inventor
최기선
남상하
함영균
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to EP16885215.0A priority Critical patent/EP3404553A4/en
Priority to PCT/KR2016/010902 priority patent/WO2017122904A1/ko
Publication of KR20170083946A publication Critical patent/KR20170083946A/ko
Application granted granted Critical
Publication of KR101831058B1 publication Critical patent/KR101831058B1/ko

Links

Images

Classifications

    • G06F17/271
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • G06F17/20
    • G06F17/274
    • G06F17/277
    • G06F17/30654
    • G06F17/30864
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템이 개시된다. 컴퓨터로 구현되는 방법은, 정보 추출 대상으로 텍스트를 입력 받는 단계; 상기 텍스트에 포함된 논항(argument)과 술어(predicate)를 추출하는 단계; 및 상기 논항과 상기 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하는 단계를 포함한다.

Description

구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템{OPEN INFORMATION EXTRACTION METHOD AND SYSTEM FOR EXTRACTING REIFIED TERNARY FACTS}
아래의 설명은 텍스트로부터 정보를 추출하는 기술에 관한 것이다.
오늘날 인터넷의 성장으로 웹 사이트를 통해 다양한 정보가 제공되고 있다. 현재의 웹은 사용자가 사이트에 접속하고 원하는 목적지에 이르기까지 링크를 따라 검색해야 한다. 그러나, 수많은 웹 페이지를 모두 다 읽기보다 질의하는 것이 보다 효과적인데, 질의를 위해서는 웹 페이지에 들어있는 정보를 추출하여 구조화된 데이터 또는 반 구조화된 데이터로 변환할 필요가 있다.
현재 많은 웹 정보 추출 도구들이 존재하는데, 이들은 크게 자동 추출 도구와 수동 추출 도구로 분류된다. 웹 페이지가 정해진 스키마에 따라 구조화된 데이터로 이루어져 있다면 자동 추출이 가능하지만, 많은 웹 페이지들은 정해진 스키마가 없는 비구조화된 데이터의 형태이다. 이와 같이, 비구조화된 데이터의 경우 사용자는 추출하고자 하는 데이터의 스키마를 명시해주어야 한다. 사용자가 명시한 스키마의 데이터를 추출하기 위해서는 추출 규칙이 필요하다.
웹 페이지로부터 정보를 추출하기 위한 종래의 방법은 대부분 특정 도메인에 종속적인 정보 추출 방법을 사용하고 있기 때문에 다른 도메인으로의 이식이 쉽지 않은 문제가 있다. 선행 특허인 "비구조 웹문서에서 도메인별 정보를 추출하기 위한 시스템 및 그 방법"(출원번호 제10-2005-0063896호)은 도메인 별로 구분된 비정형 데이터를 포함한 비구조 웹 문서로부터 정보 추출 규칙을 학습하며, 이를 이용하여 특정 도메인의 웹 문서에서 주요 정보를 자동으로 추출하기 위한 도메인별 정보 추출 방법에 대해 개시하고 있다. 대부분의 정보 추출 기술은 특정 도메인 내 텍스트를 대상으로 하여 특정 도메인 온톨로지에 특정 클래스를 매핑하는 방법을 사용하고 있다.
특정 도메인이 아닌 모든 도메인에 적용 가능한 형태의 완전 개방형 정보 추출 방법으로 모든 텍스트를 대상으로 정보를 추출할 수 있는 방법 및 시스템을 제공한다.
텍스트를 지식원으로 하여 새로운 지식을 추출할 때 언어학적 구조에 대한 일관성 있는 삼항 관계로의 해석을 통한 개방형 정보 추출을 위한 방법 및 시스템을 제공한다.
개방형 정보 추출로서 텍스트 내의 모든 술어-논항 관계를 구체화(reification) 하여 지식 표현 언어인 RDF(Resource Description Framework) 삼항 관계로 표현하기 위한 방법 및 시스템을 제공한다.
텍스트로부터 추출 가능한 모든 정보를 삼항 관계로 구체화 하여 지식 베이스 통합 및 질의 처리를 용이하게 할 수 있는 방법 및 시스템을 제공한다.
컴퓨터로 구현되는 방법에 있어서, 정보 추출 대상으로 텍스트를 입력 받는 단계; 상기 텍스트에 포함된 논항(argument)과 술어(predicate)를 추출하는 단계; 및 상기 논항과 상기 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하는 단계를 포함하는 방법을 제공한다.
일 측면에 따르면, 상기 추출하는 단계는, 상기 텍스트에 포함된 모든 논항과 술어를 구(phrase) 단위로 추출할 수 있다.
다른 측면에 따르면, 상기 논항과 상기 술어 간의 구문 구조를 분석하는 단계를 더 포함하고, 상기 표현하는 단계는, 상기 논항과 상기 술어 간의 구문 구조에 따라 상기 논항과 상기 술어 간의 관계를 상기 삼항 관계로 표현할 수 있다.
또 다른 측면에 따르면, 상기 논항과 상기 술어 간의 구문 구조를 분석하는 단계를 더 포함하고, 상기 표현하는 단계는, 상기 구문 구조에 대응되는 삼항 관계 변환 규칙에 따라 상기 논항과 상기 술어 간의 관계를 상기 삼항 관계로 표현할 수 있다.
또 다른 측면에 따르면, 상기 분석하는 단계는, 상기 논항 각각에 대하여 상기 술어에 대한 해당 논항의 의존 구조를 분석할 수 있다.
또 다른 측면에 따르면, 상기 논항 중에서 주어에 해당되는 논항을 결정하는 단계를 더 포함하고, 상기 표현하는 단계는, 상기 논항과 상기 술어 간의 관계에 대해 상기 주어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현할 수 있다.
또 다른 측면에 따르면, 상기 표현하는 단계는, 상기 논항과 상기 술어 간의 관계에 대해 핵심 주어와 핵심 동사 및 핵심 목적어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현할 수 있다.
컴퓨터 시스템과 결합되어, 정보 추출 대상으로 텍스트를 입력 받는 단계; 상기 텍스트에 포함된 논항(argument)과 술어(predicate)를 추출하는 단계; 및 상기 논항과 상기 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하는 단계를 실행시키기 위해 기록 매체에 기록된 컴퓨터 프로그램을 제공한다.
컴퓨터로 구현되는 시스템에 있어서, 상기 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 정보 추출 대상으로 텍스트를 입력 받아 상기 텍스트에 포함된 논항(argument)과 술어(predicate)를 추출하고, 상기 논항과 상기 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하는 것을 특징으로 하는 시스템을 제공한다.
본 발명의 실시예에 따르면, 오픈 도메인 상에서의 정보 추출로서 특정 도메인이 아닌 모든 도메인에 적용 가능한 형태의 완전 개방형 정보 추출 방법으로 모든 텍스트를 대상으로 정보를 추출할 수 있다.
본 발명의 실시예에 따르면, 하나의 텍스트에 존재하는 모든 술어-논항 간의 관계를 일관성 있게 구체화 된 삼항 관계로 변환하는 방식을 제시함으로써 텍스트로부터 보다 많은 정보를 정확하게 추출할 수 있다.
본 발명의 실시예에 따르면, 텍스트로부터 추출된 정보가 삼항 관계를 유지함으로써 다른 지식베이스와의 통합이 용이하고 기존 방식으로 질의 처리가 가능한 형태를 유지할 수 있다.
본 발명의 실시예에 따르면, 텍스트로부터 추출된 정보가 구체화 된 관계를 가짐으로써 각 개별 지식 간의 혼동 발생을 방지할 수 있고 질의 처리 결과의 정확도를 더욱 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 있어서, 개방형 정보 추출 시스템의 내부 구성을 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 있어서, 개방형 정보 추출 방법을 도시한 흐름도이다.
도 3 내지 도 5는 본 발명의 일 실시예에 있어서, 텍스트 내 정보를 구체화 된 삼항 관계로 표현하는 과정의 일 예를 도시한 것이다.
도 6 내지 도 12는 본 발명의 일 실시예에 있어서, 구문 구조에 따른 삼항 관계 변환 규칙을 설명하기 위한 예시 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 실시예들은 텍스트로부터 정보를 추출하는 기술에 관한 것으로, 더욱 상세하게는 텍스트 내 존재하는 모든 술어-논항 관계를 지식화 하여 정보를 추출하는 방법 및 시스템에 관한 것이다. 이는 지식베이스 구축, 질의 응답 시스템, 지식 기반 의사 결정 시스템(예컨대, 의료 헬스케어, 법률 전문 지식, 의사결정 지원 등) 등 다양한 분야에서 적용 가능하다.
본 발명은 특정 도메인이 아닌 모든 도메인에 적용 가능한 형태의 개방형 정보 추출(open information extraction) 기법을 제공한다. 특히, 텍스트와 관련된 해당 사건의 시간과 공간에 대한 중요한 정보 손실을 막기 위해 구체화 된 삼항 관계(Reified Ternary Relationship)로 확장하여 텍스트 내 모든 정보를 추출할 수 있다. 또한, 현존하는 지식베이스들과의 통합과 서술어에 대한 질의 처리가 용이하도록 하고 개별 지식 간의 혼동을 방지하기 위해 텍스트 내의 모든 술어-논항 관계를 구체화(reification) 하여 지식 표현 언어인 RDF(Resource Description Framework) 삼항 관계로 표현할 수 있다. 기존 개방형 정보 추출은 두 개의 논항(argument) 사이에 위치한 하나의 술어(predicate), 즉 binary fact 추출에 국한하기 때문에 텍스트에서 의미하는 모든 정보를 추출 및 표현하는 능력이 부족하다. 그러나, RDF 삼항 관계는 통상 <주어, 술어, 목적어> 구조로서 술어는 주어(subject) 자리에 있는 개체(entity)와 목적어(object) 자리에 있는 개체 혹은 값(value) 간의 관계(relationship) 또는 속성(property)을 의미한다. 이러한 점에서, 본 발명에서는 텍스트로부터 추출 가능한 모든 정보를 삼항 관계로 구체화 하여 지식베이스 통합 및 질의처리를 용이하도록 할 수 있다.
이하에서는 컴퓨터로 구현되는 개방형 정보 추출 시스템과 이러한 개방형 정보 추출 시스템이 수행할 수 있는 개방형 정보 추출 방법에 대해 보다 구체적으로 설명하기로 한다.
도 1은 본 발명의 일 실시예에 있어서, 개방형 정보 추출 시스템의 내부 구성을 설명하기 위한 블록도이고, 도 2는 본 발명의 일 실시예에 있어서, 개방형 정보 추출 방법을 도시한 흐름도이다.
본 실시예에 따른 개방형 정보 추출 시스템(100)은 프로세서(110), 버스(120), 네트워크 인터페이스(130), 메모리(140), 및 데이터베이스(150)를 포함할 수 있다. 메모리(140)는 운영체제(141) 및 정보 추출 루틴(142)를 포함할 수 있다. 프로세서(110)는 술어-논항 추출기(111), 구문 구조 분석기(112), 주어 결정기(113), 구문 구조 패턴 비교기(114), 삼항 관계 추출기(115), 및 삼항 관계 구체화기(116)를 포함할 수 있다. 다른 실시예들에서 개방형 정보 추출 시스템(100)은 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다.
메모리(140)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리(140)에는 운영체제(141)와 정보 추출 루틴(142)을 위한 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(140)와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체(미도시)를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록 매체가 아닌 네트워크 인터페이스(130)를 통해 메모리(140)에 로딩될 수도 있다.
버스(120)는 개방형 정보 추출 시스템(100)의 구성요소들간의 통신 및 데이터 전송을 가능하게 할 수 있다. 버스(120)는 고속 시리얼 버스(high-speed serial bus), 병렬 버스(parallel bus), SAN(Storage Area Network) 및/또는 다른 적절한 통신 기술을 이용하여 구성될 수 있다.
네트워크 인터페이스(130)는 개방형 정보 추출 시스템(100)을 컴퓨터 네트워크에 연결하기 위한 컴퓨터 하드웨어 구성요소일 수 있다. 네트워크 인터페이스(130)는 개방형 정보 추출 시스템(100)을 무선 또는 유선 커넥션을 통해 컴퓨터 네트워크에 연결시킬 수 있다. 네트워크 인터페이스(130)는 컴퓨터 네트워크를 통해 다른 전자 기기와 통신하기 위한 기능을 제공할 수 있다. 예를 들어, 컴퓨터 네트워크는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 컴퓨터 네트워크는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.
데이터베이스(150)는 정보 추출의 대상이 되는 데이터를 저장 및 유지하는 역할을 하는 것으로, 지식원이 되는 자연언어 텍스트 등을 포함할 수 있다. 도 1에서는 개방형 정보 추출 시스템(100)의 내부에 데이터베이스(150)를 구축하여 포함하는 것으로 도시하고 있으나, 이에 한정되는 것은 아니며 시스템 구현 방식이나 환경 등에 따라 생략될 수 있고 혹은 전체 또는 일부의 데이터베이스가 별개의 다른 시스템 상에 구축된 외부 데이터베이스로서 존재하는 것 또한 가능하다.
프로세서(110)는 기본적인 산술, 로직 및 개방형 정보 추출 시스템(100)의 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(140) 또는 네트워크 인터페이스(130)에 의해, 그리고 버스(120)를 통해 프로세서(110)로 제공될 수 있다. 예를 들어 프로세서(110)는 메모리(140)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.
프로세서(110)는 구성요소들로서 술어-논항 추출기(111), 구문 구조 분석기(112), 주어 결정기(113), 구문 구조 패턴 비교기(114), 삼항 관계 추출기(115), 및 삼항 관계 구체화기(116)를 포함할 수 있다. 이러한 프로세서(110) 및 프로세서(110)의 구성요소들은 메모리(140)에 로딩된 프로그램 코드를 실행하여 도 2의 방법이 포함하는 단계들(S210 내지 S260)을 수행하도록 개방형 정보 추출 시스템(100)을 제어할 수 있다. 이러한 프로그램 코드는 프로그램 파일에서 메모리(140)와 같은 기록 장치로 로딩될 수 있다. 프로세서(110) 및 프로세서(110)의 구성요소들은 메모리(140)가 포함하는 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 또한, 프로세서(110)의 구성요소들은 프로세서(110)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 프로세서(110)가 상술한 명령에 따라 텍스트에서 술어와 논항을 추출하기 위해 동작하는 기능적 표현으로서 술어-논항 추출기(111)가 사용될 수 있다.
단계(S210)에서 술어-논항 추출기(111)는 정보 추출 대상, 즉 지식원이 되는 자연언어 텍스트를 입력으로 받아 해당 텍스트에 포함된 논항(argument)과 술어(predicate)를 추출할 수 있다. 일 예로, 술어-논항 추출기(111)는 텍스트에서 정보 추출의 기본 구성 요소인 논항과 술어를 구(phrase) 단위로 추출할 수 있다. 예를 들어, 술어-논항 추출기(111)는 텍스트를 형태소 단위로 분리한 후 분리된 형태소들에 대하여 각 단어의 문법적 성질을 나타내는 품사에 기초하여 술어와 논항을 추출할 수 있다. 문장을 구성하는 술어는 문장 구성의 기본 골격이 되는 요소에 해당되며, 주어의 동작, 상태 또는 성질 등을 서술한다. 술어는 자신이 나타내는 의미를 완성시키기 위해 다른 언어 요소를 필요로 하는데 이들을 술어의 논항이라고 한다. 예를 들어, 단일 명사, 복합 명사, 명사구, 및 명사절 등의 어휘열이 논항에 해당될 수 있다. 그리고, 술어-논항 추출기(111)는 입력된 텍스트로부터 텍스트에 포함된 술어에 대한 어미(ending word)와 위치(position) 정보, 그리고 각 논항에 대한 조사(postposition)와 위치(position) 정보를 추출할 수 있다.
단계(S220)에서 구문 구조 분석기(112)는 텍스트에서 추출된 술어와 논항 단위의 구문 구조를 분석할 수 있다. 술어-논항 간의 구문 구조는 각 논항이 어떤 술어에 종속되어 있는지에 대한 정보를 포함할 수 있다. 구문 구조 분석기(112)는 술어-논항 추출기(111)에서 추출된 술어의 어미와 위치, 그리고 논항의 조사와 위치 등을 바탕으로 텍스트에서 추출된 술어와 논항 간의 의존 구조를 분석할 수 있다. 예를 들어, 텍스트에 포함된 모든 단어 각각에 대하여 단어의 문법적 성질을 나타내는 품사에 기초하여 술어를 추출하게 되는데, 이러한 술어를 기준으로 술어의 문법 형태에 따른 논항 구조에 따라 술어에서 필요로 하는 논항 요소들을 추출함으로써 술어와 논항 간의 의존 구조를 분석할 수 있다.
단계(S230)에서 주어 결정기(113)는 텍스트에서 추출된 논항 중에서 주어를 결정하는 역할을 한다. 일 예로, 주어 결정기(113)는 텍스트에 포함된 논항 중 주어가 될 수 있는 후보 논항(예를 들어, 명사구(NP, noun phrase) 등)을 선별한 후 후보 논항 중 술어-논항 추출기(111)에서 추출된 논항의 조사와 위치를 바탕으로 위치가 가장 앞선 논항 및/또는 특정 조사(은, 는, 이, 가)를 가진 논항을 주어로 결정할 수 있다.
단계(S240)에서 구문 구조 패턴 비교기(114)는 구문 구조 분석기(112)에서 분석된 술어-논항 간 구문 구조를 사전에 정해진 대표 의존 구조 패턴과 비교하여 텍스트에 대응되는 구조 패턴을 결정할 수 있다. 술어와 논항 간의 의존 구조에 대하여 대표적인 구조 패턴을 사전에 정의할 수 있고, 구문 구조 패턴 비교기(114)는 입력 텍스트가 가진 구문 구조를 사전에 정의된 대표 의존 구조 패턴과의 비교를 수행하여 해당 텍스트에 대해 어떠한 변환 규칙을 적용할 것인지 결정할 수 있다. 대표 의존 구조 패턴은 텍스트의 구문 구조에 따른 일관성 있는 삼항 관계로의 변환 규칙을 제안하기 위한 것으로, 이에 대해서는 이하에서 다시 구체적으로 설명하기로 한다.
단계(S250)에서 삼항 관계 추출기(115)는 텍스트의 술어-논항 간 구문 구조에 대응되는 구조 패턴을 바탕으로 텍스트의 핵심 삼항 관계를 추출할 수 있다. 일 예로, 삼항 관계 추출기(115)는 텍스트에서 의미하는 핵심 내용인 주어(SBJ), 동사(VP), 목적어(OBJ)를 바탕으로 핵심 삼항 관계를 추출할 수 있다. 다시 말해, 삼항 관계 추출기(115)는 텍스트의 주어, 핵심 동사, 핵심 목적어를 바탕으로 핵심 삼항 관계를 만들 수 있다. 이러한 핵심 삼항 관계는 구체화 삼항 관계를 만들기 위한 토대가 될 수 있다.
단계(S260)에서 삼항 관계 구체화기(116)는 삼항 관계 추출기(115)에서 추출된 핵심 삼항 관계를 토대로 나머지 논항-술어 관계를 구체화 할 수 있다. 삼항 관계 구체화기(116)는 텍스트에 포함된 모든 술어-논항 간 관계를 구체화 된 삼항 관계로 표현할 수 있다. 즉, 구체화 된 삼항 관계는 텍스트의 모든 술어와 논항 관계들을 핵심 삼항 관계의 기준 아래 구체화 시킨 형태를 의미한다.
도 3은 예시 문장에 대한 개방형 정보 추출 과정을 도시한 것이다.
입력 문장(300)으로 "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."가 주어진 경우:
술어-논항 추출기(111)는 입력 문장(300)에 포함된 모든 술어와 논항을 추출할 수 있다(301). 입력 문장(300) "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."에서, 논항 <2013년, CNN(은), 세계 최고의 요리(로), 이탈리아 요리(를)>과, 술어 <선정하>가 추출된다.
구문 구조 분석기(112)는 입력 문장(300)에서 추출된 술어와 논항 간의 의존 구조를 분석할 수 있다(302). 구 단위의 의존 구조로서 논항 <2013년, CNN(은), 세계 최고의 요리(로), 이탈리아 요리(를)>에 대하여 술어 <선정하>와의 관계를 나타낼 수 있다.
주어 결정기(113)는 입력 문장(300)에서 추출된 논항 중 주어를 결정할 수 있다(303). 논항의 조사와 위치 등을 바탕으로 논항 <2013년, CNN(은), 세계 최고의 요리(로), 이탈리아 요리(를)> 중 문장의 핵심 주어 <CNN(은)>를 선정할 수 있다.
삼항 관계 추출기(115)는 입력 문장(300)의 술어와 논항 간의 의존 구조에 대응되는 구조 패턴에 따라 입력 문장(300)의 핵심 삼항 관계를 추출할 수 있다(304). 입력 문장(300) "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."에서 주어 <CNN>, 핵심 동사 <선정하>, 핵심 목적어 <이탈리아 요리>를 핵심 삼항 관계로 나타낼 수 있다.
삼항 관계 구체화기(116)는 입력 문장(300)의 핵심 삼항 관계를 토대로 입력 문장(300)에 포함된 나머지 술어-논항 관계들을 구체화 할 수 있다(305). 핵심 삼항 관계 <CNN>-<선정하>-<이탈리아 요리>를 토대로 나머지 술어-논항 간 관계를 <선정하#1>-<로>-<세계 최고의 요리>, <선정하#1>-<JOSA>-<2013년>, <선정하#1>-<SP>-<선정하>와 같이 구체화 된 삼항 관계로 표현할 수 있다.
요컨대, 도 4를 참조하면 입력 문장(400) "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."에 대하여 입력 문장(400)의 술어-논항 간 구문 구조(402)를 바탕으로 입력 문장(400) 내 모든 술어-논항 간 관계를 구체화 된 삼항 관계(405)로 표현할 수 있다. 따라서, 문장의 구문 구조를 토대로 구체화된 삼항 관계를 생성함에 따라 구 단위의 정보 추출 방식을 통해 어절 단위 추출 방식에서 발생하는 정보 손실을 방지할 수 있다.
한국어 문장을 예시로 들어 설명하고 있으나, 영어 문장도 마찬가지로 도 5에 도시한 바와 같이 영어 문장(500) "A. Einstein was awarded the Nobel Prize in Sweden in 1921."이 입력되는 경우 영어의 문법 형태 등에 따라 해당 문장(500)의 술어-논항 간 구문 구조(502)를 파악할 수 있고, 이를 토대로 문장(500) 내 모든 술어-논항 간 관계를 구체화 된 삼항 관계(505)로 표현할 수 있다.
본 발명은 텍스트의 구문 구조에 따른 일관성 있는 삼항 관계로의 변환 규칙을 제안하고자 텍스트의 구문 구조 패턴을 4가지의 대표 의존 구조 패턴으로 구분하여 정의할 수 있다.
도 6 내지 도 12는 대표 의존 구조 패턴의 예시를 설명하기 위한 도면이다.
도 6 내지 도 12에서 SBJ는 핵심 주어(subject), VP는 동사구(verb phrase), NP는 명사구(noun phrase), REL는 핵심 술어를 의미한다.
도 6은 제1 구조 패턴의 예시를 도시한 것이다.
제1 구조 패턴(600)은 <SBJ(VP)*REL>에 해당되는 구문 구조를 가지며, <SBJ(VP)*REL>의 구문 구조에 대해 [{SBJ-REL#1-ANONYMOUS}, {REL#1-VP#1-ANONYMOUS}, {VP#1-VP#2-ANONYMOUS}, {VP#2-VP*-ANONYMOUS*}]와 같은 삼항 관계 변환 규칙(610)이 정의될 수 있다. 예를 들어, 문장 "사람은 태어나서 살다가 죽는다."의 경우 <사람>은 SBJ에 해당되고, <태어나>와 <살>는 VP에 해당되고, <죽>는 REL에 해당된다. "사람은 태어나서 살다가 죽는다."의 문장은 <SBJ(VP)*REL>의 구문 구조를 가지며, 문장에서 추출된 모든 정보(SBJ, VP, REL)를 제1 구조 패턴(600)의 변환 규칙(610)에 따라 구체화된 삼항 관계(605)로 표현할 수 있다. 이때, "사람은 태어나서 살다가 죽는다."의 문장에 대해 {사람-죽#1-ANONYMOUS}와 같이 핵심 삼항 관계를 만든 후 핵심 삼항 관계를 기준으로 나머지 모든 구문 간의 관계를 {죽#1-살#1-ANONYMOUS}, {살#1-태어나#1-ANONYMOUS}와 같이 구체화 된 삼항 관계(605)로 표현할 수 있다.
도 7은 제2 구조 패턴의 예시를 도시한 것이다.
제2 구조 패턴(700)은 <(NP)*SBJ(NP)*REL>에 해당되는 구문 구조를 가지며, <(NP)*SBJ(NP)*REL>의 구문 구조에 대해 [{SBJ-REL#1-NP#1}, {REL#1-NP#2JOSA-NP#2}, {REL#1-NP#3JOSA-NP#3}, {REL#1-NP*JOSA-NP*}]와 같은 삼항 관계 변환 규칙(710)이 정의될 수 있다. 예를 들어, 문장 "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."의 경우 <CNN>은 SBJ에 해당되고, <2013년>과 <세계 최고의 요리>, 그리고 <이탈리아 요리>은 NP에 해당되고, <선정하>는 REL에 해당된다. "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."의 문장은 <(NP)*SBJ(NP)*REL>의 구문 구조를 가지며, 문장에서 추출된 모든 정보(SBJ, NP, REL)를 제2 구조 패턴(700)의 변환 규칙(710)에 따라 구체화된 삼항 관계(705)로 표현할 수 있다. 이때, "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."의 문장에 대해 <CNN-선정하#1-이탈리아 요리>와 같이 핵심 삼항 관계를 만든 후 핵심 삼항 관계를 기준으로 나머지 모든 구문 간의 관계를 {선정하#1-로-세계 최고의 요리}, {선정하#1-JOSA-2013년}와 같이 구체화 된 삼항 관계(705)로 표현할 수 있다.
도 8은 제3 구조 패턴의 예시를 도시한 것이다.
제3 구조 패턴(800)은 <(NP)*SBJ(NP)*(VP)*REL>에 해당되는 구문 구조를 가지며, <(NP)*SBJ(NP)*(VP)*REL>의 구문 구조에 대해 [{SBJ-REL#1-ANONYMOUS}, {REL#1-VP#1-ANONYMOUS}, {VP#1-VP*-NP#1}, {VP*-NP#2JOSA-NP#2}, {VP*-NP*JOSA-NP*}]와 같은 삼항 관계 변환 규칙(810)이 정의될 수 있다. 예를 들어, 문장 "소행성대의 다른 소행성들처럼 이다의 궤도는 화성과 목적 사이에 놓이어 있다."의 경우 <이다의 궤도>은 SBJ에 해당되고, <소행성대의 다른 행성들>과 <화성과 목성 사이>는 NP에 해당되고, <놓이>는 VP에 해당되고, <있>는 REL에 해당된다. "소행성대의 다른 소행성들처럼 이다의 궤도는 화성과 목적 사이에 놓이어 있다."의 문장은 <(NP)*SBJ(NP)*(VP)*REL>의 구문 구조를 가지며, 문장에서 추출된 모든 정보(SBJ, NP, VP, REL)를 제3 구조 패턴(800)의 변환 규칙(810)에 따라 구체화된 삼항 관계(805)로 표현할 수 있다. 이때, "소행성대의 다른 소행성들처럼 이다의 궤도는 화성과 목적 사이에 놓이어 있다."의 문장에 대해 <이다의 궤도-있#1-ANONYMOUS>와 같이 핵심 삼항 관계를 만든 후 핵심 삼항 관계를 기준으로 나머지 모든 구문 간의 관계를 {있#1-놓이#1-ANONYMOUS}, {놓이#1-에-화성과 목성 사이}, {놓이#1-처럼-소행성대의 다른 소행성들}과 같이 구체화 된 삼항 관계(805)로 표현할 수 있다.
도 9는 제4 구조 패턴의 예시들을 도시한 것이다. 도 9를 참조하면, 제4 구조 패턴(900)은 <(NP)*SBJ(NP)*(VP)+(NP)+(VP)*REL>에 해당되는 구문 구조를 가지며 다양한 술어-논항 간 의존 관계를 포괄할 수 있다.
제4 구조 패턴(900)인 <(NP)*SBJ(NP)*(VP)+(NP)+(VP)*REL>의 구문 구조에 대해 도 10에 도시한 바와 같이 [{SBJ-REL#1-REL.NP#1}, {REL#1-VP#1-VP#1.NP#2}, {VP#1-VP+-VP+.NP*}, {VP+-NP*JOSA-VP+.NP*}]의 삼항 관계 변환 규칙(1010)이 정의될 수 있다. 여기서, REL.NP#1은 NP#1가 REL에 의존되어 있음을 나타내기 위한 표현이고, VP#1.NP#2는 NP#2가 VP#1에 의존되어 있음을 나타내기 위한 표현이고, VP+은 VP*와 달리 최소 한번 이상 나타나야 함을 의미한다.
예를 들어, 도 11을 참조하면 문장 "앙투앙 라부아지에는 대한민국에서는 짧게 줄여 라부아지에라고도 표기한다."의 경우 <앙투앙 라부아지에>는 SBJ에 해당되고, <대한민국>과 <라부아지에>는 NP에 해당되고, <짧게 줄이>는 VP에 해당되고, <표기하>는 REL에 해당된다. "앙투앙 라부아지에는 대한민국에서는 짧게 줄여 라부아지에라고도 표기한다."의 문장은 <(NP)*SBJ(NP)*(VP)+(NP)+(VP)*REL>의 구문 구조를 가지며, 문장에서 추출된 모든 정보(SBJ, NP, VP, REL)를 제4 구조 패턴(900)의 변환 규칙(1010)에 따라 구체화된 삼항 관계(1105)로 표현할 수 있다. 이때, "앙투앙 라부아지에는 대한민국에서는 짧게 줄여 라부아지에라고도 표기한다."의 문장에 대해 <앙투앙 라부아지에-표기하#1-ANONYMOUS>와 같이 핵심 삼항 관계를 만든 후 핵심 삼항 관계를 기준으로 나머지 모든 구문 간의 관계를 {표기하#1-라고도-라부아지에}, {표기하#1-짧게 줄이#1-ANONYMOUS}, {짧게 줄이#1-에서는-대한민국}과 같이 구체화 된 삼항 관계(1105)로 표현할 수 있다.
다른 예로, 도 12를 참조하면 문장 "라부아지에는 새로운 연소 이론을 주장하여 플로지스톤설을 폐기하면서 화학을 발전시키었다."의 경우 <라부아지에>는 SBJ에 해당되고, <새로운 연소 이론>과 <플로지스톤설>, 그리고 <화학>는 NP에 해당되고, <폐기하>와 <주장하>는 VP에 해당되고, <발전시키>는 REL에 해당된다. "라부아지에는 새로운 연소 이론을 주장하여 플로지스톤설을 폐기하면서 화학을 발전시키었다."의 문장은 <(NP)*SBJ(NP)*(VP)+(NP)+(VP)*REL>의 구문 구조를 가지며, 문장에서 추출된 모든 정보(SBJ, NP, VP, REL)를 제4 구조 패턴(900)의 변환 규칙(1010)에 따라 구체화된 삼항 관계(1205)로 표현할 수 있다. 이때, "라부아지에는 새로운 연소 이론을 주장하여 플로지스톤설을 폐기하면서 화학을 발전시키었다."의 문장에 대해 <라부아지에-발전시키#1-화학>와 같이 핵심 삼항 관계를 만든 후 핵심 삼항 관계를 기준으로 나머지 모든 구문 간의 관계를 {발전시키#1-폐기하#1-플로지스톤설}, {폐기하#1-주장하#1-새로운 연소 이론}과 같이 구체화 된 삼항 관계(1205)로 표현할 수 있다.
상기한 구문 구조에 따른 삼항 관계 변환 규칙은 언어학적 구조나 문법 형태 등에 따라 결정되는 것으로, 이러한 것으로만 한정되는 것은 아니며, 경우에 따라 얼마든지 변경 가능하다.
따라서, 본 발명에 따른 개방형 정보 추출 시스템 및 개방형 정보 추출 방법은 문장에 존재하는 모든 술어-논항 간의 관계를 일관성 있게 해당 문장의 구문 구조에 따른 변환 규칙에 따라 구체화 된 삼항 관계로 표현할 수 있다.
이처럼 본 발명의 실시예들에 따르면, 오픈 도메인 상에서의 정보 추출로서 특정 도메인이 아닌 모든 도메인에 적용 가능한 형태의 완전 개방형 정보 추출 방법으로 모든 텍스트를 대상으로 정보를 추출할 수 있다. 특히, 본 발명의 실시예에 따르면, 하나의 텍스트에 존재하는 모든 술어-논항 간의 관계를 일관성 있게 구체화 된 삼항 관계로 변환하는 방식을 제시함으로써 텍스트로부터 보다 많은 정보를 정확하게 추출할 수 있다. 그리고, 본 발명의 실시예에 따르면, 텍스트로부터 추출된 정보가 삼항 관계를 유지함으로써 다른 지식베이스와의 통합이 용이하고 기존 방식으로 질의 처리가 가능한 형태를 유지할 수 있다. 또한, 본 발명의 실시예에 따르면, 텍스트로부터 추출된 정보가 구체화 된 관계를 가짐으로써 각 개별 지식 간의 혼동 발생을 방지할 수 있고 질의 처리 결과의 정확도를 더욱 향상시킬 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (15)

  1. 컴퓨터로 구현되는 방법에 있어서,
    정보 추출 대상으로 텍스트를 입력 받는 단계;
    상기 텍스트에 포함된 모든 논항(argument)과 술어(predicate)를 구(phrase) 단위로 추출하는 단계;
    상기 논항과 상기 술어 간의 구문 구조를 분석하는 단계;
    상기 논항 중에서 주어에 해당되는 논항을 결정하는 단계;
    상기 논항과 상기 술어 간의 구문 구조를 사전에 정해진 삼항 관계 변환 규칙을 포함하는 대표 의존 구조 패턴과 비교하여 상기 텍스트에 대응되는 구조 패턴을 결정하는 단계; 및
    상기 텍스트에 대응되는 구조 패턴을 바탕으로 상기 텍스트에 포함된 모든 논항과 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하는 단계
    를 포함하고,
    구문 구조 패턴이 복수 개의 대표 의존 구조 패턴으로 구분되어 정의되고,
    상기 대표 의존 구조 패턴 각각에 대하여 해당 구조 패턴에 대한 삼항 관계 변환 규칙이 정의되며,
    상기 텍스트에 대응되는 구조 패턴을 결정하는 단계는,
    상기 복수 개의 대표 의존 구조 패턴 중에서 상기 텍스트에 대응되는 구조 패턴을 결정하고,
    상기 표현하는 단계는,
    상기 텍스트에 대응되는 구조 패턴에 대해 정의된 삼항 관계 변환 규칙에 따라 상기 텍스트에 포함된 모든 논항과 술어를 삼항 관계로 표현하되, 상기 논항과 상기 술어 간의 관계에 대해 상기 주어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현하는 것
    을 특징으로 하는 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    상기 분석하는 단계는,
    상기 논항 각각에 대하여 상기 술어에 대한 해당 논항의 의존 구조를 분석하는 것
    을 특징으로 하는 방법.
  6. 삭제
  7. 제1항에 있어서,
    상기 표현하는 단계는,
    상기 논항과 상기 술어 간의 관계에 대해 핵심 주어와 핵심 동사 및 핵심 목적어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현하는 것
    을 특징으로 하는 방법.
  8. 컴퓨터 시스템과 결합되어 정보 추출 방법을 실행시키기 위해 컴퓨터 판독가능 기록 매체에 기록된 컴퓨터 프로그램에 있어서,
    상기 정보 추출 방법은,
    정보 추출 대상으로 텍스트를 입력 받는 단계;
    상기 텍스트에 포함된 모든 논항(argument)과 술어(predicate)를 구(phrase) 단위로 추출하는 단계;
    상기 논항과 상기 술어 간의 구문 구조를 분석하는 단계;
    상기 논항 중에서 주어에 해당되는 논항을 결정하는 단계;
    상기 논항과 상기 술어 간의 구문 구조를 사전에 정해진 삼항 관계 변환 규칙을 포함하는 대표 의존 구조 패턴과 비교하여 상기 텍스트에 대응되는 구조 패턴을 결정하는 단계; 및
    상기 텍스트에 대응되는 구조 패턴을 바탕으로 상기 텍스트에 포함된 모든 논항과 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하는 단계
    를 포함하고,
    구문 구조 패턴이 복수 개의 대표 의존 구조 패턴으로 구분되어 정의되고,
    상기 대표 의존 구조 패턴 각각에 대하여 해당 구조 패턴에 대한 삼항 관계 변환 규칙이 정의되며,
    상기 텍스트에 대응되는 구조 패턴을 결정하는 단계는,
    상기 복수 개의 대표 의존 구조 패턴 중에서 상기 텍스트에 대응되는 구조 패턴을 결정하고,
    상기 표현하는 단계는,
    상기 텍스트에 대응되는 구조 패턴에 대해 정의된 삼항 관계 변환 규칙에 따라 상기 텍스트에 포함된 모든 논항과 술어를 삼항 관계로 표현하되, 상기 논항과 상기 술어 간의 관계에 대해 상기 주어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현하는 것
    을 특징으로 하는, 컴퓨터 판독가능 기록 매체에 기록된 컴퓨터 프로그램.
  9. 컴퓨터로 구현되는 시스템에 있어서,
    상기 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서
    를 포함하고,
    상기 적어도 하나의 프로세서는,
    정보 추출 대상으로 텍스트를 입력 받아 상기 텍스트에 포함된 모든 논항(argument)과 술어(predicate)를 구(phrase) 단위로 추출하고,
    상기 논항과 상기 술어 간의 구문 구조를 분석하고,
    상기 논항 중에서 주어에 해당되는 논항을 결정하고,
    상기 논항과 상기 술어 간의 구문 구조를 사전에 정해진 삼항 관계 변환 규칙을 포함하는 대표 의존 구조 패턴과 비교하여 상기 텍스트에 대응되는 구조 패턴을 결정하고,
    상기 텍스트에 대응되는 구조 패턴을 바탕으로 상기 텍스트에 포함된 모든 논항과 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하고,
    구문 구조 패턴이 복수 개의 대표 의존 구조 패턴으로 구분되어 정의되고,
    상기 대표 의존 구조 패턴 각각에 대하여 해당 구조 패턴에 대한 삼항 관계 변환 규칙이 정의되며,
    상기 적어도 하나의 프로세서는, 상기 텍스트에 대응되는 구조 패턴을 결정하기 위해,
    상기 복수 개의 대표 의존 구조 패턴 중에서 상기 텍스트에 대응되는 구조 패턴을 결정하고,
    상기 적어도 하나의 프로세서는, 상기 삼항 관계로 표현하기 위해,
    상기 텍스트에 대응되는 구조 패턴에 대해 정의된 삼항 관계 변환 규칙에 따라 상기 텍스트에 포함된 모든 논항과 술어를 삼항 관계로 표현하되, 상기 논항과 상기 술어 간의 관계에 대해 상기 주어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현하는 것
    을 특징으로 하는 시스템.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 제9항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 구문 구조를 분석하기 위해,
    상기 논항 각각에 대하여 상기 술어에 대한 해당 논항의 의존 구조를 분석하는 것
    을 특징으로 하는 시스템.
  14. 삭제
  15. 제9항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 삼항 관계로 표현하기 위해,
    상기 논항과 상기 술어 간의 관계에 대해 핵심 주어와 핵심 동사 및 핵심 목적어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현하는 것
    을 특징으로 하는 시스템.
KR1020160070465A 2016-01-11 2016-06-07 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템 KR101831058B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP16885215.0A EP3404553A4 (en) 2016-01-11 2016-09-29 METHOD AND SYSTEM FOR EXTRACTING OPEN INFORMATION FOR EXTRACTING RE-ESTABLISHED TERNARY RELATION
PCT/KR2016/010902 WO2017122904A1 (ko) 2016-01-11 2016-09-29 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160003230 2016-01-11
KR20160003230 2016-01-11

Publications (2)

Publication Number Publication Date
KR20170083946A KR20170083946A (ko) 2017-07-19
KR101831058B1 true KR101831058B1 (ko) 2018-02-21

Family

ID=59427437

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160070465A KR101831058B1 (ko) 2016-01-11 2016-06-07 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템

Country Status (2)

Country Link
EP (1) EP3404553A4 (ko)
KR (1) KR101831058B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200036367A (ko) * 2018-09-28 2020-04-07 한국전자통신연구원 지식 그래프 기반 문장 분석 방법
KR20220071113A (ko) 2020-11-23 2022-05-31 한국과학기술원 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967268B (zh) * 2020-06-30 2024-03-19 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质
CN112183030A (zh) * 2020-10-10 2021-01-05 深圳壹账通智能科技有限公司 基于预设神经网络的事件抽取方法、装置、计算机设备及存储介质
KR102381079B1 (ko) * 2021-08-02 2022-04-01 주식회사 닥터송 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US8335754B2 (en) * 2009-03-06 2012-12-18 Tagged, Inc. Representing a document using a semantic structure
KR20140052328A (ko) * 2012-10-24 2014-05-07 에스케이텔레콤 주식회사 Rdf 기반의 문장 온톨로지 생성 장치 및 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Y.B. Kim et al., Training a Korean SRL System with Rich Morphological Features, Computational Linguistics Association Annual Meeting 논문집, pp.637-642, (2014.06.23.)
이창기 외, Structural SVM 기반의 한국어 의미역 결정, 한국정보과학회 논문지 42(2), pp.220-226, 2015.02
정현기 외, 확장된 격틀 사전을 이용한 한국어 부사격 논항의 의미역 결정, 한국정보기술학회논문지 9(10), pp.167-176, 2011.10.

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200036367A (ko) * 2018-09-28 2020-04-07 한국전자통신연구원 지식 그래프 기반 문장 분석 방법
KR102588185B1 (ko) * 2018-09-28 2023-10-13 한국전자통신연구원 지식 그래프 기반 문장 분석 방법
KR20220071113A (ko) 2020-11-23 2022-05-31 한국과학기술원 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법

Also Published As

Publication number Publication date
EP3404553A1 (en) 2018-11-21
EP3404553A4 (en) 2019-01-16
KR20170083946A (ko) 2017-07-19

Similar Documents

Publication Publication Date Title
KR101831058B1 (ko) 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템
JP2013502643A (ja) 構造化データ翻訳装置、システム及び方法
Wang et al. NLP-based query-answering system for information extraction from building information models
KR102059743B1 (ko) 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
Chi et al. Developing base domain ontology from a reference collection to aid information retrieval
WO2022047252A1 (en) Automatically identifying multi-word expressions
JP2020537228A (ja) 意図認識のための抽象化および移植性
Ismail et al. Extracting knowledge from English translated Quran using NLP pattern
Aliwy Tokenization as preprocessing for Arabic tagging system
Zeroual et al. Adapting a decision tree based tagger for Arabic
Toral et al. Linguistically-augmented perplexity-based data selection for language models
Malik et al. Named Entity Recognition on Software Requirements Specification Documents.
Krstev et al. An approach to efficient processing of multi-word units
Bakari et al. Logic-based approach for improving Arabic question answering
Brooke et al. Building a lexicon of formulaic language for language learners
WO2017122904A1 (ko) 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템
CN110516157A (zh) 一种文献检索方法、设备和存储介质
Klang et al. Linking, searching, and visualizing entities in wikipedia
Talita et al. Challenges in building domain ontology for minority languages
Choi et al. Building knowledge domain N-gram model for mobile devices
Suresu et al. Probabilistic relational concept extraction in ontology learning
Labidi New combined method to improve Arabic POS tagging
Bakhshaei et al. Extracting parallel fragments from comparable documents using a generative model
Ingale et al. Datasets for Machine Reading Comprehension: A Literature Review
Pontes et al. Automatic text summarization with a reduced vocabulary using continuous space vectors

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant