KR101831058B1

KR101831058B1 - 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템

Info

Publication number: KR101831058B1
Application number: KR1020160070465A
Authority: KR
Inventors: 최기선; 남상하; 함영균
Original assignee: 한국과학기술원
Priority date: 2016-01-11
Filing date: 2016-06-07
Publication date: 2018-02-21
Also published as: EP3404553A1; EP3404553A4; KR20170083946A

Abstract

구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템이 개시된다. 컴퓨터로 구현되는 방법은, 정보 추출 대상으로 텍스트를 입력 받는 단계; 상기 텍스트에 포함된 논항(argument)과 술어(predicate)를 추출하는 단계; 및 상기 논항과 상기 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하는 단계를 포함한다.

Description

구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템{OPEN INFORMATION EXTRACTION METHOD AND SYSTEM FOR EXTRACTING REIFIED TERNARY FACTS}

아래의 설명은 텍스트로부터 정보를 추출하는 기술에 관한 것이다.

오늘날 인터넷의 성장으로 웹 사이트를 통해 다양한 정보가 제공되고 있다. 현재의 웹은 사용자가 사이트에 접속하고 원하는 목적지에 이르기까지 링크를 따라 검색해야 한다. 그러나, 수많은 웹 페이지를 모두 다 읽기보다 질의하는 것이 보다 효과적인데, 질의를 위해서는 웹 페이지에 들어있는 정보를 추출하여 구조화된 데이터 또는 반 구조화된 데이터로 변환할 필요가 있다.

현재 많은 웹 정보 추출 도구들이 존재하는데, 이들은 크게 자동 추출 도구와 수동 추출 도구로 분류된다. 웹 페이지가 정해진 스키마에 따라 구조화된 데이터로 이루어져 있다면 자동 추출이 가능하지만, 많은 웹 페이지들은 정해진 스키마가 없는 비구조화된 데이터의 형태이다. 이와 같이, 비구조화된 데이터의 경우 사용자는 추출하고자 하는 데이터의 스키마를 명시해주어야 한다. 사용자가 명시한 스키마의 데이터를 추출하기 위해서는 추출 규칙이 필요하다.

웹 페이지로부터 정보를 추출하기 위한 종래의 방법은 대부분 특정 도메인에 종속적인 정보 추출 방법을 사용하고 있기 때문에 다른 도메인으로의 이식이 쉽지 않은 문제가 있다. 선행 특허인 "비구조 웹문서에서 도메인별 정보를 추출하기 위한 시스템 및 그 방법"(출원번호 제10-2005-0063896호)은 도메인 별로 구분된 비정형 데이터를 포함한 비구조 웹 문서로부터 정보 추출 규칙을 학습하며, 이를 이용하여 특정 도메인의 웹 문서에서 주요 정보를 자동으로 추출하기 위한 도메인별 정보 추출 방법에 대해 개시하고 있다. 대부분의 정보 추출 기술은 특정 도메인 내 텍스트를 대상으로 하여 특정 도메인 온톨로지에 특정 클래스를 매핑하는 방법을 사용하고 있다.

특정 도메인이 아닌 모든 도메인에 적용 가능한 형태의 완전 개방형 정보 추출 방법으로 모든 텍스트를 대상으로 정보를 추출할 수 있는 방법 및 시스템을 제공한다.

텍스트를 지식원으로 하여 새로운 지식을 추출할 때 언어학적 구조에 대한 일관성 있는 삼항 관계로의 해석을 통한 개방형 정보 추출을 위한 방법 및 시스템을 제공한다.

개방형 정보 추출로서 텍스트 내의 모든 술어-논항 관계를 구체화(reification) 하여 지식 표현 언어인 RDF(Resource Description Framework) 삼항 관계로 표현하기 위한 방법 및 시스템을 제공한다.

텍스트로부터 추출 가능한 모든 정보를 삼항 관계로 구체화 하여 지식 베이스 통합 및 질의 처리를 용이하게 할 수 있는 방법 및 시스템을 제공한다.

컴퓨터로 구현되는 방법에 있어서, 정보 추출 대상으로 텍스트를 입력 받는 단계; 상기 텍스트에 포함된 논항(argument)과 술어(predicate)를 추출하는 단계; 및 상기 논항과 상기 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하는 단계를 포함하는 방법을 제공한다.

일 측면에 따르면, 상기 추출하는 단계는, 상기 텍스트에 포함된 모든 논항과 술어를 구(phrase) 단위로 추출할 수 있다.

다른 측면에 따르면, 상기 논항과 상기 술어 간의 구문 구조를 분석하는 단계를 더 포함하고, 상기 표현하는 단계는, 상기 논항과 상기 술어 간의 구문 구조에 따라 상기 논항과 상기 술어 간의 관계를 상기 삼항 관계로 표현할 수 있다.

또 다른 측면에 따르면, 상기 논항과 상기 술어 간의 구문 구조를 분석하는 단계를 더 포함하고, 상기 표현하는 단계는, 상기 구문 구조에 대응되는 삼항 관계 변환 규칙에 따라 상기 논항과 상기 술어 간의 관계를 상기 삼항 관계로 표현할 수 있다.

또 다른 측면에 따르면, 상기 분석하는 단계는, 상기 논항 각각에 대하여 상기 술어에 대한 해당 논항의 의존 구조를 분석할 수 있다.

또 다른 측면에 따르면, 상기 논항 중에서 주어에 해당되는 논항을 결정하는 단계를 더 포함하고, 상기 표현하는 단계는, 상기 논항과 상기 술어 간의 관계에 대해 상기 주어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현할 수 있다.

또 다른 측면에 따르면, 상기 표현하는 단계는, 상기 논항과 상기 술어 간의 관계에 대해 핵심 주어와 핵심 동사 및 핵심 목적어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현할 수 있다.

컴퓨터 시스템과 결합되어, 정보 추출 대상으로 텍스트를 입력 받는 단계; 상기 텍스트에 포함된 논항(argument)과 술어(predicate)를 추출하는 단계; 및 상기 논항과 상기 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하는 단계를 실행시키기 위해 기록 매체에 기록된 컴퓨터 프로그램을 제공한다.

컴퓨터로 구현되는 시스템에 있어서, 상기 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 정보 추출 대상으로 텍스트를 입력 받아 상기 텍스트에 포함된 논항(argument)과 술어(predicate)를 추출하고, 상기 논항과 상기 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하는 것을 특징으로 하는 시스템을 제공한다.

본 발명의 실시예에 따르면, 오픈 도메인 상에서의 정보 추출로서 특정 도메인이 아닌 모든 도메인에 적용 가능한 형태의 완전 개방형 정보 추출 방법으로 모든 텍스트를 대상으로 정보를 추출할 수 있다.

본 발명의 실시예에 따르면, 하나의 텍스트에 존재하는 모든 술어-논항 간의 관계를 일관성 있게 구체화 된 삼항 관계로 변환하는 방식을 제시함으로써 텍스트로부터 보다 많은 정보를 정확하게 추출할 수 있다.

본 발명의 실시예에 따르면, 텍스트로부터 추출된 정보가 삼항 관계를 유지함으로써 다른 지식베이스와의 통합이 용이하고 기존 방식으로 질의 처리가 가능한 형태를 유지할 수 있다.

본 발명의 실시예에 따르면, 텍스트로부터 추출된 정보가 구체화 된 관계를 가짐으로써 각 개별 지식 간의 혼동 발생을 방지할 수 있고 질의 처리 결과의 정확도를 더욱 향상시킬 수 있다.

도 1은 본 발명의 일 실시예에 있어서, 개방형 정보 추출 시스템의 내부 구성을 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 있어서, 개방형 정보 추출 방법을 도시한 흐름도이다.
도 3 내지 도 5는 본 발명의 일 실시예에 있어서, 텍스트 내 정보를 구체화 된 삼항 관계로 표현하는 과정의 일 예를 도시한 것이다.
도 6 내지 도 12는 본 발명의 일 실시예에 있어서, 구문 구조에 따른 삼항 관계 변환 규칙을 설명하기 위한 예시 도면이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 실시예들은 텍스트로부터 정보를 추출하는 기술에 관한 것으로, 더욱 상세하게는 텍스트 내 존재하는 모든 술어-논항 관계를 지식화 하여 정보를 추출하는 방법 및 시스템에 관한 것이다. 이는 지식베이스 구축, 질의 응답 시스템, 지식 기반 의사 결정 시스템(예컨대, 의료 헬스케어, 법률 전문 지식, 의사결정 지원 등) 등 다양한 분야에서 적용 가능하다.

본 발명은 특정 도메인이 아닌 모든 도메인에 적용 가능한 형태의 개방형 정보 추출(open information extraction) 기법을 제공한다. 특히, 텍스트와 관련된 해당 사건의 시간과 공간에 대한 중요한 정보 손실을 막기 위해 구체화 된 삼항 관계(Reified Ternary Relationship)로 확장하여 텍스트 내 모든 정보를 추출할 수 있다. 또한, 현존하는 지식베이스들과의 통합과 서술어에 대한 질의 처리가 용이하도록 하고 개별 지식 간의 혼동을 방지하기 위해 텍스트 내의 모든 술어-논항 관계를 구체화(reification) 하여 지식 표현 언어인 RDF(Resource Description Framework) 삼항 관계로 표현할 수 있다. 기존 개방형 정보 추출은 두 개의 논항(argument) 사이에 위치한 하나의 술어(predicate), 즉 binary fact 추출에 국한하기 때문에 텍스트에서 의미하는 모든 정보를 추출 및 표현하는 능력이 부족하다. 그러나, RDF 삼항 관계는 통상 <주어, 술어, 목적어> 구조로서 술어는 주어(subject) 자리에 있는 개체(entity)와 목적어(object) 자리에 있는 개체 혹은 값(value) 간의 관계(relationship) 또는 속성(property)을 의미한다. 이러한 점에서, 본 발명에서는 텍스트로부터 추출 가능한 모든 정보를 삼항 관계로 구체화 하여 지식베이스 통합 및 질의처리를 용이하도록 할 수 있다.

이하에서는 컴퓨터로 구현되는 개방형 정보 추출 시스템과 이러한 개방형 정보 추출 시스템이 수행할 수 있는 개방형 정보 추출 방법에 대해 보다 구체적으로 설명하기로 한다.

도 1은 본 발명의 일 실시예에 있어서, 개방형 정보 추출 시스템의 내부 구성을 설명하기 위한 블록도이고, 도 2는 본 발명의 일 실시예에 있어서, 개방형 정보 추출 방법을 도시한 흐름도이다.

본 실시예에 따른 개방형 정보 추출 시스템(100)은 프로세서(110), 버스(120), 네트워크 인터페이스(130), 메모리(140), 및 데이터베이스(150)를 포함할 수 있다. 메모리(140)는 운영체제(141) 및 정보 추출 루틴(142)를 포함할 수 있다. 프로세서(110)는 술어-논항 추출기(111), 구문 구조 분석기(112), 주어 결정기(113), 구문 구조 패턴 비교기(114), 삼항 관계 추출기(115), 및 삼항 관계 구체화기(116)를 포함할 수 있다. 다른 실시예들에서 개방형 정보 추출 시스템(100)은 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다.

메모리(140)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리(140)에는 운영체제(141)와 정보 추출 루틴(142)을 위한 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(140)와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체(미도시)를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록 매체가 아닌 네트워크 인터페이스(130)를 통해 메모리(140)에 로딩될 수도 있다.

버스(120)는 개방형 정보 추출 시스템(100)의 구성요소들간의 통신 및 데이터 전송을 가능하게 할 수 있다. 버스(120)는 고속 시리얼 버스(high-speed serial bus), 병렬 버스(parallel bus), SAN(Storage Area Network) 및/또는 다른 적절한 통신 기술을 이용하여 구성될 수 있다.

네트워크 인터페이스(130)는 개방형 정보 추출 시스템(100)을 컴퓨터 네트워크에 연결하기 위한 컴퓨터 하드웨어 구성요소일 수 있다. 네트워크 인터페이스(130)는 개방형 정보 추출 시스템(100)을 무선 또는 유선 커넥션을 통해 컴퓨터 네트워크에 연결시킬 수 있다. 네트워크 인터페이스(130)는 컴퓨터 네트워크를 통해 다른 전자 기기와 통신하기 위한 기능을 제공할 수 있다. 예를 들어, 컴퓨터 네트워크는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 컴퓨터 네트워크는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.

데이터베이스(150)는 정보 추출의 대상이 되는 데이터를 저장 및 유지하는 역할을 하는 것으로, 지식원이 되는 자연언어 텍스트 등을 포함할 수 있다. 도 1에서는 개방형 정보 추출 시스템(100)의 내부에 데이터베이스(150)를 구축하여 포함하는 것으로 도시하고 있으나, 이에 한정되는 것은 아니며 시스템 구현 방식이나 환경 등에 따라 생략될 수 있고 혹은 전체 또는 일부의 데이터베이스가 별개의 다른 시스템 상에 구축된 외부 데이터베이스로서 존재하는 것 또한 가능하다.

프로세서(110)는 기본적인 산술, 로직 및 개방형 정보 추출 시스템(100)의 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(140) 또는 네트워크 인터페이스(130)에 의해, 그리고 버스(120)를 통해 프로세서(110)로 제공될 수 있다. 예를 들어 프로세서(110)는 메모리(140)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.

프로세서(110)는 구성요소들로서 술어-논항 추출기(111), 구문 구조 분석기(112), 주어 결정기(113), 구문 구조 패턴 비교기(114), 삼항 관계 추출기(115), 및 삼항 관계 구체화기(116)를 포함할 수 있다. 이러한 프로세서(110) 및 프로세서(110)의 구성요소들은 메모리(140)에 로딩된 프로그램 코드를 실행하여 도 2의 방법이 포함하는 단계들(S210 내지 S260)을 수행하도록 개방형 정보 추출 시스템(100)을 제어할 수 있다. 이러한 프로그램 코드는 프로그램 파일에서 메모리(140)와 같은 기록 장치로 로딩될 수 있다. 프로세서(110) 및 프로세서(110)의 구성요소들은 메모리(140)가 포함하는 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 또한, 프로세서(110)의 구성요소들은 프로세서(110)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 프로세서(110)가 상술한 명령에 따라 텍스트에서 술어와 논항을 추출하기 위해 동작하는 기능적 표현으로서 술어-논항 추출기(111)가 사용될 수 있다.

단계(S210)에서 술어-논항 추출기(111)는 정보 추출 대상, 즉 지식원이 되는 자연언어 텍스트를 입력으로 받아 해당 텍스트에 포함된 논항(argument)과 술어(predicate)를 추출할 수 있다. 일 예로, 술어-논항 추출기(111)는 텍스트에서 정보 추출의 기본 구성 요소인 논항과 술어를 구(phrase) 단위로 추출할 수 있다. 예를 들어, 술어-논항 추출기(111)는 텍스트를 형태소 단위로 분리한 후 분리된 형태소들에 대하여 각 단어의 문법적 성질을 나타내는 품사에 기초하여 술어와 논항을 추출할 수 있다. 문장을 구성하는 술어는 문장 구성의 기본 골격이 되는 요소에 해당되며, 주어의 동작, 상태 또는 성질 등을 서술한다. 술어는 자신이 나타내는 의미를 완성시키기 위해 다른 언어 요소를 필요로 하는데 이들을 술어의 논항이라고 한다. 예를 들어, 단일 명사, 복합 명사, 명사구, 및 명사절 등의 어휘열이 논항에 해당될 수 있다. 그리고, 술어-논항 추출기(111)는 입력된 텍스트로부터 텍스트에 포함된 술어에 대한 어미(ending word)와 위치(position) 정보, 그리고 각 논항에 대한 조사(postposition)와 위치(position) 정보를 추출할 수 있다.

단계(S220)에서 구문 구조 분석기(112)는 텍스트에서 추출된 술어와 논항 단위의 구문 구조를 분석할 수 있다. 술어-논항 간의 구문 구조는 각 논항이 어떤 술어에 종속되어 있는지에 대한 정보를 포함할 수 있다. 구문 구조 분석기(112)는 술어-논항 추출기(111)에서 추출된 술어의 어미와 위치, 그리고 논항의 조사와 위치 등을 바탕으로 텍스트에서 추출된 술어와 논항 간의 의존 구조를 분석할 수 있다. 예를 들어, 텍스트에 포함된 모든 단어 각각에 대하여 단어의 문법적 성질을 나타내는 품사에 기초하여 술어를 추출하게 되는데, 이러한 술어를 기준으로 술어의 문법 형태에 따른 논항 구조에 따라 술어에서 필요로 하는 논항 요소들을 추출함으로써 술어와 논항 간의 의존 구조를 분석할 수 있다.

단계(S230)에서 주어 결정기(113)는 텍스트에서 추출된 논항 중에서 주어를 결정하는 역할을 한다. 일 예로, 주어 결정기(113)는 텍스트에 포함된 논항 중 주어가 될 수 있는 후보 논항(예를 들어, 명사구(NP, noun phrase) 등)을 선별한 후 후보 논항 중 술어-논항 추출기(111)에서 추출된 논항의 조사와 위치를 바탕으로 위치가 가장 앞선 논항 및/또는 특정 조사(은, 는, 이, 가)를 가진 논항을 주어로 결정할 수 있다.

단계(S240)에서 구문 구조 패턴 비교기(114)는 구문 구조 분석기(112)에서 분석된 술어-논항 간 구문 구조를 사전에 정해진 대표 의존 구조 패턴과 비교하여 텍스트에 대응되는 구조 패턴을 결정할 수 있다. 술어와 논항 간의 의존 구조에 대하여 대표적인 구조 패턴을 사전에 정의할 수 있고, 구문 구조 패턴 비교기(114)는 입력 텍스트가 가진 구문 구조를 사전에 정의된 대표 의존 구조 패턴과의 비교를 수행하여 해당 텍스트에 대해 어떠한 변환 규칙을 적용할 것인지 결정할 수 있다. 대표 의존 구조 패턴은 텍스트의 구문 구조에 따른 일관성 있는 삼항 관계로의 변환 규칙을 제안하기 위한 것으로, 이에 대해서는 이하에서 다시 구체적으로 설명하기로 한다.

단계(S250)에서 삼항 관계 추출기(115)는 텍스트의 술어-논항 간 구문 구조에 대응되는 구조 패턴을 바탕으로 텍스트의 핵심 삼항 관계를 추출할 수 있다. 일 예로, 삼항 관계 추출기(115)는 텍스트에서 의미하는 핵심 내용인 주어(SBJ), 동사(VP), 목적어(OBJ)를 바탕으로 핵심 삼항 관계를 추출할 수 있다. 다시 말해, 삼항 관계 추출기(115)는 텍스트의 주어, 핵심 동사, 핵심 목적어를 바탕으로 핵심 삼항 관계를 만들 수 있다. 이러한 핵심 삼항 관계는 구체화 삼항 관계를 만들기 위한 토대가 될 수 있다.

단계(S260)에서 삼항 관계 구체화기(116)는 삼항 관계 추출기(115)에서 추출된 핵심 삼항 관계를 토대로 나머지 논항-술어 관계를 구체화 할 수 있다. 삼항 관계 구체화기(116)는 텍스트에 포함된 모든 술어-논항 간 관계를 구체화 된 삼항 관계로 표현할 수 있다. 즉, 구체화 된 삼항 관계는 텍스트의 모든 술어와 논항 관계들을 핵심 삼항 관계의 기준 아래 구체화 시킨 형태를 의미한다.

도 3은 예시 문장에 대한 개방형 정보 추출 과정을 도시한 것이다.

입력 문장(300)으로 "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."가 주어진 경우:

술어-논항 추출기(111)는 입력 문장(300)에 포함된 모든 술어와 논항을 추출할 수 있다(301). 입력 문장(300) "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."에서, 논항 <2013년, CNN(은), 세계 최고의 요리(로), 이탈리아 요리(를)>과, 술어 <선정하>가 추출된다.

구문 구조 분석기(112)는 입력 문장(300)에서 추출된 술어와 논항 간의 의존 구조를 분석할 수 있다(302). 구 단위의 의존 구조로서 논항 <2013년, CNN(은), 세계 최고의 요리(로), 이탈리아 요리(를)>에 대하여 술어 <선정하>와의 관계를 나타낼 수 있다.

주어 결정기(113)는 입력 문장(300)에서 추출된 논항 중 주어를 결정할 수 있다(303). 논항의 조사와 위치 등을 바탕으로 논항 <2013년, CNN(은), 세계 최고의 요리(로), 이탈리아 요리(를)> 중 문장의 핵심 주어 <CNN(은)>를 선정할 수 있다.

삼항 관계 추출기(115)는 입력 문장(300)의 술어와 논항 간의 의존 구조에 대응되는 구조 패턴에 따라 입력 문장(300)의 핵심 삼항 관계를 추출할 수 있다(304). 입력 문장(300) "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."에서 주어 <CNN>, 핵심 동사 <선정하>, 핵심 목적어 <이탈리아 요리>를 핵심 삼항 관계로 나타낼 수 있다.

삼항 관계 구체화기(116)는 입력 문장(300)의 핵심 삼항 관계를 토대로 입력 문장(300)에 포함된 나머지 술어-논항 관계들을 구체화 할 수 있다(305). 핵심 삼항 관계 <CNN>-<선정하>-<이탈리아 요리>를 토대로 나머지 술어-논항 간 관계를 <선정하#1>-<로>-<세계 최고의 요리>, <선정하#1>-<JOSA>-<2013년>, <선정하#1>-<SP>-<선정하>와 같이 구체화 된 삼항 관계로 표현할 수 있다.

요컨대, 도 4를 참조하면 입력 문장(400) "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."에 대하여 입력 문장(400)의 술어-논항 간 구문 구조(402)를 바탕으로 입력 문장(400) 내 모든 술어-논항 간 관계를 구체화 된 삼항 관계(405)로 표현할 수 있다. 따라서, 문장의 구문 구조를 토대로 구체화된 삼항 관계를 생성함에 따라 구 단위의 정보 추출 방식을 통해 어절 단위 추출 방식에서 발생하는 정보 손실을 방지할 수 있다.

한국어 문장을 예시로 들어 설명하고 있으나, 영어 문장도 마찬가지로 도 5에 도시한 바와 같이 영어 문장(500) "A. Einstein was awarded the Nobel Prize in Sweden in 1921."이 입력되는 경우 영어의 문법 형태 등에 따라 해당 문장(500)의 술어-논항 간 구문 구조(502)를 파악할 수 있고, 이를 토대로 문장(500) 내 모든 술어-논항 간 관계를 구체화 된 삼항 관계(505)로 표현할 수 있다.

본 발명은 텍스트의 구문 구조에 따른 일관성 있는 삼항 관계로의 변환 규칙을 제안하고자 텍스트의 구문 구조 패턴을 4가지의 대표 의존 구조 패턴으로 구분하여 정의할 수 있다.

도 6 내지 도 12는 대표 의존 구조 패턴의 예시를 설명하기 위한 도면이다.

도 6 내지 도 12에서 SBJ는 핵심 주어(subject), VP는 동사구(verb phrase), NP는 명사구(noun phrase), REL는 핵심 술어를 의미한다.

도 6은 제1 구조 패턴의 예시를 도시한 것이다.

제1 구조 패턴(600)은 <SBJ(VP)*REL>에 해당되는 구문 구조를 가지며, <SBJ(VP)*REL>의 구문 구조에 대해 [{SBJ-REL#1-ANONYMOUS}, {REL#1-VP#1-ANONYMOUS}, {VP#1-VP#2-ANONYMOUS}, {VP#2-VP*-ANONYMOUS*}]와 같은 삼항 관계 변환 규칙(610)이 정의될 수 있다. 예를 들어, 문장 "사람은 태어나서 살다가 죽는다."의 경우 <사람>은 SBJ에 해당되고, <태어나>와 <살>는 VP에 해당되고, <죽>는 REL에 해당된다. "사람은 태어나서 살다가 죽는다."의 문장은 <SBJ(VP)*REL>의 구문 구조를 가지며, 문장에서 추출된 모든 정보(SBJ, VP, REL)를 제1 구조 패턴(600)의 변환 규칙(610)에 따라 구체화된 삼항 관계(605)로 표현할 수 있다. 이때, "사람은 태어나서 살다가 죽는다."의 문장에 대해 {사람-죽#1-ANONYMOUS}와 같이 핵심 삼항 관계를 만든 후 핵심 삼항 관계를 기준으로 나머지 모든 구문 간의 관계를 {죽#1-살#1-ANONYMOUS}, {살#1-태어나#1-ANONYMOUS}와 같이 구체화 된 삼항 관계(605)로 표현할 수 있다.

도 7은 제2 구조 패턴의 예시를 도시한 것이다.

제2 구조 패턴(700)은 <(NP)*SBJ(NP)*REL>에 해당되는 구문 구조를 가지며, <(NP)*SBJ(NP)*REL>의 구문 구조에 대해 [{SBJ-REL#1-NP#1}, {REL#1-NP#2JOSA-NP#2}, {REL#1-NP#3JOSA-NP#3}, {REL#1-NP*JOSA-NP*}]와 같은 삼항 관계 변환 규칙(710)이 정의될 수 있다. 예를 들어, 문장 "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."의 경우 <CNN>은 SBJ에 해당되고, <2013년>과 <세계 최고의 요리>, 그리고 <이탈리아 요리>은 NP에 해당되고, <선정하>는 REL에 해당된다. "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."의 문장은 <(NP)*SBJ(NP)*REL>의 구문 구조를 가지며, 문장에서 추출된 모든 정보(SBJ, NP, REL)를 제2 구조 패턴(700)의 변환 규칙(710)에 따라 구체화된 삼항 관계(705)로 표현할 수 있다. 이때, "2013년 CNN은 세계 최고의 요리로 이탈리아 요리를 선정했다."의 문장에 대해 <CNN-선정하#1-이탈리아 요리>와 같이 핵심 삼항 관계를 만든 후 핵심 삼항 관계를 기준으로 나머지 모든 구문 간의 관계를 {선정하#1-로-세계 최고의 요리}, {선정하#1-JOSA-2013년}와 같이 구체화 된 삼항 관계(705)로 표현할 수 있다.

도 8은 제3 구조 패턴의 예시를 도시한 것이다.

제3 구조 패턴(800)은 <(NP)*SBJ(NP)*(VP)*REL>에 해당되는 구문 구조를 가지며, <(NP)*SBJ(NP)*(VP)*REL>의 구문 구조에 대해 [{SBJ-REL#1-ANONYMOUS}, {REL#1-VP#1-ANONYMOUS}, {VP#1-VP*-NP#1}, {VP*-NP#2JOSA-NP#2}, {VP*-NP*JOSA-NP*}]와 같은 삼항 관계 변환 규칙(810)이 정의될 수 있다. 예를 들어, 문장 "소행성대의 다른 소행성들처럼 이다의 궤도는 화성과 목적 사이에 놓이어 있다."의 경우 <이다의 궤도>은 SBJ에 해당되고, <소행성대의 다른 행성들>과 <화성과 목성 사이>는 NP에 해당되고, <놓이>는 VP에 해당되고, <있>는 REL에 해당된다. "소행성대의 다른 소행성들처럼 이다의 궤도는 화성과 목적 사이에 놓이어 있다."의 문장은 <(NP)*SBJ(NP)*(VP)*REL>의 구문 구조를 가지며, 문장에서 추출된 모든 정보(SBJ, NP, VP, REL)를 제3 구조 패턴(800)의 변환 규칙(810)에 따라 구체화된 삼항 관계(805)로 표현할 수 있다. 이때, "소행성대의 다른 소행성들처럼 이다의 궤도는 화성과 목적 사이에 놓이어 있다."의 문장에 대해 <이다의 궤도-있#1-ANONYMOUS>와 같이 핵심 삼항 관계를 만든 후 핵심 삼항 관계를 기준으로 나머지 모든 구문 간의 관계를 {있#1-놓이#1-ANONYMOUS}, {놓이#1-에-화성과 목성 사이}, {놓이#1-처럼-소행성대의 다른 소행성들}과 같이 구체화 된 삼항 관계(805)로 표현할 수 있다.

도 9는 제4 구조 패턴의 예시들을 도시한 것이다. 도 9를 참조하면, 제4 구조 패턴(900)은 <(NP)*SBJ(NP)*(VP)+(NP)+(VP)*REL>에 해당되는 구문 구조를 가지며 다양한 술어-논항 간 의존 관계를 포괄할 수 있다.

제4 구조 패턴(900)인 <(NP)*SBJ(NP)*(VP)+(NP)+(VP)*REL>의 구문 구조에 대해 도 10에 도시한 바와 같이 [{SBJ-REL#1-REL.NP#1}, {REL#1-VP#1-VP#1.NP#2}, {VP#1-VP+-VP+.NP*}, {VP+-NP*JOSA-VP+.NP*}]의 삼항 관계 변환 규칙(1010)이 정의될 수 있다. 여기서, REL.NP#1은 NP#1가 REL에 의존되어 있음을 나타내기 위한 표현이고, VP#1.NP#2는 NP#2가 VP#1에 의존되어 있음을 나타내기 위한 표현이고, VP+은 VP*와 달리 최소 한번 이상 나타나야 함을 의미한다.

예를 들어, 도 11을 참조하면 문장 "앙투앙 라부아지에는 대한민국에서는 짧게 줄여 라부아지에라고도 표기한다."의 경우 <앙투앙 라부아지에>는 SBJ에 해당되고, <대한민국>과 <라부아지에>는 NP에 해당되고, <짧게 줄이>는 VP에 해당되고, <표기하>는 REL에 해당된다. "앙투앙 라부아지에는 대한민국에서는 짧게 줄여 라부아지에라고도 표기한다."의 문장은 <(NP)*SBJ(NP)*(VP)+(NP)+(VP)*REL>의 구문 구조를 가지며, 문장에서 추출된 모든 정보(SBJ, NP, VP, REL)를 제4 구조 패턴(900)의 변환 규칙(1010)에 따라 구체화된 삼항 관계(1105)로 표현할 수 있다. 이때, "앙투앙 라부아지에는 대한민국에서는 짧게 줄여 라부아지에라고도 표기한다."의 문장에 대해 <앙투앙 라부아지에-표기하#1-ANONYMOUS>와 같이 핵심 삼항 관계를 만든 후 핵심 삼항 관계를 기준으로 나머지 모든 구문 간의 관계를 {표기하#1-라고도-라부아지에}, {표기하#1-짧게 줄이#1-ANONYMOUS}, {짧게 줄이#1-에서는-대한민국}과 같이 구체화 된 삼항 관계(1105)로 표현할 수 있다.

다른 예로, 도 12를 참조하면 문장 "라부아지에는 새로운 연소 이론을 주장하여 플로지스톤설을 폐기하면서 화학을 발전시키었다."의 경우 <라부아지에>는 SBJ에 해당되고, <새로운 연소 이론>과 <플로지스톤설>, 그리고 <화학>는 NP에 해당되고, <폐기하>와 <주장하>는 VP에 해당되고, <발전시키>는 REL에 해당된다. "라부아지에는 새로운 연소 이론을 주장하여 플로지스톤설을 폐기하면서 화학을 발전시키었다."의 문장은 <(NP)*SBJ(NP)*(VP)+(NP)+(VP)*REL>의 구문 구조를 가지며, 문장에서 추출된 모든 정보(SBJ, NP, VP, REL)를 제4 구조 패턴(900)의 변환 규칙(1010)에 따라 구체화된 삼항 관계(1205)로 표현할 수 있다. 이때, "라부아지에는 새로운 연소 이론을 주장하여 플로지스톤설을 폐기하면서 화학을 발전시키었다."의 문장에 대해 <라부아지에-발전시키#1-화학>와 같이 핵심 삼항 관계를 만든 후 핵심 삼항 관계를 기준으로 나머지 모든 구문 간의 관계를 {발전시키#1-폐기하#1-플로지스톤설}, {폐기하#1-주장하#1-새로운 연소 이론}과 같이 구체화 된 삼항 관계(1205)로 표현할 수 있다.

상기한 구문 구조에 따른 삼항 관계 변환 규칙은 언어학적 구조나 문법 형태 등에 따라 결정되는 것으로, 이러한 것으로만 한정되는 것은 아니며, 경우에 따라 얼마든지 변경 가능하다.

따라서, 본 발명에 따른 개방형 정보 추출 시스템 및 개방형 정보 추출 방법은 문장에 존재하는 모든 술어-논항 간의 관계를 일관성 있게 해당 문장의 구문 구조에 따른 변환 규칙에 따라 구체화 된 삼항 관계로 표현할 수 있다.

이처럼 본 발명의 실시예들에 따르면, 오픈 도메인 상에서의 정보 추출로서 특정 도메인이 아닌 모든 도메인에 적용 가능한 형태의 완전 개방형 정보 추출 방법으로 모든 텍스트를 대상으로 정보를 추출할 수 있다. 특히, 본 발명의 실시예에 따르면, 하나의 텍스트에 존재하는 모든 술어-논항 간의 관계를 일관성 있게 구체화 된 삼항 관계로 변환하는 방식을 제시함으로써 텍스트로부터 보다 많은 정보를 정확하게 추출할 수 있다. 그리고, 본 발명의 실시예에 따르면, 텍스트로부터 추출된 정보가 삼항 관계를 유지함으로써 다른 지식베이스와의 통합이 용이하고 기존 방식으로 질의 처리가 가능한 형태를 유지할 수 있다. 또한, 본 발명의 실시예에 따르면, 텍스트로부터 추출된 정보가 구체화 된 관계를 가짐으로써 각 개별 지식 간의 혼동 발생을 방지할 수 있고 질의 처리 결과의 정확도를 더욱 향상시킬 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터로 구현되는 방법에 있어서,
정보 추출 대상으로 텍스트를 입력 받는 단계;
상기 텍스트에 포함된 모든 논항(argument)과 술어(predicate)를 구(phrase) 단위로 추출하는 단계;
상기 논항과 상기 술어 간의 구문 구조를 분석하는 단계;
상기 논항 중에서 주어에 해당되는 논항을 결정하는 단계;
상기 논항과 상기 술어 간의 구문 구조를 사전에 정해진 삼항 관계 변환 규칙을 포함하는 대표 의존 구조 패턴과 비교하여 상기 텍스트에 대응되는 구조 패턴을 결정하는 단계; 및
상기 텍스트에 대응되는 구조 패턴을 바탕으로 상기 텍스트에 포함된 모든 논항과 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하는 단계
를 포함하고,
구문 구조 패턴이 복수 개의 대표 의존 구조 패턴으로 구분되어 정의되고,
상기 대표 의존 구조 패턴 각각에 대하여 해당 구조 패턴에 대한 삼항 관계 변환 규칙이 정의되며,
상기 텍스트에 대응되는 구조 패턴을 결정하는 단계는,
상기 복수 개의 대표 의존 구조 패턴 중에서 상기 텍스트에 대응되는 구조 패턴을 결정하고,
상기 표현하는 단계는,
상기 텍스트에 대응되는 구조 패턴에 대해 정의된 삼항 관계 변환 규칙에 따라 상기 텍스트에 포함된 모든 논항과 술어를 삼항 관계로 표현하되, 상기 논항과 상기 술어 간의 관계에 대해 상기 주어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현하는 것
을 특징으로 하는 방법.
삭제
삭제
삭제
제1항에 있어서,
상기 분석하는 단계는,
상기 논항 각각에 대하여 상기 술어에 대한 해당 논항의 의존 구조를 분석하는 것
을 특징으로 하는 방법.
삭제
제1항에 있어서,
상기 표현하는 단계는,
상기 논항과 상기 술어 간의 관계에 대해 핵심 주어와 핵심 동사 및 핵심 목적어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현하는 것
을 특징으로 하는 방법.
컴퓨터 시스템과 결합되어 정보 추출 방법을 실행시키기 위해 컴퓨터 판독가능 기록 매체에 기록된 컴퓨터 프로그램에 있어서,
상기 정보 추출 방법은,
정보 추출 대상으로 텍스트를 입력 받는 단계;
상기 텍스트에 포함된 모든 논항(argument)과 술어(predicate)를 구(phrase) 단위로 추출하는 단계;
상기 논항과 상기 술어 간의 구문 구조를 분석하는 단계;
상기 논항 중에서 주어에 해당되는 논항을 결정하는 단계;
상기 논항과 상기 술어 간의 구문 구조를 사전에 정해진 삼항 관계 변환 규칙을 포함하는 대표 의존 구조 패턴과 비교하여 상기 텍스트에 대응되는 구조 패턴을 결정하는 단계; 및
상기 텍스트에 대응되는 구조 패턴을 바탕으로 상기 텍스트에 포함된 모든 논항과 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하는 단계
를 포함하고,
구문 구조 패턴이 복수 개의 대표 의존 구조 패턴으로 구분되어 정의되고,
상기 대표 의존 구조 패턴 각각에 대하여 해당 구조 패턴에 대한 삼항 관계 변환 규칙이 정의되며,
상기 텍스트에 대응되는 구조 패턴을 결정하는 단계는,
상기 복수 개의 대표 의존 구조 패턴 중에서 상기 텍스트에 대응되는 구조 패턴을 결정하고,
상기 표현하는 단계는,
상기 텍스트에 대응되는 구조 패턴에 대해 정의된 삼항 관계 변환 규칙에 따라 상기 텍스트에 포함된 모든 논항과 술어를 삼항 관계로 표현하되, 상기 논항과 상기 술어 간의 관계에 대해 상기 주어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현하는 것
을 특징으로 하는, 컴퓨터 판독가능 기록 매체에 기록된 컴퓨터 프로그램.
컴퓨터로 구현되는 시스템에 있어서,
상기 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서는,
정보 추출 대상으로 텍스트를 입력 받아 상기 텍스트에 포함된 모든 논항(argument)과 술어(predicate)를 구(phrase) 단위로 추출하고,
상기 논항과 상기 술어 간의 구문 구조를 분석하고,
상기 논항 중에서 주어에 해당되는 논항을 결정하고,
상기 논항과 상기 술어 간의 구문 구조를 사전에 정해진 삼항 관계 변환 규칙을 포함하는 대표 의존 구조 패턴과 비교하여 상기 텍스트에 대응되는 구조 패턴을 결정하고,
상기 텍스트에 대응되는 구조 패턴을 바탕으로 상기 텍스트에 포함된 모든 논항과 술어를 RDF(Resource Description Framework)의 삼항 관계(Ternary Relationship)로 표현하고,
구문 구조 패턴이 복수 개의 대표 의존 구조 패턴으로 구분되어 정의되고,
상기 대표 의존 구조 패턴 각각에 대하여 해당 구조 패턴에 대한 삼항 관계 변환 규칙이 정의되며,
상기 적어도 하나의 프로세서는, 상기 텍스트에 대응되는 구조 패턴을 결정하기 위해,
상기 복수 개의 대표 의존 구조 패턴 중에서 상기 텍스트에 대응되는 구조 패턴을 결정하고,
상기 적어도 하나의 프로세서는, 상기 삼항 관계로 표현하기 위해,
상기 텍스트에 대응되는 구조 패턴에 대해 정의된 삼항 관계 변환 규칙에 따라 상기 텍스트에 포함된 모든 논항과 술어를 삼항 관계로 표현하되, 상기 논항과 상기 술어 간의 관계에 대해 상기 주어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현하는 것
을 특징으로 하는 시스템.
삭제
삭제
삭제
제9항에 있어서,
상기 적어도 하나의 프로세서는, 상기 구문 구조를 분석하기 위해,
상기 논항 각각에 대하여 상기 술어에 대한 해당 논항의 의존 구조를 분석하는 것
을 특징으로 하는 시스템.
삭제
제9항에 있어서,
상기 적어도 하나의 프로세서는, 상기 삼항 관계로 표현하기 위해,
상기 논항과 상기 술어 간의 관계에 대해 핵심 주어와 핵심 동사 및 핵심 목적어를 포함하는 핵심 삼항 관계를 표현하고 상기 핵심 삼항 관계를 토대로 나머지 논항과 술어 간의 관계를 구체화 한 삼항 관계를 표현하는 것
을 특징으로 하는 시스템.