KR101983477B1

KR101983477B1 - 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템

Info

Publication number: KR101983477B1
Application number: KR1020170160211A
Authority: KR
Inventors: 최기선; 김은경
Original assignee: 한국과학기술원
Priority date: 2017-11-28
Filing date: 2017-11-28
Publication date: 2019-05-29

Abstract

단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템이 제시된다. 본 발명에서 제안하는 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 시스템은 입력 문서에서 문단을 분해하여 인식하는 문단 인식기, 인식된 문단에 대하여 문장을 분리하는 문장 분리기, 분리된 문장 단위에서 지식베이스의 개체를 인식하는 개체 인식기, 인식된 개체 사이의 관계를 지식베이스에서 찾아 개체-관계 그래프를 생성하는 개체 그래프 생성기, 개체-관계 그래프 상에서 중심성을 이용하여 그래프 상의 개체 간 가중치를 계산하는 그래프 가중치 계산기, 계산된 가중치에 기반하여 문단의 중심 개체를 선별하는 중심 개체 선별기 및 선별된 중심 개체를 이용하여 주어 성분이 생략된 문장에 대한 주어를 복원하는 생략 주어 복원기를 포함한다.

Description

단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템{Method and System for zero subject resolution in Korean using a paragraph-based pivotal entity identification}

본 발명은 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템 에 관한 것이다.

관계 추출(Relation Extraction)이란 비구조적인 자연어 문장 내에 존재하는 한 쌍의 개체간의 의미적 연관관계를 추출하여 구조적인 트리플렛(Triplet)으로 구성하는 작업을 의미한다. 트리플렛이란 두 개체 간의 관계를 <개체1, 관계, 개체2>와 같이 세 개의 항으로 표현하는 구조이다. 2000년대 초반까지의 관계 추출 기술은 수작업으로 만든 데이터를 통하여 추출 규칙을 찾아내거나, 훈련용 레이블 데이터로부터 특징 벡터를 생성하여 다양한 기계학습을 적용하여 사전 정의된 관계에 해당하는 예시에 대한 관계 유형을 추출하는 데 초점이 맞춰졌다. 2000년대 후반 대용량의 지식베이스(Knowledge Base)의 보급이 확대되면서 지식베이스와 텍스트의 정렬 기반의 휴리스틱을 통하여 기계학습에 사용되는 초기 훈련용 레이블 데이터를 자동으로 생성하는 형태인 원거리 감독(Distant Supervision)의 패러다임이 제시되었다.

원거리 감독법은 어떤 관계(예를 들어, 'presidentOf')를 가진 키워드 쌍(예를 들어, '도널드 트럼프', '미국')이 포함되어 있는 문장이 있다면, 해당 문장은 두 키워드의 관계를 표현할 가능성이 높다는 가정에 기초하여, 텍스트내의 키워드를 주어진 지식베이스의 개체(entity)에 정렬한 다음 이 정렬된 데이터를 초기 레이블 데이터로 직접 사용하여 관계 추출 시스템을 학습하는 방법이다.

원거리 감독법은 직접 감독 방식(Directly Supervision) 방법에 비해 관계 추출기의 학습에 사용될 초기 레이블 데이터의 정확성은 낮지만, 사람의 수동 주석 작업 없이 방대한 양의 초기 데이터를 구축할 수 있다는 장점을 가져 최근 관계 추출 영역에 널리 활용되고 있다. 그러나 원거리 감독법은 두 개의 대상 개체가 모두 포함 된 단일 문장으로 제한되는 관계만 추출 할 수 있다.

그러나 이 방법은 주어 혹은 목적어가 생략되어 단일 개체만 포함한 문장의 범위에서는 지식베이스를 통한 초기 레이블 데이터 취득에 어려움이 있게 된다.

또 다른 방법으로, 코퍼스(corpus) 정보를 이용하는 방법으로 이는 조응(照應) 정보가 표시된 코퍼스 등을 이용하여 주어 생략 성분 복원을 위한 확률 정보를 추출하고, 이를 기반으로 생략 성분의 선행사 후보를 찾는 방법이다. 이 방법은 코퍼스의 구축에 많은 비용이 소비되고, 구축된 코퍼스의 양이 적을 경우 성능이 떨어지는 단점이 있어 한국어 문장에서의 생략 성분 복원 성능의 향상에 한계가 있는 문제점이 있었다.

본 발명이 이루고자 하는 기술적 과제는 적어도 하나 이상의 문장 및 문단으로 구성된 한국어 입력문서로부터 키워드를 추출하여 공개된 지식베이스에 연결함으로써 지식베이스 상에서의 개체 중심성 기반의 가중치를 부여하여 입력문서의 단락내 키워드간의 연결 중요도가 반영된 키워드 순위를 결정되도록 함으로써 단락 기반 핵심 개체를 식별하고 이를 통해 입력문서에 등장한 문장에 대한 추가 부분을 삽입함으로써 한국어 주어의 생략 성분 복원 방법 및 시스템을 제공하는데 있다.

일 측면에 있어서, 본 발명에서 제안하는 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 시스템은 입력 문서에서 문단을 분해하여 인식하는 문단 인식기, 인식된 문단에 대하여 문장을 분리하는 문장 분리기, 분리된 문장 단위에서 지식베이스의 개체를 인식하는 개체 인식기, 인식된 개체 사이의 관계를 지식베이스에서 찾아 개체-관계 그래프를 생성하는 개체 그래프 생성기, 개체-관계 그래프 상에서 중심성을 이용하여 그래프 상의 개체 간 가중치를 계산하는 그래프 가중치 계산기, 계산된 가중치에 기반하여 문단의 중심 개체를 선별하는 중심 개체 선별기 및 선별된 중심 개체를 이용하여 주어 성분이 생략된 문장에 대한 주어를 복원하는 생략 주어 복원기를 포함한다.

상기 문단 인식기는 모든 문서 범위에 대하여 문단 이름을 제목(Heading) 태그로 분리한 HTML 문서이거나 또는 두 개 이상의 공백줄로 분리된 단위의 문장을 포함한 범위를 문단으로 인식한다.

상기 문장 분리기는 마침표, 물음표, 느낌표를 포함하는 구두점으로 구분된 10자 이상의 문자를 포함한 문자열의 집합이거나 또는 줄 바꿈 행으로 구분된 5자 이상의 문자열의 집합을 포함하는 것을 문장으로 분리한다.

상기 개체 인식기는 분리된 문장으로부터 특정 지식베이스를 사전으로 하여 문장 내에 등장하는 특정 기관명, 장소명, 사람이름, 시간표현을 포함하는 다양한 도메인의 개체명을 인식한다.

상기 개체 그래프 생성기는 인식된 문단의 모든 문장에 대하여 개체가 인식된 후, 인식된 개체를 집합으로 구성하고, 구성된 개체 집합의 서로 다른 두 원소를 조합한 개체쌍을 생성하며, 개체쌍 사이의 관계 트리플렛을 지식베이스 내에서 검색하여 개체-관계를 바탕으로 방향그래프(Directed Graph)로 구성한다.

상기 그래프 가중치 계산기는 상기 중심성은 그래프 내에서 하나의 노드에 연결된 모든 간선의 가중치의 합으로 중심성을 평가하고, 노드로 들어오는 간선인 인-디그리(In-Degree)만 계산하는 경우 해당 노드의 그래프 상에서의 인기도를 측정하고, 아웃-디그리(Out-Degree)만 계산하는 경우 해당 노드의 그래프 상에서의 영향력을 측정한다.

상기 생략 주어 복원기는 선별된 최종 중심 개체를 사용하여 문장의 가장 앞에 위치시킴으로써 하나의 문장에 개체 단어를 추가하여 문장의 컨텍스트를 확장하고, 최종 중심 개체가 생략된 주어임을 가정하여 복원된 문장에서 나타나는 한 쌍의 개체는 잠재적인 관계 추출의 후보 문장으로 간주된다.

또 다른 일 측면에 있어서, 본 발명에서 제안하는 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법은 문단 인식기를 통해 입력 문서에서 문단을 분해하여 인식하는 단계, 문장 분리기를 통해 상기 인식된 문단에 대하여 문장을 분리하는 단계, 개체 인식기를 통해 상기 분리된 문장 단위에서 지식베이스의 개체를 인식하는 단계, 개체 그래프 생성기를 통해 상기 인식된 개체 사이의 관계를 지식베이스에서 찾아 개체-관계 그래프를 생성하는 단계, 그래프 가중치 계산기를 통해 개체-관계 그래프 상에서 중심성을 이용하여 그래프 상의 개체 간 가중치를 계산하는 단계, 중심 개체 선별기를 통해 상기 계산된 가중치에 기반하여 문단의 중심 개체를 선별하는 단계 및 생략 주어 복원기를 통해 상기 선별된 중심 개체를 이용하여 주어 성분이 생략된 문장에 대한 주어를 복원하는 단계를 포함한다.

상기 문단 인식기를 통해 입력 문서에서 문단을 분해하여 인식하는 단계는 모든 문서 범위에 대하여 문단 이름을 제목(Heading) 태그로 분리한 HTML 문서이거나 또는 두 개 이상의 공백줄로 분리된 단위의 문장을 포함한 범위를 문단으로 인식한다.

상기 문장 분리기를 통해 상기 인식된 문단에 대하여 문장을 분리하는 단계는 마침표, 물음표, 느낌표를 포함하는 구두점으로 구분된 10자 이상의 문자를 포함한 문자열의 집합이거나 또는 줄 바꿈 행으로 구분된 5자 이상의 문자열의 집합을 포함하는 것을 문장으로 분리한다.

상기 개체 인식기를 통해 상기 분리된 문장 단위에서 지식베이스의 개체를 인식하는 단계는 분리된 문장으로부터 특정 지식베이스를 사전으로 하여 문장 내에 등장하는 특정 기관명, 장소명, 사람이름, 시간표현을 포함하는 다양한 도메인의 개체명을 인식한다.

상기 개체 그래프 생성기를 통해 상기 인식된 개체 사이의 관계를 지식베이스에서 찾아 개체-관계 그래프를 생성하는 단계는 인식된 문단의 모든 문장에 대하여 개체가 인식된 후, 인식된 개체를 집합으로 구성하고, 구성된 개체 집합의 서로 다른 두 원소를 조합한 개체쌍을 생성하며, 개체쌍 사이의 관계 트리플렛을 지식베이스 내에서 검색하여 개체-관계를 바탕으로 방향그래프(Directed Graph)로 구성한다.

상기 그래프 가중치 계산기를 통해 개체-관계 그래프 상에서 중심성을 이용하여 그래프 상의 개체 간 가중치를 계산하는 단계는 상기 중심성은 그래프 내에서 하나의 노드에 연결된 모든 간선의 가중치의 합으로 중심성을 평가하고, 노드로 들어오는 간선인 인-디그리(In-Degree)만 계산하는 경우 해당 노드의 그래프 상에서의 인기도를 측정하고, 아웃-디그리(Out-Degree)만 계산하는 경우 해당 노드의 그래프 상에서의 영향력을 측정한다.

상기 생략 주어 복원기를 통해 상기 선별된 중심 개체를 이용하여 주어 성분이 생략된 문장에 대한 주어를 복원하는 단계는 선별된 최종 중심 개체를 사용하여 문장의 가장 앞에 위치시킴으로써 하나의 문장에 개체 단어를 추가하여 문장의 컨텍스트를 확장하고, 최종 중심 개체가 생략된 주어임을 가정하여 복원된 문장에서 나타나는 한 쌍의 개체는 잠재적인 관계 추출의 후보 문장으로 간주된다.

본 발명의 실시예들에 따르면 종래의 방법에 비해 한국어 문장에서 생략된 주어 성분을 복원하는데 있어, 형태소 분석기 및 구문 분석기 등의 자연어처리도구의 사용 없이 신속하게 생략 성분을 복원할 수 있으므로, 이에 따라 입력으로 들어온 한국어 문장에 대하여 자동으로 컨텍스트를 확장할 수 있고, 이에 따라 한국어 문장에 대한 관계 추출 학습 데이터 생성시 자동으로 대량의 레이블 데이터 생성이 가능하게 되어 관계 추출 시스템의 성능을 향상시키는데 유용하게 이용될 수 있다. 특히, 코퍼스를 구축해야 하는 수작업 비용을 감소시키는 방법을 제안함으로써 관계 추출을 비롯한 다양한 정보 추출 기술에 활용될 수 있는 유연성을 지닌다.

도 1은 본 발명의 일 실시예에 따른 지식베이스를 이용한 학습 데이터 사용의 예시를 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 시스템의 구성을 나타낸다.
도 3은 본 발명의 일 실시예에 따른 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 가중치 방향 그래프 G를 시각화한 도면이다.
도 5는 본 발명의 일 실시예에 따른 지식베이스에 존재하는 트리플렛을 이용한 학습 데이터 사용의 예시를 나타내는 도면이다.

본 발명은 주어가 생략된 한국어 문장에 대해 생략된 원래의 주어 성분을 복원하는 방법 및 시스템에 관한 것으로, 더욱 상세하게는 주어 성분이 생략된 한국어 문단 내에서 개체간의 연결정보를 바탕으로 핵심 개체를 식별하여 주어가 복원된 문장을 생성할 수 있는 방법 및 시스템에 관한 것이다.

본 발명은 적어도 하나 이상의 문장 및 문단으로 구성된 한국어 입력문서로부터 키워드를 추출하여 공개된 지식베이스에 연결함으로써 지식베이스 상에서의 개체 중심성 기반의 가중치를 부여하여 입력문서의 단락내 키워드간의 연결 중요도가 반영된 키워드 순위를 결정되도록 함으로써 단락 기반 핵심 개체를 식별하고 이를 통해 입력문서에 등장한 문장에 대한 추가 부분을 삽입함으로써 한국어 주어의 생략 성분 복원 방법 및 시스템을 제공하는데 있다.

또한, 본 발명의 목적은, 완전한 서술형으로 문장을 종결하는 것이 아니라 간결하고 요점적인 단어로 서술되는 문장형태인 개조식 문장, 즉 중요하고 핵심적인 요소만 간추려서 항목별로 나열하듯이 표현하는 문장으로부터 완전 서술형 문장으로의 복원 방법을 도모할 수 있는 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템을 제공하는데 있다.

또한, 본 발명의 목적은, 관계 추출 학습에 사용될 원거리 감독법 기반의 학습 레이블 데이터 자동 생성에 있어 그 범위를 단일 문장에서부터 복문 사이, 즉 문단(단락) 단위로 확장함으로써 관계 추출 학습에 사용되는 코퍼스의 자동 확장 방법으로 이용할 수 있는 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템을 제공하는데 있다.

본 발명에서는 다른 방법에서는 시도되지 않았던 단락 내에 등장하는 단어를 지식베이스의 개체에 연결하여 미리 정의된 지식베이스 내의 개체간 연결 관계를 기반으로 중심 개체를 선출하고, 그 중심 개체를 이용하여 문장의 생략 성분으로 복원하는 방식이다. 특히 구문분석기나 형태소분석기 등 외부 자연언어처리 도구 실행 없이 수행할 수 있는 생략 성분 복원 방식으로 어느 언어 데이터에 대해서도 폭넓게 활용할 수 있는 언어 독립적인 방법이며 다른 방법들에서는 시도되지 않았던 것이다. 이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.

종래 기술에 따른 원거리 감독법은 어떤 관계(예를 들어, 'presidentOf')를 가진 키워드 쌍(예를 들어, '도널드 트럼프', '미국')이 포함되어 있는 문장이 있다면, 해당 문장은 두 키워드의 관계를 표현할 가능성이 높다는 가정에 기초하여, 텍스트내의 키워드를 주어진 지식베이스의 개체(entity)에 정렬한 다음 이 정렬된 데이터를 초기 레이블 데이터로 직접 사용하여 관계 추출 시스템을 학습하는 방법이다. 예를 들어 지식베이스에 서로 다른 두 개체 '도널드 트럼프'와 '미국'의 관계가 'presidentOf'라는 것이 존재할 수 있으며 그 형식은 트리플렛 "<도널드 트럼프, presidentOf, 미국>"과 같이 표현될 수 있다. 이때 원거리 감독법의 접근 방법에 따라 아래 예문 1은 관계 유형 'presidentOf'를 표현하는 예시라고 가정할 수 있다.

그러나 이 방법은 주어 혹은 목적어가 생략되어 단일 개체만 포함한 문장의 범위에서는 지식베이스를 통한 초기 레이블 데이터 취득에 어려움이 있게 된다. 특히, 한국어 문장에서 주어는 필수적 성분이지만 문맥적으로 보아 주어가 명시되지 않아도 그 문장의 주어가 무엇인지 알 수 있는 경우에는 주어가 생략되는 수가 존재한다. 다음 예문에서 생략된 주어의 자리에는 기호 φ를 이용하여 명시하였다.

예문 2의 예시문장 B와 C의 서술어 '창립자다'와 '사망했다'의 주어가 없는 것을 볼 수 있다. 그것은 문맥상 앞의 문장의 '스티브 잡스는'이 예문 2의 예시문장 B와 C의 주어인 것이 분명하기 때문이다. 또한 다음의 예에서와 같이, 담화 혹은 물음에 대하여 대답하는 한국어 문장에서도 주어가 생략될 수 있다.

도 1은 본 발명의 일 실시예에 따른 지식베이스를 이용한 학습 데이터 사용의 예시를 나타내는 도면이다.

주어란 서술의 대상이 되는 것으로, 문장 내에 주어가 명확히 지정되어야 그에 대한 설명이 주어질 수 있기 때문에, 관계 추출 영역에서도 생략된 한국어의 주어 성분을 복원해야만 원거리 감독법을 이용한 관계 추출을 올바르게 수행할 수 있다. 기존 원거리 감독법으로는 위에 제시된 예문 2의 예시문장 A '스티브 잡스(121a)는 미국(122a)의 기업인이었다'에 대하여, 특정한 하나의 지식베이스(110)(예를 들어, DBPedia)를 이용하여 다음의 정렬관계를 통해 관계 유형 'birthPlace'(111)와 'deathPlace'(112)에 대한 학습 데이터로 사용될 수 있다. 그러나 그 외 예문인 예문 2의 예시문장 B '애플(121b)의 전 CEO이자 공동 창립자다'(관계 유형 'founderOf'(113))와 C '2011년 10월 5일 췌장암(121c)에 의해 사망했다'(관계 유형 'deathcause'(114))는 관계 학습 데이터로 취급되지 못한다.

실제 한국어 위키백과 문서에서 임의의 문서 20개로부터 단락을 추출하여 문장 내 생략 성분을 조사한 결과는 아래 표 1과 같으며, 평균적으로 약 50%의 문장에서 주어 혹은 목적어의 성분이 생략된 것을 알 수 있었다.

<표 1>

한국어의 주어 생략 문제점을 해결하기 위한 하나의 방법으로 언어학적 지식을 이용한 규칙 기반 주어 생략 성분 복원 방법이 있으나 이는 언어의 형태소 및 구문정보를 이용한 규칙을 생성하고 생략 주어 성분에 대한 후보를 추출하는 것으로 시스템의 성능은 비교적 좋으나 새로운 규칙의 추가가 어려운 문제점으로 인해 추가적인 성능 향상에 한계가 있으며 자연어 처리 도구인 구문 분석기의 획득이 어려워 보편적으로 널리 활용되기 어렵다는 문제점을 갖고 있다.

도 2는 본 발명의 일 실시예에 따른 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 시스템의 구성을 나타낸다.

제안하는 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 시스템은 문단 인식기(210), 문장 분리기(220), 개체 인식기(230), 개체 그래프 생성기(240), 그래프 가중치 계산기(250), 중심 개체 선별기(260), 생략 주어 복원기(270)를 포함한다.

문단 인식기(210)는 모든 문서 범위에 대하여 문단 이름을 제목(Heading) 태그로 분리한 HTML 문서이거나 또는 두 개 이상의 공백줄로 분리된 단위의 문장을 포함한 범위를 문단으로 인식한다.

문장 분리기(220)는 마침표, 물음표, 느낌표를 포함하는 구두점으로 구분된 10자 이상의 문자를 포함한 문자열의 집합이거나 또는 줄 바꿈 행으로 구분된 5자 이상의 문자열의 집합을 포함하는 것을 문장으로 분리한다.

개체 인식기(230)는 분리된 문장으로부터 특정 지식베이스를 사전으로 하여 문장 내에 등장하는 특정 기관명, 장소명, 사람이름, 시간표현을 포함하는 다양한 도메인의 개체명을 인식한다

개체 그래프 생성기(240)는 인식된 문단의 모든 문장에 대하여 개체가 인식된 후, 인식된 개체를 집합으로 구성하고, 구성된 개체 집합의 서로 다른 두 원소를 조합한 개체쌍을 생성하며, 개체쌍 사이의 관계 트리플렛을 지식베이스 내에서 검색하여 개체-관계를 바탕으로 방향그래프(Directed Graph)로 구성한다.

그래프 가중치 계산기(250)는 상기 중심성은 그래프 내에서 하나의 노드에 연결된 모든 간선의 가중치의 합으로 중심성을 평가하고, 노드로 들어오는 간선인 인-디그리(In-Degree)만 계산하는 경우 해당 노드의 그래프 상에서의 인기도를 측정하고, 아웃-디그리(Out-Degree)만 계산하는 경우 해당 노드의 그래프 상에서의 영향력을 측정한다.

중심 개체 선별기(260)는 계산된 가중치에 기반하여 문단의 중심 개체를 선별한다.

생략 주어 복원기(270)는 선별된 최종 중심 개체를 사용하여 문장의 가장 앞에 위치시킴으로써 하나의 문장에 개체 단어를 추가하여 문장의 컨텍스트를 확장하고, 최종 중심 개체가 생략된 주어임을 가정하여 복원된 문장에서 나타나는 한 쌍의 개체는 잠재적인 관계 추출의 후보 문장으로 간주된다.

단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 시스템의 문단 인식기(210), 문장 분리기(220), 개체 인식기(230), 개체 그래프 생성기(240), 그래프 가중치 계산기(250), 중심 개체 선별기(260), 생략 주어 복원기(270)는 도 3의 단계들(310~370)을 수행하기 위해 구성될 수 있다.

도 3은 본 발명의 일 실시예에 따른 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법을 설명하기 위한 흐름도이다.

제한 하는 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법은 문단 인식기를 통해 입력 문서에서 문단을 분해하여 인식하는 단계(310), 문장 분리기를 통해 상기 인식된 문단에 대하여 문장을 분리하는 단계(320), 개체 인식기를 통해 상기 분리된 문장 단위에서 지식베이스의 개체를 인식하는 단계(330), 개체 그래프 생성기를 통해 상기 인식된 개체 사이의 관계를 지식베이스에서 찾아 개체-관계 그래프를 생성하는 단계(340), 그래프 가중치 계산기를 통해 개체-관계 그래프 상에서 중심성을 이용하여 그래프 상의 개체 간 가중치를 계산하는 단계(350), 중심 개체 선별기를 통해 상기 계산된 가중치에 기반하여 문단의 중심 개체를 선별하는 단계(360) 및 생략 주어 복원기를 통해 상기 선별된 중심 개체를 이용하여 주어 성분이 생략된 문장에 대한 주어를 복원하는 단계(370)를 포함한다.

단계(310)에서, 문단 인식기를 통해 입력 문서에서 문단을 분해하여 인식한다. 모든 문서 범위에 대하여 문단 이름을 제목(Heading) 태그로 분리한 HTML 문서이거나 또는 두 개 이상의 공백줄로 분리된 단위의 문장을 포함한 범위를 문단으로 인식한다.

단계(320)에서, 문장 분리기를 통해 상기 인식된 문단에 대하여 문장을 분리한다. 마침표, 물음표, 느낌표를 포함하는 구두점으로 구분된 10자 이상의 문자를 포함한 문자열의 집합이거나 또는 줄 바꿈 행으로 구분된 5자 이상의 문자열의 집합을 포함하는 것을 문장으로 분리한다.

단계(330)에서, 개체 인식기를 통해 상기 분리된 문장 단위에서 지식베이스의 개체를 인식한다. 분리된 문장으로부터 특정 지식베이스를 사전으로 하여 문장 내에 등장하는 특정 기관명, 장소명, 사람이름, 시간표현을 포함하는 다양한 도메인의 개체명을 인식한다.

단계(340)에서, 개체 그래프 생성기를 통해 상기 인식된 개체 사이의 관계를 지식베이스에서 찾아 개체-관계 그래프를 생성한다. 인식된 문단의 모든 문장에 대하여 개체가 인식된 후, 인식된 개체를 집합으로 구성하고, 구성된 개체 집합의 서로 다른 두 원소를 조합한 개체쌍을 생성하며, 개체쌍 사이의 관계 트리플렛을 지식베이스 내에서 검색하여 개체-관계를 바탕으로 방향그래프(Directed Graph)로 구성한다.

단계(350)에서, 그래프 가중치 계산기를 통해 개체-관계 그래프 상에서 중심성을 이용하여 그래프 상의 개체 간 가중치를 계산한다. 상기 중심성은 그래프 내에서 하나의 노드에 연결된 모든 간선의 가중치의 합으로 중심성을 평가하고, 노드로 들어오는 간선인 인-디그리(In-Degree)만 계산하는 경우 해당 노드의 그래프 상에서의 인기도를 측정하고, 아웃-디그리(Out-Degree)만 계산하는 경우 해당 노드의 그래프 상에서의 영향력을 측정한다.

단계(360)에서, 중심 개체 선별기를 통해 상기 계산된 가중치에 기반하여 문단의 중심 개체를 선별한다.

단계(370)에서, 생략 주어 복원기를 통해 상기 선별된 중심 개체를 이용하여 주어 성분이 생략된 문장에 대한 주어를 복원한다. 선별된 최종 중심 개체를 사용하여 문장의 가장 앞에 위치시킴으로써 하나의 문장에 개체 단어를 추가하여 문장의 컨텍스트를 확장하고, 최종 중심 개체가 생략된 주어임을 가정하여 복원된 문장에서 나타나는 한 쌍의 개체는 잠재적인 관계 추출의 후보 문장으로 간주된다. 아래에서 도 4 및 도 5를 참조 하여, 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템에 대하여 더욱 상세히 설명한다.

문단 인식기(210)는 입력 문서에서 문단을 분해하여 인식한다. 문단 인식기(210)는 시스템이 입력으로 받는 문서로부터 문단 분해를 수행한다. 더욱 상세하게는, 단락 이름을 제목(Heading) 태그로 분리한 HTML 문서이거나 두 개 이상의 공백줄로 분리된 단위의 문장을 포함한 모든 문서 범위에 대하여 문단으로 추출할 수 있다.

HTML에서 제목태그는 <H1>부터 <H6>까지 총 6개가 존재하며 대제목, 중제목, 소제목 등을 나타내기 위하여 글자의 크기, 색, 굵기 등에 변화를 주어 나타내는 태그를 말한다. 제목 태그를 사용하는 경우 공백줄이 포함되지 않아도 단락의 변화를 감지할 수 있으므로 하나의 제목태그를 기준으로 동일한 문단으로 간주한다.

또한, HTML처럼 구조화된 문법을 사용하여 기술하지 못하는 일반 문서에 대해서는 입력문서로부터 두 개 이상의 공백줄을 기준으로 문단으로 분리한다.

문장 분리기(220)는 인식된 문단에 대하여 문장을 분리한다. 문장 분리기(220)는 상기 단계에서 분석된 문단에 대한 '문장' 분해를 수행한다. 문장의 사전적인 의미는 '생각이나 감정을 말과 글로 표현할 때 완결된 내용을 나타내는 최소의 단위'로 정의되어 있으며 이에 따라 본 발명에서의 문장은 구두점(마침표, 물음표, 느낌표)로 구분된 10자 이상의 문자를 포함한 문자열의 집합이거나 줄바꿈행으로 구분된 5자 이상의 문자열의 집합을 포함한다.

구두점으로 구분된 10자 이상의 문자를 포함한 문자열의 집합은 보통의 일반 서술형 문장들을 나타내며 문장분리기에 의해 경계가 나뉘는 예문은 예문 4와 같다.

줄바꿈행으로 구분된 5자 이상의 문자열의 집합에 속하는 것은 개조식 형태의 문장들을 나타내며 본 발명 문장분리기에 의해 경계가 나뉘는 예문은 예문 5와 같다.

실제 한국어 위키백과 전체 약 33만 문서를 대상으로 추출된 문장을 분석한 결과, 10자 이상의 문자를 포함한 일반 서술형 문장은 약 340만 문장이며, 개조식 형태로 서술된 불완전한 문장(5문자 이상 포함하는 문장)은 약 330만 문장으로 한국어 문서 내 일반 서술형 문장뿐 아니라 주어, 목적어, 서술어 등의 성분이 생략된 불완전한 문장의 비율이 약 절반정도로 많은 양을 차지하는 것을 알 수 있었다.

개체 인식기(230)는 분리된 문장 단위에서 지식베이스의 개체를 인식한다. 개체 인식기(230)는 문장 단위로 분리된 문장으로부터 특정 지식베이스를 사전으로 하여 문장내에 등장하는 특정 기관명, 장소 명, 사람이름, 시간표현 등의 다양한 도메인의 개체명 즉 고유명사나 특정 단어를 인식하는 모듈이다. 개체 인식은 미리 정의된 개체명 범주에 맞는 개체명 사전을 바탕으로 다양한 방법을 통해 해결할 수 있으며, 본 발명의 범주에는 포함하지 않는다.

다만, 본 발명에서 인식되는 문장은 주어진 특정의 지식베이스의 개체명이 시작태그 '['와 종료태그 ']'를 사용하여 단일 범위로 인식된 개체가 태깅된 문장을 입력으로 받는다는 것을 가정하며 그 예시는 예문 6과 같다.

도 4는 본 발명의 일 실시예에 따른 가중치 방향 그래프 G를 시각화한 도면이다.

개체 그래프 생성기(240)는 인식된 개체 사이의 관계를 지식베이스에서 찾아 개체-관계 그래프를 생성한다. 개체 그래프 생성기(240)는 주어진 단락의 모든 문장에서 개체가 식별 된 후 발견된 개체를 집합으로 구성하며 구성된 개체 집합의 서로 다른 두 원소를 조합한 개체 쌍을 생성하여 개체쌍 사이의 관계 트리플렛을 지식베이스에서 검색하여 그 연결 관계를 바탕으로 방향그래프(Directed Graph)로 구성한다. 방향그래프는 방향을 가지고 있는 간선들을 연결하고 있는 노드들의 집합이며 노드 사이의 간선은 화살표로 표시한다. 노드 A에서 노드 B를 연결하는 간선, 즉 A->B를 <A, B>로 표현하고 화살표로 나타낸다. 방향그래프에서는 두 개의 동일한 노드 사이의 서로 다른 방향을 나타내는 두 쌍, 즉 <A, B>와 <B, A>는 서로 다른 간선이 된다. 또한 노드를 연결하는 간선에 가중치(weighted edge)를 할당한 그래프를 구성할 수 있으며 가중치의 의미는 노드에서 노드로 가는 거리 혹은 노드에서 노드까지 도달하는 비용을 나타낸다. 가중치가 부여된 간선을 이용한 방향 그래프는 <A, B, 0.3>, <B, A, 1> 과 같이 표현된다.

예를 들어, 예문 6에서 추출된 개체 집합 E는 다음과 같다. 스티브 잡스(410)에 관한 개체 집합 E는 미국(421), 애플(기업)(422), 췌장암(423) 등의 개체를 포함한다.

이때 간선의 가중치는 지식베이스에 두개의 개체(노드) 사이에 존재하는 관계 유형의 이름에 따라 계산한다. 예를 들어 두개의 개체(노드) '스티브 잡스'와 '미국' 사이의 관계 유형으로 'birthPlace'와 'deathPlace' 두 개가 지식베이스에 존재하는 경우 가중치 간선은 '<스티브 잡스, 미국, 2>'이 된다. 주어진 예문의 개체 집합 E로부터 지식베이스 검색을 통하여 구성된 가중치 방향그래프 G의 간선집합은 다음과 같다. 이 단계에서, 지식베이스 트리플렛에 존재하지 않아서 간선의 가중치가 0이 되는 개체 쌍(예. <췌장암, 미국, 0> 은 그래프 생성 후보로 고려하지 않는다.

그래프 가중치 계산기(250)는 개체-관계 그래프 상에서 중심성을 이용하여 그래프 상의 개체 간 가중치를 계산한다. 그래프 가중치 계산기(250)는 상기 단계인 개체 그래프 생성기에서 완료된 그래프상에서 노드의 상대적 중요성을 계산하는 중심성(centrality)를 기반으로 계산한다. 중심성은 그래프 상에서 어떤 노드가 가장 중요한지를 살피는 척도로, 본 발명에서는 연결 중심성(Degree Centrality) 알고리즘을 사용하나, 본 발명에서 제안하는 기술은 이에 한정되지 않는다.

연결 중심성은 그래프 내에서 하나의 노드에 연결된 모든 간선의 가중치의 합으로 중심성을 평가하며 노드로 들어오는 간선인 In-Degree만 계산하는 경우 그 노드의 그래프 상에서의 인기도를 측정할 수 있고, Out-Degree만 계산하는 경우 그 노드의 그래프 상에서의 영향력을 살필 수 있다. 본 발명은 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법으로, '주어'의 사전적 의미인 "주요 문장 성분의 하나로, 술어가 나타내는 동작이나 상태의 주체가 되는 말"을 바탕으로 단락내에서의 인기도 보다는 주체가 될 수 있는 영향력을 바탕으로 계산하는것이 올바르므로 Out-Degree centrality를 통해 그래프 상의 모든 노드(y)에 대하여 가중치(c)를 계산하며 그 수식은 다음과 같다.

중심 개체 선별기(260)는 계산된 가중치에 기반하여 문단의 중심 개체를 선별한다. 중심 개체 선별기(260)는 상기 단계에서 계산된 가중치를 바탕으로, 노드 중 가장 높은 가중치 값을 갖는 개체를 선택한다.

생략 주어 복원기(270)는 선별된 중심 개체를 이용하여 주어 성분이 생략된 문장에 대한 주어를 복원한다. 생략 주어 복원기(270)는 상기 단계에서 선출된 최종 중심 개체를 사용하여 문장의 가장 앞에 위치시킴으로써 하나의 문장에 개체 단어를 추가하여 문장의 컨텍스트를 확장한다. 이 단계를 통해 최종 중심 개체가 생략된 주어임을 가정하여 복원된 문장에서 나타나는 한 쌍의 개체는 잠재적인 관계 추출의 후보 문장으로 간주될 수 있다.

예를 들어, 위의 예문 2의 예시 문장 A는 주어, 목적어 및 술어가 포함되어 있지만 예문 2의 예시 문장 B와 C에서는 문장의 주어(φ ₁,φ ₂)가 생략되어 있다. 예문 2의 예시 문장 B를 인접한 문장 예문 2의 예시 문장 A, 예시 문장 C와 함께 동일 단락으로 고려하여, 동일 단락 내에서 기술하고 있는 중심 개체 '스티브 잡스'를 찾고 생략된 주어인 φ ₁,φ ₂를 '스티브 잡스'로 추정하여 복원하는 방법이다. 주어 생략 성분이 복원된 예문 7은 다음과 같다.

도 5는 본 발명의 일 실시예에 따른 지식베이스에 존재하는 트리플렛을 이용한 학습 데이터 사용의 예시를 나타내는 도면이다.

도 5를 참조하면, 예문 2의 예시문장 A '스티브 잡스(521a)는 미국(522a)의 기업인이었다'에 대하여, 특정한 하나의 지식베이스(510)(예를 들어, DBPedia)를 이용하여 다음의 정렬관계를 통해 관계 유형 'birthPlace'(511)와 'deathPlace'(512)에 대한 학습 데이터로 사용될 수 있다.

생략 성분이 복원된 문장인 예문 7의 예시 문장 B는, 이 단계를 통하여 단일 문장에서 두 개의 개체를 포함하게 되므로 본 발명에서 제안하는 방법에 따라 지식베이스에 존재하는 트리플렛 "<스티브 잡스, founderOf, 애플>"과 예문 7의 예시 문장 B를 정렬할 수 있게 되고, 관계 'founderOf'에 대해 긍정적인 학습 데이터로 사용할 수 있다.

예문 7의 예시 문장 B'애플(521b)의 전 CEO이자 공동 창립자다'(관계 유형 'founderOf'(513))에 대한 주어 성분 '스티브 잡스(522b)'가 복원되고, 예시 문장 C '2011년 10월 5일 췌장암(521c)에 의해 사망했다'(관계 유형 'deathcause'(514))에 대한 주어 성분 '스티브 잡스(522c)'가 복원되었지만, 각 예시 문장 B 및 C에서 주어 성분만 복원되고 조사는 복원되지 않아 문법적으로는 불완전한 형태이지만 관계 유형 'founderOf'에 대하여 "의 전 CEO이자 공동 창립자다"의 컨텍스트를 해당관계의 우수한 특징으로 사용할 수 있어 관계 추출을 효율적으로 수행할 수 있다. 결과적으로 예문 3과 예문 4는 명확한 주어 "스티브 잡스는"을 문장 내에 명시적으로 포함하고 있지 않지만 생략된 주어의 복원을 통해 관계 유형 "founderOf"와 "deathCause"에 대하여 레이블이 있는 관계 유형 인스턴스를 얻을 수 있는 기회를 갖게 된다.

본 발명은 주어가 생략된 한국어 문장에 대해 생략된 원래의 주어 성분을 복원하는 방법 및 시스템에 관한 것으로, 더욱 상세하게는 단락 수준에서 밝혀진 키워드들에 대하여 공개된 지식베이스를 기반으로 "키워드(개체)-관계 기반 그래프"를 생성하고 중심성 측정 방법을 적용하여 새로운 주어 복원을 수행하는 것을 특징으로 한다.

본 발명에 따르면 종래의 방법에 비해 한국어 문장에서 형태소 분석기 혹은 구문 분석기 없이 신속하게 주어 성분을 예측하는 방법으로 이에 따라 한국어 문장에 대한 완전형의 문장 생성이 가능하게 되는 효과가 있다.

또한 본 발명에 따르면, 기존의 원거리 감독법을 이용한 관계 추출 기술이 단문에서의 관계 추출만 고려했던 것을 뛰어넘어 문장 경계를 넘어 복문 사이의 관계 추출까지 그 영역을 확장할 수 있으며, 이로 인해 한국어와 같이 주어가 생략된 문장이 많이 포함된 텍스트로부터 원거리 감독법을 이용한 관계 추출에 있어 자동으로 훈련 데이터의 부족을 보완 할 수 있는 이점을 통해 관계 추출시스템의 성능을 향상시킬 수 있는 효과가 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.　 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.　 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.　 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.　 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.　 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.　 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.　 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.　 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.　 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.　 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.　

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.　 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

입력 문서에서 문단을 분해하여 인식하는 문단 인식기;
인식된 문단에 대하여 문장을 분리하는 문장 분리기;
분리된 문장 단위에서 지식베이스의 개체를 인식하는 개체 인식기;
인식된 개체 사이의 관계를 지식베이스에서 찾아 개체-관계 그래프를 생성하는 개체 그래프 생성기;
개체-관계 그래프 상에서 중심성을 이용하여 그래프 상의 개체 간 가중치를 계산하는 그래프 가중치 계산기;
계산된 가중치에 기반하여 문단의 중심 개체를 선별하는 중심 개체 선별기; 및
선별된 중심 개체를 이용하여 주어 성분이 생략된 문장에 대한 주어를 복원하는 생략 주어 복원기
를 포함하는 문장 생성 시스템.
제1항에 있어서,
상기 문단 인식기는,
모든 문서 범위에 대하여 문단 이름을 제목(Heading) 태그로 분리한 HTML 문서이거나 또는 두 개 이상의 공백줄로 분리된 단위의 문장을 포함한 범위를 문단으로 인식하는
문장 생성 시스템.
제1항에 있어서,
상기 문장 분리기는,
마침표, 물음표, 느낌표를 포함하는 구두점으로 구분된 10자 이상의 문자를 포함한 문자열의 집합이거나 또는 줄 바꿈 행으로 구분된 5자 이상의 문자열의 집합을 포함하는 것을 문장으로 분리하는
문장 생성 시스템.
제1항에 있어서,
상기 개체 인식기는,
분리된 문장으로부터 특정 지식베이스를 사전으로 하여 문장 내에 등장하는 특정 기관명, 장소명, 사람이름, 시간표현을 포함하는 다양한 도메인의 개체명을 인식하는
문장 생성 시스템.
제1항에 있어서,
상기 개체 그래프 생성기는,
인식된 문단의 모든 문장에 대하여 개체가 인식된 후, 인식된 개체를 집합으로 구성하고, 구성된 개체 집합의 서로 다른 두 원소를 조합한 개체쌍을 생성하며, 개체쌍 사이의 관계 트리플렛을 지식베이스 내에서 검색하여 개체-관계를 바탕으로 방향그래프(Directed Graph)로 구성하는
문장 생성 시스템.
제1항에 있어서,
상기 그래프 가중치 계산기는,
상기 중심성은 그래프 내에서 하나의 노드에 연결된 모든 간선의 가중치의 합으로 중심성을 평가하고, 노드로 들어오는 간선인 인-디그리(In-Degree)만 계산하는 경우 해당 노드의 그래프 상에서의 인기도를 측정하고, 아웃-디그리(Out-Degree)만 계산하는 경우 해당 노드의 그래프 상에서의 영향력을 측정하는
문장 생성 시스템.
제1항에 있어서,
상기 생략 주어 복원기는,
선별된 최종 중심 개체를 사용하여 문장의 가장 앞에 위치시킴으로써 하나의 문장에 개체 단어를 추가하여 문장의 컨텍스트를 확장하고, 최종 중심 개체가 생략된 주어임을 가정하여 복원된 문장에서 나타나는 한 쌍의 개체는 잠재적인 관계 추출의 후보 문장으로 간주되는
문장 생성 시스템.
문단 인식기를 통해 입력 문서에서 문단을 분해하여 인식하는 단계;
문장 분리기를 통해 상기 인식된 문단에 대하여 문장을 분리하는 단계;
개체 인식기를 통해 상기 분리된 문장 단위에서 지식베이스의 개체를 인식하는 단계;
개체 그래프 생성기를 통해 상기 인식된 개체 사이의 관계를 지식베이스에서 찾아 개체-관계 그래프를 생성하는 단계;
그래프 가중치 계산기를 통해 개체-관계 그래프 상에서 중심성을 이용하여 그래프 상의 개체 간 가중치를 계산하는 단계;
중심 개체 선별기를 통해 상기 계산된 가중치에 기반하여 문단의 중심 개체를 선별하는 단계; 및
생략 주어 복원기를 통해 상기 선별된 중심 개체를 이용하여 주어 성분이 생략된 문장에 대한 주어를 복원하는 단계
를 포함하는 문장 생성 방법.
제8항에 있어서,
상기 문단 인식기를 통해 입력 문서에서 문단을 분해하여 인식하는 단계는,
모든 문서 범위에 대하여 문단 이름을 제목(Heading) 태그로 분리한 HTML 문서이거나 또는 두 개 이상의 공백줄로 분리된 단위의 문장을 포함한 범위를 문단으로 인식하는
문장 생성 방법.
제8항에 있어서,
상기 문장 분리기를 통해 상기 인식된 문단에 대하여 문장을 분리하는 단계는,
마침표, 물음표, 느낌표를 포함하는 구두점으로 구분된 10자 이상의 문자를 포함한 문자열의 집합이거나 또는 줄 바꿈 행으로 구분된 5자 이상의 문자열의 집합을 포함하는 것을 문장으로 분리하는
문장 생성 방법.
제8항에 있어서,
상기 개체 인식기를 통해 상기 분리된 문장 단위에서 지식베이스의 개체를 인식하는 단계는,
분리된 문장으로부터 특정 지식베이스를 사전으로 하여 문장 내에 등장하는 특정 기관명, 장소명, 사람이름, 시간표현을 포함하는 다양한 도메인의 개체명을 인식하는
문장 생성 방법.
제8항에 있어서,
상기 개체 그래프 생성기를 통해 상기 인식된 개체 사이의 관계를 지식베이스에서 찾아 개체-관계 그래프를 생성하는 단계는,
인식된 문단의 모든 문장에 대하여 개체가 인식된 후, 인식된 개체를 집합으로 구성하고, 구성된 개체 집합의 서로 다른 두 원소를 조합한 개체쌍을 생성하며, 개체쌍 사이의 관계 트리플렛을 지식베이스 내에서 검색하여 개체-관계를 바탕으로 방향그래프(Directed Graph)로 구성하는
문장 생성 방법.
제8항에 있어서,
상기 그래프 가중치 계산기를 통해 개체-관계 그래프 상에서 중심성을 이용하여 그래프 상의 개체 간 가중치를 계산하는 단계는,
상기 중심성은 그래프 내에서 하나의 노드에 연결된 모든 간선의 가중치의 합으로 중심성을 평가하고, 노드로 들어오는 간선인 인-디그리(In-Degree)만 계산하는 경우 해당 노드의 그래프 상에서의 인기도를 측정하고, 아웃-디그리(Out-Degree)만 계산하는 경우 해당 노드의 그래프 상에서의 영향력을 측정하는
문장 생성 방법.
제8항에 있어서,
상기 생략 주어 복원기를 통해 상기 선별된 중심 개체를 이용하여 주어 성분이 생략된 문장에 대한 주어를 복원하는 단계는,
선별된 최종 중심 개체를 사용하여 문장의 가장 앞에 위치시킴으로써 하나의 문장에 개체 단어를 추가하여 문장의 컨텍스트를 확장하고, 최종 중심 개체가 생략된 주어임을 가정하여 복원된 문장에서 나타나는 한 쌍의 개체는 잠재적인 관계 추출의 후보 문장으로 간주되는
문장 생성 방법.