KR20200068769A

KR20200068769A - 속성 지식 확장 시스템 및 속성 지식 확장 방법

Info

Publication number: KR20200068769A
Application number: KR1020180148005A
Authority: KR
Inventors: 홍범석; 김문종; 박태수
Original assignee: 주식회사 와이즈넛
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2020-06-16
Also published as: KR102147582B1

Abstract

본 발명은 속성 지식 확장 시스템 및 속성 지식 확장 방법에 관한 것으로, 본 발명의 실시예에 따르는 속성 지식 확장 방법은, 일반 텍스트 문서에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하고, 이를 초기 학습데이터로 구축하는 단계; 상기 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축하는 단계; 코퍼스(corpus)로부터 상기 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출하는 단계; 상기 일반 텍스트 문서에서 상기 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 상기 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 상기 속성 정보에 대한 후보 단어로서 추출하는 단계; 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 상기 후보 단어들을 정제하는 단계; 상기 정제된 후보 단어들 중에서 상기 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출하는 단계; 및 상기 산출된 연관도에 기초하여 상기 후보 단어들 중에서 속성 단어를 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 단계를 포함할 수 있다.

Description

속성 지식 확장 시스템 및 속성 지식 확장 방법{PROPERTY KNOWLEDGE EXTENSION SYSTEM AND PROPERTY KNOWLEDGE EXTENSION METHOD USING IT}

본 발명은 속성 지식 확장 시스템 및 속성 지식 확장 방법에 관한 것으로, 더욱 상세하게는 자연어 문장에서 속성으로 학습한 정보를 추출하고 이 정보를 기반으로 학습되지 않은 새로운 속성정보를 속성 지식 확장 시스템을 통해 추출하는 방법에 관한 것이다.

최근 스마트폰, 디지털 카메라, CCTV, 차량용 블랙박스 등의 보급과 확산으로 인하여 이미지 및 영상 데이터가 폭발적으로 증가하고 있다. 그런데, 인력을 통해 이미지 및 영상 데이터를 직접 분석하는 것은 효율적이지 않을 뿐만 아니라 투입 인력의 한계에 부딪힌다. 이러한 문제점을 극복하기 위해 영상의 객체를 편리하게 인식하기 위한 많은 연구가 진행되어 왔다.

한편, 종래의 객체인식기술은 사람, 사물, 배경, 행동, 얼굴 등의 다양한 객체를 인식할 수 있었다. 그리고, 최근의 연구 동향은 저장된 영상 매체를 분석하는 것에서 실시간 영상 매체에서 객체를 인식하는 방향으로 발전하고 있으며, 특정 객체에 관해서는 높은 수준으로 인식이 가능한 수준에 이르렀다. 이러한 객체인식기술은 범죄 또는 재해 예방/감지와 같은 다양한 응용 영역의 공공서비스에 활용되고 있다.

그런데, 영상에서 인식한 다양한 객체를 찾기 위해서는 검색 기능이 필요한데, 이때 텍스트 검색으로 객체 속성 정보를 포함하여 검색하면 객체의 정확한 검색이 가능하다. 여기서, 객체 속성 정보란 해당 객체에 속하는 특징을 의미한다. 예를 들면, 검색할 질의 문장이“노란색 셔츠와 파란 바지를 입은 여자가 검은색 핸드백을 들고 주차장을 나오고 있다.”일 때, 객체는 사람이고 셔츠와 바지, 핸드백과 각 색상들이 속성 정보에 해당한다. 이와 같이, 객체 속성 정보를 검색에 포함하여 찾고자 하는 객체를 한정하면 검색의 정확도를 높일 수 있다.

상술한 바와 같이, 객체 속성 정보를 검색에 이용하려면 질의 문장에서 어떤 단어가 속성 정보인지를 판단해야 하고, 어떤 속성 정보에 해당하는지 구분해야 한다. 이러한 문제를 해결하기 위한 기존 연구들은 크게 규칙 기반의 방법과 지도 학습 기반의 방법을 개발하였다.

첫째로, 규칙 기반 방법은 속성 정보에 해당하는 단어 사전을 수동으로 구축하고, 속성 정보의 분류를 위한 규칙을 수동으로 정의하는 방법이다. 그러나, 이와 같은 방법은 속성 정보와 규칙이 많아질수록 변경과 관리가 어려워지며, 새로운 객체에 적용할 때마다 속성 정보를 위한 규칙과 사전을 새로 구축해야 하므로 많은 시간과 비용이 요구되는 단점이 있다.

둘째로, 지도 학습 방법은 학습데이터로부터 속성 정보를 구분하고 분류하는데 필요한 지식과 규칙을 자동적으로 분석하는 방법이다. 하지만 학습데이터는 일반 문장에서 속성에 해당하는 단어와 품사, 속성 분류에 대한 정보를 수동으로 태깅하여 구축한다. 따라서 태깅된 학습데이터를 생성하는데 많은 비용이 요구되어, 풍부한 학습데이터를 확보하기가 어렵다는 단점이 있다. 또한, 속성 정보의 종류는 제한적이지 않으며 새롭게 추가될 수 있고, 객체마다 다른 속성 정보를 가지고 있기 때문에 새로운 객체가 추가될 때마다 학습데이터를 구축하는데 많은 인력과 시간이 소모된다는 문제점이 있다.

이러한 문제점을 해결하고자 본 발명에서는 초기 학습데이터를 기반으로 어휘의미패턴(LSP; Lexico-Semantic-Pattern)을 이용하여 속성 후보 단어들을 추출하고, 추출된 속성 후보 단어들로부터 속성 정보를 결정하며, 결정된 속성 정보를 학습데이터에 추가하는 방식으로 학습데이터를 확장하는 방법을 제안하고자 한다.

본 발명은 상기한 문제점을 해결하기 위해 창안된 것으로서, 지도 학습 방법의 한계점인 다량의 학습데이터 확보의 어려움을 해결하기 위해 초기의 학습데이터를 기반으로 어휘의미패턴(LSP)을 구축하고, 일반 텍스트 문서에서 객체 속성 지식을 추출하며 초기 학습데이터에 포함된 속성 단어와 일반 텍스트 문서에서 추출된 객체 속성 지식 간의 연관도 측정을 통해 학습데이터를 자동으로 확장하는 장치 및 방법을 제공하는데 그 목적이 있다.

또한, 본 발명의 다른 목적은 코퍼스에서 구문 패턴 표현 매칭으로 찾은 모든 속성 후보 단어들 중에서 정제 과정 및 속성 단어와의 연관도 산출 과정을 통해서 각 문서를 대표하는 단어들만 속성 단어로 분류하는 것이 가능함으로써, 보다 정확하고 확장된 학습데이터를 포함한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상기 과제를 달성하기 위한 본 발명의 실시예에 따른 속성 지식 확장 시스템은, 일반 텍스트 문서에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하고, 이를 초기 학습데이터로 구축하는 학습데이터 구축부; 상기 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축하는 어휘의미패턴 구축부; 코퍼스(corpus)로부터 상기 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출하는 텍스트 문서 추출부; 상기 일반 텍스트 문서에서 상기 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 상기 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 상기 속성 정보에 대한 후보 단어로서 추출하는 후보 단어 추출부; 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 상기 후보 단어들을 정제하는 후보 단어 정제부; 및 상기 정제된 후보 단어들 중에서 상기 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출하는 연관도 산출부를 포함할 수 있다.

상기 후보 단어 정제부는 다음의 수식들을 이용하여 속성 정보에 대한 후보 단어들에서 일반 텍스트 문서를 대표하지 않는 단어들을 구분하여 후보 단어들을 정제하는 것을 특징으로 한다.

[수식 1]

[수식 2]

for

여기서,

는 예측 문서 빈도수(EDF, Expected Document Frequency)를 의미하고,

은 전체 문서의 수를 의미하고,

은 해당 단어가 코퍼스에 등장하지 않을 확률을 의미하고,

는 어떤 사건

가

번 일어날 확률을 의미하고,

는 단어 출현 빈도를 의미한다.

상기 후보 단어 정제부는 예측 문서 빈도수와 실제 문서 빈도수의 비율(

)이 확률분포에서 전체 68%에 해당하는 1 표준편차(1σ, 1시그마)인 0.9~1.3 범위에 해당하는 단어들은 후보 속성 단어에서 제외하는 것을 특징으로 한다.

상기 연관도 산출부는 하기 [수식 3]을 이용하여 후보 단어와 속성 단어의 연관도를 산출하는 것을 특징으로 한다.

[수식 3]

여기서,

는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,

는 후보 단어를 의미하고,

는 속성 단어를 의미한다.

상기 연관도 산출부는 하기 [수식 4]를 이용하여 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보(

)의 평균값을 산출하고, 산출된 점상호정보(

)의 평균값을 이용하여 후보 단어들이 속성 단어에 해당하는지 여부를 판단하는 것을 특징으로 한다.

[수식 4]

여기서,

의

는 속성 단어들의 집합을 의미하고,

은 속성 단어의 수를 의미한다.

상기 연관도 산출부는 정제된 후보 단어들 중에서 초기 학습데이터에 포함된 객체의 속성 정보와의 점상호정보(

) 값이 [수식 5]에 의한 임계치보다 큰 후보 단어일 경우에 속성 단어로 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 것을 특징으로 한다.

[수식 5]

for

상기 과제를 달성하기 위한 본 발명의 실시예에 따른 속성 지식 확장 방법은, 일반 텍스트 문서에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하고, 이를 초기 학습데이터로 구축하는 단계; 상기 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축하는 단계; 코퍼스(corpus)로부터 상기 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출하는 단계; 상기 일반 텍스트 문서에서 상기 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 상기 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 상기 속성 정보에 대한 후보 단어로서 추출하는 단계; 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 상기 후보 단어들을 정제하는 단계; 상기 정제된 후보 단어들 중에서 상기 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출하는 단계; 및 상기 산출된 연관도에 기초하여 상기 후보 단어들 중에서 속성 단어를 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 단계를 포함할 수 있다.

상기 후보 단어들을 정제하는 단계는, 다음의 수식들을 이용하여 속성 정보에 대한 후보 단어들에서 일반 텍스트 문서를 대표하지 않는 단어들을 구분하여 후보 단어들을 정제하는 단계인, 속성 지식 확장 방법.

[수식 1]

[수식 2]

for

여기서,

는 예측 문서 빈도수(EDF, Expected Document Frequency)를 의미하고,

은 전체 문서의 수를 의미하고,

은 해당 단어가 코퍼스에 등장하지 않을 확률을 의미하고,

는 어떤 사건

가

번 일어날 확률을 의미하고,

는 단어 출현 빈도를 의미한다.

상기 후보 단어들을 정제하는 단계는, 예측 문서 빈도수와 실제 문서 빈도수의 비율(

)이 확률분포에서 전체 68%에 해당하는 1 표준편차(1σ, 1시그마)인 0.9~1.3 범위에 해당하는 단어들은 후보 속성 단어에서 제외하는 단계인 것을 특징으로 한다.

상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는, 하기 [수식 3]을 이용하여 상기 후보 단어와 속성 단어의 연관도를 산출하는 단계인, 속성 지식 확장 방법.

[수식 3]

여기서,

는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,

는 후보 단어를 의미하고,

는 속성 단어를 의미한다.

상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는, 상기 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보(

)의 평균값을 하기 [수식 4]를 이용하여 산출하고, 산출된 점상호정보(

)의 평균값을 이용하여 후보 단어들이 속성 단어에 해당하는지 여부를 판단하는 단계를 포함한다.

[수식 4]

여기서,

의

는 속성 단어들의 집합을 의미하고,

은 속성 단어의 수를 의미한다.

상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는, 상기 정제된 후보 단어들 중에서 초기 학습데이터에 포함된 객체의 속성 정보와의 점상호정보(

) 값이 하기 [수식 5]에 의한 임계치보다 큰 후보 단어일 경우에 속성 단어로 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 단계를 더 포함한다.

[수식 5]

for

개시된 기술의 실시 예들은 다음의 효과를 가질 수 있다. 다만, 개시된 기술의 실시 예들이 이를 전부 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

첫째, 초기 적은 양의 학습데이터로 객체의 속성정보에 대한 지식 확장이 가능하므로 인력과 시간 비용이 줄어들고, 새로운 객체에 적용할 때에도 적은 비용으로 학습데이터를 구축할 수 있는 효과가 있다.

둘째, 코퍼스에서 구문 패턴 표현 매칭으로 찾은 모든 속성 후보 단어들 중에서 정제 과정 및 속성 단어와의 연관도 산출 과정을 통해서 각 문서를 대표하는 단어들만 속성 단어로 분류하여 보다 정확한 지식 구축이 가능한 효과가 있다.

셋째, 확장된 학습데이터로 학습한 속성 인식 시스템을 사용하여 보다 많은 속성 정보를 포함하여 검색이 가능해지는 효과가 있다.

도 1은 본 발명의 실시예에 따른 지도 학습 기반의 속성 지식 인식 시스템을 개략적으로 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 지도 학습 기반의 속성 지식 확장 방법을 순차적으로 나타낸 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조할 수 있다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

이상에서 설명한 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

본 발명에서 객체 속성은 해당 객체의 특징을 의미하고, 속성은 특징을 표현하는 단어를 의미한다. 또한, 후보 단어는 속성 단어에 해당될 수 있는 후보 단어로, 속성 후보 단어로 표현될 수 있다. 또한, 본 발명에서는 뉴스 기사 등과 같은 일반 텍스트 문서를 이용하여 초기 학습데이터를 구축할 수 있으며, 구축된 초기 학습데이터를 기반으로 속성 지식 확장 시스템을 이용하여 새로운 속성 정보를 추출하고, 정확한 지식 구축을 통해 학습데이터를 확장하여, 더 많은 속성 정보를 포함한 검색이 가능하다.

이하 도 1을 참조하여 본 발명의 일 실시예에 따른 속성 지식 확장 시스템을 설명한다. 도 1은 본 발명의 일 실시예에 따른 속성 지식 확장 시스템을 개략적으로 나타낸 블록도이다.

도 1에 도시된 바와 같이, 본 발명의 속성 지식 확장 시스템(100)은 학습데이터 구축부(10), 어휘의미패턴 구축부(20), 텍스트 문서 추출부(30), 후보 단어 추출부(40), 후보 단어 정제부(50), 연관도 산출부(60) 및 DB(70)를 포함할 수 있다.

예를 들어,“빨간 상의와 청바지를 입은 아이가 주차장에서 나오고 있다”라는 CCTV 영상이 있다고 가정하자. 이때, 일반적인 CCTV 영상은 상술한 영상 이미지를 설명하기 위한 문장 단위의 데이터로 만드는 과정이 있다. 이처럼 영상으로부터 출력된 문장 단위의 데이터에서 원하는 사람을 쉽게 검색하고자 할 때, 주차장이라는 장소 또는 사람의 특징 등을 표현하는 다량의 속성 정보라는 것이 필요하다.

이러한 속성 정보를 확장하기 위해서, 본 발명의 학습데이터 구축부(10)는 뉴스 기사 등과 같은 일반 텍스트 문서에서 속성이라는 단어가 등장한 텍스트 데이터를 찾아서 형태소 분석을 수행한 뒤에, 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하여 초기 학습데이터를 구축한다. 아래의 예문 1을 예로 들어 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하는 방법에 대하여 자세히 설명한다.

예문 1

빨간 상의와 청바지를 입은 아이

학습데이터 구축부(10)가 예문 1을 형태소 분석을 수행한 뒤에 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하면 아래 예문 2의 결과가 나오게 된다.

예문 2

빨갛 VA B_COLOR

ㄴ ETM I

상의 NNG B_CLOTHES

와 JKB O

청바지 NNG B_CLOTHES

를 JKO O

입 VV O

은 ETM O

아이 NNG B_PERSON

여기서, B_는 속성분류명으로 해당 속성의 시작 지점을 의미하고, I는 이전 속성분류명의 연속을 의미하며, O는 속성분류명이 없음을 나타낸다. 예문 2에서 객체의 속성을 의미하는‘빨간’은 ‘빨갛’과 ‘ㄴ’이라는 두 개의 형태소가 합쳐져야 하나의 속성이 된다는 것을 의미한다.

학습데이터 구축부(10)가 상술한 바와 같은 양식으로 초기 학습데이터를 구축하면, 속성 지식 확장 시스템(100)은 구축된 초기 학습데이터를 기반으로 속성 지식을 확장한다.

어휘의미패턴 구축부(20)는 초기 학습데이터를 확장하기 위해서, 학습데이터 구축부(10)에 의해 구축된 초기 학습데이터에서 속성에 해당할 수 있는 중요한 부분을 어휘의미패턴(LSP)화한다. 즉, 어휘의미패턴 구축부(20)는 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축할 수 있다.

여기서, LSP(어휘의미패턴, Lexico-Semantic-Pattern)를 구축할 때는 텍스트를 매칭하기 위한 정규식과 유사한 구문 패턴 표현으로, 단어뿐만 아니라 형태소 태그, 의미자질, 각종 연산자들을 사용하여 구성한다. 예를 들어,‘이번달 핸드폰 요금이 얼마?’라고 입력을 한다면, 이를 분석하기 위해서 LSP는‘@phone @pay+(/J_)? @how+(/SC)?’와 같이 구성될 수 있다. 여기서‘@’는 의미자질을 의미하며,‘/’가 앞에 들어간 것은 형태소 태그를 의미하고,‘/J_’는 조사를 의미하며,‘*1’은 최대 1개의 어절을 의미한다. 아래의 표 1은 LSP를 표현하기 위하여 사용된 기호(연산자와 품사)의 의미를 설명한 것이다.

연산자	표현방법	설명
어휘	코엑스, 요금제, 이동하다	구문표현에 쓰이는 어휘 자체
품사	NNG, MA, VV, V_	형태소에 대한 한국어 품사
/	코엑스/NNG, 이동하/VV	어휘와 품사의 구분자
( )	(코엑스/NNG)+에/J_	우선순위 및 단위를 구분하는 한정자
{ }	코엑스/NNG+에/J_	하나의 표현 단위(어절)로 구분하는 한정자
+	코엑스/NNG+에/J_	형태소를 순차적 표현을 위한 형태소간 연결자
\|	@장소\|@지역	OR 연산자
&	!ETM&!EM	AND 연산자
!	!ETM, !NNG	NOT 연산자
?	@지급+(/J_)?	Zero or One-존재해도 매칭, 존재하지 않아도 매칭
*	NNG*	Zero or More-동일한 구성성분이 반복되도록 매칭
*	*2	어절 반복 (‘’는 0~2개의 어절이 매칭 가능함을 의미)
@	@지역, @장소	의미자질
￦	2015+-+@년	기호를 표기. 바로 연이어 오는 문자 한 개에 적용

상술한 바와 같이 LSP는 어휘, 품사, 형태소를 포함하여 문장의 의미를 나타내는 구문 구조를 가지며 의미자질과 패턴 기호로 이루어져 있다. 아래의 예문 3은 학습데이터 구축부(10)에 의해 구축된 초기 학습데이터에서 어휘의미패턴 구축부(20)가 속성에 해당할 수 있는 중요한 부분을 어휘의미패턴(LSP)화한 예시이다.

예문 3

빨간 상의와 청바지를 입은 아이→ /VA+/ETM /NNG+/J_ /NNG+/J_ @입다

후드티와 청바지를 입고 → /NNG+/J_ /NNG+/J_ @입다

마스크와 모자를 쓴 체 → /NNG+/J_ /NNG+/J_ @쓰다

티셔츠와 팬츠를 맞춰 입어 → /NNG+/J_ /NNG+/J_ *1 @입다

검은 가죽 재킷 차림으로 입국했다.→ /VA+/ETM /NNG* 차림으로

점퍼 차림으로 나타났다.→ /NNG 차림으로

상술한 바와 같이, 어휘의미패턴 구축부(20)는 초기 학습데이터 문장에서 객체의 특징을 나타내는 속성에 해당할 수 있는 부분을 예시와 같이 생성한다.

텍스트 문서 추출부(30)는 DB(70)에 저장된 코퍼스(Corpus)라고 불리는 속성이 표시되지 않은 일반 텍스트 문서 집합에서 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출한다.

후보 단어 추출부(40)는 텍스트 문서 추출부(30)에 의해 추출된 일반 텍스트 문서에서 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 속성 정보에 대한 후보 단어로서 추출한다.

예를 들면, 후보 단어 추출부(40)는 LSP로 표현된‘빨간 상의와 청바지를 입은 아이’에 매칭되는‘파란 셔츠와 반바지를 입은 사람’이라는 문장 패턴인 후보 문장을 검출하고 검출된 후보 문장에서 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어인‘파란 셔츠’,‘반바지’를 후보 단어로서 추출할 수 있다. 이와 같은 방식으로, 후보 단어 추출부(40)는 객체 속성이 있던 위치에 등장한 속성 후보 단어들을 추출할 수 있다. 본 발명에서는 상술한 바와 같이 코퍼스에서 LSP 매칭으로 찾은 모든 속성 후보 단어들 중에서 각 문서를 대표하는 단어들만 속성 단어로 분류할 수 있다.

이를 위해서, 본 발명의 후보 단어 정제부(50)는 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 후보 단어 추출부(40)에 의해 추출된 후보 단어들을 정제하는 역할을 수행한다. 이때, 후보 단어 정제부(50)는 예측 문서 빈도수(EDF, Expected Document Frequency)와 실제 문서 빈도수(RDF, Real Document Frequency)라는 개념을 이용한다. 여기서, 실제 문서 빈도수(RDF)는 해당 단어가 코퍼스에 등장한 빈도수를 계산한 값이고, 예측 문서 빈도수(EDF)는 해당 단어가 코퍼스에 등장할 확률을 이용하여 문서 빈도수를 예측한 값이다. 후보 단어 정제부(50)는 다음 [수식 1]을 이용하여 해당 단어가 한번이라도 나오게 될 확률인 예측 문서 빈도수(EDF)를 구할 수 있다.

[수식 1]

여기서,

은 전체 문서의 수를 의미하며,

은 해당 단어가 코퍼스에 등장하지 않을 확률을 의미한다.

또한, 해당 단어가 코퍼스에 등장할 확률을 계산하기 위해서는 포아송 확률 분포(Poisson Distribution)를 이용하였으며, 다음 [수식 2]를 따른다.

[수식 2]

for

여기서,

은 전체 문서의 수를 의미하고,

는 어떤 사건

가

번 일어날 확률을 의미하고,

는 단어 출현 빈도를 의미한다.

상술한 바와 같이, 후보 단어 정제부(50)는 해당 단어가 한번이라도 나오게 될 확률인 예측 문서 빈도수(EDF)와 해당 단어가 코퍼스에 등장한 빈도수를 계산한 값인 실제 문서 빈도수(RDF)를 계산할 수 있다. 여기서, 후보 단어 정제부(50)에 의해 계산된 예측 문서 빈도수와 실제 문서 빈도수의 비율(

)이 1에 가까우면 해당 단어가 코퍼스에서 원래 나타날 확률이므로 문서를 대표하지 않을 확률이 높으며 중요하지 않은 단어라고 판단한다. 후보 단어 정제부(50)는 중요하지 않은 단어를 제거하기 위해, 예측 문서 빈도수와 실제 문서 빈도수의 비율(

)이 확률분포에서 전체 68%에 해당하는 1 표준편차(1σ, 1시그마)인 0.9~1.3 범위에 해당하는 단어들은 후보 속성 단어에서 제외한다. 상기 0.9~1.3 범위는 코퍼스의 양에 따라서 변경 가능한 값이다.

연관도 산출부(60)는 정제된 후보 단어들 중에서 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출한다. 연관도 산출부(60)는 연관도를 계산하기 위한 방법으로 점상호정보(PMI, Pointwise Mutual Information)를 이용한다. 구체적으로, 연관도 산출부(60)는 후보 단어와 속성 단어인 두 단어가 한 문서 내에서 동시에 등장할 확률(

)과, 후보 단어 또는 속성 단어가 문서 내에서 등장할 확률(

)을 가지고, 후보 단어와 속성 단어 간의 연관도를 [수식 3]을 이용하여 산출할 수 있다.

[수식 3]

여기서,

는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,

는 후보 단어를 의미하고,

는 속성 단어를 의미한다. 예를 들어, 후보 단어는 100문서에 등장하고 속성 단어는 200문서에 등장하는데, 후보 단어와 속성 단어인 두 단어가 동시에 같이 등장한 문서가 10문서인 경우,

는 작은 값을 가지므로, 두 단어 간 연관도는 낮은 것으로 판단할 수 있다. 상술한

개념을 이용하여 연관도 산출부(60)는 후보 단어와 속성 단어들의 점상호정보(PMI)를 산출할 수 있고, 다음 [수식 4]를 이용하여 산출된 후보 단어와 속성 단어의 연관도의 평균값을 산출할 수 있다.

[수식 4]

여기서,

는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,

는 속성 단어들의 집합을 의미하고,

은 속성 단어의 수를 의미한다.

또한, 연관도 산출부(60)는 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보의 평균값을 [수식 4]를 이용하여 산출하고, 산출된 점상호정보의 평균값을 통해 후보 단어들이 속성 단어에 해당하는지 여부를 판단할 수 있다. 또한, 후보 단어들 중에서 속성 단어를 결정하기 위한 기준값인 임계치를 다음의 [수식 5]에 따라 정의할 수 있다.

[수식 5]

for

그리고, 연관도 산출부(60)는 후보 단어 정제부(50)에 의해 정제된 후보 단어들 중에서 초기 학습데이터에 포함된 객체의 속성 정보와의 점상호정보(

) 값이 상기 [수식 5]에 의해 정의된 임계치보다 큰 후보 단어일 경우에 속성 단어로 결정하고, 결정된 속성 단어를 DB(70)에 저장된 초기 학습데이터에 계속적으로 추가하여 저장함으로써 결정된 속성 단어와 매칭된 문장을 기준으로 초기 학습 데이터를 확장할 수 있다.

DB(70)는 학습데이터 구축부(10)에 의해 구축된 초기 학습데이터, 어휘의미패턴 구축부(20)에 의해 구축된 어휘의미패턴(LSP), 코퍼스(Corpus)라고 불리는 속성이 표시되지 않은 일반 텍스트 문서 집합, 그리고 후보 단어들의 정제 및 후보 단어와 속성 단어 간의 연관도 측정을 통해 후보 단어들에서 속성 단어로 선정된 단어들을 저장할 수 있다.

이와 같이, 본 발명의 속성 지식 확장 시스템(100)은 초기의 학습데이터를 기반으로 어휘의미패턴(LSP)을 구축하고, 일반 텍스트 문서에서 객체 속성 지식을 추출하며 초기 학습데이터에 포함된 속성 단어와 일반 텍스트 문서에서 추출된 객체 속성 지식 간의 연관도 측정을 통해 학습데이터를 자동으로 확장함으로써 지도 학습 방법의 한계점인 다량의 학습데이터 확보의 어려움을 해결할 수 있다.

이하 도 2를 참조하여 본 발명의 일 실시예에 따른 속성 지식 확장 방법에 대하여 자세히 설명한다. 여기서, 도 2는 본 발명의 일 실시예에 따른 속성 지식 확장 방법을 순차적으로 나타낸 순서도이다.

도 2를 참조하면, 우선 학습데이터 구축부(10)는 뉴스 기사 등과 같은 일반 텍스트 문서에서 속성이라는 단어가 등장한 텍스트 데이터를 찾아서 형태소 분석을 수행한 뒤에, 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하여 초기 학습데이터를 구축한다(S100). 이때, 학습데이터 구축부(10)가 초기 학습데이터를 구축하면, 속성 지식 확장 시스템(100)은 구축된 초기 학습데이터를 기반으로 새로운 속성 정보를 추출하고, 정확한 지식 구축을 통해 학습데이터를 확장하여, 더 많은 속성 정보를 포함한 검색을 가능하게 한다.

이후, 어휘의미패턴 구축부(20)는 초기 학습데이터를 확장하기 위해서, 학습데이터 구축부(10)에 의해 구축된 초기 학습데이터에서 속성에 해당할 수 있는 중요한 부분을 어휘의미패턴(LSP)화한다(S110). 즉, 어휘의미패턴 구축부(20)는 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축할 수 있다.

단계 S110 이후, 후보 단어 추출부(40)는 텍스트 문서 추출부(30)에 의해 추출된 일반 텍스트 문서에서 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 속성 정보에 대한 후보 단어로서 추출한다(S120).

단계 S120 이후, 후보 단어 정제부(50)는 속성 정보에 대한 후보 단어들에서 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 후보 단어 추출부(40)에 의해 추출된 후보 단어들을 정제한다(S130). 이때, 후보 단어 정제부(50)는 예측 문서 빈도수(EDF, Expected Document Frequency)와 실제 문서 빈도수(RDF, Real Document Frequency)라는 개념을 이용하여 해당 단어가 한번이라도 나오게 될 확률인 예측 문서 빈도수(EDF)와 해당 단어가 코퍼스에 등장한 빈도수를 계산한 값인 실제 문서 빈도수(RDF)를 계산할 수 있다. 그리고, 후보 단어 정제부(50)는 중요하지 않은 단어를 제거하기 위해, 예측 문서 빈도수와 실제 문서 빈도수의 비율(

)이 확률분포에서 전체 68%에 해당하는 1 표준편차(1σ, 1시그마)인 0.9~1.3 범위에 해당하는 단어들은 후보 속성 단어에서 제외한다.

단계 S130 이후, 연관도 산출부(60)는 단계 S130에서 정제된 후보 단어들 중에서 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출한다(S140). 이때, 연관도 산출부(60)는 점상호정보(PMI, Pointwise Mutual Information)를 이용하여 정제된 후보 단어들과 속성 단어 간의 연관도를 계산할 수 있다. 구체적으로, 연관도 산출부(60)는 후보 단어와 속성 단어인 두 단어가 한 문서 내에서 동시에 등장할 확률(

)과, 후보 단어 또는 속성 단어가 문서 내에서 등장할 확률(

[수식 3]

여기서,

는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,

는 후보 단어를 의미하고,

는 속성 단어를 의미한다.

또한, 단계 S140에서 연관도 산출부(60)는 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보(

)의 평균값을 아래의 [수식 4]를 이용하여 산출하고, 산출된 점상호정보(

)의 평균값을 통해 후보 단어들이 속성 단어에 해당하는지 여부를 판단할 수 있다.

[수식 4]

여기서,

는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,

는 속성 단어들의 집합을 의미하고,

은 속성 단어의 수를 의미한다.

또한, 단계 S140에서 단계 S130에서 정제된 후보 단어들 중에서 속성 단어를 결정하기 위한 기준값인 임계치를 다음의 [수식 5]에 따라 정의할 수 있다.

[수식 5]

for

단계 S140 이후, 연관도 산출부(60)는 후보 단어 정제부(50)에 의해 정제된 후보 단어들 중에서 초기 학습데이터에 포함된 객체의 속성 정보와의 점상호정보(

) 값이 상기 [수식 5]에 의해 정의된 임계치보다 큰 후보 단어일 경우에 속성 단어로 결정하고, 결정된 속성 단어를 DB(70)에 저장된 초기 학습데이터에 계속적으로 추가하여 저장 및 등록함으로써 결정된 속성 단어와 매칭된 문장을 기준으로 초기 학습 데이터를 확장할 수 있다.

상술한 바와 같이, 본 발명의 실시예에 따르면 초기 적은 양의 학습데이터로 후보 단어들을 선정하고 정제하며 속성 단어와의 연관도를 측정하는 과정을 통해서 후보 단어들 중에서 속성 단어를 결정하여 초기 학습데이터에 저장 및 등록하는 객체의 속성정보에 대한 지식 확장 과정을 거친다. 예컨대, 상술한 객체의 속성정보에 대한 지식 확장 과정은 관리자에 의해 설정된 일정 횟수 동안 또는 더 이상의 새로운 의미자질이 추출되지 않을 때까지 반복적으로 수행될 수 있다.

즉, 본 발명에 따른 속성 지식 확장 시스템 및 속성 지식 확장 방법에 따르면, 초기의 학습데이터를 기반으로 어휘의미패턴(LSP)을 구축하고, 일반 텍스트 문서에서 객체 속성 지식을 추출하며 초기 학습데이터에 포함된 속성 단어와 일반 텍스트 문서에서 추출된 객체 속성 지식 간의 연관도 측정을 통해 학습데이터를 자동으로 확장함으로써 종래 지도 학습 방법의 한계점인 다량의 학습데이터 확보의 어려움을 해결할 수 있다. 이에 따라, 초기 적은 양의 학습데이터로 객체의 속성정보에 대한 지식 확장이 가능하므로 인력과 시간 비용이 줄어들고, 새로운 객체에 적용할 때에도 적은 비용으로 학습데이터를 구축할 수 있는 종래 기술 대비 현저하고도 유리한 효과가 있다.

참고로, 본 발명의 바람직한 여러 가지 실시 예에 따른 속성 지식 확장 시스템 및 속성 지식 확장 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용가능한 것일 수도 있다. 컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상 첨부된 도면을 참조하여 본 발명의 실시 예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 명세서의 범위는 상기 상세한 설명보다는 후술하는 특허청구의 범위에 의하여 나타내어지며, 특허청구의 범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 명세서의 범위에 포함되는 것으로 해석되어야 한다.

한편, 본 명세서와 도면에는 본 명세서의 바람직한 실시 예에 대하여 개시하였으며, 비록 특정 용어들이 사용되었으나, 이는 단지 본 명세서의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 명세서의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예 외에도 본 명세서의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

100 : 속성 지식 확장 시스템
10 : 학습데이터 구축부 20 : 어휘의미패턴 구축부
30 : 텍스트 문서 추출부 40 : 후보 단어 추출부
50 : 후보 단어 정제부 60 : 연관도 산출부
70 : 데이터베이스(DB)

Claims

일반 텍스트 문서에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하고, 이를 초기 학습데이터로 구축하는 학습데이터 구축부;
상기 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축하는 어휘의미패턴 구축부;
코퍼스(corpus)로부터 상기 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출하는 텍스트 문서 추출부;
상기 일반 텍스트 문서에서 상기 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 상기 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 상기 속성 정보에 대한 후보 단어로서 추출하는 후보 단어 추출부;
상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 상기 후보 단어들을 정제하는 후보 단어 정제부; 및
상기 정제된 후보 단어들 중에서 상기 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출하는 연관도 산출부
를 포함하는 속성 지식 확장 시스템.
제1항에 있어서,
상기 후보 단어 정제부는 다음의 수식들을 이용하여 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하여 상기 후보 단어들을 정제하는 것을 특징으로 하는 속성 지식 확장 시스템.
[수식 1]

[수식 2]

for

(여기서,
는 예측 문서 빈도수(EDF, Expected Document Frequency)를 의미하고,
은 전체 문서의 수를 의미하고,
은 해당 단어가 코퍼스에 등장하지 않을 확률을 의미하고,
는 어떤 사건
가
번 일어날 확률을 의미하고,
는 단어 출현 빈도를 의미한다.)
제2항에 있어서, 상기 후보 단어 정제부는 예측 문서 빈도수와 실제 문서 빈도수의 비율(
)이 확률분포에서 전체 68%에 해당하는 1 표준편차(1σ, 1시그마)인 0.9~1.3 범위에 해당하는 단어들은 후보 속성 단어에서 제외하는 것을 특징으로 하는 속성 지식 확장 시스템.
제1항에 있어서,
상기 연관도 산출부는 하기 [수식 3]을 이용하여 상기 후보 단어와 속성 단어의 연관도를 산출하는 것을 특징으로 하는 속성 지식 확장 시스템.
[수식 3]

(여기서,
는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
는 후보 단어를 의미하고,
는 속성 단어를 의미한다.)
제4항에 있어서,
상기 연관도 산출부는 하기 [수식 4]를 이용하여 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보(
)의 평균값을 산출하고, 산출된 점상호정보(
)의 평균값을 이용하여 후보 단어들이 속성 단어에 해당하는지 여부를 판단하는 것을 특징으로 하는 속성 지식 확장 시스템.
[수식 4]

(여기서,
는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
는 속성 단어들의 집합을 의미하고,
은 속성 단어의 수를 의미한다.)
제5항에 있어서,
상기 연관도 산출부는 상기 정제된 후보 단어들 중에서 초기 학습데이터에 포함된 객체의 속성 정보와의 점상호정보(
) 값이 하기 [수식 5]에 의한 임계치보다 큰 후보 단어일 경우에 속성 단어로 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 것을 특징으로 하는 속성 지식 확장 시스템.
[수식 5]

for
일반 텍스트 문서에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하고, 이를 초기 학습데이터로 구축하는 단계;
상기 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축하는 단계;
코퍼스(corpus)로부터 상기 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출하는 단계;
상기 일반 텍스트 문서에서 상기 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 상기 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 상기 속성 정보에 대한 후보 단어로서 추출하는 단계;
상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 상기 후보 단어들을 정제하는 단계;
상기 정제된 후보 단어들 중에서 상기 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출하는 단계; 및
상기 산출된 연관도에 기초하여 상기 후보 단어들 중에서 속성 단어를 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 단계
를 포함하는 속성 지식 확장 방법.
제7항에 있어서, 상기 후보 단어들을 정제하는 단계는, 다음의 수식들을 이용하여 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하여 상기 후보 단어들을 정제하는 단계인, 속성 지식 확장 방법.
[수식 1]

[수식 2]

for

(여기서,
는 예측 문서 빈도수(EDF, Expected Document Frequency)를 의미하고,
은 전체 문서의 수를 의미하고,
은 해당 단어가 코퍼스에 등장하지 않을 확률을 의미하고,
는 어떤 사건
가
번 일어날 확률을 의미하고,
는 단어 출현 빈도를 의미한다.)
제8항에 있어서, 상기 후보 단어들을 정제하는 단계는, 예측 문서 빈도수와 실제 문서 빈도수의 비율(
)이 확률분포에서 전체 68%에 해당하는 1 표준편차(1σ, 1시그마)인 0.9~1.3 범위에 해당하는 단어들은 후보 속성 단어에서 제외하는 단계인, 속성 지식 확장 방법.
제7항에 있어서, 상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는, 하기 [수식 3]을 이용하여 상기 후보 단어와 속성 단어의 연관도를 산출하는 단계인, 속성 지식 확장 방법.
[수식 3]

(여기서,
는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
는 후보 단어를 의미하고,
는 속성 단어를 의미한다.)
제10항에 있어서, 상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는,
상기 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보(
)의 평균값을 하기 [수식 4]를 이용하여 산출하고, 산출된 점상호정보(
)의 평균값을 이용하여 후보 단어들이 속성 단어에 해당하는지 여부를 판단하는 단계를 포함하는 속성 지식 확장 방법.
[수식 4]

(여기서,
는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
는 속성 단어들의 집합을 의미하고,
은 속성 단어의 수를 의미한다.)
제11항에 있어서, 상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는,
상기 정제된 후보 단어들 중에서 초기 학습데이터에 포함된 객체의 속성 정보와의 점상호정보(
) 값이 하기 [수식 5]에 의한 임계치보다 큰 후보 단어일 경우에 속성 단어로 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 단계를 더 포함하는 속성 지식 확장 방법.
[수식 5]

for