KR20200068769A - 속성 지식 확장 시스템 및 속성 지식 확장 방법 - Google Patents

속성 지식 확장 시스템 및 속성 지식 확장 방법 Download PDF

Info

Publication number
KR20200068769A
KR20200068769A KR1020180148005A KR20180148005A KR20200068769A KR 20200068769 A KR20200068769 A KR 20200068769A KR 1020180148005 A KR1020180148005 A KR 1020180148005A KR 20180148005 A KR20180148005 A KR 20180148005A KR 20200068769 A KR20200068769 A KR 20200068769A
Authority
KR
South Korea
Prior art keywords
attribute
words
candidate
word
learning data
Prior art date
Application number
KR1020180148005A
Other languages
English (en)
Other versions
KR102147582B1 (ko
Inventor
홍범석
김문종
박태수
Original Assignee
주식회사 와이즈넛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 와이즈넛 filed Critical 주식회사 와이즈넛
Priority to KR1020180148005A priority Critical patent/KR102147582B1/ko
Publication of KR20200068769A publication Critical patent/KR20200068769A/ko
Application granted granted Critical
Publication of KR102147582B1 publication Critical patent/KR102147582B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 속성 지식 확장 시스템 및 속성 지식 확장 방법에 관한 것으로, 본 발명의 실시예에 따르는 속성 지식 확장 방법은, 일반 텍스트 문서에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하고, 이를 초기 학습데이터로 구축하는 단계; 상기 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축하는 단계; 코퍼스(corpus)로부터 상기 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출하는 단계; 상기 일반 텍스트 문서에서 상기 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 상기 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 상기 속성 정보에 대한 후보 단어로서 추출하는 단계; 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 상기 후보 단어들을 정제하는 단계; 상기 정제된 후보 단어들 중에서 상기 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출하는 단계; 및 상기 산출된 연관도에 기초하여 상기 후보 단어들 중에서 속성 단어를 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 단계를 포함할 수 있다.

Description

속성 지식 확장 시스템 및 속성 지식 확장 방법{PROPERTY KNOWLEDGE EXTENSION SYSTEM AND PROPERTY KNOWLEDGE EXTENSION METHOD USING IT}
본 발명은 속성 지식 확장 시스템 및 속성 지식 확장 방법에 관한 것으로, 더욱 상세하게는 자연어 문장에서 속성으로 학습한 정보를 추출하고 이 정보를 기반으로 학습되지 않은 새로운 속성정보를 속성 지식 확장 시스템을 통해 추출하는 방법에 관한 것이다.
최근 스마트폰, 디지털 카메라, CCTV, 차량용 블랙박스 등의 보급과 확산으로 인하여 이미지 및 영상 데이터가 폭발적으로 증가하고 있다. 그런데, 인력을 통해 이미지 및 영상 데이터를 직접 분석하는 것은 효율적이지 않을 뿐만 아니라 투입 인력의 한계에 부딪힌다. 이러한 문제점을 극복하기 위해 영상의 객체를 편리하게 인식하기 위한 많은 연구가 진행되어 왔다.
한편, 종래의 객체인식기술은 사람, 사물, 배경, 행동, 얼굴 등의 다양한 객체를 인식할 수 있었다. 그리고, 최근의 연구 동향은 저장된 영상 매체를 분석하는 것에서 실시간 영상 매체에서 객체를 인식하는 방향으로 발전하고 있으며, 특정 객체에 관해서는 높은 수준으로 인식이 가능한 수준에 이르렀다. 이러한 객체인식기술은 범죄 또는 재해 예방/감지와 같은 다양한 응용 영역의 공공서비스에 활용되고 있다.
그런데, 영상에서 인식한 다양한 객체를 찾기 위해서는 검색 기능이 필요한데, 이때 텍스트 검색으로 객체 속성 정보를 포함하여 검색하면 객체의 정확한 검색이 가능하다. 여기서, 객체 속성 정보란 해당 객체에 속하는 특징을 의미한다. 예를 들면, 검색할 질의 문장이“노란색 셔츠와 파란 바지를 입은 여자가 검은색 핸드백을 들고 주차장을 나오고 있다.”일 때, 객체는 사람이고 셔츠와 바지, 핸드백과 각 색상들이 속성 정보에 해당한다. 이와 같이, 객체 속성 정보를 검색에 포함하여 찾고자 하는 객체를 한정하면 검색의 정확도를 높일 수 있다.
상술한 바와 같이, 객체 속성 정보를 검색에 이용하려면 질의 문장에서 어떤 단어가 속성 정보인지를 판단해야 하고, 어떤 속성 정보에 해당하는지 구분해야 한다. 이러한 문제를 해결하기 위한 기존 연구들은 크게 규칙 기반의 방법과 지도 학습 기반의 방법을 개발하였다.
첫째로, 규칙 기반 방법은 속성 정보에 해당하는 단어 사전을 수동으로 구축하고, 속성 정보의 분류를 위한 규칙을 수동으로 정의하는 방법이다. 그러나, 이와 같은 방법은 속성 정보와 규칙이 많아질수록 변경과 관리가 어려워지며, 새로운 객체에 적용할 때마다 속성 정보를 위한 규칙과 사전을 새로 구축해야 하므로 많은 시간과 비용이 요구되는 단점이 있다.
둘째로, 지도 학습 방법은 학습데이터로부터 속성 정보를 구분하고 분류하는데 필요한 지식과 규칙을 자동적으로 분석하는 방법이다. 하지만 학습데이터는 일반 문장에서 속성에 해당하는 단어와 품사, 속성 분류에 대한 정보를 수동으로 태깅하여 구축한다. 따라서 태깅된 학습데이터를 생성하는데 많은 비용이 요구되어, 풍부한 학습데이터를 확보하기가 어렵다는 단점이 있다. 또한, 속성 정보의 종류는 제한적이지 않으며 새롭게 추가될 수 있고, 객체마다 다른 속성 정보를 가지고 있기 때문에 새로운 객체가 추가될 때마다 학습데이터를 구축하는데 많은 인력과 시간이 소모된다는 문제점이 있다.
이러한 문제점을 해결하고자 본 발명에서는 초기 학습데이터를 기반으로 어휘의미패턴(LSP; Lexico-Semantic-Pattern)을 이용하여 속성 후보 단어들을 추출하고, 추출된 속성 후보 단어들로부터 속성 정보를 결정하며, 결정된 속성 정보를 학습데이터에 추가하는 방식으로 학습데이터를 확장하는 방법을 제안하고자 한다.
본 발명은 상기한 문제점을 해결하기 위해 창안된 것으로서, 지도 학습 방법의 한계점인 다량의 학습데이터 확보의 어려움을 해결하기 위해 초기의 학습데이터를 기반으로 어휘의미패턴(LSP)을 구축하고, 일반 텍스트 문서에서 객체 속성 지식을 추출하며 초기 학습데이터에 포함된 속성 단어와 일반 텍스트 문서에서 추출된 객체 속성 지식 간의 연관도 측정을 통해 학습데이터를 자동으로 확장하는 장치 및 방법을 제공하는데 그 목적이 있다.
또한, 본 발명의 다른 목적은 코퍼스에서 구문 패턴 표현 매칭으로 찾은 모든 속성 후보 단어들 중에서 정제 과정 및 속성 단어와의 연관도 산출 과정을 통해서 각 문서를 대표하는 단어들만 속성 단어로 분류하는 것이 가능함으로써, 보다 정확하고 확장된 학습데이터를 포함한 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 달성하기 위한 본 발명의 실시예에 따른 속성 지식 확장 시스템은, 일반 텍스트 문서에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하고, 이를 초기 학습데이터로 구축하는 학습데이터 구축부; 상기 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축하는 어휘의미패턴 구축부; 코퍼스(corpus)로부터 상기 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출하는 텍스트 문서 추출부; 상기 일반 텍스트 문서에서 상기 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 상기 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 상기 속성 정보에 대한 후보 단어로서 추출하는 후보 단어 추출부; 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 상기 후보 단어들을 정제하는 후보 단어 정제부; 및 상기 정제된 후보 단어들 중에서 상기 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출하는 연관도 산출부를 포함할 수 있다.
상기 후보 단어 정제부는 다음의 수식들을 이용하여 속성 정보에 대한 후보 단어들에서 일반 텍스트 문서를 대표하지 않는 단어들을 구분하여 후보 단어들을 정제하는 것을 특징으로 한다.
[수식 1]
Figure pat00001
[수식 2]
Figure pat00002
for
Figure pat00003
여기서,
Figure pat00004
는 예측 문서 빈도수(EDF, Expected Document Frequency)를 의미하고,
Figure pat00005
은 전체 문서의 수를 의미하고,
Figure pat00006
은 해당 단어가 코퍼스에 등장하지 않을 확률을 의미하고,
Figure pat00007
는 어떤 사건
Figure pat00008
Figure pat00009
번 일어날 확률을 의미하고,
Figure pat00010
는 단어 출현 빈도를 의미한다.
상기 후보 단어 정제부는 예측 문서 빈도수와 실제 문서 빈도수의 비율(
Figure pat00011
)이 확률분포에서 전체 68%에 해당하는 1 표준편차(1σ, 1시그마)인 0.9~1.3 범위에 해당하는 단어들은 후보 속성 단어에서 제외하는 것을 특징으로 한다.
상기 연관도 산출부는 하기 [수식 3]을 이용하여 후보 단어와 속성 단어의 연관도를 산출하는 것을 특징으로 한다.
[수식 3]
Figure pat00012
여기서,
Figure pat00013
는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
Figure pat00014
는 후보 단어를 의미하고,
Figure pat00015
는 속성 단어를 의미한다.
상기 연관도 산출부는 하기 [수식 4]를 이용하여 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보(
Figure pat00016
)의 평균값을 산출하고, 산출된 점상호정보(
Figure pat00017
)의 평균값을 이용하여 후보 단어들이 속성 단어에 해당하는지 여부를 판단하는 것을 특징으로 한다.
[수식 4]
Figure pat00018
여기서,
Figure pat00019
Figure pat00020
는 속성 단어들의 집합을 의미하고,
Figure pat00021
은 속성 단어의 수를 의미한다.
상기 연관도 산출부는 정제된 후보 단어들 중에서 초기 학습데이터에 포함된 객체의 속성 정보와의 점상호정보(
Figure pat00022
) 값이 [수식 5]에 의한 임계치보다 큰 후보 단어일 경우에 속성 단어로 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 것을 특징으로 한다.
[수식 5]
Figure pat00023
for
Figure pat00024
상기 과제를 달성하기 위한 본 발명의 실시예에 따른 속성 지식 확장 방법은, 일반 텍스트 문서에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하고, 이를 초기 학습데이터로 구축하는 단계; 상기 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축하는 단계; 코퍼스(corpus)로부터 상기 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출하는 단계; 상기 일반 텍스트 문서에서 상기 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 상기 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 상기 속성 정보에 대한 후보 단어로서 추출하는 단계; 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 상기 후보 단어들을 정제하는 단계; 상기 정제된 후보 단어들 중에서 상기 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출하는 단계; 및 상기 산출된 연관도에 기초하여 상기 후보 단어들 중에서 속성 단어를 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 단계를 포함할 수 있다.
상기 후보 단어들을 정제하는 단계는, 다음의 수식들을 이용하여 속성 정보에 대한 후보 단어들에서 일반 텍스트 문서를 대표하지 않는 단어들을 구분하여 후보 단어들을 정제하는 단계인, 속성 지식 확장 방법.
[수식 1]
Figure pat00025
[수식 2]
Figure pat00026
for
Figure pat00027
여기서,
Figure pat00028
는 예측 문서 빈도수(EDF, Expected Document Frequency)를 의미하고,
Figure pat00029
은 전체 문서의 수를 의미하고,
Figure pat00030
은 해당 단어가 코퍼스에 등장하지 않을 확률을 의미하고,
Figure pat00031
는 어떤 사건
Figure pat00032
Figure pat00033
번 일어날 확률을 의미하고,
Figure pat00034
는 단어 출현 빈도를 의미한다.
상기 후보 단어들을 정제하는 단계는, 예측 문서 빈도수와 실제 문서 빈도수의 비율(
Figure pat00035
)이 확률분포에서 전체 68%에 해당하는 1 표준편차(1σ, 1시그마)인 0.9~1.3 범위에 해당하는 단어들은 후보 속성 단어에서 제외하는 단계인 것을 특징으로 한다.
상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는, 하기 [수식 3]을 이용하여 상기 후보 단어와 속성 단어의 연관도를 산출하는 단계인, 속성 지식 확장 방법.
[수식 3]
Figure pat00036
여기서,
Figure pat00037
는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
Figure pat00038
는 후보 단어를 의미하고,
Figure pat00039
는 속성 단어를 의미한다.
상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는, 상기 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보(
Figure pat00040
)의 평균값을 하기 [수식 4]를 이용하여 산출하고, 산출된 점상호정보(
Figure pat00041
)의 평균값을 이용하여 후보 단어들이 속성 단어에 해당하는지 여부를 판단하는 단계를 포함한다.
[수식 4]
Figure pat00042
여기서,
Figure pat00043
Figure pat00044
는 속성 단어들의 집합을 의미하고,
Figure pat00045
은 속성 단어의 수를 의미한다.
상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는, 상기 정제된 후보 단어들 중에서 초기 학습데이터에 포함된 객체의 속성 정보와의 점상호정보(
Figure pat00046
) 값이 하기 [수식 5]에 의한 임계치보다 큰 후보 단어일 경우에 속성 단어로 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 단계를 더 포함한다.
[수식 5]
Figure pat00047
for
Figure pat00048
개시된 기술의 실시 예들은 다음의 효과를 가질 수 있다. 다만, 개시된 기술의 실시 예들이 이를 전부 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
첫째, 초기 적은 양의 학습데이터로 객체의 속성정보에 대한 지식 확장이 가능하므로 인력과 시간 비용이 줄어들고, 새로운 객체에 적용할 때에도 적은 비용으로 학습데이터를 구축할 수 있는 효과가 있다.
둘째, 코퍼스에서 구문 패턴 표현 매칭으로 찾은 모든 속성 후보 단어들 중에서 정제 과정 및 속성 단어와의 연관도 산출 과정을 통해서 각 문서를 대표하는 단어들만 속성 단어로 분류하여 보다 정확한 지식 구축이 가능한 효과가 있다.
셋째, 확장된 학습데이터로 학습한 속성 인식 시스템을 사용하여 보다 많은 속성 정보를 포함하여 검색이 가능해지는 효과가 있다.
셋째, 확장된 학습데이터로 학습한 속성 인식 시스템을 사용하여 보다 많은 속성 정보를 포함하여 검색이 가능해지는 효과가 있다.
도 1은 본 발명의 실시예에 따른 지도 학습 기반의 속성 지식 인식 시스템을 개략적으로 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 지도 학습 기반의 속성 지식 확장 방법을 순차적으로 나타낸 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조할 수 있다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이상에서 설명한 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
본 발명에서 객체 속성은 해당 객체의 특징을 의미하고, 속성은 특징을 표현하는 단어를 의미한다. 또한, 후보 단어는 속성 단어에 해당될 수 있는 후보 단어로, 속성 후보 단어로 표현될 수 있다. 또한, 본 발명에서는 뉴스 기사 등과 같은 일반 텍스트 문서를 이용하여 초기 학습데이터를 구축할 수 있으며, 구축된 초기 학습데이터를 기반으로 속성 지식 확장 시스템을 이용하여 새로운 속성 정보를 추출하고, 정확한 지식 구축을 통해 학습데이터를 확장하여, 더 많은 속성 정보를 포함한 검색이 가능하다.
이하 도 1을 참조하여 본 발명의 일 실시예에 따른 속성 지식 확장 시스템을 설명한다. 도 1은 본 발명의 일 실시예에 따른 속성 지식 확장 시스템을 개략적으로 나타낸 블록도이다.
도 1에 도시된 바와 같이, 본 발명의 속성 지식 확장 시스템(100)은 학습데이터 구축부(10), 어휘의미패턴 구축부(20), 텍스트 문서 추출부(30), 후보 단어 추출부(40), 후보 단어 정제부(50), 연관도 산출부(60) 및 DB(70)를 포함할 수 있다.
예를 들어,“빨간 상의와 청바지를 입은 아이가 주차장에서 나오고 있다”라는 CCTV 영상이 있다고 가정하자. 이때, 일반적인 CCTV 영상은 상술한 영상 이미지를 설명하기 위한 문장 단위의 데이터로 만드는 과정이 있다. 이처럼 영상으로부터 출력된 문장 단위의 데이터에서 원하는 사람을 쉽게 검색하고자 할 때, 주차장이라는 장소 또는 사람의 특징 등을 표현하는 다량의 속성 정보라는 것이 필요하다.
이러한 속성 정보를 확장하기 위해서, 본 발명의 학습데이터 구축부(10)는 뉴스 기사 등과 같은 일반 텍스트 문서에서 속성이라는 단어가 등장한 텍스트 데이터를 찾아서 형태소 분석을 수행한 뒤에, 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하여 초기 학습데이터를 구축한다. 아래의 예문 1을 예로 들어 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하는 방법에 대하여 자세히 설명한다.
예문 1
빨간 상의와 청바지를 입은 아이
학습데이터 구축부(10)가 예문 1을 형태소 분석을 수행한 뒤에 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하면 아래 예문 2의 결과가 나오게 된다.
예문 2
빨갛 VA B_COLOR
ㄴ ETM I
상의 NNG B_CLOTHES
와 JKB O
청바지 NNG B_CLOTHES
를 JKO O
입 VV O
은 ETM O
아이 NNG B_PERSON
여기서, B_는 속성분류명으로 해당 속성의 시작 지점을 의미하고, I는 이전 속성분류명의 연속을 의미하며, O는 속성분류명이 없음을 나타낸다. 예문 2에서 객체의 속성을 의미하는‘빨간’은 ‘빨갛’과 ‘ㄴ’이라는 두 개의 형태소가 합쳐져야 하나의 속성이 된다는 것을 의미한다.
학습데이터 구축부(10)가 상술한 바와 같은 양식으로 초기 학습데이터를 구축하면, 속성 지식 확장 시스템(100)은 구축된 초기 학습데이터를 기반으로 속성 지식을 확장한다.
어휘의미패턴 구축부(20)는 초기 학습데이터를 확장하기 위해서, 학습데이터 구축부(10)에 의해 구축된 초기 학습데이터에서 속성에 해당할 수 있는 중요한 부분을 어휘의미패턴(LSP)화한다. 즉, 어휘의미패턴 구축부(20)는 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축할 수 있다.
여기서, LSP(어휘의미패턴, Lexico-Semantic-Pattern)를 구축할 때는 텍스트를 매칭하기 위한 정규식과 유사한 구문 패턴 표현으로, 단어뿐만 아니라 형태소 태그, 의미자질, 각종 연산자들을 사용하여 구성한다. 예를 들어,‘이번달 핸드폰 요금이 얼마?’라고 입력을 한다면, 이를 분석하기 위해서 LSP는‘@phone @pay+(/J_)? @how+(/SC)?’와 같이 구성될 수 있다. 여기서‘@’는 의미자질을 의미하며,‘/’가 앞에 들어간 것은 형태소 태그를 의미하고,‘/J_’는 조사를 의미하며,‘*1’은 최대 1개의 어절을 의미한다. 아래의 표 1은 LSP를 표현하기 위하여 사용된 기호(연산자와 품사)의 의미를 설명한 것이다.
연산자 표현방법 설명
어휘 코엑스, 요금제, 이동하다 구문표현에 쓰이는 어휘 자체
품사 NNG, MA, VV, V_ 형태소에 대한 한국어 품사
/ 코엑스/NNG, 이동하/VV 어휘와 품사의 구분자
( ) (코엑스/NNG)+에/J_ 우선순위 및 단위를 구분하는 한정자
{ } 코엑스/NNG+에/J_ 하나의 표현 단위(어절)로 구분하는 한정자
+ 코엑스/NNG+에/J_ 형태소를 순차적 표현을 위한 형태소간 연결자
| @장소|@지역 OR 연산자
& !ETM&!EM AND 연산자
! !ETM, !NNG NOT 연산자
? @지급+(/J_)? Zero or One-존재해도 매칭, 존재하지 않아도 매칭
* NNG* Zero or More-동일한 구성성분이 반복되도록 매칭
*2 어절 반복
(‘’는 0~2개의 어절이 매칭 가능함을 의미)
@ @지역, @장소 의미자질
2015+-+@년 기호를 표기. 바로 연이어 오는 문자 한 개에 적용
상술한 바와 같이 LSP는 어휘, 품사, 형태소를 포함하여 문장의 의미를 나타내는 구문 구조를 가지며 의미자질과 패턴 기호로 이루어져 있다. 아래의 예문 3은 학습데이터 구축부(10)에 의해 구축된 초기 학습데이터에서 어휘의미패턴 구축부(20)가 속성에 해당할 수 있는 중요한 부분을 어휘의미패턴(LSP)화한 예시이다.
예문 3
빨간 상의와 청바지를 입은 아이→ /VA+/ETM /NNG+/J_ /NNG+/J_ @입다
후드티와 청바지를 입고 → /NNG+/J_ /NNG+/J_ @입다
마스크와 모자를 쓴 체 → /NNG+/J_ /NNG+/J_ @쓰다
티셔츠와 팬츠를 맞춰 입어 → /NNG+/J_ /NNG+/J_ *1 @입다
검은 가죽 재킷 차림으로 입국했다.→ /VA+/ETM /NNG* 차림으로
점퍼 차림으로 나타났다.→ /NNG 차림으로
상술한 바와 같이, 어휘의미패턴 구축부(20)는 초기 학습데이터 문장에서 객체의 특징을 나타내는 속성에 해당할 수 있는 부분을 예시와 같이 생성한다.
텍스트 문서 추출부(30)는 DB(70)에 저장된 코퍼스(Corpus)라고 불리는 속성이 표시되지 않은 일반 텍스트 문서 집합에서 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출한다.
후보 단어 추출부(40)는 텍스트 문서 추출부(30)에 의해 추출된 일반 텍스트 문서에서 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 속성 정보에 대한 후보 단어로서 추출한다.
예를 들면, 후보 단어 추출부(40)는 LSP로 표현된‘빨간 상의와 청바지를 입은 아이’에 매칭되는‘파란 셔츠와 반바지를 입은 사람’이라는 문장 패턴인 후보 문장을 검출하고 검출된 후보 문장에서 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어인‘파란 셔츠’,‘반바지’를 후보 단어로서 추출할 수 있다. 이와 같은 방식으로, 후보 단어 추출부(40)는 객체 속성이 있던 위치에 등장한 속성 후보 단어들을 추출할 수 있다. 본 발명에서는 상술한 바와 같이 코퍼스에서 LSP 매칭으로 찾은 모든 속성 후보 단어들 중에서 각 문서를 대표하는 단어들만 속성 단어로 분류할 수 있다.
이를 위해서, 본 발명의 후보 단어 정제부(50)는 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 후보 단어 추출부(40)에 의해 추출된 후보 단어들을 정제하는 역할을 수행한다. 이때, 후보 단어 정제부(50)는 예측 문서 빈도수(EDF, Expected Document Frequency)와 실제 문서 빈도수(RDF, Real Document Frequency)라는 개념을 이용한다. 여기서, 실제 문서 빈도수(RDF)는 해당 단어가 코퍼스에 등장한 빈도수를 계산한 값이고, 예측 문서 빈도수(EDF)는 해당 단어가 코퍼스에 등장할 확률을 이용하여 문서 빈도수를 예측한 값이다. 후보 단어 정제부(50)는 다음 [수식 1]을 이용하여 해당 단어가 한번이라도 나오게 될 확률인 예측 문서 빈도수(EDF)를 구할 수 있다.
[수식 1]
Figure pat00049
여기서,
Figure pat00050
은 전체 문서의 수를 의미하며,
Figure pat00051
은 해당 단어가 코퍼스에 등장하지 않을 확률을 의미한다.
또한, 해당 단어가 코퍼스에 등장할 확률을 계산하기 위해서는 포아송 확률 분포(Poisson Distribution)를 이용하였으며, 다음 [수식 2]를 따른다.
[수식 2]
Figure pat00052
for
Figure pat00053
여기서,
Figure pat00054
은 전체 문서의 수를 의미하고,
Figure pat00055
는 어떤 사건
Figure pat00056
Figure pat00057
번 일어날 확률을 의미하고,
Figure pat00058
는 단어 출현 빈도를 의미한다.
상술한 바와 같이, 후보 단어 정제부(50)는 해당 단어가 한번이라도 나오게 될 확률인 예측 문서 빈도수(EDF)와 해당 단어가 코퍼스에 등장한 빈도수를 계산한 값인 실제 문서 빈도수(RDF)를 계산할 수 있다. 여기서, 후보 단어 정제부(50)에 의해 계산된 예측 문서 빈도수와 실제 문서 빈도수의 비율(
Figure pat00059
)이 1에 가까우면 해당 단어가 코퍼스에서 원래 나타날 확률이므로 문서를 대표하지 않을 확률이 높으며 중요하지 않은 단어라고 판단한다. 후보 단어 정제부(50)는 중요하지 않은 단어를 제거하기 위해, 예측 문서 빈도수와 실제 문서 빈도수의 비율(
Figure pat00060
)이 확률분포에서 전체 68%에 해당하는 1 표준편차(1σ, 1시그마)인 0.9~1.3 범위에 해당하는 단어들은 후보 속성 단어에서 제외한다. 상기 0.9~1.3 범위는 코퍼스의 양에 따라서 변경 가능한 값이다.
연관도 산출부(60)는 정제된 후보 단어들 중에서 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출한다. 연관도 산출부(60)는 연관도를 계산하기 위한 방법으로 점상호정보(PMI, Pointwise Mutual Information)를 이용한다. 구체적으로, 연관도 산출부(60)는 후보 단어와 속성 단어인 두 단어가 한 문서 내에서 동시에 등장할 확률(
Figure pat00061
)과, 후보 단어 또는 속성 단어가 문서 내에서 등장할 확률(
Figure pat00062
)을 가지고, 후보 단어와 속성 단어 간의 연관도를 [수식 3]을 이용하여 산출할 수 있다.
[수식 3]
Figure pat00063
여기서,
Figure pat00064
는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
Figure pat00065
는 후보 단어를 의미하고,
Figure pat00066
는 속성 단어를 의미한다. 예를 들어, 후보 단어는 100문서에 등장하고 속성 단어는 200문서에 등장하는데, 후보 단어와 속성 단어인 두 단어가 동시에 같이 등장한 문서가 10문서인 경우,
Figure pat00067
는 작은 값을 가지므로, 두 단어 간 연관도는 낮은 것으로 판단할 수 있다. 상술한
Figure pat00068
개념을 이용하여 연관도 산출부(60)는 후보 단어와 속성 단어들의 점상호정보(PMI)를 산출할 수 있고, 다음 [수식 4]를 이용하여 산출된 후보 단어와 속성 단어의 연관도의 평균값을 산출할 수 있다.
[수식 4]
Figure pat00069
여기서,
Figure pat00070
는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
Figure pat00071
는 속성 단어들의 집합을 의미하고,
Figure pat00072
은 속성 단어의 수를 의미한다.
또한, 연관도 산출부(60)는 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보의 평균값을 [수식 4]를 이용하여 산출하고, 산출된 점상호정보의 평균값을 통해 후보 단어들이 속성 단어에 해당하는지 여부를 판단할 수 있다. 또한, 후보 단어들 중에서 속성 단어를 결정하기 위한 기준값인 임계치를 다음의 [수식 5]에 따라 정의할 수 있다.
[수식 5]
Figure pat00073
for
Figure pat00074
그리고, 연관도 산출부(60)는 후보 단어 정제부(50)에 의해 정제된 후보 단어들 중에서 초기 학습데이터에 포함된 객체의 속성 정보와의 점상호정보(
Figure pat00075
) 값이 상기 [수식 5]에 의해 정의된 임계치보다 큰 후보 단어일 경우에 속성 단어로 결정하고, 결정된 속성 단어를 DB(70)에 저장된 초기 학습데이터에 계속적으로 추가하여 저장함으로써 결정된 속성 단어와 매칭된 문장을 기준으로 초기 학습 데이터를 확장할 수 있다.
DB(70)는 학습데이터 구축부(10)에 의해 구축된 초기 학습데이터, 어휘의미패턴 구축부(20)에 의해 구축된 어휘의미패턴(LSP), 코퍼스(Corpus)라고 불리는 속성이 표시되지 않은 일반 텍스트 문서 집합, 그리고 후보 단어들의 정제 및 후보 단어와 속성 단어 간의 연관도 측정을 통해 후보 단어들에서 속성 단어로 선정된 단어들을 저장할 수 있다.
이와 같이, 본 발명의 속성 지식 확장 시스템(100)은 초기의 학습데이터를 기반으로 어휘의미패턴(LSP)을 구축하고, 일반 텍스트 문서에서 객체 속성 지식을 추출하며 초기 학습데이터에 포함된 속성 단어와 일반 텍스트 문서에서 추출된 객체 속성 지식 간의 연관도 측정을 통해 학습데이터를 자동으로 확장함으로써 지도 학습 방법의 한계점인 다량의 학습데이터 확보의 어려움을 해결할 수 있다.
이하 도 2를 참조하여 본 발명의 일 실시예에 따른 속성 지식 확장 방법에 대하여 자세히 설명한다. 여기서, 도 2는 본 발명의 일 실시예에 따른 속성 지식 확장 방법을 순차적으로 나타낸 순서도이다.
도 2를 참조하면, 우선 학습데이터 구축부(10)는 뉴스 기사 등과 같은 일반 텍스트 문서에서 속성이라는 단어가 등장한 텍스트 데이터를 찾아서 형태소 분석을 수행한 뒤에, 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하여 초기 학습데이터를 구축한다(S100). 이때, 학습데이터 구축부(10)가 초기 학습데이터를 구축하면, 속성 지식 확장 시스템(100)은 구축된 초기 학습데이터를 기반으로 새로운 속성 정보를 추출하고, 정확한 지식 구축을 통해 학습데이터를 확장하여, 더 많은 속성 정보를 포함한 검색을 가능하게 한다.
이후, 어휘의미패턴 구축부(20)는 초기 학습데이터를 확장하기 위해서, 학습데이터 구축부(10)에 의해 구축된 초기 학습데이터에서 속성에 해당할 수 있는 중요한 부분을 어휘의미패턴(LSP)화한다(S110). 즉, 어휘의미패턴 구축부(20)는 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축할 수 있다.
단계 S110 이후, 후보 단어 추출부(40)는 텍스트 문서 추출부(30)에 의해 추출된 일반 텍스트 문서에서 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 속성 정보에 대한 후보 단어로서 추출한다(S120).
단계 S120 이후, 후보 단어 정제부(50)는 속성 정보에 대한 후보 단어들에서 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 후보 단어 추출부(40)에 의해 추출된 후보 단어들을 정제한다(S130). 이때, 후보 단어 정제부(50)는 예측 문서 빈도수(EDF, Expected Document Frequency)와 실제 문서 빈도수(RDF, Real Document Frequency)라는 개념을 이용하여 해당 단어가 한번이라도 나오게 될 확률인 예측 문서 빈도수(EDF)와 해당 단어가 코퍼스에 등장한 빈도수를 계산한 값인 실제 문서 빈도수(RDF)를 계산할 수 있다. 그리고, 후보 단어 정제부(50)는 중요하지 않은 단어를 제거하기 위해, 예측 문서 빈도수와 실제 문서 빈도수의 비율(
Figure pat00076
)이 확률분포에서 전체 68%에 해당하는 1 표준편차(1σ, 1시그마)인 0.9~1.3 범위에 해당하는 단어들은 후보 속성 단어에서 제외한다.
단계 S130 이후, 연관도 산출부(60)는 단계 S130에서 정제된 후보 단어들 중에서 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출한다(S140). 이때, 연관도 산출부(60)는 점상호정보(PMI, Pointwise Mutual Information)를 이용하여 정제된 후보 단어들과 속성 단어 간의 연관도를 계산할 수 있다. 구체적으로, 연관도 산출부(60)는 후보 단어와 속성 단어인 두 단어가 한 문서 내에서 동시에 등장할 확률(
Figure pat00077
)과, 후보 단어 또는 속성 단어가 문서 내에서 등장할 확률(
Figure pat00078
)을 가지고, 후보 단어와 속성 단어 간의 연관도를 [수식 3]을 이용하여 산출할 수 있다.
[수식 3]
Figure pat00079
여기서,
Figure pat00080
는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
Figure pat00081
는 후보 단어를 의미하고,
Figure pat00082
는 속성 단어를 의미한다.
또한, 단계 S140에서 연관도 산출부(60)는 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보(
Figure pat00083
)의 평균값을 아래의 [수식 4]를 이용하여 산출하고, 산출된 점상호정보(
Figure pat00084
)의 평균값을 통해 후보 단어들이 속성 단어에 해당하는지 여부를 판단할 수 있다.
[수식 4]
Figure pat00085
여기서,
Figure pat00086
는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
Figure pat00087
는 속성 단어들의 집합을 의미하고,
Figure pat00088
은 속성 단어의 수를 의미한다.
또한, 단계 S140에서 단계 S130에서 정제된 후보 단어들 중에서 속성 단어를 결정하기 위한 기준값인 임계치를 다음의 [수식 5]에 따라 정의할 수 있다.
[수식 5]
Figure pat00089
for
Figure pat00090
단계 S140 이후, 연관도 산출부(60)는 후보 단어 정제부(50)에 의해 정제된 후보 단어들 중에서 초기 학습데이터에 포함된 객체의 속성 정보와의 점상호정보(
Figure pat00091
) 값이 상기 [수식 5]에 의해 정의된 임계치보다 큰 후보 단어일 경우에 속성 단어로 결정하고, 결정된 속성 단어를 DB(70)에 저장된 초기 학습데이터에 계속적으로 추가하여 저장 및 등록함으로써 결정된 속성 단어와 매칭된 문장을 기준으로 초기 학습 데이터를 확장할 수 있다.
상술한 바와 같이, 본 발명의 실시예에 따르면 초기 적은 양의 학습데이터로 후보 단어들을 선정하고 정제하며 속성 단어와의 연관도를 측정하는 과정을 통해서 후보 단어들 중에서 속성 단어를 결정하여 초기 학습데이터에 저장 및 등록하는 객체의 속성정보에 대한 지식 확장 과정을 거친다. 예컨대, 상술한 객체의 속성정보에 대한 지식 확장 과정은 관리자에 의해 설정된 일정 횟수 동안 또는 더 이상의 새로운 의미자질이 추출되지 않을 때까지 반복적으로 수행될 수 있다.
즉, 본 발명에 따른 속성 지식 확장 시스템 및 속성 지식 확장 방법에 따르면, 초기의 학습데이터를 기반으로 어휘의미패턴(LSP)을 구축하고, 일반 텍스트 문서에서 객체 속성 지식을 추출하며 초기 학습데이터에 포함된 속성 단어와 일반 텍스트 문서에서 추출된 객체 속성 지식 간의 연관도 측정을 통해 학습데이터를 자동으로 확장함으로써 종래 지도 학습 방법의 한계점인 다량의 학습데이터 확보의 어려움을 해결할 수 있다. 이에 따라, 초기 적은 양의 학습데이터로 객체의 속성정보에 대한 지식 확장이 가능하므로 인력과 시간 비용이 줄어들고, 새로운 객체에 적용할 때에도 적은 비용으로 학습데이터를 구축할 수 있는 종래 기술 대비 현저하고도 유리한 효과가 있다.
참고로, 본 발명의 바람직한 여러 가지 실시 예에 따른 속성 지식 확장 시스템 및 속성 지식 확장 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용가능한 것일 수도 있다. 컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상 첨부된 도면을 참조하여 본 발명의 실시 예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 명세서의 범위는 상기 상세한 설명보다는 후술하는 특허청구의 범위에 의하여 나타내어지며, 특허청구의 범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 명세서의 범위에 포함되는 것으로 해석되어야 한다.
한편, 본 명세서와 도면에는 본 명세서의 바람직한 실시 예에 대하여 개시하였으며, 비록 특정 용어들이 사용되었으나, 이는 단지 본 명세서의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 명세서의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예 외에도 본 명세서의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.
100 : 속성 지식 확장 시스템
10 : 학습데이터 구축부 20 : 어휘의미패턴 구축부
30 : 텍스트 문서 추출부 40 : 후보 단어 추출부
50 : 후보 단어 정제부 60 : 연관도 산출부
70 : 데이터베이스(DB)

Claims (12)

  1. 일반 텍스트 문서에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하고, 이를 초기 학습데이터로 구축하는 학습데이터 구축부;
    상기 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축하는 어휘의미패턴 구축부;
    코퍼스(corpus)로부터 상기 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출하는 텍스트 문서 추출부;
    상기 일반 텍스트 문서에서 상기 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 상기 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 상기 속성 정보에 대한 후보 단어로서 추출하는 후보 단어 추출부;
    상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 상기 후보 단어들을 정제하는 후보 단어 정제부; 및
    상기 정제된 후보 단어들 중에서 상기 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출하는 연관도 산출부
    를 포함하는 속성 지식 확장 시스템.
  2. 제1항에 있어서,
    상기 후보 단어 정제부는 다음의 수식들을 이용하여 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하여 상기 후보 단어들을 정제하는 것을 특징으로 하는 속성 지식 확장 시스템.
    [수식 1]
    Figure pat00092

    [수식 2]
    Figure pat00093
    for
    Figure pat00094

    (여기서,
    Figure pat00095
    는 예측 문서 빈도수(EDF, Expected Document Frequency)를 의미하고,
    Figure pat00096
    은 전체 문서의 수를 의미하고,
    Figure pat00097
    은 해당 단어가 코퍼스에 등장하지 않을 확률을 의미하고,
    Figure pat00098
    는 어떤 사건
    Figure pat00099
    Figure pat00100
    번 일어날 확률을 의미하고,
    Figure pat00101
    는 단어 출현 빈도를 의미한다.)
  3. 제2항에 있어서, 상기 후보 단어 정제부는 예측 문서 빈도수와 실제 문서 빈도수의 비율(
    Figure pat00102
    )이 확률분포에서 전체 68%에 해당하는 1 표준편차(1σ, 1시그마)인 0.9~1.3 범위에 해당하는 단어들은 후보 속성 단어에서 제외하는 것을 특징으로 하는 속성 지식 확장 시스템.
  4. 제1항에 있어서,
    상기 연관도 산출부는 하기 [수식 3]을 이용하여 상기 후보 단어와 속성 단어의 연관도를 산출하는 것을 특징으로 하는 속성 지식 확장 시스템.
    [수식 3]
    Figure pat00103

    (여기서,
    Figure pat00104
    는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
    Figure pat00105
    는 후보 단어를 의미하고,
    Figure pat00106
    는 속성 단어를 의미한다.)
  5. 제4항에 있어서,
    상기 연관도 산출부는 하기 [수식 4]를 이용하여 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보(
    Figure pat00107
    )의 평균값을 산출하고, 산출된 점상호정보(
    Figure pat00108
    )의 평균값을 이용하여 후보 단어들이 속성 단어에 해당하는지 여부를 판단하는 것을 특징으로 하는 속성 지식 확장 시스템.
    [수식 4]
    Figure pat00109

    (여기서,
    Figure pat00110
    는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
    Figure pat00111
    는 속성 단어들의 집합을 의미하고,
    Figure pat00112
    은 속성 단어의 수를 의미한다.)
  6. 제5항에 있어서,
    상기 연관도 산출부는 상기 정제된 후보 단어들 중에서 초기 학습데이터에 포함된 객체의 속성 정보와의 점상호정보(
    Figure pat00113
    ) 값이 하기 [수식 5]에 의한 임계치보다 큰 후보 단어일 경우에 속성 단어로 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 것을 특징으로 하는 속성 지식 확장 시스템.
    [수식 5]
    Figure pat00114
    for
    Figure pat00115
  7. 일반 텍스트 문서에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하고, 이를 초기 학습데이터로 구축하는 단계;
    상기 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축하는 단계;
    코퍼스(corpus)로부터 상기 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출하는 단계;
    상기 일반 텍스트 문서에서 상기 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 상기 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 상기 속성 정보에 대한 후보 단어로서 추출하는 단계;
    상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 상기 후보 단어들을 정제하는 단계;
    상기 정제된 후보 단어들 중에서 상기 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출하는 단계; 및
    상기 산출된 연관도에 기초하여 상기 후보 단어들 중에서 속성 단어를 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 단계
    를 포함하는 속성 지식 확장 방법.
  8. 제7항에 있어서, 상기 후보 단어들을 정제하는 단계는, 다음의 수식들을 이용하여 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하여 상기 후보 단어들을 정제하는 단계인, 속성 지식 확장 방법.
    [수식 1]
    Figure pat00116

    [수식 2]
    Figure pat00117
    for
    Figure pat00118

    (여기서,
    Figure pat00119
    는 예측 문서 빈도수(EDF, Expected Document Frequency)를 의미하고,
    Figure pat00120
    은 전체 문서의 수를 의미하고,
    Figure pat00121
    은 해당 단어가 코퍼스에 등장하지 않을 확률을 의미하고,
    Figure pat00122
    는 어떤 사건
    Figure pat00123
    Figure pat00124
    번 일어날 확률을 의미하고,
    Figure pat00125
    는 단어 출현 빈도를 의미한다.)
  9. 제8항에 있어서, 상기 후보 단어들을 정제하는 단계는, 예측 문서 빈도수와 실제 문서 빈도수의 비율(
    Figure pat00126
    )이 확률분포에서 전체 68%에 해당하는 1 표준편차(1σ, 1시그마)인 0.9~1.3 범위에 해당하는 단어들은 후보 속성 단어에서 제외하는 단계인, 속성 지식 확장 방법.
  10. 제7항에 있어서, 상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는, 하기 [수식 3]을 이용하여 상기 후보 단어와 속성 단어의 연관도를 산출하는 단계인, 속성 지식 확장 방법.
    [수식 3]
    Figure pat00127

    (여기서,
    Figure pat00128
    는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
    Figure pat00129
    는 후보 단어를 의미하고,
    Figure pat00130
    는 속성 단어를 의미한다.)
  11. 제10항에 있어서, 상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는,
    상기 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보(
    Figure pat00131
    )의 평균값을 하기 [수식 4]를 이용하여 산출하고, 산출된 점상호정보(
    Figure pat00132
    )의 평균값을 이용하여 후보 단어들이 속성 단어에 해당하는지 여부를 판단하는 단계를 포함하는 속성 지식 확장 방법.
    [수식 4]
    Figure pat00133

    (여기서,
    Figure pat00134
    는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
    Figure pat00135
    는 속성 단어들의 집합을 의미하고,
    Figure pat00136
    은 속성 단어의 수를 의미한다.)
  12. 제11항에 있어서, 상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는,
    상기 정제된 후보 단어들 중에서 초기 학습데이터에 포함된 객체의 속성 정보와의 점상호정보(
    Figure pat00137
    ) 값이 하기 [수식 5]에 의한 임계치보다 큰 후보 단어일 경우에 속성 단어로 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 단계를 더 포함하는 속성 지식 확장 방법.
    [수식 5]
    Figure pat00138
    for
    Figure pat00139
KR1020180148005A 2018-11-27 2018-11-27 속성 지식 확장 시스템 및 속성 지식 확장 방법 KR102147582B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180148005A KR102147582B1 (ko) 2018-11-27 2018-11-27 속성 지식 확장 시스템 및 속성 지식 확장 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180148005A KR102147582B1 (ko) 2018-11-27 2018-11-27 속성 지식 확장 시스템 및 속성 지식 확장 방법

Publications (2)

Publication Number Publication Date
KR20200068769A true KR20200068769A (ko) 2020-06-16
KR102147582B1 KR102147582B1 (ko) 2020-08-26

Family

ID=71141795

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180148005A KR102147582B1 (ko) 2018-11-27 2018-11-27 속성 지식 확장 시스템 및 속성 지식 확장 방법

Country Status (1)

Country Link
KR (1) KR102147582B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486654A (zh) * 2021-07-28 2021-10-08 焦点科技股份有限公司 一种基于先验主题聚类的敏感词库构建与扩展方法
KR20220055277A (ko) * 2020-10-26 2022-05-03 삼성에스디에스 주식회사 텍스트 데이터 증강 장치 및 방법
CN114490998A (zh) * 2021-12-28 2022-05-13 北京百度网讯科技有限公司 文本信息的抽取方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877196A (ja) * 1994-09-08 1996-03-22 Fujitsu Ltd 文書情報抽出装置
KR101806151B1 (ko) * 2016-07-21 2017-12-07 숭실대학교산학협력단 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체
KR20180062490A (ko) * 2016-11-30 2018-06-11 주식회사 와이즈넛 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877196A (ja) * 1994-09-08 1996-03-22 Fujitsu Ltd 文書情報抽出装置
KR101806151B1 (ko) * 2016-07-21 2017-12-07 숭실대학교산학협력단 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체
KR20180062490A (ko) * 2016-11-30 2018-06-11 주식회사 와이즈넛 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Misbah A.M. 외, mining opinions in Arabic text using an improved "Semantic Orientation using Pointwise Mutual Information" Algorithm", INFOS 컨퍼런스 논문집 pp.61-19 (2012) *
김문종 외, 구문 의미 이해 기반의 VOC 요약 및 분류, 정보과학회 ‘컴퓨팅의 실제’논문지 vol.22 no.1, pp.50-55 (2016.01.) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220055277A (ko) * 2020-10-26 2022-05-03 삼성에스디에스 주식회사 텍스트 데이터 증강 장치 및 방법
CN113486654A (zh) * 2021-07-28 2021-10-08 焦点科技股份有限公司 一种基于先验主题聚类的敏感词库构建与扩展方法
CN113486654B (zh) * 2021-07-28 2024-04-26 焦点科技股份有限公司 一种基于先验主题聚类的敏感词库构建与扩展方法
CN114490998A (zh) * 2021-12-28 2022-05-13 北京百度网讯科技有限公司 文本信息的抽取方法、装置、电子设备和存储介质
CN114490998B (zh) * 2021-12-28 2022-11-08 北京百度网讯科技有限公司 文本信息的抽取方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
KR102147582B1 (ko) 2020-08-26

Similar Documents

Publication Publication Date Title
CN111291210B (zh) 图像素材库生成方法、图像素材推荐方法及相关装置
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
JP7132046B2 (ja) 検索装置、検索方法及びプログラム
KR102147582B1 (ko) 속성 지식 확장 시스템 및 속성 지식 확장 방법
CN111291572B (zh) 一种文字排版方法、装置及计算机可读存储介质
CN105930836A (zh) 一种视频文字的识别方法和装置
KR101696499B1 (ko) 한국어 키워드 검색문 해석 장치 및 방법
EP2806336A1 (en) Text prediction in a text input associated with an image
KR20090068380A (ko) 개선된 이동 통신 단말
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
KR20210086836A (ko) 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법
CN112287071A (zh) 一种文本关系提取方法、装置及电子设备
JP6389296B1 (ja) 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム
CN106815253A (zh) 一种基于混合数据类型数据的挖掘方法
JP6868576B2 (ja) 事象提示システムおよび事象提示装置
JP5112027B2 (ja) 文書群提示装置および文書群提示プログラム
KR102122918B1 (ko) 대화형 질의응답 장치 및 그 방법
JP2005107931A (ja) 画像検索装置
JP2007279978A (ja) 文書検索装置及び文書検索方法
CN115774797A (zh) 视频内容检索方法、装置、设备和计算机可读存储介质
JP5326781B2 (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
US11574467B2 (en) Document augmented auto complete
Patel et al. VizOPS: A data-driven ontology to represent public place surveillance data
Conti et al. Vocabulary-free Image Classification and Semantic Segmentation
JP2018055504A (ja) 情報処理装置

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant