KR100468371B1

KR100468371B1 - 정보 검색을 위하여 신경 회로망을 이용하는 색인어 추출 및 저장 방법

Info

Publication number: KR100468371B1
Application number: KR10-2001-0039232A
Authority: KR
Inventors: 정지원; 옥진호
Original assignee: 주식회사 잉카인터넷
Priority date: 2001-07-02
Filing date: 2001-07-02
Publication date: 2005-02-02
Also published as: KR20030002930A

Abstract

본 발명은 정보인식엔진에 관한 것으로, 수집한 정보에 대해 신경회로망 기술을 도입한 새로운 형태의 인식방식을 이용하여 인간의 도움 없이도 스스로 언어를 학습하고 주제를 인식하여 데이터를 자동으로 분류할 수 있도록 함으로써 성장성과 환경변화에 적응력을 갖고 정보처리의 한계성을 극복할 수 있도록 한 것이다.

종래의 정보를 처리하기 위한 방식은 관리자가 인위적으로 설정한 카테고리에 적합하도록 정보들을 분류함으로써 비용과 인력 및 시간상의 문제점을 가지고 있을 뿐 아니라 키워드 검색의 한계와 사전을 미리 구축해야 하는 단점을 함께 가지고 있었다.

그러므로 본 발명의 정보인식엔진은 사전, 일반 형태소 사전 또는 시소러스를 갖추지 않은 상태에서도 스스로의 학습을 통하여 단어와 구를 추출하는 단계와,

문장 패턴의 중심이 되는 중심어를 도출하여 언어 패턴의 유사성을 구하면서 단어와 단어의 밀접성과 관계성, 동의 및 복합명사를 반복적인 학습에 의해 그 구조를 파악하여 스스로 사전 및 시소러스를 구축하여 처리하는 단계와,

정보에서 주제어, 대주제어, 중주제어, 소주제어 및 배경지식을 뽑아내고, 주제어를 중심으로 정보를 구조적으로 분류하는 단계로 구성되며 이들 단계를 통해서 정보를 인식하고 처리하는 것이 가능하도록 한 것이다.

Description

정보 검색을 위하여 신경 회로망을 이용하는 색인어 추출 및 저장 방법 {Method for abstract and preserving a index using neural network for searching information}

본 발명은 정보 검색을 위하여 신경 회로망(Neural Network)을 이용하는 색인어 추출 및 저장 방법에 관한 것으로서, 상세하게는 수집한 정보에 대해 신경 회로망 기술을 도입한 새로운 형태의 인식 방식을 이용하여 인간의 도움없이도 스스로 언어를 학습하고 주제를 인식하여 데이터를 자동으로 분류할 수 있도록 함으로써, 성장성과 환경 변화에 적응력을 갖도록 하여 정보 처리의 한계성을 극복할 수 있도록 한 색인어 추출 및 저장 방법에 관한 것이다.

일반적으로 인터넷을 이용하는 사용자가 원하는 정보를 찾기 위해서 정보검색엔진 서버에 정보들을 입력시킨 상태에서 서버에 접속하여 원하는 정보를 요청하면 정보검색엔진을 통하여 해당 정보를 출력하도록 하였음은 이미 잘 알려진 사실이다. 정보검색엔진이 갖고 있는 여러 가지의 단점을 극복하기 위한 방안으로서 정보인식엔진을 발명한 것으로,

종래의 일반적인 정보처리를 위하여 정보검색, 인공지능, 자연언어처리, 패턴인식 등 4가지 기술분야를 주로 이용하고 있으며, 이들 각 분야에 대해 살펴보면 다음과 같다.

첫째는 정보검색 분야로서 기존의 정보처리 과정은 수집된 데이터들에서 단어들을 색인화하여 데이터베이스에 색인된 단어를 저장하는 과정과,

상기의 저장된 색인어는 사용자가 검색어를 요청하였을 때 일치 여부를 확인하며 일치된 색인어의 데이터를 정리하여 나열해주도록 하였다.

그리고 상기의 정보검색기술은 단어들의 색인화 작업과 통계적 기법 등과 같은 자연어처리 기법과 인공지능 기법을 이용하여 데이터베이스를 형성하도록 하였으나, 수집된 데이터에서 색인어를 만들 때 색인어가 차지하는 비중을 정확히 알 수 없어서, 사용자가 검색어를 요청했을 때 제공되는 데이터들이 그 주제와는 관계없이 선택되어 서비스되었고, 이는 사용자와 제공된 데이터와의 관련성을 일일이 확인해야 한다는 단점이 있다.

둘째는 인공지능 분야로서 인공지능은 그 알고리즘에 따라 대표적인 4가지 종류로 정리할 수 있다. 퍼지 시스템, 신경회로망, 전문가 시스템, 유전자 알고리즘 등이 그것이며, 일반적인 인공지능 알고리즘을 이용하여 문제를 해결하는 경우도 있다. 이들 인공지능 중에서 신경회로망은 인간의 학습과정과 뇌의 신호전달과정을 모방하여 모델링함으로서 인공지능의 본질에 가장 충실한 알고리즘이라 할 수 있다.

이러한 신경회로망을 구현하기 위한 설계요소는 3가지로서 뉴런과 연결강도의 구조적 설계, 학습규칙 그리고 성능평가로 요약할 수 있다. 이들 중에서도 학습규칙은 신경회로망의 모든 부분을 결정하는 매우 중요한 역할을 하며, 새로운 학습규칙을 만들어내는 과정에서 많은 연구가 이루어지고 있다. 신경회로망의 대표적인 학습규칙으로 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning) 등 크게 3가지가 있으며 신경회로망의 목표출력을 결정하느냐 결정하지 않느냐에 따라 구분된다. 지도학습은 신경회로망의 출력이 결정되어야만 하고, 비지도학습은 출력이 결정되지 않은 상태에서 입력데이터들의 특성을 스스로 학습해 가도록 하였다. 비지도 학습은 패턴인식 분야에서 가장 활발히 응용되고 있으며 계속적인 발전을 거듭하고 있으나 인간의 언어습득 과정을 모방하기 위한 신경회로망 학습규칙은 아직까지 완성되지 않고 있다.

기존의 자연언어처리에서 응용되고 있는 신경회로망은 구문분석과 의미분석에 이용된다. 신경회로망 알고리즘이 구문분석에서는 주성분을 분석한 병렬신호들을 처리하고 이를 기반으로 사전에서 제공하는 의미를 통해 의미분석을 하는 병렬신호처리, 또는 패턴분류형태로 사용되었으므로 자연언어처리기법에 영향을 많이 받게 되는데, 신경회로망의 학습규칙이 자연어를 인식하는데 직접적으로 활용되지 못하고, 자연언어처리 기법이 가지고 있는 기능에 보조적인 역할을 하게 되어, 인간의 학습과정을 모방하는 신경회로망의 특성이 인간이 자연언어를 학습하는 과정과는 거리가 멀고 단지 패턴인식 기술의 일환으로 사용되기 때문에 인공지능 기법의 한계보다는 자연언어처리기법의 한계로 인한 단점에 직접적으로 영향을 받는 문제점이 있게 된다.

셋째는 자연언어처리 분야로서 자연언어처리 기술의 핵심 구성 요소는 형태소 분석기, 구문 분석기, 의미 분석기 3가지로 정리할 수 있다. 자연언어처리의 첫 단계인 형태소 분석은 형태소 분석기에 의해 수행되며 형태소 분석기는 형태소 분석 사전, 형태소 결합 규칙, 해석기로 구성되어 있다. 이 중에서 형태소 분석 사전은 사람의 수작업에 의해 형태소에 대한 정보를 입력한 것으로서 분석기의 기본이 된다. 형태소 분석기에 의하여 분석한 자연어를 구문 분석기에 전달하여 하나 이상의 자연어 단어로 이루어진 구나 문장을 구문 분석 규칙을 통하여 분석한다. 마지막으로 의미 분석 단계에서는 각 문장의 주어와 서술어를 인식하면서 미리 구축된 시소러스를 통하여 문장의 의미를 분석한다. 형태소 분석기, 구문 분석기, 의미 분석기 모두 많은 시간을 통해 데이터를 수집하고 모든 규칙을 개발자와 관리자가 계속적으로 입력해 주어야 하는 단점이 있다.

넷째는 패턴인식 분야로서 패턴인식이란 임의로 주어진 패턴을 적당한 부류로 대응시키는 기능으로 정의 할 수 있다. 이러한 패턴인식의 가장 주요한 목적은 주어진 데이터들 간의 관계를 통하여 여러 형태의 특징들을 파악하는 것이다. 패턴 인식 방법의 대표적인 방법으로는 선형대수를 이용하는 방법, 통계적 기법을 쓰는 방법, 신경회로망을 이용하는 방법 등 3가지가 대표적이라 할 수 있다. 패턴인식의 유형으로는, 주어진 데이터를 근간으로 인간이 일정한 측정 없이도 판단할 수 있는 능력을 모방한 신경회로망 기법과 많은 양의 데이터를 측정하고 통계적인 방법을 사용하는 기법이 주류를 이루었으나, 주어진 데이터들 간의 관계를 통하여 보다 많은 특징들을 파악하기 위한 새로운 패턴인식 기술의 개발이 요구되지만 그러한 패턴인식의 기술을 개발하기 위하여 그 기반이 되는 새로운 신경회로망 모델의 개발이 필수적으로 필요하게 되므로 기술의 구현이 쉽지 않게 되는 문제점이 있었다.

상술한 종래 4가지 정보처리를 위한 기술의 문제점들을 해결하기 위한 본 발명은 수집한 정보에 대해 신경회로망 기술을 도입한 새로운 형태의 인식방식을 이용하여 사람의 도움 없이도 스스로 언어를 학습하고 주제를 인식하여 데이터를 자동으로 분류할 수 있도록 하고, 성장성과 환경변화에의 적응력을 갖도록 하여 정보처리의 한계를 극복하도록 한 정보인식엔진을 제공하는 것을 그 목적으로 한다.

상기와 같은 종래의 문제점을 해결하기 위한 본 발명은 정보검색 분야에서는 수집된 데이터에서 색인어를 만들 때 색인어가 차지하는 비중을 정확히 알 수 없어 사용자가 검색어를 요청했을 때 제공되는 데이터들이 그 주제와는 관계없이 선택되어 서비스되고, 이로 인해 사용자가 제공된 데이터와의 관련성을 일일이 확인해야 하는 단점을 해결하기 위하여 새로운 신경회로망 기법만을 이용하여 정보검색 분야의 한계를 극복하도록 한 것으로서,

사용자에게 제공되는 데이터들의 주제를 파악하고 그 주제를 기준으로 데이터들을 분류하여 구조적으로 보여주도록 함으로써, 수집된 데이터의 대주제, 중주제, 소주제를 추출하고 이들 주제와 관련된 관련 주제와 관련어들을 함께 추출하여 데이터베이스에 저장하여 사용자가 검색어를 요청했을 때 검색어와 관련된 대주제 부류와 이에 해당되는 중주제, 소주제 부류들을 구조적으로 보여주어 사용자가 원하는 정보에 빠르고 쉽게 접근하는 것을 가능하도록 한다.

인공지능 분야에서는 신경회로망의 자연언어처리방식이 자연언어처리기법에 영향을 많이 받는 점 즉, 인간의 학습과정을 모방하는 신경회로망의 특성이 자연어를 인식하는데 직접적으로 활용되지 못하고 자연언어처리기법이 갖고 있는 기능에 보조적인 역할을 하게 되어 자연언어처리기법의 한계성의 직접적인 영향을 받게 되는 단점을 해결하기 위하여, 기존의 비지도학습을 조합하여 새로운 형태의 학습규칙 즉, 인간이 자연언어를 학습하는 과정을 3개 이상의 조합된 신경회로망의 새로운 학습규칙을 활용함으로써 이 과정을 통해 스스로 자연언어를 학습하여 자연언어처리 기법의 한계에서 벗어나도록 한다.

즉, 인공지능 기법을 자연언어처리 분야의 보조적인 요소로서 활용하는 것이 아니라 인공지능 기법이 주가 되어 자연어를 인간과 가장 유사하게 인식할 수 있도록 하여 자연언어처리 기법의 비효율성 등의 한계에서 벗어나도록 해야 한다.

자연언어처리 분야에서는 형태소 분석에 영향을 미치는 사전과 의미 분석에 영향을 미치는 시소러스를 구축하고 처리용량을 계속 키워나가야 하는데 따르는 비용의 증가, 수작업과 인위적인 관리영역으로 인한 인력의 낭비, 시스템을 유지하거나 업그레이드시키는 데에 많은 시간이 소요되는 문제점을 해결하기 위하여, 형태소 사전이나 시소러스 없이 스스로의 학습을 통해 단어나 구를 추출하는 신경회로망인 NN1과,

문장 패턴의 중심이 되는 중심어를 도출하여 언어 패턴의 유사성을 구하면서 단어와 단어의 밀접성과 관계성, 동의 및 복합명사을 반복적인 학습에 의해 그 구조를 파악하여 스스로 사전 및 시소러스를 구축하는 신경회로망인 MNN과,

정보에서 대주제, 중주제, 소주제 및 관련 주제와 관련어들을 추출하여 이를 기준으로 구조적으로 분류하는 신경회로망인 NN2에 의해 인간이 자연어를 학습하는 과정을 모방함으로써 사전과 규칙 등의 구축 및 관리에 따른 기존의 자연언어처리기법의 한계를 극복할 수 있도록 한다.

즉, 본 발명의 정보인식엔진은 처음부터 축적된 데이터들이 전혀 없는 상태에서 스스로의 학습으로만 자연언어를 처리하도록 한다.

패턴인식 분야에서는 주어진 데이터들 간의 관계를 통하여 여러 가지 형태의 특징을 파악하는 능력을 배가시키기 위해 패턴인식 기술에 직접적인 영향을 미치는 새로운 신경회로망 모델이 요구되는 현실이므로, 하나의 신경회로망 모델만을 이용하던 기존의 방식에서 벗어나 각각의 특성에 맞는 학습규칙을 가지는 3개 이상의 조합된 신경회로망 모델을 정보인식엔진에 이용함으로서 패턴인식 기술을 발전시킨것이다.

본 발명인 정보인식엔진은 패턴분류형태를 자연언어의 음절이 원소가 되는 새로운 형태의 패턴인식 기술로서, 기존의 패턴 형성과 매우 다른 형태로 신경회로망의 입출력 벡터를 만들어 낸다.

도 1은 BAM의 신경회로망의 형태를 도시한 개략도.

도 2는 SOM의 출력층 뉴런을 1차원으로 배열한 형태를 도시한 개략도.

도 3은 SOM의 출력층 뉴런을 2차원으로 배열한 형태를 도시한 개략도.

도 4의 (A)(B)는 SOM의 2차원 배열의 형태를 도시한 개략도.

도 5는 ART의 자율신경망의 형태를 도시한 개략도.

도 6은 본 발명의 일 실시예에 따른 구성을 나타낸 블록도.

도 7은 본 발명의 동작과정을 나타낸 플로우차트.

* 도면의 주요 부분에 대한 부호의 설명 *

1 : 웹서버 2 : 데이터베이스 서버

4 : NN1 5 : MNN

6 : NN2

이하 본 발명을 첨부 도면에 의하여 상세히 기술하면 다음과 같다.

정보 인식 엔진을 구성하고 있는 핵심 요소는 신경회로망으로서 3개의 컴포넌트가 있으며 각각의 컴포넌트는 신경 회로망 알고리즘인 ART(Adaptive Resonance Theory), SOM(Self Organized Map), LVQ(Learning Vector Quantization), BAM(Bidirectional Associative Memory)중에서 하나의 모델을 선택하여 이루어져 있고, 이들 신경 회로망의 학습 규칙은 출력이 결정되지 않은 상태에서 입력 데이터들의 특성을 스스로 학습해 가는 비지도 학습 규칙으로 설계되어 있다.

상기 4가지 신경회로망 알고리즘에 대해 설명하면 다음과 같다.

BAM(Bidirectional Associative Memory)은 1985년 B.Kosko가 제안한 것으로 관련된 패턴쌍들의 양방향 연상 작용이 가능한 단층 비선형 양방향 연상 메모리이다.

BAM은 도 1에 도시한 것과 같이 단층구조이지만, 입출력층으로 뚜렷이 구분되지 않는 x층, y층으로 구성되어 있어서 만약, x층에서 입력되면 y층에서 출력이 나오며, 반대로 y층에서 입력되면 x층에서 출력이 나오는 독특한 형태이다.

BAM의 기본 알고리즘은 다음과 같다.

0 단계: 일련의 P 벡터를 저장하기 위해 연결강도(weight)를 초기화한다. 모든 활성도들을 0으로 초기화한다.

1 단계: 각각의 시험 입력을 위해 다음의 2~6 단계를 밟는다.

2a 단계: 입력 패턴 x를 X층으로 전달한다. (즉, 현재의 입력 패턴에 X층의 활성도를 세팅한다.)

2b 단계: 입력 패턴 y를 Y층으로 전달한다. (이때에는 어느 쪽의 입력 패턴도 0벡터가 될 수 있다.)

3 단계: 활성도가 수렴되지 않은 상태에서 4~6 단계를 행한다.

4 단계: Y 층의 원소들을 갱신한다.

net 입력을 연산한다.

y_

활성도를 연산한다.

y_j =f(y _i n_j )

X층으로 신호를 보낸다.

5 단계: X층의 원소들을 갱신한다.

net 입력을 연산한다.

x_

활성도를 연산한다.

x_i =f(x _i n_i )

Y층으로 신호를 보낸다.

6 단계: 수렴을 시험해본다. 만약, 활성 벡터인 x와 y가 평형을 이루면 중지하고 그렇지 않으면 계속한다.

T. Kohonen이 제시한 SOM(Self Organized Map)은 음성 인식, 문자 인식, 구문 분석 등 입력층과 출력층으로만 구성되는 순방향 단층 신경망 구조이다.

SOM은 도 2에서와 같이 출력층 뉴런을 1차원으로 배열하는 방법과, 도 3에서와 같이 2차원으로 배열하는 방법이 있다.

그리고 2차원 배열에는 도 4에서와 같이 사각형 배열(rectangular array)과 육각형 배열(hexagonal array)의 2가지 형태가 있다. 이러한 출력층 뉴런의 배열 형태는 SOM의 성능에도 영향을 미치는 요소이다.

SOM의 알고리즘은 다음과 같다.

0 단계: 연결강도 w_ij 를 초기화한다. (가능한 경우의 수는 아래를 참조한다.)

이웃하는 위상 파라미터(parameter)를 설정한다.

학습율 파라미터를 설정한다.

1 단계: 중단 조건이 거짓인 상태에서 2~8 단계를 행한다.

2 단계: 각각의 입력 벡터 x 에 대해 다음 3~5단계를 행한다.

3 단계: 각각의 j 에 대해 다음을 연산한다.

4 단계: D(J) 값이 최소인 J 지수를 찾는다.

5 단계: 모든 i 와 j 와 특정하게 이웃하는 모든 j 원소들에 대해 다음을 적용한다.

w_ij ( new)=w_ij ( old)+alpha[x_i -w_ij ( old)]

6 단계: 학습율을 갱신한다.

7 단계: 위상 이웃의 범위를 특정 횟수만큼 줄인다.

8 단계: 중단 조건을 시험해 본다.

ART(Adaptive Resonance Theory)는 G.Carpenter와 S.Grossberg 에 의해 개발된 자율 신경망으로서 학습되지 않은 새로운 패턴이 들어오면 새로운 클러스터를 형성함으로서 기존 패턴에 영향을 주지 않게 하려는 신경망이다.

ART는 도 5에 보시한 것과 같이 입력층, 비교층, 인식층의 3계층으로 구성되어 있다.

ART(ART1)의 훈련을 위한 단계적 알고리즘은 다음과 같다.

아래는 알고리즘에 쓰이는 기호에 대한 설명이다.

n : 입력 벡터의 성분들의 수

m : 형성될 수 있는 클러스터의 최대 개수

b_ij : 아래에서 위로의 연결강도 (F_1 (b) 원소 X_i에서 F_2 원소 Y_j까지)

t_ji : 위에서 아래로의 연결강도 ( F_2 원소 Y_j에서 F_1 원소 X_i까지)

rho : 경계(vigilance) 파라미터

s : 이진 입력 벡터 (n개 한 벌)

x : F_1 (b) 층을 위한 활성 벡터

[[x]] : x_i 의 구성요소들의 합으로 정의된 벡터 x 의 norm

다음은 ART1 망을 위한 훈련 알고리즘이다.

0 단계: 파라미터를 초기화한다.

L>1,

0rho<=1

연결강도를 초기화한다.

t_ji (0)=1

1 단계: 중단 조건이 거짓인 상태에서 다음 2~13 단계를 실시한다.

2 단계: 각각의 훈련 입력에 대해 다음 3~12를 실시한다.

3 단계: 모든 F_2 원소의 활성도를 0으로 설정한다.

F_1 (a) 원소들의 활성도를 입력 벡터 s 에 설정한다.

4 단계: s 의 norm을 연산한다.

5 단계: F_1 (a) 로부터 F_1 (b) 층으로 입력 신호를 전달한다.

x_i =s_i

6 단계: 억제되지 않은 각각의 F_2 노드에 대해:

만약이면,

7 단계: reset 이 참인 상태에서 다음 8~11을 실시한다.

8 단계: 모든 j 노드에 대해 y_J >=y_i 인 J 를 찾는다.

만약 y_J =-1 이면, 모든 노드는 억제되고 이 패턴은 클러스터화 되지 않는다.

9 단계: F_1 (b) 의 활성도 x를 재연산한다.

x_i =s_i t_Ji

10 단계: 벡터 x의 norm을 연산한다.

11 단계: reset을 위해 시험한다.

만약이면,

y_J =-1 (억제된 노드인 J )(계속하여 7단계를 다시 수행한다.)

만약이면,

다음 12 단계로 넘어간다.

12 단계: 노드 J 의 연결강도를 갱신한다. (빠른 학습):

b_iJ ( new,

t_Ji ( new)=x_i

13 단계: 중단 조건을 시험한다.

코멘트: 3 단계는 선행됐던 학습 시도의 모든 억제들을 제거한다. (패턴의 제시)

억제된 노드로서 y=-1 을 설정하는 것(6 단계)은 그 노드가 winner가 되는 것을 방지한다. 망의 모든 연결강도와 신호가 음수가 아니므로 음수의 활성도를 갖는 원소는 절대로 최대의 활성도를 가질 수 없다.

8 단계에서 같은 값을 가지게 될 경우 J 를 가장 작은 지수로 택한다.

9 단계에서 원소 X_i 는 외부 신호인 s_i 와, F_2 로부터 F_1 ,t_Ji 로 보내진 신호를 모두 받았을 경우에만 “on" 이 된다.

13 단계에서의 중단 조건은 다음의 경우 중 하나로 구성될 수 있다.

연결 강도가 변하지 않을 때,

원소 reset이 되지 않을 때, 또는

epoch의 수가 최대에 이르렀을 때.

LVQ는 각각의 출력 원소가 특정한 클래스나 카테고리를 대표하는 패턴 분류 기법으로서,

훈련이 끝나면, LVQ 망은 입력 벡터를 그와 가장 근접한 연결강도 벡터를 가진 출력 원소와 같은 클래스에 지정함으로서 분류한다.

LVQ 망의 알고리즘은 입력 벡터와 가장 근접한 출력 벡터를 찾기 위한 것으로 필요한 기호에 대한 설명은 아래와 같다.

x : 훈련 벡터(x_1 ....x_i ,....x_n )

T : 훈련 벡터를 위한 올바른 카테고리

w_j : j 번째 출력 원소에 대한 연결 강도 벡터(w_1j ,....w_ij ,....w_nj )

C_j :j 번째 출력 원소에 의해 대표되는 카테고리나 클래스

[[x-w_j ]] : 입력 벡터와 j 번째 출력 원소 사이의 유클리디안 거리

0 단계: 참고 벡터를 초기화한다.

학습율을 초기화한다, alpha(0)

1 단계: 중단 조건이 거짓인 상태에서 다음 2~6 단계를 시행한다.

2 단계: 각각의 훈련 출력 벡터 x 에 대해 3~4 단계를 시행한다.

3 단계: [[x-w_J ]] 가 최소가 되는 J 를 찾는다.

4 단계: 다음과 같이 w_J 를 갱신한다.

만약 T=C_J 이면,

w_J ( new)=w_J ( old)+alpha[x-w_J ( old)];

만약이면,

w_J ( new)=w_J ( old)-alpha[x-w_J ( old)]

5 단계: 학습율을 줄인다.

6 단계: 중단 조건을 시험한다.

조건이 고정된 반복수(즉, 1 단계의 시행)나 충분히 작은 수치에 이르는 학습율을 지정할 수 있다.

본 발명인 정보인식엔진을 구성하는 핵심인 3개의 신경회로망 컴포넌트들은 각각 NN1(Neural Network 1), MNN(Middle Neural Network), NN2(Neural Network 2)로 지칭된다. NN1은 BAM과 SOM, LVQ의 조합 형태이며, MNN은 SOM, LVQ, ART의 조합 형태이고, NN2는 ART의 조합 형태이다. 3개의 핵심 신경 회로망 모델의 구체적인 내용은 다음과 같다.

즉, 도 6에 도시한 것과 같이, 관리자가 검색을 위한 자료로 정보들을 입력시키면 웹서버(1)는 이를 데이터베이스 서버(2)에 전달하여 1차 가공된 상태로 제1 데이터베이스(3)의 저장영역에 저장하도록 하고,

정보 인식 엔진의 첫 번째 신경 회로망인 NN1(Neural Network 1)(4)은 수집된 데이터들을 음절 단위로 받아들이고, 이들 음절 사이에 나타나는 패턴과 관계를 포착하여 단어와 구, 문장 유형을 파악하는 선학습 단계에 해당한다. 이때, 본 단계에서 단어와 구를 인간의 도움 없이 스스로의 학습에 의해 추출하도록 한다.

정보 인식 엔진의 두 번째 신경 회로망인 MNN(Middle Neural Network)(5)은 상기의 NN1(4)에서 인식된 단어와 구를 전달받아 단어, 구, 문장 유형 간의 관계를 파악하고, 동의어 및 유사어를 반복적인 학습으로 인식하여 자체 사전을 구축하며, 이들 단어와 구, 문장 유형의 패턴의 중심이 되는 중심어를 찾아내고, 그 구조를 파악하여 스스로의 학습을 통해 시소러스를 구축하는 단계로서, 자체적으로 구축된 사전과 시소러스를 근간으로 데이터에서 대주제를 추출해내도록 하며, 이는 클러스터링(Clustering) 기법에 해당한다.한편, 상기 대주제는 클러스터링된 데이터가 일정량 이상 발생하는 경우 이것을 대주제로 지칭하게 되는 것이며, 대주제로 선정된 데이터들은 의미소의 최소 단위에 해당하는 것으로서, 이는 자연어 학습/검색 분야에서는 널리 알려져 있는 개념이다. 또한, 이 개념은 상대적이고 유연한 개념으로서, 설계자에 따라 기결정될 수 있는 개념이기도 하다.

마지막 신경 회로망인 NN2(Neural Network 2)(6)에서는 상기의 MNN(5)에서 추출된 대주제를 보완하면서 구축된 시소러스를 바탕으로 데이터에서 중주제와 소주제를 함께 추출하고, 추출된 주제들을 기준으로 수집된 데이터들을 구조적으로 분류하여 제2 데이터베이스(7)의 저장 영역에 저장하여 사용자들이 원하는 정보를 효율적으로 검색할 수 있도록 한다.한편, 상기 중주제/소주제는 깊이(Depth)를 가지는 클러스터링 기법에 따른 개념 분류로서, 당업계에서는 널리 알려져 있는 개념이고, 본 실시예에서는 2단계 클러스터링 기법에 따라 중주제/소주제로 분류된 것이다. 따라서, 설계자에 따라 다단계의 깊이로 클러스터링하게 되면, 다수의 상하위 개념에 해당하는 다수 주제로 분류될 수 있다.

상기의 NN2(6)에서 제2 데이터베이스(7)에 저장하는 색인 패턴은 문자를 숫자의 클래스 코드(Class code)로 변화시켜 입력시키는 것도 무방하다.

상기와 같은 본 발명의 인식엔진은 관리자가 검색을 위한 자료로 설명서나 머리말 또는 요약서 등의 정보를 입력시키면(단계 11) 웹서버(1)에서 입력되는 설명서나 머리말 또는 요약서 등의 정보를 데이터베이스 서버(2)에 전달하여(단계 12) 1차 가공하도록 한 후(단계 13) 제1 데이터베이스(3)의 저장영역에 저장하도록 한다(단계 14).

1차 가공된 설명서나 머리말 또는 요약서 등의 정보를 전달받는 NN1(4)에서는 전체 문장을 다수의 패턴으로 분리한 후(단계 15) 각각의 패턴을 인식하도록 한다(단계 16).

상기 NN1(4)의 관리 툴(Admin-tool)에서는 지속적으로 입력되는 상기 각 패턴들에 의하여 단어나 구를 식별해 내도록 한다(단계 17).

상기 NN1(4)에서 자체적으로 생성한 자체사전에 의하여 패턴과 단어들의 뜻을 인식한 상태의 정보를 전달받는 MNN(5)에서는 패턴이나 문장의 의미를 인식하는데 필요한 패턴의 중심이 되는 구나 단어를 찾으면서(단계 18) 입력되는 모든 정보들에 대해 반복적인 학습을 수행하면서(단계 19) 단어나 구의 밀접성, 관계성, 동의어 및 복합명사를 찾는 과정을 수행하는 동시에(단계 20) 각각의 뜻을 인식하면서 스스로 자체사전을 생성하도록 한다(단계 21).

상기 밀접성, 관계성, 동의어 및 복합명사를 찾은 패턴의 중심이 되는 단어나 구를 전달받는 NN2(6)에서는 상기의 패턴의 중심이 되는 단어나 구를 색인 패턴으로 인식한 후(단계 22) 이들 단어나 구를 제2 데이터베이스(7)의 저장영역에 저장하여 사용자들이 원하는 정보를 효율적으로 검색할 수 있도록 한다(단계 23).

여기서 상기의 NN2(6)에서 제2 데이터베이스(7)에 저장하는 색인 패턴은 문자를 도서관의 사서를 정리할 때 숫자를 이용하는 것과 동일한 방법의 클래스 코드(Class code)로 변화시켜 입력시키면 각각의 저장영역에 저장한 상태에서 사용자들이 원하는 정보를 검색할 때 효과적으로 활용할 수 있게 된다.

정보인식엔진의 두 번째 신경회로망인 MNN(Middle Neural Network)에서는 NN1에서 인식된 단어와 구를 전달받아 단어, 구, 문장유형 간의 관계를 파악하고 동의어 및 유사어를 반복적인 학습으로 인식하여 자체 사전을 구축하고, 이들 단어와 구, 문장 유형의 패턴의 중심이 되는 중심어를 찾아내고 그 구조를 파악하여 스스로의 학습을 통해 시소러스를 구축하는 단계로서 자체적으로 구축된 사전과 시소러스를 근간으로 데이터에서 대주제를 추출해내는 과정을 포함한다.

정보인식엔진의 마지막 신경회로망인 NN2(Neural Network 2)에서는 MNN에서 추출된 대주제를 보완하면서 구축된 시소러스를 바탕으로 데이터에서 중주제와 소주제를 함께 추출하고 추출된 주제들을 기준으로 수집된 데이터들을 구조적으로 분류하여 그 결과를 보여주는 단계이다.

본 정보인식엔진에 의하여서는 일차적으로 발명이 속하는 기술분야의 종래 기술의 문제점을 해결하는데 있다. 즉, 정보검색 분야에서는 수집된 데이터에서 색인어를 만들 때 색인어가 차지하는 비중을 정확히 알 수 없어서, 사용자가 검색어를 요청했을 때 제공되는 데이터들이 그 주제와는 관계없이 선택되어 서비스되고, 이는 사용자와 제공된 데이터와의 관련성을 일일이 확인해야 하는 단점이 있는데, 이에 대해 본 발명의 정보인식엔진은 수집된 데이터의 대주제, 중주제, 소주제를 추출하고 이들 주제와 관련된 관련 주제와 관련어들을 함께 추출하여 데이터베이스에 저장한다. 사용자가 검색어를 요청했을 때 검색어와 관련된 대주제 부류와 이에 해당되는 중주제, 소주제 부류들을 구조적으로 보여줌으로써 사용자가 원하는 정보에 빠르고 쉽게 접근하는 것을 가능하게 한다.

인공지능 분야에서는 신경회로망의 자연언어처리방식이 자연언어처리기법에 영향을 많이 받는다는 것이 문제이다. 즉, 인간의 학습과정을 모방하는 신경회로망의 특성이 자연어를 인식하는데 직접적으로 활용되지 못하고 자연언어처리기법이 갖고 있는 기능에 보조적인 역할을 하게 되어 자연언어처리기법의 한계로 인한 단점에 직접적인 영향을 받게 된다. 이에 대해 본 발명의 정보인식엔진은 인간이 자연언어를 학습하는 과정을 3개 이상의 조합된 신경회로망의 새로운 학습규칙을 활용함으로써 이 과정을 통해 스스로 자연언어를 학습하여 자연언어처리 기법의 한계에서 벗어나게 한다.

자연언어처리 분야에서는 형태소 분석에 영향을 미치는 사전과 의미 분석에 영향을 미치는 시소러스를 구축하고 처리용량을 계속 키워나가야 하는데 따르는 비용의 증가, 수작업과 인위적인 관리영역으로 인한 인력의 낭비, 시스템을 유지하거나 업그레이드시키는 데에 많은 시간이 소요되는 문제점이 있다. 이에 대해 본 발명인 정보인식엔진은 형태소 사전이나 시소러스 없이 스스로의 학습을 통해 단어나 구를 추출하는 신경회로망인 NN1과, 문장 패턴의 중심이 되는 중심어를 도출하여 언어 패턴의 유사성을 구하면서 단어와 단어의 밀접성과 관계성, 동의 및 복합명사을 반복적인 학습에 의해 그 구조를 파악하여 스스로 사전 및 시소러스를 구축하는 신경회로망인 MNN과, 정보에서 대주제, 중주제, 소주제 및 관련 주제와 관련어들을 추출하여 이를 기준으로 구조적으로 분류하는 신경회로망인 NN2에 의해 인간이 자연어를 학습하는 과정을 모방하였으므로 사전과 규칙 등의 구축 및 관리에 따른 기존의 자연언어처리기법의 한계를 극복하게 된다.

패턴인식 분야에서는 주어진 데이터들 간의 관계를 통하여 여러 가지 형태의 특징을 파악하는 능력을 배가시키기 위해 패턴인식 기술에 직접적인 영향을 미치는 새로운 신경회로망 모델이 요구되는 시점에서 본 발명의 정보인식엔진은 하나의 신경회로망 모델만을 이용하던 기존의 방식에서 벗어나 각각의 특성에 맞는 학습규칙을 가지는 3개 이상의 조합된 신경회로망 모델을 이용함으로서 패턴인식 기술의 발전이 가능하도록 한다.

Claims

삭제
삭제
정보 검색을 위하여 신경 회로망(Neural Network)을 이용하는 색인어 추출 및 저장 방법에 있어서,

검색을 위한 자료로 설명서, 머릿말 또는 요약서 등의 정보가 입력되면, 웹 서버에서 입력되는 양식에 따라 상기 정보를 가공한 후, 이를 저장하는 제 1 단계;

상기 가공된 정보를 입력받아 전체 문장을 다수의 패턴으로 분리한 후, 각각의 패턴을 인식하는 제 2 단계;

상기 인식된 패턴들에 의하여 입력된 정보의 단어/구를 식별하고, 각각의 의미를 인식하여 형태소 사전을 생성하는 제 3 단계;

상기 생성된 사전에 의하여 패턴이나 문장의 의미를 인식하는데 필요한 중심구/중심 단어를 검색하면서 입력되는 모든 정보들에 대하여 반복적인 학습을 수행하여 단어/구의 밀접성, 관계성, 동의어 및 복합 명사를 검색하고, 각각의 의미를 인식하여 상기 사전을 갱신하는 제 4 단계;

상기 제 4 단계에서 갱신된 상기 사전을 이용하여, 상기 중심구 또는 중심 단어의 구조를 파악함으로써, 스스로 학습을 통하여 시소러스(Thesaurus)를 구축하는 제 5 단계;

상기 갱신된 사전 및 시소러스를 근간으로 기결정된 최소 의미 단위에 해당하는 대주제를 추출하는 제 6 단계;

상기 대주제 및 구축된 시소러스, 상기 파악된 중심구 또는 중심 단어의 구조로부터 기결정된 깊이(Depth)의 클러스터링(Clustering)에 해당하는 중주제 및 소주제를 추출하는 제 7 단계; 및

상기 추출된 대주제/중주제/소주제를 색인 패턴으로 인식하는 제 8 단계; 를 포함하고,

상기 제 2 단계 내지 제 7 단계의 과정은 신경 회로망 모델인 ART(ADaptive Resonance Theory), SOM(Self Organized Map), LVQ(Learning Vector Quantization) 및 BAM(Bidrirectional Associative Memory) 중 어느 하나 또는 다수를 결합한 모델에 따라 이루어지는 것을 특징으로 하는 신경 회로망을 이용하는 색인어 추출 및 저장 방법.