KR20200132285A

KR20200132285A - 무차원수를 이용한 데이터 마이닝 시스템 및 방법

Info

Publication number: KR20200132285A
Application number: KR1020190057563A
Authority: KR
Inventors: 양동봉
Original assignee: 소레즈 주식회사
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2020-11-25
Also published as: KR102199412B1

Abstract

무차원수를 이용한 데이터 마이닝 시스템(1)에 관한 것이다. 그러한 데이터 마이닝 시스템(1)은, 물리량을 무차원수로 변환하여 모수(Mother number)를 설정하는 단위 변환기(3)와; 단위 변환기(3)에서 설정된 모수를 일정한 규칙에 의하여 변환함으로써 자수(Child number)를 생성하여 분석 데이터를 설정하는 자수 생성기(5)와; 생성된 모수 및 자수, 모수와 자수를 매칭시키는 관계식을 저장 및 인출하는 데이터 베이스(13,15)와; 상기 데이터 베이스(13,15)와 연동하여 분석 데이터를 인출하여 탐색, 변환, 모델링, 평가 및 예측을 진행하는 마이닝부(7)를 포함한다.

Description

무차원수를 이용한 데이터 마이닝 시스템 및 방법{Data Mining System Using dimensionless number and the method of the same}

본 발명은 무차원수를 이용한 데이터 마이닝 시스템에 관한 것으로서, 보다 상세하게는 실험 데이터, 방정식 등의 관계식을 무차원수로 변환하고, 이 무차원수로 구성된 데이터를 마이닝 기법에 의하여 분석함으로써 그 결과에 대한 정확도 및 신뢰도를 높일 수 있고, 다른 기술 분야간의 연결고리를 발견할 수 있는 데이터 마이닝 시스템에 관한 것이다.

일반적으로 데이터 마이닝은 대량의 데이터 집합으로부터 유용한 정보를 추출하는 것으로 정의되는 바, 보다 상세하게는 의미 있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 과정이다.

이러한 데이터 마이닝은 다양한 분야에서 활용되고 있는 바, 보안 분야에서는 패킷별로 네트워크에 위협요인을 갖고 있는지를 판단하기 위해 활용되고 있으며, 의학 분야에서는 암의 재발가능성을 예측하기 위해 데이터마이닝을 사용하며, 군사 분야에서는 미사일의 정확도에 영향을 주는 요인들이 어떠한 작용을 하는지를 알아내기 위해 데이터 마이닝을 활용하고 있으며, 경제 분야에서는 경제전망을 예측하기 위하여 활용한다.

데이터 마이닝은 통상적으로 다음과 같은 순서로 수행된다.

우선, 데이터마이닝 프로젝트의 목적 확인 및 분석에 사용될 데이터를 획득한다.

이 단계는 분석에 사용될 레코드를 파악하기 위해 대량의 데이터베이스에서 무작위로 표본을 추출하는 것을 말한다. 여기서 데이터베이스는 내부데이터, 예를 들면 고객의 과거구매 데이터이거나, 외부데이터, 예를 들면 신용등급 데이터일 수 있다. 일반적으로 데이터마이닝은 매우 큰 데이터베이스를 다루며, 대개의 경우 수천, 수만 개의 레코드를 필요로 한다.

데이터 추출이 완료되면, 데이터를 탐색, 정제, 그리고 전 처리한다.

이 단계는 데이터가 다음과 같이 타당한 조건에 있는지를 검증하는 것이다.

즉, 데이터 중 결측치를 처리하는 방식, 각각의 변수에 대해 기대하는 값이 주어졌을 때 데이터 값이 합리적인 범위 내에 있는지, 극단치가 존재하는지 여부를 검증한다.

예를 들어 각 변수들과 다른 모든 변수들 간의 관계를 보여주는 산점도의 행렬표와 같은 그래프를 이용한다. 또한 변수에 대한 정의, 측정단위, 측정기간 등에 대해 일관성을 확인한다.

그리고, 필요한 경우 데이터를 축소하고 지도학습의 경우 데이터를 학습용, 평가용, 검증용 데이터 집합으로 분할한다.

이 단계에서는 불필요한 변수를 제거하고, 변수를 변환한다. 예를 들어 지출비용을 100달러를 초과하는 비용과 100달러 이하인 비용으로 변환한다. 그리고, 새로운 변수를 생성시킨다.

예를 들면 여러 제품 중 최소한 한 개 이상의 제품을 구입했는지를 알려주는 변수를 생성시킨다. 또한, 각 변수가 무엇을 의미하는지와 모형에서 변수를 포함하는 것이 타당한지 여부를 확인한다.

이러한 단계가 완료된 후, 데이터마이닝의 업무를 분류, 예측, 군집 등으로 결정한다.

분류(classification)는 데이터 분석의 가장 기본적인 형태이다. 예를 들면 판매 데이터에 있어서, 판매 또는 구매제안을 받은 사람을 이에 반응하거나 반응하지 않는 사람으로 분류하거나, 대출신청자를 제때 또는 늦게 돈을 갚거나 파산을 선언하는 사람으로 분류하는 방식이다.

또한, 분류결과가 알려진 유사 데이터를 사용하여 규칙을 파악한 후, 그 규칙들을 분류결과가 알려지지 않은 해당 데이터에 적용하는 것도 가능하다.

예측(prediction)은 집단, 예를 들어 구매자 또는 비구매자의 변수보다는 수치형 변수, 예를 들어 구매량의 값을 예측하게 된다.

이 단계에서는 데이터마이닝 프로젝트의 목적에 맞는 분석유형을 선택하는 단계이다.

그리고, 사용할 데이터마이닝 기법들, 예를 들면 회귀분석, 신경망모형, 계층적 군집분석 등을 선택한다.

즉, 데이터 마이닝의 목적이 예측인 경우에는 다중 선형 회귀분석, 회귀나무, 신경망 모형, K-최근접 이웃 기법을 선택하고, 분류인 경우에는 로지스틱 회귀분석, 분류나무, 신경망모형, 판별분석, K-최근접 이웃기법, 단순 베이즈 분류모형 기법을 선택한다.

이와 같이 데이터 마이닝 기법이 선택되면, 알고리즘을 적용하여 데이터마이닝 작업을 수행한다.

이 단계는 일반적으로 반복적인 과정으로서, 하나의 알고리즘 내에서 설명 변수 또는 알고리즘의 세부 선택조건 등을 달리하여 적용하는 등 다양한 변인들을 적용한다. 그리고. 이러한 조건들이 적절한 경우 평가용 데이터를 이용한 알고리즘의 성과로부터 피드백을 받아서 적합하게 개선되는 변인들을 사용한다.

상기한 바와 같은 데이터 마이닝의 과정을 시장에서 물건을 구입하는 경우를 예를 들어 설명하면 다음과 같다.

시장에서 물건을 구입하여 장바구니에 담는 과정은 데이터의 선정에 해당하고, 장바구니의 물건중 1개만 구입한 물건은 다른 물건과 유사성을 비교할 수 없음으로 제외하는 것은 데이터의 정제에 해당하며, 장바구니의 물건값들을 특정 코드값이나 시퀀스 값등으로 변형하는 것, 예를 들면 우유와 치즈를, A0001, MK, CS로 지정하는 것은 데이터의 변형에 해당하며, 변형된 우유와 치즈의 연관성을 분석하는 데이터 마이닝에 해당한다.

그리고, 이러한 데이터 마이닝 기법을 다양한 분야에 적용하고 있는 바, 예를 들면 물리, 화학, 제약 분야에 적용할 수 있다.

즉, 이중 가장 대표적인 방법은 공개된 유전체 데이터베이스를 가지고 인공지능 기술을 활용해 데이터 마이닝 하는 것이다. 즉, 공개된 유전자 발현(전사체; Transcriptome) 데이터베이스를 활용해 정상 세포·조직과 비교, 특정 질환과 관련된 세포·조직에서는 특정 유전자 발현 패턴이 어떻게 변화하는지를 분석하고, 특정 질환 세포·조직에서의 발현 패턴을 정상 세포·조직의 패턴으로 전환하기 위해 필요한 화합물을 대규모 화합물 라이브러리에서 스크리닝해 신약개발 성공률을 높여 가겠다는 전략인 것이다

그러나, 종래의 데이터 마이닝 시스템은 기초 데이터로 사용하는 실험 데이터, 상수값의 정확도가 낮아서 이로부터 연산되는 자수의 정밀도도 낮아짐으로써 그 결과를 신뢰할 수 없는 문제점이 있다.

특허출원 제10-2000-38050(명칭: 구형 피라미드 기법을 이용한 최 근접 질의 처리방법) 특허출원 제10-2015-7019601(명칭: 질병을 치료하기 위한 방법) 특허출원 제10-2017-39140(명칭: 뇌졸증 예측과 분석 시스템 및 방법) 특허출원 제10-2003-25426호(명칭: 테스트 실행 시스템 및 그의 구동방법)

따라서, 본 발명은 이와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 실험 데이터, 방정식 등의 관계식을 무차원수로 변환하고, 이 무차원수로 구성된 데이터를 마이닝 기법에 의하여 분석함으로써 그 결과에 대한 정확도 및 신뢰도를 높일 수 있고, 다른 기술 분야 간의 연결고리를 발견할 수 있는 데이터 마이닝 시스템 및 방법을 제공하는 것이다.

상기한 목적을 달성하기 위하여, 본 발명의 일 실시예는,

물리량을 무차원수로 변환하여 모수(Mother number)를 설정하는 단위 변환기(3)와;

단위 변환기(3)에서 설정된 모수를 일정한 규칙에 의하여 변환함으로써 자수(Child number)를 생성하여 분석 데이터를 설정하는 자수 생성기(5)와;

생성된 모수 및 자수, 모수와 자수를 매칭시키는 관계식을 저장 및 인출하는 데이터 베이스(13,15)와;

상기 데이터 베이스(13,15)와 연동하여 분석 데이터를 인출하여 탐색, 변환, 모델링, 평가 및 예측을 진행하는 마이닝부(7)를 포함하는 무차원수를 이용한 데이터 마이닝 시스템(1)을 제공한다.

본 발명의 다른 실시예는, 상기한 데이터 마이닝 시스템(1)을 이용하여 무차원수를 데이터 마이닝 하는 방법에 관한 것으로서,

물리량을 단위 변환기(3)에 의하여 무차원수로 변환하여 모수(Mother number)를 설정하는 제 1단계(S100)와;

단위 변환기(3)에서 설정된 모수를 자수 생성기(5)에 의하여 일정한 규칙에 의하여 변환함으로써 자수(Child number)를 생성하여 분석 데이터를 설정하는 제 2단계(S110)와;

생성된 모수 및 자수, 모수와 자수를 매칭시키는 관계식을 데이터 베이스(13,15)에 저장 및 인출하는 제 3단계(S120)와; 그리고

마이닝부(7)가 데이터 베이스(13,15)와 연동하여 분석 데이터를 인출하여 탐색, 변환, 모델링, 평가 및 예측을 진행하는 제 4단계(S130)를 포함한다.

본 발명의 또 다른 실시예는 상기 무차원수를 이용한 데이터 마이닝 방법이 프로그램으로 기록되고 전자장치에서 판독 가능한 기록매체를 포함한다.

본 발명의 일 실시예에 따른 데이터 마이닝 시스템은 실험 데이터, 방정식 등의 관계식을 무차원수로 변환하고, 이 무차원수로 구성된 데이터를 마이닝 기법에 의하여 분석함으로써 그 결과에 대한 정확도 및 신뢰도를 높일 수 있고, 다른 기술 분야간의 연결고리를 발견할 수 있는 장점이 있다.

도 1은 본 발명의 일 실시예에 따른 무차원수를 이용한 데이터 마이닝 시스템의 연산과정을 개략적으로 보여주는 도면이다.
도 2는 도 1에 도시된 무차원수를 이용한 데이터 마이닝 시스템의 구조를 개략적으로 보여주는 블록도이다.
도 3은 도 2에 도시된 데이터 마이닝 시스템의 단위 변환기의 구조를 개략적으로 보여주는 도면이다.
도 4는 입력된 물리량을 무차원수로 변환하여 분석하는 과정을 보여주는 순서도이다.
도 5는 도 2에 도시된 마이닝부의 구조를 개략적으로 보여주는 블록도이다.
도 6은 도 5에 도시된 모델링부의 구조를 개략적으로 보여주는 블록도이다.
도 7은 본 발명의 다른 실시예로서, 무차원수를 이용한 데이터 마이닝 방법을 순서적으로 보여주는 순서도이다.
도 8은 도 7에 도시된 데이터 마이닝 방법 중 제 4단계인 데이터 마이닝 단계를 구체적으로 보여주는 순서도이다.

이하, 본 발명의 일 실시예에 따른 무차원수를 이용한 데이터 마이닝 시스템에 대하여 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명이 제안하는 데이터 마이닝 시스템(1)은 물리량을 무차원수로 변환하고, 무차원수 데이터를 샘플링, 탐색, 변환, 모델링, 평가 및 예측의 순서로 구성된 데이터 마이닝 기법에 의하여 분석함으로써 그 결과에 대한 정확도 및 신뢰도를 높일 수 있고, 다른 기술 분야간의 연결고리를 발견할 수 있는 기술에 관한 것으로서, 소위 버킹햄 머쉰(Buckingham machine)에 관한 것이다.

그리고, 본 발명에서 적용되는 무차원수는 물리학의 공식, 방정식, 실험식 등을 모두 수치로 변환한 개념으로서, 이를 통해 SI 단위들을 서로 호환가능하며, 또한 이 단위가 포함된 방정식의 진위를 쉽게 검증할 수 있다.

이러한 무차원수에 대하여 설명하면, 과학계는 측정표준의 기초를 이루는 질량(kg), 길이(m), 시간(s), 광도(cd), 물질량(mol), 전류(A), 온도(K)의 7개 국제단위를 쓰고 있으며, 이 단위들은 인위적으로 만들어진 것이므로 시대에 따라 개량된다.

구체적으로 기술하면 본 발명은 이러한 7개의 단위들을 통일하여 서로 호환하기 위하여 소위 제로존 이론 제 1 공준을 정립한다.

이 공준은 국제 도량형 총회(CGPM)에서 의결된 단위를 참조한 것으로서, 새로운 SI는 7개 정의 상수(defining constants)값을 고정시킴으로써 만들어진다.

정의 상수인만큼 불확도는 0으로 exact values를 가진다. 7개의 상수의 기호는 주파수Δv_Cs, 광속도 c, 플랑크 상수 h, 전자전하 e, 볼츠만상수 k _B, 아보가도르 상수 N _A,시감효능 K _cd,등을 이용하여 제로존 이론 제 1 공준은 다음과 같다.

Δv_Cs= c =h = e = k _B= N _A= K _cd= 1

특히, 숫자 1은 광자(光子, photon) 1개를 의미하며, 광자 한 개와 빛의 속도, 우주에서 가장 작은 에너지 단위로 알려진 플랑크 상수, 1초는 서로 등가라고 가정한다.

이때, 광자의 개수가 숫자이며, 매순간 현상의 고유 진동수가 되며, 진동수는 에너지와 같은 의미이므로 이 진동수는 숫자 1에 대한 연속성으로 자연의 수량화(quantification)가 가능하다.

예를 들면, E(에너지)=h(플랑크 상수)*v(진동수)로 표현할 수 있는 바, h=1로 가정하였음으로 상기 방정식은 E=v가 성립되며, 이는 에너지와 진동수가 같음을 의미한다.

그리고, 각 단위를 제로존 제 1공준을 이용하여 무차원수로 변환하면 아래의 표 1과 같다.

항목	기본 단위 기호	제로존 무차원수
시간	1s	9192631770
길이	1m	30.663318988...
질량	1Kg	1.475521399...*10⁴⁰
전류	1A	6.789686817...*10⁸
열역학적 온도	1K	2.266665264...
물질량	1mol	6.02214076*10²³
밝기	1cd	2.614830482...*10¹⁰

상기 표 1에 있어서, 길이 단위인 미터(m)를 무차원수로 환산하는 과정을 설명하면, 광속 c=299792458m/s이고, s=9192631770로 정의하고 공준에 의해 c=1로 가정하였음으로 길이(m)의 무차원수는 30.663318988...로 표현할 수 있다.

또한, 질량 단위인 Kg을 무차원수로 환산하는 과정을 설명하면, 플랑크 상수 h=6.62606896*10^-34Js이고, 에너지 단위인 줄(J)을 기본 단위로 표현하면 h=6.62606896*10^-34Kg*m²/s이다. 이때, s=9192631770 로 정의하고 공준에 의해 h=1이므로, 길이(m)에 대한 무차원수는 상기와 같이 연산하였음으로 질량(Kg)의 무차원수를 구하면 1.475521399...*10⁴⁰이다.

이러한 방식으로 다른 단위들인 전류, 열역학적 온도, 물질량, 밝기도 무차원수로 변환할 수 있다.

또한, 상기의 7개 단위를 무차원수로 변환하였음으로 이들 단위로부터 파생된 유도단위도 모두 무차원수로 변환할 수 있다. 예를 들면, 헤르츠(Hz), 전하량(C), 뉴턴(N), 파스칼(Pa) 등의 유도단위도 정의된 기본단위의 조합을 통하여 무차원수로 변환할 수 있다.

또한, 이러한 무차원수에 의하여 서로 다른 차원의 단위들에 대한 계산도 가능하다. 예를 들면, 1kg과 1m를 사칙연산하거나, 1초와 1℃를 사칙연산하는 경우, 각 단위들을 무차원수로 변환한 후 무차원수를 서로 사칙연산함으로써 가능하다.

그리고, 각 기본 단위나 유도 단위를 모두 숫자로 표현할 수 있게 되므로, 역으로 숫자를 방정식으로 표현할 수가 있어서 방정식의 진위를 실험이 아닌 단순 연산에 의하여 검증할 수 있다.

예를 들면, F=ma라는 공식의 경우, 이 식이 맞는지, 틀리는지 검증하는 방법은 여러 가지겠지만, 핵심은 측정에서 주어진 불확도 내에서 등호(=)를 만족해야 한다.

본 발명의 무차원수를 좌변과 우변에 단위로 기재된 힘(N)이나 질량(kg) 또는 가속도(a)에 적용하여 수치로 바꾸면 좌변이든 우변이든 수치만 남을 것이고, 그 둘이 똑같은 숫자인지 불확도 내에서 확인만 하면 상기 방정식의 진위가 검증되는 방식이다.

본 발명은 이러한 무차원수를 데이터 마이닝에 의하여 분석함으로써 보다 다양한 분야의 데이터에 대한 연관관계 혹은 인과관계를 파악할 수 있다.

보다 상세하게 설명하면, 도 1 내지 도 6에 도시된 바와 같이, 본 발명에 따른 무차원수를 이용한 데이터 마이닝 시스템(1)은,

입력된 물리량을 무차원수로 변환하여 모수(Mother number)를 설정하는 단위 변환기(3)와;

생성된 모수 및 자수, 모수와 자수를 매칭시키는 관계식을 저장 및 인출하는 데이터 베이스(13,15)와; 그리고

상기 데이터 베이스(13,15)와 연동하여 분석 데이터를 인출하여 탐색, 변환, 모델링, 평가 및 예측을 진행하여 출력부(12)를 통하여 출력하는 마이닝부(7)를 포함한다.

이러한 데이터 마이닝 시스템(1)에 있어서,

단위 변환기(U2CA;3)는 수학, 물리, 화학 등 각 분야의 측정값, 실험식, 관계식, 방정식, 실험 데이터 등을(이하 관계식) 무차원수로 변환하여 모수를 설정한다.

이러한 구성을 갖는 단위 변환기(3)는 상기한 바와 같이 제로존 이론의 제 1공준을 적용함으로써 관계식을 무차원수로 변환하여 초기 데이터(Initiative Data)를 구축한다.

따라서, 상기 단위 변환기(3)는 무차원수로 된 초기 데이터를 구축하기 위하여, 물리량을 입력받는 입력부(9)와; 입력된 물리량의 단위를 소위 제로 존 코드(제로존 제 1공준)에 의해 무차원수로 치환하여 물리량을 무차원화 하는 연산부(10)와; 무차원화 된 물리량을 출력하는 출력부(12)를 포함한다.

이러한 구성을 갖는 단위 변환기(3)에 있어서, 입력부(9)에는 수학, 물리, 화학 등 각 분야의 측정값, 실험식, 방정식 등이 입력된다.

그리고, 입력된 관계식은 연산부(10)에 의하여 무차원수로 변환된다.

그리고, 변환된 무차원수는 모수로 설정되며 아래의 표 2와 같은 형식으로 표현된다.

즉, 표 2의 이미지란에 기재된 관계식을 호환 코드를 통하여 수치로 변환함으로써 모수를 생성한다.

그리고, 이러한 모수는 자수 생성기(5)를 통하여 일정한 규칙을 적용하여 자수로 변환된다.

이러한 자수 생성기(5)는 사용자가 쿼리를 입력하는 경우 최적의 근접값을 탐색할 수 있는 기능을 수행한다.

보다 상세하게 설명하면, 자수 생성기(5)는 아래의 표 3과 같은 형식으로 표현된 자수를 생성한다.

상기한 바와 같이, 자수는 호환코드 및 생성규칙을 통하여 연산된다.

이때, 모수 생성규칙은 아래의 표 4와 같다.

연산자	설 명
* 2~99	2~100까지 곱함 (gen_cn_basic)
* 1 / 13~100	13~100까지 나눔 (gen_cn_basic)
* 1 ~ 12 / 1 ~ 12	1~12 / 1~12를 곱함 (gen_cn_basic)
* 10^1~100	10^1~100까지 곱함 (gen_cn_basic)
^ (2~100/2~100)	2~100 / 2~100까지 제곱함(generateChildNumSmall)
^ (x ^ a) / (y ^ b)	1.001~1.002001 사이의 값을 100개 구함(gen_cn_basic_power)
* Math	기본 인자들을 곱함(ln, log, pi, pi^2, e, e^2 등등)

따라서, 표3에 기재된 자수는 표 2의 모수와 연동되는 호환코드와, 표4의 연산자를 적용함으로써 산출될 수 있다.

예를 들면, 표 3의 1번 항목의 자수인 9.7851306871120166801272960757596은 연산자 In을 표 2의 3번 항목의 모수인 1.0000009785135474552706397491205에 적용하여 생성할 수 있다.

결국, 1 번 항목의 자수는 모수 *In의 형식으로 구성되는 바, In이 파생경로 정보의 역활을 한다.

따라서, 후술하는 데이터 마이닝의 분석단계에서 이러한 형식의 자수를 역산함으로써 자수로부터 모수를 추적할 수 있다.

그리고, 생성된 자수는 컨버젼시 DB(Convergency DB)에 저장된다. 컨버젼시 DB에는 모수와 자수가 각각 저장된다. 또한, 모수와 자수를 매칭시키는 방정식, 상수, 실험식, 마이닝 수식은 참조 DB(Reference DB)에 저장된다.

그리고, 상기한 모수와 자수는 호환코드를 통하여 서로 연동되는 바, 이러한 상관관계를 예를 들어 아래와 같은 표 5로 구성한다.

상기 표 5를 참조하면, 모 관계식의 무차원수가 수록되는 필드(mother_number), 모 관계식의 참조코드가 수록되는 필드(equation_address), 모 관계식으로부터 자식 관계식을 얻기 위해 적용한 수학적 연산방식이 수록되는 필드(mathematical_operation), 및 모 관계식의 무차원수(모수)에 대한 수학적 연산방식을 통해 얻은 무차원수(자수)가 수록되는 필드(child_number)로 구성된다.

한편, 이러한 호환코드 테이블을 이용하여 물리량을 분석할 수 있다.

즉, 본 발명은 검색모듈(17)을 구비하고, 이 검색모듈(17)이 분석 대상 물리량을 입력받은 후 데이터 베이스(13,15)와 연동하여 물리량의 단위를 제로 존 코드로 치환하여 무차원수로 변환하고, 무차원화 된 물리량에 대응되는 호환코드를 검색하고, 호환코드를 조회하여 해당 무차원수가 수록된 레코드를 식별하게 된다.

보다 상세하게 설명하면, 도 4에 도시된 바와 같이, 사용자가 단말기 화면에 팝업된 입력창을 통하여 분석대상 물리량을 입력한 후(S10) 분석을 요청하면, 검색모듈(17)은 물리량에 단위가 포함되어 있는지 검사한다(S20).

만약, 단위가 있으면, 이 단위를 제로 존 코드로 치환하여 무차원수로 변환한다(S30). 반대로, 단위가 없으면, 곧 바로 S40 단계로 진행한다.

그리고, S40 단계에서는, 무차원화 된 물리량에 대응되는 호환코드를 검색한다. 이때 검색 대상 필드는 자수이다.

검색 후, 오차가 없는 무차원수가 존재하는지 판단하거나 오차가 존재하는 경우 일정한 오차 크기 순으로 자수를 기준으로 올림 차순과 내림 차순 각각 10개의 분석결과를 출력한다(S50). 이러한 과정은 랭킹 알고리즘에 대응 한다.

즉, 오차가 없는 무차원수가 존재하면, 호환코드를 조회하여 해당 무차원수가 수록된 레코드를 식별한 후 해당 레코드에서 모 수(mother_number), 관계식의 참조코드(equation_address) 및 수학적 연산방식(mathematical_operation)을 독출한 후 결과를 출력한다.

이때, 결과가 아래 같은 경우, 다음과 같이 해석할 수 있다.

(결과) 4.2168740563618544990834786089658e+42

=(P-197-4-1-10)^97*55=(2.64069781000404991)^97*55

입력값 4.2168740563618544990834786089658e+42는 분석의 대상이 되는 무차원화 된 물리량이다. 그리고, P-107-4-1-10은 이 물리량과 관련이 있는 관계식의 참조코드이다.

^97*55는 P-107-4-1-10으로 참조되는 관계식으로부터 4.2168740563618544990834786089658e+42을 도출하기 위한 수학적 연산방식이다.

또한, 2.64069781000404991은 P-107-4-1-10으로부터 참조되는 관계식에 상응하는 무차원수이다.

따라서, 검색모듈(17)에 의한 위의 연산결과로부터 P-107-4-1-10으로 참조되는 관계식에 97승을 하고 55를 곱하면 검색 대상이 된 수가 도출된다는 것을 알 수 있고, 또한, P-107-4-1-10으로 참조되는 관계식과 수학적 연산방식에 의하여 무차원화된 물리량 4.2168740563618544990834786089658e+42을 확인할 수 있다.

한편, 생성된 자수는 마이닝부(7)에 의하여 분석될 수 있다. 이러한 마이닝부(7)는 생성된 자수에 쿼리를 입력하고 출력된 결과를 랭킹 웨이트(Ranking Weight) 방식에 의하여 추출하여 목표 데이터(Target Data)를 얻고, 이 목표 데이터간의 상관관계, 인과관계 분석을 통하여 각 분야간의 연결고리를 파악할 수 있다.

마이닝부(7)는, 도 5에 도시된 바와 같이, 입력된 쿼리에 의하여 DB에 저장된 무차원수 데이터중 최근접 데이터를 탐색하는 데이터 탐색부(20)와; 데이터를 분석에 적합하도록 변환하는 변환부(22)와; 변환된 데이터중 일부 데이터를 목표 데이터(Target data)로 선정하고, 연관성 분석, 군집분석, 분류 분석, 수치분할 분석을 실시하는 모델링부(24)를 포함한다.

이러한 마이닝부(7)에 의하여 데이터를 마이닝하는 과정을 보다 상세하게 설명하면, 데이터 탐색, 데이터 변환, 모델링, 평가 및 예측의 순서로 진행된다.

데이터 탐색부(20)는 데이터 탐색을 실시하게 되며, 데이터 탐색은 생성된 자수 데이터의 차원, 크기, 규모, 속성 등을 파악하게 된다.

즉, 생성된 자수로 구성된 테스트 데이터는 컨버젼시 DB(13)에 저장되며, 사용자는 목표로 하는 결과를 얻기 위하여 일정 조건을 포함하는 질의사항을 입력하여 검색하며, 이때, 입력된 쿼리는 SQL(structured query language), GIS 등의 방식을 통하여 쿼리함수를 통하여 컨버젼시 DB(13)에 저장된 테스트 데이터중 최근접 데이터를 탐색하게 된다.

예를 들면, 테스트 데이터 테이블이 아래의 표 6과 같다고 가정하고, K-최근접 이웃찾기 방법으로 최근접 데이터를 탐색한다.

	질량	에너지	...	온도	비전하
성분A	6.3077878*E24	6.3123878*E24		6.6757878*E24	6.3345878*E24
성분B	6.1237878*E24	6.3324878*E24	...	6.3345878*E24	6.3078978*E24
성분C	6.3457878*E24	6.4567878*E24	...	6.3768878*E24	6.3077890*E24
	. . .	. . .	...	. . .	. . .
성분D	6.4227878*E24	6.7657878*E24	...	6.3078978*E24	6.3077678*E24
성분E	6.4537878*E24	6.7867878*E24	...	6.3123878*E24	6.3075678*E24

상기 테스트 데이터에 있어서, 각 성분들을 질량과 온도순으로 검색하여 가장 조건에 근접한 성분을 검색하는 경우, 쿼리 입력창에 질량과 온도를 입력하며, 함수에 의하여 각 성분들을 순서대로 배열하게 된다.

우선 상기 데이터 셋트에서 질량과 온도를 기준으로 기준 성분과 가장 유사한 성분을 찾기 위하여 데이터 세트를 로딩(Loading)한다. 예를 들면, 아래의 knn search 함수 구문으로 데이터를 불러온다.

load chemical data set;

X = [component.mess component.temp.];

Y = [20 162; 30 169; 40 168; 50 170; 60 171];

그리고, 배열된 질량 및 온도 데이터중 최근접한 데이터를 탐색하게 되는 바, 예를 들면, 아래의 함수 구문을 통하여 탐색한다.

Idx = knnsearch(X,Y)

Idx = knnsearch(X,Y,Name,Value)

[Idx,D] = knnsearch(___)

상기 함수 구문에 있어서,

Idx = knnsearch(X,Y)는 Y의 각 쿼리 점에 대해 X에서 최근접이웃을 찾은 후 Idx 열 벡터로 최근접이웃의 인덱스를 반환하며, Idx의 행 개수는 Y와 같다.

그리고, Idx = knnsearch(X,Y,Name,Value)는 하나 이상의 이름-값 쌍의 인수를 추가적으로 옵션으로 지정해 Idx를 반환하는 바, 예를 들어, 탐색할 최근접이웃의 개수와 탐색에 사용되는 거리 측정법을 지정할 수 있다.

또한, [Idx,D] = knnsearch(___)는 위에 열거된 구문의 입력 인수를 사용하여 행렬 D를 추가로 반환하며, D는 Y의 각 관측값과 X에서 이에 대응되는 가장 가까운 관측값 간의 거리를 포함한다.

그리고, X에서 질량과 온도를 기준으로 기준 성분과 가장 근접한 성분을 탐색한 결과 아래와 같이 출력된다.

X(Idx,:)

ans = 2ㅧ1

성분A 6.3077878*E24 6.6757878*E24

성분 C 6.3457878*E24 6.3768878*E24

그리고, 탐색된 최근접 데이터에 대한 분석을 진행하는 바, 다양한 분석방식이 가능하며, 예를 들면 랭킹 웨이트(Ranking weight) 방식에 의하여 분석을 수행한다.

이때, 최 근접 데이터에 대한 분석을 수행하기 위하여 데이터를 분석에 적합하도록 적절하게 변환하게 되는 바, 변환부(22)에 의하여 중복 데이터를 제거하고, 정규화 및 차원 축소 등을 실시하게 된다.

차원 감소(Dimension reduction)는 데이터를 분석할 때 데이터양을 줄이기 위한 기법으로서, 데이터의 피쳐가 많으면 데이타 분석이 어렵고, 특히 3개 이상 (3차원)의 피쳐가 존재할 경우 시각화가 어려워진다. 머신러닝의 경우에 학습용 데이타의 피쳐가 많으면, 연산량이 많아지고, 특히 학습을 위해서 더 많은 데이타가 필요해지는 바, 이렇게 많은 데이터를 줄이기 위하여 차원 감소를 수행한다.

이러한 차원감소 기법에는 피쳐 선택 (Feature Selection)과 피쳐 추출 (Feature extraction) 두 가지 방식이 있다. 피쳐 선택의 경우는 여러 개의 피쳐중에서 데이타의 특성을 가장 잘 나타내는 주요 필드 몇개만을 선택하여 대표 피쳐로 선택하는 방법이다.

예를 들어 [7,1,2],[100,1,3],[92,1,5] 가 있을때, 이 세개의 행렬에서 각 첫번째 열과 세번째 열이 그 변화 폭이 가장 크기 때문에, 첫번째와 세번째 열만을 대표 피쳐로 사용하여 다음과 같이 선택한다. [7,2],[100,3],[92,5]

다음은 피쳐 추출 (Feature extraction) 방식이 있는데, 이건 원본 데이타와 전혀 다른 형태의 데이타를 추출해낸다. 예를 들어 [7,1,2] 를 일정 공식에 의해서 [3,4] 등으로 변환하여 특성을 표현하는 방식이다.

이러한 차원감소의 수행은 다양한 알고리즘에 의하여 수행될 수 있는 바, 예를 들면 아래와 같은 알고리즘으로 차원감소가 가능하다.

이와 같이, 데이터를 변환한 후, 모델링부(24)에 의하여 모델링을 실시하게 된다. 즉, 모델링은 변환된 데이터중 일부 데이터를 목표 데이터(Target data)로 선정하고, 이 Target data와 다른 데이터간의 연관성 분석, 군집분석, 분류 분석, 수치분할 분석 등을 실시하는 과정이다.

이러한 모델링부(24)는 도 6에 도시된 바와 같이, 수치분할 분석모듈(30)과; 연관성 분석모듈(32)과; 인과 분석모듈과; 군집 분석모듈(36); 평가 예측 모듈(38)을 포함한다.

먼저, 수치분할 분석모듈(30)에 의하여 데이터를 분석하는 과정을 아래와 같이 설명한다.

예를 들어, 분석 대상 데이터가 0.123456789012345678001234567890023456734인 경우 다음과 같은 과정을 통하여 수치분할이 수행된다.

먼저, 분석 룰 테이블(Analysis rule table)에 저장된 분석 룰 1 내지 5를 로딩하여 상기 분석 대상 데이터를 일정한 규칙에 따라 순차적으로 분할한다.

즉, 제 1스텝으로서 소숫점에서 순차적으로 123456789를 분할하고, 그 다음 0을 경계로 제 2스텝으로서 12345678을 분할하며, 그 다음 00을 경계로 제 3스텝으로서 12345678을 분할하고, 그 다음 00을 경계로 제 4스텝으로서 23456734를 분할하게 된다. 결과적으로 분석 대상 데이터는 아래와 같이 분할될 수 있다.

이와 같이 분석 대상 데이터를 다수회 분할함으로써 탐색 데이터의 한계를 설정하게 되며, 이하 데이터는 무시한다.

그리고, 수치 분할된 데이터는 컨버젼스 DB에 저장된 자수(CN)와 참조식(Ref.)와 결합(Merge)분석 히스토리 DB에 저장되는 바, 그 형식은 다음과 같다.

즉, 제 1스텝=자수1+Ref.1, 제 2스텝=자수3+Ref.5, 제 3스텝=자수1+Ref.2와 같은 형식으로 저장된다.

한편, 모델링은 수치분할 뿐만 아니라 Target data와 다른 데이터간의 연관성을 분석하는 것도 가능하다.

즉, 연관성 분석모듈(32)에 의하여 데이터간의 연관성을 분석하는 바, 연관성은 데이터 마이닝을 통해 정보의 연관성을 파악함으로써 연관성이 많은 정보들을 그룹화하는 클러스터링의 일종으로서 가치있는 정보를 만들어 의사 결정에 적용하고자 하는 분석방법이다. 이러한 연관성은 특정 문제에 대해 아직은 일어나지 않은 답(예를 들어, 예/아니오)을 얻고자 하는 예측이나, 대상물을 특정목적에 따라 분류(Segmentation)하는 것과는 차이가 있다.

이러한 연관성 분석을 예로 설명하면, 성분 A와 B의 연관관계를 분석하기 위한 것으로서, 성분 A의 반응시 성분 B의 반응여부를 분석하는 것이다.

즉, 성분 A가 반응하는 경우 성분 B가 반응하면 이는 연관성이 높은 것으로 판단된다. [이때, A는 lhs(left-hands side), B는 rhs(right-hands side)]

그리고, 연관성 분석의 지표에는 지지도(Support), 신뢰도(Confidence), 향상도(lift)가 있다.

지지도는 성분 A와 성분 B가 동시에 반응할 확률인 P(A∩B)를 의미한다. 지지도가 높을 수록 연관성도 높아진다.

신뢰도는 성분 A가 반응하였을 때, 성분 B가 반응할 확률 즉, P(B|A)를 의미한다. 그러나 결과값이 성분 A에 의존하기 때문에 기준이 불명료할 경우가 있다.

이런 경우, 향상도를 확인하는 바,

향상도는 성분A가 반응한 경우 성분 B가 반응할 확률과, 성분 A의 반응과 상관없이 성분 B가 반응할 확률의 비이다.

이러한 향상도에서 만약 성분 A와 성분 B가 독립사건이라면 P(B∩A)가 P(A)*P(B) 이므로 LITF = P(A)*P(B) / P(A)*P(B) = 1이 된다.

즉, A와 B가 관련성이 없다면 LIFT=1이되고, LIFT > 1 이라면 LIFT값이 클 수록 관련도가 높으며, LIFT < 1 이라면 오히려 성분 A가 반응한 경우 성분 B는 반응하지 않는 것을 의미한다.

이러한 연관성 분석을 실제로 수행하는 경우 아래와 같은 알고리즘으로 진행된다.

먼저 1번 및 2번 항목과 같이, 분석 대상 데이터 파일을 로딩한다.

그리고, 4번 항목과 같이 반응 가능한 성분으로 분할하기 위하여, 즉 transaction 구조로 변환하기 위하여 성분들을 정리하고 형식을 리스트로 분할하여야 하는 바, 스플릿 함수(Split 함수)를 사용한다.

그리고, 6번 항목과 같이 transaction 구조로 변환한다.

그리고, 10번 항목과 같이 data.frame 형식으로 변환하게 되며, 그 결과 아래와 같은 데이터가 출력된다.

상기 출력 데이터에서 나타난 바와 같이, 성분 D가 가장 반응빈도가 높고, 성분B와 성분 C가 같이 반응함을 알 수 있다.

따라서, 성분 D는 성분 B,C와 연관성이 높음을 알 수 있다.

그리고, 이와 같이 연관성이 분석된 데이터는 단위 변환기(3)로 피드백(Feed back)되어 다시 모수로 설정될 수 있다.

한편, 본 발명의 모델링은 Target data간의 연관관계 뿐만 아니라 인과관계(Causality)를 분석하는 것도 가능하다.

즉, 인과관계 여부는 인과성 분석모듈(34)에 의하여 분석되는 바, 인과관계는 두 개의 시계열 데이터에서 한 변수 X의 과거데이터와 다른 한 변수 Y의 과거데이터의 결합으로 그 변수 X를 선형 예측(linear regression)을 했을 때 다른 한 변수 Y의 과거데이터로만 선형예측 한 것이 통계적으로 유의미하고 예측에 도움을 줬다면 X가 Y의 원인이라 정의할 수 있으며, 이러한 관계가 인과관계이다.

인과관계를 확인하기 위해서는 두 개의 시계열 변수, 즉 시계열 데이터 두 세트가 필요하고 시차(lag 또는 지연)를 파라미터로 입력하여야 한다.

즉, 시차는 2개의 시계열 데이터 세트 A와 B에 대해서 테스트 할 때 A가 B의 몇번째 뒤의 시점까지 영향을 주는 또는 그 반대로 B가 A의 몇번째 뒤의 시점까지 영향을 주는가를 확인하기 위한 과정이다.

이때,A의 과거 데이터의 집합은 A의 시차(Lags)이고, B의 과거 데이터의 집합은 B의 시차(Lags)이다.

이러한 인과관계 분석은 전제 조건으로서, 테스트하려는 두 개의 데이터는 모두 정상성(stationary)을 만족하여야 한다.

그리고, 추가적인 전제조건으로서 테스트 방향(Direction)을 고려하여야 하는 바, 테스트하려는 두 개의 변수 A와 B가 있을 때 양방향으로 총 2회의 검정을 세트로 수행하여야 한다.

즉, 변수A → 변수B의 방향을 두고 테스트로 결정한 시차(lags)를 입력하고 인과관계 테스트를 수행한다.

두 번의 테스트를 통해서 A가 B에 인과 영향을 주는지 테스트하고, B가 A에 인과 영향을 주는지 테스트하게 된다. 이 결과의 조합을 통해서 4가지 경우의 결과가 나온다.

즉, A가 B에 인과영향을 주고, B는 A에 인과영향을 주지 않는 경우, B가 A에 인과영향을 주고, A는 B에 인과영향을 주지 않는 경우, A가 B에 인과영향을 주고, B도 A에 인과영향을 주는 경우, A가 B에 인과영향을 주지 않고, B도 A에 인과영향을 주지 않는 경우이다.

이러한 인과관계 분석을 예를 들어 설명하면, 변수 A가 B에 영향을 주는지 여부를 아래의 알고리즘에 의하여 살펴본다.

먼저, R 프로그램을 구동하고, granger test함수에 의하여 B가 A에 영향을 주는지 여부의 인과관계를 분석한다. 우선 아래 함수식과 같이 Lag 값으로 4를 입력한다.

이 함수를 실행하면 아래의 결과가 나온다.

상기 출력 결과에서, p-value가 0.006414이므로 B가 A의 인과요인이므로 인과 관계가 성립함을 알 수 있다.

반대로, A가 B에 영향을 주는지 여부를 살펴보면, 상기 수식과 반대로 연산한다.

상기 출력 결과에서 알 수 있듯이, p-value가 0.8881이므로 A가 B의 인과요인이 아니므로 인과관계가 성립하지 않음을 알 수 있다.

그리고, 이와 같이 인과관계가 분석된 데이터는 단위 변환기(3)로 피드백(Feed back)되어 다시 모수로 설정될 수 있다.

한편, 모델링은 Target data를 군집화하여 분석하는 것도 가능하다.

군집분석은 군집 분석모듈(36)에 의하여 분석되는 바, 데이터를 유사한 특성을 가진 군집으로 분류하는 것을 의미한다.

이러한 군집분석은 분석 초기 탐색적 분석 단계에서 주로 활용되며, 출력 데이터 없이 입력 데이터만으로 이루어지며 데이터의 특성을 파악하거나 이해하기 이해 주로 활용된다.

이러한 군집분석은 2가지 원리로 수행되는 바, 군집 내 응집도 최대화와 군집 간 분리도 최대화가 있다.

군집 내 응집도 최대화는 같은 군집들 끼리는 최대치로 몰려있어, 군집 내 거리를 최소화 하는 것이고, 군집 간 분리도 최대화는 다른 군집간 거리를 최대화 하는 것이다.

즉, 같은 군집 내에서는 변수간의 거리가 가깝고, 다른 군집끼리는 거리가 멀리 떨어지는 것이 군집화가 높은것을 의미한다.

이러한 군집화의 거리척도의 유형에는 유클리드 거리, 맨하탄 거리, 표준화 거리, 민콥스키 거리 등이 있다.

그리고, 군집분석의 유형에는 분리형(비계층적) 군집화와, 계층적 군집화로 구분되는 바, 분리형 군집화의 예로는 K-Means Clustering 이 있고, 계층적 군집화의 예로는 H-Clustering이 있다.

예를 들어 K-Means Clustering에 의하여 군집분석을 하는 알고리즘을 설명하면 다음과 같다.

즉, 상기 도면의 1번과 같이, k값을 초기값으로 입력받고, 데이터를 k개의 초기군집으로 나누고, 2번과 같이 k개의 초기 군집의 중심점을 설정하는 바, 빨간색 및 연두색 동그라미가 중심점이 된다.

3번과 같이 각 데이터 개체인 점들과 현재 군집 중심점 사이의거리를 연산한다.

연산결과 4번과 같이, 점들은 더 가까운 중심점과 군집을 이루는 바, 만약 개체가 현재 군집 평균에 가까우면 현재 소속 군집에 포함된다.

만약 그렇지않으면 5번과 같이 다른 군집에 포함된다.

그리고, 6번과 같이, 개별 군집의 평균 거리가 다시 연산되어 클러스터의 중심점를 다시 연산하는 경우, 그 중심점을 기준으로 다시 군집화한다.

그리고, 7번 및 8번과 같이, 이러한 군집화 과정을 반복하여도 클러스터가 더 이상 재지정 되는 점이 없으면 알고리즘이 완료된다.

그리고, 이와 같이 군집 분석된 데이터는 단위 변환기(3)로 피드백(Feed back)되어 다시 모수로 설정될 수 있다.

이때, 단위 변환기(3)는 판단부(11)를 구비함으로써 마이닝부(7)에 의하여 피드백된 데이터의 무차원수 여부를 판단하게 된다.

즉, 상기한 바와 같이, 단위 변환기(3)의 입력부(9)로 입력되는 데이터는 통상적인 관계식, 방정식, 수식이므로 단위가 포함된 형식의 데이터이나, 마이닝부(7)에 의하여 처리되어 피드백된 데이터는 무차원수 형식이므로 단위 변환기(3)에서는 이를 분류하여 처리하게 된다.

따라서, 판단결과 무차원수인 경우에는 연산부(10)로 직접 입력하게 되고, 무차원수가 아닌 경우에는 입력부(9)를 통하여 입력하게 된다.

이와 같이, 마이닝부(7)에 의하여 피드백 된 데이터를 무차원수 아닌 데이터와 분리하여 연산함으로써 대용량의 데이터들을 효율적으로 처리할 수 있다.

한편, 평가 및 예측은 상기 과정을 통하여 처리된 데이터에 의하여 향후 사건을 예측하는 과정이다.

이러한 평가 및 예측은 평가 예측 모듈(38)에 의하여 분석되는 바, 예측 방식에는 다양한 방식이 적용 가능하며, 목표변수 존재여부에 따라 지도예측(Supervosed prediction, directed knowledge discovery)과 자율예측(Unsupervised prediction, undirected knowledge discovery)으로 분류될 수 있다.

지도예측은 분석용 데이터는 n개의 사례로 구성되고 각 사례와 연관되어 입력변수(예측변수, 설명변수, 독립변수)들과 목표변수(반응값, 결과치, 종속변수)들을 이용하여 목표값을 예측하는 모형을 연산한다.

이러한 지도예측 기법에는 판별분석, 회귀분석, 의사결정나무분석, 신경망분석, 시계열분석 등이 있다.

그리고, 자율예측은 목표변수가 명확하게 규정되지 않는 분석기법을 말하며 인과관계를 결정하는 규칙을 찾기 보다는 데이터에 존재하는 여러 가지 형태의 특징을 찾는 것을 목표로 한다. 자율예측에는 군집분석이 있다.

또는, 데이터를 훈련데이터, 검증 데이터, 평가 데이터로 분할하고, 훈련 데이터를 이용하여 구한 모형을 이용하여 각 데이터에서 예측값과 비교함으로써 정확도를 평가할 수 있다.

이하, 본 발명의 바람직한 실시예에 따른 무차원수를 이용한 데이터 마이닝 방법에 대하여 첨부된 도면을 참조하여 상세하게 설명한다.

도 7에 도시된 바와 같이, 본 발명이 제안하는 무차원수를 이용한 데이터 마이닝 방법은, 물리량을 단위 변환기(3)에 의하여 무차원수로 변환하여 모수(Mother number)를 설정하는 제 1단계(S100)와;

이러한 무차원수를 이용한 데이터 마이닝 방법에 있어서,

제 1단계(S100)에서는, 단위 변환기(3)의 입력부(9)가 물리량을 입력받고, 연산부(10)가 입력된 물리량의 단위를 제로 존 코드에 의해 무차원수로 치환하여 물리량을 무차원화 하며, 출력부(12)가 무차원화 된 물리량을 출력한다.

즉, 수학, 물리, 화학 등 각 분야의 측정값, 실험식, 관계식, 방정식, 실험 데이터 등을 단위 변환기(3)를 통하여 연산함으로써 제로존 이론의 제 1공준을 적용하여 무차원수로 변환하여 초기 데이터(Initiative Data)를 구축한다.

그리고, 제 2단계(S110)에서는, 구축된 모수를 자수 생성기(5)에 의하여 변환함으로써 자수(Child number)를 생성하게 된다.

이때 모수에 일정한 규칙을 적용하여 자수를 생성하게 된다.

예를 들면, 모수인 1.0000009785135474552706397491205에 연산자 In을 적용함으로써 자수인 9.7851306871120166801272960757596을 생성할 수 있다.

이때, 자수는 모수+In의 형식으로 구성되는 바, In이 파생경로 정보의 역활을 한다.

이러한 제 2단계(S110)가 완료되면, 제 3단계(S120)가 진행된다.

제 3단계(S120)에서는 생성된 모수 및 자수, 모수와 자수를 매칭시키는 관계식을 데이터 베이스(13,15)에 저장 및 인출하게 된다.

즉, 생성된 자수 및 모수에는 컨버젼시 DB(Convergency DB;13)에 저장된다. 또한, 모수와 자수를 매칭시키는 방정식, 상수, 실험식, 마이닝 수식은 참조 DB(Reference DB;15)에 저장된다.

이때, 모수와 자수는 일정한 형식으로 저장되는 바, 모 관계식의 무차원수가 수록되는 필드(mother_number); 모 관계식의 참조코드가 수록되는 필드와; 모 관계식으로부터 자식 관계식을 얻기 위해 적용한 수학적 연산방식이 수록되는 필드와; 모수에 대한 수학적 연산방식을 통해 얻은 자수가 수록되는 필드(child_number)의 형식을 갖는다.

그리고, 제 4단계(S130)가 진행되는 바, 본 단계에서는 마이닝부(7)가 데이터 베이스(13,15)와 연동하여 분석 데이터를 인출하여 탐색, 변환, 모델링, 평가 및 예측을 진행한다.

즉, 제 4단계(S130)는, 제 8도에 도시된 바와 같이,

마이닝부(7)의 데이터 탐색부(20)가 입력된 쿼리에 의하여 DB에 저장된 테스트 데이터중 최근접 데이터를 탐색하는 단계(S60)와; 탐색된 데이터를 변환부(22)에 의하여 변환하는 단계(S65)와; 변환된 데이터중 일부 데이터를 모델링부(24)에 의하여 목표 데이터(Target data)로 선정하고, 연관성 분석, 군집분석, 분류 분석, 수치분할 분석을 실시하는 단계(S70)와, 평가 및 예측을 실시하는 단계(S80)를 포함한다.

그리고, 제 5단계(S140)를 추가로 포함하는 바, 제 5단계(S140)에서는 분석 대상 물리량을 입력받은 후 검색모듈(17)에 의하여 데이터 베이스(13,15)와 연동하여 물리량의 단위를 제로 존 코드로 치환하여 무차원수로 변환하고, 무차원화 된 물리량에 대응되는 호환코드를 검색하고, 호환코드를 조회하여 해당 무차원수가 수록된 레코드를 식별한다.

이때, 검색모듈(17)은, 단말기 화면에 팝업된 입력창을 통하여 분석대상 물리량을 입력한 후 분석을 요청하면, 단말기는 물리량에 단위가 포함되어 있는지 검사하고, 단위가 있으면, 이 단위를 제로 존 코드로 치환하여 무차원수로 변환하고, 무차원화 된 물리량에 대응되는 호환코드를 검색하고, 호환코드를 조회하여 해당 무차원수가 수록된 레코드를 식별한 후 해당 레코드에서 모 수(mother_number), 관계식의 참조코드(equation_address) 및 수학적 연산방식(mathematical_operation)을 독출한 후 결과를 출력한다.

아울러, 제 1단계(S100)는 단위 변환기(3)의 판단부(11)에 의하여 무차원수 여부를 판단하는 제 6단계(S150)을 추가로 구비한다.

제 6단계(S150)에서는 마이닝부(7)에 의하여 피드백된 데이터의 무차원수 여부를 판단하게 되는 바, 판단결과 무차원수인 경우에는 연산부(10)로 직접 입력하게 되고, 무차원수가 아닌 경우에는 입력부(9)를 통하여 입력하게 된다.

Claims

물리량을 무차원수로 변환하여 모수(Mother number)를 설정하는 단위 변환기(3)와;
단위 변환기(3)에서 설정된 모수를 일정한 규칙에 의하여 변환함으로써 자수(Child number)를 생성하여 분석 데이터를 설정하는 자수 생성기(5)와;
생성된 모수 및 자수, 모수와 자수를 매칭시키는 관계식을 저장 및 인출하는 데이터 베이스(13,15)와;
상기 데이터 베이스(13,15)와 연동하여 분석 데이터를 인출하여 탐색, 변환, 모델링, 평가 및 예측을 진행하는 마이닝부(7)를 포함하는 무차원수를 이용한 데이터 마이닝 시스템(1).
제 1항에 있어서,
단위 변환기(3)는, 물리량을 입력받는 입력부(9)와; 입력된 물리량의 단위를 제로 존 코드에 의해 무차원수로 치환하여 물리량을 무차원화 하는 연산부(10)와; 무차원화 된 물리량을 출력하는 출력부(12)를 포함하는 무차원수를 이용한 데이터 마이닝 시스템(1).
제 1항에 있어서,
자수 생성기(5)에 의하여 설정된 분석 데이터는, 모 관계식의 무차원수가 수록되는 필드(mother_number); 모 관계식의 참조코드가 수록되는 필드(equation_address); 모 관계식으로부터 자식 관계식을 얻기 위해 적용한 수학적 연산방식이 수록되는 필드(mathematical_operation); 및 모수에 대한 수학적 연산방식을 통해 얻은 자수가 수록되는 필드(child_number)를 포함하는 무차원수를 이용한 데이터 마이닝 시스템(1).
제 1항에 있어서,
검색모듈(17)을 추가로 포함하며, 검색모듈(17)은 분석 대상 물리량을 입력받은 후 데이터 베이스(13,15)와 연동하여 물리량의 단위를 제로 존 코드로 치환하여 무차원수로 변환하고, 무차원화 된 물리량에 대응되는 호환코드를 검색하고, 호환코드를 조회하여 해당 무차원수가 수록된 레코드를 식별하는 것을 특징으로 하는 무차원수를 이용한 데이터 마이닝 시스템(1).
제 4항에 있어서,
검색모듈(17)은, 단말기 화면에 팝업된 입력창을 통하여 분석대상 물리량을 입력한 후 분석을 요청하면, 단말기는 물리량에 단위가 포함되어 있는지 검사하고, 단위가 있으면, 이 단위를 제로 존 코드로 치환하여 무차원수로 변환하고, 무차원화 된 물리량에 대응되는 호환코드를 검색하고, 호환코드를 조회하여 해당 무차원수가 수록된 레코드를 식별한 후 해당 레코드에서 모 수(mother_number), 관계식의 참조코드(equation_address) 및 수학적 연산방식(mathematical_operation)을 독출한 후 결과를 출력하는 무차원수를 이용한 데이터 마이닝 시스템(1).
제 1항에 있어서,
마이닝부(7)는, 입력된 쿼리에 의하여 DB에 저장된 무차원수 데이터중 최근접 데이터를 탐색하는 데이터 탐색부(20)와; 데이터를 분석에 적합하도록 변환하는 변환부(22)와; 변환된 데이터중 일부 데이터를 목표 데이터(Target data)로 선정하고, 연관성 분석, 군집분석, 분류 분석, 수치분할 분석을 실시하는 모델링부(24)를 포함하는 무차원수를 이용한 데이터 마이닝 시스템(1).
제 6항에 있어서,
모델링부(24)는 목표 데이터를 일정 구간씩 수치 분할하여 분석하는 수치분할 분석모듈(30)과; 각 데이터간의 연관성을 분석하는 연관성 분석모듈(32)과; 각 데이터간의 인과성을 분석하는 인과 분석모듈과; 각 데이터간의 군집을 분석하는 군집 분석모듈(36); 분석된 데이터들에 대하여 평가 및 예측을 진행하는 평가 예측 모듈(38)을 포함하는 무차원수를 이용한 데이터 마이닝 시스템(1).
제 2항에 있어서,
단위 변환기(3)는 판단부(11)를 추가로 구비함으로써 마이닝부(7)에 의하여 피드백된 데이터의 무차원수 여부를 판단하게 되는 바, 판단결과 무차원수인 경우에는 연산부(10)로 직접 입력하게 되고, 무차원수가 아닌 경우에는 입력부(9)를 통하여 입력하게 되는 무차원수를 이용한 데이터 마이닝 시스템(1).
물리량을 단위 변환기(3)에 의하여 무차원수로 변환하여 모수(Mother number)를 설정하는 제 1단계(S100)와;
단위 변환기(3)에서 설정된 모수를 자수 생성기(5)에 의하여 일정한 규칙에 의하여 변환함으로써 자수(Child number)를 생성하여 분석 데이터를 설정하는 제 2단계(S110)와;
생성된 모수 및 자수, 모수와 자수를 매칭시키는 관계식을 데이터 베이스(13,15)에 저장 및 인출하는 제 3단계(S120)와; 그리고
마이닝부(7)가 데이터 베이스(13,15)와 연동하여 분석 데이터를 인출하여 탐색, 변환, 모델링, 평가 및 예측을 진행하는 제 4단계(S130)를 포함하는 무차원수를 이용한 데이터 마이닝 방법.
제 9항에 있어서,
제 1단계(S100)에서는, 단위 변환기(3)의 입력부(9)가 물리량을 입력받고, 연산부(10)가 입력된 물리량의 단위를 제로 존 코드에 의해 무차원수로 치환하여 물리량을 무차원화 하며, 출력부(12)가 무차원화 된 물리량을 출력하는 무차원수를 이용한 데이터 마이닝 방법.
제 9항에 있어서,
제 2단계(S110)에서는, 자수 생성기(5)에 의하여 설정된 분석 데이터는, 모 관계식의 무차원수가 수록되는 필드(mother_number); 모 관계식의 참조코드가 수록되는 필드(equation_address); 모 관계식으로부터 자식 관계식을 얻기 위해 적용한 수학적 연산방식이 수록되는 필드(mathematical_operation); 및 모수에 대한 수학적 연산방식을 통해 얻은 자수가 수록되는 필드(child_number)를 포함하는 무차원수를 이용한 데이터 마이닝 방법.
제 9항에 있어서,
제 5단계(S140)를 추가로 포함하며, 제 5단계(S140)에서는 분석 대상 물리량을 입력받은 후 검색모듈(17)에 의하여 데이터 베이스(13,15)와 연동하여 물리량의 단위를 제로 존 코드로 치환하여 무차원수로 변환하고, 무차원화 된 물리량에 대응되는 호환코드를 검색하고, 호환코드를 조회하여 해당 무차원수가 수록된 레코드를 식별하는 것을 특징으로 하는 무차원수를 이용한 데이터 마이닝 방법.
제 12항에 있어서,
제 5단계(S130)에서는, 검색모듈(17)은, 단말기 화면에 팝업된 입력창을 통하여 분석대상 물리량을 입력한 후 분석을 요청하면, 단말기는 물리량에 단위가 포함되어 있는지 검사하고, 단위가 있으면, 이 단위를 제로 존 코드로 치환하여 무차원수로 변환하고, 무차원화 된 물리량에 대응되는 호환코드를 검색하고, 호환코드를 조회하여 해당 무차원수가 수록된 레코드를 식별한 후 해당 레코드에서 모 수(mother_number), 관계식의 참조코드(equation_address) 및 수학적 연산방식(mathematical_operation)을 독출한 후 결과를 출력하는 무차원수를 이용한 데이터 마이닝 방법.
제 9항에 있어서,
제 4단계(S130)에서는, 마이닝부(7)의 데이터 탐색부(20)가 입력된 쿼리에 의하여 DB에 저장된 테스트 데이터중 최근접 데이터를 탐색하는 단계(S60)와; 탐색된 데이터를 변환부(22)에 의하여 변환하는 단계(S65)와; 변환된 데이터중 일부 데이터를 모델링부(24)에 의하여 목표 데이터(Target data)로 선정하고, 연관성 분석, 군집분석, 분류 분석, 수치분할 분석을 실시하는 단계(S70)와, 평가 및 예측을 실시하는 단계(S80)를 포함하는 무차원수를 이용한 데이터 마이닝 방법.
제 10항에 있어서,
제 1단계(S100)는 단위 변환기(3)의 판단부(11)에 의하여 무차원수 여부를 판단하는 제 6단계(S150)을 추가로 구비하며, 제 6단계(S150)에서는 마이닝부(7)에 의하여 피드백된 데이터의 무차원수 여부를 판단하게 되는 바, 판단결과 무차원수인 경우에는 연산부(10)로 직접 입력하게 되고, 무차원수가 아닌 경우에는 입력부(9)를 통하여 입력하게 되는 무차원수를 이용한 데이터 마이닝 방법.