KR20040049721A - 방사형 기저함수를 이용한 마이크로 어레이 데이터분류모델 생성시스템 및 그 방법 - Google Patents

방사형 기저함수를 이용한 마이크로 어레이 데이터분류모델 생성시스템 및 그 방법 Download PDF

Info

Publication number
KR20040049721A
KR20040049721A KR1020020077571A KR20020077571A KR20040049721A KR 20040049721 A KR20040049721 A KR 20040049721A KR 1020020077571 A KR1020020077571 A KR 1020020077571A KR 20020077571 A KR20020077571 A KR 20020077571A KR 20040049721 A KR20040049721 A KR 20040049721A
Authority
KR
South Korea
Prior art keywords
classification model
data
basis function
generating
matrix
Prior art date
Application number
KR1020020077571A
Other languages
English (en)
Other versions
KR100445427B1 (ko
Inventor
신미영
박선희
박상규
임기욱
암릿 엘 고엘
임호정
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2002-0077571A priority Critical patent/KR100445427B1/ko
Priority to US10/446,696 priority patent/US20040111384A1/en
Publication of KR20040049721A publication Critical patent/KR20040049721A/ko
Application granted granted Critical
Publication of KR100445427B1 publication Critical patent/KR100445427B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models

Abstract

본 발명은 마이크로 어레이 상에 나타난 유전자 발현패턴을 기능적 특징별로 분류하기 위한 방사형 기저함수 기반 분류모델 생성시스템 및 그 방법에 관한 것이다.
본 발명은 방사형 기저함수에 관한 여러 변수를 대신하여 분류모델에 반영될 학습데이터 반영 정도(representational capability)를 입력 변수로 설정하고 이 값에 근거하여 분류모델 생성에 필요한 다른 모든 변수를 자동으로 결정하도록 함으로써 개발자에 의한 변수 값의 임의의 선택을 최소화하고 불필요한 반복적 생성 오류를 줄일 수 있도록 한다. 또한 개발자가 변수에 내재된 의미를 쉽게 이해할 수 있고 변수 값의 설정에 따른 결과의 예측이 가능하도록 하여 분류모델 생성과정을 최적화시킬 수 있도록 한다.

Description

방사형 기저함수를 이용한 마이크로 어레이 데이터 분류모델 생성시스템 및 그 방법 {System and Method for generating micro-array data class model using radial basis functions}
본 발명은 마이크로 어레이 상에 나타난 유전자 발현패턴을 기능적 특징별로 분류할 수 있는 분류모델의 생성방법에 관한 것으로서, 특히 기능 분류 그룹별 유전자 발현패턴을 학습하기 위해 방사형 기저함수(radial basis function)를 이용하여 분류모델을 생성할 수 있도록 하는 방사형 기저함수를 이용한 마이크로 어레이 데이터 분류모델의 자동 생성방법에 관한 것이다.
방사형 기저함수를 이용한 패턴 학습방법은 다른 비선형(non-linear) 함수에 기반한 패턴 학습방법과는 달리 비선형적 특성(non-linearity)과 선형적 특성(linearity)을 모두 지니고 있을 뿐만 아니라 이들을 분리하여 학습시킬 수 있기 때문에 다른 비선형적 함수 기반 패턴 학습방법에 비해 학습 속도가 비교적 빠르다는 장점이 있다. 또한 본 발명에서 제시하는 학습방법을 이용하면 패턴 분류모델을 생성하는 과정이 매우 단순화(simplify)되어 분류모델 생성에 관한 전문가의 사전 지식이 없이도 패턴 분류모델을 용이하게 생성할 수 있다.
이러한 방사형 기저함수를 이용하여 패턴을 학습하기 위해서는 방사 기저함수의 변수를 결정해야 하며, 이러한 변수는 함수의 개수와 각 함수별 위치와 모양을 결정짓는 중심 위치 및 폭, 그리고 각 함수의 중요도를 나타내는 가중치를 포함한다.
이러한 변수의 최적 값을 효율적으로 찾아내는 것이 방사형 기저함수를 이용한 패턴 학습방법의 핵심이며, 이를 위해 불필요한 반복적 생성 오류를 줄이고 개발자에 의한 변수 값의 임의의 선택을 최소화하는 방법을 제시할 필요가 있다.
종래의 방사형 기저함수 기반 마이크로 어레이 데이터 분류 방법에 관한 기술을 살펴보면 다음과 같다.
'Tumer 외 3인'이 권리자인 국제특허 (WO 98/24369) 'Spectroscopic detection of cervical pre-cancer using radial basis function networks'에는, 암과 관련한 세포조직의 비정상성을 구분해내기 위해 형광 스펙트럼 데이터를 이용하여 방사형 기저함수 모델을 학습하고, 이에 기반하여 세포조직의 전암상태 및 이의 심각한 정도를 구분해내는 기술이 소개되어 있다. 이것은 세포조직의 형광 스펙트럼 데이터에 기반한 전암상태 예측 기술에 방사형 기저함수 모델을 활용하는 방법이 제시되고는 있으나, 실제 방사형 기저함수 망을 어떻게 학습하는 지에 대한 구체적인 방법은 제시되지 않고 있다.
구체적인 방사형 기저함수 망의 학습방법에 관한 종래의 기술을 살펴보면 다음과 같다. 'Moody 외 1인'이 'Neural Computation'에 게재한 논문 'Fast learning in networks of locally-tuned processing units'에서는, 방사형 기저함수의개수(k)를 사용자가 입력으로 주면, 그 개수(k) 만큼의 겹치지 않는(disjoint) 클러스터(cluster)를 생성하고, 각 클러스터의 중심을 기저함수의 중심 위치로 선정한다. 또한 각 기저함수의 폭은 각 클러스터의 중심과 P번째 가까운 클러스터의 중심간의 거리로 결정한다. 이 방법은 클러스터 생성 시 클러스터 중심 위치에 대한 초기 값을 선정해야 할 필요가 있으며 이를 위해 학습데이터 중의 하나를 무작위로 선택(random selection)하여 사용하고 있다.
따라서, 이러한 무작위적인 초기 값 선택으로 인해 동일한 학습데이터에 대해 동일한 학습 결과를 재생산하기 어려운 문제가 있으며, 또한 방법 초기에 요구되는 기저함수의 개수(k)의 적절한 설정을 위해 반복적인 생성 오류를 거쳐야 하는 어려움이 있다.
한편, 'Chen 외 2인'이 발표한 'IEEE Trans. on Neural Networks'에 게재한 논문 'Orthogonal least squares learning algorithm for radial basis function networks'에서는 방사형 기저함수의 중심 위치의 결정에 따라 기저함수의 최종 개수가 결정된다. 기저함수의 중심 위치를 결정하기 위하여 학습데이터 중에서 중심 위치로 선정 시에 결과의 추정값과 실제값 간의 잉여 오차를 최소화하는 데이터를 첫 번째 중심 위치로 선정하며, 잉여 오차(residual error)의 감소폭이 최대화되도록 다음 중심 위치를 선정하고, 이러한 과정을 잉여 오차에 대한 임계값(threshold)에 도달할 때까지 반복하여 기저함수를 하나씩 증가시킴으로써 최종 기저함수의 개수를 결정한다.
그러나 이러한 방법은 기저함수의 중심 위치 선정 시에 잉여 오차를 계산하기 위해 실제 결과값을 참조하므로 결과값의 오염(perturbation) 정도에 따라 선택되는 중심위치가 매우 달라질 수 있다는 단점이 있다.
즉, 기존의 방사형 기저함수 기반 마이크로 어레이 데이터 분류모델 생성방법은 여러 변수에 대한 입력 값을 필요로 할 뿐만 아니라 이러한 변수의 입력 값이 분류모델 생성 결과에 미치는 직접적인 영향을 파악하기 어려워, 개발자가 입력 변수에 대한 최적 값을 찾아내기 위해 전문가의 도움이나 반복적인 생성 오류(trial-and-error)를 거쳐야 하는 어려움이 있었다. 또한 무작위 값의 선택을 필요로 하는 분류모델 생성방법의 경우 동일한 데이터에 대하여 동일한 분류모델을 재생산(reproducible)하기 어렵다는 문제점이 있었다.
이러한 문제를 해결하기 위하여, 발명자 등은 'ETRI Journal'에 게재된 'A radial basis function approach for pattern recognition and its applications'에서 '학습데이터 반영 정도'를 조절하는 변수를 도입하고, 이러한 값의 선택에 따라 방사형 기저함수의 변수를 자동으로 선택할 수 있는 이론적 기반을 마련한 바 있다.
본 발명에서는 이러한 이론적 기반을 토대로 마이크로 어레이 상의 유전자 발현패턴을 분류하기 위한 실제적인 분류모델 생성방법에 대하여 제안한다.
본 발명은 마이크로 어레이 상의 유전자 발현패턴을 기능적 특징별로 분류할 수 있는 방사형 기저함수를 이용한 분류모델을 생성하는 방법에 관한 것으로, 상세하게는 방사형 기저함수를 이용하여 분류모델 생성에 필요한 여러 변수 값의 체계적인 설정 방법을 제시하는데 그 목적이 있다.
즉, 본 발명은, 수집된 유전자 발현패턴을 표현하는 분류 학습데이터를 정규화된 형태로 생성하고, 이를 기반으로 학습데이터의 분류모델에의 반영 정도와 데이터 표현 정밀도를 정량화하여, 이에 따라 방사형 기저함수를 이용한 분류모델 생성을 위해 필요한 모든 변수인 기저함수의 개수, 중심위치, 폭 그리고 가중치를 자동 결정하는 방법을 제공하고, 여러 후보 분류모델을 자동 생성하여 이들로부터 최적 모델을 자동으로 결정하는 방법을 제공하려는 것이다.
상기 목적을 달성하기 위한 본 발명의 방사형 기저함수를 이용한 마이크로 어레이 데이터 분류모델 생성방법은, 마이크로 어레이 상의 유전자 발현패턴으로부터 정규화된 분류 학습데이터를 생성하는 제 1단계; 분류된 학습데이터로부터 분류모델 생성을 위한 입력 변수인 '학습데이터 반영 정도'와 '데이터 표현 정밀도'에 대한 입력 값을 설정하는 제 2단계; 상기 입력된 '학습데이터 반영 정도'와 '데이터 표현 정밀도'로부터 분류모델 결정을 위한 학습 조절 변수 및 기저함수의 폭을 설정하는 제 3단계; 상기 설정된 학습 조절 변수에 대해 방사형 기저함수의 관련 변수인 함수의 개수, 중심 위치, 그리고 가중치를 결정하여 후보 분류모델을 생성하는 제 4단계; 상기 과정에서 생성된 후보 분류모델의 검증오류율을 계산하고 최소 검증오류율을 가지는지를 검토하는 제 5단계; 상기 제 4단계부터 제 5단계까지를 '데이터 표현 정밀도'에 의해 재조정된 기저함수의 폭에 대해 반복 수행하여 후보 분류모델을 생성하는 제 6단계; 상기 과정에서 최소 검증오류율을 가지는 분류모델을 최종 분류모델로 결정하는 제 7단계;를 통해 분류모델을 생성하는 것을 특징으로 한다.
도 1은 본 발명에 따른 방사형 기저함수 기반으로 하는 분류모델 생성시스템을 보인 구성도,
도 2는 본 발명의 마이크로 어레이 상의 유전자 발현패턴을 기능적 특징에 따라 분류하는 방사형 기저함수 기반 분류모델 생성방법을 도시한 전체 흐름도,
도 3은 본 발명의 분류 학습데이터 생성기를 도시한 도면,
도 4는 본 발명의 분류 학습데이터 중 유전자 발현패턴의 표현방법을 설명한 도면,
도 5는 본 발명의 분류 학습데이터 중 유전자 발현패턴의 기능별 분류 그룹을 표현하는 방법을 설명한 도면,
도 6은 본 발명의 분류모델 생성을 위한 입력 변수 설정 과정을 설명한 도면,
도 7은 본 발명의 방사형 기저함수 기반 분류모델 생성기의 구성도.
* 도면의 주요부분에 대한 부호의 설명 *
10;분류학습 데이터 생성부20;입력변수 설정부
30;학습 조절변수/기저함수 폭 자동설정부40;후보 분류모델 생성부
50;분류모델 검증부60;분류모델 결정부
이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명에 따른 방사형 기저함수 기반으로 하는 분류모델 생성시스템을 보인 구성도이다.
도면을 참조하면, 본 발명은 마이크로 어레시 상의 각 샘플별 유전자 발현패턴 및 기능별 분류그룹을 표현하는 정규화된 학습데이터를 생성하는 분류학습 데이터 생성부(10), 분류모델을 생성하기 위한 입력 변수인 '학습데이터 반영 정도'와 '데이터 표현 정밀도'에 대한 입력값을 설정하는 학습데이터 입력변수 설정부(20), 상기 입력된 '학습데이터 반영 정도'와 '데이터 표현 정밀도'로부터 분류모델 결정을 위한 학습 조절 변수 및 기저함수의 폭을 자동 설정하는 학습조절변수/기저함수폭 자동설정부(30), 상기 설정된 학습 조절 변수에 대하여 방사형 기저함수의 관련 변수인 함수의 개수, 중심 위치, 그리고 가중치를 자동 결정하여 후보 분류모델을 생성하는 후보분류모델 생성부(40), 생성된 후보 분류모델의 검증오류율을 계산하고 최소 검증오류율을 가지는지를 검토하는 분류모델 검증부(50) 및 상기 후보분류모델 생성부에서 생성된 모델에 대해 최소 검증오류율을 가지는 분류모델을 결정하는 분류모델 결정부(60)를 포함한다.
도 2는 도 1의 시스템을 이용하여 본 발명의 방사형 기저함수를 기반으로 마이크로 어레이 상의 유전자 발현패턴을 기능적 특징에 따라 분류하는 분류모델 생성방법을 설명하기 위한 흐름도이다.
도면을 참조하면, 본 발명은 분류학습 데이터 생성부(10)를 통해 마이크로 어레이 상의 각 샘플별 유전자 발현패턴 및 기능별 분류그룹을 표현하는 학습데이터를 각각 행렬 G와 F로 각각 생성하고, 행렬 G의 각 구성요소인 Gij를 0과 1사이의 값으로 정규화하는 데이터 선행 처리과정을 거친다(S110).
이후, 분류모델 생성을 위한 입력변수인 '학습 데이터 반영 정도'(r)와 '데이터 표현 정밀도'(△s)에 대한 입력 값을 입력변수 설정부(20)를 통해 설정한 뒤(S120), 이들 값을 근거로 학습조절변수/기저함수 폭 자동설정부(30)에서 분류모델 결정을 위한 내부 조절변수(d)를 조정하고(S130), 방사형 기저함수 관련 변수인 기저함수의 폭(s), 개수(k), 중심위치(c) 및 가중치(w)를 차례로 결정하여 후보분류 모델 생성부(40)를 통해 후보 분류모델을 생성한다(S140).
이후, 분류 모델 검증부(50)에서는 상기 후보분류모델 생성부(40)를 통해 생성된 분류모델의 검증오류율(EV)을 계산하고(S150), 최소 검증오류율에 저장된 값과 비교하여(S160), 생성된 분류모델의 검증오류율이 저장된 최소 검증오류율 보다 작을 경우 새로운 최소 검증오류율을 저장한다(S170).
그리고, 본 발명은 단계 140에서 생성된 분류모델의 기저함수 폭(s)을 입력된 '데이터 표현 정밀도'만큼 증가시켜 증가된 기저함수 폭(s+△s)이 허용되는 범위 내에 있는지를 판단(S180)하고, 만약, 이 값이 허용범위 내에 있을 경우 기저함수의 폭(s)을 조정하게 되며(S190), 새롭게 조정된 기저함수의 폭에 대하여 상기 기저함수와 관련된 변수 결정과정(S140 ∼ S170)을 반복 수행하여 후보 분류모델들을 생성한다. 만약, 증가된 기저함수의 폭(s+△s)이 허용 범위 내에 있지 않을 경우, 현재까지 생성된 후보 모델 중에서 최소 검증오류율을 생성하여 분류모델 결정부(60)에서는 상기 단계 170에서 설정된 기저함수 폭(s*)을 가지고, 상기 단계 140에서와 같은 방식으로 분류모델을 생성하여 최종 결과로 설정한다(S200).
이하, 본 발명에 따른 분류모델 생성방법을 단계별로 도 3 내지 도 7을 참조하여 구체적으로 설명한다.
가) 정규화된 분류 학습데이터를 생성하는 제 1단계
본 발명의 실시예에서는 정규화된 분류 학습데이터를 생성하기 위해 각 샘플별 유전자 발현패턴에 대해 도 4a와 도 4b에 각각 도시된 바와 같이, 마이크로어레이 샘플 수(m) x 유전자 개수(n) 크기의 행렬 G로 표현한다.(S111)
또한, 각 샘플별 기능 분류 그룹에 대해서는 도 5a와 5b에 각각 도시된 바와 같이, 마이크로어레이 샘플 수(m) x 특징 그룹 수(k) 크기의 행렬 F로 표현한다.(S112)
상기와 같이 표현된 행렬 G는 각 구성요소 Gij를, 아래의 수학식 1을 사용하여, 0과 1사이의 값으로 정규화함으로써, 도 4c에 도시된 바와 같이, 정규화된 구성요소 N(Gij)로 구성된 행렬 N(G)를 최종 생성한다.(S113).
이러한 정규화 과정은 이하 본 발명에서 사용되는 '학습데이터반영 정도'를 일정한 범위의 값으로 정량화하기 위해 반드시 수행되어져야 하는 중요한 과정 중의 하나이다.
나) 분류 모델 생성을 위한 변수인 '학습데이터 반영 정도'와 '데이터 표현 정밀도'에 대한 입력 값을 설정하는 제 2단계
본 발명에 따른 '학습데이터 반영 정도'에 대한 변수(r)는, 도 6에 도시된 바와 같이, 0보다는 크고 1보다는 작은 값의 범위를 가질 수 있고(S121), 입력 변수(r) 값이 주어지면, 실제 분류모델 생성 시의 '학습데이터 반영 정도'는 (r x 100)%를 의미한다.
즉, 예를 들어, 변수 r = 0.99이라면, '학습데이터 반영 정도'는 0.99 x 100 = 99%이다. 이론적으로 '학습데이터 반영 정도'(r)의 값이 0과 1사이의 모든 값을 허용하지만, 그 값이 0.9보다 작을 경우, 실제 생성된 분류모델의 검증 오류율이 급격히 상승하는 특징이 있다.
한편, '데이터 표현 정밀도'에 대한 변수(△s)는 0<△s≤의 범위내의 임의의 값을 가질 수 있으며(S122), 그 값이 작을수록 세밀한 분석이 가능하다는 것을 의미한다. 이러한 '데이터 표현 정밀도'에 대한 변수(△s) 값의 설정은 본 발명의 제 3단계에서 방사형 기저함수의 폭(s)을 결정하는 것과, 제 5단계에서 후보 분류모델 생성을 위한 반복 횟수를 결정하는데 중요한 영향을 미친다.
다) '학습데이터 반영 정도'와 '데이터 표현 정밀도'로부터 분류모델 생성을 위한 내부 조절 변수 및 기저함수의 폭을 자동 설정하는 제 3단계
본 발명의 실시예에 따르면, '학습데이터 반영 정도'(r)에 대한 입력 값이 정해지면, 이를 근거로 내부 조절 변수(d)에 대한 값이 아래의 수학식 2와 같이 자동 결정된다.
또한, '데이터 표현 정밀도'(△s)가 정해지면, 이를 근거로 방사형 기저함수의 폭(s)에 대한 값이 결정될 수 있다. 즉, 본 발명에 따르면, 방사형 기저함수의 폭(s)은의 범위 내의 값으로 제한되어 있기 때문에 '데이터 표현 정밀도'에 대한 변수(△s) 값이 정해지면, 그 값에 따라 방사형 기저함수의 폭(s)은 s=△s, s+△s, s+△s+△s, s+△s+△s+△s,...와 같은 형태로 입력된 △s의 값만큼 매번 증가하여, 이 값이보다 크지 않을 때까지 허용된다.
예를 들어, 입력된 데이터 표현 정밀도(△s)가 0.1이라면, 상기에 언급된 규칙에 따라 기저함수의 폭(s)의 값은, 유전자의 개수가 n=4라 할 때,의 범위 내에서 허용되고, 따라서 방사형 기저함수의 폭(s)의 값은 s= 0.1, 0.2, ..., 0.9를 포함하는 10개의 서로 다른 값이 될 수 있다. 반면에, 데이터 표현 정밀도(△s)의 입력 값이 0.3이라면, s는 0.3, 0.6, 0.9를 포함하는 3개의 서로 다른 값만을 가질 수 있게 된다. 그러므로, 데이터 표현 정밀도(△s)의 값이 작은 경우, 상대적으로 세밀한 분석을 하게 된다.
라) 설정된 내부 조절 변수에 대하여 방사형 기저함수의 관련 변수인 함수의 개수, 중심위치 및 가중치를 자동 결정하는 제 4단계
상기 제 3단계에서 결정된 내부 조절 변수(d)와 방사형 기저함수의 폭(s)을 기반으로, 본 발명에서는 앞에서 생성된 정규화된 분류 학습데이터인 행렬 G와 F로부터 아래와 같은 과정을 거쳐 분류모델을 자동 생성한다. 본 발명에서 사용하는 분류모델은, 입력 샘플 데이터 x에 대한 분류 결과를 y라 가정할 때, 그 관계를 수학식 3과 같은 형태의 함수로서 표현하며, 분류모델을 생성한다는 것은 이러한 함수의 변수 값을 결정한다는 것을 의미한다.
즉, 방사형 기저함수 기반 분류모델을 생성하기 위해서는, 도 7에 도시된 바와 같이, 상기 수학식 3에서의 방사형 기저함수에 대한 개수(k), 중심 위치(c)와폭(s), 그리고 가중치(w)에 관한 변수 값을 결정하는 것을 의미한다. 이중, 기저함수의 폭(s)에 대한 값은 상기의 제 3단계에서 이미 결정되었으므로, 본 단계에서는 이를 제외한 변수인 기저함수의 개수(k), 중심 위치(c), 그리고 가중치(w)에 대한 결정 방법에 대해서 설명하기로 한다.
먼저, 기저함수의 개수(k)를 결정하기 위하여, 상기 제1단계에서 생성된 정규화된 학습데이터 N(G)와 상기 제 3단계에서 결정된 기저함수의 폭(s)으로부터 내부 행렬 φ를 수학식 4와 같이 생성한다. 즉, 학습데이터 N(G)에 포함된 모든 샘플 N(G1), N(G2), .., N(Gn)을 상기 수학식 3에서의 중심위치(c=[c1,c2,...,ck], k=n)로 활용하여 모든 입력 샘플인 N(G1), N(G2), .., N(Gn)에 대해 아래 수학식 4를 적용함으로써 행렬 φ를 생성한다(S141).
상기 과정과 같이 생성된 행렬 φ는, 상기 제 3단계에서 결정된 내부 조절 변수(d)와 첫 번째 특이값(s1)을 활용하여, 수학식 5와 같이, 기저함수의 개수(k)를 자동 결정하게 된다(S142).
다음으로, 방사형 기저함수의 중심 위치(c)를 결정하기 위하여, 본 발명에서는 정규화된 학습데이터에 포함된 샘플 N(G1), N(G2), .., N(Gn) 중에서 가장 적합한 k개의 샘플을 중심 위치(c)로 선택한다. 이를 좀 더 상세히 살펴보면, 먼저 행렬 φ를 특이값 분해(singular value decomposition)하여 우측 특이 행렬(Vφ)를 구한 후, Vφ행렬의 1번째부터 k번째까지의 열벡터 v1, ..., vk를 포함하는 특이행렬 Vφ(1:k)=[v1, ..., vk]을 구성하고, 행렬 Vφ(1:k)의 전치행렬(transposed matrix)에 대해 QR 인수분해(factorization)를 적용하여 치환행렬(permutation matrix) P를 얻는다. 이렇게 얻은 치환행렬 P는 행렬 N(G)를 중요도에 따라 순서대로 재배열한 행렬 Np(G)를 생성하는데 활용하며, 행렬 Np(G)의 1번째부터 k번째까지의 열벡터인 Np(G)1, ..., Np(G)k를 생성하는데 이용되었던 입력 샘플을 기저함수의 중심 위치로 선택한다(S143).
마지막으로, 기저함수의 가중치를 결정하기 위해서, 상기에서 얻은 치환행렬 P를 사용하여 행렬 φ를 중요도에 따라 재배열한 행렬 φp를 생성하고, 행렬 φp의 1번째부터 k번째까지의 열벡터 φp(1:k)를 취하여 행렬 H를 생성한다. 이렇게 얻은 행렬 H의 유사역원(pseudo inverse)과 상기 제 1단계에서 생성된 행렬 F를 수학식 6에서와 같이 서로 곱함으로써 k개의 기저함수의 가중치에 대한 값 w=[w1, ..., wk]을 결정한다(S144).
마) 생성된 후보 분류모델의 검증오류율을 검토하는 제 5단계
상기 과정에서 생성된 후보 분류모델에 대하여 검증 데이터에 대한 분류 오류율을 계산하고, 이러한 검증 오류율이 지금까지의 최소 검증 오류율보다 작은지를 검토한다. 만약 현재의 검증 오류율이 지금까지의 최소 검증 오류율보다 작다면, 최소 검증 오류율에 현재의 검증 오류율 값을 새로이 저장하고 현재의 기저함수의 폭인 s값 또한 s*로서 저장한다.
바) '데이터 표현 정밀도'에 의해 재조정된 기저함수의 폭에 대해 다른 후보 분류모델을 생성하는 제 6단계
'데이터 표현 정밀도' 값에 따라 기저함수의 폭(s)을, 상기 제 3단계에서 언급한 바와 같이, s=△s, s+△s, s+△s+△s, s+△s+△s+△s,...와 같은 형태로 입력된 △s의 값만큼 매번 증가하여 조정되고, 이 값이보다 크지 않을 때까지 허용된다. 만약, 주어진 '데이터 표현 정밀도' 값에 따라 기저함수의 폭(s)에 대한 값 s1, s2, ..., sc이 생성되었다면, 이들 각각의 si값에 대하여, 상기 제 4단계부터 제 5단계까지의 과정을 반복 수행하여, 새로운 c개의 후보 분류모델을 생성한다.
사) 최종 분류모델을 결정하는 제 7단계
생성된 c개의 모든 분류모델에 대한 검증 오류율 값의 계산과 최소 검증 오류율과 비교하는 일련의 과정이 끝나면, 현재까지 후보모델 중 최소 검증 오류율을 생성한 변수 s*값이 최적 분류모델 생성변수로서 확정되며, 따라서 이로부터 상기 제 4단계와 같은 방식으로 변수 값 k*, c*, w*이 최종 결정되어 분류모델 생성과정을 종료하게 된다.
이상에서 설명한 바와 같이 본 발명에 따른 방법을 이용하면, 방사형 기저함수와 관련된 여러 변수에 대하여 개발자가 그 값을 직접 선택하지 않고 입력 변수를 제외한 모든 변수를 시스템에서 체계적으로 자동 결정하게 함으로써, 기존의 수동적인 변수 선택 방법들에서 요구되었던 개발자의 부담과 반복적인 생성 오류 과정을 현저히 줄일 수 있다. 또한, '학습데이터 반영 정도'와 '데이터 표현 정밀도'만을 입력으로 요구하기 때문에, 여러 개의 변수 값을 결정해야 하는 기존의 방법에 비해 전체 분류모델 생성과정이 매우 단순화된다는 장점이 있다.
더욱이, 개발자가 이러한 입력 변수의 의미를 쉽게 이해할 수 있고 값의 선택 결과를 미리 예측할 수 있어, 무의미한 변수 값의 선택에 따른 반복적 오류를 줄여 분류모델 생성과정을 최적화할 수 있다. 마지막으로, 분류모델 생성과정에서 사람의 개입을 최소화하고 입력 변수에 대한 논리적 의미를 부여함으로써 전문가의 사전 지식이 없이도 용이하게 분류모델을 생성할 수 있다.
이상에서 설명한 것은 본 발명에 따른 방사형 기저함수를 이용한 마이크로 어레이 데이터 분류모델 자동 생성방법을 설명한 하나의 실시 예에 불과한 것으로써, 본 발명은 상기한 실시 예에 한정되지 않고, 이하의 특허 청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 사상이 미친다고 할 것이다.

Claims (9)

  1. 마이크로 어레이 상의 각 샘플별 유전자 발현패턴 및 기능별 분류그룹을 표현하는 정규화된 학습데이터를 생성하는 분류학습 데이터 생성수단;
    분류모델을 생성하기 위한 입력 변수인 '학습데이터 반영 정도'와 '데이터 표현 정밀도'에 대한 입력값을 설정하는 학습데이터 입력변수 설정수단;
    상기 입력된 '학습데이터 반영 정도'와 '데이터 표현 정밀도'로부터 분류모델 결정을 위한 학습 조절 변수 및 기저함수의 폭을 자동 설정하는 학습조절변수/기저함수 폭 설정수단;
    상기 설정된 학습 조절 변수에 대하여 방사형 기저함수의 관련 변수인 함수의 개수, 중심 위치, 그리고 가중치를 자동 결정하여 후보 분류모델을 생성하는 후보분류모델 생성수단;
    생성된 후보 분류모델의 검증오류율을 계산하고 최소 검증오류율을 가지는지를 검토하는 분류모델 검증수단; 및
    상기 후보분류모델 생성부에서 생성된 모델에 대해 최소 검증오류율을 가지는 분류모델을 최종 분류모델로 결정하는 분류모델 결정수단;
    을 포함하는 것을 특징으로 하는 방사형 기저함수를 이용한 마이크로 어레이 데이터 분류모델 생성시스템.
  2. 방사형 기저함수를 이용한 마이크로 어레이 데이터 분류모델 생성방법에 있어서,
    마이크로 어레이 상의 유전자 발현패턴으로부터 정규화된 분류 학습데이터를 생성하는 제 1단계;
    분류된 학습데이터로부터 분류모델 생성을 위한 입력 변수인 '학습데이터 반영 정도'와 '데이터 표현 정밀도'에 대한 입력 값을 설정하는 제 2단계;
    상기 입력된 '학습데이터 반영 정도'와 '데이터 표현 정밀도'로부터 분류모델 결정을 위한 학습 조절 변수 및 기저함수의 폭을 설정하는 제 3단계;
    상기 설정된 학습 조절 변수에 대해 방사형 기저함수의 관련 변수인 함수의 개수, 중심 위치, 그리고 가중치를 결정하여 후보 분류모델을 생성하는 제 4단계;
    상기 과정에서 생성된 후보 분류모델의 검증오류율을 계산하고 최소 검증오류율을 가지는지를 검토하는 제 5단계;
    상기 제 4단계부터 제 5단계까지를 '데이터 표현 정밀도'에 의해 재조정된 기저함수의 폭에 대해 반복 수행하여 후보 분류모델을 생성하는 제 6단계;
    상기 과정에서 최소 검증오류율을 가지는 분류모델을 최종 분류모델로 결정하는 제 7단계;
    를 포함하는 것을 특징으로 하는 방사형 기저함수를 이용한 마이크로 어레이 데이터 분류모델 생성방법.
  3. 제 2항에 있어서, 상기 제 2단계에서,
    상기 '데이터 표현 정밀도'에 대한 입력 값의 범위가인 것을 특징으로 하는 방사형 기저함수를 이용한 마이크로 어레이 데이터 분류모델 생성방법.
  4. 제 2항에 있어서, 상기 제3단계에서,
    상기 '학습데이터 반영 정도'는 아래의 수학식으로부터 내부 조절 변수(d)를 설정하며,
    여기서, d는 조절변수, r은 학습데이터 반영정도임.
    상기 '데이터 표현 정밀도'는 아래의 수학식으로부터 기저함수의 폭(s)을 설정하는 것을 특징으로 하는 방사형 기저함수를 이용한 마이크로 어레이 데이터 분류모델 생성방법.
    임의의 자연수 값 k에 대하여,을 만족하는 동안
    s = k * 데이터 표현 정밀도(△s)
  5. 제 2항에 있어서, 상기 제 4단계에서,
    내부 조절 변수(d)로부터 기저함수의 폭(s)을 이용하여 아래의 수학식으로부터 기저함수의 개수(k)를 결정하는 것을 특징으로 하는 방사형 기저함수를 이용한 마이크로 어레이 데이터 분류모델 생성방법.
    여기서, φ는 내부행렬임.
  6. 제 5항에 있어서,
    상기 기저함수의 개수(k)는 입력샘플 데이터 x 에 대한 분류 결과를 y라 가정할 때 아래의 수학식으로 표현하는 것을 특징으로 하는 방사형 기저함수를 이용한 마이크로 어레이 데이터 분류모델 생성방법.
    여기서, k는 기저함수의 개수, c는 중심위치, s는 기저함수의 폭, w는 가중치임.
  7. 제 5항에 있어서,
    상기 내부행렬(φ)은 아래의 수학식으로부터 구해지는 것을 특징으로 하는방사형 기저함수를 이용한 마이크로 어레이 데이터 분류모델 생성방법.
  8. 제 6항에 있어서,
    상기 기저함수의 중심 위치(c)는, 행렬 φ를 특이값 분해(singular value decomposition)하여 우측 특이 행렬(Vφ)를 구한 후, Vφ행렬의 1번째부터 k번째까지의 열벡터 v1, ..., vk를 포함하는 특이행렬 Vφ(1:k)=[v1, ..., vk]을 구성하고, 행렬 Vφ(1:k)의 전치행렬(transposed matrix)에 대해 QR 인수분해(factorization)를 적용하여 치환행렬(permutation matrix) P를 얻고, 상기 치환행렬 P는 행렬 N(G)를 중요도에 따라 순서대로 재배열한 행렬 Np(G)를 생성하며, 행렬 Np(G)의 1번째부터 k번째까지의 열벡터인 Np(G)1, ..., Np(G)k를 생성하는데 이용되었던 입력 샘플을 기저함수의 중심 위치로 선택하는 것을 특징으로 하는 방사형 기저함수를 이용한 마이크로 어레이 데이터 분류모델 생성방법.
  9. 제 6항에 있어서,
    상기 기저함수의 가중치(w)는 아래의 수학식에 의해 결정되는 것을 특징으로하는 방사형 기저함수를 이용한 마이크로 어레이 데이터 분류모델 생성방법.
    여기서 H는 치환행렬 P를 사용하여 행렬 φ를 중요도에 따라 재배열한 행렬 φp의 1번째부터 k번째까지의 열벡터 φp(1:k)를 취하여 생성된 행렬이고, F는 마이크로어레이 샘플수(m) ×특징 그룹수(k) 크기를 나타낸 행열임.
KR10-2002-0077571A 2002-12-07 2002-12-07 방사형 기저함수를 이용한 마이크로 어레이 데이터분류모델 생성시스템 및 그 방법 KR100445427B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR10-2002-0077571A KR100445427B1 (ko) 2002-12-07 2002-12-07 방사형 기저함수를 이용한 마이크로 어레이 데이터분류모델 생성시스템 및 그 방법
US10/446,696 US20040111384A1 (en) 2002-12-07 2003-05-29 System and method for generating micro-array data classification model using radial basis functions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0077571A KR100445427B1 (ko) 2002-12-07 2002-12-07 방사형 기저함수를 이용한 마이크로 어레이 데이터분류모델 생성시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20040049721A true KR20040049721A (ko) 2004-06-12
KR100445427B1 KR100445427B1 (ko) 2004-08-25

Family

ID=32464551

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0077571A KR100445427B1 (ko) 2002-12-07 2002-12-07 방사형 기저함수를 이용한 마이크로 어레이 데이터분류모델 생성시스템 및 그 방법

Country Status (2)

Country Link
US (1) US20040111384A1 (ko)
KR (1) KR100445427B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021022572A1 (zh) * 2019-08-07 2021-02-11 南京智谷人工智能研究院有限公司 一种基于元学习的主动采样方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005015476A2 (en) * 2003-08-07 2005-02-17 Hsb Solomon Associates, Llc System and method for determining equivalency factors for use in comparative performance analysis of industrial facilities
US7533095B2 (en) 2005-04-19 2009-05-12 International Business Machines Corporation Data mining within a message handling system
WO2008035276A2 (en) * 2006-09-22 2008-03-27 Koninklijke Philips Electronics N.V. Methods for feature selection using classifier ensemble based genetic algorithms
KR102082970B1 (ko) * 2019-04-29 2020-02-28 주식회사 루닛 기계학습을 위한 정규화 방법 및 그 장치
CN111461387B (zh) * 2019-12-30 2022-08-23 杭州电子科技大学 一种环保岛系统设计的径向基协同优化方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021022572A1 (zh) * 2019-08-07 2021-02-11 南京智谷人工智能研究院有限公司 一种基于元学习的主动采样方法

Also Published As

Publication number Publication date
US20040111384A1 (en) 2004-06-10
KR100445427B1 (ko) 2004-08-25

Similar Documents

Publication Publication Date Title
Baker et al. Accelerating neural architecture search using performance prediction
CN111148118B (zh) 基于时间序列的流量预测和载波关断方法和系统
EA035114B1 (ru) Нейронная сеть и способ обучения нейронной сети
Pelikan et al. Multiobjective estimation of distribution algorithms
CN110046706A (zh) 模型生成方法、装置及服务器
CN111008693A (zh) 一种基于数据压缩的网络模型构建方法、系统和介质
CN107067341A (zh) 一种基于多级熵权的rbfnn配电自动化系统状态操作评价方法
KR100445427B1 (ko) 방사형 기저함수를 이용한 마이크로 어레이 데이터분류모델 생성시스템 및 그 방법
CN111460665B (zh) 一种基于克里金代理模型和多目标遗传算法的天线设计方法
CN115982141A (zh) 一种针对时序数据预测的特征优化方法
CN112036432B (zh) 一种基于禁忌优化的光谱建模样本集快速划分方法
CN110966731A (zh) 调节工作参数的方法
KR100597089B1 (ko) 유전자 발현 프로파일을 이용한 유사 유전자 그룹의 탐색방법
CN109767034B (zh) 继电保护的定值优化方法、装置、计算机设备和存储介质
Thodi et al. Fourier neural operator for learning solutions to macroscopic traffic flow models: Application to the forward and inverse problems
CN110491443A (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
CN115620808A (zh) 基于改进Cox模型的癌症基因预后筛选方法及系统
Chen et al. The multivariate adaptive design for efficient estimation of the time course of perceptual adaptation
CN112599194B (zh) 甲基化测序数据的处理方法和装置
Bourdache et al. Active preference elicitation by bayesian updating on optimality polyhedra
Tenne Evaluations of an algorithm for large multivariate optimization
CN113035363B (zh) 一种概率密度加权的遗传代谢病筛查数据混合采样方法
Wendlinger et al. Evofficient: reproducing a cartesian genetic programming method
CN110110853A (zh) 一种深度神经网络压缩方法、装置及计算机可读介质
US20230229968A1 (en) Apparatus, system, and computer-implemented method for operating a technical system

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080805

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee