KR20120072290A - 점진적 비가우시간 분석 방법 - Google Patents

점진적 비가우시간 분석 방법 Download PDF

Info

Publication number
KR20120072290A
KR20120072290A KR1020110007479A KR20110007479A KR20120072290A KR 20120072290 A KR20120072290 A KR 20120072290A KR 1020110007479 A KR1020110007479 A KR 1020110007479A KR 20110007479 A KR20110007479 A KR 20110007479A KR 20120072290 A KR20120072290 A KR 20120072290A
Authority
KR
South Korea
Prior art keywords
data
gaussian
ica
input
time
Prior art date
Application number
KR1020110007479A
Other languages
English (en)
Other versions
KR101213676B1 (ko
Inventor
양형정
캄스위
김선희
Original Assignee
전남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전남대학교산학협력단 filed Critical 전남대학교산학협력단
Publication of KR20120072290A publication Critical patent/KR20120072290A/ko
Application granted granted Critical
Publication of KR101213676B1 publication Critical patent/KR101213676B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/372Analysis of electroencephalograms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Algebra (AREA)
  • Psychiatry (AREA)
  • Psychology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 점진적 비가우시간 분석 방법에 관한 것으로서, 다변량 EEG 신호 데이터 분석에 있어서 점진적 독립 성분 분석 기법을 활용함으로써 메모리 사용량 및 데이터 처리 시간을 최소화할 수 있는 점진적 비가우시간 분석 방법을 제공함에 그 목적이 있다.
이러한 목적을 달성하기 위한 본 발명은, (a) 입력되는 제 1 입력 벡터 데이터를 행렬로 구성하는 단계; (b) 행렬로 구성된 상기 제 1 입력 벡터 데이터를 표준화하며 비-가우시안 가중치 벡터로 분해하는 단계; 및 (c) 다음으로 입력되는 제 2 입력 벡터 데이터에 의해 상기 비-가우시안 가중치 벡터를 갱신하는 단계; 를 포함한다.

Description

점진적 비가우시간 분석 방법{METHOD FOR ANALYZING INCREMENTAL NON-GUASSIAN}
본 발명은 점진적 비가우시간 분석 방법에 관한 것으로서, 더욱 상세하게는, 다변량 EEG(Electroencephalography) 신호 등의 생리학적 신호 데이터 분석에 있어서 잠재적인 변수를 발견하기 위해 각각의 입력 벡터에서 데이터를 처리하되 이전 데이터는 몇몇 변수들로 저장하고 변수들의 이전 값들을 나중의 입력 벡터에 의해 갱신하는 점진적 독립 성분 분석을 활용함으로써 메모리 사용량 및 데이터 처리 시간을 최소화할 수 있는 점진적 독립 성분 분석을 이용한 데이터 분석 방법에 관한 것이다.
최근의 지난 10년간 다변량 데이터 마이닝에 대한 관심은 비약적으로 증가하여 왔다. 현대의 정보 기술이 발전함과 함께, 큰 체적의 다변량 데이터는 재정, 공학 및 의학으로부터 과학에 이르기까지 상이한 영역에서 중요시되고 있다. 몇몇 변수들 상에서 데이터를 수집하여 변수들이 다양한 방식으로 서로 간에 긴밀하게 서로 관련시키는 현실을 설계하는 것은 필수적이다.
이러한 다변량 데이터 마이닝에 관한 연구가 다양화되면서, 하나 이상의 변수를 포함하는 대규모 데이터 셋들을 마이닝 하는 방법에 대한 연구도 활성화되고 있다. 이는, 거대한 크기의 다변량 데이터를 가지고서, 유용한 정보를 검색하고 유용한 의사 결정을 제공하기 위한 것이다.
전형적으로, 다수의 실제 적용분야에 있어서, 분석되는 데이터 테이블들은 일련의 유닛들(예를 들어 주제들, 샘플들) 상에서 수집된 몇몇 측정값으로 구성된다. 예를 들어, 마이크로어레이 칩에서, 광범위한 양의 유전자들이 단일 실험에서 수집된다. 유전자 발현들은 실험들을 통해 식별된다. 많은 수의 신호들이 뇌 피질로부터 획득되는 EEG 신호가 또 다른 예이다. 신호들은 높은 주파수에서 수집되고 데이터 셋은 매우 높은 차원이다.
DNA 마이크로어레이들은 단일 실험에서 대규모 개수의 유전자들에 대한 mRNA들의 존재를 동시에 측정하도록 사용될 수 있는 장치들이다. 고차원적인 마이크로어레이 유전자 발현은 생물학자들이 마이크로어레이 데이터에 대한 포괄적인 식견을 갖는 데에 있어서 장애가 되어 왔다.
많은 특징들을 포함하지만, 상대적으로 적은 수의 관측을 포함하는 마이크로어레이 데이터의 유일한 존재는 대부분의 현실 세계 데이터의 정상적인 행동과 대조를 이룬다. 더욱이, 두 개체들의 유전자 발현들은 좀처럼 동일하지 않다.
유전자 변형 유전자는 마이크로어레이 데이터를 분석하는데 더 많은 도전이 되고 있다. 더욱이, 마이크로어레이 실험을 수행하는 동안, 데이터는 조직 수집, 칩 상에서 혼성화에 대한 mRNA의 증폭으로부터 잡음이 되는 경향이 있다.
시계열 마이크로어레이 실험들이 일반적으로 사용되어 시계열 간 유전자들의 능동적인 생물학적 처리들을 특징화한다. 하나의 실험에서 거대한 개수의 유전자들을 분석하기 위한 능력은 생물학자들로 하여금 마이크로어레이 데이터에서 더 많은 시료들을 수집하도록 장려한다.
그러므로, 많은 환자들의 데이터가 장래에 유용하게 되는 것이 예상된다. 더욱이, 현대 기술의 발전과 더불어, 더 많은 유전자가 생물학자들에 의해 발견될 수도 있다. 따라서, 시료들의 개수 및 유전자들의 개수 모두가 성장할 것으로 예상된다.
따라서, 마이크로어레이 데이터의 크기는 지속적으로 증가할 것이다. 이 경우, 중요한 정보를 보유함으로써 그리고 오염된 잡음을 제거함으로써 거대한 데이터 차원들의 문제를 해결하도록 적당한 방법이 제안될 것이다.
EEG 신호는 연속적인 흐름의 신호들이 높은 비율로 성공적으로 도달하는 데이터 스트림의 예이다. 데이터는 뇌 피질에 부착된 센서들로부터 수집된다. 다수의 센서들로부터 수집된 고속의 전기적인 데이터는 높은 차원을 형성하는 경향이 있다.
전통적인 시스템들은 EEG 신호와 관계한 시간을 처리하는데 저속이며 종종 의사 결정에 중요한 즉각적인 처리를 제공할 수 없다. 전기적인 신호들의 성공적인 도착과 함께, 고속 데이터의 신속한 처리는 중요하다. 더욱이, 현재의 계산 능력으로 볼 때, 할당된 메모리에서 모든 이전 데이터를 보유하는 것은 불가능하다.
EEG 신호는 센서들 사이에서 본질적으로 상호 관련된다고 여겨지고 그리고 그들 사이에서 패턴 및 상호 관련성 발견이 가능하다. EEG 신호들이 수집되는 동안, EEG 신호들은 신호를 수집하고 가시화하는데 사용되는 리드 및 장치들로부터 획득되는 불가피한 인공산물들을 포함한다.
그러한 잡음은 결과에 영향을 미치므로 바람직하지 않다. 그러므로, 온라인으로 데이터의 상호관련성을 검출하는 동안에, 이러한 데이터로부터 잡음을 제거하는 것이 중요하다.
그 명칭에서와 같이, 다변량 분석은 하나의 변수 이상을 가진 데이터 셋의 분석에 적합한 일련의 기술을 포함한다. 이러한 기술들은 다변량 분석 분야에서 개발되었는데 왜냐하면 변수들 내부뿐만 아니라, 다수의 변수들 사이의 관계를 고려한 결과를 찾는 것이 중요하기 때문이다.
다변량 분석은 광범위하게 사용되어 특징들을 추출하고 그리고 마이크로어레이 데이터 셋들의 차원 및 EEG 신호들을 감소시킨다.
주성분 분석(Principal component analysis, PCA)은 차원 축소에 있어서 가장 일반적인 다변량 분석이다. 시계열 마이크로어레이 데이터를 요약하고 EEG 데이터 셋의 차원을 축소하는 것이 연구된다.
독립 성분 분석은 데이터를 기본적인 정보 성분들로 분리하기 위한 다변량 통계 분석에 있어서의 또 다른 방법이다. ICA는 일련의 관측된 현상의 기본이 되는 구동력을 밝히는 필수적으로 유용한 방법이다. 이러한 현상들은 뇌로부터의 일련의 뉴런들(neurons) 및 마이크로어레이 데이터 셋들의 화이어링(firing)을 포함한다. ICA는 MEG 데이터에서 인공산물들의 분리, 가시화, 국소화 및 EEG 신호의 특징 추출과 같은 많은 응용 분야들에 응용된다.
PCA는 독립성보다 훨씬 약한 특성을 가지는 일련의 신호들을 발견함에 반하여, ICA는 일련의 독립적인 소스 신호들을 발견한다. 특히, PCA는 서로 관련이 없는 일련의 신호들을 발견한다.
몇몇 경우에 있어서, 만약 데이터가 가우시안인 경우, 모델의 추정은 직교 변환을 요구한다. 하지만, PCA는 가우시안 분포가 아닌 실제 세계 데이터에 대한 직교성 요구를 받는다.
확률 이론에 있어서, 중심 극한 이론(Central Limit Theorem, CLT)은 충분히 큰 독립적인 랜덤 변수들의 합계가 근사적으로 정규적으로 분포되는 조건들을 언급한다. 즉, 몇몇 소스들의 혼합들은 원래의 소스들의 분포보다 더욱 가우시안인 경향이 있다. 만약 그들의 성분들이 가우시안인 경우에 PCA는 일련의 독립적인 성분들을 제공한다. 역으로, ICA는 ICA가 통계적인 독립 성분들을 분해하는 비-가우시안 인자 분석으로 고려된다. 많은 연구는 마이크로어레이 및 EEG 신호들 분석에서 ICA가 PCA를 능가함을 보여준다.
대규모 마이크로어레이 및 EEG 신호 데이터 셋들과 관련한 더 많은 응용 분야들이 등장하고 있다. 데이터가 도착하자마자 데이터를 분석하는 것은 중요하다. 불행하게도, 마이크로어레이 데이터 셋들 및 EEG 신호들을 처리하는 종래 방법은 항상 이러한 데이터를 정적인 상태로 처리한다. 게다가, 특히 시계열 데이터에 있어서 일괄 처리는 유지시간(t)에 의존하는데, 이는 무한대로 증가한다.
종래의 PCA 및 ICA 모두는 거대한 메모리를 소모하는 특이값 분해(singular value decomposition, SVD)의 계산을 포함한다. 공간 요구사항 또한 유지시간(t)에 의존하기 때문에, 공간의 소비는 유지시간(t)에 비례한다. 그러므로, 일괄 모드 처리는 큰 메모리 요구사항을 항상 수반하며 그리고 특히 데이터의 크기가 증가할 때 시간 소모적이다. 즉, 유지시간이 무한대로 증가할 때 ICA가 다변량 데이터를 처리하는 것은 불가능하다.
본 발명이 해결하려는 과제는, 상기 문제점을 극복하기 위한 것으로서, 다변량 EEG 신호 데이터 분석에 있어서 점진적 독립 성분 분석 기법을 활용함으로써 메모리 사용량 및 데이터 처리 시간을 최소화할 수 있는 점진적 비가우시간 분석 방법을 제공하는 것이다.
본 발명이 해결하려는 다른 과제는, 상기 문제점을 극복하기 위한 것으로서, 비정규성 및 적응성 점진적 모델을 통합하여 EEG 신호 특징을 성공적으로 추출하고, 이에 따라 관찰된 데이터의 개수보다 현저히 다수인 데이터 특징을 가지는 마이크로어레이 유전자 발현 데이터에 대해서도 분석 가능한 점진적 비가우시간 분석 방법을 제공하는 것이다.
본 발명은, 점진적 비가우시간 분석 방법에 관한 것으로서, (a) 입력되는 제 1 입력 벡터 데이터를 행렬로 구성하는 단계; (b) 행렬로 구성된 상기 제 1 입력 벡터 데이터를 표준화하며 비-가우시안 가중치 벡터로 분해하는 단계; 및 (c) 다음으로 입력되는 제 2 입력 벡터 데이터에 의해 상기 비-가우시안 가중치 벡터를 갱신하는 단계; 를 포함한다.
바람직하게, 상기 제 1 및 제 2 입력 벡터 데이터는, 마이크로어레이 유전자 발현 데이터 또는 EEG(Electroencephalography) 신호 데이터인 것을 특징으로 한다.
또한 바람직하게, 상기 (b) 단계는, (b-1) 상기 비-가우시안 가중치 벡터를 선형 변환에 의해 상기 제 1 입력 벡터 상에 투영하여 은닉 변수를 도출하는 단계;를 포함하는 것을 특징으로 한다.
또한 바람직하게, 상기 (c) 단계는, (c-1) 상기 (b) 단계의 비-가우시안 가중치 벡터를 이용하여 상기 제 2 입력 벡터로부터 은닉 변수를 계산하는 단계; 및 (c-2) 상기 (c-1) 단계에서 계산된 은닉 변수를 이용하여 다음의 수학식에 의해 에너지를 추정하는 단계; 를 포함하는 것을 특징으로 한다.
Figure pat00001
(상기 수학식에서, di는 에너지, λ는 망각 인자, yi는 상기 (c1) 단계에서 계산된 은닉 변수이다.)
또한 바람직하게, 상기 망각 인자 λ는 0.96 내지 0.98 중 선택되는 것을 특징으로 한다.
또한 바람직하게, 상기 에너지 di는 95% 내지 98% 중 결정되는 것을 특징으로 한다.
그리고 바람직하게, 상기 (c) 단계 이후에, (d) 상기 갱신된 비-가우시안 가중치 벡터가 최대의 비-가우시안 특징을 나타낼 때까지 상기 (c) 단계를 반복하는 단계;를 더 포함하는 것을 특징으로 한다.
본 발명에 따르면, 다변량 EEG 신호 데이터의 분석에 있어서 점진적 독립 성분 분석 기법을 활용함으로써 메모리 사용량 및 데이터 처리 시간을 최소화할 수 있는 효과가 있다.
본 발명에 따르면, 비정규성 및 적응성 점진적 모델을 통합하여 EEG 신호 특징을 성공적으로 추출할 수 있으며, 이에 따라 관찰된 데이터의 개수보다 현저히 다수인 데이터 특징을 가지는 마이크로어레이 유전자 발현 데이터에 대해서도 분석 가능한 효과도 있다.
도 1 은 비-가우시안 분석 알고리즘 단편을 나타내는 도면이다.
도 2 는 본 발명에 따른 방법(a), 점진적 PCA(b), ICA(c) 및 PCA(d) 출력의 계층적 클러스터링을 나타내는 도면이다.
도 3 은 정규화된 로 데이터(a), 본 발명에 따른 방법에 의해 재현된 데이터(b), 점진적 PCA(c) , ICA(d) 및 PCA(e)의 계층적 클러스터링을 나타내는 도면이다.
도 4a 는 마이크로어레이 데이터 셋 상에서 유전자들의 개수에 대한 실행 시간을 나타내는 도면이다.
도 4b 는 EEG 신호 데이터 셋 상에서 소스들의 개수에 대한 실행 시간을 나타내는 도면이다.
도 5a 는 마이크로어레이 데이터에서 실험들 수에 대한 실행 시간을 나타내는 도면이다.
도 5b 는 EEG 신호 데이터에서 스트림 크기에 대한 실행 시간을 나타내는 도면이다.
본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.
또한, 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.
본 발명은, 다변량 EEG 신호 데이터 분석에 있어서 독립 성분 분석(Independent component analysis, ICA) 기법에 점진적 접근을 접목한 분석 방법에 관한 것이다.
본 발명에 따른 방법에 의하면, 소정 에너지 범위에 있는 각각의 가중치 벡터(weight vector)를 갱신함으로써 직교 가중치(orthogonal weight)를 계산한다. 직교 가중치를 획득할 때, 그것은 비-가우시안 가중치가 되도록 수렴된다.
이후, 새로운 데이터가 입력되는 경우 모든 데이터 셋들을 다시 계산하는 대신에 과거 변수들을 이용하여 비-가우시안 가중치를 갱신하는 방식으로 점진적으로 작업함으로써 결과적으로 낮은 계산 비용을 가진다.
본 발명에 따른 방법은 점진적 접근에 있어서 다변량 데이터의 독립적인 성분들을 통계학적으로 수렴시키는 개념을 적응시킨다. 종래의 일괄적인 계산 방법은 새로운 데이터가 입력되는 경우 완전한 데이터 행렬 재계산을 요구하였으므로 불필요한 메모리 사용량 및 처리 시간이 요구되었던 반면, 본 발명에 따른 방법에 의하면 완전한 데이터 행렬을 포함하지 않고도 과거 변수들을 이용하여 새로 도착하는 데이터를 효율적으로 갱신할 수 있다.
이하, 본 발명에 따른 점진적 비가우시간 분석 방법에 관해 설명하기 전에, 먼저 독립 성분 분석에 대하여 상세히 설명한다.
독립 성분 분석(Independent component analysis, ICA)은 다차원 데이터로부터 기본 성분들을 찾기 위한 방법이다. 서로 간에 최대로 독립적인 일련의 성분들이 더 높은 차원의 통계로 결정된다. ICA는 EEG 신호 분석에 광범위하게 응용된다.
이하, EEG 신호를 예로 들어 설명하나, 독립 성분 분석 또는 본 발명이 이에 한정되는 것은 아니다.
EEG 신호 분석에 있어서, 특정 반응에 대하여 협업하는 동시 신경 소스들은 센서들을 통해 수집된다. 많은 신호들은 뇌 피질의 영역에 부착된 센서들에 의해 획득된다. 이러한 신호들은 뇌로부터의 원래의 신경 신호들의 혼합이다.
Figure pat00002
이 진폭이고, t가 시간 지표일 때, 센서들로부터의 신호를
Figure pat00003
로 표시하자. 이렇게 기록된 신호들 각각은
Figure pat00004
로 표시되는 뇌신경에 의해 발산된 신경 신호들의 가중 합계이다. 이는 다음의 [수학식 1]과 같은 선형 방정식으로서 표현될 수 있다.
[수학식 1]
Figure pat00005
[수학식 1]에서
Figure pat00006
은 뇌신경들로부터 센서들의 거리들 또는 조건들에 의존하는 파라미터들이다. 간단히, [수학식 1]과 같은 선형 방정식은 다음의 [수학식 2]와 같이 표현될 수 있다.
[수학식 2]
x=As
일반적으로, 굵은 소문자들은 벡터들을 나타내고 굵은 대문자들은 행렬들을 나타낸다.
ICA의 임무는 소스 신호들 또는 성분들(s)이 통계학적으로 독립적인 그러한 A를 발견하는 것이다. 행렬(A)을 추정한 후, 그것의 역 (W)을 계산하여 [수학식 3] 및 [수학식 4]와 같이 독립 성분들을 획득할 수 있다.
[수학식 3]
Figure pat00007
[수학식 4]
Figure pat00008
모델을 또한 다음의 [수학식 5]와 같이 표현할 수 있다.
[수학식 5]
Figure pat00009
성분들(s)이 통계학적으로 독립적이고 그리고 독립 성분들이 비-가우시안 분포를 가져야만 한다는 것이 ICA 모델의 가정들이다. si의 선형 조합인 y를 고려하고, [수학식 6]과 같이 독립 성분들 중 하나(y)를 구한다.
[수학식 6]
Figure pat00010
WTx의 비-가우시안을 최대로 함으로써, 독립 성분(y)을 얻을 수 있다.
Fast ICA에서는 고정점 반복 기법에 기반하여 WTx의 최대 비-가우시안을 도출한다. 비-가우시안의 측정 중 하나는 네겐트로피(negentropy)에 의해 제공된다. 이는 차동 엔트로피의 정보-이론량(information-theoretic quantify)에 기반한다.
네겐트로피의 근사를 이용함으로써 투영이 비-가우시안을 최대로 하기 위해, Fast ICA는 방향, 즉 단위 벡터(W)를 찾는 학습 규칙을 적용한다.
우선, 초기 가중치 벡터(w)가 무작위로 선택된다. 그런 다음, [수학식 7] 및 [수학식 8]과 같이 더 높은 차원의 모멘트들을 이용함으로써 네겐트로피를 근사한다.
[수학식 7]
Figure pat00011
[수학식 8]
Figure pat00012
이때,
Figure pat00013
은 [수학식 8]의 도함수이며, 알고리즘은 수렴할 때까지 반복된다.
이하, 본 발명에 따른 점진적 비가우시간 분석 방법에 관하여 상세히 설명한다.
본 발명에 따른 방법은 통계학적으로 독립적인 비-가우시안 가중치 벡터들을 분해한다. 마이크로어레이 유전자 발현 데이터의 기본이 되는 생물학적인 처리는 원래의 소스의 혼합보다 더욱 수퍼-가우시안이다.
단지 소수의 유전자만이 각각의 병리학적인 전이에서 변경되는데, 다수의 유전자들은 영향을 받지 않는 상태이므로, 이는 수퍼-가우시안 분포를 형성한다. 따라서 비-가우시안 분석은 마이크로어레이 유전자 발현 데이터를 분석하는데 적합하다.
본 발명에 따른 방법은, AD 마이크로어레이 데이터 셋에 대한 자율적이고 계층적인 클러스터링을 수행한다.
마이크로어레이 데이터(X(m,n))를 2차원 mn 행렬로 구성한다. 이때, 각각의 행(m)은 유전자 프로파일 데이터를 나타내며, 각각의 열(n)은 유전자 데이터를 나타낸다.
마이크로어레이 데이터는 제로 평균 및 단위 분산에 대해 정규화되어 표준화된다. 즉, 평균값에 의해 마이크로어레이 데이터를 차감하고 표준 편차에 의해 차감된 마이크로어레이 데이터를 나눈다.
클러스터링 처리 이전에, 제 1 입력 벡터, 유전자 프로파일 데이터들은 비-가우시안 가중치 벡터들로 분해된다.
그런 다음, 비-가우시안 가중치 벡터들은 제 2 입력 벡터(다음으로 입력되는 유전자 프로파일 데이터들)의 가중치 반영에 의해 갱신된다.
갱신 처리는 마지막으로 입력되는 제 n 입력 벡터, 즉 마지막으로 입력되는 유전자 프로파일 데이터들의 가중치까지를 반영하여 갱신함으로써 반복된다.
마이크로어레이 데이터에 대한 비-가우시안 가중치 벡터들의 갱신 처리 완료에 의해, 최종 비-가우시안 가중치 벡터들이 획득된다.
본 발명에서, 망각 인자는 0.96으로 결정되었고 에너지는 95% 내지 98%로 결정되었다. 사전 처리에 따라, 마이크로어레이 데이터 행렬의 최종 차원은 4로 축소되었다. 클러스터링에 사용된 데이터 행렬은 134이다. [표 1]에서, 각각의 변수에 대한 의미를 파악할 수 있다.
기호 설명
Figure pat00014
입력 벡터(굵은 소문자)
Figure pat00015
시간(t)에서 n 스트림 입력
Figure pat00016
가중 행렬(굵은 대문자)
Figure pat00017
i-번째 참여 가중치 벡터
Figure pat00018
스트림들의 개수
Figure pat00019
은닉 변수들의 수
Figure pat00020
xt에 대한 은닉 변수들의 벡터
Figure pat00021
i 번째 은닉 변수의 에너지 추정치
Figure pat00022
재현 에러율
Figure pat00023
시간(t)까지 그리고 은닉 변수(i)까지의 은닉 변수들의 총 에너지
Figure pat00024
은닉 변수들의 총 에너지
Figure pat00025
입력 데이터(x)의 에너지
Figure pat00026
지수적인 망각 인자
f 하한 소정 에너지
F 상한 소정 에너지
데이터 스트림에서,
Figure pat00027
은 연속적으로 무한히 성장할 수 있는 시간(t)에서 n 차원들 측정 열-벡터이다. 최초 타임스탬프 동안, 기본 벡터는 가중치 벡터(wi)에 의해 채택된다.
각각의 가중치 벡터(wi)는 데이터 스트림의 선형 변환으로 입력 벡터(xt) 위에 투영되어 시간에 대한 은닉 변수들 또는 성분들(yt)을 얻는다.
본 발명에 따른 점진적 접근의 핵심은 새롭게 투영된 공간에서 각각의 짧은 시간에 참여 가중치 벡터(wi) 각각을 점진적으로 갱신하는 것이다.
점진적 PCA와는 대조적으로, 본 발명에 따른 방법의 가중치 벡터는 비-가우시안이다. 직교 가중치 벡터(wi)를 얻을 때, 각각의 가중치 벡터(wi)은 최대 비-가우시안이 얻어질 때까지 갱신된다.
은닉 변수들(k)의 개수는 우선 임의의 수로 초기화된다. 그런 다음, n 차원들을 가지는 시간(t)에서 입력 벡터(
Figure pat00028
)를 얻는다.
입력 벡터로부터, 이전의 가중치(
Figure pat00029
)에 기반하는 i 번째 성분(yt,i)을 계산한다.
i 번째 성분의 계산은 다음의 [수학식 9]에 의해 표시된다. 즉, 시간(t)에서 입력 벡터 상에 투영된 가중치 벡터의 합에 의해 계산된다.
[수학식 9]
Figure pat00030
그 이후, 이전의 단계로부터 계산된 은닉 변수를 이용하여 에너지(di) 및 재현 에러율(ei)을 추정한다. 에너지의 초기 값은 작은 양의 값이다.
은닉 변수(yt,i)를 얻을 때, [수학식 10] 및 [수학식 11]이 실행된다.
[수학식 10]
Figure pat00031
[수학식 11]
Figure pat00032
[수학식 10]에서, 새로운 데이터가 데이터 스트림에서 이전의 행동에 적응될 수 있도록 하기 위해 지수적인 망각 인자(λ)가 도입된다. 지수적인 망각 인자의 값은 0에서 1 사이이다.
λ=0으로 설정할 때, 어떠한 이전 데이터도 다음의 처리에서 고려되지 않는다. 반대로, 만약 λ=1인 경우, 데이터 스트림은 정지 상태이다. 다만, 대부분의 데이터 스트림은 점진적으로 흐르기 때문에 일반적으로 이러한 경우는 발생하지 않는다.
λ의 도입은 거대한 메모리 사용을 감소시키는데 유용한데, 왜냐하면 전체 데이터 스트림에 대한 버퍼 공간 필요성이 없기 때문이다. 지수적인 망각 인자의 바람직한 범위는 0.96과 0.98 사이의 값들이다. 데이터가 과거 값들에 적응하기 위하여, 지수적인 망각 인자는 높은 값으로 설정되는 것이다. 값이 매우 크게 변하지 않는다면, 결과는 유사하다.
추정치들의 크기에 대해서는 참여 가중치 벡터(wi)에 의해 획득된 과거 데이터를 고려한다. 이러한 이유로, 갱신은 i 번째 은닉 변수의 현재 에너지(Et,i)에 반비례한다. 즉,
Figure pat00033
Figure pat00034
이다.
참여 가중치 벡터는 [수학식 12]에 의해 갱신된다.
[수학식 12]
Figure pat00035
참여 가중 추정치를 얻은 다음, 수렴할 때까지 [수학식 7]을 이용하여 비-가우시안의 최대화를 계속한다. 실제 값에 수렴하기 위해, 참여 가중치는 요소의 개수에 따라 k번 갱신된다.
마지막으로, 갱신된 참여 가중치(
Figure pat00036
)를 얻는다.
입력 벡터(x)를 가지고, 가중 행렬(w)을 투영함으로써 시간(t)에서 실제적인 은닉 변수들(yt)이 계산된다.
다음으로, 은닉 변수들의 값에 따라 에너지(Ehv)가 계산된다. 데이터를 표현하기에 충분한 성분들이 있음을 확인하기 위해, 에너지 문턱치가 인가되어 얼마나 많은 은닉 변수들이 필요한지 결정한다.
은닉 변수들에 의해 보유된 에너지(Ehv)는 원래 입력 데이터의 상한 에너지(FEE) 및 하한 에너지(fEE)와 비교된다.
만약 은닉 변수들이 너무 적은 에너지를 유지하는 경우(
Figure pat00037
), 은닉 변수들(k)의 개수를 증가시킨다. 역으로, 만약 유지된 에너지가 너무 높은 경우(
Figure pat00038
), 우리는 은닉 변수들(k)의 개수를 감소시킨다. 이에 의해, 은닉 변수들의 에너지가 낮은 에너지 값 및 높은 에너지 값 중 특정 구간 내에 항상 있음이 보장된다.
새로운 데이터가 도착할 때마다, 가중치 벡터의 갱신 처리는 반복되며 은닉 변수들의 개수는 조정되어 소정의 하한치 및 상한치 사이에서 성분들의 에너지를 보유한다. 도 1 은 비-가우시안 분석 알고리즘 단편을 나타내는 도면이다.
이하, 본 발명에 따른 점진적 비가우시간 분석 방법의 효율성을 검증하기 위한 실험에 대하여 상세히 설명한다.
먼저, 마이크로어레이 데이터 셋에서 본 발명에 따른 방법의 효율성을 검증하기 위해, Blalock 등에 의해 기탁된 GEO 데이터 셋들을 사용하여 실험을 수행하였다.
실험에 사용된 GEO 데이터 셋들은 해마 유전자 발현을 분석하고 31개의 전용 마이크로어레이들에 대한 중증도(severity)를 변경하는 알츠하이머 질환(Alzheimer Disease , AD)을 분석하도록 연구된 것으로, 시료들은 켄터키 대학 소재 알츠하이머 질환 연구 센터의 뇌 은행으로부터 획득되었으며 Human GeneChips (HG-U133A) 및 마이크로어레이 수트 5가 데이터 수집을 위해 사용되었다.
중요한 잡음을 포함하는 시료들은 제거됨으로써 8개의 제어를 남겼으며 5개의 중증 AD 시료들을 남겼다. 마이크로어레이 데이터에서 조절되지 않은 유전자들은 종종 정보를 거의 포함하고 있지 않고, 따라서 이러한 조절되지 않은 유전자들은 실험에서 제거된다. 결과적으로, 13개의 시료 및 각 시료마다 3617개씩의 유전자가 실험 대상으로 사용되었다.
아울러, 본 발명에 따른 방법은 Eamonn Keogh 박사에 의해 제공된 알빈 쥐의 EEG 신호에 적용되었다. EEG 신호는, 21386 시료들 및 512 특징들을 가지고서, 128 Hz에서 시험되었다. 특징들의 개수는 128 Hz에서 EEG 등록의 4초에 해당하며, 데이터 셋은 3개의 분류, 즉 viz. wake, synchronized sleep 및 REM sleep을 가진다.
원래의 데이터는 최후 15개 기록들에 대한 결측 라벨들(missing labels)을 포함하는데, 실험을 위해서 결측 라벨들을 가진 기록들은 제거되었다.
도 2 의 (a) 는 비-가우시안 가중치 벡터들 상에 마이크로어레이의 투영에 대한 클러스터링 결과를 도시한다. 제어 시료 및 중증의 AD 시료는 소수의 특징들을 이용함으로써 명확하게 구별될 수 있다.
본 발명에 따른 방법과의 비교를 위해, 점진적 PCA를 사용한 실험도 수행되었다. 본 발명에 따른 방법과 점진적 PCA 간의 주된 차이점은, 분해된 벡터 성분들이 독립적이 아니라는 점이다. 즉, 점진적 PCA는 점진적 방식으로 작동하는 것을 제외하고는 PCA와 유사하다.
점진적 PCA를 적용한 실험은 본 발명에 따른 방법에 대한 실험과 동일한 방식 및 동일한 파라미터 설정에 의해 수행되었다.
도 2 의 (b) 는 점진적 PCA를 적용한 실험에서의 클러스터링 결과를 도시하는데, 하나의 AD 시료, AD2가 정확하게 클러스터될 수 없음이 명확함을 알 수 있다.
본 발명에 따른 방법에 대한 실험 결과는, Kong 등에 의한 ICA 실험 결과와도 비교할 수 있다. 도 2 의 (c) ICA에 의한 클러스터링 결과를 도시한다.
도 2 의 (c) 에서, 완전한 데이터 행렬은 fast ICA 알고리즘에 의해 수행되며, Fast ICA는 50회 반복되어 각각의 루핑으로부터 생성되는 다소 상이한 결과들의 불안정성을 완화한다. 11개 ICA 잠재적인 변수들은 식별되어 원래의 데이터 행렬로부터 중요한 기본적인 생물학적 정보를 충분히 획득한다. 제어 시료 및 AD 중증의 시료 모두는 정확한 클러스터들로 식별될 수 있다.
그러나, ICA를 본 발명에 따른 방법과 비교하면, 본 발명에 따른 방법은 더욱 소수의 성분들에 의해서도 현저히 효율적인 결과를 달성할 수 있음을 알 수 있다.
한편, 본 발명에 따른 방법에 대한 실험 결과는 PCA와도 비교할 수 있으며, 그러한 비교를 위해서도 Kong 등에 의한 PCA 결과를 대비할 수 있다.
투영 공간의 변수들이 유전자 발현들의 선형 조합들이라는 의미에서 PCA는 선형 투영이며, 유전자 발현 행렬을 변수 중 95.5% 보유하여 주성분들로 분해함으로써 PCA 실험은 수행된다. 잡음을 포함한 낮은 변수를 가진 주성분들은 클러스터링 처리로부터 제거된다.
도 2 의 (d) 는 PCA에 따른 클러스터링 결과를 나타내는데, 제어 시료들은 AD 시료들을 제외하고는 성공적으로 클러스터 되었으나, AD2 시료는 부적절하게 클러스터 되었음을 알 수 있다.
다음으로 본 발명자들은, 재현 이후에 제어 시료들로부터 AD 시료들을 식별함에 있어 상술한 각각의 방법들에 따른 효과를 실험하였다.
재현된 데이터는 로 데이터(raw data)를 상술한 각각의 방법들에서 발견된 잠재적인 변수로 투영함으로써 획득하였다. 정규화된 로 데이터와 상술한 각각의 방법들에 의해 재현된 데이터 상에서 수행된 계층적 클러스터링 결과들에 대하여 비교가 수행되었다.
도 3 의 (a) 는 정규화된 로 데이터의 클러스터링 결과를 나타낸다. 도 3 의 (a) 에서, 몇몇 AD시료들이 같이 클러스터 되지만, 클러스터의 더 높은 계층은 두 개의 상이한 클러스터들을 성공적으로 식별하지 못함을 알 수 있다.
본 발명에 따른 방법에 있어서는, 지수적인 망각 인자로서 0.96을 사용하고 에너지 범위로 95% 내지 98%를 사용하는 각각의 데이터 관찰에 있어서 가중치 벡터들을 점진적으로 갱신함으로써 획득되는 4차원 비-가우시안 가중치 벡터들로 로 데이터를 투영함으로써 데이터들은 재현된다.
도 3 의 (b) 는 본 발명에 따른 방법에 의해 재현된 데이터에 적용된 클러스터링 결과를 도시한다. 도 3 의 (b) 에서, 제어 시료 및 AD 시료는 상이한 그룹들로 분리됨이 명백하며, 본 발명에 따른 방법은 클러스터링 결과의 식별 능력을 극대화할 수 있음을 알 수 있다. 즉, 본 발명에 따른 방법에 의하면, 소수의 성분들에 의해서도 다른 방법들보다 현저히 정확하며 효율적인 클러스터링을 수행할 수 있는 것이다.
도 3 의 (c) 는 점진적 PCA에 의해 재현된 데이터의 클러스터링 결과이다.
도 3 의 (c) 에서의 재현된 데이터는 로 데이터를 점진적 PCA로부터 획득된 직교 가중치 벡터들에 투영함으로써 획득된다. 정당한 비교를 위해, 파라미터는 본 발명에 따른 방법과 동일하게 설정되었다.
도 3 의 (c) 에서, 점진적 PCA는 제어 시료들로부터 하나의 AD 시료, AD2를 분리하지 못함을 알 수 있다.
PCA 및 ICA에 있어서는, 생물학적 처리에 연관된 것으로 식별되는, 변수 중 95.5% 획득된 10개의 주성분들 및 11개 독립 성분들은 선택되어 개별적으로 데이터를 재현한다. 이때, 하나의 AD 시료, AD2는 PCA 및 ICA에 의해서는 AD 그룹으로 적절하게 클러스터 되지 않는다.
본 발명자들은 EEG 신호 분리를 수행하였으며, 점진적 PCA, ICA 및 PCA 결과를 본 발명에 따른 방법에서의 결과와 비교하여 본 발명에 따른 방법의 우월성을 입증하였다. 본 발명에 따른 방법은 새로운 입력이 도착할 때마다 가중치 벡터들을 갱신하여 비-가우시안 가중치를 가지는 은닉 변수들(hidden variables)을 도출한다. 하지만, ICA 및 PCA에서는 데이터를 일괄적으로 처리한다.
실험의 단순화를 위해, 본 발명자들은 전체 데이터 흐름을 고려하면서, 마지막 시점에서 ICA 및 PCA를 사용하여 실험을 수행하였다.
에너지는 ICA에 대하여 사전에 결정될 수 없다. 그러므로, 성분들의 개수는 에너지의 95%를 보유하도록 PCA로부터 도출되었다. 점진적 PCA는 각각의 시점에서 점진적으로 직교 가중치를 갱신함으로써 점진적 방식으로 직교 특징들을 도출한다.
분류기로서는 K=1, 2, 3을 가지는 K-최근접 이웃(K-Nearest Neighbor, KNN) 및 선형 판별 분석(Linear Discriminate Analysis, LDA)을 채택한다. 데이터 중 70%가 분류기를 훈련시키기 위해 채택되었다. 데이터 중 나머지 30%는 테스트를 위해 사용된다. 지수적인 망각 인자(λ) 및 알빈 EEG 신호에 있어서 에너지 범위가 [표 2]에 도시된 바와 같이 조절된다.
Figure pat00039
평균적으로, 본 발명에 따른 방법은 다른 방법들을 능가한다. 평균적인 분류 비율은 λ=0.96이며 에너지 분포가 95%에서 98% 사이일 때 가장 높다. 더욱이, 본 발명에 따른 방법은 동일한 조건에서 그리고 KNN에서 최상의 결과를 달성한다.
LDA 분류기의 경우에 있어서, ICA는 가장 높은 분류 비율을 가지는데, 이는 파라미터 λ=0.98, 그리고 95% 내지 98%의 에너지 범위를 가지는 경우의 본 발명에 따른 방법에 의해 달성된다. ICA는 독립적이며 비-가우시안인 성분들로 데이터를 분해한다.
하지만, ICA는 높은 메모리를 요구하는 공분산 행렬의 계산을 포함하는 단점이 있다. 더욱이, 종래의 ICA는 새로운 훈련 데이터가 입력될 때마다 전체 행렬을 다시 계산할 필요가 있다.
본 발명에 따른 방법은 과거 값을 변수들로 저장한다. 새로운 훈련 데이터가 입력될 때, 본 발명에 따른 방법은 전체 행렬을 재계산할 필요가 없이 변수에 대한 계산만을 요구하므로, 불필요한 데이터 처리 시간 및 메모리를 절감할 수 있다. 아울러, 에너지 범위 및 λ 값의 적절한 조정에 따라서 본 발명에 따른 방법의 효과는 극대화될 수 있다.
더욱이, 상술한 방법들에 의해 발견된 은닉 변수들의 개수를 조사함으로써, 본 발명자들은 본 발명에 따른 방법 및 점진적 PCA가, 점진적 접근을 고려하지 않는 PCA 및 ICA보다 더 적은 데이터 특징들만을 요구함을 알 수 있었다. 즉, 본 발명에 따른 방법은 상대적으로 소수의 특징들만을 추출하고서도, 더욱 정확하며 효율적인 결과를 달성할 수 있는 것이다. 소수의 데이터 특징들은 분류기들에 의한 계산량이 상대적으로 작음을 의미하며, 그에 따라 더욱 신속한 분류가 가능하다.
이하, 본 발명에 따른 방법에 의한 효과와 ICA에 의한 효과를 정성적인 관점에서 비교한다. ICA가 비교 대상으로 채택된 이유는, 양 방법이 비-가우시안 성분들을 분해하기 때문이다.
정성적인 관점에서의 비교 실험들은 알츠하이머의 질환 마이크로어레이 데이터 셋 및 EEG 신호 데이터 셋 상에서 수행하였는데, 이러한 데이터 셋들은 다변량 데이터에서 상이한 행동들을 나타내기 때문이다. 합성 데이터는 더 많은 특징들 및 더 많은 관측들이 생성되도록 하기 위해 이러한 데이터 셋들 상에서 증대된다.
도 4a 는 마이크로어레이 데이터 셋 상에서 유전자들 개수에 대한 실행 시간을 나타내는 도면이다. 도 4a 에서, 본 발명에 따른 방법은 별표 기호들로 도시하였으며, ICA는 플러스 기호들로 도시하였다.
마이크로어레이 실험에 있어서, 관측들의 개수 및 다른 파라미터들 설정은 고정하였다. 하지만, 본 발명에 따른 방법 및 ICA 모두에서 유전자들의 상이한 개수의 실행 시간이 기록될 수 있도록 하기 위해, 유전자들의 개수는 각각의 루프에서 증가한다. 지수적인 망각 인자는 0.96으로 설정하였고, 에너지 범위는 95% 내지 98%이며 초기 3개의 은닉 변수들이 있다.
도 4a 에서, 유전자 개수가 증가할 때, 양 방법 모두에서의 실행 시간들은 비례적으로 증가하였다. 하지만, 유전자들 개수가 증가할 때 ICA는 본 발명에 따른 방법보다 현저히 많은 계산 시간을 요구하는 것이 명확하다.
도 4b 는 EEG 신호 데이터 셋 상에서 소스들의 개수에 대한 실행 시간을 도시한다. 이때, 실험을 수행하는 방법은 도 4a 에서 도시한 바와 같은 마이크로어레이 데이터 셋의 경우와 동일하게 유지하였다.
도 4b 에서, 소스들의 개수가 증가될 때, ICA에 따른 실행 시간은 지수적으로 증가한다. 그럼에도 불구하고, 본 발명에 따른 방법에 의한 실행 시간은 극단적으로 증가하지 않음을 알 수 있다.
본 발명에 따른 방법은 부동 연산(floating operation)만을 포함하나 ICA는 공분산 행렬 계산을 포함하므로, ICA는 행렬의 크기가 증가할 때 더 긴 계산 시간을 요구한다. 그러므로, 본 발명에 따른 방법은 유전자들 또는 소스들의 개수가 증가할 때 더욱 효율적임이 명백하다.
도 5a 는 마이크로어레이 데이터 셋에서 실험들의 횟수에 대한 실행 시간을 나타내는 도면이다. 이때, 유전자들의 개수가 고정된 것을 제외하고, 파라미터는 상술한 실험에서와 동일하게 설정되었다. 또한, 상이한 실험 크기의 실행 시간을 관측하기 위해, 실험들의 회수는 각각의 반복에서 변경되었다.
도 5a 에서, 실험들의 횟수가 증가할 때, 실행 시간은 비례적으로 증가하지 않음을 알 수 있다. 이는, 새로운 실험이 유전자 발현을 포함할 때, 본 발명에 따른 방법은 변수들로 저장된 과거 값들을 이용함으로써 새로운 입력 벡터와 함께 가중치 벡터들을 갱신하기 때문이다.
그러나, 실험들의 횟수가 증가할 때, ICA에 대한 실험 결과는 극단적인 상향 경향을 나타낸다. 더욱이, ICA의 실행 시간 역시 본 발명에 따른 방법에서의 실행 시간보다 현저히 많다.
도 5b 는 EEG 신호 데이터 셋에서 ICA와 본 발명에 따른 방법에 관한 실행 시간 대 스트림 크기를 나타내는 도면이다. 이때, 실험 조건은 마이크로어레이 데이터 셋에서와 동일하게 설정하였다.
도 5b 에서, 스트림 크기가 극단적으로 증가할 때 ICA는 극도로 장시간의 처리 시간을 요구한다는 점은 명백하다. 반면, 본 발명에 따른 방법에서는 스트림 크기가 증가할 때 처리 시간에 있어서 약간의 증가만을 나타낸다.
상술한 바와 같이, 마이크로어레이 및 EEG 신호 데이터 셋 등에서의 종합적인 성능 검증 결과에 의하면, 본 발명에 따른 방법은 데이터 특징들(유전자 또는 소스들 등)의 개수 및 관측들의 개수 모두에 있어서 명백히 우수하며, 마이크로어레이 및 데이터 스트림 분석 모두에 대하여 적합함을 알 수 있다.
추가적으로, 본 발명에 따른 방법은 다중-방식 데이터 분석에도 확장되어 적용될 수 있다. 다중-방식 데이터 분석은 상이한 차원들 사이에서 상호관계를 발견함으로써 더욱 다양한 행동 정보를 입수하는 것이다. 이때, 본 발명에 따른 방법을 활용한다면, 상대적으로 고차원의 통계를 점진적으로 이용함으로써 다중-선형 구조를 획득할 수 있다. 만약 데이터가 두 개 이상의 모드들로 구성된다면, 기본적인 구조들은 본 발명에 따른 점진적 접근을 이용함으로써 더욱 효율적으로 검출될 수 있다.
이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시 예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주하여야 할 것이다.

Claims (7)

  1. 점진적 비가우시간 분석 방법에 있어서,
    (a) 입력되는 제 1 입력 벡터 데이터를 행렬로 구성하는 단계;
    (b) 행렬로 구성된 상기 제 1 입력 벡터 데이터를 표준화하며 비-가우시안 가중치 벡터로 분해하는 단계; 및
    (c) 다음으로 입력되는 제 2 입력 벡터 데이터에 의해 상기 비-가우시안 가중치 벡터를 갱신하는 단계; 를 포함하는 점진적 비가우시간 분석 방법.
  2. 제 1 항에 있어서,
    상기 제 1 및 제 2 입력 벡터 데이터는, 마이크로어레이 유전자 발현 데이터 또는 EEG(Electroencephalography) 신호 데이터인 것을 특징으로 하는 점진적 비가우시간 분석 방법.
  3. 제 1 항에 있어서,
    상기 (b) 단계는,
    (b-1) 상기 비-가우시안 가중치 벡터를 선형 변환에 의해 상기 제 1 입력 벡터 상에 투영하여 은닉 변수를 도출하는 단계; 를 포함하는 것을 특징으로 하는 점진적 비가우시간 분석 방법.
  4. 제 1 항에 있어서,
    상기 (c) 단계는,
    (c-1) 상기 (b) 단계의 비-가우시안 가중치 벡터를 이용하여 상기 제2 입력 벡터로부터 은닉 변수를 계산하는 단계; 및
    (c-2) 상기 (c1) 단계에서 계산된 은닉 변수를 이용하여 다음의 수학식에 의해 에너지를 추정하는 단계; 를 포함하는 것을 특징으로 하는 점진적 비가우시간 분석 방법.
    Figure pat00040

    (상기 수학식에서, di는 에너지, λ는 망각 인자, yi는 상기 (c1) 단계에서 계산된 은닉 변수.)
  5. 제 4 항에 있어서,
    상기 망각 인자 λ는 0.96 내지 0.98 중 선택되는 것을 특징으로 하는 점진적 비가우시간 분석 방법.
  6. 제 4 항에 있어서,
    상기 에너지 di는 95% 내지 98% 중 결정되는 것을 특징으로 하는 점진적 비가우시간 분석 방법.
  7. 제 1 항에 있어서,
    상기 (c) 단계 이후에,
    (d) 상기 갱신된 비-가우시안 가중치 벡터가 최대의 비-가우시안 특징을 나타낼 때까지 상기 (c) 단계를 반복하는 단계; 를 더 포함하는 것을 특징으로 하는 점진적 비가우시간 분석 방법.
KR1020110007479A 2010-12-23 2011-01-25 점진적 비가우시안 분석 시스템 KR101213676B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020100133466 2010-12-23
KR20100133466 2010-12-23

Publications (2)

Publication Number Publication Date
KR20120072290A true KR20120072290A (ko) 2012-07-03
KR101213676B1 KR101213676B1 (ko) 2012-12-18

Family

ID=46707030

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110007479A KR101213676B1 (ko) 2010-12-23 2011-01-25 점진적 비가우시안 분석 시스템

Country Status (1)

Country Link
KR (1) KR101213676B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368884A (zh) * 2020-02-22 2020-07-03 杭州电子科技大学 一种基于矩阵变量高斯模型的运动想象脑电特征提取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368884A (zh) * 2020-02-22 2020-07-03 杭州电子科技大学 一种基于矩阵变量高斯模型的运动想象脑电特征提取方法
CN111368884B (zh) * 2020-02-22 2023-04-07 杭州电子科技大学 一种基于矩阵变量高斯模型的运动想象脑电特征提取方法

Also Published As

Publication number Publication date
KR101213676B1 (ko) 2012-12-18

Similar Documents

Publication Publication Date Title
US11989641B2 (en) Multiplicative recurrent neural network for fast and robust intracortical brain machine interface decoders
Cottrell et al. Theoretical aspects of the SOM algorithm
CN104809226B (zh) 一种早期分类不平衡多变量时间序列数据的方法
Stahl et al. Novel machine learning methods for ERP analysis: a validation from research on infants at risk for autism
CN106943140A (zh) 一种基于RandomSelect‑RCSP的运动想象脑电信号特征提取方法
Karan et al. Time series classification via topological data analysis
Pfister et al. Robustifying independent component analysis by adjusting for group-wise stationary noise
Hall et al. A two step approach for semi-automated particle selection from low contrast cryo-electron micrographs
Mursalin et al. Epileptic seizure classification using statistical sampling and a novel feature selection algorithm
Zhang et al. PBLR: an accurate single cell RNA-seq data imputation tool considering cell heterogeneity and prior expression level of dropouts
Ramakrishnan et al. Epileptic eeg signal classification using multi-class convolutional neural network
Huang et al. A unified optimization model of feature extraction and clustering for spike sorting
KR101213676B1 (ko) 점진적 비가우시안 분석 시스템
Spinnato et al. Detecting single-trial EEG evoked potential using a wavelet domain linear mixed model: application to error potentials classification
Kobak et al. Demixed principal component analysis of population activity in higher cortical areas reveals independent representation of task parameters
CN116340825A (zh) 一种基于迁移学习的跨被试rsvp脑电信号的分类方法
CN105787459A (zh) 一种基于最优评分稀疏判别的erp信号分类方法
Kim et al. Incremental expectation maximization principal component analysis for missing value imputation for coevolving EEG data
Spinnato et al. Finding EEG space-time-scale localized features using matrix-based penalized discriminant analysis
Xie et al. Global optimal ICA and its application in MEG data analysis
CN110174947A (zh) 基于分形几何和概率协作的运动想象任务识别方法
Wu et al. Hierarchical Bayesian modeling of inter-trial variability and variational Bayesian learning of common spatial patterns from multichannel EEG
Zeng et al. Weighted Complex Network Based on Visibility Angle Measurement
CN110766071B (zh) 一种基于森林自编码器的脑网络数据增强方法
Yu et al. A modified K-means algorithms-Bi-level K-means algorithm

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151029

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20191127

Year of fee payment: 8