KR20050080565A

KR20050080565A - 네트워크를 이용한 올리고뉴클레오티드 마이크로어레이데이터 표준화 시스템 및 그 방법

Info

Publication number: KR20050080565A
Application number: KR1020040008624A
Authority: KR
Inventors: 윤여인; 박진현; 이인범
Original assignee: 주식회사 피앤아이; 학교법인 포항공과대학교
Priority date: 2004-02-10
Filing date: 2004-02-10
Publication date: 2005-08-17

Abstract

본 발명은 데이터 표준화 서버, 데이터베이스, 네트워크를 이용하여 상기 데이터 표준화 시스템에 접속하는 사용자 컴퓨터를 구비하는 올리고뉴클레오티드 마이크로어레이에 대한 네트워크를 이용한 데이터 표준화 시스템에 관한 것이다.

본 발명에 따르면, 온라인 데이터 표준화 시스템 서비스를 제공하면 보유한 데이터의 규모에 상관없이 고객에게 고품질의 서비스를 제공할 수 있으며, 고객은 자신이 원하는 서비스를 맞춤식으로 실시간으로 제공받을 수 있으므로 고객 창출에 유리하다. 또한 고객이 인터넷상에서 간단한 조작으로 서비스를 제공받고 결제를 할 수 있어 쉽게 이용할 수 있다.

Description

네트워크를 이용한 올리고뉴클레오티드 마이크로어레이 데이터 표준화 시스템 및 그 방법{System and method for normalizing data of oligonucleotide microarray using network}

본 발명은 데이터 표준화 서버, 데이터베이스, 네트워크를 이용하여 상기 데이터 표준화 시스템에 접속하는 사용자 컴퓨터를 구비하는 올리고뉴클레오티드 마이크로어레이(oligonucleotide microarray)에 대한 네트워크를 이용한 데이터 표준화 시스템에 관한 것이다.

아피메트릭스사의 올리고뉴클레오티드 마이크로어레이는 사진평판술(photolithography)과 solid-phase chemistry방식을 어레이(array) 제작에 사용하여 1.28cm²내외의 작은 유리판에 수백만 개의 20-25mer의 올리고뉴클레오티드를 수십만의 서로 다른 프로브(probe)의 형태로 정확하게 한 염기(base)씩 어레이위에 직접 합성하여 만들어진 DNA 칩이다. 각 유전자에 해당하는 11~20여개의 프로브는 정밀성, 특이성, 재현성을 극대화하기 위해서 디자인되어 있어서 유사한 염기 서열을 가지는 타겟의 신호(signal)과 배경(background)을 구별해 낼 수 있다. 이러한 특징으로 인해서 아피메트릭스사의 올리고뉴클레오티드 칩은 다양한 DNA, mRNA 분석에 적용되고 있다.

아피메트릭스사의 올리고뉴클레오티드 칩은 직접 사진평판술 기술을 이용하여 in-situ synthesis방식으로 한 유전자에 대해 multi oligomer를 수백만 개 이상을 정확하게 합성하므로 spotting 방식의 cDNA 칩과 달리 칩 내의 스팟(spot) 간, 다른 칩 간에 변이(variation)가 없다.

한 유전자에 대해 다른 유전자와 특이성 있는 올리고뉴클레오티드가 선택되어 합성되므로 90% 이상의 유사성(homology)을 가지는 두 유전자간의 발현 차이도 구별할 수 있는 높은 선택성을 가지며, 따라서 특히 유전자 패밀리(family) 형태를 가지는 식물유전자나 진핵생물 연구에 적합하다. cDNA 칩 종류와 같이 두 샘플에 대한 유전자 발현 차이 분석 뿐 아니라 한 샘플을 한 어레이에 도입해서 그 샘플에서의 유전자에 대한 발현 유무의 판단이 가능하다. 이런 점은 어떤 현상의 관찰에서 해당 유전자의 on/off 형태도 분별이 가능하며, 실험 데이터에 대한 추후 조합수를 무한히 할 수 있어 실험이 누적될수록 다양한 결과 값을 가져온다.

또한 아피메트릭스사는 특정 유전자에 대한 프로브 선택기술과 보다 정확한 유전자 정보를 제공한다. 따라서 웹상(affymetrix.com)에서 사용자는 잘 실증된 유전자 정보와 프로브 염기배열(probe sequence)비교와 관련 논문 검색 등을 한 사이트에서 다양한 데이터베이스와 연결되어 찾을 수 있어서 편리하고 사용자에게 강력한 검색 기능을 제공한다. 위에서 열거한 여러 장점으로 인하여 아피메트릭스사의 올리고뉴클레오티드 칩은 전 세계에서 가장 많이 상용되고 있다.

초기 DNA 칩은 그 품질이나 기술력이 불완전하고 대량 생산이 어려워 가격이 매우 높게 책정되어서 일반회사에서는 사용하기에 한계가 있었다. 최근에는 DNA 칩의 품질과 기술력이 안정화되고 대량 생산이 가능하게 되어 가격이 낮춰졌다. 현재 DNA 칩 시장은 도입단계를 거쳐 성장단계로 진입하고 있으며, 이에 동반하여 바이오인포메틱스 시장 규모도 같이 증가하고 있다.

과거에는 몇몇의 다국적 제약회사와 같은 곳에서만 DNA 칩을 사용하였으나 현재는 벤처나 일반 연구소, 학교 연구소 등 작은 규모의 회사에서도 점점 사용이 늘고 있는 추세이다. 칩 실험은 실험기기 및 방법의 자동화가 이루어져 비교적 쉽게 할 수 있으나, 실험으로부터 얻은 데이터를 분석하여 원하는 최종 결과를 얻기 까지는 많은 난관들이 존재한다. DNA 칩 데이터 분석은 통계적 연산이 그 기본이므로 유의할 만한 결과를 얻기 위해서는 대량의 데이터 보유가 필수이나, 대부분의 몇몇 회사를 제외하고는 대량의 데이터를 보유한 곳이 드물다. 따라서 같은 수준의 실험을 하였더라도 대량 데이터를 가지는 고객에 비해 소량의 실험 데이터를 가지는 고객이 좋은 결과를 얻지 못하는 것은 당연한 일이다. 기존의 소프트웨어를 이용한 오프라인 실험 데이터 표준화 작업 시스템은 소량의 실험 데이터를 보유하는 고객은 사용에 제약이 많았으며, 만족할 만한 결과를 주지 못하였다.

DNA 칩 실험을 통해 얻어진 데이터는 많은 영역에서 발생한 잡음을 포함하고 있고 크게 두 종류로 나눌 수 있다. 먼저 개개의 자료에 랜덤(random)하게 되는 잡음으로 개개자료에 랜덤한 만큼 제거하기가 어려우며 해당 자료의 산포를 증대시켜 통계적 검정력을 약화시킨다. 그에 반해 자료 전체적 수준에서 일정한 패턴을 가지고 첨가되는 잡음, 즉 Systematic variation이 있는데 잘못된 통계적 검정의 결과를 유조할 수 있는 위험성을 지니고 있다.

기존의 방법들은 두 번째 종류의 잡음만을 제거하거나 보정할 수 있고, 첫 번째 종류의 잡음에 대해서는 속수무책이었다. 기존의 분석 프로그램이나 방법의 내용을 보면 모두 같은 내용으로 그 차이가 별반 없다.

또한, 종래 오프라인 소프트웨어 및 시스템은 데이터의 규모에 영향을 많이 받으며, 여러 사용자 간의 데이터 공유가 현실적으로 불가능하기 때문에 최상의 데이터 표준화 결과를 얻기에는 무리가 있던 문제점이 있었는 바, 본 발명자들은 상기에서 열거한 문제점을 해결하기 위하기 위하여 네트워크를 이용한 온라인상에서 다변량 통계적 기법을 이용하여 오염 프로브를 찾고 이를 보정해주는 새로운 올리고뉴클레오티드 마이크로어레이에 대한 데이터 표준화 시스템을 제안하고자 한다.

본 발명의 목적은 네트워크를 이용하여 소량의 올리고뉴클레오티드 마이크로어레이 데이터를 보유한 사용자가 보다 편리하고 효율적으로 비정상 프로브 발현 값 및 손실된 프로브 발현 값을 보정할 수 있는 올리고뉴클레오티드 마이크로어레이에 대한 네트워크를 이용한 데이터 표준화 시스템을 제공하는 데 있다.

본 발명의 목적을 달성하기 위하여, 본 발명은 데이터 표준화 서버, 데이터베이스, 네트워크를 이용하여 상기 데이터 표준화 시스템에 접속하는 사용자 컴퓨터를 구비하는 올리고뉴클레오티드에 대한 데이터 표준화 시스템에 있어서, 상기 데이터베이스는 각 프로브 셋 ID(probe set ID)에 대한 상관구조 모델 파라미터 데이터를 구비하며, 상기 사용자 컴퓨터는 상기 데이터 표준화 서버에 접속하여 의뢰 데이터 파일을 전송하고 상기 데이터 표준화 서버로부터 상기 의뢰 데이터 파일에 대한 보정 데이터 파일을 전송받는 것을 특징으로 하며, 상기 데이터 표준화 서버는, 상기 사용자 컴퓨터로부터 전송된 의뢰 데이터 파일로부터 프로브 셋 ID를 추출하여 프로브 셋 ID 명단을 작성하며, 상기 프로브 셋 ID에 대한 상관구조 모델 파라미터 데이터를 상기 데이터베이스로부터 추출하고, 추출된 상관구조 모델 파라미터 데이터를 이용하여 상기 의뢰 데이터 파일로부터 오염 프로브를 검출하여 보정하며, 보정된 데이터 파일을 상기 사용자 컴퓨터로 전송하는 것을 특징으로 하는 올리고뉴클레오티드 마이크로어레이에 대한 데이터 표준화 시스템을 제공한다.

바람직하게는, 본 발명의 상기 데이터베이스는 상기 데이터 표준화 서버 내에 구축되거나, 상기 데이터 표준화 서버의 외부에 구축되어 네트워크를 경유하여 접속될 수도 있는 것을 특징으로 하는 올리고뉴클레오티드 마이크로어레이에 대한 데이터 표준화 시스템을 제공한다.

바람직하게는, 본 발명의 상기 데이터 표준화 서버는 상기 사용자 컴퓨터로부터 전송된 의뢰 데이터 파일의 형식을 파악하고, 상기 의뢰 데이터 파일이 프로브 셋 별로 정리되어 있지 아니한 경우에는 프로브 셋 별로 의뢰 데이터 파일을 변환시킨 후에 프로브 셋 ID 명단을 추출하는 것을 특징으로 하는 올리고뉴클레오티드 마이크로어레이에 데이터 표준화 시스템을 제공한다.

바람직하게는, 본 발명의 상기 데이터베이스의 상관구조 모델 파라미터 데이터는 칩 종류 및 프로브 셋 ID 별로 구분되며, 기 수집된 정상 샘플 데이터에 다변량 통계적 기법(multivariable statistics analysis)을 적용하여 정의된 각 프로브 셋을 구성하는 프로브들의 상관구조 모델의 파라미터를 포함한다. 본 발명에서, 다변량 통계적 기법은 다변량의 복잡한 자료에 대한 분석으로 변수들의 인과관계를 분석하거나 상관관계를 이용하여 변수를 축약하거나 개체를 분류하는 분석방법으로서, 주성분 분석법(Principal Component Analysis, PCA), 정준 상관분석법(Canonical Correlation Analysis), 다차원 척도법(Multidimensional Scaling), 다변량 분류법(Multivariable Classification Analysis), 다변량 군집법(Multivariable Cluster analysis), 판별 분석법(Discriminant Analysis) 등이 이용될 수 있다. 본 발명에서, 하나의 유전자를 나타내는 프로브 셋의 40여개의 프로브 발현 값은 매우 강한 상관성을 가지고 있기 때문에 상과관계를 이용하여 이상샘플을 찾을 수 있다.

더욱 바람직하게는, 본 발명의 상기 데이터베이스의 상관구조 모델 파라미터 데이터는 주성분 분석법(PCA)을 이용하여 각 프로브 셋을 구성하는 프로브들의 상관구조 모델을 정의하며, 이 경우 상관구조 모델 파라미터 데이터는 각 프로브 셋 ID에 대하여 PC 로딩 행렬, 모델 업데이트 날짜, R² 벡터, 샘플 ID 리스트 항목 중 적어도 하나 이상을 구비하는 것을 특징으로 하는 데이터 표준화 시스템을 제공한다. 상기 발명에서 '각 프로브 셋 ID'는 각 프로브 셋 별로 고유하게 부여되는 이름으로 영문과 숫자가 혼재되어 있는 것을 말하며, 'PC 로딩 행렬'은 주성분 모델(principal component model)에서 각 주성분 축(principal component axis)에 해당되는 계수(coefficient)들의 행렬을 말하며, '모델 업데이트 날짜'는 모델을 새로 구축하거나 재구성한 최종 날짜를 말하며, 'R² 벡터'는 해당되는 성분(component)에 의해 설명되는 모델이 전체 데이터에 얼마나 부합되는가에 대한 비율을 말한다. R²는 0에서 1사이의 값을 가지며, 1에 가까울수록 적합도가 높으며, 0에 가까울수록 적합도는 약하다고 말할 수 있다. 마지막으로 '샘플 ID'는 각 실험대상인 샘플마다 고유하게 부여되는 이름으로 영문과 숫자가 혼재되어 명시된다.

본 발명의 다른 목적을 달성하기 위해, 본 발명은 (a) 네트워크를 통해 외부로부터 의뢰 데이터 파일을 전송받는 절차; (b) 상기 의뢰 데이터 파일로부터 프로브 셋 ID 들을 추출하여 프로브 셋 ID 명단(probe set ID　list)을 작성하는 절차; (c) 상기 프로브 셋 ID 명단에 해당되는 각 상관구조 모델 파라미터 데이터를 데이터베이스로부터 추출하는 절차; (d) 추출된 상관구조 모델 파라미터 데이터를 이용하여 상기 의뢰 데이터 파일로부터 오염 프로브를 검출하고, 검출된 오염 프로브를 보정하는 절차; 및 (e) 보정된 의뢰 데이터 파일을 외부로 전송하는 절차를 수행하는 프로그램을 기록한 기록매체를 구비하는 올리고뉴클레오티드 마이크로어레이에 대한 데이터 표준화 서버를 제공한다.

바람직하게는, 본 발명의 상기 (b)단계는, 전송된 의뢰 데이터 파일이 프로브 셋 ID 별로 정리되어 있는지 여부를 판단하는 절차, 만약 상기 전송된 의뢰 데이터 파일이 프로브 셋 ID 별로 정리되어 있지 않는 경우, 상기 의뢰 데이터 파일을 프로브 셋 ID 별로 변환시키는 절차, 및 상기 의뢰 데이터 파일로부터 프로브 셋 ID들을 검출하는 절차로 이루어지는 것을 특징으로 하는 프로그램을 기록한 기록매체를 구비하는 올리고뉴클레오티드 마이크로어레이에 대한 데이터 표준화 서버를 제공한다.

바람직하게는, 본 발명의 상기 (d)단계에서, 오염 프로브를 검출하는 절차는 상기 추출된 상관구조 모델과 다른 패턴을 갖는 샘플을 찾음으로써 오염 프로브를 검출하고 이 이상 샘플 내에 존재하는 비정상적인 프로브 발현 값을 상기 추출된 정상샘플의 프로브 값의 상관구조 모델을 이용하여 정상 값에 가깝게 보정하는 것을 특징으로 하는 프로그램을 기록한 기록매체를 구비하는 올리고뉴클레오티드 마이크로어레이에 대한 데이터 표준화 서버를 제공한다.

더욱 바람직하게는, 상기 오염 프로브를 검출하는 절차는 상기 추출된 상관구조 모델에 어긋나는 이상 샘플을 SPE 인덱스(Index of squared prediction error)를 이용하여 찾는 것을 특징으로 하며, 여기서 SPE는 모델공간에 투영된 프로브 데이터의 수직 거리의 제곱을 나타내는 것으로, 모델 데이터와 실제 데이터의 차이를 말한다. 따라서 SPE 값이 큰 샘플이 이상샘플(outliers)이다.

본 발명에서, 사용자 컴퓨터는 인터넷에 연결되어있는 고객 컴퓨터로 인터넷을 통하여 의뢰 데이터 셋(customer data set)을 데이터 표준화 서버에게 전송하고, 상기 서버로부터 인터넷을 통하여 보정 데이터(corrected data set)를 전송 받는다.

본 발명에서, 데이터 표준화 서버는 데이터 보정 서비스를 해주는 서버로, 고객의 의뢰 데이터를 받고, 일정한 형식으로 데이터를 변환하고, 데이터베이스 시스템으로부터 각 프로브 셋에 해당하는 상관구조 모델 파라미터 데이터를 불러와, 오염된 프로브(faulty probe)를 찾고 보정하는 작업(연산)을 직접 수행하고, 작업한 결과를 사용자 컴퓨터에게 전송하는 역할을 한다. 의뢰 데이터 셋이 프로브 셋 별로 정리 되어있지 않을 경우 별도의 데이터 정리 작업을 수행한 후에, 일정한 형식으로 데이터를 변환하고, 데이터베이스 시스템으로부터 각 프로브 셋에 해당하는 상관구조 모델 데이터를 불러와, 오염된 프로브(faulty probe)를 찾고 보정하는 작업(연산)을 직접 수행하고, 작업한 결과를 사용자 컴퓨터에게 전송하는 역할을 한다. 또한 고객의 신분 및 개인 정보를 고객 DB를 통해 확인하고, 결제도 이루어진다.

본 발명에서, 데이터베이스 시스템(database system)은 각 프로브 셋 별로 상관구조 모델 파라미터 데이터를 저장하여, 데이터 표준화 서버로부터 프로브 셋 ID 명단 정보를 받아서 해당 프로브 셋의 모델 파라미터 데이터를 전송해 준다. 데이터베이스는 실제 실험 데이터(raw experimental data)를 저장하는 부분과 모델 파라미터 데이터(model parameter data)를 저장하는 부분으로 나눌 수 있다. 각 데이터들은 칩 종류(chip type)에 따라 나누어지고, 각 프로브 셋 별로 저장된다(도면 5 참조). 모델 파라미터는 실제 실험 데이터를 통하여 일정기간이 지나거나 새로운 실험 데이터 발생시 업데이트가 가능하여 항상 최신의 정보를 담게 된다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 올리고뉴클레오티드에 대한 데이터 표준화 시스템에 대하여 구체적으로 설명한다.

먼저, 도 1은 본 발명에 따른 데이터 표준화 시스템을 전체적으로 도시한 블록도이다. 도 1을 참조하면, 본 발명에 따른 데이터 표준화 시스템은, 데이터 표준화 서버(100), 데이터베이스 시스템(110) 및 네트워크를 경유하여 상기 데이터 표준화 서버에 접속할 수 있는 사용자 컴퓨터(120)로 이루어진다.

상기 데이터 표준화 서버(100)는 의뢰 데이터 파일을 사용자 컴퓨터로부터 전송받고, 전송받은 의뢰데이터 파일로부터 프로브 셋 ID 명단을 추출하고, 상기 데이터베이스로부터 해당 상관구조 모델 파라미터를 전송받고, 이를 이용하여 상기 의뢰 데이터 파일 내의 오염 프로브를 검출하여 보정한 뒤, 보정된 데이터 파일을 사용자 컴퓨터로 재전송하게 된다.

이하, 도 2 내지 도 4를 참조하여, 사용자 컴퓨터, 데이터 표준화 서버, 및 데이터베이스 시스템에 대하여 구체적으로 설명한다.

먼저, 도 2는 본 발명에 따른 데이터 표준화 시스템에 따라 사용자 컴퓨터의 동작을 순차적으로 나타내는 흐름도이다. 도 2를 참조하여 사용자 컴퓨터의 동작을 구체적으로 설명한다.

먼저, 사용자(120)는 올리고뉴클레오티드 마이크로어레이 실험을 수행하여 소정 형식의 의뢰 데이터 파일로 데이터를 생성한다(단계 200). 이때, 의뢰 데이터 파일은 cel, data, txt 등의 형식의 파일로 작성될 수 있으며, cel 형식의 의뢰 데이터 파일은 하기 표 1과 같이 작성되며, data 형식의 의뢰 데이터 파일은 하기 표 2와 같이 작성된다.

[표 1 ]

[표 2 ]

한편, cel 형식의 데이터 파일은 칩 종류, 샘플 ID, 프로브 ID, PM 인텐시티(perfect match intensity), MM 인텐시티(mismatch intensity) 등의 항목을 포함하게 되는데, 데이터가 프로브 셋 별로 정리되어 있지 않기 때문에 데이터 표준화 서버에서 데이터들을 프로브 셋별로 정리하는 별도의 데이터 재정리의 단계를 거쳐야 한다.

다음, 사용자(120)는 인터넷과 같은 네트워크를 경유하여 데이터 표준화 서버(100)에 접속하여(단계 210), 상기 의뢰 데이터 파일을 전송하고(단계 220) 전송된 의뢰 데이터 파일에 대한 표준화 작업을 요청한다(단계 230).

상기 의뢰 데이터 파일에 대하여 표준화 작업을 요청한 데이터 표준화 서버(100)로부터 해당 작업을 수행한 결과인 보정 데이터 파일을 전송받는다(단계 240).

이하, 도 3은 본 발명에 따른 데이터 표준화 시스템의 데이터 표준화 서버(100)의 동작을 순차적으로 나타내는 흐름도이다. 도 3을 참조하여, 데이터 표준화 서버의 동작을 순차적으로 설명한다.

먼저, 데이터 표준화 서버(100)는 네트워크를 통해 접속된 사용자 컴퓨터(120)로부터 의뢰 데이터 파일을 전송받고(단계 300), 전송된 의뢰 데이터 파일에 대한 표준화 작업을 요청받는다(단계 310). 다음, 전송받은 의뢰 데이터 파일의 형식을 파악하고(단계 320), 상기 의뢰 데이터 파일이 프로브 셋 별로 정리가 되어있지 않는 데이터 파일이면, 데이터를 프로브 셋별로 재정리 작업을 수행한다(단계 330). 의뢰 데이터들이 프로브 셋별로 정리되어 있는 경우에는 별도의 데이터 재정리 작업을 수행할 필요가 없다.

다음, 프로브 셋 별로 정리된 의뢰 데이터 파일로부터 프로브 셋 ID 명단을 추출한다(단계 340). 작성된 프로브 셋 ID 명단에는 칩 종류, 프로브 셋 ID 등의 항목이 포함된다. 프로브 셋 ID 명단은 아래 표 3과 같이 형성된다.

[표 3 ]

다음, 상기 데이터베이스로부터 상기 추출된 프로브 셋 ID에 해당되는 각 상관구조 모델 파라미터 데이터를 추출하고(단계 350), 추출된 상관구조 모델 파라미터 데이터를 이용하여 상기 의뢰 데이터들로부터 오염된 프로브를 검출하고, 검출된 오염된 프로브(faulty probe)에 대하여 보정 작업을 수행한다(단계 360). 이 때, 상기 데이터베이스로부터 읽어오는 상관구조 모델 파라미터 데이터에는 하기 표 4와 같이 칩 종류(chip name), 프로브 셋 ID(probe set ID), 모델 업데이트 날짜(update), PC 로딩 행렬(P-matrix), 스코어 한계값(score limit), SPE 한계값(SPE limit), 모델에 사용된 샘플 ID 리스트, R2 벡터 등의 항목이 포함될 수 있으며, 오염된 프로브를 검출하고 보정하는 작업은 본 출원인이 기 출원한 특허출원 제2003-0038205호 (공개번호: 10-2004-0002550) 에 개시된 방법에 따라 수행될 수 있다.

[표 4 ]

먼저 상기 상관구조 모델 파라미터 데이터를 이용하여 오염 프로브를 검출하는 방법을 간단하게 기술하면 다음과 같다. 상관구조 모델 파라미터 데이터 중에서 P-matrix 행렬 값을 이용하여 의뢰 데이터의 스코어 값을 계산한다. 계산된 스코어 값이 스코어 한계값을 벗어나게 되면 이상 프로브로 간주된다. 상기의 계산된 스코어 값과 P-matrix의 로딩 값으로 예측된 인텐시티를 구한다. 예측된 인텐시티와 원래의 인텐시티와의 차이를 나타내는 SPE 값을 구한다. SPE 한계값을 벗어나는 데이터는 오염 프로브로 간주된다. 오염 프로브를 포함하는 샘플을 이상샘플(outliers)라 한다. 이상 샘플로 간주된 샘플의 데이터를 상관구조 모델 파라미터 데이터를 이용하여 오염 프로브를 보정하기 위하여 따로 추출한다.

그 다음 상기 상관구조 모델 파라미터 데이터를 이용하여 오염 프로브를 보정하는 방법을 간단하게 기술하면 다음과 같다. 추출된 이상 샘플을 상관 구조 모델에 투영함으로써 결함이 있는 오염 프로브 데이터를 보정하게 된다. 상기 이상샘플을 상기 상관 구조 모델에 투영하는 것은 이상샘플이 포함된 데이터 행렬에 상기 상관성 정보를 포함하는 공분산 행렬을 곱하는 것을 말한다. 이는 상기 이상샘플 데이터의 값이 수렴될 때까지 계속적으로 반복하여 결함이 있는 프로브 데이터를 보정하게 되는 것이다.

다음, 보정 작업이 수행된 프로브들에 대하여 소정 형식의 데이터 파일로 재작성하여(단계 370), 네트워크를 이용하여 의뢰한 사용자 컴퓨터로 전송한다(단계 380). 이때, 사용자 컴퓨터로 전송되는 보정된 데이터 파일의 형식은 data 또는 text 파일의 형식으로 형성하되, 의뢰 데이터와 같은 형식을 쓰는 것이 바람직하다. 하지만, 필요에 따라 의뢰 데이터와는 다른 형식의 파일로 작성할 수도 있다.

한편, 본 발명에 따른 데이터 표준화 시스템에서의 데이터베이스는 도 4에 도시된 바와 같은 스키마를 갖는다.

도 4를 참조하면, 본 발명에 따른 데이터베이스의 스키마는 크게 실제 실험 데이터(raw experimental data)와 모델 파라미터 데이터(model parameter data)로 나뉘며, 각 데이터들은 다시 칩 종류(chip type)별로 나누어지고, 다시 각 프로브 셋 별로 나누어진다. 여기서, 상기 실제 실험 데이터는 칩 종류별로 나뉘고, 다시 프로브 셋 ID별로 나뉘며, 각 프로브 셋 ID에 대하여 샘플 ID, PM 인텐시티, MM 인텐시티, 업데이트 날짜 등의 항목을 구비한다. 또한, 상기 모델 파라미터 데이터도 칩 종류별로 나뉘고, 다시 각 프로브 셋 ID 별로 나뉘며, 각 프로브 셋 ID에 대하여 PC 로딩 행렬, 모델 업데이트 날짜, R²벡터, 샘플 ID 명단 등의 항목을 구비한다.

본 발명에 따르면, 네트워크를 이용한 데이터 표준화 시스템 서비스를 제공하면 고객은 보유한 데이터의 규모에 상관없이 고품질의 서비스를 제공받을 수 있으며, 자신이 원하는 서비스를 맞춤식으로 실시간으로 장소에 구애받지 않고 제공받을 수 있으므로 고객 창출에 유리하다. 또한 고객이 인터넷상에서 간단한 조작으로 서비스를 제공받고 결제를 할 수 있어 쉽게 이용할 수 있다. 또한 비싼 소프트웨어 구입비용을 줄일 수 있고, 그에 따른 유지보수 비용이 들지 않고, 저렴한 값으로 서비스를 이용할 수 있다.

도 1은 본 발명에 따른 데이터 표준화 시스템을 전체적으로 도시한 시스템 블록도이다.

도 2는 본 발명에 따른 데이터 표준화 시스템에서 사용자 컴퓨터의 동작을 순차적으로 나타내는 흐름도이다.

도 3은 본 발명에 따른 데이터 표준화 시스템에서 데이터표준화 서버에서의 동작을 순차적으로 나타내는 흐름도이다.

도 4는 본 발명에 따른 데이터 표준화 시스템에서 사용되는 데이터베이스의 스키마이다.

도 5는 본 발명에 따른 데이터 표준화 시스템에서 사용되는 데이터베이스의 내부 구조이다.

<도면의 주요 부분의 부호에 대한 설명>

100: 데이터 표준화 서버 110: 데이터베이스 120: 사용자 컴퓨터

Claims

데이터 표준화 서버, 데이터베이스, 네트워크를 이용하여 상기 데이터 표준화 시스템에 접속하는 사용자 컴퓨터를 구비하는 올리고뉴클레오티드 마이크로어레이에 대한 데이터 표준화 시스템에 있어서,

상기 데이터베이스는 각 프로브 셋 ID에 대한 상관구조 모델 파라미터 데이터를 구비하며,

상기 사용자 컴퓨터는 상기 데이터 표준화 서버에 접속하여 의뢰 데이터 파일을 전송하고 상기 데이터 표준화 서버로부터 상기 의뢰 데이터 파일에 대한 보정 데이터 파일을 전송받는 것을 특징으로 하며,

상기 데이터 표준화 서버는, 상기 사용자 컴퓨터로부터 전송된 의뢰 데이터 파일 내의 프로브 셋 ID 명단을 추출하고, 상기 프로브 셋 ID에 해당되는 상관구조 모델 파라미터 데이터를 상기 데이터베이스로부터 추출하고, 추출된 상관구조 모델 파라미터 데이터를 이용하여 상기 의뢰 데이터 파일로부터 오염 프로브를 검출하여 보정하며, 보정된 데이터 파일을 상기 사용자 컴퓨터로 전송하는 것을 특징으로 하는 올리고뉴클레오티드 마이크로어레이에 대한 데이터 표준화 시스템.
제1항에 있어서, 상기 데이터베이스는 상기 데이터 표준화 서버 내에 구축되거나, 상기 데이터 표준화 서버의 외부에 구축되어 네트워크를 경유하여 접속될 수도 있는 것을 특징으로 하는 올리고뉴클레오티드 마이크로어레이에 대한 데이터 표준화 시스템.
제1항에 있어서, 상기 데이터 표준화 서버는 상기 사용자 컴퓨터로부터 전송된 의뢰 데이터 파일의 형식을 파악하고, 상기 의뢰 데이터 파일이 프로브 셋 별로 정리되어 있지 아니한 경우에는 프로브 셋 별로 의뢰 데이터 파일을 변환시킨 후에 프로브 셋 ID 명단을 추출하는 것을 특징으로 하는 올리고뉴클레오티드 마이크로어레이에 대한 데이터 표준화 시스템.
제1항에 있어서, 상기 데이터베이스의 상관구조 모델 파라미터 데이터는 칩 종류 및 프로브 셋 ID 별로 구분되며, 기 수집된 정상 샘플 데이터에 다변량 통계적 기법(Multivariable Statistics Analysis)을 적용하여 정의된 각 프로브셋을 구성하는 프로브들의 상관구조 모델의 파라미터를 포함하는 것을 특징으로 하는 올리고뉴클레오티드 마이크로어레이에 데이터 표준화 시스템.
제4항에 있어서, 상기 데이터베이스의 상관구조 모델 파라미터 데이터는 각 프로브 셋 ID에 대하여 PC 로딩 행렬, 모델 업데이트 날짜, R² 벡터, 샘플 ID 리스트 항목 중 적어도 하나 이상을 구비하는 것을 특징으로 하는 올리고뉴클레오티드 마이크로어레이에 데이터 표준화 시스템.
(a) 네트워크를 통해 외부로부터 의뢰 데이터 파일을 전송받는 절차;

(b) 상기 의뢰 데이터 파일로부터 프로브 셋 ID 명단을 추출하는 절차;

(c) 상기 프로브 셋 ID 명단에 대한 상관구조 모델 파라미터 데이터를 데이터베이스로부터 추출하는 절차;

(d) 추출된 상관구조 모델 파라미터 데이터를 이용하여 상기 의뢰 데이터 파일로부터 오염 프로브를 검출하고, 검출된 오염 프로브를 보정하는 절차;

(e) 보정된 의뢰 데이터 파일을 외부로 전송하는 절차

를 수행하는 프로그램을 기록한 기록매체를 구비하는 올리고뉴클레오티드 마이크로어레이에 대한 데이터 표준화 서버.
제6항에 있어서, 상기 (b)단계는, 전송된 의뢰 데이터 파일이 프로브 셋 ID 별로 정리되어 있는지 여부를 판단하는 절차, 만약 상기 전송된 의뢰 데이터 파일이 프로브 셋 ID 별로 정리되어 있지 않는 경우, 상기 의뢰 데이터 파일을 프로브 셋 ID 별로 변환시키는 절차, 및 상기 의뢰 데이터 파일로부터 프로브 셋 ID 명단을 검출하는 절차로 이루어지는 것을 특징으로 하는 프로그램을 기록한 기록매체를 구비하는 올리고뉴클레오티드 마이크로어레이에 대한 데이터 표준화 서버.
제6항에 있어서, 상기 (d)단계는, 상기 추출된 상관구조 모델과 다른 패턴을 갖는 샘플을 찾음으로써 오염 프로브를 검출하고 검출된 오염 프로브의 비정상적인 프로브 발현 값을 상기 추출된 상관구조 모델을 이용하여 정상 값에 가깝게 보정하는 것을 특징으로 하는 프로그램을 기록한 기록매체를 구비하는 올리고뉴클레오티드 마이크로어레이에 대한 데이터 표준화 서버.
제8항에 있어서, 상기 오염 프로브를 검출하는 절차는 상기 추출된 상관구조 모델에 어긋나는 이상 샘플을 SPE 인덱스(Index of squared prediction error)를 이용하여 찾는 것을 특징으로 하는 프로그램을 기록한 기록매체를 구비하는 올리고뉴클레오티드 마이크로어레이에 대한 데이터 표준화 서버.