KR20040111456A - 데이터 해석 장치 및 방법 - Google Patents

데이터 해석 장치 및 방법 Download PDF

Info

Publication number
KR20040111456A
KR20040111456A KR10-2004-7015515A KR20047015515A KR20040111456A KR 20040111456 A KR20040111456 A KR 20040111456A KR 20047015515 A KR20047015515 A KR 20047015515A KR 20040111456 A KR20040111456 A KR 20040111456A
Authority
KR
South Korea
Prior art keywords
data
cross
variable
partial
validation
Prior art date
Application number
KR10-2004-7015515A
Other languages
English (en)
Inventor
이시카와도시오
구메다카시
Original Assignee
이시하라 산교 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이시하라 산교 가부시끼가이샤 filed Critical 이시하라 산교 가부시끼가이샤
Publication of KR20040111456A publication Critical patent/KR20040111456A/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Wood Science & Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Pure & Applied Mathematics (AREA)
  • Zoology (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Algebra (AREA)

Abstract

생체 상태와 복수의 유전자 발현량 및/또는 세포내 물질량과의 상관 모델을 결정하는 데이터 해석에 있어서, 생체 상태 또는 시간과 함께 확률적으로 발생하는 생체 상태의 변화를 목적 변수로 하고, 복수의 유전자 발현량 및/또는 세포내 물질량을 설명 변수로 하는 데이터의 집합에 있어서, 데이터에 포함되는 설명 변수를 선택하고, 선택된 설명 변수와 목적 변수를 포함하는 상관 모델에 대해서 교차 검증 성적을 계산하여, 그 결과를 평가 판정한다. 여기서, 교차 검증 성적이 개선되지 않을 때까지, 설명 변수의 선택, 교차 검증 성적의 계산, 및 그 결과의 평가 판정을 실시하여, 부분 최소 제곱법 모델을 결정한다. 이것에 의해, 다변량의 유전자 발현 정보의 효과적인 정보 처리를 제공한다.

Description

데이터 해석 장치 및 방법{APPARATUS AND METHOD FOR ANALYZING DATA}
2000 년 6 월의 인간 게놈 해독 선언 이후, 게놈에 기록된 유전 정보가 어떻게 발현하여 기능하고 있는가를 해명하는 포스트 게놈 시대에 돌입했다고들 말하고 있다. 인간 게놈 계획의 진전 속에서, 게놈 발현 상태를 측정하는 방법론도 진전되어 왔다. 트랜스크립톰 (transcriptome: mRNA) 측정 수단으로서 올리고뉴클레오티드 어레이나 마이크로 칩이 알려져 있다. 또한 프로테옴 (proteome: 단백질) 측정 수단으로서, 이전부터 있던 2 차원 전기 영동에 추가하여, 최근에는 질량 분석 방법이 진보되어 왔다. 또 항체 칩 등의 선진 기술도 주목받고 있다. 이들 측정 기술은, 생체 상태 파라미터를 단시간에 일거에 측정할 수 있다는 것이 그때까지의 기술과 비교하여 획기적이라고 할 수 있다.
유전자 발현 상태를 효율적으로 측정하는 기술로서 다음의 것을 들 수 있다. 트랜스크립톰 (mRNA 의 총체) 을 특정하는 것으로서, 기반에 복수종의 DNA 를 담지하고, 그것에 상보적인 mRNA 를 검출하는 DNA 칩이 알려져 있다. 대표적인 DNA칩에는, 유전자 칩이나 DNA 마이크로 어레이가 있다. 또한, 프로테옴 (단백질의 총체) 을 특정하는 것에는, 2 차원 전기 영동, 항체 칩, 질량 스펙트럼을 사용하는 것이 있다. 또한 메타볼롬 (metabolome: 대사 중간체를 함유한 대사 산물의 총체) 을 측정하는 수법도 질량 분석 등에 의해 시도되고 있으며, 진전이 보인다.
생체내의 세포의 상태는 유전자 산물의 발현에 의해 잘 기술되기 때문에, 종래의 진단 마커에서는 정보가 부족했던 장면에서도 보다 정밀도가 높은 진단이 가능해진다는 기대도 나오고 있다. 예를 들어, 다음과 같은 연구를 들 수 있다.
P. 0. Brown 등은, DNA 칩에 의해 림프종 환자의 세포의 트랜스크립톰을 측정하고, 클러스터 (cluster) 해석에 의해 악성과 양성 림프종 (DLBCL) 을 별도 클러스터로 분리하였다 (Nature 403(3), 503-11 (2000)). 그러나, 이것은 인과 관계 (상관 관계) 의 모델을 얻는 방법이 아니므로, 어느 유전자가 어느 정도 중요한가를 판단할 수 없다.
A. Alaiya 등은, 2 차원 전기 영동에 의해 자궁암 환자 40 명의 세포의 프로테옴을 측정하고, 그 중 22 명의 데이터로부터 부분 최소 제곱법 진단 모델을 구축하여 악성도를 설명하였다 (Int. J. Cancer, 86, 731-36 (2000); Electrophoresis, 21, 1210-17 (2000); 국제 공개 WO 00/70340). 그 때, 전체 변수 모델에 있어서 1553 변수로부터 loading 이 큰 170 변수로 한정함으로써 교차 검증 성적이 개선되어 (Q2=0.84), 나머지 18 환자의 심각도 (3 단계) 를 11/18 의 비율로 맞출 수있었다. 교차 검증법이 모델 구축시의 지표가 된다는 생각이 나타나 있다. 그러나 이 방법에서는, loading 을 얻을 때에 우선 전체 변수 모델이 성립되지 않으면 안된다. 또한, 그 이외의 변수 선택 수법이 고안되어 있지 않다.
J. Khan 등은, DNA 칩에 의해 소아암 환자의 세포를 측정하여, 뉴럴 네트워크에 의해 악성도를 설명하였다 (Nature Medicine, 7(6), 673-79 (2001)). 소아암 (SRBCT) 환자 88 명의 트랜스크립톰 (6567 유전자) 을 측정하고, 그 중 63 명의 데이터로부터 주성분 분석에 의해 10 차원으로 압축하여, 이어서 인공 뉴럴 네트워크 진단 모델을 구축하였다. 여기서, 영향력이 있는 상위 유전자를 교차 검증법에 의해 좁혀, 96 유전자에서 최선의 성적 (100%) 을 얻었다. 이 모델에 의해 나머지 25 명을 예측하여, 93∼100% 의 결과를 얻었다. 그러나 이 방법에서도, 영향력을 얻을 때에 우선 전체 변수 모델이 성립되어야 한다. 또한 그 이외의 변수 선택 수법이 고안되어 있지 않다. 10 차원과 같은 적은 변수의 경우를 취급하고 있지만, 변수의 수가 방대한 경우에는 적용할 수 없다.
또한, 최근에 와서 DNA 칩의 해석에 부분 최소 제곱법을 사용하는 연구가 D. M. Rocke 와 D. V. Nguyen 에 의해 보고되기에 이르렀다 (국제 공개 WO 02/25405; Bioinformatics 18(1), 39-50 (2002); Bioinformatics 18(9), 1216-26 (2002); Bioinformatics 18(12), 1625-32 (2002)). 부분 최소 제곱법의 잠재 변수를 선형 판별 분석 등의 다변량 해석의 설명 변수로서 사용한 경우에 양호한 결과가 얻어지는 것이 보고되어 있다. 이것은 부분 최소 제곱법이 차원 압축과 모델 피팅을 동시에 실시할 수 있는 방법이기 때문에 가능하게 된 것이다. 보고에 나타난 실시예에서는 부분 최소 제곱법이 DNA 칩 정보의 모델 구축 방법으로서 우수하다는 것이 나타나 있다. 그러나 보고에 있어서는 중요한 유전자 발현량을 선발하는 수단으로서의 최소 제곱법의 적용에 관해서는 언급되어 있지 않고, 사전에 전처리에 의해 선택된 설명 변수를 모두 사용하여 해석이 이루어지고 있다는 점에서 상기 서술한 A. Alaiya 등의 연구와 동일한 과제를 안고 있다.
종래의 진단 마커에서는 정보가 부족했던 경우에도, 유전자 발현 정보를 활용함으로써 보다 정밀도 (해상도) 가 높은 진단이 가능해진다는 기대도 나오고 있다. 유전자 발현 상태의 측정 결과는, 방대한 정보량이 얻어지는 것이 종래에는 없었던 특징이고, 반대로 정보량이 많기 때문에 효과적인 데이터 처리없이는 데이터를 활용할 수 없다. 따라서, 유용한 지식을 획득하기 위해서는 효과적인 정보 처리를 빠뜨릴 수 없다. 이전에 설명한 바와 같이, 현상태에서는 클러스터 해석을 중심으로 하는 방법이 사용되고 있지만, 주성분 분석 등의 방법도 채택되고 있다. 클러스터 해석이나 주성분 분석은 교사가 필요한 학습 방법이 아니기 때문에, 병상의 인과 관계 (상관 관계) 의 모델을 얻는 것이 불가능하다. 즉, 어느 유전자가 어느 정도 중요한가를 해석 결과로부터 얻을 수 없다는 것이 난점이다. 한편, 부분 최소 제곱법은 차원 압축과 모델 피팅을 동시에 실시하는 강력한 다변량 해석 수법이지만, 변수의 수가 방대해질 경우에 종종 유의한 결과를 얻지 못하는 사태에 직면한다. 따라서, 방대한 유전자 발현 정보 등으로부터 유용한 지식을 획득할 수 있는 효과적인 정보 처리가 요망되고 있다. 또한, 그와 같은 정보 처리의 결과를 바탕으로 한 효율적인 측정 기재, 검정 처리 등이 기대되고 있다.
발명의 개시
(발명을 해결하도록 하는 기술적 과제)
본 발명의 목적은, 다변량의 유전자 발현 정보, 세포내 물질 정보의 효과적인 정보 처리를 제공하는 것이다.
또한, 본 발명의 목적은, 효율적인 검정 처리를 제공하는 것이다.
(해결 방법)
본 발명에 관한 데이터 해석 장치는, 생체 상태 또는 시간과 함께 확률적으로 발생하는 생체 상태의 변화를 목적 변수로 하고, 복수의 유전자 발현량 및/또는 세포내 물질량을 설명 변수로 하는 상관 모델을 결정하는 데이터 해석 장치로서, 생체 상태 혹은 그것을 도출하는 데이터 또는 시간과 함께 확률적으로 발생하는 생체 상태의 변화에 관한 데이터와, 복수의 유전자 발현량 및/또는 세포내 물질량으로 이루어지는 샘플의 집합을 입력하는 입력 수단과, (1) 설명 변수를 선택하는 선택 수단과, (2) 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 계산 수단 또는 상기 생체 상태의 변화에 관한 데이터에 카플란-마이야법 (Kaplan-Meier method) 또는 커틀러-에델러법에 의한 생명표를 적용하여 변화가 발생하지 않았던 것의 확률을 계산하여 얻어진 확률을, 가정된 분포에 기초한 변환 또는 가정을 전제로 하지 않는 변환을 하고, 그 변환 결과를 목적 변수로 하는 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 계산 수단과, (3) 상기 (2) 의 계산 수단의 결과를 평가하여, 설명 변수의 채택, 비채택을 판정하는 평가 판정 수단을 갖고, (4) 상기 (1) 의 선택 수단과 상기 (2) 의 계산 수단과 상기 (3) 의 평가 판정 수단을 실행하여 부분 최소 제곱법 모델의 적어도 교차 검증 성적을 독립 변수로서 갖는 함수를 계속적으로 개선하여 부분 최소 제곱법 모델을 결정하는 결정 수단으로 이루어진다. 선택 수단은, 예를 들어 설명 변수를 순차 취사 선택하거나, 유전적 알고리즘을 사용하여 설명 변수를 선택한다. 계산 수단은, 예를 들어, 1 개의 샘플을 순차 제외하거나, 복수의 샘플을 순차 제외하고 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산한다. 평가 판정 수단은, 예를 들어, 계산 수단의 결과로부터, 각 계산에 있어서 제외된 샘플의 유전자 발현으로부터 예측되는 생체 상태를 나타내는 목적 변수치와, 상기 제외된 샘플의 생체 상태를 나타내는 목적 변수치의 오차의 대표치를 구하여, 해당 오차의 대표치가 작아진 경우에 그 교차 검증 성적이 개선되었다고 판정하고, 설명 변수를 취사 선택하면서 교차 검증 성적의 평가 판정을 반복한다. 또는 교차 검증 성적이 아니라, 적어도 부분 최소 제곱법 모델의 교차 검증 성적을 독립 변수로서 갖는 함수가 개선되는지 아닌지를 평가 판정의 기준으로서 사용할 수도 있다. 결정 수단은, 예를 들어, 선택 수단과 계산 수단과 평가 판정 수단을 반복하여 실행함으로써 부분 최소 제곱법 모델의 교차 검증 성적을 계속적으로 개선하여 부분 최소 제곱법 모델을 결정한다. 또한, 선택 수단과 계산 수단을 복수의 컴퓨터에서 실행시킬 수도 있다. 이렇게 해서, 상관 모델을 구성할 때, 교차 검증 성적을 기준으로 최적화시키는 것에 의해 설명 변수를 취사 선택하여, 설명 변수의 차원을 줄여서 양호한 모델을 얻는다.
상기 서술한, 가정된 분포에 기초한 변환 또는 가정을 전제로 하지 않는 변환은, 생체 상태의 변화의 확률을 설명 변수의 다항식에 의해 해석할 수 있도록 하기 위해 실시하는 것이다. 분포를 가정한 경우에는, 확률을 대수 변환 후에 음수로 한 것을 상태의 변화를 관측한 시간으로 나누는 변환, 확률을 대수 변환 후에 음수로 한 것을 다시 대수로 한 것을 상태의 변화를 관측한 시간으로 나누는 변환, 또는 확률을 1 보다 줄인 것을 프로빗 (probit) 변환한 것을 계산하여 상태의 변화를 관측한 시간으로 나누는 변환 등이 있다. 한편, 분포를 가정하지 않은 경우에는 로짓 (logit) 변환이라는 방법이 있다. 변환의 방법은 분포에 어떠한 가정이 성립하는지 여부 또는 성립하지 않는지 여부를 판단함으로써, 각각의 경우에 맞춰서 적절히 선택할 수 있다. 적어도 부분 최소 제곱법 모델의 교차 검증 성적을 독립 변수로서 갖는 함수로는, 예를 들어, 상기 오차의 대표치와 선발된 설명 변수의 수와의 함수가 있고, 또는 그 밖의 독립 변수를 포함하는 것일 수도 있다. 바람직하게는, 함수는 오차의 대표치의 단조 (單調) 감소 함수이고, 설명 변수의 수의 단조 감소 함수이다. 계산량을 늘리지 않기 위해서는 간단하게 계산할 수 있는 함수가 바람직하다. 구체적으로는 -PRESS ×alphaNP와 같은 함수가 있다. 여기서 PRESS 는 예측 잔차 제곱합이고, NP 는 채택된 설명 변수의 수이고, alpha 는 1 또는 1 보다 큰 실수이다. 또한, -PRESS ×(NP+beta)gamma나 -PRESS ×(beta-NP)-gamma인 함수도 있다. 여기서, gamma 는 양의 실수이다.
설명 변수의 개수를 적게 하면, 통상의 통계적 수법 또는 다변량 해석 수법을 적용할 수 있게 된다. 본 발명에서는 부분 최소 제곱법을 사용하여 선발된 설명 변수를 통계 수법 또는 다변량 해석 수법의 설명 변수로 하여, 보다 양호한 모델을 얻는다. 또는 선발된 설명 변수를 사용한 부분 최소 제곱법 모델의 잠재 변수를 통계 수법 또는 다변량 해석 수법의 설명 변수로 하여, 보다 양호한 모델을 얻는다. 여기서 잠재 변수란, 부분 최소 제곱법에 있어서 통상적으로 사용되고 있는 것으로서, 목적 변수 (Yil) 와 설명 변수 (Xij) 의 배후에 공통되는 차원수가 적은 잠재 변수 (Tik) 를 추출하는 것이 부분 최소 제곱법의 차원 압축이고, 모델 피팅이다.
(i 는 샘플 번호, l 는 목적 변수 번호, j 는 설명 변수 번호, k 는 잠재 변수 번호, F, E 는 잔차 (residual error))
또한, 통계적 수법 또는 다변량 해석 수법으로는, 중회귀 분석법, 선형 판별 분석법, 적응 최소 제곱법, 로지스틱스 (logistic) 회귀 분석법, 비례 해저드 해석법, 마하라노비스 거리 (Mahalanobis distance) 를 사용하는 판별 분석법, kNN 법, 인공 뉴럴 네트워크 등을 들 수 있다.
본 발명자들은, 또한, Q2나 PRESS 치 등의 교차 검증 성적에 추가하여, 설명 변수의 개수를 제 2 독립 변수로서 포함하는 함수를 최적화함으로써 선발되는 설명 변수를 임의로 좁힐 수 있는 것을 새롭게 발견하였다. 통상적인 통계적수법이나 다변량 해석 수법에서는, 추출되는 설명 변수의 개수 (NP) 의 바람직한 범위가 샘플수와의 균형에 의해 결정되어 있는 경우가 있다. 이와 같은 경우, 함수를, 목적으로 하는 선발수에 따라서 임의로 변경할 수 있다. 함수형을 예를 들어 -PRESS ×alphaNP로 한 경우, 설명 변수의 개수를 수개에서 수십개로 좁히기 위해서는 통상은 상수 alpha 로서 1.0∼3.0 의 값이 바람직하다. 보다 바람직하게는, alpha 는 1.0∼2.0 의 값이 된다. 다른 함수형 (f: (PRESS, NP)) 이라도, 실제로 선택되는 설명 변수의 수 (MP) 및 그 때의 PRESS 치 (PRESS_MP) 의 주변에서 f(PRESS_MP ÷alpha, MP+1) ≒ f(PRESS_MP, MP) 가 되는 함수는, 변수 선택이라는 점에서는 동일한 효과를 갖는 경우가 있다. 이렇게 해서, 적당한 함수형을 사용함으로써 바람직한 범위의 개수 (NP) 의 설명 변수를 선발할 수 있다. 이렇게 해서, 교차 검증 성적을 사용하여 결정된 모델에 채택되어 있는 설명 변수를 더욱 좁히면, 통계적 수법 또는 다변량 해석 수법에 의한 모델을 구축할 수 있다. 따라서, 그 성질이 충분히 해명되어 있는 통계적 수법 또는 다변량 해석 수법을 채택하여 해석할 수 있다.
또한, 목적 변수로서, 시간과 함께 확률적으로 발생하는 생체 상태의 변화로부터 도출된 양을 사용하여, 시간과 함께 확률적으로 발생하는 생체 상태의 변화와 복수의 유전자 발현량 및/또는 세포내 물질량과의 상관 모델을 결정할 수 있다. 「시간과 함께 확률적으로 발생하는 생체 상태의 변화」란 예를 들어 생존 시간이다. 여기서, 전술한 부분 최소 제곱법에, 카플란-마이야법 또는 커틀러-에델러법과, 로짓 (logit) 변환을 조합시킨다. 부분 최소 제곱법에서의 목적 변수는, 시간과 함께 확률적으로 발생하는 생체 상태의 변화에 관한 데이터에 카플란-마이야법 또는 커틀러-에델러법에 의한 생명표를 적용하여 변화가 발생하지 않았던 것의 확률을 계산하여, 이것을 로짓 변환한 값이다. 로짓 (logit) 치란, 분류된 데이터의, 임의의 분류의 비율 (확률: P) 을 바탕으로, 다음식 logit = log{P/(1-P)} 에 의해 계산되는 값이다. 로짓치를 목적 변수로 하는 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산한다. 이렇게 해서, 앞서 설명한 것과 동일하게, 부분 최소 제곱법의 교차 검증 성적을 고려한 설명 변수를 추출하여 생존 시간을 해석할 수 있다.
설명 변수의 개수를 적게 하면, 통상의 통계적 수법 또는 다변량 해석 수법을 적용할 수 있게 된다. 그래서, 결정된 모델에게 채택되어 있는 설명 변수 또는 그 잠재 변수를 사용하여, 시간과 함께 확률적으로 발생하는 생체 상태의 변화를 설명하는 통계적 수법 또는 다변량 해석 수법에 의한 모델을 구축한다. 예를 들어, 로짓치를 목적 변수로서 구한 설명 변수를 사용하여, 다른 통계적 수법 또는 다변량 해석 수법 (예를 들어 비례 해저드법이나, 파라메트릭 (parametric) 분포에 적용시킨 회귀 분석법) 을 실시함으로써 보다 양호한 모델을 얻을 수 있다. 비례 해저드법이란 Cox 에 의해 고안된 방법으로, 생존률의 해석에 시간을 고려하고, 또한 다변량을 취급할 수 있다. 비례 해저드법에서는, 관측되어 있는 각각 마다 해저드치로 불리는 생존률을 좌우하는 값이 있고, 그것을 유도하는 함수가 있는 (모델이 가정되어 있는) 것으로서 해석된다. 카플란-마이야법은, 집단 전체또는 군별로 생존률의 추이를 나타낸다. 또한, 파라메트릭 분포란, 가우스가 제안한 정규 분포로부터 계산된 확률 분포를 말하고, 생존 시간 해석에서는 지수 분포, 와이블 분석, 대수 정규 분포가 사용된다. 지수 분포 등으로의 적용에서, 수학식 중에 다항식이 있어, 전술한 부분 최소 제곱법의 교차 검증 성적을 고려한 설명 변수의 추출이 적용된다.
입력 수단에 의해 설명 변수로서 입력되는 복수의 유전자의 발현량 및/또는 세포내 물질량이란, 반드시 물질의 절대적인 농도의 측정치에 한정되는 것은 아니고, 가공 계산된 값, 상대적인 값, 간접적으로 물질량을 나타내는 양 등일 수도 있다. 예를 들어, 질량 스펙트럼으로 단백질의 발현량을 측정할 수 있는 것을 응용하여, 생체 상태를 나타내는 목적 변수와 질량 스펙트럼을 직접 관계짓는 상관 모델을 구축할 수 있다. 또한 Affymetrix 사 타입의 DNA 칩 (유전자 칩) 에서는, 단일한 스폿이 단일한 유전자 발현을 특정한다고는 한정되지 않고, 복수개의 스폿이 모여 비로소 단일한 유전자 발현을 특정하는 경우도 있다. 여기서도 또한, 각 스폿의 측정량을 설명 변수로 하여, 직접 생체 상태를 설명하는 상관 모델을 얻을 수 있다. 또한, 단백질의 전기 영동 패턴의 각 피크는 단일한 단백질에 귀속시킬 수 없고, 복수개의 단백질의 중복인 경우도 많다. 이러한 경우에도 생체 상태를 설명하는 설명 변수로서 각 피크 강도를 사용할 수 있다. 이것은, 상기 서술한 Alaiya 등이 자궁암의 진단의 설명 변수로서 전기 영동 패턴의 피크 강도를 채택하고 있는 점에서 분명해진다. 전술한 바와 같이 포스트 시퀀스 시대의 트랜스크립톰 해석, 프로테옴 해석, 메타볼롬 해석이라는 연구 분야에서는,생체 (세포) 내 물질을 총체적으로 파악하는 것에서 출발하는 것을 특징으로 하는 실험적 어프로치가 주목받고 있다. 하나하나의 물질의 절대적 정량이 필수 사항이 아니라, 이들 실험 방법에 의해 정량되는 물질량을 직접, 간접적으로 표현하는 측정치나 그 가공 계산치가 생체 상태를 설명하는 설명 변수로 될 수 있다. 또한 이상의 물질량을 표현하는 설명 변수 외에, 경우에 따라서는 문진 데이터 등의 다른 설명 변수를 추가하면 더욱 유효한 해석 결과가 얻어지는 경우도 있다.
본 발명에 관한 데이터 해석 방법은, 생체 상태 또는 시간과 함께 확률적으로 발생하는 생체 상태의 변화를 목적 변수로 하고, 복수의 유전자 발현량 및/또는 세포내 물질량을 설명 변수로 하는 상관 모델을 결정하는 데이터 해석 방법으로서, 생체 상태 혹은 그것을 도출하는 데이터 또는 시간과 함께 확률적으로 발생하는 생체 상태의 변화에 관한 데이터와, 복수의 유전자 발현량 및/또는 세포내 물질량으로 이루어지는 샘플의 집합을 입력하는 입력 단계와, (1) 설명 변수를 선택하는 선택 단계와, (2) 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 계산 단계 또는 상기 생체 상태의 변화에 관한 데이터에 카플란-마이야법 또는 커틀러-에델러법에 의한 생명표를 적용하여 변화가 발생하지 않았던 것의 확률을 계산하여 얻어진 확률을, 가정된 분포에 기초한 변환 또는 가정을 전제로 하지 않는 변환을 하고, 그 변환 결과를 목적 변수로 하는 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 계산 단계와, (3) 상기 (2) 의 계산 단계의 결과를 평가하여, 설명 변수의 채택, 비채택을 판정하는 평가 판정 단계를 갖고, (4) 상기 (1) 의 선택 단계와 상기 (2) 의 계산 단계와 상기 (3) 의 평가 판정 단계를 실행하여 부분 최소 제곱법 모델의 적어도 교차 검증 성적을 독립 변수로서 갖는 함수를 계속적으로 개선하여 부분 최소 제곱법 모델을 결정하는 결정 단계로 이루어진다.
이 데이터 해석 방법에 있어서, 선택 단계는, 예를 들어, 설명 변수를 순차 취사 선택하거나, 유전적 알고리즘을 사용하여 설명 변수를 선택한다. 계산 단계는, 예를 들어, 1 개의 샘플을 순차 제외하거나, 복수의 샘플을 순차 제외하고 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산한다. 평가 판정 단계는, 예를 들어, 계산 단계의 결과로부터, 각 계산에 있어서 제외된 샘플의 유전자 발현으로부터 예측되는 생체 상태를 나타내는 목적 변수치와, 상기 제외된 샘플의 생체 상태를 나타내는 목적 변수치의 오차의 대표치를 구하여, 해당 오차의 대표치가 작아진 경우에, 그 교차 검증 성적이 개선되었다고 판정하고, 설명 변수를 취사 선택하면서 교차 검증 성적의 평가 판정을 반복한다. 결정 단계는, 예를 들어, 선택 단계와 계산 단계와 평가 판정 단계를 반복 실행하여 부분 최소 제곱법 모델의 교차 검증 성적을 계속적으로 개선하여 부분 최소 제곱법 모델을 결정한다. 또한, 선택 단계와 계산 단계를 복수의 컴퓨터에서 실행시킬 수도 있다.
본 발명에 관한 데이터 해석 프로그램은, 생체 상태 또는 시간과 함께 확률적으로 발생하는 생체 상태의 변화를 목적 변수로 하고, 복수의 유전자 발현량 및/또는 세포내 물질량을 설명 변수로 하는 상관 모델을 결정하는, 컴퓨터에 의해 실행되는 데이터 해석 프로그램으로서, 생체 상태 혹은 그것을 도출하는 데이터 또는 시간과 함께 확률적으로 발생하는 생체 상태의 변화에 관한 데이터와, 복수의 유전자 발현량 및/또는 세포내 물질량으로 이루어지는 샘플의 집합을 입력하는 입력 단계와, (1) 설명 변수를 선택하는 선택 단계와, (2) 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 계산 단계 또는 상기 생체 상태의 변화에 관한 데이터에 카플란-마이야법 또는 커틀러-에델러법에 의한 생명표를 적용하여 변화가 발생하지 않았던 것의 확률을 계산하여 얻어진 확률을, 가정된 분포에 기초한 변환 또는 가정을 전제로 하지 않는 변환을 하고, 그 변환 결과를 목적 변수로 하는 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 계산 단계와, (3) 상기 (2) 의 계산 단계의 결과를 평가하여, 설명 변수의 채택, 비채택을 판정하는 평가 판정 단계를 갖고, (4) 상기 (1) 의 선택 단계와 상기 (2) 의 계산 단계와 상기 (3) 의 평가 판정 단계를 실행하여 부분 최소 제곱법 모델의 적어도 교차 검증 성적을 독립 변수로서 갖는 함수를 계속적으로 개선하여 부분 최소 제곱법 모델을 결정하는 결정 단계로 이루어진다.
이 데이터 해석 프로그램에 있어서, 선택 단계는, 예를 들어, 설명 변수를 순차 취사 선택하거나, 유전적 알고리즘을 사용하여 설명 변수를 선택한다. 계산 단계는, 예를 들어, 1 개의 샘플을 순차 제외하거나, 복수의 샘플을 순차 제외하고 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산한다. 평가 판정 단계는, 예를 들어, 계산 단계의 결과로부터, 각 계산에 있어서 제외된 샘플의 유전자 발현으로부터 예측되는 생체 상태를 나타내는 목적 변수치와, 상기 제외된 샘플의 생체 상태를 나타내는 목적 변수치의 오차의 대표치를 구하여, 적어도 해당 오차의 대표치를 독립 변수로서 갖는 함수인 해당 오차의 대표치의 단조 감소 함수의 값이 작아진 경우에 그 교차 검증 성적이 개선되었다고 판정하고, 설명 변수를 취사 선택하면서 교차 검증 성적의 평가 판정을 반복한다. 결정 단계는, 예를 들어, 선택 단계와 계산 단계와 평가 판정 단계를 반복 실행하여 적어도 부분 최소 제곱법 모델의 교차 검증 성적을 독립 변수로서 갖는 함수를 계속적으로 개선하여 부분 최소 제곱법 모델을 결정한다. 또한, 선택 단계와 계산 단계를 복수의 컴퓨터에서 실행시킬 수도 있다. 그리고, 상기 설명 변수의 선택에 있어서, 예를 들어, 초기 상태에서는 설명 변수를 전혀 포함하지 않거나, 또는 초기 상태에서는 전체 설명 변수를 포함할 수도 있다.
상기 데이터 해석 프로그램에 있어서, 상기한 생체 상태는, 예를 들어 병의 타입을 나타내는 측정치, 병의 중독도를 나타내는 측정치, 병의 타입을 나타내는 의료 진단의 결과, 병의 중독도를 나타내는 의료 진단의 결과, 또는 그들을 2 차 가공한 수치이다. 예를 들어 후술하는 실시예에서 나타내는 바와 같이, 환자의 생존 시간을 예측하는 것은, QOL (quality of life: 생활의 질) 을 포함시킨 치료 계획이나 인생 설계 등을 판단하는 데에 있어서 중요한 정보를 주는 것으로, 사회적으로 가치가 있는 진단 모델을 제공할 수 있다. 또한 암의 재발 가능성을 예측하는 것은, QOL 을 고려한 치료 계획을 입안하여, 의사 또는 해당 환자가 선택 판단을 함에 있어서 귀중한 정보를 제공하는 것이다.
또한, 본 발명은, 결정된 상기 상관 모델 및 예측 대상인 샘플에 대해서 해당 모델에 있어서 채택된 설명 변수를 입력하는 입력 수단과, 입력된 그 설명 변수에 기초하여 그 샘플의 생체 상태를 예측 판정하는 예측 판정 수단으로 이루어지는 데이터 해석 장치, 상기에서 결정된 상관 모델 및 예측 대상인 샘플에 대해서 해당모델에 있어서 채택된 설명 변수를 입력하는 입력 단계와, 입력된 그 설명 변수에 기초하여 그 샘플의 생체 상태를 예측 판정하는 예측 판정 단계로 이루어지는 데이터 해석 방법 및 상기에서 결정된 상관 모델 및 예측 대상인 샘플에 대해서 해당 모델에 있어서 채택된 설명 변수를 입력하는 입력 단계와, 입력된 그 설명 변수에 기초하여 그 샘플의 생체 상태를 예측 판정하는 예측 판정 단계로 이루어지는 데이터 해석 프로그램도 포함한다.
본 발명에 관한 컴퓨터에 의해 판독 가능한 기록 매체는, 상기 중 어느 하나의 프로그램을 기록한다.
본 발명에 관한 미만성 (diffuse) 대세포형 B 림프종의 중독도 검정용 세포내 물질 측정 기재 및 측정 방법 그리고 미만성 대세포형 B 림프종의 중독도 검정 방법은, 실질적으로 유전자 은행 접근 번호 (gene bank accession number) 가 U15085, M23452, X52479, U70426, H57330 및 S69790 으로 이루어지는 유전자군의 발현을 검출한다. 또한, 유전자 은행 접근 번호가 U03398, M65066, AK001546, BC003536, X00437, U12979, H96306, AA830781 및 AA804793 으로 이루어지는 군에서 선택되는 적어도 하나의 유전자의 발현을 검출할 수도 있다.
본 발명에 관한 유방암의 중독도 검정용 세포내 물질 측정 기재 및 측정 방법 그리고 유방암의 중독도 검정 방법은, 실질적으로 유전자 은행 접근 번호가 AA598572, AA703058 및 AA453345 로 이루어지는 유전자 산물을 함유하는 세포내 물질을 검출한다. 또한, 유전자 은행 접근 번호가 AA406242, H73335, W84753, N71160, AA054669, N32820 및 R05667 로 이루어지는 군에서 선택되는 적어도 하나의 유전자 산물을 함유하는 세포내 물질을 검출할 수도 있다.
또한, 본 발명에 관한 유방암의 재발성 검정용 세포내 물질 측정 기재 및 측정 방법 그리고 유방암의 재발성 검정 방법은, 실질적으로 유전자 은행 접근 번호가 W84753, H08581, AA045730 및 AI250654 로 이루어지는 유전자 산물을 함유하는 세포내 물질을 검출한다. 또한, 유전자 은행 접근 번호가 AA448641, R78516, R05934, AA629838 및 H53037 로 이루어지는 군에서 선택되는 적어도 하나의 유전자 산물을 함유하는 세포내 물질을 검출할 수도 있다.
또한, 본 발명에 관한 유방암의 재발성 검정용 세포내 물질 측정 기재 및 측정 방법 그리고 유방암의 재발성 검정 방법은, 실질적으로 유전자 은행 접근 번호가 AA434397, T83209, N53427, N29639, AA485739, AA425861, H84871, T64312, T59518 및 AA037488 로 이루어지는 유전자 산물을 함유하는 세포내 물질을 검출한다. 또한, 유전자 은행 접근 번호가 AA406231 인 유전자 산물을 함유하는 세포내 물질을 검출할 수도 있다.
또한, 본 발명에 관한 유방암의 재발성 검정용 세포내 물질 측정 기재 및 측정 방법 그리고 유방암의 재발성 검정 방법은, 실질적으로 유전자 은행 접근 번호가 H11482, T64312 및 AA045340 으로 이루어지는 유전자 산물을 함유하는 세포내 물질을 검출한다.
세포내 물질 측정 기재로는, DNA 마이크로 어레이, 유전자 칩, 올리고 DNA 형의 DNA 칩, 전기 화학 DNA 칩 (ECA 칩), 섬유형 DNA 칩, 자성 비드 DNA 칩 (PSS), 권사 (卷絲) DNA 칩 (PSS) 등의 DNA 칩, 매크로 어레이, 항체 칩, 측정용시약 키트 등을 들 수 있다. 또한, 상기 기재를 적절히 조합한 측정 기계일 수도 있다.
본 발명은, 생체 상태와 유전자 발현량 및/또는 세포내 물질량과의 다변량 해석 처리 및 그것을 바탕으로 가능해지는 측정 기재, 검정 방법 등에 관한 것이다.
도 1 은, 유전자 발현 해석 시스템의 블록도이다.
도 2 는, 해석 소프트의 플로우차트이다.
도 3 은, 교차 검증 성적 (CV) 의 계산의 플로우차트이다.
도 4 는, 변수 선택의 제 1 모델 구축 수법의 플로우차트이다.
도 5 는, 변수 선택의 제 2 모델 구축 수법의 플로우차트이다.
도 6 은, 변수 선택의 제 3 모델 구축 수법의 플로우차트이다.
도 7 은, 변수 선택의 제 4 모델 구축 수법의 플로우차트이다.
도 8 은, 변수 선택의 제 5 모델 구축 수법의 플로우차트이다.
도 9 는, 최소 제곱법 모델의 성적을 나타내는 그래프이다.
도 10 은, DLBCL 환자의 생존 시간과 진단 지표의 플롯 각종 비교의 도면이다.
도 11 은, 실시예 2 의 DLBCL 환자의 생존 시간 진단 지표의 플롯의 도면이다.
도 12 는, 실시예 3 의 유방암 환자의 생존 시간 진단 지표의 플롯의 도면이다.
도 13 은, 실시예 3 의 유방암 환자의 변수 삭제 기준으로서 P≥0.0005 를 채택했을 때의 생존 시간 진단 지표의 플롯의 도면이다.
도 14 는, 실시예 7 의 유방암 환자의 재발 시간 진단 지표의 플롯의 도면이다.
도 15 는, 실시예 7 의 유방암 환자의 변수 삭제 기준으로서 P≥0.025 를 채택했을 때의 재발 시간 진단 지표의 플롯의 도면이다.
도 16 은, 실시예 9 의 유전적 알고리즘에 의한 부분 최소 제곱법 모델의 최적화의 모습을 나타내는 도면이다.
도 17 은, 실시예 10 의 계층형 인공 뉴럴 네트워크에 있어서의 4 개의 토폴로지를 나타내는 도면이다.
도 18 은, 실시예 11 의 잠재 변수를 사용한 비례 해저드 모델의 유방암 환자의 생존 시간 진단 지표의 그래프이다.
도 19 는, 실시예 11 의 잠재 변수를 사용한 비례 해저드 모델의 유방암 환자의 생존 시간 진단 지표의 예측치와 계산치의 그래프이다.
발명을 실시하기 위한 최선의 형태
이하, 첨부된 도면을 참조하여 본 발명의 실시형태를 설명한다.
이하에, 선택된 생체 상태와 유전자 발현량 및/또는 세포내 물질량과의 상관 모델의 결정에 관해서 설명한다. 여기서, 유전자 발현이란 용어는, mRNA 발현 (트랜스크립톰) 이나, mRNA 에 의한 번역의 결과로서 생기는 단백질 (프로테옴) 을 포함하는 것으로서 사용한다. 또한, 세포내 물질량이란 여기서는 예를 들어, 대사 중간체를 포함한 대사 산물 전부인 메타볼롬을 의미한다. 예를 들어, 트랜스크립톰 (mRNA) 이나 프로테옴 (단백질) 의 해석에 있어서, 각 샘플 데이터는, 생체 상태와 유전자 발현량 등으로 이루어진다. 각 샘플은 예를 들어 1000 개 이상의 방대한 유전자 발현량을 포함한다. 생체 상태는, 예를 들어 병의 타입 또는 병의 진단 지표이지만, 보다 일반적으로는 생체 정보이면 된다. 「병의 진단 지표」에는, 병의 진행 정도 외에, 병의 타입, 중독도, 심각도 등의 표현으로 나타내는 것도 포함한다. 여기서, 유전자 발현량 등의 측정 데이터는 방대한 정보량으로 이루어지기 때문에, 컴퓨터를 사용한 효율적인 다변량 해석이 필요하다.
데이터 수집에 있어서, 미리 몇 개의 샘플에 대해서 생체 상태 (예를 들어 진단 지표) 를 판정하고, 또, 그 샘플된 것으로부터 세포액을 획득하여, 그 세포액 중의 많은 유전자 산물의 발현량 등을 측정한다. 본 발명의 실시형태의 데이터 해석에서는, 이렇게 해서 얻어진 유전자 산물의 발현량 등과 생체의 상태 (예를 들어 진단 지표) 를 입력하여, 상관 모델 (예를 들어 부분 최소 제곱법 모델) 을 얻는다. 여기서, 컴퓨터에 의한 다변량 해석 프로그램을 사용하여, 진단 지표를 목적 변수로 하고, 유전자 발현량 및/또는 세포내 물질량을 설명 변수로 하는 인과 관계형 해석을 실시하여, 각 설명 변수의 중요성이나 영향도에 관한 정보를 얻는다. 또한, 상기 목적 변수는 반드시 측정치 그 자체일 필요는 없고, 로짓 변환을 실시한 값이나 군을 나타내는 이산치를 사용할 수도 있으며, 그 경우, 보다 유의한 해석 결과를 얻을 수도 있다.
본 발명자들은, 유전자 발현에 의한 의료 진단이라는 분야에 있어서, 데이터해석에 있어서의 교차 검증 (cross validation) 의 성적을 적어도 독립 변수의 하나로서 갖는 함수를 최적화하도록 변수를 선택함으로써 양호한 상관 모델 (예를 들어 부분 최소 제곱법 모델) 이 얻어지는 것을 발견하였다. 교차 검증법에서는, 가지고 있는 데이터를 복수군으로 분할하고, 그 일부의 데이터군 (훈련 집합) 만을 사용하여 피팅한 모델을 사용하여 나머지 별도의 데이터군 (테스트 집합) 을 예측함으로써, 모델의 예측력을 시험한다. 통상적인 부분 최소 제곱법 (PLS) 에 있어서는 잠재 변수의 차원 선택에 교차 검증법이 사용되고 있지만, 여기서는, 부분 최소 제곱법에 있어서, 잠재 변수를 1 차원으로 고정하고 1 이상의 입력 변수 (설명 변수) 를 순차 취사 선택하면서, 교차 검증 성적 (예를 들어 평방합의 예측 오차) 을 적어도 독립 변수의 하나로서 갖는 함수를 최적화하였다. 단 본 발명의 효과는 잠재 변수의 차원을 1 로 한정하는 것은 아니다. 그 결과, 전체 변수를 채택한 경우에는 유의한 상관 모델을 얻을 수 없었던 경우에도, 양호하고 또 예측력이 있는 상관 모델이 얻어지는 것이 판명되었다. 이 교차 검증법을 사용한 변수 선택의 순차 취사 선택에 의해, 안정적인 상관 모델이 얻어진다. 또한 본 발명자들은, 함수형을 적절히 설정함으로써 설명 변수를 좁히는 것에 의해, 부분 최소 제곱법 이외의 통계학 또는 다변량 해석이 양호한 상관 모델을 얻는 것이 가능해져, 각각 생체 상태를 기술하는 목적 변수에 적합한 상관 모델을 얻을 수 있음을 발견하였다. 또, 여기서 말하는 「최적화」란, 교차 검증 성적이, 설명 변수를 취사 선택하기 위한, 그 때의 해석 조건의 범위에서 개선이 보이지 않게 될 때까지 개량한 것을 의미하는 것으로, 교차 검증 성적이 모든 설명 변수의 조합 중에서 최적인 것을 발견했다는 의미는 아니다. 이 변수 선택 수법을 사용하면, 병상(病狀)을 결정하는 인자를 작은 수에 특정하여 저렴한 진단용 재료 (DNA 칩, 항체 칩, DNA 함유 벡터 등) 를 설계할 수 있어, 그 자체로서 독자적인 가치를 갖는 것이다. 또한, 이 변수 선택 수법은, 미리 설정되는 각종의 변수 선택 조건과 함께 운용하는 것이 가능하다.
위에서 서술한 바와 같이, 설명 변수는, 교차 검증 성적을 기준으로 순차 취사 선택된다. 여기서, 취사 선택을 위해, 교차 검증 성적을 적어도 독립 변수의 하나로서 갖는 함수를 사용한다. 설명 변수를 추가하는 경우는, 그 설명 변수에 대해서, 상기 함수가 개선되지 않았다고 판정된 경우에는 해당 설명 변수를 제외하고, 개선되었다고 판정된 경우에는 해당 설명 변수를 추가한다. 또한, 설명 변수를 제외하는 경우는, 그 설명 변수에 대해서, 상기 함수가 개선되지 않았다고 판정된 경우에는 해당 설명 변수를 제외하지 않고, 개선되었다고 판정된 경우에는 해당 설명 변수를 제외시킨다. 여기서, 1 이상의 설명 변수를 선택한 경우에, 교차 검증 성적 평가는 다음과 같이 진행된다. n 개의 샘플로부터 몇 개의 샘플을 순차 제외하여 부분 최소 제곱법 모델을 구하고, 각 모델에 있어서 제외된 샘플의 유전자 발현량으로부터 예측되는 생체 상태를 나타내는 목적 변수와, 제외된 샘플의 생체 상태를 나타내는 목적 변수의 각각의 오차의 대표치를 구한다. 「대표치」란, 합, 평균, 최대치, 중위치(中位値), 최빈치(最頻値) 등과 같이 데이터를 특징짓는 값을 말한다. 그리고, 해당 오차의 대표치를 적어도 하나의 독립 변수로 하는 함수가 작아진 경우에 교차 검증 성적이 개선되었다고 판정하여,해당 설명 변수를 추가 또는 삭제한다. 이 교차 검증 성적 평가를, 설명 변수를 취사 선택하면서 순차적으로 반복하여 상기 함수의 개선을 계속한다. 개선되지 않게 되면 교차 검증 성적을 최적화한 것으로 하여 설명 변수의 취사 선택을 종료한다. 그 결과, 취사 선택에 의해 좁힌 수의 설명 변수로 이루어지는 최적인 부분 최소 제곱법 모델이 얻어진다. 구체적으로는, 계산 수단에 있어서 계산되는 교차 검증 성적의 수치 지표로서 예상 잔차 제곱합 (PRESS) 을 채택하여, 평가 판정 수단에 있어서 예상 잔차 제곱합의 값이 설명 변수당 일정한 역치 이하의 비율로 작아지는 경우에 그 설명 변수를 채택한 것으로 판정하는 것에 의해, 상기 처리가 실행 가능하다.
인과 관계형 해석 수법에 있어서는 오버 피팅 (over fitting) 을 피하기 위한 연구가 필요하다. 여기서 말하는 오버 피팅이란, 설명 변수가 지나치게 많기 때문에, 가끔 예측 결과와 실적이 일치하지만, 본래의 상관 관계를 잘못 파악함으로써 모델 피팅에 사용한 데이터 외에 예측 능력을 가지지 않는 것을 말한다. 여기서는, 상관 모델로서 부분 최소 제곱법을 사용하지만, 부분 최소 제곱법은 차원 압축과 모델 피팅을 동시에 실시하는 강력한 다변량 해석 수법으로, 오버 피팅의 문제에 비교적 강하다고 여겨지고 있다. 그러나 유전자 발현 상태 해석과 같이 방대한 변수를 취급하는 경우에는, 유의한 결과가 얻어지지 않는 사태에 직면한다. 종래 기술로서 설명한 Alaiya 나 Khan 의 수법은 전체 변수 모델이 유의하게 성립하는 것을 전제로 하기 때문에, 변수를 좁히는 데에는 일반적으로 적용할 수 없다. 이에 대하여, 본 발명에서는, 교차 검증 예측 결과를 최적화할 수 있도록 변수를 좁힘으로써, 오버 피팅을 줄일 수 있었다. 또한, 본 발명은, 상기 Khan 의 수법과는 달리, 주성분 분석 등의 전처리를 통하지 않는 방법이다. 종래 기술에서는, 설명 변수가 방대한 경우에는 유의한 모델을 얻을 수 없기 때문에, 미리 전체 설명 변수를 바탕으로 예를 들어, 주성분 분석 등에 의해 차원 압축하는 전처리를 하고, 이것에 의해 얻어진 설명 변수에 의해 해석하는 방법이 사용된다. 그러나, 이 방법에서는, 구성한 모델로 예측을 실시하기 위해서는, 모델 구성의 바탕이 된 전체 설명 변수가 반드시 필요하게 되고, 예를 들어, 설명 변수가 유전자 발현량이면, 진단용 유전자 칩에 담지하는 유전자로는, 모델 구성에 사용한 유전자 전부가 필요하게 되거나, 또는 별도의 수법을 사용하여 변수를 선택할 필요가 생긴다. 한편, 본 발명에 있어서는, 설명 변수의 선택에 의해 설명 변수를 좁히고 있기 때문에, 예를 들어, 설명 변수가 유전자 발현량이면, 진단용 유전자 칩에 담지하는 유전자는 선택된 설명 변수에 상당하는 유전자를 담지하기만 하면 된다.
또, Todeschini 등은, 유기 화합물의 대기 중의 분해를 예측하기 위해, 유전적 알고리즘에 의해 교차 검증 성적을 최적화하도록 변수 선택을 실시하여, 중회귀 모델을 얻고 있다 (P. Gramatics, V. Consonni & R. Todeschini, Chemosphere 38(5), 1371-78 (1999)). 53 화합물과 175 기술자 (記述子) 로 모델을 구축하여 (Q2=0.79), 7 변수가 선택되고, 98 화합물의 예측을 실시하였다 (Q2=0.75). 교차 검증 성적을 최적화하도록 변수 선택을 실시하고 있는 점에서는, 본 실시형태와 동일한 수법이다. 그러나, 중회귀 모델을 채택하고 있기 때문에 설명 변수의 선택 과정을 통하여 선택되는 변수는 소수개에 머무를 수 밖에 없어, 복수의 유전자 발현량 및/또는 세포내 물질량의 해석에는 적용할 수 없다. 본 발명자들이 조사한 범위에서는, Q2나 PRESS 치를 최적화하는 방법에서는, 선발되는 설명 변수가 백 정도에서 수백 정도에 이르러, 중회귀 모델에서는 해석이 불가능해진다. 또한 Todeschini 등은, 설명 변수를 좁히기 위한 유효한 방법에 대해서 언급하고 있지 않다. 이것은, 원래의 설명 변수의 후보가 기껏해야 175 개로, 설명 변수를 좁히기 위해서 특별한 연구를 할 필요가 없기 때문이다. 유전자 발현 해석의 분야는 이것과는 전혀 달리, 수십에서 수백의 샘플수에 대하여 수백에서 수천, 수만의 설명 변수 후보가 존재한다. 따라서 지금까지와는 다른 연구가 필요하게 된다.
본 실시형태에서는, 생체 상태와 복수의 유전자 발현량 및/또는 세포내 물질량과의 상관 모델을 결정할 때, 교차 검증 성적을 적어도 독립 변수의 하나로서 갖는 함수를 최적화시키도록 설명 변수를 순차적으로 추가ㆍ제외함으로써 설명 변수를 선발하여, 양호한 상관 모델을 얻는다. 이러한 어프로치의 우위성은, 하기의 실시예로부터 추측되듯이, 다음과 같다.
1) 병이나 생체 현상의 배후에서 기능하고 있는 중요한 유전자나 메카니즘을 추정/특정할 수 있어, 깊은 이해가 가능하다.
2) 중요한 유전자 산물이나 세포내 물질만으로 범위를 좁힌 저렴한 진단용 재료 (DNA 칩, 항체 칩 등) 의 설계가 가능하게 된다.
본 실시형태에서는, 교차 검증 성적을 적어도 독립 변수의 하나로서 갖는 함수를 최적화하도록 설명 변수를 단계적으로 취사 선택하지만, 예를 들어 구체적으로는, 스텝ㆍ와이즈 (step wise) 법으로 대표되는 설명 변수를 선택하는 선택 수단과, 리브ㆍ원ㆍ아웃 (leave-one-out) 법으로 대표되는 교차 검증법에 부분 최소 제곱법을 적용하여 계산하는 계산 수단과, 상기 계산 수단의 결과를 평가하여 설명 변수의 채택, 비채택을 판정하는 평가 판정 수단을 조합하여 사용한다. 즉, m 개의 설명 변수 중에서 1 이상의 설명 변수를 선택하고, 이어서, 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하고, 다시 그 계산 결과를 평가하여, 선택한 설명 변수의 채택, 비채택을 판정한다. 이 평가 판정에서는, 계산 수단의 결과로부터, 각 계산에 있어서 제외된 샘플의 유전자 발현으로부터 예측되는 생체 상태를 나타내는 목적 변수치와, 상기 제외된 샘플의 생체 상태를 나타내는 목적 변수치의 오차의 대표치를 구하여, 적어도 해당 오차의 대표치를 독립 변수로서 갖는 함수인 해당 오차의 대표치의 단조 감소 함수의 값이 작아진 경우에 설명 변수의 취사 선택을 판정한다. 이와 같이, 선택 수단과 계산 수단과 평가 판정 수단을 사용하여, 적어도 부분 최소 제곱법 모델의 교차 검증 성적을 독립 변수로서 갖는 함수를 계속적으로 개선하여, 그 개선이 보이지 않게 될 때까지 개량함으로써 부분 최소 제곱법 모델을 결정한다. 또, 본 실시형태에서는, 샘플을 하나씩 순차 제외하고 있지만 (리브ㆍ원ㆍ아웃법), 그 대신에 복수의 샘플을 제외하여 교차 검증 성적을 평가할 수도 있고 (리브ㆍnㆍ아웃법), 또는 Khan 등에 의해 사용된 3 분할법 (three-fold) 등의 다른 방법을 사용할 수도 있다. 3 분할법에서는, 설명변수를 랜덤하게 셔플하여 3 개의 그룹으로 나눈다. 그 중 2 개의 그룹을 사용하여 모델을 구성하고, 나머지 1 개의 그룹에서 모델을 평가한다. 또한, 설명 변수의 선택 방법으로는 스텝 와이즈법, 비선형 알고리즘 (예를 들어 유전적 알고리즘 등) 을 사용할 수도 있고, 변수 선택에 관해서 미리 어떠한 조건이 나뉘어져 있으면, 거기에 맞춰서 탐색 범위를 한정할 수 있다.
다음으로, 데이터의 수집과 해석에 관해서 구체적으로 설명한다. 도 1 은, 유전자 발현 해석 시스템을 나타낸다. 데이터 수집을 위해, 미리 몇 개의 샘플에 대해서 진단 지표 (예를 들어 병의 타입 내지 진행 정도를 포함한다) 를 판정하고, 또한, 그 샘플된 것으로부터 세포액을 획득하여, DNA 칩을 사용하여 그 세포액 중의 많은 유전자 산물의 발현량을 측정한다. 측정에는, 공(共)초점형 레이저 스캐너 (예를 들면 Affymetrix 사, 428 어레이 스캐너: 10) 를 사용한다. 흡광도에 의해 mRNA 의 양이 측정된다. 이 데이터 수집은 공지된 방법이다. 측정 데이터는, 컴퓨터 (12) 로 보내져 해석된다. 컴퓨터 (12) 는, CPU (14) 를 구비한 통상적인 구성의 컴퓨터이고, 거기에 접속되는 기억 장치 (예를 들어 하드 디스크 장치: 16) 의 기록 매체 (예를 들어 하드 디스크) 에는 측정 데이터 (18) 나 해석 소프트 (20) 가 저장된다. 이 해석 소프트 (20) 를 사용하여 데이터 (18) 가 해석되고, 생체 상태와 유전자 발현량 등과의 상관 모델이 결정된다.
또, 설명 변수의 선택과, 교차 검증법에 부분 최소 제곱법을 적용하는 계산을 복수의 컴퓨터에서 실행시킬 수도 있다. 교차 검증 예측의 계산을 복수대의 컴퓨터에 분산시킴으로써 계산을 가속시킬 수 있다.
도 2 는, 컴퓨터 (12) 에 의해 실행되는 생체 상태와 유전자 발현량 등과의 상관 모델을 얻기 위한 데이터 해석 소프트 (20) 의 플로우차트를 나타낸다. 여기서는 간단히 설명하기 위해, 적어도 부분 최소 제곱법 모델의 교차 검증 성적을 독립 변수로서 갖는 함수로서 -PRESS 를 채택하고 있지만, 발명의 범위를 한정하는 것은 아니며, 실시예 2∼5 에서는 별도의 함수를 채택하고 있다. 우선, 상관 모델 작성용 데이터를 입력한다 (S10). 데이터는 예를 들어 DNA 칩을 사용하여 수집한 것이다. 입력 데이터 (샘플 집합) 는, 각각 목적 변수 (예를 들어 진단 지표) 와 m 개 (예를 들어 2000 개) 의 설명 변수 (예를 들어 유전자 발현량) 로 이루어진다. 또, 경우에 따라서는, 상기 서술한 데이터 (훈련 집합) 외에, 테스트 집합의 데이터를 입력한다. 여기서 테스트 집합이란 교차 검증의 평가를 위한 데이터군을 의미하는 것이 아니라, 모델 결정이 종료된 후에 모델의 예측력을 테스트하기 위한 데이터군이다.
우선, 초기 설정으로서, 선택된 설명 변수의 수를 0 으로 하고, 교차 검증 성적 (CV) 의 최선치 (CV0) 를 -∞로 한다 (S12). 다음에, 설명 변수를 선택한다. 우선, 설명 변수를 가리키는 번호 i 를 1 로 하고 (S14), 제 i 변수 (유전자 발현량) 를 임시로 채택하여 (S16), 부분 최소 제곱법을 실행함으로써 교차 검증 성적 (CV) 을 계산한다 (S18, 도 3 참조). 여기서, 리브ㆍ원ㆍ아웃 처리를 사용한다. 이것은, 예를 들어 50 개의 샘플로 이루어지는 훈련 집합에 있어서, 1 번에서부터 50 번 모두를 순차적으로 1 개씩 제외하고 나머지 49 개의 샘플에서예측한 결과와 그 때 제외한 1 개의 결과를 비교하여, 그 오차가 큰 경우에, 임시로 선택한 설명 변수 (제 i 변수) 가 적합하지 않은 것으로 판단하는 수법이다. 만약, 얻어진 성적 (CV) 이 현재의 최선치 (CV0) 보다 최적화된다면 (S20 에서 YES), 제 i 변수를 채택하고, 그리고 성적 (CV) 을 새로운 최선치 (CV0) 로 갱신한다 (S22). 그러나 얻어진 성적 (CV) 이 최선치 (CV0) 보다 크지 않으면 (S20 에서 NO), 제 i 변수를 채택하지 않는다 (S24). 그리고, 단계 S14 로 되돌아가 동일한 처리를 반복한다. 이 처리를 교차 검증 성적 (CV) 가 개선되지 않을 때 (S26 에서 NO) 까지 반복한다. 여기서, 상관 모델에 채택하는 설명 변수에 대해서는 하나씩 단계적으로 증가 (추가) 또는 감소 (제외) 하여 성적 (CV) 을 평가 판정하고 있다. 즉, 전체로서의 합치 정도가 좋아지도록 각 설명 변수를 해석에 추가할지 여부를 순차 판정하면서 설명 변수를 취사 선택하고, 이것을 전체로서의 합치 정도가 더 이상 좋아지지 않을 때까지 반복한다. 이상의 처리에서 개선이 있으면, 다시 단계 S14 의 처음 (i=1) 으로 되돌아가, 그때까지 선택되어 있는 설명 변수를 바탕으로, 다시 설명 변수의 선택을 반복한다. 또, 여기서는 모델의 예측력을 판단하기 위해, 훈련 집합과 테스트 집합에 미리 분할시켜 둔 데이터 집합을 사용하여 데이터를 해석하고 있고, 상기 서술한 해석은 훈련 집합을 사용하여 실시한 결과이기 때문에, 이 결과로부터 테스트 집합에 대해서 예측하여, 실측 데이터와의 합치도를 평가 (S28) 하고 있다. 이러한 평가는 반드시 필요한 것은 아니지만, 예측력을 판단하는 데에는 유효하다.
도 3 은, 리브ㆍ원ㆍ아웃 처리를 포함하는 교차 검증 성적 (CV) 의 계산 (도 2, S18) 의 플로우차트를 나타낸다. 여기서, 선택된 변수에 대해서 교차 검증 성적이 계산된다. 우선, PRESS 의 초기치를 0 으로 한다 (S180). 다음에, n 개의 집합내의 샘플을 가리키는 번호 j 를 1 로 하고 (S182), 제 j 샘플 이외의 n-1 개의 샘플에서 부분 최소 제곱법을 실행하여 (S184), 제 j 샘플의 목적 변수를 예측한다 (S186). 차의 제곱을 계산하여 PRESS 에 가산한다 (S190). 다음으로 번호 j 를 1 증가시켜 (S182), 동일하게 처리한다. 이것을 번호 j=n 까지 각 샘플에 대해서 반복한다. 얻어진 PRESS 는, 1 개의 샘플을 순차 제외하고 계산한 예측치와 실측치의 차의 평방합으로, 예측 오차를 나타내는 양이다. 이 예측 잔차 제곱합 PRESS 의 부호를 바꾼 것을 교차 검증 성적 (CV) 으로 한다 (S192).
본 실시형태에서는, 교차 검증법을 사용하여 입력 변수 (설명 변수) 를 단계적으로 하나씩 추가ㆍ제외하면서 교차 검증 성적 (CV=-PRESS) 을 최적화한다. 여기서, 설명 변수의 단계적인 추가ㆍ제외의 내용을 이해하기 쉽게 하기 위해, 이하에 더욱 구체적으로 5 개의 모델 구축 수법에 대해 설명한다. 이들은, 설명 변수의 순차적인 선택 순서가 다르다.
도 4 는, 제 1 모델 구축 수법을 나타낸다. 데이터 집합에 있어서 어떠한 설명 변수도 선택되지 않은 상태를 초기 상태로 한다 (S112). 다음으로, 1 번째의 설명 변수로부터 마지막 (m 번째) 의 설명 변수까지의 아직 선택되지 않은 설명 변수별로 순차적으로, 그 설명 변수를 선택한 경우에 교차 검증 성적이 개선되는지 여부를 리브ㆍ원ㆍ아웃 처리를 사용한 교차 검증 성적 평가 단계 (S118) 를 반복하면서 판정 (S120) 하고, 개선되는 경우에는 그 설명 변수를 추가한다 (S114∼S124). 이와 같은 개선과 추가가 없어질 때 (S126 에서 NO) 까지, 1 번째의 설명 변수로부터 상기 순차 판정 조작을 반복한다.
더욱 자세히 설명하면, 우선 초기 설정으로서, 선택된 설명 변수의 수 (NP) 를 0 으로 하고, 교차 검증 성적 (CV) 의 최선치 (CV0) 를 -∞로 한다 (S112). 다음에, 설명 변수를 선택한다. 우선, 변수 i 를 1 로 하고 (S114), 제 i 변수를 임시로 채택한다 (S116). 단 제 i 변수가 이미 채택되어 있으면 (S115 에서 YES), 단계 S114 로 되돌아간다. 다음으로, 부분 최소 제곱법을 실행하여, 교차 검증 성적 (CV) 을 계산한다 (S118). 여기서, 리브ㆍ원ㆍ아웃 처리를 사용한다. 만약에 얻어진 성적 (CV) 이 현재의 최선치 (CV0) 보다 최적화된다면 (S120 에서 YES), 제 i 변수를 채택하고, 그리고 성적 (CV) 을 새로운 최선치 (CV0) 로 갱신한다 (S122). 그러나 얻어진 성적 (CV) 이 최선치 (CV0) 보다 크지 않으면 (S120 에서 NO), 제 i 변수를 채택하지 않는다 (S124). 그리고, 단계 S114 로 되돌아가, 동일한 처리를 반복한다. 이 처리를 교차 검증 성적 (CV) 가 개선되지 않을 때 (S126 에서 NO) 까지 반복한다. 이상의 처리에서 개선이 있으면, 다시 단계 S114 로 되돌아가 새로운 루프를 시작한다. 여기서, 그때까지 선택되어 있는 변수를 바탕으로, 다시 변수의 선택을 반복한다. 이렇게 해서, 데이터 집합을 사용하여 선택된 변수를 사용한 상관 모델이 얻어진다.
도 5 는, 제 2 모델 구축 수법을 나타낸다. 이 수법에서는, 모든 설명 변수가 선택되어 있는 상태를 초기 상태로 한다 (S212). 다음에, 1 번째의 설명 변수로부터 마지막 (m 번째) 의 설명 변수까지의 선택되어 있는 설명 변수별로 순차적으로, 그 설명 변수를 제외한 경우에 교차 검증 성적이 개선되는지 여부를 리브ㆍ원ㆍ아웃 처리를 사용한 교차 검증 성적 평가 단계 (S218) 를 반복하면서 판정 (S220) 하고, 개선되는 경우에는 그 설명 변수를 제외시킨다 (S214∼S224). 이와 같은 개선과 제외가 없어질 때 (S226 에서 NO) 까지, 1 번째의 설명 변수로부터 상기 순차 판정 조작을 반복한다.
더욱 자세히 설명하면, 우선 초기 설정으로서, 선택된 설명 변수의 수 (NP) 를 m 으로 하고, 교차 검증 성적 (CV) 의 최선치 (CV0) 를 -∞로 한다 (S212). 즉, 모든 설명 변수를 선택한다. 다음에, 설명 변수 선택을 실시한다. 우선, 변수 i 를 1 로 하고 (S214), 제 i 변수를 임시로 제외한다 (S216). 단 제 i 변수가 이미 제외되어 있으면 (S215 에서 YES), 단계 S214 로 되돌아간다. 부분 최소 제곱법을 실행하여 교차 검증 성적 (CV) 을 계산한다 (S218). 여기서, 리브ㆍ원ㆍ아웃 처리를 사용한다. 만약에 얻어진 성적 (CV) 이 현재의 최선치 (CV0) 보다 최적화된다면 (S220 에서 YES), 제 i 변수를 제외시키고, 그리고 성적 (CV) 을 새로운 최선치 (CV0) 로 갱신한다 (S222). 그러나 얻어진 성적 (CV) 이 최선치 (CV0) 보다 크지 않으면 (S220 에서 NO), 제 i 변수를 제외시키지 않는다 (S224). 그리고, 단계 S214 로 되돌아가 동일한 처리를 반복한다.이 처리를 교차 검증 성적 (CV) 이 개선되지 않을 때 (S226 에서 NO) 까지 반복한다. 이상의 처리에서 개선이 있으면, 다시 단계 S214 로 되돌아가 새로운 루프를 시작한다. 여기서, 그때까지 선택되어 있는 변수를 바탕으로, 다시 변수의 선택을 반복한다. 이렇게 해서, 데이터 집합을 사용하여 선택된 변수를 사용한 상관 모델이 얻어진다.
도 6 는, 제 3 모델 구축 수법을 나타낸다. 이 수법은, 제 1 과 제 2 수법의 직렬적인 조합이다. 우선, 어떠한 설명 변수도 선택되지 않은 상태를 초기 상태로 한다 (S112). 다음에, 1 번째의 설명 변수로부터 마지막 (m 번째) 의 설명 변수까지의 아직 선택되지 않은 설명 변수별로 순차적으로, 그 설명 변수를 선택한 경우에 교차 검증 성적이 개선되는지 여부를 리브ㆍ원ㆍ아웃 처리를 사용한 교차 검증 성적 평가 단계를 반복하면서 판정하고, 개선되는 경우에는 그 설명 변수를 추가 선택하고, 그러한 개선과 추가가 없어질 때까지 1 번째의 설명 변수로부터 상기 순차 판정 조작을 반복한다 (S114∼S126). 다음에, 1 번째의 설명 변수로부터 마지막 (m 번째) 의 설명 변수까지의 선택되어 있는 설명 변수별로 순차적으로, 그 설명 변수를 제외한 경우에 교차 검증 성적이 개선되는지 여부를 리브ㆍ원ㆍ아웃 처리를 사용한 교차 검증 성적 평가 단계를 반복하면서 판정하고, 개선되는 경우에는 그 설명 변수를 제외시키고, 그러한 개선과 제외가 없어질 때까지 1 번째의 설명 변수로부터 상기 순차 판정 조작을 반복한다 (S214∼S226).
도 7 는, 제 4 모델 구축 수법을 나타낸다. 이 수법은, 제 3 수법의 변형이다. 우선, 어떠한 설명 변수도 선택되지 않은 상태를 초기 상태로 한다(S112). 다음에, 1 번째의 설명 변수로부터 마지막 (m 번째) 의 설명 변수까지의 아직 선택되지 않은 설명 변수별로 순차적으로, 그 설명 변수를 선택한 경우에 교차 검증 성적이 개선되는지 여부를 리브ㆍ원ㆍ아웃 처리를 사용한 교차 검증 성적 평가 단계 (S118) 를 반복하면서 판정 (S120) 하고, 개선되는 경우에는 그 설명 변수를 추가 선택한다 (S114∼S124). 그러한 개선과 추가가 없어질 때 (S126 에서 NO) 까지, 1 번째의 설명 변수로부터 상기 순차 판정 조작을 반복한다. 다음에, 1 번째의 설명 변수로부터 마지막 (m 번째) 의 설명 변수까지의 선택되어 있는 설명 변수별로 순차적으로, 그 설명 변수를 제외시킨 경우에 교차 검증 성적이 개선되는지 여부를 리브ㆍ원ㆍ아웃 처리를 사용한 교차 검증 성적 평가 단계 (S128) 를 반복하면서 판정 (S220) 하고, 개선되는 경우에는 그 설명 변수를 제외시킨다 (S214∼S224). 그러한 개선과 제외가 없어질 때 (S226 에서 NO)까지, 1 번째의 설명 변수로부터 상기 순차 판정 조작을 반복한다. 상기 순차 판정 추가 개선 단계 또는 상기 순차 판정 제외 개선 단계에서 적어도 한번 개선이 있으면 (S227 에서 YES), 단계 S112 로 되돌아가 상기 조작 (S112∼S227) 을 반복한다. 이것을 개선이 없어질 때 (S227 에서 NO) 까지 실시한다.
도 8 은, 제 5 모델 구축 수법을 나타낸다. 이 수법은, 제 1 과 제 2 스킴의 병렬적인 조합이다. 어떠한 설명 변수도 선택되지 않은 상태를 초기 상태로 한다 (S112). 다음에, 1 번째의 설명 변수로부터 마지막 (m 번째) 의 설명 변수까지의 설명 변수별로 순차적으로, 그 설명 변수가 선택되지 않은 경우에는 그 설명 변수를 선택한 경우에 교차 검증 성적이 개선되는지 여부를 리브ㆍ원ㆍ아웃처리를 사용한 교차 검증 성적 평가 단계 (S118) 를 반복하면서 판정 (S120) 하고, 개선되는 경우에는 그 설명 변수를 추가한다 (S114∼S124). 또 선택하는 설명 변수별로, 그 설명 변수가 이미 선택되어 있는 경우에는, 그 설명 변수를 제외시킨 경우에 교차 검증 성적이 개선되는지 여부를 리브ㆍ원ㆍ아웃 처리를 사용한 교차 검층 성적 평가 단계 (S218) 를 반복하면서 판정 (S220) 하고, 개선되는 경우에는 그 설명 변수를 제외시킨다 (S216∼S224). 그러한 개선과 추가 또는 제외가 없어질 때 (S126 에서 NO) 까지, 1 번째의 설명 변수로부터 상기 순차 판정 조작을 반복한다.
다음에, 제 4 모델 구축 수법 (도 7) 을 적용한 경우를, 표 1 의 데이터 집합을 예로서 설명한다. 이 데이터 집합에 대하여, 부분 최소 제곱법에 의한 해석을 사용하여 상관 모델을 구한다. 표 1 의 데이터에서는, 샘플의 수 (n) 는 10 이고, 또한 설명을 쉽게 하기 위해, 설명 변수의 수 (m) 는 19 로 적게 하고 있다. 표 1 에 있어서, p1 은 목적 변수를 나타내고, p2∼p20 은 설명 변수를 나타낸다 (단 표 1 에서는, 표시의 편의를 위해 p16 이후의 데이터를 생략하고 있다). 제 4 수법 (도 7) 의 단계 S114, S214 와는 달리, 설명 변수를 나타내는 i 는 p20 에서 p2 까지 거꾸로 순차 처리하는 것으로 하였다. CV 평가치로서 여기서는 예측 잔차 제곱합 (PRESS) 을 채택하였다. PRESS 가 작을수록, CV 평가치는 좋다. 초기 상태에서는, 채택된 설명 변수의 수 (NP) 는 0 이고, PRESS=∞(CV0=-∞) 이다.
[표 1]
10 개 샘플의 데이터
[표 2]
표 1 의 데이터에 대한 10 단계에서의 변수 선택 결과
앞서 서술한 것처럼, 변수는 p20 에서 p2 까지 역순으로 처리한다. 표 2 는, 표 1 의 샘플에 대해서, 좌단의 숫자는 변수의 취사 선택에 의해 개선이 보인10 의 단계를 나타낸다. 또, 0 은 초기 상태를 의미한다. 다음 열의 「추가」 와 「제외」는, 추가의 루프와 제외의 루프 처리인 것을 의미한다. 다음 열의 변수는, 추가 또는 제외된 변수를 나타낸다. 다음 열은, 교차 검증 성적 (PRESS 를 샘플수로 나눈 것) 을 나타낸다. 우단의 열은, 그 단계에서 선택되어 있는 변수를 나타낸다.
초기 상태에서는 변수가 전혀 없는 상태로, PRESS 는 ∞이다. 표 2 에 나타내는 바와 같이, 처음에 p20 을 설명 변수로서 채택하면 PRESS=0.111 이 되어, 초기치와 비교하여 개선되기 때문에 설명 변수 p20 의 추가를 실시한다. 다음으로, 변수 p19 를 추가하여 p19 와 p20 의 2 개를 설명 변수로 하면 PRESS=0.129 가 되어 개선되지 않기 때문에 p19 는 추가하지 않는다. 다음에, 설명 변수 p18 을 추가하면 PRESS=0.090 이 되어 개선되기 때문에, p18을 추가하여 p18 과 p20 을 설명 변수로 한다. 이하 동일하게 표 2 에 나타내는 바와 같이 계속된다 (여기서, p10 을 추가 채택하는 것은, 소수점 이하 4 째 자리에서 개선되어 있기 때문이다). 설명 변수 p20∼p2 의 1 회째 루프를 종료한 시점에서, 설명 변수가 p3, p6, p10, p16, p18 및 p20 으로 되고, PRESS=O.60 이 된다. 2 회째 루프에서는 설명 변수 p12 가 추가되고, PRESS=0.55 가 된다. 3 회째 루프에서는 추가에 의한 개선이 없어, 일단 S114∼S126 의 추가 처리를 종료하고, S214 로 옮긴다. 이 시점에서의 부분 최소 제곱법의 피팅 및 리브ㆍ원ㆍ아웃 예측 상황은 표 3 과 같다.
표 3 은, 10 의 샘플에 관해서, 표 2 의 7 에서 나타내는 단계까지 처리가진행된 시점에서의 부분 최소 제곱법의 피팅 및 리브ㆍ원ㆍ아웃 예측 상황을 나타낸다. 여기서, 모델 예측과 리브ㆍ원ㆍ아웃 예측의 각각에 있어서, 계산치와 실측치의 오차를 나타낸다. 그리고, 그 하측에 오차의 제곱 평균, 상관 계수 (R) 의 제곱 및 예측 상관 계수 (Q) 의 제곱을 나타낸다.
[표 3]
표 2 의 단계 7 에서의 처리 결과
다음에, 단계 S214 로부터 시작되는 제외 처리의 1 회째 루프에 있어서, 설명 변수 p10 과 p20 을 제외시키는 것이 개선을 가져왔다. 2 회째 루프에서는 개선이 없어 단계 S214∼S226 를 종료하지만, 단계 S227 의 판단에 의해 다시 S112 로 되돌아간다. 다음에, 추가 처리의 1 회째 루프에 있어서, p13 의 추가만이개선을 가져왔지만, 이어지는 제외 처리의 1 회째 루프에서는 개선이 없었다. 다시 한번 단계 S112 로 되돌아가, 단계 S114∼S126 및 단계 S214∼S226 에서는 개선이 없어진 것을 확인하고, 처리를 종료하였다. 이렇게 해서 선택된 설명 변수는, p3, p6, p12, p13, p16 및 p18 의 5 개이고, PRESS=0.048 이 되었다. 상세한 것은 표 4 와 같다.
표 4 는, 표 2 의 단계 10 까지 처리가 진행된 시점에서의 부분 최소 제곱법의 피팅 및 리브ㆍ원ㆍ아웃 예측 상황을 나타낸다.
[표 4]
표 2 의 단계 10 에서의 처리 결과
또, 설명 변수의 수가 많을 때에 바람직하다고 여겨지는 부분 최소 제곱법이지만, p20∼p2 의 모두를 설명 변수로서 채택한 경우에는, 표 5 에 나타내는 바와같이 PRESS=0.124 가 되었다. 즉, 리브ㆍ원ㆍ아웃 처리는, 평균치로부터의 오차 (0.093) 보다도 나쁜 성적을 초래한다.
[표 5]
모든 설명 변수를 채택한 경우의 처리 결과
다음으로, 실시예를 들어 본 발명을 더욱 상세히 설명하지만, 본 발명은 이들 예에 의해 하등 한정되지 않는다.
실시예 1: 부분 최소 제곱법의 교차 검증 성적을 고려한 특징 추출에 의한 DLBCL 환자의 데이터 해석.
P. O. Brown 등의 홈페이지 (http://llmpp.nih.gov/lymphoma/) 로부터 입수한 28 명의 DLBCL (림프종) 환자의 데이터를, 20 명의 데이터로 이루어지는 훈련 집합과 8 명의 데이터로 이루어지는 테스트 집합으로 나눴다. 목적 변수로 생존 월수를 채택하고, 설명 변수로는 18432 스폿 중, 28 데이터에 있어서 ch1, ch2 가 모두 양수가 되는 12832 스폿의 log(ch1/ch2) 치를 채택하였다.
훈련 집합에 있어서 부분 최소 제곱법 (PLS) 의 모델 결정을 시도하였다. 12832 변수 모두를 사용하여 부분 최소 제곱법을 해석한 결과, 리브ㆍ원ㆍ아웃 예측은 유의 (Q2>0.5) 하게 되지 않았다. 다음에 리브ㆍ원ㆍ아웃 예측 오차가 최소가 되도록 설명 변수를 단계적으로 하나씩 증감시켰다. 모델 구성 수법으로서는 전술한 제 3 모델 구성 수법에 있어서 설명 변수의 추가 및 제외의 순서 그리고 리브ㆍ원ㆍ아웃 처리에 있어서의 샘플의 제외 순서가 상이한 것 외에는 동일한 방법을 사용하였다. 즉, 어떤 설명 변수도 선택되지 않은 상태를 초기 상태로 한다 (S112). 다음에, 마지막 (m 번째) 의 설명 변수로부터 최초 (1 번째) 의 설명 변수까지의 아직 선택되지 않은 설명 변수별로 순차적으로, 그 설명 변수를 선택한 경우에 교차 검증 성적이 개선되는지 여부를, 리브ㆍ원ㆍ아웃 처리 (여기서는, 마지막 (n 번째) 의 샘플로부터 최초 (1 번째) 의 샘플을 순차적으로 제외하였다) 를 사용한 교차 검증 성적 평가 단계를 반복하면서 판정하고, 개선되는 경우에는 그 설명 변수를 추가 선택하고, 그와 같은 개선과 추가가 없어질 때까지 m 번째의 설명 변수로부터 상기 순차 판정 조작을 반복한다 (S114∼S126). 다음에, 마지막 (m 번째) 의 설명 변수로부터 최초 (1 번째) 의 설명 변수까지의 선택되어 있는 설명 변수별로 순차적으로, 그 설명 변수를 제외시킨 경우에 교차 검증 성적이 개선되는지 여부를, 리브ㆍ원ㆍ아웃 처리 (여기서도 최후 (n) 샘플로부터 순차적으로 제거시켰다) 를 사용한 교차 검증 성적 평가 단계를 반복하면서 판정하고, 개선되는 경우에는 그 설명 변수를 제외하고, 그와 같은 개선과 제외가 없어질 때까지 마지막 (m 번째) 의 설명 변수로부터 상기 순차 판정 조작을 반복한다 (S214∼S226). 그 결과, 유의한 모델 (R2=0.988, Q2=0895, NP=342) 을 얻었다. 도 9 는, 이 데이터에 관한 최소 제곱법 성적을 나타낸다. 도 9 에 있어서, 마름모꼴 (fit) 은 훈련 집합의 데이터 (20 명) 를 나타내고, 삼각형 (cv) 은, 그들에 대한 교차 검증 성적의 데이터를 나타낸다. 또한, 사각형 (test) 은 테스트 집합의 데이터 (8 명) 를 나타낸다. 얻어진 부분 최소 제곱법 모델은, 테스트 집합 중, 4/8 을 매우 양호하게, 또한 1/8 을 양호하게 예측하는 것이었다.
또, 상기 서술한 다변량 해석에 의한 데이터 해석에서는, 취급한 샘플은 DNA 칩을 사용하여 얻은 데이터였다. 그러나, 이 데이터 해석은, DNA 칩을 사용하여 얻은 데이터에 한정되는 것이 아니라, 단백질 발현량, 세포내 물질량 등과 같은 데이터에 대해서도 유용할 것이라는 사실을 용이하게 추측할 수 있다.
이하의 실시예 2∼7 에서는, 부분 최소 제곱법을 사용하여 선발한 적은 개수의 설명 변수에 대해서, 통상의 통계적 수법 또는 다변량 해석 수법 (비례 해저드법, 중회귀 분석, 적응 최소 제곱법, 로지스틱스 회귀 분석법, 선형 판별 분석법 등) 을 적용한다.
실시예 2: 부분 최소 제곱법의 교차 검증 성적을 고려한 특징 추출과 비례해저드 해석에 의한 240 명의 DLBCL 환자의 생존 시간 해석.
Rosenwald 등이 웹 상 (http://llmpp.nih.gov/DLBCL/) 에서 공개하고 있는 240 명의 DLBCL (미만성 대세포형 B 림프종) 의 데이터 세트를 다운로드하여 사용하였다. 전체 데이터를 훈련 집합으로서 이용하였다. 스폿 패턴에서 χ1 또는 χ2 가 0 이 되는 것을 제외한 7399 스폿에 대해 log(χ1/χ2) 를 계산하여 설명 변수로 하였다. 본 실시예에서는 실시예 1 과 달리, 생존 시간으로서 관측 중단 시간과 사망 시간이 혼재되어 있는 것을 고려하여 카플란-마이야 (Kaplan-Meier) 법에 의한 생명표를 적용하여 사상(事象) 발생 시점에서의 생존 확률 (PKM) 을 구하고, 로짓 변환 (log(PKM/1-PKM)) 한 값을 목적 변수로 하였다. 카플란-마이야법에 의한 생명표는 집단으로서의 생존 확률을 나타내지만, 여기서는, 개인 (j) 을 포함하는 집단으로서의 사상 발생 시점에서의 잔존 확률 (변화가 발생하지 않았던 것이 잔존하는 확률) 을 개인 (j) 의 사상 발생 시점에서의 잔존 시간으로 바꿔 읽는다는 신규한 사고 방식을 사용하고 있다. 또한, 이 확률을 로짓 변환하여, 변화의 발생 경향을 표현하는 로짓치로 변환하여 목적 변수로 하였다. 훈련 집합 내의 교차 검증은 리브ㆍ원ㆍ아웃법에 의해 실시하고, PRESS ×1.02NP가 작아지도록 파라미터를 순차 취사 선택하여 부분 최소 제곱 모델을 얻었다. 여기서, 교차 검증 성적 (CV=-PRESS) 대신에, 적어도 교차 검증 성적을 독립 변수로서 갖는 함수의 하나인 함수 -PRESS ×1.02NP를 개선하여 부분 최소 제곱법 모델을 얻었다. 여기서 PRESS 는 리브ㆍ원ㆍ아웃 예측의 잔차 제곱합이고, NP 는 선택된 설명 변수의 수이다.
도 7 의 플로우 중의 교차 검증 성적 (CV) 을 -PRESS ×1.02NP로 바꿔 읽어 처리를 실행함으로써, 하기 19 개의 유전자의 발현이 설명 변수로서 선발되었다. 여기서 data ID 는 원래의 웹 데이터에서의 ID 번호를 나타낸다. 또한 ACCESSION 은 GenBank 의 접근 번호이고, 접근 번호가 없는 행은 원래의 데이터에서만 분명하게 되어 있는 유전자 (Unknown) 내지 EST 이며, 논문에 기재된 방법에 의해 입수할 수 있다.
이들의 유전자의 발현을 설명 변수의 후보로 하여 비례 해저드 (hazard) 해석을 시도하였다. 비례 해저드법이란, 생존률의 해석에 시간을 고려한 통계적 수법이다. 해석의 실행은 프로그램 패키지 JMP (JMP Sales SAS Campus Drive Cary, NC 27513 USA) 를 사용하여 실시하였다. 변수 삭제 기준으로서 P≥0.05를 채택한 변수 감소법에 의해 더욱 좁힌 결과, 14 유전자의 발현으로 이루어지는 이하의 비례 해저드식이 얻어졌다. 여기서 Genbank (유전자 은행) 의 접근 번호 내지 data ID 로 나타내는 각 항은, 각 유전자의 log(χ1/χ2) 값이고, 또한 P 는 통계적인 유의성이 성립하지 않는 위험률이다. 이 식의 우변에서 구해지는 해저드치 (hazard) 가 클수록, 사망 경향이 크다.
hazard=0.370 # (27104) +0.589 AK001546-0.366 # (31372)-0.276 U15085
-0.307 # (16113) +0.409 M23452 -0.350 # (24433)-0.297 X00437
+0.321 U12979 -0.585 X52479 -0.457 U70426 +0.561 AA830781
-0.430 H57330 +0.433 S69790
p<0.0001
Rosenwald 등은, 단일 상관의 비례 해저드 해석을 실시하여, 5 군 (17 유전자) 의 진단 지표를 선발하고 있다. 도 10 에, 본 실시예에서 얻어진 해저드치 (Hazard, 도면 중 Hazard (pls(14)) 로 나타내었다) 와 Rosenwald 등의 진단 지표가 어느 정도 생존 시간을 설명하고 있는가를 비교하였다. Rosenwald 등에 의한 5 군의 파라미터를 동시에 사용한 비례 해저드식에서는 Prolifiration 파라미터가 P>0.05 로 통계적으로 유의하지 않다는 등의 문제를 가지고 있어, 이것을 제외한 4 군의 파라미터를 동시에 포함시킨 해저드치도 비교를 위해 게재하였다 (도면 중 Hazard (Rosenwald/4 para) 로 나타내었다). 여기서, 마름모꼴은 사망한 사람 또는 중단된 사람의 데이터를 나타내고, 사각형은 생존하고 있는 사람의 데이터를 나타낸다.
이들 진단 지표 중, 본 실시예에서 구한 해저드치와 생존 시간의 상관은 매우 명백하다. 즉 해저드치는 생존 시간에 따라서 감쇠하고 있고, 해저드치가 큰 환자는 오래 셍존하는 것이 불가능함을 나타내고 있다. 한편, Rosenwald 등의 지표는 어느 것이나 생존 시간을 진단하기에는 불충분한 것이다. 수백, 수천이라는 수의 파라미터 중에서 효율적으로 최적의 파라미터 세트를 발견하는 것은 비례 해저드 해석만으로는 불가능한 것이다. 그러나 이상과 같이 카플란-마이야법, 로짓 변환, 부분 최소 제곱법의 교차 검증 성적을 고려한 특징 추출, 및 비례 해저드 해석을 조합함으로써, 종래에는 없던 유효한 진단 지표를 얻을 수 있었다. 통계학적으로 이질적인 모델을 이와 같이 조합함으로써 이러한 양호한 결과가 얻어진 것은 의외이기도 하며, 흥미깊은 사실이었다. 환자의 생존 시간을 예측하는 것은, QOL 을 포함한 치료 계획이나 인생 설계 등을 판단하는 데에 있어서 중요한 정보를 제공하는 것으로, 본 실시예에서 구해진 진단 모델은 사회적으로 가치가 있는 것이다.
또, 변수 삭제 기준으로서 P≥0.001 을 채택한 변수 감소법에 의해 더욱 좁히면, 6 유전자의 발현으로 이루어지는 이하의 비례 해저드식이 얻어졌다. 이와 같이, 변수 삭제 기준을 바꾸는 것에 의해 선택되는 설명 변수의 수를 제어할 수 있다.
hazard = -0.426 U15085 +0.350 M23452 -0.521 X52479
-0.450 U70426 -0.586 H57330 +0.476 S69790
도 11 은, 우변을 계산하여 구해지는 해저드치를 세로축으로 하고, 생존 시간을 가로축으로 한 플롯을 나타낸다. 도 10 과 마찬가지로, 도 11 에 있어서, 마름모꼴은 사망한 사람 또는 중단된 사람의 데이터를 나타내고, 사각형은 생존하고 있는 사람의 데이터를 나타낸다.
실시예 3: 부분 최소 제곱법의 교차 검증 성적을 고려한 특징 추출과 비례 해저드 해석에 의한 40 명의 유방암 환자의 생존 시간 해석.
Sorle 등이 웹 상 (http://genome-
www.stanford.edu/breast_cacer/mopo_clinical/) 에서 공개하고 있는 유방암 환자의 데이터 세트를 다운로드하여 사용하였다. 전체 데이터를 훈련 집합으로서 이용하였다. 데이터 세트의 대부분은, 타입 A, B 라는 2 종류의 DNA 칩에서 측정된 각각 40 명, 24 명의 환자로 이루어지는데, 여기서는 타입 A 의 데이터를 사용하였다. 생존 시간 데이터로부터 실시예 2 와 마찬가지로 로짓치를 구하여, 목적 변수로 하였다. 설명 변수로는, 데이터에 측정 결합이 있는 유전자를 제외한 6891 건의 LOG_RAT2N_MEAN 치를 채택하였다. 그리고, 적어도 교차 검증 성적을 독립 변수로서 갖는 함수의 하나인, 교차 검증 성적과 설명 변수 (NP) 의 함수 PRESS ×1.13NP가 작아지도록 파라미터를 순차 취사 선택하여 부분 최소 제곱법 모델을 얻었다. 도 7 의 플로우 중의 교차 검증 성적 (CV) 을 -PRESS ×1.13NP로 바꿔 읽어 처리를 실행함으로써, 하기 10 개의 유전자의 발현이 설명 변수로서 선발되었다.
이들을 설명 변수의 후보로 하고, 비례 해저드 해석에 있어서 변수 삭제 기준으로서 P≥0.05 를 채택한 변수 감소법을 시도하여, 7 유전자의 발현으로 이루어지는 이하의 비례 해저드식이 얻어졌다. 여기서 접근 번호로 나타내는 각 항은 각각의 유전자의 LOG_RAT2N_MEAN 이다.
hazard = -0.821 AA406242 +1.556 AA598572 -1.074 H7335 +1.418 W84753
-1.290 AA703058 +2.182 N71160 +0.828 AA453345
p<0.0001 변수의 p<0.05
도 12 에, 우변을 계산하여 구해지는 해저드치를 세로축으로 하고, 생존 시간을 가로축으로 한 플롯을 나타낸다. 여기서도 해저드치가 우수한 진단 지표가 됨을 알 수 있다. 도 12 에 있어서, 마름모꼴은 사망한 사람 또는 중단된 사람의 데이터를 나타내고, 사각형은 생존하고 있는 사람의 데이터를 나타낸다.
변수 삭제 기준으로서 P≥0.001 을 채택한 변수 감소법에 의해 더욱 좁혔다.이것에 의해, 3 유전자의 발현으로 이루어지는 이하의 비례 해저드식이 얻어졌다. 이와 같이, 변수 삭제 기준을 바꿈으로써 설명 변수의 수를 제어할 수 있었다.
hazard = 1.453 AA598572 -1.473 AA703058 +1.071 AA453345
도 13 은, 우변을 계산하여 구해지는 해저드치를 세로축으로 하고, 생존 시간을 가로축으로 한 플롯을 나타낸다. 여기서, 마름모꼴은 사망한 사람의 데이터를 나타내고, 사각형은 생존하고 있는 사람의 데이터를 나타낸다.
실시예 4: 부분 최소 제곱법의 교차 검증 성적을 고려한 특징 추출과 중회귀 분석에 의한 40 명의 유방암 환자의 재발 예측 해석.
Sorle 등의 DNA 칩 A 에서 6891 유전자의 발현이 측정된 40 명의 환자를 데이터 세트로서 사용하였다. 재발의 유무를 목적 변수로 하고, PRESS ×1.10NP가 작아지도록 파라미터를 순차 취사 선택하여 11 유전자의 발현으로 이루어지는 부분 최소 제곱법 모델을 얻었다.
다음으로, 선발된 유전자 발현을 설명 변수로 하고, 재발의 유무를 목적 변수로 하여, 통상적인 다변수 해석법 중 하나인 중회귀 분석에 의해 판별 분석을 실행하였다. 해석의 실행은 프로그램 패키지 JMP 를 사용하여 실시하였다. 변수 삭제 기준으로서 P≥0.15 를 채택한 변수 감소법에 의해 더욱 좁힌 결과, 10 유전자의 발현으로 이루어지는 이하의 중회귀식이 얻어졌다. 이 식에서 계산되는 OLS 치가 양일 때는 재발 가능성이 높고, 음일 때는 낮다.
OLS = -0.215 AA434397 +0.227 T83209 -0.209 N53427 +0.139 N29639
+0.165 AA485739 +0.133 AA425861 -0.084 H84871 -0.193 T64312
+0.237 T59518 +0.176 AAO37488 -0.278
R2=0.84797, 판별 정답률 97.5%
위 식에 포함되는 각 파라미터를 각각 1 개 사용하여 판별 분석식을 작성한 경우의 P 치 및 결정 계수를 이하의 표 6 에 나타낸다.
[표 6]
단독으로는 유의하지 않은 (P>0.05) 파라미터가 3 개 존재하고, 또 어느 파라미터도 결정 계수가 작다. 따라서, 파라미터를 1 개씩 조사하는 것만으로는 위 식과 같은 양호한 판별식은 얻어지지 않았다. 또한 수백, 수천이라는 수의 파라미터 중에서 효율적으로 최적의 파라미터 세트를 발견하는 것은 중회귀 분석만으로는 불가능한 것이었다. 그러나, 이상과 같이, 부분 최소 제곱법의 교차 검증 성적을 고려하여 특징을 추출함으로써, 종래에 없던, 유효한 진단 지표를 얻을 수 있었다. 유방암의 재발 가능성을 예측하는 것은, QOL 을 고려한 치료 계획을 입안하고 판단하는 데에 있어서 현재 사회적으로 요청되고 있는 바이다.
실시예 5: 부분 최소 제곱법의 교차 검증 성적을 고려한 특징 추출과 적응최소 제곱법에 의한 40+24 명의 유방암 환자의 재발 예측 해석.
DNA 칩의 타입 A (40 명) 와 타입 B (24 명) 에 공통되는 3448 유전자에 한해서 해석을 시도하였다. PRESS ×1.17NP가 작아지도록 파라미터를 순차 취사 선택하여 부분 최소 제곱법 모델을 얻었다. 선발된 유전자 발현을 설명 변수로 하여, 적응 최소 제곱법에 의해 판별 분석을 실행한 결과, 다음 식이 얻어졌다. 다음 식에서 계산되는 ALS 치가 0.5 보다 크면 재발의 위험성이 존재한다.
ALS = 0.31 H11482 -0.29 T64312 -0.32 AA045340 +0.01
R2=0.65, eps=0.13, 판별 정답률 90.0%
하기 표 7 에 보이는 바와 같이, H11482 는 단일 상관에서는 유의하지 않고, 다른 변수와 동시에 사용함으로써 비로소 파악할 수 있었던 파라미터이다. 또한, 표 8 은, 위 식을 사용하여 타입 B 의 환자를 예측한 결과이다. 본 판별식의 감도=81.8%, 특이도=53.8% 로 되고, χ2=3.233(5%<p<10%), 예측 판별 정답률=66.7%, 라는 통계적으로 유의한 결과를 얻었다. 타입 A, B 는 DNA 칩의 구성의 다름에 근거하는 측정 오차가 존재한다고 생각되는 데이터임에도 불구하고, 타입 A 에서 훈련된 모델에 의해 타입 B 의 예측에 위험률 10% 이하로 성공한 것은 고무적인 결과이다.
또한, PRESS ×1.12NP가 작아지도록 선택한 경우에는, 이하의 유전자의 발현을 설명 변수로 하는 부분 최소 제곱법 모델을 얻었다.
H11482, T64312, R99749, T65211, AA427625, AA455506
이들을 설명 변수의 후보로 하고, 리브ㆍ원ㆍ아웃을 지표로 하여 더욱 좁힌 결과, 다음 판별식을 얻었다.
ALS = 0.53 H11482 -0.31 T64312 -0.33 R99749 -0.26 AA455506 +0.10
R2=1.00, eps=0.10, 판별 정답률 100.0%
파라미터를 1 개씩 조사하는 것만으로는, 위 식과 같은 양호한 판별식은 얻어지지 않았다. 또한 수백, 수천이라는 수의 파라미터 중에서 효율적으로 최적의 파라미터 세트를 발견하는 것은, 적응 최소 제곱법, 로지스틱스 회귀 분석, 그 밖의 판별 분석 수법만으로는 불가능한 것이다. 그러나, 이상과 같이, 부분 최소 제곱법의 교차 검증 성적을 고려하여 특징을 추출함으로써, 종래에 없던 유효한 진단 지표를 얻을 수 있었다.
[표 7]
파라미터의 교락 작용
[표 8]
타입 B 의 24 환자의 예측
실시예 6: 부분 최소 제곱법의 교차 검증 성적을 고려한 특징 추출과 로지스틱스 회귀 분석법 또는 선형 판별 분석법에 의한 40+24 명의 유방암 환자의 재발 예측 해석
실시예 5 에서의 첫 번째 적응 최소 제곱법에 의한 해석을 로지스틱스 회귀 분석법으로 치환한 경우, 다음 판별식이 얻어졌다.
LORA = 7.92 H11482 -5.69 T64312 -6.41 AA045340 -9.73
R2=0.63, x2=35.00 (p<0.0001), 판별 정답률 90.0%
우변에서 구해지는 LORA 치가 플러스인 경우에는 재발의 위험성이 존재한다. 계수의 비율이나 상관 계수는 실시예 5 의 적응 최소 제곱법의 경우와 다르지만, 각 환자의 식별 결과는 완전히 동일하였다. 또한 타입 B 의 환자를 예측한 결과도 표 7 과 동일하게 되었다.
다음에, 실시예 5 에서의 적응 최소 제곱법에 의한 해석을 선형 판별 분석으로 치환하고 해석하여, 다음 판별식이 얻어졌다.
LDA = 2.45 H11482 -2.35 T64312 -2.56 AA045340 -4.03
판별 정답률 80.0%
우변에서 구해지는 LDA 치가 플러스인 경우에는 재발의 위험성이 존재한다. 계수의 비율이나 상관 계수는, 실시예 5 의 적응 최소 제곱법의 경우와 다르고 각 환자의 식별 결과도 약간 다르지만, 대략 동일하였다. 또한, 타입 B 의 환자를 예측한 결과도 표 7 과 동일하게 되었다.
이상의 실시예 4, 5, 6 에서는, 유방암의 재발 유무를 목적 변수로 하고 있다. 따라서, 부분 최소 제곱법의 교차 검증 성적을 고려하여 특징을 추출하는 방법이, 목적 변수가 명의 척도나 순서 척도 등의 데이터인 경우에도 유효하다는 것을 알 수 있었다. 또, 명의 척도란, 대상 (샘플) 을 어느 분류에 속하는지 아닌지를 측정하여 나눌 때의 분류로서, 분류 사이에 대소나 순서는 없다. 또한, 순서 척도란, 대상의 특정한 분류에 대해서 측정하여 나눌 때의 분류로서, 분류 사이에 대소, 고저와 같은 순서가 있다.
실시예 7: 부분 최소 제곱법의 교차 검증 성적을 고려한 특징 추출과 비례 해저드 해석에 의한 40 명의 유방암 환자의 재발 시간 해석.
실시예 4 와 동일한 데이터를 사용하여, 재발의 시계열 데이터를 바탕으로 실시예 2 와 동일한 방법에 의한 구한 로짓치를 목적 변수로 하고, PRESS ×1.15NP가 작아지도록 파라미터를 순차 취사 선택하여 9 유전자의 발현으로 이루어지는 부분 최소 제곱법 모델을 얻었다. 이들 유전자 발현의 측정치를 설명 변수로 하고 비례 해저드 해석에 있어서 변수 삭제 기준으로서 P≥0.05 를 채택한 변수 감소법을 시도하여, 8 유전자로 이루어지는 이하의 비례 해저드식이 얻어졌다.
hazard = 1.122 AA448641 -1.781 R78516 -1.434 R05934 +2.165 W84753
-1.923 AA629838 +2.665 H08581 +1.875 AA045730+1.269 AI250654
P<0.0001
도 14 는, 우변을 계산하여 구해지는 해저드치를 세로축으로 하고, 재발 시간을 가로축으로 한 플롯을 나타낸다. 여기서, 마름모꼴은 재발하지 않는 사람의 데이터를 나타내고, 사각형은 재발된 사람의 데이터를 나타낸다. 여기서도 해저드치가 우수한 진단 지표로 되어 있어, 생존 시간에 한하지 않고, 시간과 함께 확률적으로 발생하는 생체 상태의 변화를 해석하는 수법으로서 본 발명의 수법이 유효함을 알 수 있다.
변수 삭제 기준으로서 P≥0.005 를 채택한 변수 감소법에 의해 더욱 좁힌 경우에는, 4 유전자의 발현으로 이루어지는 이하의 비례 해저드식이 얻어졌다.
hazard = 1.559 W84753 +2.265 HO8581 +1.473 AA045730 +1.237 AI250654
도 15 는, 우변을 계산하여 구해지는 해저드치를 세로축으로 하고, 재발 시간을 가로축으로 한 플롯을 나타낸다. 여기서, 마름모꼴은 재발하지 않은 사람의 데이터를 나타내고, 사각형은 재발된 사람의 데이터를 나타낸다.
실시예 8 : Genbank 접근 번호 H11482, T64312, AA045340 을 포함하는 유방암 재발성 진단용 DNA 칩의 작성과 측정.
실험 의학 별책 「게놈 기능 연구 프로토콜」(ISBN4-89706-932-7 C3047) p34-38 에 기재된 세키 나오히코, 나가스기 토모미, 히가시 다카노리, 요시카와 츠토무, 스즈키 오사무, 무라마츠 마사아키 등의 방법에 준하여 DNA 칩의 작성과 측정을 실시하였다. Genbank 접근 번호 H11482, T64312, AA045340 의 cDNA 를 사용하였다.
프로브용의 각 PCR 산물을 에탄올 (와코쥰야쿠, Cat# 057-00456) 로 침전시켜, 2㎍/㎕ 가 되도록 DDW 로 조정한다. 니트로셀룰로오스 (GibcoBRL Cat# 41051-012) 4㎎/㎖ 의 DMSO 용액을 등량 첨가하고, 잘 섞어서 100℃ 에서 5 분간 열 변성하고, 얼음 위에서 급랭한다. 이어서 실온으로 되돌려, DNA 스폿터 SPBIO2000 (히타치 소프트 엔지니어링) 을 사용하여 카르보디이미드 슬라이드 유리 (닛신보) 에 신속하게 스폿팅한다. 스폿의 건조를 확인한 후, Ultraviolet crosslinker (아마샴 팔마시아 바이오테크) 를 사용하여 60mJ/㎠ 로 자외 크로스링크 처리를 실시하고, 유리 래크에 세워서 실온 보존한다.
3% BSA, 0.2M NaCl, 0.1M Tris (PH 7.5), 0.05% Triton X-100 으로 이루어지는 블로킹액에 상기 마이크로 어레이를 담궈 약 30 분간 방치한다. 이어서, 유리에 부착되어 있는 용액을 잘 제거하여 37℃ 에서 건조시킨다. TE 버퍼 (PH 8.0, 닛뽄진 Cat# 316-90025) 로 3 회 가볍게 세척하고, 플레이트 홀더에 넣어 가볍게 원심 (1000rpm, 1 분간) 시켜 여분의 수분을 제거한다.
다음으로, 유선 정상주 SV-40 및 유방암 세포주 MCF-7, MDA-MB-468 또는 T-47-D 의 각 세포액으로부터, TRIZOL (GibcoBRL, Cat# 15596-018), Oligotex dT30<Super> (TaKaRa, Cat# W9021A) 를 사용하여 매뉴얼에 따라서, mRNA 를 정제한다. 2㎍ 의 mRNA 를 DEPC 처리한 6.4㎕ 의 DDW 에 녹이고, 0ligo dT 프라이머 9㎕, 5 ×SuperScript Ⅱ 버퍼 (GibcoBRL, Cat# 18089-011) 6㎕, DTT (SuperScript의 부속) 3㎕, 50 ×dNTP 0.6㎕, Cy3-dUTP (아마샴 팔마시아 바이오테크 Cat# PA53022) 또는 Cy5-dUTP (아마샴 팔마시아 바이오테크 Cat# PA55022) 3㎕, SuperScript Ⅱ 2㎕ 로 이루어지는 용액을 첨가하여, 42℃ 에서 2 시간 반응시킨다. 도중 1 시간이 경과한 시점에서, SuperScript Ⅱ 를 1㎕ 추가한다. 1.5㎕ 알칼리 버퍼 (1N NaOH/20nM EDTA) 를 첨가하여 65℃ 에서 10 분간 반응시키고, TE 버퍼를 270㎕, 1N HCL 을 1.5㎕ 첨가하여, Cy3, Cy5 라벨의 반응액을 둘다 모아서 1 개의 Microcon-YM-30 (Millipore/Amicon, Cat# 42410) 으로 옮긴다. 10,000rpm 으로 위의 컵에 남는 액량이 약 10㎕ 가 될 때까지 원심을 계속하여, 컵을 빠져나가는 액을 별도의 튜브로 바꿔 옮긴 후, 위의 컵에 TE 버퍼 500㎕, Human Cot-1 DNA (GibcoBRL Cat# 15279-011) 20㎍ 을 첨가하여, 다시 액량이 10㎕ 이하가 될 때까지 원심을 계속한다. 3,000rpm 으로 3 분간 원심하여, 형광 표지한 DNA 를 회수한다. DDW 와 yeast RNA (Sigma, Cat# R7125) 50㎍, poly(A) (로슈 다이아그노스틱스, Cat# 108 626) 50㎍ 을 첨가하여 20㎕ 로 하고, PCR 용의 튜브에 바꿔 옮긴 후, 다시 4.25㎕ 20 ×SSC (GibcoBRL, Cat# 15553-035) 와 0.75㎕ 10% SDS (GibcoBRL, Cat# 15553-035) 을 첨가하여, PCR 용 기기에서 100℃, 1 분간 열변성시키고, 이어서 실온에서 30 분간 방치하여 천천히 냉각한다.
형광 표지한 DNA의 전량을 커버 유리에 올리고, 기포가 들어가지 않도록 주의하면서 상기 마이크로 어레이에 씌워, 물로 적신 페이퍼 와이퍼를 바닥에 깐 하이브리다이제이션 챔버에 넣고 밀폐한다. 매분 2∼4 사이클로 가볍게 흔들면서 65℃ 에서 하룻밤 하이브리다이즈한다. 하이브리다이제이션 챔버로부터 마이크로 어레이를 꺼내어, 커버 유리가 놓인 상태인 채로 조심스럽게 2 ×SSC/0.1% SDS 용액 중에 넣고 5 분간 쉐이킹하여 커버 유리가 자연적으로 벗겨지는 것을 기다린다. 커버 유리가 벗겨진 시점에서 마이크로 어레이를 슬라이드 유리 래크에 넣고, 다시 한번 2 ×SSC/0.1% SDS 용액 중에서 5 분간 가볍게 흔들어 세척한다. 또 0.2 ×SSC/0.1% SDS 40℃ 에서 5 분간 2 회 세척하고, 0.2 ×SSC 로 린스한다. 마이크로 어레이를 별도의 마른 프리퍼레이션 케이스로 옮겨, 마이크로 타이터 플레이트용 원심기에 의해 가볍게 원심하여 (1000rpm, 1 분 실온) 마이크로 어레이 위의 수분을 제거한다. 그리고, ScanArray 4000 (GSI luminonics 사) 로 시그널을 판독하고, 해석 소프트에는 Quant Array (GSI luminonics 사) 및 Chip Space (히타치 소프트웨어 엔지니어링) 를 사용한다.
실시예 9: 유전적 알고리즘에 의한 부분 최소 제곱법 모델의 최적화.
실시예 4 에서 사용한 Sorle 등의 DNA 칩 A 에서 6891 유전자의 발현이 측정된 40 명의 환자를 데이터 세트로서 사용하였다. 유전적 알고리즘은, 예를 들어, 이바 히토시고코로자시;「유전적 알고리즘의 기초」 (오옴사 (1994)) 에 설명되어 있다. 상기 데이터를 사용하여, 유전적 알고리즘에 의한 설명 변수를 선택하였다. 이하에 있어서 「」로 구분된 용어는 유전적 알고리즘에서 통상 사용되는 전문 용어이고, 특히 필요한 경우에는 해설을 추가하고 있다. 「적합도」(fitness) 에는 -PRESS ×1.0.1Np를 채택하였다. 각 「개체」의 「유전형」은 설명 변수를 채택하는 경우에는 1, 채택하지 않은 경우에는 0 을 취하는 수열{b1, b2, b3, …} 로 하였다.
개체 집합의 사이즈를 100 개로 하고, 초기 개체의 「유전형」(GTYPE) 은, 평균으로 min_of (Ns, Ng, 300)/2 개의 설명 변수가 채택되도록 난수 (random number) 를 사용하여 준비하였다. 여기서 Ns 는 샘플수 (환자수), Ng 는 설명 변수의 후보수, 300 은 설치 형편상 설정된 상수이다.
집합으로부터 랜덤하게 2 개의 개체를 선발하여, 「유전형」의 「균일 교차」를 실시한 것 중 한쪽을 새로운 「개체」로 하였다. 즉, 「각 유전자좌」마다 1/2 의 확률로 임의의 어느 하나의 「부모개체」의 수열치 (0 또는 1) 를 선택하여 그것을 대입한 것을 새로운 「개체」로 하였다. 계속해서 새로운 「개체」의 「각 유전자좌」마다, 1 의 경우 (설명 변수가 채택되어 있는 경우) 에는 1.1/채택된 설명 변수의 개수의 확률로, 0 의 경우 (채택되지 않은 경우) 에는 1.1/채택되지 않은 설명 변수 후보수의 확률로, 0 ←→1 을 반전시켰다.
상기 서술한 「교차ㆍ돌연 변이 오퍼레이션」에 의해 준비된 새로운 「개체」의 「적합도」와 랜덤하게 선발된 「토너먼트 상대」가 되는 집합 중의 「개체」의 「적합도」를 비교하여, 새로운 「개체」의 적합도가 우세한 경우에는 0.75 의 확률로, 열등한 경우에는 0.25 의 확률로 「개체」를 치환하였다. 단, 「토너먼트 상대」가 집합 중의 최적해의 것인 경우에는 치환을 금지한다는 「엘리트 전략」을 채택하였다.
이상의 「교차」→「돌연 변이」→「선발」 사이클을 반복하여 최적화하였다. 여기서는 사이클 수를 집합 사이즈로 나눈 것을 「세대수」라고 한다.최대 「세대수」의 초기치를 100 으로 하고, 새로운 최적해가 발견될 때마다 최대 「세대수」를 10 증가시키면서, 실행 「세대수」가 최대 「세대수」에 도달할 때까지 사이클을 반복하였다.
이상의 초기 집합의 준비∼최적화의 반복 및 종료에 이르는 일련의 처리를 일회의 런 (run) 으로 하여, 15 회의 런을 실시하였다. 도 16 은, 15 회의 런에서의 최적화의 모습을 정리하고 있다. 최선의 결과는 25 개의 설명 변수를 사용한 것이다.
실시예 10: 계층형 인공 뉴럴 네트워크 (MLP) 에 의한 모델 구축.
실시예 5 의 유방암 환자의 재발성 판별 해석에 있어서, DNA 칩 type A (40 명) 와 type B (24 명) 에 공통되는 3448 유전자로부터, PRESS ×1.17Np가 작아지도록 하여 PLS-CV 에 의해 특징 추출된 3 개의 설명 변수를 사용하였다.
해석 방법에 대해서 설명하면, MLP 는 3 층으로 하고, 중간층 (tk) 에 있어서 한번만 시그모이드 변환을 실시하는 구조로 하여, 도 17 의 4 개의 토폴로지를 시도하였다. 네트워크의 가중 (加重) 학습은 Back propagation (역 전파) 알고리즘에 의해 실시하였다. 중간층 (tk) 에 있어서 한번만 시그모이드 변환을 실시하는 3 층 MLP 를 사용하였다.
네트워크 토폴로지 I 및 토폴로지 Ⅱb 의 결과는 이하와 같았다. 또, 토폴로지 Ⅱa 및 토폴로지 Ⅱc 는, 토폴로지 Ⅱb 보다 떨어지는 것이었다.
실시예 11: 잠재 변수를 사용한 비례 해저드 모델의 구축.
실시예 3 의 PLS-CV 법으로 선발된 10 유전자의 발현량을 설명 변수로 하고, 목적 변수로서 생존 확률의 logit 치를 사용하여 PLS 의 해석 과정에서 작성되는 잠재 변수를 1 개 추출하였다. 그 추출한 잠재 변수를 설명 변수로 하여 비례 해저드 모델에 의한 해석을 시도한 결과, 작성된 식은 P≤0.0001 에서 유의하게 되었다. 도 18 에 우변을 계산하여 얻어지는 해저드치를 세로축으로 하고, 생존 시간을 가로축으로 한 플롯을 나타낸다.
본 기술에서 얻어진 해저드식의 예측 성능을 평가하기 위해, 사용한 40 예 중에서 1 예를 제외하고, 나머지 39 예의 데이터를 사용하여 해저드식을 작성하고, 제외한 1 예의 해저드치를 예측하였다. 39 예로부터의 해저드식에 의해 예측한 값과 40 예로부터의 해저드식으로부터의 계산치를 플롯한 도 19 에서, 본 기술은 해저드치의 예측에 있어서 양호한 성적을 나타내었다.
발명의 효과에 대해서 이하에 설명하면, 생체 상태와 복수의 유전자 발현량및/또는 세포내 물질량과의 상관 모델을 결정할 때, 설명 변수의 선택과 교차 검증법을 사용하여 변수를 좁힐 수 있다. 이것에 의해, 양호하고 또한 예측력있는 다변량 해석 모델 (상관 모델) 이 얻어진다. 특히 유전자 발현량과 같이, 설명 변수의 수가 예를 들어 1000 이상으로 방대한 경우에 유용하다. 변수의 수를 적게 함으로써 병이나 생체 현상의 배후에서 기능하는 중요한 유전자나 메카니즘을 추정/특정할 수 있어, 깊은 이해가 가능해진다. 또, 중요한 유전자 산물이나 세포내 물질만으로 범위를 좁힌 저렴한 진단용 재료 (DNA 칩, DNA 함유 벡터, 항체 칩 등) 를 설계하여, 제공할 수 있다.
또한, 시간과 함께 확률적으로 발생하는 생체 상태의 변화로부터 도출된 양을 목적 변수로서 사용하고, 시간과 함께 확률적으로 발생하는 생체 상태의 변화와 복수의 유전자 발현량 및/또는 세포내 물질량과의 상관 모델을 결정할 수 있다.
또한, 부분 최소 제곱법을 사용하여 설명 변수의 개수를 적게 하면, 통상의 통계적 수법 또는 다변량 해석 수법을 적용할 수 있게 된다.

Claims (61)

  1. 생체 상태 또는 시간과 함께 확률적으로 발생하는 생체 상태의 변화를 목적 변수로 하고, 복수의 유전자 발현량 및/또는 세포내 물질량을 설명 변수로 하는 상관 모델을 결정하는 데이터 해석 장치로서,
    생체 상태 또는 그것을 도출하는 데이터 또는 시간과 함께 확률적으로 발생하는 생체 상태의 변화에 관한 데이터와, 복수의 유전자 발현량 및/또는 세포내 물질량으로 이루어지는 샘플의 집합을 입력하는 입력 수단과,
    (1) 설명 변수를 선택하는 선택 수단과,
    (2) 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 계산 수단 또는 상기 생체 상태의 변화에 관한 데이터에 카플란-마이야법 또는 커틀러-에델러법에 의한 생명표를 적용하여 변화가 발생하지 않았던 것의 확률을 계산하여 얻어진 확률을, 가정된 분포에 기초한 변환 또는 가정을 전제로 하지 않는 변환을 하고, 그 변환 결과를 목적 변수로 하는 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 계산 수단과,
    (3) 상기 (2) 의 계산 수단의 결과를 평가하여, 설명 변수의 채택, 비채택을 판정하는 평가 판정 수단을 갖고,
    (4) 상기 (1) 의 선택 수단과 상기 (2) 의 계산 수단과 상기 (3) 의 평가 판정 수단을 실행하여 부분 최소 제곱법 모델의 적어도 교차 검증 성적을 독립 변수로서 갖는 함수를 계속적으로 개선하여 부분 최소 제곱법 모델을 결정하는 결정 수단을 구비하는 것을 특징으로 하는 데이터 해석 장치.
  2. 제 1 항에 있어서,
    목적 변수가 생체 상태이고, 상기 입력 수단에 의해 입력하는 데이터가 생체 상태 또는 그것을 도출하는 데이터이고, 상기 (2) 의 계산 수단이 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 계산 수단인 것을 특징으로 하는 데이터 해석 장치.
  3. 제 1 항에 있어서,
    목적 변수가 시간과 함께 확률적으로 발생하는 생체 상태의 변화이고, 상기 입력 수단에 의해 입력하는 데이터가 시간과 함께 확률적으로 발생하는 생체 상태의 변화에 관한 데이터이고, 상기 (2) 의 계산 수단이 상기 생체 상태의 변화에 관한 데이터에 카플란-마이야법 또는 커틀러-에델러법에 의한 생명표를 적용하여 변화가 발생하지 않았던 것의 확률을 계산하여 얻어진 확률을, 가정된 분포에 기초한 변환 또는 가정을 전제로 하지 않는 변환을 하고, 그 변환 결과를 목적 변수로 하는 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 계산 수단인 것을 특징으로 하는 데이터 해석 장치.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    추가로, 상기 결정 수단에서 결정된 부분 최소 제곱법 모델에 채택되어 있는설명 변수 또는 그 모델의 잠재 변수를 사용하여, 통계적 수법 또는 다변량 해석 수법에 의한 모델을 구축하는 최종 모델 결정 수단을 구비하는 것을 특징으로 하는 데이터 해석 장치.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 선택 수단에서, 설명 변수를 순차 취사 선택하는 것을 특징으로 하는 데이터 해석 장치.
  6. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 선택 수단에서, 유전적 알고리즘을 사용하여 설명 변수를 선택하는 것을 특징으로 하는 데이터 해석 장치.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 계산 수단에서, 1 개의 샘플을 순차 제외하고 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 것을 특징으로 하는 데이터 해석 장치.
  8. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 계산 수단에서, 복수의 샘플을 순차 제외하고 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 것을 특징으로 하는 데이터 해석 장치.
  9. 제 7 항 또는 제 8 항에 있어서,
    상기 계산 수단에서, 각 계산에서 제외된 샘플의 유전자 발현으로부터 예측되는 생체 상태를 나타내는 목적 변수치와, 상기 제외된 샘플의 생체 상태를 나타내는 목적 변수치의 오차의 대표치를 구하여, 교차 검증 성적의 지표로서 해당 오차를 사용하는 것을 특징으로 하는 데이터 해석 장치.
  10. 제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 함수가 교차 검증 성적인 것을 특징으로 하는 데이터 해석 장치.
  11. 제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 함수가 교차 검증 성적과 선택된 설명 변수의 개수와의 함수인 것을 특징으로 하는 데이터 해석 장치.
  12. 제 5 항에 있어서,
    상기 결정 수단에서, 적어도 교차 검증 성적을 독립 변수로서 갖는 함수를 개선하면서 평가 판정을 반복하는 것을 특징으로 하는 데이터 해석 장치.
  13. 제 1 항 내지 제 12 항 중 어느 한 항에 있어서,
    상기 (1) 의 선택 수단과 상기 (2) 의 계산 수단을 복수의 컴퓨터에서 실행시키는 것을 특징으로 하는 데이터 해석 장치.
  14. 제 1 항 내지 제 4 항 중 어느 한 항에서 결정된 상관 모델 및 예측 대상인 샘플에 대해서 해당 모델에 있어서 채택된 설명 변수를 입력하는 입력 수단과, 입력된 그 설명 변수에 기초하여 그 샘플의 생체 상태를 예측 판정하는 예측 판정 수단으로 이루어지는 것을 특징으로 하는 데이터 해석 장치.
  15. 제 2 항에 있어서,
    생체 상태를 명의 척도, 순서 척도 또는 연속량으로 표현하는 목적 변수로 하는 데이터 해석 장치.
  16. 제 2 항 또는 제 4 항에 있어서,
    최종 모델 결정 수단이 사용하는 상기 통계적 수법 또는 다변량 해석 수법이, 비례 해저드법 또는 파라메트릭 분포에 적용시킨 회귀 분석법인 것을 특징으로 하는 데이터 해석 장치.
  17. 생체 상태 또는 시간과 함께 확률적으로 발생하는 생체 상태의 변화를 목적 변수로 하고, 복수의 유전자 발현량 및/또는 세포내 물질량을 설명 변수로 하는 상관 모델을 결정하는 데이터 해석 방법으로서,
    생체 상태 또는 그것을 도출하는 데이터 또는 시간과 함께 확률적으로 발생하는 생체 상태의 변화에 관한 데이터와, 복수의 유전자 발현량 및/또는 세포내 물질량으로 이루어지는 샘플의 집합을 입력하는 입력 단계와,
    (1) 설명 변수를 선택하는 선택 단계와,
    (2) 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 계산 단계 또는 상기 생체 상태의 변화에 관한 데이터에 카플란-마이야법 또는 커틀러-에델러법에 의한 생명표를 적용하여 변화가 발생하지 않았던 것의 확률을 계산하여 얻어진 확률을, 가정된 분포에 기초한 변환 또는 가정을 전제로 하지 않는 변환을 하고, 그 변환 결과를 목적 변수로 하는 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 계산 단계와,
    (3) 상기 (2) 의 계산 단계의 결과를 평가하여, 설명 변수의 채택, 비채택을 판정하는 평가 판정 단계를 갖고,
    (4) 상기 (1) 의 선택 단계와 상기 (2) 의 계산 단계와 상기 (3) 의 평가 판정 단계를 실행하여 부분 최소 제곱법 모델의 적어도 교차 검증 성적을 독립 변수로서 갖는 함수를 계속적으로 개선하여 부분 최소 제곱법 모델을 결정하는 결정 단계로 이루어지는 것을 특징으로 하는 데이터 해석 방법.
  18. 제 17 항에 있어서,
    목적 변수가 생체 상태이고, 상기 입력 단계에서 입력되는 데이터가 생체 상태 또는 그것을 도출하는 데이터이고, 상기 (2) 의 계산 단계가 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 계산 단계인 것을 특징으로 하는 데이터 해석 방법.
  19. 제 17 항에 있어서,
    목적 변수가 시간과 함께 확률적으로 발생하는 생체 상태의 변화이고, 상기 입력 단계에서 입력되는 데이터가 시간과 함께 확률적으로 발생하는 생체 상태의 변화에 관한 데이터이고, 상기 (2) 의 계산 단계가 상기 생체 상태의 변화에 관한 데이터에 카플란-마이야법 또는 커틀러-에델러법에 의한 생명표를 적용하여 변화가 발생하지 않았던 것의 확률을 계산하여 얻어진 확률을, 가정된 분포에 기초한 변환 또는 가정을 전제로 하지 않는 변환을 하고, 그 변환 결과를 목적 변수로 하는 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 계산 단계인 것을 특징으로 하는 데이터 해석 방법.
  20. 제 17 항 내지 제 19 항 중 어느 한 항에 있어서,
    추가로, 상기 결정 단계에서 결정된 부분 최소 제곱법 모델에 채택되어 있는 설명 변수 또는 그 모델의 잠재 변수를 사용하여, 통계적 수법 또는 다변량 해석 수법에 의한 모델을 구축하는 최종 모델 결정 단계를 구비하는 것을 특징으로 하는 데이터 해석 방법.
  21. 제 17 항 내지 제 20 항 중 어느 한 항에 있어서,
    상기 선택 단계에서, 설명 변수를 순차 취사 선택하는 것을 특징으로 하는 데이터 해석 방법.
  22. 제 17 항 내지 제 20 항 중 어느 한 항에 있어서,
    상기 선택 단계에서, 유전적 알고리즘을 사용하여 설명 변수를 선택하는 것을 특징으로 하는 데이터 해석 방법.
  23. 제 17 항 내지 제 22 항 중 어느 한 항에 있어서,
    상기 계산 단계에서, 1 개의 샘플을 순차 제외하고 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 것을 특징으로 하는 데이터 해석 방법.
  24. 제 17 항 내지 제 22 항 중 어느 한 항에 있어서,
    상기 계산 단계에서, 복수의 샘플을 순차 제외하고 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 것을 특징으로 하는 데이터 해석 방법.
  25. 제 23 항 또는 제 24 항에 있어서,
    상기 계산 단계에서, 각 계산에 있어서 제외된 샘플의 유전자 발현으로부터 예측되는 생체 상태를 나타내는 목적 변수치와, 상기 제외된 샘플의 생체 상태를 나타내는 목적 변수치의 오차의 대표치를 구하여, 교차 검증 성적의 지표로서 해당 오차를 사용하는 것을 특징으로 하는 데이터 해석 방법.
  26. 제 17 항 내지 제 25 항 중 어느 한 항에 있어서,
    상기 함수가 교차 검증 성적인 것을 특징으로 하는 데이터 해석 방법.
  27. 제 17 항 내지 제 25 항 중 어느 한 항에 있어서,
    상기 함수가 교차 검증 성적과 선택된 설명 변수의 개수와의 함수인 것을 특징으로 하는 데이터 해석 방법.
  28. 제 21 항에 있어서,
    상기 결정 단계에서, 적어도 교차 검증 성적을 독립 변수로서 갖는 함수를 개선하면서 평가 판정을 반복하는 것을 특징으로 하는 데이터 해석 방법.
  29. 제 17 항 내지 제 28 항 중 어느 한 항에 있어서,
    상기 (1) 의 선택 단계와 상기 (2) 의 계산 단계를 복수의 컴퓨터에서 실행시키는 것을 특징으로 하는 데이터 해석 방법.
  30. 제 17 항 내지 제 20 항 중 어느 한 항에서 결정된 상관 모델 및 예측 대상인 샘플에 대해서 해당 모델에 있어서 채택된 설명 변수를 입력하는 입력 단계와, 입력된 그 설명 변수에 기초하여 그 샘플의 생체 상태를 예측 판정하는 예측 판정 단계를 포함하는 것을 특징으로 하는 데이터 해석 방법.
  31. 제 18 항에 있어서,
    생체 상태를 명의 척도, 순서 척도 또는 연속량으로 표현하는 목적 변수로 하는 데이터 해석 방법.
  32. 제 18 항 또는 제 20 항에 있어서,
    상기 통계적 수법 또는 다변량 해석 수법이, 비례 해저드법 또는 파라메트릭 분포에 적용시킨 회귀 분석법에 의한 모델을 구축하는 최종 모델 결정 단계를 포함하는 것을 특징으로 하는 데이터 해석 방법.
  33. 생체 상태 또는 시간과 함께 확률적으로 발생하는 생체 상태의 변화를 목적 변수로 하고, 복수의 유전자 발현량 및/또는 세포내 물질량을 설명 변수로 하는 상관 모델을 결정하는, 컴퓨터에 의해 실행되는 데이터 해석 프로그램으로서,
    생체 상태 또는 그것을 도출하는 데이터 또는 시간과 함께 확률적으로 발생하는 생체 상태의 변화에 관한 데이터와, 복수의 유전자 발현량 및/또는 세포내 물질량으로 이루어지는 샘플의 집합을 입력하는 입력 단계와,
    (1) 설명 변수를 선택하는 선택 단계와,
    (2) 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 계산 단계 또는 상기 생체 상태의 변화에 관한 데이터에 카플란-마이야법 또는 커틀러-에델러법에 의한 생명표를 적용하여 변화가 발생하지 않았던 것의 확률을 계산하여 얻어진 확률을, 가정된 분포에 기초한 변환 또는 가정을 전제로 하지 않는 변환을 하고, 그 변환 결과를 목적 변수로 하는 부분 최소 제곱법을 실행하여 교차 검증 성적을계산하는 계산 단계와,
    (3) 상기 (2) 의 계산 단계의 결과를 평가하여, 설명 변수의 채택, 비채택을 판정하는 평가 판정 단계를 갖고,
    (4) 상기 (1) 의 선택 단계와 상기 (2) 의 계산 단계와 상기 (3) 의 평가 판정 단계를 실행하여 부분 최소 제곱법 모델의 적어도 교차 검증 성적을 독립 변수로서 갖는 함수를 계속적으로 개선하여 부분 최소 제곱법 모델을 결정하는 결정 단계를 포함하는 것을 특징으로 하는 데이터 해석 프로그램.
  34. 제 33 항에 있어서,
    목적 변수가 생체 상태이고, 상기 입력 단계에서 입력되는 데이터가 생체 상태 또는 그것을 도출하는 데이터이고, 상기 (2) 의 계산 단계가 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 계산 단계인 것을 특징으로 하는 데이터 해석 프로그램.
  35. 제 33 항에 있어서,
    목적 변수가 시간과 함께 확률적으로 발생하는 생체 상태의 변화이고, 상기 입력 단계에서 입력되는 데이터가 시간과 함께 확률적으로 발생하는 생체 상태의 변화에 관한 데이터이고, 상기 (2) 의 계산 단계가 상기 생체 상태의 변화에 관한 데이터에 카플란-마이야법 또는 커틀러-에델러법에 의한 생명표를 적용하여 변화가 발생하지 않았던 것의 확률을 계산하여 얻어진 확률을, 가정된 분포에 기초한 변환또는 가정을 전제로 하지 않는 변환을 하고, 그 변환 결과를 목적 변수로 하는 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 계산 단계인 것을 특징으로 하는 데이터 해석 프로그램.
  36. 제 33 항 내지 제 35 항 중 어느 한 항에 있어서,
    추가로, 상기 결정 단계에서 결정된 부분 최소 제곱법 모델에 채택되어 있는 설명 변수 또는 그 모델의 잠재 변수를 사용하여, 통계적 수법 또는 다변량 해석 수법에 의한 모델을 구축하는 최종 모델 결정 단계를 구비하는 것을 특징으로 하는 데이터 해석 프로그램.
  37. 제 33 항 내지 제 36 항 중 어느 한 항에 있어서,
    상기 선택 단계에서, 설명 변수를 순차 취사 선택하는 것을 특징으로 하는 데이터 해석 프로그램.
  38. 제 33 항 내지 제 36 항 중 어느 한 항에 있어서,
    상기 선택 단계에서, 유전적 알고리즘을 사용하여 설명 변수를 선택하는 것을 특징으로 하는 데이터 해석 프로그램.
  39. 제 33 항 내지 제 38 항 중 어느 한 항에 있어서,
    상기 계산 단계에서, 1 개의 샘플을 순차 제외하고 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 것을 특징으로 하는 데이터 해석 프로그램.
  40. 제 33 항 내지 제 38 항 중 어느 한 항에 있어서,
    상기 계산 단계에서, 복수의 샘플을 순차 제외하고 부분 최소 제곱법을 실행하여 교차 검증 성적을 계산하는 것을 특징으로 하는 데이터 해석 프로그램.
  41. 제 39 항 또는 제 40 항에 있어서,
    상기 계산 단계에서, 각 계산에서 제외된 샘플의 유전자 발현으로부터 예측되는 생체 상태를 나타내는 목적 변수치와, 상기 제외된 샘플의 생체 상태를 나타내는 목적 변수치의 오차의 대표치를 구하여, 교차 검증 성적의 지표로서 해당 오차를 사용하는 것을 특징으로 하는 데이터 해석 프로그램.
  42. 제 33 항 내지 제 41 항 중 어느 한 항에 있어서,
    상기 함수가 교차 검증 성적인 것을 특징으로 하는 데이터 해석 프로그램.
  43. 제 33 항 내지 제 41 항 중 어느 한 항에 있어서,
    상기 함수가 교차 검증 성적과 선택된 설명 변수의 개수와의 함수인 것을 특징으로 하는 데이터 해석 프로그램.
  44. 제 37 항에 있어서,
    상기 결정 단계에 있어서, 적어도 교차 검증 성적을 독립 변수로서 갖는 함수를 개선하면서 평가 판정을 반복하는 것을 특징으로 하는 데이터 해석 프로그램.
  45. 제 33 항 내지 제 44 항 중 어느 한 항에 있어서,
    상기 (1) 의 선택 단계와 상기 (2) 의 계산 단계를 복수의 컴퓨터에서 실행시키는 것을 특징으로 하는 데이터 해석 프로그램.
  46. 제 33 항 내지 제 36 항 중 어느 한 항에서 결정된 상관 모델 및 예측 대상인 샘플에 대해서 해당 모델에 있어서 채택된 설명 변수를 입력하는 입력 단계와, 입력된 그 설명 변수에 기초하여 그 샘플의 생체 상태를 예측 판정하는 예측 판정 단계로 이루어지는 것을 특징으로 하는 데이터 해석 프로그램.
  47. 제 34 항에 있어서,
    생체 상태를 명의 척도, 순서 척도 또는 연속량으로 표현하는 목적 변수로 하는 데이터 해석 프로그램.
  48. 제 34 항 또는 제 36 항에 있어서,
    상기 통계적 수법 또는 다변량 해석 수법이, 비례 해저드법 또는 파라메트릭 분포에 적용시킨 회귀 분석법에 의한 모델을 구축하는 최종 모델 결정 단계를 포함하는 것을 특징으로 하는 데이터 해석 프로그램.
  49. 제 37 항에 있어서,
    상기 설명 변수의 선택에 있어서, 초기 상태에서는 설명 변수를 전혀 포함하지 않는 것을 특징으로 하는 프로그램.
  50. 제 37 항에 있어서,
    상기 설명 변수의 선택에 있어서, 초기 상태에서는 모든 설명 변수를 포함하는 것을 특징으로 하는 프로그램.
  51. 제 37 항 내지 제 50 항 중 어느 한 항에 있어서,
    상기 생체 상태가 병의 타입을 나타내는 측정치, 병의 중독도(重篤度)를 나타내는 측정치, 병의 타입을 나타내는 의료 진단의 결과, 병의 중독도를 나타내는 의료 진단의 결과, 또는 그것들을 2 차 가공한 수치인 것을 특징으로 하는 프로그램.
  52. 제 33 항 내지 제 48 항 중 어느 한 항에 기재된 프로그램을 기록한, 컴퓨터에 의해 판독 가능한 기록 매체.
  53. 실질적으로 유전자 은행 접근 번호가 U15085, M23452, X52479, U70426, H57330 및 S69790 으로 이루어지는 유전자군의 발현을 검출하는 것을 특징으로 하는 미만성 대세포형 B 림프종의 중독도 검정용 세포내 물질 측정 기재 (機材) 및 측정 방법 그리고 미만성 대세포형 B 림프종의 중독도 검정 방법.
  54. 제 53 항에 있어서,
    추가로 유전자 은행 접근 번호가 U03398, M65066, AK001546, BC003536, X00437, U12979, H96306, AA830781 및 AA804793 으로 이루어지는 군에서 선택되는 적어도 하나의 유전자의 발현을 검출하는 것을 특징으로 하는, 미만성 대세포형 B 림프종의 중독도 검정용 세포내 물질 측정 기재 및 측정 방법 그리고 미만성 대세포형 B 림프종의 중독도 검정 방법.
  55. 실질적으로 유전자 은행 접근 번호가 AA598572, AA703058 및 AA453345 로 이루어지는 유전자 산물을 함유하는 세포내 물질을 검출하는 것을 특징으로 하는 유방암의 중독도 검정용 세포내 물질 측정 기재 및 측정 방법 그리고 유방암의 중독도 검정 방법.
  56. 제 55 항에 있어서,
    추가로 유전자 은행 접근 번호가 AA406242, H73335, W84753, N71160, AA054669, N32820 및 R05667 로 이루어지는 군에서 선택되는 적어도 하나의 유전자 산물을 함유하는 세포내 물질을 검출하는 것을 특징으로 하는 유방암의 중독도 검정용 세포내 물질 측정 기재 및 측정 방법 그리고 유방암의 중독도 검정 방법.
  57. 실질적으로 유전자 은행 접근 번호가 W84753, H08581, AA045730 및 AI250654 로 이루어지는 유전자 산물을 함유하는 세포내 물질을 검출하는 것을 특징으로 하는 유방암의 재발성 검정용 세포내 물질 측정 기재 및 측정 방법 그리고 유방암의 재발성 검정 방법.
  58. 제 57 항에 있어서,
    추가로 유전자 은행 접근 번호가 AA448641, R78516, R05934, AA629838 및 H53037 로 이루어지는 군에서 선택되는 적어도 하나의 유전자 산물을 함유하는 세포내 물질을 검출하는 것을 특징으로 하는 유방암의 재발성 검정용 세포내 물질 측정 기재 및 측정 방법 그리고 유방암의 재발성 검정 방법.
  59. 실질적으로 유전자 은행 접근 번호가 AA434397, T83209, N53427, N29639, AA485739, AA425861, H84871, T64312, T59518 및 AA037488 로 이루어지는 유전자 산물을 함유하는 세포내 물질을 검출하는 것을 특징으로 하는 유방암의 재발성 검정용 세포내 물질 측정 기재 및 측정 방법 그리고 유방암의 재발성 검정 방법.
  60. 제 59 항에 있어서,
    추가로 유전자 은행 접근 번호가 AA406231 인 유전자 산물을 함유하는 세포내 물질을 검출하는 것을 특징으로 하는 유방암의 재발성 검정용 세포내 물질 측정기재 및 측정 방법 그리고 유방암의 재발성 검정 방법.
  61. 실질적으로 유전자 은행 접근 번호가 H11482, T64312 및 AA045340 으로 이루어지는 유전자 산물을 함유하는 세포내 물질을 검출하는 것을 특징으로 하는 유방암의 재발성 검정용 세포내 물질 측정 기재 및 측정 방법 그리고 유방암의 재발성 검정 방법.
KR10-2004-7015515A 2002-04-04 2003-03-31 데이터 해석 장치 및 방법 KR20040111456A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2002102743 2002-04-04
JPJP-P-2002-00102743 2002-04-04
JP2002352645 2002-12-04
JPJP-P-2002-00352645 2002-12-04
PCT/JP2003/004059 WO2003085548A1 (fr) 2002-04-04 2003-03-31 Dispositif et procede d'analyse de donnees

Publications (1)

Publication Number Publication Date
KR20040111456A true KR20040111456A (ko) 2004-12-31

Family

ID=28793526

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2004-7015515A KR20040111456A (ko) 2002-04-04 2003-03-31 데이터 해석 장치 및 방법

Country Status (8)

Country Link
US (1) US20050159896A1 (ko)
EP (1) EP1498825A1 (ko)
JP (1) JPWO2003085548A1 (ko)
KR (1) KR20040111456A (ko)
CN (1) CN1647067A (ko)
AU (1) AU2003220998A1 (ko)
CA (1) CA2481485A1 (ko)
WO (1) WO2003085548A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11410064B2 (en) * 2020-01-14 2022-08-09 International Business Machines Corporation Automated determination of explanatory variables

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050084907A1 (en) 2002-03-01 2005-04-21 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
US7747391B2 (en) 2002-03-01 2010-06-29 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
NZ552046A (en) * 2004-06-01 2010-05-28 Prophagia Inc Index and method of use of adapted food compositions for dysphagic persons
US7761267B2 (en) * 2004-10-26 2010-07-20 National University Corporation, Yokohama National University Multi-variable model analysis system, method and program, and program medium
JPWO2006088208A1 (ja) * 2005-02-21 2008-07-10 大日本住友製薬株式会社 生体の生理変化の予測方法および装置
WO2006098192A1 (ja) * 2005-03-16 2006-09-21 Ajinomoto Co., Inc. 生体状態評価装置、生体状態評価方法、生体状態評価システム、生体状態評価プログラム、評価関数作成装置、評価関数作成方法、評価関数作成プログラムおよび記録媒体
JP4714869B2 (ja) * 2005-12-02 2011-06-29 国立大学法人山口大学 有効因子抽出システム
EP1804172B1 (en) * 2005-12-20 2021-08-11 Roche Diagnostics GmbH PCR elbow determination using curvature analysis of a double sigmoid
JP5011830B2 (ja) * 2006-06-09 2012-08-29 富士通セミコンダクター株式会社 データ処理方法、データ処理プログラム、該プログラムを記録した記録媒体およびデータ処理装置
JP5725711B2 (ja) * 2006-08-10 2015-05-27 ミレニアム ファーマシューティカルズ, インコーポレイテッドMillennium Pharmaceuticals, Inc. 癌治療法を有する患者の同定、評価、および治療のための方法
JP5307996B2 (ja) * 2006-09-06 2013-10-02 株式会社Dnaチップ研究所 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム
WO2008035281A2 (en) * 2006-09-20 2008-03-27 Koninklijke Philips Electronics N.V. A molecular diagnostics decision support system
US8374795B2 (en) 2008-05-13 2013-02-12 Roche Molecular Systems, Inc. Systems and methods for step discontinuity removal in real-time PCR fluorescence data
JP2012256182A (ja) * 2011-06-08 2012-12-27 Sharp Corp データ解析装置、データ解析方法およびデータ解析プログラム
CN102539326B (zh) * 2012-01-13 2014-03-12 江苏大学 茶叶汤色品质的量化评价方法
JP5794160B2 (ja) * 2012-01-26 2015-10-14 富士通株式会社 説明変数の決定のための情報処理装置、情報処理方法及びプログラム
JP2014100249A (ja) * 2012-11-19 2014-06-05 Toshiba Corp 血管解析装置、医用画像診断装置、血管解析方法、及び血管解析プログラム
BR112015018449B1 (pt) 2013-01-31 2022-05-31 Codexis, Inc Método implementado por computador para identificar moléculas biológicas tendo uma atividade desejada, meio de armazenamento lido por computador, e, sistema de computação
CN103324866A (zh) * 2013-03-26 2013-09-25 张弘 Ripple系统
JP6059122B2 (ja) * 2013-10-11 2017-01-11 カルチュア・コンビニエンス・クラブ株式会社 顧客データ解析システム
US9928516B2 (en) * 2013-12-30 2018-03-27 Nice Ltd. System and method for automated analysis of data to populate natural language description of data relationships
WO2015189264A1 (en) * 2014-06-10 2015-12-17 Ventana Medical Systems, Inc. Predicting breast cancer recurrence directly from image features computed from digitized immunohistopathology tissue slides
US11244760B2 (en) 2015-06-25 2022-02-08 Karydo Therapeutix, Inc. Prediction device based on inter-organ cross talk system
EP3466446B1 (en) 2016-03-29 2023-12-27 Karydo Therapeutix, Inc. Pharmaceutical composition or food composition, and method for assessing effect of active ingredient in vivo
EP3640946A1 (en) * 2018-10-15 2020-04-22 Sartorius Stedim Data Analytics AB Multivariate approach for biological cell selection
JP7214672B2 (ja) * 2020-03-13 2023-01-30 株式会社東芝 情報処理装置、情報処理方法及びコンピュータプログラム
CN111652302B (zh) * 2020-05-28 2023-05-23 泰康保险集团股份有限公司 一种解释保险核保分类结果的方法、装置
CN117275220A (zh) * 2023-08-31 2023-12-22 云南云岭高速公路交通科技有限公司 基于非完备数据的山区高速公路实时事故风险预测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233011A (ja) * 1992-02-18 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 独立要因抽出法
JPH09167152A (ja) * 1995-12-19 1997-06-24 Hitachi Ltd 対話的モデル作成方法
WO2000070340A2 (en) * 1999-05-14 2000-11-23 Karolinska Innovations Ab Materials and methods relating to disease diagnosis
WO2002025405A2 (en) * 2000-09-19 2002-03-28 The Regents Of The University Of California Methods for classifying high-dimensional biological data

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11410064B2 (en) * 2020-01-14 2022-08-09 International Business Machines Corporation Automated determination of explanatory variables
US20220374748A1 (en) * 2020-01-14 2022-11-24 International Business Machines Corporation Automated determination of explanatory variables

Also Published As

Publication number Publication date
JPWO2003085548A1 (ja) 2005-08-11
CA2481485A1 (en) 2003-10-16
US20050159896A1 (en) 2005-07-21
EP1498825A1 (en) 2005-01-19
WO2003085548A1 (fr) 2003-10-16
CN1647067A (zh) 2005-07-27
AU2003220998A1 (en) 2003-10-20

Similar Documents

Publication Publication Date Title
KR20040111456A (ko) 데이터 해석 장치 및 방법
Tan et al. Ensemble machine learning on gene expression data for cancer classification
Feng et al. Research issues and strategies for genomic and proteomic biomarker discovery and validation: a statistical perspective
US20120066163A1 (en) Time to event data analysis method and system
US20110301863A1 (en) Prediction method for the screening, prognosis, diagnosis or therapeutic response of prostate cancer, and device for implementing said method
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
Kim et al. Prediction of colon cancer using an evolutionary neural network
CN114927162A (zh) 基于超图表征与狄利克雷分布的多组学关联表型预测方法
Win et al. Cancer recurrence prediction using machine learning
Chen Key aspects of analyzing microarray gene-expression data
Dougherty et al. Genomic signal processing: Diagnosis and therapy
Alatrany et al. Transfer learning for classification of Alzheimer's disease based on genome wide data
Nayak et al. Deep learning approaches for high dimension cancer microarray data feature prediction: A review
Ahmad et al. A review of feature selection techniques via gene expression profiles
Moore Cross validation consistency for the assessment of genetic programming results in microarray studies
El Rahman et al. Machine learning model for breast cancer prediction
Mamoshina et al. Testing for batch effect through age predictors
US20070088509A1 (en) Method and system for selecting a marker molecule
Jaroszewicz et al. The Goodman-Kruskal coefficient and its applications in genetic diagnosis of cancer
Wagala Problems in Statistical Genetics: Classification and Testing for Network Changes
US20240047081A1 (en) Designing Chemical or Genetic Perturbations using Artificial Intelligence
Ruan et al. The use of logic relationships to model colon cancer gene expression networks with mRNA microarray data
Aouf et al. Gene Expression Data For Gene Selection Using Ensemble Based Feature Selection
Hardin Microarray data from a statistician’s point of view
Mohsen Network Approaches to the Study of Genomic Variation in Cancer

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid