KR20180082472A - 데이터 해석 장치, 방법 및 프로그램 - Google Patents

데이터 해석 장치, 방법 및 프로그램 Download PDF

Info

Publication number
KR20180082472A
KR20180082472A KR1020187014814A KR20187014814A KR20180082472A KR 20180082472 A KR20180082472 A KR 20180082472A KR 1020187014814 A KR1020187014814 A KR 1020187014814A KR 20187014814 A KR20187014814 A KR 20187014814A KR 20180082472 A KR20180082472 A KR 20180082472A
Authority
KR
South Korea
Prior art keywords
data
statistical
kernel
matrix
samples
Prior art date
Application number
KR1020187014814A
Other languages
English (en)
Inventor
히로유키 야마모토
Original Assignee
휴먼 메타볼롬 테크놀로지스 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 휴먼 메타볼롬 테크놀로지스 가부시키가이샤 filed Critical 휴먼 메타볼롬 테크놀로지스 가부시키가이샤
Publication of KR20180082472A publication Critical patent/KR20180082472A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • G06F19/24
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Complex Calculations (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

데이터 해석 장치는 복수의 통계 샘플에 대해 복수의 데이터 항목에 관한 다변량 해석을 행하는 데이터 해석 장치이다. 데이터 해석 장치(50)는 기억부(52)와 제어부(51)를 구비한다. 기억부는 통계 샘플마다 복수의 데이터 항목을 관리하는 통계 데이터(X), 및 복수의 통계 샘플이 이루는 군이 나열되는 순서를 나타내는 군 정보(Y)를 기록한다. 제어부는 통계 데이터 및 군 정보에 근거하는 소정의 연산 처리를 행한다. 제어부는, 통계 데이터에 근거하여, 행렬 요소가 복수의 통계 샘플 중의 행 번호에 대응하는 통계 샘플과 열 번호에 대응하는 통계 샘플간의 소정의 관계를 나타내는 커널 행렬(K)을 계산한다. 제어부는 커널 행렬과 군 정보에 의해 규정되는 소정 조건하의 부분적 최소 이승법에 근거하는 연산 처리를 행하여, 복수의 통계 샘플에 대한 스코어를 산출한다.

Description

데이터 해석 장치, 방법 및 프로그램
본 발명은 통계적 수법으로 데이터 해석을 행하는 데이터 해석 장치, 방법 및 프로그램에 관한 것이다.
통계 데이터 해석에서, 교사 존재 차원 삭감법의 1종인 부분적 최소 이승법(PLS: Partial Least Squares)은, 예를 들면 생체 내의 대사물을 포괄적으로 해석하는 메타볼로믹스(metabolomics) 등의 다변량 해석에 이용되고 있다. PLS는 시각화나 회귀, 판별 모델의 구축 등, 여러 목적으로 이용되고 있으며, 최근 PLS를 개량한 수법이 제안되어 있다(예를 들면, 특허문헌 1).
특허문헌 1은 PLS에 OSC(Orthogonal Signal Correction)법을 적용한 수법인 OPLS(직교형 부분적 최소 이승법)를 개시하고 있다. 특허문헌 1의 OPLS에 의하면, PLS에서 입력의 데이터 세트 X로부터 변수 Y를 예측하는 모델에 있어, X 중의 계통적 변동을, Y에 직교하고 있는 (무상관의) 변동과, Y를 예측 가능한 변동으로 분리한다. 이것에 의해, 데이터 세트 X에 포함되는 다수의 통계 샘플에 의한 변동 중에서 Y와 무상관인 변동이 필터링되고, Y의 예측 정밀도를 손상하는 일없이 보다 해석하기 쉬운 모델을 얻을 수 있다.
특허문헌 1: 미국 특허 출원 공개 제2003/0200040호 명세서
비특허문헌 1: T. Ooga, et al., "Metabolomic anatomy of an animal model revealing homeostatic imbalances in dyslipidaemia", Mol. Biosyst, 7(4). 비특허문헌 2: H. Yamamoto, "PLS-ROG: Partial least squares with rank order of groups", COBRA Preprint Series, Working Paper 100, October 2012. 비특허문헌 3: C. Urbaniak, et al., "Effect of chemotherapy on the microbiota and metabolome of human milk", a case report, Microbiome, 2014. 비특허문헌 4: Lozupone C, et al., "UniFrac: a new phylogenetic method for comparing microbial communities", Appl Environ Microbiol 2005.
최근, 메타볼로믹스에서는, 대사물의 데이터를 채취한 복수의 개체(통계 샘플)가, 혈통이나 투약의 상태에 따라 몇 개의 군으로 나누어져 있는 경우에, 군 간의 특정의 순서에 따라 변동하는 대사물의 변동 패턴에 관한 연구가 보고되어 있다(비특허문헌 1).
본 발명의 목적은, 통계 샘플간의 군의 순서를 고려하면서 다양한 데이터 해석을 가능하게 하는 데이터 해석 장치, 방법 및 프로그램을 제공하는 것이다.
본 발명에 따른 데이터 해석 장치는, 복수의 통계 샘플에 대해 복수의 데이터 항목에 관한 다변량 해석을 행한다. 데이터 해석 장치는 기억부와 제어부를 구비한다. 기억부는 통계 샘플마다 복수의 데이터 항목을 관리하는 통계 데이터, 및 복수의 통계 샘플이 이루는 군이 나열된 순서를 나타내는 군 정보를 기록한다. 제어부는 통계 데이터 및 군 정보에 근거하는 소정의 연산 처리를 행한다. 제어부는, 통계 데이터에 근거하여, 행렬 요소가 복수의 통계 샘플 중의 행 번호에 대응하는 통계 샘플과 열 번호에 대응하는 통계 샘플간의 소정의 관계를 나타내는 커널(kernel) 행렬을 계산한다. 제어부는 커널 행렬과 군 정보에 의해 규정되는 소정 조건 하의 부분적 최소 이승법에 근거하는 연산 처리를 행하고, 복수의 통계 샘플에 대한 스코어를 산출한다.
본 발명에 따른 데이터 해석 장치에 의하면, 군 정보에 근거하여 스코어에 군의 순서를 반영시키면서, 커널 행렬에 의해 여러 통계 데이터의 통합 해석이나 비선형 해석을 행할 수 있다. 이 때문에, 통계 샘플간의 군의 순서를 고려하면서 다양한 데이터 해석을 가능하게 할 수 있다.
도 1은 실시 형태 1에 따른 데이터 해석 방법의 개요를 설명하기 위한 도면.
도 2는 간장(肝臟) 샘플에 대한 메타볼롬(metabolome) 데이터를 예시하는 도면.
도 3은 심장 샘플에 대한 메타볼롬 데이터를 예시하는 도면.
도 4는 뇌 샘플에 대한 메타볼롬 데이터를 예시하는 도면.
도 5는 혈장(血漿) 샘플에 대한 메타볼롬 데이터를 예시하는 도면.
도 6은 실시 형태 1에 따른 데이터 해석 장치의 구성을 나타내는 블럭도.
도 7은 데이터 해석 장치에 의한 데이터 해석 처리를 나타내는 흐름도.
도 8은 데이터 해석 처리를 설명하기 위한 도면.
도 9는 데이터 해석 처리의 커널 PLS-ROG 연산 처리를 나타내는 흐름도.
도 10은 커널 PLS-ROG 연산 처리를 설명하기 위한 도면.
도 11은 데이터 해석 처리에 의한 해석 데이터를 예시하는 도면.
도 12는 데이터 해석 처리에 의한 표시예를 나타내는 도면.
도 13은 데이터 해석 처리에 의한 해석 결과를 설명하기 위한 도면.
도 14는 커널 PLS에 의한 해석 결과를 예시하는 도면.
도 15는 커널 PLS-ROG에 의한 해석 결과를 예시하는 도면.
이하, 첨부의 도면을 참조하여 본 발명에 따른 데이터 해석 장치, 방법 및 프로그램의 실시 형태를 설명한다. 또, 이하의 각 실시 형태에서, 동일한 구성요소에 대해서는 동일한 부호를 부여하고 있다.
(실시 형태 1)
1. 개요
본 발명의 실시 형태 1에 따른 데이터 해석 방법에 의한 통계 해석의 개요에 대해 도 1~5를 참조하여 설명한다. 도 1은 본 실시 형태에 따른 데이터 해석 방법의 개요를 설명하기 위한 도면이다. 이하에서는, 메타볼로믹스에 대한 본 데이터 해석 방법의 적용예를 설명한다.
메타볼로믹스는, 생체 내의 저분자의 대사물(분자량이 대략 1000 이하인 화합물)을 포괄적으로 해석하는 연구 분야이다. 도 1(a)에서는, 해석 대상의 통계 샘플(개체)이 토끼인 예를 나타내고 있다. 메타볼로믹스에서는, 동물의 조직이나 미생물의 세포, 인간의 혈액이나 소변 등의 생체 샘플(시료)을 여러 분석 장치에 의해 측정하고, 샘플에 포함되는 대사물의 농도를 해석한다. 측정된 여러 대사물의 농도의 값이 기록되는 메타볼롬 데이터는, 예를 들면 하기와 같은 n행 p열의 데이터 행렬 X의 형식으로 나타내어진다.
Figure pct00001
여기서, n은 샘플 사이즈(개체수)이고, p는 측정된 대사물의 수(측정 항목수)이다. 위 식 (1)은, 1행당, 행 번호에 대응하는 개체에서 측정된 p개의 대사물의 측정 데이터(통계 데이터)를 기록하고 있다. 도 2~5에, 데이터 행렬 X의 예를 나타낸다.
도 2~5는 9개체의 토끼로부터 각각 간장·심장·뇌·혈장 샘플을 분석하고, 각각의 대사물을 측정한 메타볼롬 데이터의 예이다. 도 2는 간장 샘플의 데이터 행렬 X(L)를 나타낸다. 도 3은 심장 샘플의 데이터 행렬 X(H)를 나타낸다. 도 4는 뇌 샘플의 데이터 행렬 X(B)를 나타낸다. 도 5는 혈장 샘플의 데이터 행렬 X(P)를 나타낸다. 또, 도면 중의 「'」는 행렬의 전치를 의미한다(이하 마찬가지).
도 2~5에 예시하는 메타볼롬 데이터는, 9개체 각각의 간장·심장·뇌·혈장 샘플에 대해, 모세관 전기 영동-비행 시간형 질량 분석계를 이용하여 측정되었다. 예를 들면, 도 2의 「샘플 1」의 열의 데이터는 9개체 중 1번째의 토끼의 간장의 대사물을 측정한 측정 데이터 x1 (L)를 나타낸다. 도시를 생략하고 있지만, 각 생체 샘플에서 검출된 대사 수는 각각 간장에서 170, 심장에서 161, 뇌에서 159, 혈장에서 129였다.
상기의 예와 같이, 메타볼롬 데이터에는, 수백 내지 수천의 대사물의 측정 데이터가 포함되어 있다. 이 때문에, 메타볼롬 데이터 상의 각 샘플의 거동(예를 들면 정상 쥐와 질환 모델 쥐가 해석 대상인 경우에, 그들의 간장 샘플의 메타볼롬 데이터에 어떠한 차이가 생는지)을 시각적으로 표현하는 것은 곤란하다. 그래서, 다변량 해석에 의해 다변량에 근거하는 스코어를 생성하고, 스코어의 산포도를 이용하여 샘플의 거동을 시각적으로 표현한다. 이 산포도를 이용하여, 도 1(b)에 나타내는 바와 같이, 샘플간의 관련성(예를 들면, 정상 쥐와 질환 모델 쥐라는 2개의 군 간의 차이 등)을 확인하는 것 등이 행해진다.
여기서, 도 1~5에 나타내는 예에서는, 샘플 번호 1~3번째의 개체가 야생형의 토끼이고, 4~9번째의 개체가 WHHL 토끼(고지혈증 모델 토끼)였다. 또한, 4~9번째 중에서, 4~6번째의 WHHL 토끼에는 스타틴(statin)이 투여되어 있고, 7~9번째의 WHHL 토끼에는 스타틴이 투여되어 있지 않다. 이 때문에, 본 예에서는, 1~3번째의 개체와, 4~6번째의 개체와, 7~9번째의 개체의 각각의 집합인 3개의 군이 있다.
이상과 같은 경우에, 3개의 군이 소정의 순서로 나열되는 스코어가 얻어지면, 그 순서에 관련되는 생물학적 고찰이나 그 검증 등을 위해 유익하다. 또한, 각 개체로부터 얻어지는 메타볼롬 데이터는, 도 2~도 5에 나타내는 바와 같이, 생체 샘플의 종류별로 데이터 관리되지만, 이들 데이터를 통합적으로 해석하는 것이 요구되는 경우도 있다. 본 발명은, 이상의 요구를 감안하여, 개체간의 군의 순서를 고려하면서 다양한 데이터 해석을 가능하게 하는 데이터 해석 방법을 제공한다. 이하, 본 실시 형태에 따른 데이터 해석 방법의 이론에 대해 설명한다.
2. 이론
우선, 메타볼로믹스의 다변량 해석에 관한 일반론에 대해 설명한다. 메타볼롬 데이터의 다변량 해석에서는, 주성분 분석과 PLS가 일반적으로 이용되고 있다. PLS는, 메타볼롬 데이터에 부가하여, 군의 정보를 병용함으로써, 군 간이 정밀도 좋게 나뉜 스코어를 얻기 쉽다. 또한, 군의 정보를 이용하여 해석하는 고전적인 다변량 해석 수법에는, 예를 들면 정준 상관 분석(canonical correlation analysis)이 있지만, 이 수법은 데이터 중의 변수(측정 항목)의 수(p)가 샘플 사이즈(n)보다 큰 경우(p≫n), 그 데이터에 적용하는 것이 곤란하다. 이에 반해, PLS는 p≫n의 경우에도 적용 가능하다.
PLS를 이용함으로써, 군 간이 나뉜 스코어를 얻는 것은 가능하다. 여기서, 예를 들면 약제의 농도와 관련된 변동에 흥미가 있는 경우나, 관능 평가에서 맛있음의 지표와 관련되는 대사물에 주목하는 경우 등에는, 군 간에 소정의 순서가 상정된다. 그러나, PLS에서는 군의 순서의 정보가 스코어에 나타나지 않아, 기대되는 결과가 얻어지지 않는 경우가 있다. 그래서, 본 발명자는 PLS를 응용한 PLS-ROG(Rank Order of Groups)라는 수법을 제안하였다(비특허문헌 2 참조). PLS-ROG를 이용하면, 군에 순서가 있는 스코어가 얻어진다. 또한, PLS-ROG에 의해, 스코어와 관련되는 대사물을, 통계적 가설 검정을 이용하여 선택할 수도 있다.
또한, 메타볼로믹스에서는, 1개의 개체로부터 복수 종류의 메타볼롬 데이터가 취득되는 경우가 있다. 예를 들면, 특정의 약제가 동물에 투여되었을 때, 복수의 장기의 대사에 영향을 미칠 가능성이 있다. 이러한 경우, 동일 개체로부터 복수의 장기, 혈장, 소변의 샘플(시료)이 채취되고, 각각 메타볼롬 데이터가 취득된다. 또한, 메타볼롬 데이터 이외의 데이터, 예를 들면 유전자 발현량이나 단백량이, 동일 개체로부터 메타볼롬 데이터와 동시에 측정되는 경우도 많다. 이들 동일 개체로부터 얻어지는 복수의 측정 데이터를 통합하고, 다변량 해석을 이용하여 공통의 스코어를 계산함으로써, 복수의 장기에서 공통적으로 변동하는 대사물이나, 동일 개체에서 공통적으로 변동하는 대사물과 유전자를 특정하는 것이 가능해진다.
이상의 다변량 해석에서, 개체간의 군의 순서를 반영시키면서 별종의 측정 데이터를 통합할 수 있으면, 예를 들면 군의 순서에 따라 개체 중에서 공통적으로 변동하는 대사물 등의 특정이나 그들의 인과 관계 등, 보다 다양한 데이터 해석이 기대된다. 그래서, 본 발명자는, 상기의 PLS-ROG에 커널법의 개념을 도입함으로써, 군 간의 순서를 고려하면서 각종의 측정 데이터의 통합 해석이나 비선형 데이터 해석 등, 다양한 해석을 가능하게 하는 수법 「커널 PLS-ROG(커널 순서형 부분적 최소 이승법)」를 고안하였다. 이하, PLS-ROG 및 커널 PLS-ROG에 대해 설명한다.
2-1. PLS-ROG에 대해
PLS-ROG는 n행 p열의 데이터 행렬 X(식(1))와, n행 g열의 더미 행렬 Y와, 설명 변수 t 및 목적 변수 s(각각 n차원 벡터)를 이용하여 정식화할 수 있다. 여기서, n은 샘플 사이즈이고, p는 측정 항목(데이터 항목) 수이고, g는 군의 수이다. 더미 행렬 Y는 군의 순서를 나타내는 군 정보를 설정하기 위한 행렬이다(도 8(b) 참조). 설명 변수 t와 목적 변수 s는 합성 변수(t, s)를 구성한다.
또한, 설명 변수 t와 데이터 행렬 X의 사이에는 가중 벡터 wx(p차원 벡터)를 이용하고, 목적 변수 s와 더미 행렬 Y의 사이에는 가중 벡터 wy(g차원 벡터)를 이용하여, 각각 이하의 관계가 설정된다.
Figure pct00002
상기의 X, Y, t, s를 이용하여, PLS-ROG는 이하의 최적화 문제(특정의 가중 벡터 wx, wy를 구하는 것)로서 정식화된다.
Figure pct00003
위 식에서, cov(t, s)는 설명 변수 t와 목적 변수 s의 공분산이고, κ는 개체간의 군의 순서에 의한 패널티를 나타내는 파라미터 정수이다. 또한, 행렬 P는 각 군에 포함되는 개체수(샘플수) n1, n2 , …, ng에 따른 웨이트를 나타내는 g행 n열의 행렬이고, 행렬 D는 군 간의 스무딩을 행하기 위한 (g-1)행 g열의 행렬이다. 행렬 P, D의 구체형을 하기에 나타낸다.
Figure pct00004
위 식(4)~(6)에 의하면, PLS-ROG는 식 (5), (6)이 나타내는 조건 하에서 공분산 cov(t, s)를 최적화하는 최적화 문제를 구성한다. 조건식 (5)는 가중 벡터 wx의 크기를 1로 설정하는 조건을 나타낸다. 조건식 (6)은 좌변 제2항의 벌칙항에 의해 정수 κ분만큼, 가중 벡터 wy의 크기를 1로부터 어긋나게 하는 조건을 나타낸다. 식 (6)의 좌변 제2항은 더미 행렬 Y에 의한 군의 순서에 따른 패널티를 인가하는 벌칙항이다.
PLS-ROG에 의한 스코어는 최적화 문제에서 구한 wx, wy와 식 (2), (3)에 의해 대응하는 합성 변수(t, s)로 계산된다. PLS-ROG에서는, 조건식 (6)의 벌칙항에 의해, 더미 행렬 Y에서 설정되는 군의 순서를 스코어에 반영시킬 수 있다.
2-2. 커널 PLS-ROG에 대해
이하, 본 실시 형태에 따른 통계 데이터의 해석 수법인 커널 PLS-ROG에 대해 설명한다.
2-2-1. 커널 PLS-ROG의 정식화
우선, 커널 PLS-ROG의 정식화에 대해 설명한다. PLS-ROG를 정식화한 식 (2)~(6) 중에서, 식 (2) 대신에, 하기의 식 (9)를 채용한다. 이와 함께, n행 n열의 커널 행렬 K 및 n차원 벡터 αx를 도입한다(식 (10), (11)).
Figure pct00005
위 식에서, Φ는 데이터 행렬 X에 대응하는 행렬(사상(寫像))이다. 또, Φ의 구체적인 행렬 표시(n행 p열)는 특별히 주어지지 않아도 좋다. 커널 행렬 K는 데이터 행렬 X에서의 샘플마다의 측정 데이터 xii(p차원 벡터) 중의 2개를 인수로 하는 커널 함수 k(xi, xj)를 행렬 요소로서 구성되는 행렬이다. 커널 함수 k(xi, xj)는, xi, xj를 Φ에서 찍은 특징 공간에서의 내적(內積)을 나타내는 함수이고, 1쌍의 측정 데이터 xi, xj에 근거하여 산출 가능한 구체형을 가진다. 커널 행렬 K 및 커널 함수 k(xi, xj)의 상세한 것에 대해서는 후술한다. 벡터 αx는 가중 벡터 wx 대신에 이용되는 벡터이다.
위 식 (9)~(11)에 의해, 설명 변수 t는, wx 및 Φ를 이용하는 일없이, 벡터 αx 및 커널 행렬 K를 이용하여 다음 식과 같이 나타낼 수 있다.
Figure pct00006
또한, 식 (5)는, 식 (10)에 근거하여, 벡터 αx 및 커널 행렬 K를 이용하여 다음의 식과 같이 나타내어진다.
Figure pct00007
위 식 (13)은, 벡터 αx끼리의 커널 행렬 K를 거친 내적을 1로 하는 조건을 나타낸다. 이것에 의해, 커널 PLS-ROG는, PLS-ROG를 정식화한 식(4)~(6)에 대해, 식 (5) 대신에 식 (13)의 조건이 부과된 최적화 문제를 구성한다. 커널 PLS-ROG는, Φ의 구체형을 이용하는 일없이, 가중 벡터 wx를 소거해, 식 (4), (6), (13)에 의해 기술된다.
또한, 이상과 같이 정식화된 커널 PLS-ROG는 라그랑쥬(Lagrangian) 승수법을 이용하는 것에 의해, 하기의 라그랑쥬 함수 J의 최적화 문제로서 기술할 수 있다(λx, λy는 파라미터).
Figure pct00008
상기의 함수 J를 αx와 wy로 각각 편미분하고, 얻어진 2개의 방정식을 정리하는 것에 의해, 커널 PLS-ROG는, 최종적으로 다음 식의 일반화 고유치 문제(고유치 λ 및 고유 벡터 αx, wy를 구하는 것)에 귀착한다.
Figure pct00009
위 식 (15), (16)에서 산출되는 고유치 λ 및 고유 벡터 αx, wy에서, 제로가 아닌 고유치 λ는 (g-1)개이다. 본 실시 형태에서는, 각 고유치 λ의 고유 벡터 αx를 식 (12)에 대입하는 것에 의해 얻어지는 설명 변수 t의 값을 스코어로 한다.
위 식 (15), (16)는, 본 실시 형태에 따른 데이터 해석 장치(50)(도 1(b) 참조)에 의해, 커널 PLS-ROG(식 (6), (13)의 조건하의 PLS)의 연산을 행하기 위한 연산식으로서 사용된다. 데이터 해석 장치(50)에 대해서는 후술한다.
2-2-2. 커널 행렬에 대해
이하, 커널 행렬 및 커널 함수의 상세에 대해 설명한다.
커널 행렬 K의 (i, j) 요소는 데이터 행렬 X에서의 i, j번째의 샘플의 측정 데이터 xi, xj에 관한 커널 함수 k(xi, xj)로 나타내어진다. 커널 함수 k(xi, xj)의 구체형은 여러 가지의 것을 이용할 수 있다. 예를 들면, 커널 함수 k(xi, xj)로서, 하기의 선형 커널 kL(xi, xj)(식 (17))이나, 다항식 커널 kP(xi, xj)(식 (18)), 가우시안 커널 kG(xi, xj)(식 (19))을 이용할 수 있다.
Figure pct00010
위 식(18)에 있어서의 m은 임의의 실수이고, q는 임의의 자연수이고, 위 식 (19)에 있어서의 σ는 양의 실수이다. 식 (18), (19) 등의 비선형 커널에 근거하여 커널 행렬 K를 구성하는 것에 의해, 군의 순서를 고려하면서 비선형의 데이터 해석을 행하는 것이 가능하게 된다.
또, 복수의 장기나 생체액 유래의 메타볼롬 데이터(도 2~도 5 참조)와 같이, 개체마다 복수 종류의 측정 데이터 xi (L), xi (H), xi (B), xi (P)가 취득된 경우, 종류별로 관리되는 측정 데이터의 통합 해석에 이용하기 위한 커널 행렬 K를 이하와 같이 구성할 수 있다.
개체마다 N종류의 측정 데이터가 취득된 경우, 각 종류의 데이터 행렬 X(1), X(2), …, X(N)에서는, 종류마다의 측정 항목이 기록되고, 열 방향이 일치하고 있지 않다. 이 경우에, 각종의 측정 데이터 xi (1), xi (2), …, xi (N)에 대해 각각 상기와 같이 커널 함수에 근거하는 커널 행렬을 계산하면, 종류별의 커널 행렬 K(1), K(2), …, K(N)는 모두 n행 n열이 된다. 통합 해석을 위한 커널 행렬 K는 모든 종의 커널 행렬 K(1), K(2), …, K(N)의 소정의 평균으로 구성된다. 소정의 평균은 산술 평균이어도 좋고, 적절히 가중치 부여를 선택한 가중 평균이나, 행렬 요소마다의 기하 평균이어도 좋다.
이상과 같이 구성되는 커널 PLS-ROG의 이론은, 컴퓨터에 의해, 복수의 통계 샘플의 측정 데이터를 나타내는 데이터 행렬 X에 근거해 커널 행렬 K를 계산하고, 커널 행렬 K와 통계 샘플간의 군의 순서에 관한 군 정보에 근거하여 식 (15), (16) 등의 연산을 행함으로써 실현할 수 있다. 이것에 의해, 컴퓨터 상에서 통계 샘플간의 군의 순서를 고려한 스코어가 얻어지고, 플롯 표시로 시각화하거나, 복수 종류의 데이터 행렬 X(1), X(2), …, X(N) 간의 통합 해석을 행하거나 할 수 있다. 이하, 커널 PLS-ROG를 실현하는 데이터 해석 장치, 방법 및 프로그램에 대해 설명한다.
3. 데이터 해석 장치, 방법 및 프로그램
3-1. 구성
본 실시 형태에 따른 데이터 해석 장치(50)의 구성에 대해, 도 6을 이용하여 설명한다. 도 6은 데이터 해석 장치(50)의 구성을 나타내는 블럭도이다.
데이터 해석 장치(50)는, 복수의 통계 샘플의 측정 데이터를 나타내는 데이터 행렬 X에 근거하여, 커널 PLS-ROG(식 (6), (13)의 조건하의 PLS)에 의한 연산을 행해서 스코어(t)를 산출하고, 스코어의 플롯 화상 등을 표시한다(도 1 (b) 참조). 데이터 해석 장치(50)는, 예를 들면 PC(퍼스널 컴퓨터) 등의 정보 처리 장치로 구성된다. 데이터 해석 장치(50)는, 도 6에 나타내는 바와 같이, 제어부(51)와, 기억부(52)와, 조작부(53)와, 표시부(54)와, 기기 인터페이스(55)와, 네트워크 인터페이스(56)를 구비한다.
제어부(51)는, 예를 들면 소프트웨어와 협동하여 소정의 기능을 실현하는 CPU, MPU로 구성되고, 데이터 해석 장치(50)의 전체 동작을 제어한다. 제어부(51)는, 기억부(52)에 저장된 데이터나 프로그램을 읽어내어 여러 연산 처리를 행하여, 각종의 기능을 실현한다. 예를 들면, 제어부(51)는 상술한 커널 PLS-ROG에 의한 데이터 해석이 실현되는 데이터 해석 처리를 실행한다. 데이터 해석 처리를 실행하기 위한 프로그램은 패키지 소프트웨어이어도 좋다. 또한, 제어부(51)는 소정의 기능을 실현하도록 설계된 전용의 전자 회로나 재구성 가능한 전자 회로 등의 하드웨어 회로여도 좋다. 제어부(51)는 CPU, MPU, 마이크로컴퓨터, DSP, FPGA, ASIC 등의 여러 반도체 집적 회로로 구성되어도 좋다.
기억부(52)는 데이터 해석 장치(50)의 기능을 실현하기 위해 필요한 프로그램 및 데이터를 기억하는 기억 매체이고, 예를 들면 하드 디스크(HDD)나 반도체 기억장치(SSD)를 구비한다. 또한, 기억부(52)는, 예를 들면, DRAM이나 SRAM 등의 반도체 디바이스를 구비하여도 좋고, 데이터를 일시적으로 기억함과 아울러 제어부(51)의 작업 에리어로서도 기능한다. 예를 들면, 기억부(52)는 커널 PLS-ROG의 연산식(식 (15), (16)), (통계 샘플마다의 복수 측정 항목의 측정 데이터를 나타내는) 데이터 행렬 X나 (통계 샘플간의 군의 순서에 관한 군 정보를 나타내는) 더미 행렬 Y, 커널 행렬 K 등을 저장한다. 데이터 행렬 X에 대해서는, 통계 샘플마다 N종류의 측정 데이터가 취득된 경우, 기억부(52)는 종류별의 데이터 행렬 X(1), X(2), …, X(N)로 각종의 측정 데이터를 관리한다.
조작부(53)는 유저가 조작을 행하는 유저 인터페이스이다. 조작부(53)는, 예를 들면 키보드, 터치 패드, 터치 패널, 버튼, 스위치, 및 이들의 조합으로 구성된다. 조작부(53)는 유저에 의해 입력되는 모든 정보를 취득하는 취득부의 일례이다.
표시부(54)는, 예를 들면 액정 디스플레이나 유기 EL 디스플레이로 구성된다. 표시부(54)는, 예를 들면 조작부(53)로부터 입력된 정보 등, 여러 정보를 표시한다.
기기 인터페이스(55)는 데이터 해석 장치(50)에 다른 기기를 접속하기 위한 회로(모듈)이다. 기기 인터페이스(55)는 소정의 통신 규격에 따라 통신을 행한다. 소정의 규격에는, USB, HDMI(등록 상표), IEEE1395, WiFi, Bluetooth(등록 상표) 등이 포함된다.
네트워크 인터페이스(56)는 무선 또는 유선의 통신 회선을 거쳐서 데이터 해석 장치(50)를 네트워크에 접속하기 위한 회로(모듈)이다. 네트워크 인터페이스(56)는 소정의 통신 규격에 준거한 통신을 행한다. 소정의 통신 규격에는, IEEE802.3, IEEE802.11a/11b/11g/11ac 등의 통신 규격이 포함된다.
3-2. 동작
본 실시 형태에 따른 데이터 해석 장치(50)의 동작에 대해 도 7~11을 이용하여 설명한다. 도 7은 데이터 해석 장치(50)에 의한 데이터 해석 처리를 나타내는 흐름도이다. 도 8은 데이터 해석 처리를 설명하기 위한 도면이다. 도 9는 데이터 해석 처리에서의 커널 PLS-ROG 연산 처리를 나타내는 흐름도이다. 도 10은 커널 PLS-ROG 연산 처리를 설명하기 위한 도면이다. 도 11은 데이터 해석 처리에 의한 해석 데이터를 예시하는 도면이다.
도 7, 도 9에 나타내는 흐름도는 데이터 해석 장치(50)의 제어부(51)에 의해 실행된다. 이하에서는, 9개체의 토끼가 3개의 군을 이루고, 각 개체로부터 각각 간장, 심장, 뇌, 혈장의 4종류의 생체 샘플에 대한 메타볼롬 데이터를 얻은 경우(도 1~5 참조)의 데이터 해석 장치(50)의 동작예를 설명한다.
또한, 이하의 동작예에서는, 기억부(52)에, 미리 간장, 심장, 뇌, 혈장의 종류마다의 메타볼롬 데이터를 나타내는 각종의 데이터 행렬 X(L), X(H), X(B), X(P)(도 2~도 5 참조), 및 개체 간의 군의 순서에 관한 군 정보를 나타내는 더미 행렬 Y가 저장되어 있는 것으로 한다.
도 7의 흐름도에서, 우선, 제어부(51)는 기억부(52)로부터 각종의 데이터 행렬 X(L), X(H), X(B), X(P)를 취득한다(S1). 도 8(a)는 각종의 데이터 행렬 X(L)의 일례를 나타낸다. 도 8(a)에 예시하는 바와 같이, 데이터 행렬 X(L)의 각 행은 행마다 각 개체의 특정의 생체 샘플의 대사물을 측정한 측정 데이터 x(L) i를 기록하고 있다.
도 7로 되돌아가서, 다음에, 제어부(51)는 기억부(52)로부터 더미 행렬 Y를 취득한다(S2). 더미 행렬 Y는, 예를 들면, 유저에 의해 메타볼롬 데이터의 입력시 등에 설정된다. 도 8(b)에 더미 행렬 Y의 일례를 나타낸다. 도 8(b)에 예시한 더미 행렬은 9개체 중, 1~3번째의 토끼가 제 1 군(1번째)을 이루고, 4~6번째의 토끼가 제 2 군(2번째)을 이루고, 7~9번째의 토끼가 제 3 군(3번째)을 이루는 것을 나타내고 있다.
다음에, 제어부(51)는 취득한 데이터 행렬 X(L), X(H), X(B), X(P) 및 더미 행렬 Y에 근거하여, 커널 PLS-ROG 연산 처리를 행한다(S3). 커널 PLS-ROG 연산 처리는, 상기 2-2-2.에서 설명한 커널 PLS-ROG의 식 (15), (16)의 연산을 행하는 처리이다. 도 8을 이용하여 설명한다.
여기서, 도 9의 흐름도를 이용하여, 커널 PLS-ROG 연산 처리(S3)에 대해 설명한다. 제어부(51)는 우선, 각 장기 및 혈장의 데이터 행렬 X(L), X(H), X(B), X(P)에 있어서, 대사물마다 개체 간의 평균이 0이고 또한 분산이 1이 되도록, 데이터의 스케일링(규격화)을 행한다(S10).
다음에, 제어부(51)는 복수 종류의 데이터 행렬 X(L), X(H), X(B), X(P) 중의 어느 하나의 종류(예를 들면 간장 샘플)를 선택한다(S11).
다음에, 제어부(51)는 총 9개체 중의 1쌍의 개체의 (간장 샘플의) 측정 데이터 xi (L), xj (L)(i, j=1~9)에 근거하여, 선택한 종류의 커널 행렬 K(L)의 (i, j) 요소의 커널 함수 k(xi (L), xj (L))를 계산한다(S12).
제어부(51)는, 스텝 S12의 계산을 총 9개체 중의 1쌍의 조합 모두에 대해 행하고, 종류별의 커널 행렬 K(L)의 각 행렬 요소를 계산한다(S13). 예를 들면, 선형 커널의 경우, 도 8(c)에 나타내는 바와 같이, 커널 행렬 K(L)의 행렬 요소는 각각 1쌍의 측정 데이터 xi (L), xj (L)의 내적에 의해 계산된다.
제어부(51)는 각 종류의 데이터 행렬 X(L), X(H), X(B), X(P)에 대해, 스텝 S11~S13의 처리를 행하고(S14), 모든 종류의 커널 행렬 K(L), K(H), K(B), K(P)를 계산한다.
제어부(51)는, 모든 종류의 커널 행렬 X(L), X(H), X(B), X(P)를 계산하면(S14에서 예), 예를 들면 도 8(d)에 나타내는 연산식에 의해 종류 간의 평균을 행하고, 커널 행렬 K를 계산한다(S15).
다음에, 제어부(51)는, 상기 2-2-2.에서 설명한 커널 PLS-ROG의 이론에서의 연산식 (15), (16)을 기억부(52)로부터 읽어내고, 평균 후의 커널 행렬 K 및 더미 행렬 Y를 연산식에 대입한다(S16). 도 8(e), (f)에, 본 예에서의 행렬 P, D를 나타낸다. 도 8(b), (e), (f)의 행렬 Y, D, P에 의해, 커널 PLS-ROG에서의 벌칙항이 계산된다.
다음에, 제어부(51)는, 대입한 연산식에 의한 일반화 고유치 문제의 고유치 λ, 및 각 고유치 λ에 대응하는 고유 벡터 αx, wy를 계산한다(S17). 도 10(a), (b)에, 스텝 S17에서 계산된 고유 벡터 αx, wy의 일례를 나타낸다. 본 예(g=3)에서는, (g-1)개의 고유치 λ에 대응하여, 도 10(a), (b)에 나타내는 바와 같이, 2개의 고유 벡터가 계산되어 있다.
다음에, 제어부(51)는, 계산한 커널 행렬 K에 근거하여, 계산한 (g-1)개의 고유 벡터 각각에 대응하는 설명 변수 t(n=9차원 벡터)를 계산하고(식 (12)), 각 개체의 스코어를 산출한다(S18). 도 10(c)에, 스텝 S18에서 계산된 스코어의 일례를 나타낸다. 설명 변수 t는 n(=9)차원 벡터이고, 각 벡터 요소가 개체 각각에 대한 스코어가 된다. 각 개체의 스코어는 (g-1)개의 고유 벡터에 따라 제 1 ~ 제 (g-1) 성분을 가진다. 도 10(c)에서 예시하는 스코어는 g=3에 따라 제 1 성분 및 제 2 성분을 가진다.
도 7로 되돌아가서, 이상과 같이 해서, 커널 PLS-ROG 연산 처리를 행한 후, 제어부(51)는, 계산한 스코어에 근거하여, 도 1(b)에 나타내는 바와 같이, 각 샘플의 스코어를 표시부(54)에 플롯 표시한다(S4).
다음에, 제어부(51)는, 조작부(53)에서 유저의 조작을 접수하고, 유저가 새로운 데이터 해석을 위해, 표시한 스코어의 성분 중 어느 하나를 선택했는지 여부를 판단한다(S5). 예를 들면, 유저는, 표시부(54)에 표시된 스코어의 플롯 화상에 의해, 군의 순서가 반영된 스코어의 성분을 선택할 수 있다(도 12(b) 참조).
제어부(51)는 유저가 스코어의 성분을 선택하지 않았다고 판단한 경우(S5에서 아니오), 본 처리를 종료한다.
한편, 유저가 스코어의 성분의 어느 하나를 선택했다고 판단한 경우(S5에서 예), 제어부(51)는 각종의 데이터 행렬 X(L), X(H), X(B), X(P) 중의 각각의 대사물과, 선택된 성분의 스코어의 상관을 해석한다(S6). 구체적으로, 제어부(51)는 전체 개체에 대한 대사물의 데이터와 선택된 성분의 데이터의 상관 계수(양 데이터의 통계 분포의 상관을 나타내는 계수(도 13(e) 참조)) 및 p치(데이터 상의 상관이 우연히 생길 확률)를 계산하고, 계산 결과의 리스트 등을 생성하고, 본 처리를 종료한다.
도 11(a)~(d)에, 스텝 S6의 해석 결과의 예를 나타낸다. 도 11(a)는 간장 샘플의 데이터 행렬 X(L) 중의 대사물에 대한 해석 리스트 La를 나타낸다. 도 11(b)는 심장 샘플의 데이터 행렬 X(H) 중의 대사물에 대한 해석 리스트 Lb를 나타낸다. 도 11(c)은 뇌 샘플의 데이터 행렬 X(B) 중의 대사물에 대한 해석 리스트 Lc를 나타낸다. 도 11(d)는 혈장 샘플의 데이터 행렬 X(P) 중의 대사물에 대한 해석 리스트 Ld를 나타낸다.
도 11(a)~(d)에 예시하는 해석 리스트 La~Ld는 κ=0.5인 경우의 스코어의 제 1 성분과, 4종의 데이터 행렬 X(L)~X(P) 중의 대사물과의 상관을 나타내고 있다. 각 해석 리스트 La~Ld에는, 대사물 마다 계산된 「상관 계수」와 「p치」가 기록되어 있다. 해석 리스트 La~Ld에 의하면, 간장, 심장, 뇌, 혈장 샘플의 각각의 대사물에 대해, 공통의 스코어에 대한 상관을 통합적으로 해석할 수 있다. 해석 결과의 상세에 대해서는 후술한다.
이상의 데이터 해석 처리에 의하면, 개체 간의 군의 순서를 고려하면서 커널 행렬 K에 의해 종류 간의 통합 해석을 가능하게 하는 커널 PLS-ROG를 실현할 수 있다. 이하, 데이터 해석 처리에 의한 해석 결과에 대해 설명한다.
3-3. 해석 결과에 대해
생물학적인 연구(비특허문헌 1)에 의하면, 간장의 글리신 생합성 경로의 대사 중간체(N, N-Dimethylglycine와 Betaine)나 푸린 대사의 중간체의 대사물의 농도에 대해, 야생형 토끼(제 1 군), 투약한 WHHL 토끼(제 2 군), WHHL 토끼(제 3 군)의 순으로 상승/하강하는 것이 시사되어 있다. 이 관점에서, 본 예에서는, 도 8(b)에 나타내는 바와 같이, 더미 행렬 Y에서 제 1, 제 2 및 제 3 군의 순서를 설정하고, 데이터 해석 처리(도 7)를 행하였다.
도 12(a), (b)는 데이터 해석 처리(도 7)의 스텝 S4에 의한 표시예(κ=0 또는 0.5)를 나타낸다. 도 12(a), (b)의 각 플롯은 각각, 야생형 토끼 3개체, 투약한 WHHL 토끼 3개체, WHHL 토끼 3개체에 대한 스코어를 나타낸다. 도 12(a), (b)의 가로축은 스코어의 제 1 성분이고, 세로축은 제 2 성분이다.
도 12(a)는 식 (6) 중의 행렬 D, P, Y에 근거하는 벌칙항이 없는 상태(커널 PLS)에서 얻어진 스코어의 표시예이다. 도 12(a)의 표시예에서는, 3개의 군의 각 샘플의 스코어는 제 1 성분 및 제 2 성분 중 어디에서도, 더미 행렬 Y(도 8 b))에서 설정된 제 1 군(야생형 토끼), 제 2 군(투약한 WHHL 토끼), 제 3 군(WHHL 토끼)의 순으로 나열되어 있지 않다.
도 12(b)는 식 (6) 중의 벌칙항이 있는 상태(커널 PLS-ROG)에서 얻어진 스코어의 표시예이다. 도 12(b)의 표시예에서는, 3개의 군의 각 개체의 스코어는 제 1 성분에서, 더미 행렬 Y에서 설정된 제 1 군(야생형 토끼), 제 2 군(투약한 WHHL 토끼), 제 3 군(WHHL 토끼)의 순으로 증가하고 있다. 이와 같이, 커널 PLS-ROG를 실현하는 데이터 해석 처리에서는, 행렬 Y에 근거하는 벌칙항에 의해, 스코어에 군의 순서를 반영시킬 수 있다.
또한, 데이터 해석 처리(도 7)에서는, 군의 순서가 반영된 제 1 성분의 스코어에 대해, 간장, 심장, 뇌, 혈장 샘플의 각종의 메타볼롬 데이터의 해석을 행하였다. 구체적으로는, 제 1 성분의 스코어와 각 대사물의 상관 계수와 p치를 계산하고(도 7의 스텝 S6), 각 상관의 가설 검정을 행하여, 유의(가설 검정상 긍정적)인 대사물을 판정하였다.
도 13은 데이터 해석 처리(도 7)의 스텝 S6의 처리에 근거하는 가설 검정을 설명하기 위한 도면이다. 도 13(a), (b), (c), (d)의 각 표는 각각 도 7의 스텝 S6에서 얻어진 간장, 심장, 뇌, 혈장 샘플의 해석 리스트 La, Lb, Lc, Ld(도 11)에 대응하고 있다.
도 13(e)은 스코어와 대사물의 데이터의 상관 계수를 설명하기 위한 도면이다. 도 13(e)에 나타내는 바와 같이, 스코어 및 각종의 대사물의 데이터는 각각 전체 9개체에 걸쳐서 분포하고 있다. 상관 계수는 이러한 양쪽 데이터의 분포의 유사도를 -1~+1의 범위 내의 값으로 나타낸다. 스코어와 대사물의 데이터의 유사도가 작을수록 상관 계수가 「0」에 가까워져, 무상관이라고 생각된다. 또한, 유사도가 클수록 상관 계수의 절대치가 「1」에 가깝게 되고, 상관 계수가 「+1」에 가까우면 양의 상관이 있고, 상관 계수가 「-1」에 가까우면 음의 상관이 있다고 생각된다.
또한, 상기의 상관이 실제로 의미를 가질 수 있지만(유의), 데이터 상의 단순한 우연인지에 대해 확률적으로 판단하기 위해서, 가설 검정에서 p치를 이용한다. 본 해석에서는, 도 13(a)~(d)에 나타내는 바와 같이, p치의 임계치를 「0.05」로 하여, 스코어와 대사물의 데이터의 상관의 유의성을 판정하였다.
도 13(a)~(d)의 각 표에서는, 커널 PLS(도 12(a))의 경우와, 커널 PLS-ROG(도 12(b))의 경우의 각각의 경우에 얻어진 해석 리스트 La~Ld가 나타내는 정보를 병기하고 있다. 또한, 도 13(a)~(d)에서는, 가설 검정에 의해 스코어와의 상관이 인정된 대사물에 「*」를 부여하고 있다.
도 13(a), (b)에 나타내는 바와 같이, 간장 샘플과 심장 샘플의 Betaine 및 N, N-Dimethylglycine(글리신 생합성 경로의 대사 중간체)는 커널 PLS-ROG의 제 1 성분의 스코어와의 상관 계수가 모두 0.6 이상이었다. 또한, 이들의 p치는 0.05 이하이고, 유의(확률적으로 우연하다고 생각하기 어려울 정도)로 양의 상관이 인정되었다.
또한, 푸린 대사에 관해서, 도 13(a)에 나타내는 바와 같이 Urate(요산)에서는, 커널 PLS와 커널 PLS-ROG의 어느 p치도 0.05 이상이고, 유의의 상관은 인정되지 않았다. 그러나, 커널 PLS-ROG의 상관 계수 「0.594」는 커널 PLS의 상관 계수 「0.0060」으로부터 대폭 개선되어 있다. 또한, 도 13(a)에 나타내는 바와 같이, Hypoxanthine, Inosine, Adenosine, Adenine에서는, 커널 PLS-ROG에 대해서만, 제 1 성분의 스코어와 음의 상관(상관 계수 -0.6 이하)이 유의로 인정되었다.
또한, 그 외의 대사물에 관해서, 도 13(c), (d)에 나타내는 바와 같이, 혈장 샘플과 뇌 샘플의 N5-Ethylglutamine(테아닌)에서는, 커널 PLS-ROG에 대해서만 제 1 성분의 스코어와 유의로 음의 상관이 인정되었다. 또, 도 13(b), (c)에 나타내는 바와 같이, Citrulline에 대해, 심장 샘플에서는 커널 PLS와 커널 PLS-ROG에 대해, 뇌에서는 커널 PLS-ROG에 대해서만 유의로 음의 상관이 인정되었다.
이상과 같이, 본 실시 형태에 따른 데이터 해석 장치(50)에 의하면, 커널 PLS-ROG에 근거하여, 군의 순서를 고려한 공통의 스코어를 생성함으로써, 간장, 심장, 뇌, 혈장 샘플의 각 대사물을 통합적으로 해석할 수 있다. 또한, 데이터 해석 장치(50)에서는, κ의 값의 설정을 변경함으로써, 상기와 같이 커널 PLS-ROG에서의 상관과 커널 PLS에서의 상관의 비교도 행하여, 다양한 데이터 해석을 행할 수 있다.
4. 정리
이상과 같이, 본 실시 형태에 따른 데이터 해석 장치(50)는, 복수의 통계 샘플에 대해 통계 샘플마다 복수의 측정 항목이 측정된 측정 데이터에 근거하여, 복수의 측정 항목에 관한 다변량 해석을 행한다. 데이터 해석 장치(50)는 기억부(52)와 제어부(51)를 구비한다. 기억부(52)는 통계 샘플마다 복수의 측정 항목이 측정된 측정 데이터로 구성되는 데이터 행렬 X, 및 복수의 통계 샘플이 이루는 군에 대한 소정의 순서를 나타내는 군 정보를 나타내는 더미 행렬 Y를 기록한다. 제어부(51)는 데이터 행렬 X 및 더미 행렬 Y에 근거하여 소정의 연산 처리를 행한다. 제어부(51)는 복수의 통계 샘플 중의 1쌍의 통계 샘플의 측정 데이터를 인수 xi, xj로 하는 소정의 커널 함수 k(xi, xj)를 계산한다. 제어부(51)는, 커널 함수 k(xi, xj)의 계산 결과 및 군 정보에 근거하여, 1쌍의 통계 샘플마다의 커널 함수 k(xi, xj)가 행렬 요소인 커널 행렬 K와 더미 행렬 Y에 의해 규정되는 소정 조건하의 부분적 최소 이승법(커널 PLS-ROG)에 의해, 복수의 통계 샘플에 대한 스코어를 산출한다.
본 실시 형태에 따른 데이터 해석 장치(50)에 의하면, 군 정보(더미 행렬 Y)에 근거하여 스코어에 군의 순서를 반영시키면서, 커널 행렬 K에 의해 여러 가지의 측정 데이터의 통합 해석이나 비선형 해석을 행할 수 있다. 이 때문에, 통계 샘플간의 군의 순서를 고려하면서 다양한 데이터 해석을 가능하게 할 수 있다.
또한, 본 실시 형태에서는, 기억부(52)는 통계 샘플마다의 복수 종류의 측정 데이터 x(L) i, x(H) i, x(B) i, x(P) i를 각종의 데이터 행렬 X(L), X(H), X(B), X(P)로 관리한다. 각종 측정 데이터 x(L) i, x(H) i, x(B) i, x(P) i는, 예를 들면 생체 내의 복수의 대사물을 측정 항목으로 하는 메타볼롬 데이터이다. 제어부(51)는 종류마다의 측정 데이터 x(L) i, x(H) i, x(B) i, x(P) i에 관한 커널 함수의 평균에 의해, 커널 행렬 K를 계산한다. 이것에 의해, 별도로 관리되는 복수 종류의 측정 데이터 x(L) i, x(H) i, x(B) i, x(P) i를 통합적으로 해석할 수 있다.
또한, 본 실시 형태에서는, 데이터 해석 장치(50)에 의해 산출되는 스코어는 더미 행렬 Y가 나타내는 군의 순서에 따라 증대 또는 감소한다. 이 때문에, 산출된 스코어를 이용하여, 군의 순서를 고려한 데이터 해석이 용이하게 된다. 예를 들면, 본 실시 형태에서는, 제어부(51)는 측정 데이터 중의 측정 항목마다의 데이터와, 산출한 스코어의 상관을 해석한다.
또한, 본 실시 형태에서는, 소정 조건은 제 1 조건과 제 2 조건을 포함한다. 제 1 조건은, 부분적 최소 이승법에서의 설명 변수 t 및 목적 변수 s 중 설명 변수 t와 관련되는 제 1 벡터 αx에 대해, 제 1 벡터 αx끼리의 커널 행렬 K를 통한 내적을 소정치로 설정하는 조건이다(식 (13)). 제 2 조건은, 목적 변수 s와 관련되는 제 2 벡터 wy에 대해, 군 정보에 근거하는 소정의 벌칙항에 의해, 제 2 벡터의 크기를 소정치로부터 어긋나게 하는 조건이다(식 (6)).
(실시예)
본 발명에 따른 데이터 해석 방법(커널 PLS-ROG)은 샘플의 군 간에 순서가 있는 메타게놈 데이터, 및 메타게놈 데이터와 메타볼롬 데이터의 통합 해석에서도 유용하다. 이하, 커널 PLS-ROG에 의한 메타게놈 데이터와 메타볼롬 데이터의 통합 해석의 일 실시예에 대해 설명한다.
본 실시예에서는, 비특허문헌 3에서 개시된 메타게놈 데이터 및 메타볼롬 데이터에 대해, 커널 PLS-ROG에 의한 통합 해석을 적용한 예를 설명한다. 비특허문헌 3은 인간의 모유에서의 메타게놈 데이터 및 메타볼롬 데이터를 이용한 연구이다. 종래부터, 모유는 유아의 발육을 위한 세균의 중요한 발생원이고, 신생아의 장내 세균의 구성에 영향을 주는 것이 알려져 있다. 비특허문헌 3에서는, 호지킨 림프종의 화학 치료를 행하고 있는 모친의 모유 중의 세균총과 대사물을 해석한 결과, 화학 요법의 영향이 그 프로파일에 나타나 있는 것이 보여졌다.
비특허문헌 3은, 호지킨 림프종의 화학 치료를 실시하고 있는 모친에 대해, 화학 요법 개시부터 0주, 2주, 4주, 6주, 10주, 12주, 14주, 및 16주 후의 모유를 각각 2샘플씩 채취하고, 각 샘플에 대해 차세대 시퀀서에 의한 16S rRNA 메타게놈 해석과, 가스 크로마토그래피 질량 분석계를 이용한 메타볼롬 해석을 행하고 있다. 또, 메타게놈 해석의 결과의 데이터에 대해 공지의 UniFrac 해석(예를 들면 비특허문헌 3 참조)을 행하고, 유사도 행렬 D를 구성하는 데이터를 얻고 있다. 유사도 행렬 D는 각 요소가 샘플간의 유사도를 나타내는 행렬이고, 샘플의 개수 m을 이용하여 다음 식 (20)과 같이 나타내어진다.
Figure pct00011
위 식 (20)에서, di , j는, i번째의 샘플과 j번째의 샘플이 유사한 정도인 유사도를 나타낸다(i, j=1~m). di , j는 0~1의 범위 내의 값을 갖고, 0에 가까울수록 샘플 i와 샘플 j가 유사하다는 것을 나타낸다. 유사도 행렬 D, 및 상기 메타게놈 해석 결과의 데이터는 각각 세균총의 유전자 배열에 관한 정보를 나타내는 메타게놈 데이터의 일례이다.
또한, 비특허문헌 3의 메타볼롬 해석에서 얻어진 메타볼롬 데이터는 각 행에 225물질, 각 열에 16샘플의 데이터 행렬 X를 구성한다.
상기와 같은 비특허문헌 3의 통계 데이터는 일반적으로 공개되어 있다. 본 실시예에서는, 이 통계 데이터로부터 일부의 결손 데이터를 제외한 샘플수 14의 통계 데이터에 대해, 데이터 해석 장치(50)에 의해 커널 PLS-ROG 및 커널 PLS를 각각 적용하여, 통합 해석을 행하였다.
데이터 해석 장치(50)에서, 메타게놈 데이터의 커널 행렬 Kg는, 상기의 유사도 행렬 D에 근거하여, 이하와 같이 생성하였다. 즉, 커널 행렬 Kg의 비대각 성분에는, 유사도 행렬 D에서 대응하는 각 요소의 역수를 설정하였다. 또한, 커널 행렬 Kg의 대각 성분에는 소정치로서 20을 설정하였다.
또한, 데이터 해석 장치(50)는 메타볼롬 데이터의 커널 행렬 Km을, 상기의 데이터 행렬 X의 선형 커널을 이용하여 생성하였다(Km=XX'). 또한, 데이터 해석 장치(50)는, 다음 식 (21)과 같은 커널 행렬 Kg, Km간의 평균에 근거하여, 메타게놈 데이터와 메타볼롬 데이터를 통합한 커널 행렬 K를 계산하였다.
Figure pct00012
데이터 해석 장치(50)는, 이상과 같은 커널 행렬 K, 및 샘플의 화학 요법 개시부터의 기간에 대응하는 2샘플씩의 군의 순서를 나타내는 더미 행렬에 근거하여 커널 PLS-ROG(κ=0.5) 및 커널 PLS(κ=0)의 데이터 해석을 행하고, 각각의 스코어를 산출하였다. 도 14 및 도 15에, 각각의 해석 결과를 나타낸다.
도 14(a)는 커널 PLS에 의한 메타게놈 데이터의 해석 결과를 나타낸다. 도 14(b)는 커널 PLS에 의한 메타볼롬 데이터의 해석 결과를 나타낸다. 도 14(c)는 커널 PLS에 의한 메타게놈 데이터와 메타볼롬 데이터의 통합 해석의 결과를 나타낸다. 도 15(a)는 커널 PLS-ROG에 의한 메타게놈 데이터의 해석 결과를 나타낸다. 도 15(b)는 커널 PLS-ROG에 의한 메타볼롬 데이터의 해석 결과를 나타낸다. 도 15(c)는 커널 PLS-ROG에 의한 메타게놈 데이터와 메타볼롬 데이터와의 통합 해석의 결과를 나타낸다. 도 14(a)~(c) 및 도 15(a)~(c)에서는, 각 샘플의 스코어를 플롯하고 있고, 가로축은 스코어의 제 1 성분이고, 세로축은 스코어의 제 2 성분이다.
도 14(a)~(c)에 나타내는 바와 같이, 커널 PLS에 의하면, 샘플마다의 스코어는 세로축에서도 가로축에서도, 0~16주의 화학 요법의 기간의 순서로 나열되지 않고, 화학 요법의 기간의 순서는 스코어에는 나타나 있지 않았다.
한편, 커널 PLS-ROG에 의하면, 예를 들면 메타게놈 데이터에 관해, 도 15(a)에 나타내는 바와 같이 스코어의 제 1 성분(가로축)에서 0주의 샘플군과 2주의 샘플군이 순서대로 나열되어 있다. 또한, 도 15(b)에 나타내는 바와 같이, 메타게놈 데이터에 관해서도 스코어의 제 1 성분에서, 특히 6주, 10주, 12주, 16주 각각의 샘플군에서의 순서가 명확하게 나타나 있다. 이들의 평균에 근거하는 메타게놈 데이터와 메타볼롬 데이터의 통합 결과에서는, 도 15(c)에 나타내는 바와 같이, 0주, 2주, 4주, 6주, 10주, 12주, 16주의 각 주의 샘플군 간의 순서를 확인할 수 있었다.
이상과 같이, 본 발명에 따른 커널 PLS-ROG의 데이터 해석 방법은, 모유 중의 세균총이나, 장내 세균의 세균총의 해석 등의 메타게놈 데이터에 적용할 수 있다. 본 발명에 따른 커널 PLS-ROG의 데이터 해석 방법에 의하면, 메타게놈 데이터와 메타볼롬 데이터를 통합하여 해석할 수 있다.
(다른 실시 형태)
상기의 실시 형태 1에서는, 데이터 해석 장치(50)가 PC 등의 정보 처리 장치로 구성되는 예에 대해 설명했지만, 이에 한정되지 않고, 예를 들면 데이터 해석 장치(50)는 ASP 서버 등의 서버 장치이어도 좋다. 예를 들면, 데이터 해석 장치(50)는, 네트워크를 거쳐서 입력된 데이터 행렬 X나 더미 행렬 Y를 나타내는 정보를 네트워크 인터페이스(취득부의 일례)에 의해 취득하고, 데이터 해석 처리를 실행해도 좋다. 또한, 데이터 해석 장치(50)는 데이터 해석 처리에서 생성한 스코어를 나타내는 정보를, 네트워크를 거쳐서 송신해도 좋다.
또한, 상기의 실시 형태 1에서는, 메타볼로믹스에 대한 본 데이터 해석 방법의 적용예를 설명하였다. 본 데이터 해석 방법은 메타볼로믹스에 한정되지 않고, 여러 오믹스 해석이나 계량 화학의 다변량 해석에 적용해도 좋다. 이 경우, 측정 데이터는 동일 생체 내에서의 오믹스 해석 또는 계량 화학에 의해 얻어지는 데이터이어도 좋다.
또, 상기의 실시 형태 1에서는, 복수 종류의 메타볼롬 데이터의 통합 해석에 대해 설명하였다. 본 데이터 해석 방법은 메타볼롬 데이터와 유전자 발현 데이터의 통합이나, 복수의 측정 플랫폼으로부터 얻어진 분석 데이터를 통합하여 해석하는 것에 이용해도 좋고, 여러 통합 해석이 필요한 장면에서 적용 가능하다.
또한, 상기의 실시 형태 1에서, 도 2~5에 예시하는 메타볼롬 데이터는 모세관 전기 영동-비행 시간형 질량 분석계를 이용하여 측정되었다. 통계 샘플마다의 측정 데이터를 측정하기 위한 분석 장치는 이것에 한정되지 않고, 예를 들면, 액체 크로마토그래피 질량 분석계나 가스 크로마토그래피 질량 분석계, 핵자기 공명 등이어도 좋다.
또한, 상기의 실시 형태 1에서, 유저가 선택한 스코어의 성분에 대한 상관을 해석했지만(도 7의 스텝 S5), 이것에 한정되지 않고, 데이터 해석 장치(50)가 해석에 이용하는 스코어의 성분을 선택해도 좋다. 예를 들면, 데이터 해석 장치(50)의 제어부(51)가 스코어의 산출 후, 더미 행렬 Y에 근거하여 군의 순서를 반영한 스코어의 성분을 판정하고, 판정한 성분에 대한 상관의 해석을 행해도 좋다.
또한, 상기의 실시 형태 1에서는, 데이터 해석 처리의 해석 결과에 의해 가설 검정을 행했지만, 데이터 해석 장치(50)가 가설 검정을 행해도 좋다. 예를 들면, 기억부(52)에 상관 계수나 p치의 임계치를 미리 설정해 두고, 제어부(51)가, 특정의 스코어의 성분에 대한 상관의 해석에서, 소정 조건(예를 들면 상관 계수의 절대치 「0.6」 이상이고 또한 p치 「0.05」 이하)을 만족하는 대사물을 추출해도 좋다.
(형태의 정리)
본 발명에 따른 각종 형태를 이하에 예시한다.
본 발명에 따른 제 1 형태는 복수의 통계 샘플에 대해 복수의 데이터 항목에 관한 다변량 해석을 행하는 데이터 해석 장치이다. 데이터 해석 장치는 기억부와 제어부를 구비한다. 기억부는 상기 통계 샘플마다 상기 복수의 데이터 항목을 관리하는 통계 데이터, 및 복수의 통계 샘플이 이루는 군이 나열되는 순서를 나타내는 군 정보를 기록한다. 제어부는 상기 통계 데이터 및 상기 군 정보에 근거하는 소정의 연산 처리를 행한다. 제어부는, 상기 통계 데이터에 근거하여, 행렬 요소가 상기 복수의 통계 샘플 중의 행 번호에 대응하는 통계 샘플과 열 번호에 대응하는 통계 샘플간의 소정의 관계를 나타내는 커널 행렬을 계산한다. 제어부는, 상기 커널 행렬과 상기 군 정보에 의해 규정되는 소정 조건하의 부분적 최소 이승법에 근거하는 연산 처리를 행하여, 상기 복수의 통계 샘플에 대한 스코어를 산출한다.
본 발명에 따른 제 2 형태는, 제 1 형태에 따른 데이터 해석 장치에 있어서, 기억부는 상기 통계 데이터에서 상기 통계 샘플마다 복수 종류의 측정 데이터를 관리한다. 제어부는 상기 종류마다의 측정 데이터에 관한 커널 행렬을 생성하고, 상기 종류마다의 커널 행렬의 평균에 근거하여, 통합된 커널 행렬을 계산한다.
본 발명에 따른 제 3 형태는, 제 1 또는 제 2 형태에 따른 데이터 해석 장치에 있어서, 상기 소정의 관계는 상기 통계 데이터 중의 상기 행 번호에 대응하는 통계 샘플에 관한 데이터와 상기 열 번호에 대응하는 통계 샘플에 관한 데이터에 근거하는 커널 함수로 규정된다.
본 발명에 따른 제 4 형태는, 제 1 ~ 제 3 형태 중 어느 한 형태에 따른 데이터 해석 장치에 있어서, 상기 스코어는 상기 군 정보가 나타내는 군의 순서에 따라 증대 또는 감소한다.
본 발명에 따른 제 5 형태는, 제 1 ~ 제 4 형태 중 어느 한 형태에 따른 데이터 해석 장치에 있어서, 제어부는 상기 통계 데이터 중의 데이터 항목마다의 데이터와, 산출한 스코어의 상관을 해석한다.
본 발명에 따른 제 6 형태는, 제 1 ~ 제 5 형태 중 어느 한 형태에 따른 데이터 해석 장치에 있어서, 상기 소정 조건은 제 1 조건과 제 2 조건을 포함한다. 제 1 조건은 상기 부분적 최소 이승법에 있어서의 설명 변수 및 목적 변수 중 설명 변수와 관련되는 제 1 벡터에 대해, 상기 제 1 벡터끼리의 상기 커널 행렬을 통한 내적을 소정치로 설정하는 조건이다. 제 2 조건은 상기 목적 변수와 관련되는 제 2 벡터에 대해, 상기 군 정보에 근거하는 소정의 벌칙항에 의해, 상기 제 2 벡터의 크기를 소정치로부터 어긋나게 하는 조건이다.
본 발명에 따른 제 7 형태는, 제 1 ~ 제 6 형태 중 어느 한 형태에 따른 데이터 해석 장치에 있어서, 상기 통계 데이터는 생체 내의 복수의 대사물을 데이터 항목으로 하는 메타볼롬 데이터를 포함한다.
본 발명에 따른 제 8 형태는, 제 1 ~ 제 7 형태 중 어느 한 형태에 따른 데이터 해석 장치에 있어서, 상기 통계 데이터는 세균총의 유전자 배열에 관한 정보를 나타내는 메타게놈 데이터를 포함한다.
본 발명에 따른 제 9 형태는, 제 1 ~ 제 8 형태 중 어느 한 형태에 따른 데이터 해석 장치에 있어서, 상기 통계 데이터는 동일 생체 내에서의 오믹스 해석 또는 계량 화학에 의해 얻어지는 데이터를 포함한다.
본 발명에 따른 제 10 형태는 컴퓨터가 복수의 통계 샘플에 대해 상기 복수의 데이터 항목에 관한 다변량 해석을 행하는 데이터 해석 방법이다. 상기 컴퓨터의 기억부에는, 상기 통계 샘플마다 상기 복수의 데이터 항목을 관리하는 통계 데이터, 및 복수의 통계 샘플이 이루는 군이 나열된 순서를 나타내는 군 정보가 기록되어 있다. 본 방법은, 상기 컴퓨터가, 상기 통계 데이터에 근거하여, 행렬 요소가 상기 복수의 통계 샘플 중의 행 번호에 대응하는 통계 샘플과 열 번호에 대응하는 통계 샘플 간의 소정의 관계를 나타내는 커널 행렬을 계산하는 스텝을 포함한다. 본 방법은, 상기 컴퓨터가, 상기 커널 행렬과 상기 군 정보에 의해 규정되는 소정 조건하의 부분적 최소 이승법에 근거하는 연산 처리를 행하여, 상기 복수의 통계 샘플에 대한 스코어를 산출하는 스텝을 포함한다.
본 발명에 따른 제 11 형태는 제 10 형태에 따른 데이터 해석 방법을 컴퓨터에게 실행시키기 위한 프로그램이다.

Claims (11)

  1. 복수의 통계 샘플에 대해 복수의 데이터 항목에 관한 다변량 해석을 행하는 데이터 해석 장치로서,
    상기 통계 샘플마다 상기 복수의 데이터 항목을 관리하는 통계 데이터, 및 복수의 통계 샘플이 이루는 군이 나열된 순서를 나타내는 군 정보를 기록하는 기억부와,
    상기 통계 데이터 및 상기 군 정보에 근거하는 소정의 연산 처리를 행하는 제어부
    를 구비하고,
    상기 제어부는,
    상기 통계 데이터에 근거하여, 행렬 요소가 상기 복수의 통계 샘플 중의 행 번호에 대응하는 통계 샘플과 열 번호에 대응하는 통계 샘플과의 사이의 소정의 관계를 나타내는 커널 행렬을 계산하고,
    상기 커널 행렬과 상기 군 정보에 의해 규정되는 소정 조건하의 부분적 최소 이승법에 근거하는 연산 처리를 행하여, 상기 복수의 통계 샘플에 대한 스코어를 산출하는
    데이터 해석 장치.

  2. 제 1 항에 있어서,
    상기 기억부는 상기 통계 데이터에서 상기 통계 샘플마다 복수 종류의 측정 데이터를 관리하고,
    상기 제어부는,
    상기 종류마다의 측정 데이터에 관한 커널 행렬을 생성하고,
    상기 종류마다의 커널 행렬의 평균에 근거하여, 통합된 커널 행렬을 계산하는
    데이터 해석 장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 소정의 관계는 상기 통계 데이터 중의 상기 행 번호에 대응하는 통계 샘플에 관한 데이터와 상기 열 번호에 대응하는 통계 샘플에 관한 데이터에 근거하는 커널 함수로 규정되는
    데이터 해석 장치.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 스코어는 상기 군 정보가 나타내는 군의 순서에 따라 증대 또는 감소하는
    데이터 해석 장치.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 제어부는 상기 통계 데이터 중의 데이터 항목마다의 데이터와, 산출한 스코어의 상관을 해석하는
    데이터 해석 장치.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 소정 조건은,
    상기 부분적 최소 이승법에 있어서의 설명 변수 및 목적 변수 중 설명 변수와 관련되는 제 1 벡터에 대해, 상기 제 1 벡터끼리의 상기 커널 행렬을 통한 내적을 소정치로 설정하는 제 1 조건과,
    상기 목적 변수와 관련되는 제 2 벡터에 대해, 상기 군 정보에 근거하는 소정의 벌칙항에 의해, 상기 제 2 벡터의 크기를 소정치로부터 어긋나게 하는 제 2 조건을 포함하는
    데이터 해석 장치.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 통계 데이터는 생체 내의 복수의 대사물을 데이터 항목으로 하는 메타볼롬 데이터를 포함하는
    데이터 해석 장치.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 통계 데이터는 세균총의 유전자 배열에 관한 정보를 나타내는 메타게놈 데이터를 포함하는
    데이터 해석 장치.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    상기 통계 데이터는 동일 생체 내에서의 오믹스 해석 또는 계량 화학에 의해 얻어지는 데이터를 포함하는
    데이터 해석 장치.
  10. 컴퓨터가 복수의 통계 샘플에 대해 상기 복수의 데이터 항목에 관한 다변량 해석을 행하는 데이터 해석 방법으로서,
    상기 컴퓨터의 기억부에는, 상기 통계 샘플마다 상기 복수의 데이터 항목을 관리하는 통계 데이터, 및 복수의 통계 샘플이 이루는 군이 나열되는 순서를 나타내는 군 정보가 기록되어 있고,
    상기 컴퓨터가,
    상기 통계 데이터에 근거하여, 행렬 요소가 상기 복수의 통계 샘플 중의 행 번호에 대응하는 통계 샘플과 열 번호에 대응하는 통계 샘플 간의 소정의 관계를 나타내는 커널 행렬을 계산하는 스텝과,
    상기 커널 행렬과 상기 군 정보에 의해 규정되는 소정 조건하의 부분적 최소 이승법에 근거하는 연산 처리를 행하여, 상기 복수의 통계 샘플에 대한 스코어를 산출하는 스텝
    을 포함하는 데이터 해석 방법.
  11. 청구항 10에 기재된 데이터 해석 방법을 컴퓨터에게 실행시키기 위한 프로그램.
KR1020187014814A 2015-11-26 2016-11-21 데이터 해석 장치, 방법 및 프로그램 KR20180082472A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015230862 2015-11-26
JPJP-P-2015-230862 2015-11-26
PCT/JP2016/084509 WO2017090566A1 (ja) 2015-11-26 2016-11-21 データ解析装置、方法及びプログラム

Publications (1)

Publication Number Publication Date
KR20180082472A true KR20180082472A (ko) 2018-07-18

Family

ID=58764279

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187014814A KR20180082472A (ko) 2015-11-26 2016-11-21 데이터 해석 장치, 방법 및 프로그램

Country Status (7)

Country Link
US (1) US20180357205A1 (ko)
EP (1) EP3382610A4 (ko)
JP (1) JP6286111B2 (ko)
KR (1) KR20180082472A (ko)
CN (1) CN108369666A (ko)
SG (1) SG11201804355UA (ko)
WO (1) WO2017090566A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019202728A1 (ja) * 2018-04-20 2019-10-24 ヒューマン・メタボローム・テクノロジーズ株式会社 データ解析装置及びデータ解析方法
JP7437003B2 (ja) * 2019-07-01 2024-02-22 ヒューマン・メタボローム・テクノロジーズ株式会社 データ解析装置および方法
CN110928262B (zh) * 2019-12-17 2022-11-15 中国人民解放军火箭军工程大学 时变系统下高效更新模型的质量相关故障在线监控方法
KR20210143464A (ko) * 2020-05-20 2021-11-29 삼성에스디에스 주식회사 데이터 분석 장치 및 그것의 데이터 분석 방법
CN112328962B (zh) * 2020-11-27 2021-12-31 深圳致星科技有限公司 矩阵运算优化方法、装置、设备和可读存储介质
CN116049157B (zh) * 2023-01-04 2024-05-07 北京京航计算通讯研究所 一种质量数据分析方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446831B (zh) * 2008-12-30 2011-05-25 东北大学 一种分散的过程监测方法
US20150276764A1 (en) * 2012-11-05 2015-10-01 Carolyn Slupsky Determining disease states using biomarker profiles
JP6715451B2 (ja) * 2015-04-08 2020-07-01 国立大学法人山梨大学 マススペクトル解析システム,方法およびプログラム

Also Published As

Publication number Publication date
EP3382610A4 (en) 2019-07-17
JPWO2017090566A1 (ja) 2018-02-08
CN108369666A (zh) 2018-08-03
US20180357205A1 (en) 2018-12-13
WO2017090566A1 (ja) 2017-06-01
EP3382610A1 (en) 2018-10-03
SG11201804355UA (en) 2018-06-28
JP6286111B2 (ja) 2018-02-28

Similar Documents

Publication Publication Date Title
KR20180082472A (ko) 데이터 해석 장치, 방법 및 프로그램
Ren et al. Computational and statistical analysis of metabolomics data
Goldsmith et al. Smooth scalar-on-image regression via spatial Bayesian variable selection
Abbott et al. An evaluation of the precision of measurement of Ryff’s Psychological Well-Being Scales in a population sample
Weljie et al. Targeted profiling: quantitative analysis of 1H NMR metabolomics data
Wan et al. Sparse Bayesian multi-task learning for predicting cognitive outcomes from neuroimaging measures in Alzheimer's disease
CN105096225B (zh) 辅助疾病诊疗的分析系统、装置及方法
Rossi et al. Relationship between external and internal workloads in elite soccer players: comparison between rate of perceived exertion and training load
Campa et al. Body water content and morphological characteristics modify bioimpedance vector patterns in volleyball, soccer, and rugby players
Siqueira et al. Biodiversity analyses: are aquatic ecologists doing any better and differently than terrestrial ecologists?
Clark et al. Physical activity characterization: does one site fit all?
Iannaccone et al. Usefulness of linear mixed-effects models to assess the relationship between objective and subjective internal load in team sports
Stanković et al. 30–15 intermittent fitness test: a systematic review of studies, examining the VO2max estimation and training programming
Sokołowski et al. Biological age in relation to somatic, physiological, and swimming kinematic indices as predictors of 100 m front crawl performance in young female swimmers
Assis et al. Evolutionary processes and its environmental correlates in the cranial morphology of western chipmunks (Tamias)
Magee et al. Does the multistage 20-m shuttle run test accurately predict VO2max in NCAA division I women collegiate field hockey athletes?
Daly et al. Gaelic football match-play: performance attenuation and timeline of recovery
Cabbia et al. A distance-based framework for the characterization of metabolic heterogeneity in large sets of genome-scale metabolic models
Shih et al. Modeling familial association of ages at onset of disease in the presence of competing risk
Park et al. Sparse common and distinctive covariates regression
Boykin et al. Offseason body composition changes detected by dual-energy X-ray absorptiometry versus multifrequency bioelectrical impedance analysis in collegiate American football athletes
Randić et al. Study of proteome maps using partial ordering
Sengupta et al. Metabolomics
Harezlak et al. Individual and population penalized regression splines for accelerated longitudinal designs
Todeschini et al. Deep Ranking Analysis by Power Eigenvectors (DRAPE): A wizard for ranking and multi-criteria decision making

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right