KR101990429B1 - 질병 연관 세포기능에 연결된 마커 기반으로 멀티마커 패널을 선정하는 시스템 및 방법 - Google Patents

질병 연관 세포기능에 연결된 마커 기반으로 멀티마커 패널을 선정하는 시스템 및 방법 Download PDF

Info

Publication number
KR101990429B1
KR101990429B1 KR1020170079167A KR20170079167A KR101990429B1 KR 101990429 B1 KR101990429 B1 KR 101990429B1 KR 1020170079167 A KR1020170079167 A KR 1020170079167A KR 20170079167 A KR20170079167 A KR 20170079167A KR 101990429 B1 KR101990429 B1 KR 101990429B1
Authority
KR
South Korea
Prior art keywords
disease
marker
markers
selecting
expression
Prior art date
Application number
KR1020170079167A
Other languages
English (en)
Other versions
KR20190000168A (ko
Inventor
이관수
민범기
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020170079167A priority Critical patent/KR101990429B1/ko
Publication of KR20190000168A publication Critical patent/KR20190000168A/ko
Application granted granted Critical
Publication of KR101990429B1 publication Critical patent/KR101990429B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Abstract

적어도 하나의 프로세서에 의해 동작하는 시스템이 멀티마커 패널을 선정하는 방법으로서, 질병에 연관된 기전 기반으로 질병 연관 세포기능들과 질병 마커들을 연결하는 단계, 상기 질병 마커들 중 적어도 하나의 질병 마커에 유사한 유전자들을 질병 마커 후보들로 확장하는 단계, 마이크로어레이 데이터를 이용하여, 상기 질병 마커들과 상기 질병 마커 후보들 각각의 발현 정도를 평가하여, 전사체 마커들을 선정하는 단계, 그리고 상기 전사체 마커들 중에서 기능 및 기전을 공유하면서 발현 패턴이 유사한 중복 마커들을 제외하여 멀티마커 패널을 선정하는 단계를 포함한다.

Description

질병 연관 세포기능에 연결된 마커 기반으로 멀티마커 패널을 선정하는 시스템 및 방법{SYSTEM AND METHOD FOR SELECTING MULTI-MARKER PANELS}
본 발명은 생물정보학(Bioinformatics) 기술에 관한 것으로서, 구체적으로는 바이오마커에 관한 것이다.
질병 특이적으로 변화하는 생물학적 지표인 바이오마커는 해당 질병의 세포 수준의 생물학적 기전 이해는 물론 질병 진단, 예후 예측, 약물 동반 진단에 이르는 의학적 용도에 이르기까지 다양하게 활용되고 있다. 질병 판별용 마커는 정상과 질병 사이의 특이적 패턴을 보여야 하고, 질병 분류용 마커는 질병 종류별로 특이적인 패턴을 보여야 한다.
전통적으로 질병 마커는 세포 수준에서 알려진 질병 표현형을 변화시키거나 해당 질병 표현형에서 변화된 요인을 탐색하는 세포 기반의 실험을 통하여 발굴되었다. 이러한 마커 발굴 방법은 생물학적 기능을 토대로 변화 요인을 찾기 때문에 인과관계가 명확하고 신뢰성 있는 마커를 탐색할 수 있지만, 각 실험을 위하여 개별 모델을 구성해야 하며 실험에 드는 시간과 비용이 상당하여 대규모의 신규 마커 발굴이나 검증이 어려웠다.
DNA 마이크로어레이 기술이 개발된 이래로 다양한 오믹스 분석 기법 및 데이터 생산 기법이 연구되었고, 이로 인하여 이전의 수 개 내지 수 십 개 마커 수준의 단편적인 분석에서 벗어나 수천 내지 수 만개 생체 물질 데이터를 기반으로 총체적인 분석을 통한 대규모 마커 발굴이 가능해졌다. 특히 세포 내 유전 정보를 담은 DNA로부터 전사된 RNA 형태의 전사물(transcript)의 발현량을 총체적으로 측정한 전사체(transcriptome) 데이터는 비용과 속도 측면에서 다른 오믹스 데이터보다 생산이 용이하여 현재까지 가장 접근성이 높고 방대한 양을 가지고 있다. 전사체 데이터 중 하나인 마이크로어레이 데이터의 경우 다수의 공개 데이터 및 분석 방법이 공개되어 있어 이를 활용하여 전사체 데이터를 분석하여 마커 발굴을 시도한 사례가 많이 있었다. 특히 환자군에서 추출한 전사체 데이터를 활용하여 신규 발현 마커를 발굴하고, 이를 기반으로 질병 및 예후 진단, 질병 분류, 신약 개발 등의 다양한 생물정보학 연구가 진행되어 왔다. 또한 전사체 기반의 마커 모델은 단백질이나 대사물질 등의 생체 물질에 비해 검출이 비교적 간편하기 때문에, 실험 검증이나 실제 진단 키트로 개발되었다. 실제로 58개의 핵산(nucleic acid) 기반의 테스트가 FDA 허가(cleared) 혹은 승인(approved)되어 있다. 따라서 전사체 데이터 내 대규모의 샘플 및 다수의 유전자 정보를 분석하여 새로운 전사 마커를 발굴하는 것이 중요하다.
그러나 마이크로어레이에는 다양한 데이터셋이 존재하는데, 데이터셋마다 발굴되는 유의한 유전자가 상이하고, 데이터셋들에서 겹치는 유전자 비율도 높지 않아 전사체 데이터 분석을 통해 선정된 마커의 재현성이 낮다. 따라서, 전사체 데이터 분석을 통한 마커 선정은 재현성이 중요한 의학용으로 활용하는데 한계가 있다.
마커의 재현성을 높이기 위하여 많은 수의 데이터셋 및 샘플을 분석하는 것이 필요하나, "많은 수"의 적정 수준을 정의하기 어렵고, 질병별로 많은 샘플이 존재하지 않을 수 있으므로, 데이터 분석을 통한 지금까지의 마커 선정 방법은 여전히 한계가 있다.
또한, 마이크로어레이 분석으로 선정된 마커는 세포기능이 연관되어 있지 않아 마커만으로 연관된 기능을 알기 힘들고, 기존에 알려진 정보를 기반으로 마커의 기능을 탐색하더라도 하나의 유전자가 다양한 기전에 연관되어 있어서 질병과 상관 없는 기능 및 마커가 선정될 수 있다.
이와 같은 문제점은 질병과 연관된 세포기능을 중심으로 마커를 선정함으로써, 데이터에서 확률적으로 발생하여 재현성이 떨어지는 정보를 제외하고 질병 특이적으로 나타나는 정보를 선별할 수 있다. 그러나 기존 연구에서는 세포기능을 기반으로 추려진 후보 마커를 기반으로 데이터셋 평가를 통하여 마커를 선정한 사례가 없었다.
본 발명이 해결하고자 하는 과제는 질병에 연관된 기전 기반으로 질병 연관 세포기능과 질병 마커를 연결하고, 질병 마커와 유사한 새로운 마커 후보들을 발굴한 후, 마커 후보들을 전사체 데이터 분석으로 검증하여 질병 판별 및 기전 해석이 가능한 멀티마커 패널을 선정하는 시스템 및 방법을 제공하는 것이다.
한 실시예에 따라 적어도 하나의 프로세서에 의해 동작하는 시스템이 멀티마커 패널을 선정하는 방법으로서, 질병에 연관된 기전 기반으로 질병 연관 세포기능들과 질병 마커들을 연결하는 단계, 상기 질병 마커들 중 적어도 하나의 질병 마커에 유사한 유전자들을 질병 마커 후보들로 확장하는 단계, 마이크로어레이 데이터를 이용하여, 상기 질병 마커들과 상기 질병 마커 후보들 각각의 발현 정도를 평가하여, 전사체 마커들을 선정하는 단계, 그리고 상기 전사체 마커들 중에서 기능 및 기전을 공유하면서 발현 패턴이 유사한 중복 마커들을 제외하여 멀티마커 패널을 선정하는 단계를 포함한다.
상기 질병 연관 세포기능들과 질병 마커들을 연결하는 단계는 질병 연관 기전 경로 내에 포함되는 질병 연관 세포기능을 탐색해서, 해당 기전 경로 내에 포함된 질병 마커를 질병 연관 세포기능에 연결하는 단계, 질병 연관 세포기능에 연결되지 않은 미연결 마커를 추출하는 단계, 그리고 상기 미연결 마커에 대한 기전 경로를 탐색하고, 탐색된 기전 경로에 포함된 세포기능들에 대하여 상기 미연결 마커들이 유의하게 포함되는지 평가하여, 상기 미연결 마커를 탐색된 세포기능에 연결하는 단계를 포함한다.
상기 질병 마커 후보들로 확장하는 단계는 상기 질병 마커들과의 관계 유사성, 거리 및 연결 강도, 그리고 발현 상관관계 중 적어도 하나를 이용하여 후보 유전자들 각각을 점수화하고, 각 후보 유전자의 점수를 기초로 상기 질병 마커 후보들을 선정할 수 있다.
상기 질병 마커 후보들로 확장하는 단계는 순서 통계(order statistics) 기반으로, 스케일이 다른 관계 유사성 점수, 거리 및 연결 강도 점수, 그리고 발현 상관관계 점수를 순위 기반으로 통합하여 각 후보 유전자의 점수를 계산할 수 있다.
상기 전사체 마커들을 선정하는 단계는 상기 마이크로어레이 데이터를 이용하여, 상기 질병 마커들과 상기 질병 마커 후보들 각각의 발현 배율 및 발현 유의 확률을 계산하고, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하인 마커들을 상기 전사체 마커들로 선정할 수 있다.
상기 전사체 마커들을 선정하는 단계는 데이터셋별로 동일하게 정규화된 마이크로어레이 데이터를 이용하여, 상기 질병 마커들과 상기 질병 마커 후보들 각각의 판별력을 더 계산하고, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하이며, 판별력이 기준값 이상인 마커들을 상기 전사체 마커들로 선정할 수 있다.
상기 전사체 마커들을 선정하는 단계는 상기 전사체 마커들 중에서, 검증하고자 하는 조직 혹은 세포주에서의 검증 가능성을 평가하여 질병 기능 연계된 오믹스 마커를 선정할 수 있다.
상기 멀티마커 패널을 선정하는 단계는 상기 전사체 마커들 중에서 발현 패턴이 유사하면서 기능 및 경로를 공유하는 마커들을 클러스터로 분류하는 단계, 그리고 각 클러스터 내 마커를 임의로 제거하고 남은 마커를 기반으로 판별력을 예측하면서, 최적의 판별력을 보이는 마커 조합을 멀티마커 패널로 선정하는 단계를 포함할 수 있다.
다른 실시예에 따라 적어도 하나의 프로세서에 의해 동작하는 시스템이 멀티마커 패널을 선정하는 방법으로서, 질병 연관 기전 경로 내에 포함되는 질병 연관 세포기능과 해당 기전 경로 내에 포함된 질병 마커를 연결하는 단계, 질병 마커 데이터베이스에 저장된 질병 마커들 중에서, 질병 연관 세포기능에 연결되지 않은 미연결 질병 마커가 있는 경우, 상기 미연결 질병 마커에 대한 기전 경로를 탐색하고, 탐색된 기전 경로에 포함된 질병 연관 세포기능들에 대하여 상기 미연결 질병 마커가 유의하게 포함되는지 평가하여, 상기 미연결 질병 마커를 탐색된 질병 연관 세포기능에 연결하는 단계, 질병 연관 세포기능에 연결된 질병 마커들, 그리고 질병 연관 세포기능에 연결된 질병 마커들 중 적어도 하나의 질병 마커에 유사한 유전자들을 질병 마커 후보들로 선정하는 단계, 그리고 마이크로어레이 데이터를 이용하여, 상기 질병 마커 후보들 각각을 검증하여 상기 질병 마커 후보들 중 적어도 일부 마커들로 조합된 멀티마커 패널을 선정하는 단계를 포함한다.
상기 멀티마커 패널을 선정하는 단계는 상기 질병 마커 후보들 중에서, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하이며, 판별력이 기준값 이상인 전사체 마커들을 상기 멀티마커 패널로 선정할 수 있다.
상기 멀티마커 패널을 선정하는 단계는 상기 전사체 마커들 중에서 발현 패턴이 유사하면서 기능 및 경로를 공유하는 중복 마커를 제외하여 상기 멀티마커 패널을 선정할 수 있다.
상기 질병 마커 후보들로 선정하는 단계는 상기 질병 마커들과의 관계 유사성, 거리 및 연결 강도, 그리고 발현 상관관계 중 적어도 하나를 이용하여 후보 유전자들 각각을 점수화하고, 각 후보 유전자의 점수를 기초로 상기 질병 마커에 유사한 유전자들을 선정할 수 있다.
상기 질병 마커 후보들로 선정하는 단계는 순서 통계(order statistics) 기반으로, 스케일이 다른 관계 유사성 점수, 거리 및 연결 강도 점수, 그리고 발현 상관관계 점수를 순위 기반으로 통합하여 각 후보 유전자의 점수를 계산할 수 있다.
또 다른 실시예에 따라 적어도 하나의 프로세서에 의해 동작하는 시스템이 멀티마커 패널을 선정하는 방법으로서, 질병 연관 세포기능에 연결된 질병 마커들을 입력받는 단계, 상기 질병 마커들 중 적어도 하나의 질병 마커에 유사한 유전자들을 추출하는 단계, 상기 유사한 유전자들 각각에 해당 질병 마커의 질병 연관 세포기능을 연결하는 단계, 상기 질병 마커들과 상기 질병 마커들 중 적어도 하나에 유사한 유전자들을 질병 마커 후보들로 선정하는 단계, 그리고 마이크로어레이 데이터를 이용하여, 상기 질병 마커 후보들 각각을 검증하여 멀티마커 패널을 선정하는 단계를 포함한다.
상기 질병 마커 후보들로 선정하는 단계는 상기 질병 마커들과의 관계 유사성, 거리 및 연결 강도, 그리고 발현 상관관계 중 적어도 하나를 이용하여 후보 유전자들 각각을 점수화하고, 각 후보 유전자의 점수를 기초로 상기 질병 마커에 유사한 유전자들을 선정할 수 있다.
상기 멀티마커 패널을 선정하는 단계는 상기 질병 마커 후보들 중에서, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하이며, 판별력이 기준값 이상인 전사체 마커들을 추출하는 단계, 그리고 상기 전사체 마커들 중에서 발현 패턴이 유사하면서 기능 및 경로를 공유하는 중복 마커를 제외하여 상기 멀티마커 패널을 선정하는 단계를 포함할 수 있다.
또 다른 실시예에 따라 적어도 하나의 프로세서에 의해 동작하는 멀티마커 패널 선정 시스템으로서, 질병에 연관된 기전 기반으로 질병 연관 세포기능에 연결된 질병 마커들을 추출하고, 상기 질병 마커들 중 적어도 하나의 질병 마커에 유사한 유전자들을 확장된 질병 마커들로 추출하는 마커 후보 추출 장치, 그리고 마이크로어레이 데이터를 이용하여, 상기 마커 후보 추출 장치에서 추출된 상기 질병 마커들 각각을 검증하여 상기 질병 마커들 중 적어도 일부 마커들로 조합된 멀티마커 패널을 선정하는 마커 선정 장치를 포함한다.
상기 마커 후보 추출 장치는 상기 질병 마커들과의 관계 유사성, 거리 및 연결 강도, 그리고 발현 상관관계 중 적어도 하나를 이용하여 후보 유전자들 각각을 순위 기반으로 점수화하고, 각 후보 유전자의 점수를 기초로 상기 질병 마커에 유사한 유전자들을 선정할 수 있다.
상기 마커 선정 장치는 입력된 상기 질병 마커들 중에서, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하이며, 판별력이 기준값 이상인 전사체 마커들을 추출하고, 상기 전사체 마커들 중에서 발현 패턴이 유사하면서 기능 및 경로를 공유하는 마커들을 클러스터로 분류한 후, 각 클러스터 내 마커를 임의로 제거하고 남은 마커를 기반으로 판별력을 예측하면서, 최적의 판별력을 보이는 마커 조합을 멀티마커 패널로 선정할 수 있다.
본 발명의 실시예에 따르면 질병연관 세포기능과 연관된 마커를 선정할 수 있고, 이를 통해 질병 판별과 기전 해석을 동시에 할 수 있다. 본 발명의 실시예에 따르면 질병 기전 기반으로 질병 연관 세포기능과 마커의 연결을 통해 획득된 마커 후보를 다수의 전사체 오믹스에서 검증하여 멀티마커 패널을 구성하므로, 질병 상태 판별 시에 재현성을 높일 수 있다.
본 발명의 실시예에 따라 선정된 멀티마커 패널은 질병 원인 해석이나 치료 근거를 제공할 수 있고, 변화된 기능 패널을 기반으로 정확한 환자군을 분류할 수 있다.
본 발명의 실시예에 따라 선정된 멀티마커 패널은 질병 진단, 예후 예측, 약물 동반 진단 등에 광범위하게 이용될 수 있으며, 소규모 마이크로어레이 내지는 멀티플렉스 분석 키트로 제작될 수 있다.
도 1은 본 발명의 한 실시예에 따른 멀티마커 패널 선정 시스템의 구성도이다.
도 2는 본 발명의 한 실시예에 따른 마커 후보 추출 장치가 세포기능과 마커를 연결하는 방법의 흐름도이다.
도 3은 본 발명의 한 실시예에 따른 마커 후보 추출 장치가 질병 마커 후보를 확장하는 방법의 흐름도이다.
도 4는 본 발명의 한 실시예에 따른 마커 선정 장치가 멀티마커 패널을 선정하는 방법의 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 한 실시예에 따른 멀티마커 패널 선정 시스템의 구성도이다.
도 1을 참고하면, 멀티마커 패널 선정 시스템(10)은 질병에 연관된 기전 기반으로 질병 연관 세포기능과 질병 마커를 연결하는 것을 시작으로, 질병 마커와 유사한 새로운 마커 후보들을 발굴한 후, 마커 후보들을 검증하기 위해 마이크로어레이 분석을 한다. 이렇게 선정된 멀티마커 패널은 이미 질병 연관 세포 기능과 기전이 매핑되어 있으므로 질병 판별 및 기전 해석이 동시에 가능, 종래의 마이크로어레이 분석 기반으로 발굴된 마커가 가지는 한계를 해결할 수 있다.
멀티마커 패널 선정 시스템(10)은 생물학적 정보 유사성 분석과 마이크로어레이 분석을 통합하여 멀티마커 패널을 선정한다. 이를 위해, 멀티마커 패널 선정 시스템(10)은 적어도 하나의 프로세서로 동작하고, 생물학적 연관 관계 기반 마커 후보 추출 장치(100), 그리고 마이크로어레이 분석 기반 마커 선정 장치(200)를 포함한다.
마커 후보 추출 장치(100)는 질병 연관 세포기능과 질병 마커 연결부(110), 질병 마커 후보 확장부(130)를 포함할 수 있다. 마커 선정 장치(200)는 마커 평가부(210), 그리고 마커 조합 선정부(230)를 포함할 수 있다.
멀티마커 패널 선정 시스템(10)은 데이터베이스(300)와 연동하여 필요한 정보를 획득할 수 있다. 데이터베이스 중 적어도 일부는 멀티마커 패널 선정 시스템(10)에 구현되거나, 원격의 서버에 구현될 수 있다. 데이터베이스(300)는 포함된 데이터에 따라, 질병 기능 및 경로 데이터베이스(310), 질병 마커 데이터베이스(320), 마이크로어레이 데이터베이스(330), 상호작용 및 경로 데이터베이스(340), 단백질 및 도메인 기능 데이터베이스(350), 그리고 세포 내 발현 및 변이 데이터베이스(360)로 구분되는 것으로 설명하나, 반드시 물리적으로 구분될 필요는 없다.
마커 후보 추출 장치(100)는 질병 연관 세포기능과 질병 마커 연결부(간단히, '기능-마커 연결부'라고 한다)(110), 질병 마커 후보 확장부(130)를 포함한다.
기능-마커 연결부(110)는 질병 기전 정보를 기초로 질병 연관 세포기능들과 질병 마커들의 관계를 예측하여, 질병 연관 세포기능에 연결된 질병 마커를 획득한다. 구체적으로, 기능-마커 연결부(110)는 알려진 질병 연관 세포기능을 최종 산물로 도출하는 질병 연관 경로를 질병 기전으로 선정하고, 해당 세포기능의 상류에 존재하는 질병 마커를 질병 연관 세포기능에 대한 마커로 연결한다. 질병 연관 세포기능은 알려진 정보로서 질병 기능 및 경로 데이터베이스(310)에서 추출될 수 있다. 질병 마커는 알려진 정보로서 질병 마커 데이터베이스(320)에서 추출될 수 있다.
한편, 질병 마커들 중에서 질병 연관 세포기능이 하나라도 연결되지 않은 미연결 마커가 존재할 수 있다. 이 경우, 기능-마커 연결부(110)는 미연결 마커에 대한 기전 경로 정보를 기초로 신규 질병 연관 세포기능을 예측하고, 예측된 신규 질병 연관 세포기능과 미연결 마커의 관계를 생성할 수 있다. 이를 통해 기능-마커 연결부(110)는 질병 마커 기반으로 기전을 확장할 수 있다. 기전 경로 정보는 상호작용 및 경로 데이터베이스(340)에서 추출될 수 있다.
질병 마커 후보 확장부(130)는 기능-마커 연결부(110)에서 획득한 질병 연관 세포기능에 연결된 질병 마커들을 입력받는다. 질병 마커 후보 확장부(130)는 질병 마커들과 유사한 유전자들을 마커 후보로 발굴하여, 질병 연관 세포기능에 연결될 마커들을 확장한다.
구체적으로, 질병 마커 후보 확장부(130)는 질병 마커들과의 유사성 분석을 기반으로 전체 유전자들을 점수화하고, 질병 마커들의 점수와 비교하여 유사 관계가 있는 유전자들을 신규 마커 후보로 발굴한다. 유사성 분석 방법은 다양할 수 있는데, 질병 마커 후보 확장부(130)는 질병 마커들과의 다양한 관계 정보, 거리 및 연결 강도, 발현 패턴 등을 비교하여 유의한 유전자들을 신규 마커 후보로 발굴한다.
질병 마커 후보 확장부(130)는 다양한 관계 정보를 기초로 질병 마커들의 공통 특징을 추출하고, 질병 마커들과 관계 유사성을 나타내는 후보 유전자들의 관계 점수를 매길 수 있다. 다양한 관계 정보는 경로-소속 유전자 관계 정보, 전사인자-표적 유전자 관계 정보, E3 유비퀴탄화 효소-기질 관계 정보, 골격단백질(scaffold)-표적 단백질 관계 정보 등의 '작용 관계 정보'를 포함할 수 있고, 상호작용 및 경로 데이터베이스(340)에서 추출될 수 있다. 다양한 관계 정보는 세포기능-단백질 정보, 도메인-단백질 정보 등의 다양한 '기능 관계 정보'를 포함할 수 있고, 단백질 및 도메인 기능 데이터베이스(350)에서 추출될 수 있다. 세포기능-단백질 정보는 Gene Ontology의 데이터베이스를 활용할 수 있고, 도메인-단백질 정보는 PFAM의 데이터베이스를 활용할 수 있다.
질병 마커 후보 확장부(130)는 질병 마커들과 후보 유전자들의 거리 및 연결 정도를 나타내는 후보 유전자들의 네트워크 점수를 매길 수 있다. 질병 마커 후보 확장부(130)는 단백질-단백질 상호작용 정보를 기반으로 구성된 네트워크를 링크 분석(Link analysis)하여 질병 마커들과 후보 유전자들의 거리 및 연결 정도에 따라 네트워크 점수를 매길 수 있다. 단백질-단백질 상호작용 정보는 상호작용 및 경로 데이터베이스(340)에서 추출될 수 있다.
질병 마커 후보 확장부(130)는 관심 질병의 정규화(normalization)된 마이크로어레이 데이터를 기초로 질병 마커들과 후보 유전자들의 발현 상관관계(correlation)을 분석하여 후보 유전자들의 발현 패턴 점수를 매길 수 있다. 마이크로어레이 데이터는 마이크로어레이 데이터베이스(330)에서 추출될 수 있다. 마이크로어레이 데이터베이스(330)는 Gene Expression Omnibus나 ArrayExpress 등의 데이터베이스를 활용할 수 있다.
질병 마커 후보 확장부(130)는 질병 마커들과 관계 유사성을 나타내는 후보 유전자들의 관계 점수, 질병 마커들과 후보 유전자들의 거리 및 연결 정도를 나타내는 후보 유전자들의 네트워크 점수, 그리고 질병 마커들과의 발현 상관관계를 나타내는 후보 유전자들의 발현패턴 점수를 통합한다. 통합된 점수는 질병 마커들과의 유사성을 나타내는 각 후보 유전자의 유사성 점수로 사용된다. 이때, 질병 마커 후보 확장부(130)는 순서 통계(order statistics) 기반으로 스케일이 다른 정보들을 순위 기반으로 합산할 수 있다.
질병 마커 후보 확장부(130)는 유사성 점수를 기초로 후보 유전자를 선별하고, 선별된 후보 유전자들의 표적 세포 혹은 조직 내 발현 여부를 평가하여 신규 질병 마커 후보로 선정한다. 이때, 신규 질병 마커 후보는 유사성이 평가된 기존 질병 마커에 연결된 정보(질병 연관 세포기능 및 질병 기전)를 그대로 따르도록 세포기능 및 기전이 연결된다. 표적 세포 혹은 조직 내 발현 여부는 세포 내 발현 및 변이 데이터베이스(360)에서 추출될 수 있다.
마커 선정 장치(200)는 마커 평가부(210), 그리고 마커 조합 선정부(230)를 포함한다.
마커 평가부(210)는 마커 후보 추출 장치(100)로부터 질병 마커 후보들을 입력받고, 마이크로어레이 데이터를 기반으로 각 질병 마커 후보의 발현 정도를 평가하여, 질병 마커를 선정한다. 마이크로어레이 데이터는 마이크로어레이 데이터베이스(330)로부터 추출된다. 이때, 마커 평가부(210)는 각 마이크로어레이 데이터에 포함된 유전자들 각각의 조건별 발현 배율변화(fold change) 및 발현 유의 확률(p값, p-value)을 계산할 수 있다.
마커 평가부(210)는 마커 후보 추출 장치(100)에서 도출된 질병 마커들 및 질병 마커 후보들에 대하여, 판별력을 기초로 전사체 수준에서 활용 가능한 마커를 선정한다. 마커 평가부(210)는 마커별로 개별 마이크로어레이 데이터의 판별력을 검증한다. 마커 평가부(210)는 마커들이 새로운 데이터를 잘 판별할 수 있는지를 마이크로어레이 데이터베이스(330)에 저장된 질병 마이크로어레이 데이터를 통해 검증한다. 마커 평가부(210)는 검증 결과를 기초로 전사체 수준에서 활용 가능한 전사체 마커들을 선정하는데, 세포 내 발현 및 변이 데이터베이스(360)를 활용하여 검증하고자 하는 조직 혹은 세포주에서의 검증 가능성을 평가하여 질병 기능이 연계된 오믹스 마커를 선정한다.
마커 조합 선정부(230)는 마커 평가부(210)에서 선정된 전사체 마커들을 조합하여 최종 멀티마커 패널을 구성한다. 마커 조합 선정부(230)는 기능이 중복되는 마커를 제거하기 위해, 전사체 마커들을 기능 및 기전을 공유하면서 발현 패턴이 유사한 마커들로 클러스터링(clustering)하여, 기능 중복 클러스터(cluster) 정보를 생성한다. 마커 조합 선정부(230)는 기능-마커 연결부(110)에서 수집된 세포기능과 마커의 연결 정보, 질병 마커 후보 확장부(130)에서 분석된 마커 간 발현패턴 정보를 기반으로 기능 및 기전을 공유하면서 발현 패턴이 유사한 마커들을 클러스터링할 수 있다.
마커 조합 선정부(230)는 기능 중복 클러스터 정보를 기반으로 중복 마커를 하나씩 제거해 가면서 질병 상태 평가를 수행하여 최적의 멀티마커 패널을 구성한다.
도 2는 본 발명의 한 실시예에 따른 마커 후보 추출 장치가 세포기능과 마커를 연결하는 방법의 흐름도이다.
도 2를 참고하면, 마커 후보 추출 장치(100)는 질병 기전 정보를 기초로 질병 연관 세포기능들과 질병 마커들의 관계를 예측하여, 질병 연관 세포기능에 연결된 질병 마커를 획득한다.
마커 후보 추출 장치(100)는 질병 연관 기전 경로 내에 포함되는 질병 연관 세포기능을 탐색해서, 해당 기전 경로 내에 포함된 질병 마커를 질병 연관 세포기능에 연결한다(S110). 마커 후보 추출 장치(100)는 질병 기능 및 경로 데이터베이스(310)에서 질병 연관 세포기능을 추출하고, 질병 마커 데이터베이스(320)에서 질병 마커를 추출하여, 질병 기전 정보를 매개로 이들을 연결시킬 수 있다.
마커 후보 추출 장치(100)는 질병 마커들 중에서 질병 연관 세포기능에 연결되지 않은 미연결 마커를 추출한다(S120).
마커 후보 추출 장치(100)는 미연결 마커에 대한 기전 경로 정보를 탐색하고, 탐색된 기전 경로 및 세포기능들에 대하여 마커들이 유의하게 포함되었는지 평가하여, 미연결 마커의 신규 기능 및 경로를 예측한다(S130). 마커 후보 추출 장치(100)는 피셔의 정확 검정 기법(Fisher's exact test)를 활용하여, 기전 경로 및 세포기능들에 대하여 마커들이 유의하게 포함되었는지를 판별하는 유의성 판별을 할 수 있다. 마커 후보 추출 장치(100)는 상호작용 및 경로 데이터베이스(340)에서 기전 경로 정보를 탐색할 수 있다.
마커 후보 추출 장치(100)는 알려진 예측한 신규 기능 및 경로를 미연결 마커에 연결하여, 최종 질병 연관 세포기능에 연결된 질병 마커를 추출한다(S140).
질병 기능 및 경로 데이터베이스(310)는 예를 들면, KEGG Pathway, BioCyc, WikiPathway, NCI-PID, Reactome 데이터베이스 내의 질병 경로 내에 포함된 세부 경로, 혹은 Hanahan & Weinberg (2011)와 같이 통상적으로 받아들여지고 있는 문헌 내 표기된 질병 기전들을 매핑하여 활용할 수 있다. 질병 마커 데이터베이스(320)는 예를 들면, FDA Nucleic Acid Based Tests 내에 포함된 마커나 NCI Tumor Marker 데이터베이스에 포함된 임상적으로 활용되고 있는 마커, DrugBank 내에 포함된 약물 표적, 혹은 Qiagen Breast Cancer RT2 Profilier PCR Array 같이 회사에서 질병 검증을 위한 세포 실험 마커로 활용되고 있는 정보를 활용할 수 있다.
마커 후보 추출 장치(100)는 피셔의 정확 검정 기법(Fisher's exact test)를 활용하여, 기전 경로 및 세포기능들에 대하여 마커들이 유의하게 포함되었는지를 판별하는 유의성 판별을 할 수 있다. 피셔의 정확검증 기법 계산을 위한 분할표(contingency table)은 아래 표 1과 같이 정리할 수 있다.
경로/기능 연관 유전자 경로/기능 미연관 유전자
질병 마커 a b a+b
질병 마커가 아닌
유전자
c d c+d
a+c b+d a+b+c+d
표 1에 대하여 피셔의 정확 검정을 수행하기 위하여 그려야 하는 초기하분포(Hypergeometric distribution)은 아래 수학식 1 및 2를 통하여 구할 수 있다.
Figure 112017060020550-pat00001
Figure 112017060020550-pat00002
수학식 2에서 구한 p값에 대하여 0.05 이하의 값을 가지면 통상적으로 해당 질병 마커들이 해당 경로 혹은 기능에 유의하다고 말할 수 있다. 만약 입력된 50개의 유방암 마커 중 30개가 세포사멸 경로라는 기전을 가지며, 전체 2만개의 유전자 중 100개의 유전자가 세포사멸 경로 기전을 가진다고 할 때, 피셔의 정확 검정 기법을 통하여 구한 p값은 3.27E-58로서 유의하므로, 해당 기전을 신규 질병 기전으로 선정하여 기전-마커 간의 관계를 추가 피드백할 수 있다.
도 3은 본 발명의 한 실시예에 따른 마커 후보 추출 장치가 질병 마커 후보를 확장하는 방법의 흐름도이다.
도 3을 참고하면, 마커 후보 추출 장치(100)는 질병 연관 세포기능에 연결된 질병 마커들과 유사한 유전자들을 마커 후보로 발굴하여, 질병 연관 세포기능에 연결될 마커들을 확장한다. 마커 후보 추출 장치(100)는 추출된 질병 마커들과의 다양한 관계 유사성, 거리 및 연결 강도, 발현 상관관계 등을 점수화하여, 유의한 유전자들을 신규 마커 후보로 발굴한다. 추출된 질병 마커들과의 다양한 관계 유사성, 거리 및 연결 강도, 발현 상관관계 등에 대한 점수는 병렬 또는 순차적으로 계산될 수 있다.
마커 후보 추출 장치(100)는 다양한 관계 정보를 기초로 질병 마커들의 공통 특징을 추출하고, 질병 마커들과 관계 유사성을 나타내는 후보 유전자들의 관계 점수를 계산한다(S210). 특징은 예를 들면, 경로, 전사인자, E3, 골격단백질 등일 수 있다. 이때, 마커 후보 추출 장치(100)는 guilt-by-association 방법을 활용하여, 어느 기능에 많은 질병 마커들이 속한 경우, 해당 기능을 가지는 비마커 유전자들에게 높은 점수를 줄 수 있다. 다양한 관계 정보는 경로-소속 유전자 관계 정보, 전사인자-표적 유전자 관계 정보, E3 유비퀴탄화 효소-기질 관계 정보, 골격단백질(scaffold)-표적 단백질 관계 정보 등의 작용 관계 정보를 포함할 수 있고, 상호작용 및 경로 데이터베이스(340)에서 추출될 수 있다. 다양한 관계 정보는 세포기능-단백질 정보, 도메인-단백질 정보 등의 다양한 기능 관계 정보를 포함할 수 있고, 단백질 및 도메인 기능 데이터베이스(350)에서 추출될 수 있다.
마커 후보 추출 장치(100)는 단백질-단백질 상호작용 정보를 기반으로 구성된 네트워크에서, 질병 마커들과 후보 유전자들의 거리 및 연결 정도를 나타내는 후보 유전자들의 네트워크 점수를 계산한다(S220). 단백질-단백질 상호작용 정보는 상호작용 및 경로 데이터베이스(340)에서 추출될 수 있다. 마커 후보 추출 장치(100)는 마커와 가까이 있을수록, 많은 마커를 주위에 둘수록 높은 점수를 부여하는 방식으로 그래프 데이터 내에서 연결관계를 기반으로 점수화하는 네트워크 링크 분석(Link analysis)을 할 수 있다.
마커 후보 추출 장치(100)는 마이크로어레이 데이터베이스(330)에 저장된 질병 전사체 데이터를 기반으로 각 질병 마커와 각 후보 유전자의 발현 상관관계를 분석하여, 후보 유전자들의 발현 패턴 점수를 계산한다(S230). 발현 패턴이 유사한 유전자들은 공통의 기능을 가질 가능성이 높은 것을 반영하기 위해 점수화한다.
마커 후보 추출 장치(100)는 다양한 방식을 통하여 얻어진 후보 유전자들의 점수들을 통합한다(S240). 이때, 마커 후보 추출 장치(100)는 순서 통계(order statistics) 기반으로 스케일이 다른 정보들을 순위 기반으로 통합한다. 마커 후보 추출 장치(100)는 수학식 3과 같이 스케일이 다른 정보들을 순위 기반으로 통합할 수 있다.
Figure 112017060020550-pat00003
수학식 3에서, 각 r 값은 각 점수화 방법에서 얻어진 해당 유전자에 대한 순위 비율(rank ratio, 등수를 전체 유전자 수로 나눈 것)이고, N은 전체 점수화된 방법의 개수이다. 순위 기반 점수 통합 방법은, 정보가 없어 점수화할 수 없는 방법의 경우 이를 제외하고 계산되므로, 누락값(missing value)에 관계없이 점수 통합이 가능한 장점이 있다. 또한 순위 기반 점수 통합 방법은, 새로운 점수화 방법 고안 시, 손쉽게 순위 비율 값만 추가하여 계산하면 되므로 확장성이 높은 장점이 있다.
마커 후보 추출 장치(100)는 후보 유전자들의 통합 점수(질병 마커들과의 유사성을 나타내는 후보 유전자의 유사성 점수)를 기초로, 알려진 질병 마커들과 유사한 성능을 낼 수 있는 후보 유전자들을 질병 마커 후보로 선정한다(S250). 마커 후보 추출 장치(100)는 이미 알려진 질병 마커들의 점수 분포를 확인하고, 후보 유전자들의 통합 점수를 기초로 질병 마커들 만큼의 성능을 낼 수 있는 등수를 선정한 후, 해당 등수 내의 유전자들을 신규 질병 마커 후보로 선정할 수 있다. 예를 들면, 마커 후보 추출 장치(100)는 기존 마커 등수의 3번째 퀀타일(3th quantile) 내의 유전자들을 신규 질병 마커 후보로 선정할 수 있다.
단계 S210에서, 마커 후보 추출 장치(100)는 수학식 1과 수학식 2의 피셔의 정확 검정을 통하여 각 특징(예를 들면, 경로, 전사인자, E3, 골격단백질 등)에 대한 p값을 계산한다. 마커 후보 추출 장치(100)는 각 데이터에서 대하여 나온 p값들을 수학식 4와 같은 피셔 방법(Fisher's method)을 통하여 통합한다.
Figure 112017060020550-pat00004
수학식 4에서, pi는 데이터 내에서 나온 p값들 의미한다. 낮은 p값을 가지는 특징을 많이 공유한 유전자일수록 유의성이 높아서 높은 순위에 들게 된다.
단계 S220에서, 마커 후보 추출 장치(100)는 Random Walk with Restart (RWR)의 방법을 통하여 네트워크 유사성 기반 마커 유의성을 점수화할 수 있다.
단계 S230에서, 마커 후보 추출 장치(100)는 피어슨 상관 계수(Pearson's correlation coefficient)를 통해 각 질병 마커와 각 후보 유전자의 발현 상관관계를 분석할 수 있다. 마커 후보 추출 장치(100)는 피어슨 상관 계수가 0.7 이상 또는 -0.7이하의 값을 가지는 마커-유전자 쌍에 대하여 p값을 구하고, 후보 유전자별로 각 마커와의 상관관계의 유의성을 나타내는 p값들을 수학식 4와 같은 피셔 방법을 통하여 통합한다.
도 4는 본 발명의 한 실시예에 따른 마커 선정 장치가 멀티마커 패널을 선정하는 방법의 흐름도이다.
도 4를 참고하면, 마커 선정 장치(200)는 질병 마커 후보들(후보 유전자들)을 입력받고, 마이크로어레이 데이터를 기반으로 각 질병 마커 후보의 발현 정도를 평가한다(S310). 마커 선정 장치(200)는 마이크로어레이 데이터베이스(330)에 저장된 전사체 데이터를 활용하여 각 질병 마커 후보 유전자의 질병-정상 혹은 질병 상태 간의 발현 배율 변화 및 p값을 계산한다. 조건별 발현이 크게 차이가 나고, 발현량의 분포가 밀집되어 있어 발현 배율이 커지고, 발현 유의 확률 p값이 작게 나타나면, 질병 마커로 사용될 가능성이 높다. 마커 선정 장치(200)는 R limma package의 toptable 함수를 이용하여 발현 정도를 평가할 수 있다.
마커 선정 장치(200)는 각 질병 마커 후보의 발현 정도를 기초로 핵산 수준에서 검출이 가능한 전사체 마커를 추출한다(S320). 마커 선정 장치(200)는 발현 배율이 2보다 크거나 0.5보다 작으면서 p값이 0.05이하인 마커들을 질병 전사체 마커로 추출할 수 있다.
마커 선정 장치(200)는 마이크로어레이 데이터베이스(330)에 저장된 전사체 데이터를 활용하여 각 전사체 마커의 판별력을 검증한다(S330). 마커 선정 장치(200)는 leave-one-out 교차 검증을 할 수 있다. 마커 선정 장치(200)는 데이터셋별로 동일하게 정규화된 데이터를 기반으로 판별 기준을 잡아 검증하고, 판별력이 70% 이상인 마커를 판별력이 있는 마커로 선정할 수 있다. 한편, 마커 선정 장치(200)는 Housekeeping gene인 HPRT, GAPDH, ACTB, GUSB의 발현량의 합으로 나누는 식의 참조 유전자 중심의 정규화를 수행할 수 있다. 최종적으로 멀티마커 패널 구성 시, 마이크로어레이 수준의 검증 개수가 아닌 마커 패널 내 적은 검증 개수로 인하여, 기존의 퀀타일 정규화(quantile normalization) 등을 활용할 수 없는 문제를 해결하기 위한 방법으로서, 마커 선정 장치(200)는 실제 마커 패널 데이터를 분석하듯이 정규화를 수행한다.
마커 선정 장치(200)는 판별력이 있는 전사체 마커들 중에서, 검증하고자 하는 조직 혹은 세포주에서의 검증 가능성을 평가하여 질병 기능 연계된 오믹스 마커를 선정한다(S340). 마커 선정 장치(200)는 세포 내 발현 및 변이 데이터베이스(360)를 활용하여 조직 혹은 세포주에서의 검증 가능성을 평가할 수 있다. 세포 내 발현 및 변이 데이터베이스(360)는 The Human Protein Atlas의 유전자/단백질 발현 정보 및 COSMIC의 환자 및 세포주 유전자 변이 정보를 활용할 수 있다. 마커 선정 장치(200)는 판별력이 있는 전사체 마커들 중에서, 검증할 조직 혹은 세포주 내 발현이 없는 마커는 제외하고, 검증할 세포주 내 변이가 있는 마커는 최종 선정에서 제외할 수 있다.
마커 선정 장치(200)는 선정된 마커들 간 발현 패턴이 유사하면서 기능 및 경로를 공유하는 유전자를 클러스터링한다(S350). 마커 선정 장치(200)는 질병 기능 및 경로 데이터베이스(310) 내 기능 및 경로 정보, 질병 마커 데이터베이스(320) 내 마커 정보, 마이크로어레이 데이터베이스(330) 내 전사체 데이터 정보를 활용하여 마커 간 발현 패턴이 유사하면서 기능 및 경로를 공유하는 유전자를 클러스터링할 수 있다. 마커 선정 장치(200)는 피어슨 상관 계수(Pearson's correlation coefficient)를 통해 발현 패턴 유사성을 분석할 수 있다.
마커 선정 장치(200)는 각 클러스터 내 마커를 임의로 제거하고 남은 마커를 기반으로 판별기를 구성하여 판별력을 예측하면서, 최적의 판별력을 보이는 마커 조합을 멀티마커 패널로 선정한다(S360). 마커 선정 장치(200)는 판별력이 높아지는 방향으로 마커를 하나씩 제거하여 최적의 판별력을 보이는 마커 조합을 결정한다. 마커 선정 장치(200)는 마이크로어레이 데이터 내 질병 상태별 마커 발현 데이터를 분별하는 서포트 벡터 머신(support vector machine, SVM) 판별기를 구성할 수 있다.
이와 같이, 본 발명의 멀티마커 패널 선정 시스템(10)은 질병 연관 세포기능에 기존에 알려져 있는 마커를 대입 및 상호 피드백하고, 해당 마커들을 기반으로 유사성 분석을 통하여 신규 마커 후보를 확장한 후, 다수의 오믹스 통합 분석을 통하여 기능 기전 정보가 있는 마커를 선정하며, 기전이 중복된 마커를 제거하여 최소 및 최적의 멀티마커 패널을 선정할 수 있다.
특히, 본 발명은 질병 기전과 연관된 마커 기반으로 신규 기전을 확장하고, 질병 마커를 기반으로 유사성 분석, 네트워크 분석, 발현 패턴 유사성 분석을 통해 신규 마커를 추가할 수 있다. 또한, 본 발명은 마커 패널 활용 시 적용할 정규화 방법을 고려하여 개별 마커의 판별력을 평가하고, 발현 패턴 및 기전 유사성을 기반으로 마커 조합을 축소하여 최적의 멀티마커 패널을 구성할 수 있다.
기존의 마이크로어레이 데이터 분석 기반 마커 선정 방법은 데이터셋에 따라 마커 유의성 변동의 폭이 크기 때문에 예측력이 일정하지 않은 단점이 있다. 또한 기존의 마이크로어레이 데이터 분석 기반 마커 선정 방법은 선정된 마커의 정확한 기능을 알기가 힘들고 경우에 따라 질병 기능과 상관 없는 유전자가 잘못 선정되는 단점이 있다. 기존의 마이크로어레이 데이터 분석으로 선정된 마커는 세포기능 및 기전을 알 수 없어, 후발적으로 선정된 마커에 세포기능을 단순히 매핑해야 했으나, 본 발명은 질병 연관 세포기능을 시발점으로 기전까지 해석이 가능한 멀티마커 패널을 선정할 수 있다.
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (19)

  1. 적어도 하나의 프로세서에 의해 동작하는 시스템이 멀티마커 패널을 선정하는 방법으로서,
    질병에 연관된 기전 기반으로 질병 연관 세포기능들과 질병 마커들을 연결하는 단계,
    상기 질병 마커들 중 적어도 하나의 질병 마커에 유사한 유전자들을 질병 마커 후보들로 선정하는 단계,
    마이크로어레이 데이터를 이용하여, 상기 질병 마커들과 상기 질병 마커 후보들 각각의 발현 정도를 평가하여, 전사체 마커들을 선정하는 단계, 그리고
    마커 간 발현 상관 계수를 통해 획득한 발현 패턴 유사성을 기초로, 상기 전사체 마커들 중에서 발현 패턴이 유사하면서 기능 및 기전을 공유하는 중복 마커들을 제외하여 멀티마커 패널을 선정하는 단계를 포함하며,
    상기 질병 마커 후보들로 선정하는 단계에서 상기 질병 마커에 유사한 유전자들은
    상기 질병 마커들과의 관계 유사성, 거리 및 연결 강도, 그리고 발현상관관계 중 적어도 하나를 이용하여 결정된 각 후보 유전자의 점수를 기초로 선정되는 것인, 멀티마커 패널 선정 방법.
  2. 제1항에서,
    상기 질병 연관 세포기능들과 질병 마커들을 연결하는 단계는
    질병 연관 기전 경로 내에 포함되는 질병 연관 세포기능을 탐색해서, 해당 기전 경로 내에 포함된 질병 마커를 질병 연관 세포기능에 연결하는 단계,
    질병 연관 세포기능에 연결되지 않은 미연결 마커를 추출하는 단계, 그리고
    상기 미연결 마커에 대한 기전 경로를 탐색하고, 탐색된 기전 경로에 포함된 세포기능들에 대하여, 지정된 유의성 판별 기법을 기초로 상기 미연결 마커들이 유의하게 포함되는지 평가하여, 상기 미연결 마커를 탐색된 세포기능에 연결하는 단계
    를 포함하는 멀티마커 패널 선정 방법.
  3. 삭제
  4. 제1항에서,
    상기 질병 마커 후보들로 선정하는 단계는
    순서 통계(order statistics) 기반으로, 스케일이 다른 관계 유사성 점수, 거리 및 연결 강도 점수, 그리고 발현 상관관계 점수를 순위 기반으로 통합하여 각 후보 유전자의 점수를 계산하는 멀티마커 패널 선정 방법.
  5. 제1항에서,
    상기 전사체 마커들을 선정하는 단계는
    상기 마이크로어레이 데이터를 이용하여, 상기 질병 마커들과 상기 질병 마커 후보들 각각의 발현 배율 및 발현 유의 확률을 계산하고, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하인 마커들을 상기 전사체 마커들로 선정하는 멀티마커 패널 선정 방법.
  6. 제5항에서,
    상기 전사체 마커들을 선정하는 단계는
    데이터셋별로 동일하게 정규화된 마이크로어레이 데이터를 이용하여, 상기 질병 마커들과 상기 질병 마커 후보들 각각의 판별력을 더 계산하고, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하이며, 판별력이 기준값 이상인 마커들을 상기 전사체 마커들로 선정하는 멀티마커 패널 선정 방법.
  7. 제5항에서,
    상기 전사체 마커들을 선정하는 단계는
    상기 전사체 마커들 중에서, 검증하고자 하는 조직 혹은 세포주에서의 검증 가능성을 평가하여 질병 기능 연계된 오믹스 마커를 선정하는 멀티마커 패널 선정 방법.
  8. 제1항에서,
    상기 멀티마커 패널을 선정하는 단계는
    상기 전사체 마커들 중에서 발현 패턴이 유사하면서 기능 및 경로를 공유하는 마커들을 클러스터로 분류하는 단계, 그리고
    각 클러스터 내 마커를 임의로 제거하고 남은 마커를 기반으로 판별력을 예측하면서, 최적의 판별력을 보이는 마커 조합을 멀티마커 패널로 선정하는 단계
    를 포함하는 멀티마커 패널 선정 방법.
  9. 적어도 하나의 프로세서에 의해 동작하는 시스템이 멀티마커 패널을 선정하는 방법으로서,
    질병 연관 기전 경로 내에 포함되는 질병 연관 세포기능과 해당 기전 경로 내에 포함된 질병 마커를 연결하는 단계,
    질병 마커 데이터베이스에 저장된 질병 마커들 중에서, 질병 연관 세포기능에 연결되지 않은 미연결 질병 마커가 있는 경우, 상기 미연결 질병 마커에 대한 기전 경로를 탐색하고, 탐색된 기전 경로에 포함된 질병 연관 세포기능들에 대하여, 지정된 유의성 판별 기법을 기초로 상기 미연결 질병 마커가 유의하게 포함되는지 평가하여, 상기 미연결 질병 마커를 탐색된 질병 연관 세포기능에 연결하는 단계,
    질병 연관 세포기능에 연결된 질병 마커들, 그리고 질병 연관 세포기능에 연결된 질병 마커들 중 적어도 하나의 질병 마커에 유사한 유전자들을 질병 마커 후보들로 선정하는 단계, 그리고
    마이크로어레이 데이터를 이용하여, 상기 질병 마커 후보들 각각을 검증하여 상기 질병 마커 후보들 중 적어도 일부 마커들로 조합된 멀티마커 패널을 선정하는 단계를 포함하며,
    상기 질병 마커 후보들로 선정하는 단계에서 상기 질병 마커에 유사한 유전자들은
    상기 질병 마커들과의 관계 유사성, 거리 및 연결 강도, 그리고 발현상관관계 중 적어도 하나를 이용하여 결정된 각 후보 유전자의 점수를 기초로 선정되는 것인, 멀티마커 패널 선정 방법.
  10. 제9항에서,
    상기 멀티마커 패널을 선정하는 단계는
    상기 질병 마커 후보들 중에서, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하이며, 판별력이 기준값 이상인 전사체 마커들을 상기 멀티마커 패널로 선정하는, 멀티마커 패널 선정 방법.
  11. 제10항에서,
    상기 멀티마커 패널을 선정하는 단계는
    마커 간 발현 상관 계수를 통해 획득한 발현 패턴 유사성을 기초로, 상기 전사체 마커들 중에서 발현 패턴이 유사하면서 기능 및 경로를 공유하는 중복 마커를 제외하여 상기 멀티마커 패널을 선정하는 멀티마커 패널 선정 방법.
  12. 삭제
  13. 제9항에서,
    상기 질병 마커 후보들로 선정하는 단계는
    순서 통계(order statistics) 기반으로, 스케일이 다른 관계 유사성 점수, 거리 및 연결 강도 점수, 그리고 발현 상관관계 점수를 순위 기반으로 통합하여 각 후보 유전자의 점수를 계산하는 멀티마커 패널 선정 방법.
  14. 적어도 하나의 프로세서에 의해 동작하는 시스템이 멀티마커 패널을 선정하는 방법으로서,
    질병 연관 세포기능에 연결된 질병 마커들을 입력받는 단계,
    상기 질병 마커들 중 적어도 하나의 질병 마커에 유사한 유전자들을 추출하는 단계,
    상기 유사한 유전자들 각각에 해당 질병 마커의 질병 연관 세포기능을 연결하는 단계,
    상기 질병 마커들과 상기 질병 마커들 중 적어도 하나에 유사한 유전자들을 질병 마커 후보들로 선정하는 단계, 그리고
    마이크로어레이 데이터를 이용하여, 상기 질병 마커 후보들 각각을 검증하여 멀티마커 패널을 선정하는 단계를 포함하며,
    상기 질병 마커 후보들로 선정하는 단계에서 상기 질병 마커들 중 적어도 하나에 유사한 유전자들은
    상기 질병 마커들과의 관계 유사성, 거리 및 연결 강도, 그리고 발현상관관계 중 적어도 하나를 이용하여 결정된 각 후보 유전자의 점수를 기초로 선정되는 것인, 멀티마커 패널 선정 방법.
  15. 삭제
  16. 제14항에서,
    상기 멀티마커 패널을 선정하는 단계는
    상기 질병 마커 후보들 중에서, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하이며, 판별력이 기준값 이상인 전사체 마커들을 추출하는 단계, 그리고
    마커 간 발현 상관 계수를 통해 획득한 발현 패턴 유사성을 기초로, 상기 전사체 마커들 중에서 발현 패턴이 유사하면서 기능 및 경로를 공유하는 중복 마커를 제외하여 상기 멀티마커 패널을 선정하는 단계
    를 포함하는 멀티마커 패널 선정 방법.
  17. 적어도 하나의 프로세서에 의해 동작하는 멀티마커 패널 선정 시스템으로서,
    질병에 연관된 기전 기반으로 질병 연관 세포기능에 연결된 질병 마커들을 추출하고, 상기 질병 마커들 중 적어도 하나의 질병 마커에 유사한 유전자들을 확장된 질병 마커들로 추출하는 마커 후보 추출 장치, 그리고
    마이크로어레이 데이터를 이용하여, 상기 마커 후보 추출 장치에서 추출된 상기 질병 마커들 각각을 검증하여 상기 질병 마커들 중 적어도 일부 마커들로 조합된 멀티마커 패널을 선정하는 마커 선정 장치를 포함하며,
    상기 마커 후보 추출 장치는 상기 질병 마커에 유사한 유전자들을
    상기 질병 마커들과의 관계 유사성, 거리 및 연결 강도, 그리고 발현상관관계 중 적어도 하나를 이용하여 결정된 각 후보 유전자의 점수를 기초로 선정하는 것인, 멀티마커 패널 선정 시스템.
  18. 삭제
  19. 제17항에서,
    상기 마커 선정 장치는
    입력된 상기 질병 마커들 중에서, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하이며, 판별력이 기준값 이상인 전사체 마커들을 추출하고,
    마커 간 발현 상관 계수를 통해 획득한 발현 패턴 유사성을 기초로 상기 전사체 마커들 중에서 발현 패턴이 유사하면서 기능 및 경로를 공유하는 마커들을 클러스터로 분류한 후,
    각 클러스터 내 마커를 임의로 제거하고 남은 마커를 기반으로 판별력을 예측하면서, 최적의 판별력을 보이는 마커 조합을 멀티마커 패널로 선정하는 멀티마커 패널 선정 시스템.
KR1020170079167A 2017-06-22 2017-06-22 질병 연관 세포기능에 연결된 마커 기반으로 멀티마커 패널을 선정하는 시스템 및 방법 KR101990429B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170079167A KR101990429B1 (ko) 2017-06-22 2017-06-22 질병 연관 세포기능에 연결된 마커 기반으로 멀티마커 패널을 선정하는 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170079167A KR101990429B1 (ko) 2017-06-22 2017-06-22 질병 연관 세포기능에 연결된 마커 기반으로 멀티마커 패널을 선정하는 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20190000168A KR20190000168A (ko) 2019-01-02
KR101990429B1 true KR101990429B1 (ko) 2019-06-18

Family

ID=65021613

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170079167A KR101990429B1 (ko) 2017-06-22 2017-06-22 질병 연관 세포기능에 연결된 마커 기반으로 멀티마커 패널을 선정하는 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101990429B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102331324B1 (ko) * 2019-05-24 2021-11-26 주식회사 바이오릿지 식물 추출물의 의약용도 또는 생물학적 메카니즘 예측 방법 및 장치
WO2021107232A1 (ko) * 2019-11-29 2021-06-03 의료법인 성광의료재단 난소암 진단을 위한 바이오마커 패널을 구성하는 방법 및 난소암 진단을 위한 바이오마커 패널
KR102659917B1 (ko) * 2019-12-03 2024-04-23 서울대학교병원 비음수행렬분해 기반의 메타유전자 생성 방법 및 이의 적용
KR102643686B1 (ko) * 2023-10-18 2024-03-05 주식회사 쓰리빌리언 증상 재구성을 통한 환자의 질병 진단 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100734430B1 (ko) 2006-11-13 2007-07-02 한국정보통신대학교 산학협력단 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법및 저장 매체

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120077570A (ko) * 2010-12-30 2012-07-10 주식회사 바이오인프라 폐암 진단 예측을 위한 복합 바이오마커, 구성 방법, 복합 바이오마커를 사용하는 폐암 진단 예측 방법 및 폐암 진단 예측 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100734430B1 (ko) 2006-11-13 2007-07-02 한국정보통신대학교 산학협력단 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법및 저장 매체

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김재영 외 1명, 시간열 마이크로어레이 데이터를 이용한 질병 관련 유의한 패스웨이 유전자 집합의 검출, 전자공학회논문지-C1, 47(5) ,17-24. (2010.09.)

Also Published As

Publication number Publication date
KR20190000168A (ko) 2019-01-02

Similar Documents

Publication Publication Date Title
KR101990429B1 (ko) 질병 연관 세포기능에 연결된 마커 기반으로 멀티마커 패널을 선정하는 시스템 및 방법
Salazar et al. Comparison between SVM and logistic regression: Which one is better to discriminate?
KR101325736B1 (ko) 바이오 마커 추출 장치 및 방법
KR101642270B1 (ko) 진화 클러스터링 알고리즘
BR112019027179A2 (pt) interpretação de variantes genéticas e genômicas por meio de uma estrutura de aprendizagem profunda de mutação computacional e experimental integrada
Boufea et al. scID uses discriminant analysis to identify transcriptionally equivalent cell types across single-cell RNA-seq data with batch effect
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
US20210381056A1 (en) Systems and methods for joint interactive visualization of gene expression and dna chromatin accessibility
KR102351306B1 (ko) 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
CN115132273B (zh) 一种肿瘤形成风险与肿瘤组织来源的评估方法及系统
KR101990430B1 (ko) 암의 재발 예후 예측을 위한 바이오마커 발굴 시스템 및 방법
CN111048145B (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
Cao et al. A novel filter feature selection method for paired microarray expression data analysis
US20160378914A1 (en) Method of and apparatus for identifying phenotype-specific gene network using gene expression data
AU2019446735B2 (en) Method for discovering marker for predicting risk of depression or suicide using multi-omics analysis, marker for predicting risk of depression or suicide, and method for predicting risk of depression or suicide using multi-omics analysis
Lancucki et al. A new evolutionary gene selection technique
Lauria Rank-based miRNA signatures for early cancer detection
Mutalib et al. Weighted frequent itemset of SNPs in genome wide studies
Zhang et al. Class-specific correlations of gene expressions: identification and their effects on clustering analyses
Aouf et al. Gene Expression Data For Gene Selection Using Ensemble Based Feature Selection
KR20230064172A (ko) 세포유리 핵산단편 위치별 서열 빈도 및 크기를 이용한 암 진단 방법
Hicks et al. Genomics of burn injury and its promise in clinical practice
Valavanis et al. Intelligent identification of biomarkers for the study of obstructive nephropathy
Kuijjer et al. Expression Analysis
KR20220085139A (ko) 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant