KR102659917B1

KR102659917B1 - 비음수행렬분해 기반의 메타유전자 생성 방법 및 이의 적용

Info

Publication number: KR102659917B1
Application number: KR1020200167766A
Authority: KR
Inventors: 고영일; 윤홍석; 이성영; 이찬섭; 윤성수
Original assignee: 서울대학교병원
Priority date: 2019-12-03
Filing date: 2020-12-03
Publication date: 2024-04-23
Also published as: WO2021112593A1; KR20210069599A

Abstract

본 발명은 비음수행렬분해(non-negative matrix factorization, NMF) 기반의 메타유전자 선별 방법 및 이의 적용에 관한 것으로, 보다 상세하게는 NMF 및 도메인 지식을 활용한 질병 관련 메타유전자 생성 방법, 생성 장치 및 이를 이용한 피검체의 비-유전자 데이터 예측 방법에 관한 것이다.
도메인 지식 및 NMF 기법을 활용한 본 발명의 방법 따라 생성된 메타유전자는 질병의 진단, 예후 예측, 약물 반응성 예측 등과 관련된 정확한 정보를 제공할 수 있어 새로운 바이오 마커로서 활용 가능성이 매우 높다.

Description

비음수행렬분해 기반의 메타유전자 생성 방법 및 이의 적용{Method for developing meta-gene based on non-negative matrix factorization and applications thereof}

본 발명은 비음수행렬분해(non-negative matrix factorization, 이하 'NMF'라 함) 기반의 메타유전자 생성 방법 및 이의 적용에 관한 것으로, 보다 상세하게는 NMF 및 도메인 지식을 활용한 질병 관련 메타유전자 생성 방법, 생성 장치 및 이를 이용한 피검체의 비-유전자 데이터 예측 방법에 관한 것이다.

질병을 진단하고, 예후를 예측하며, 특정 환자에서 특정 약물의 반응성을 예측하는 것을 가능케하는 '바이오 마커'는 정밀의학(precision medicine) 및 맞춤형 의료(personalized medicine) 시대에서 그 중요성이 점점 증가하고 있다.

이와 같은 필요성에 의해 암, 염증성 질환, 자가면역질환과 같은 일반적이면서도 복합적인 질병과 연관성이 있는 마커 유전자를 찾기 위한 노력이 계속되고 있다. 현재까지, 질병 관련 유전자를 발굴하기 위하여 다양한 방법들이 시도되고 있으며 대체적으로는 특정 질병에서 특정 유전자가 얼마나 동시에 출현하는가에 대한 빈도를 가지고 관련성을 통계나 수학적인 방법을 통해 측정하는 방법과 유전자 본체론을 이용한 관련성 측정 방법이 많이 시도되고 있다.

그러나 이 같은 방법은 기존에 알려진 사실들에 의해 유전자의 질병 관련성이 밀접하게 반영되는 방법으로, 새로운 질병 관련 유전자들을 찾기에는 한계가 있고, 생물 시스템에서 질병과 관련된 유전자들의 복합적인 상관관계 등을 반영하지 못하고 있다.

이러한 연유로, 현재까지 보고된 질병 관련 바이오 마커들은 미래가 불확실한 잠재 환자의 발병, 예후, 약물 반응성 등을 일관되게 예측하는데 한계를 나타내고 있다.

이에, 본 발명자는 다양한 생물학적 현상을 일관되게 기술하고 종래의 유전자 마커와 비교해 질병 관련 정보를 보다 정확하게 예측할 수 있는 유전자 그룹 선별 방법을 개발하기 위하여 예의 연구를 거듭한 결과, NMF 기법과 도메인 지식을 활용한 일련의 과정 통해 공지된 마커 유전자로부터 확장된 메타유전자(meta-gene)를 생성하는 방법을 개발하였고, 이와 같은 방법을 통해 생성된 상기 메타유전자가 공지된 마커 유전자와 비교해 질병 관련 정보의 예측력이 향상되었음을 확인하고 본 발명을 완성하게 되었다.

따라서, 본 발명의 목적은 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자 데이터를 수신하는 단계;

(b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계;

(c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자의 유전자 데이터를 필터링하는 단계;

(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계;

(e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬(p × q, (p-1) × q, (p-2) × q… 1 × q)을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계;

(f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터(N × r, r × q)를 산출하는 단계;

(g) 상기 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계; 및

(h) 상기 생성된 예측모델의 성능을 평가하는 단계를 포함하는, 질병 관련 메타유전자 생성 방법을 제공하는 것이다.

본 발명의 다른 목적은 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자(q명) 데이터, 및 피검체(t명)명의 유전자 데이터를 수신하는 단계; (b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계; (c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자(q명)의 유전자 데이터를 필터링하는 단계; (d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계; (e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계; (f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하는 단계; (g) 상기 환자(q명) 및 상기 피검체(t명)의 유전자 데이터를 병합한 후 상기 N개의 유전자로 필터링하여 입력행렬(N × (q + t))을 생성하는 단계; (h) 상기 입력행렬에 대해 랭크(rank)값 r의 NMF를 수행하여 NMF 데이터(N × r, r Х (q + t))를 산출하는 단계; (i) 상기 (h) 단계에서 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계; (j) 상기 (h) 단계에서 산출된 r × t 행렬을 상기 예측모델의 입력 값으로 하여 상기 피검체(t명)의 비-유전자 데이터를 출력하는 단계를 포함하는, 피검체의 질병 관련 비-유전자 데이터 예측 방법을 제공하는 것이다.

상기한 본 발명의 목적을 달성하기 위하여 본 발명은 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자 데이터를 수신하는 단계;

(h) 상기 생성된 예측모델의 성능을 평가하는 단계를 포함하는, 질병 관련 메타유전자 생성 방법을 제공한다.

본 발명의 다른 목적을 달성하기 위하여 본 발명은 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자(q명) 데이터, 및 피검체(t명)명의 유전자 데이터를 수신하는 단계; (b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계; (c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자(q명)의 유전자 데이터를 필터링하는 단계; (d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계; (e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계; (f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하는 단계; (g) 상기 환자(q명) 및 상기 피검체(t명)의 유전자 데이터를 병합한 후 상기 N개의 유전자로 필터링하여 입력행렬(N × (q + t))을 생성하는 단계; (h) 상기 입력행렬에 대해 랭크(rank)값 r의 NMF를 수행하여 NMF 데이터(N × r, r Х (q + t))를 산출하는 단계; (i) 상기 (h) 단계에서 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계; (j) 상기 (h) 단계에서 산출된 r × t 행렬을 상기 예측모델의 입력 값으로 하여 상기 피검체(t명)의 비-유전자 데이터를 출력하는 단계를 포함하는, 피검체의 질병 관련 비-유전자 데이터 예측 방법을 제공한다.

이하, 본 발명에 대해 상세히 설명한다.

본 발명은 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자 데이터를 수신하는 단계;

본 발명의 일실시예에 따르면, 본 발명자는 광범위한 인간 유전체 정보들 중에서 핵심 바이오 마커 유전자와 더불어 복잡한 병리현상에 직간접적으로 관여하고 있을 가능성이 높은 신규한 개념의 유전자군, 즉, 메타유전자(meta-gene)을 생성하기 위해 NMF 기법을 적용하였고, 본 발명이 제공하는 상기 방법을 통해 생성된 메타유전자는 종래 보고된 바이오 마커 유전자와 비교해 월등히 향상된 질병 관련 비-유전자 데이터 예측력을 나타냄이 확인되었다.

이하, 본 발명이 제공하는 상기 방법의 각 단계를 보다 구체적으로 설명한다.

(a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자 데이터를 수신하는 단계;

상기 (a) 단계는 임상적으로 수집된 환자의 유전자 데이터 및 비-유전자 데이터를 기반으로, 비-유전자 데이터예측력이 높은 메타유전자(meta-gene) 생성을 위한 데이터베이스를 확보하는 단계이다.

본 발명에서 상기 '환자'란 특정 질병에 걸린 피검체만을 의미하는 것이 아니며, 건강한 피검체(즉, 대조군)도 포함하는 것으로 이해될 수 있다. 상기 환자의 범위는 특별히 제한되지 않으며 어떠한 원인에 의하든 의료기관에 유전자 데이터 및 비-유전자 데이터를 남긴 피검체를 의미할 수 있다. 또한, 상기 환자는 특정 질병에 의해 사망한 이후에 유전자 데이터 및 비-유전자 데이터가 확보된 피검체도 포함하는 것으로 이해될 수 있다. 바람직하게는, 상기 환자는 본 발명의 방법에 따라 메타유전자와의 연관성을 분석하고자 하는 특정 질병에 걸린 환자이거나, 특정 질병에 걸린 것으로 의심되는 환자이거나, 특정 질병에 걸린 것으로 의심되었으나 건강한 것으로 판정된 환자이거나, 특정 질병에 걸린 것으로 의심되고 실제 질병에 걸린 것으로 판정된 환자이거나, 특정 질병에 걸린 것으로 판정된 이후에 완치된 환자이거나, 특정 질병에 걸린 것으로 판정된 이후에 사망한 환자이거나 또는 특정 질병이 완치된 이후에 재발한 환자일 수 있으나, 이에 제한되는 것은 아니다.

본 발명에서 상기 '질병'이란 본 발명의 방법에 따라 메타유전자와의 연관성을 확보하고자 하는 비정상적인 병리상태를 의미하는 것으로, 그 종류가 특별히 제한되는 것은 아니다. 상기 질병은, 예를 들어, 암, 면역성 질환, 염증성 질환, 바이러스성 질환, 감염성 질환, 대사성 질환 또는 퇴행성 신경질환일 수 있다.

본 발명에서 상기 '유전자 데이터'란 환자로부터 제공된 생물학적 시료에서 분석된 유전체(genome) 정보로서, 유전자 발현량, 단일염기 다형성 및 유전자 돌연변이로 이루어진 군에서 선택된 1종 이상이 벡터로 제공되는 것을 의미할 수 있으며, 바람직하게는 유전자 발현량일 수 있다.

상기 유전자 데이터는 환자로부터 제공된 생물학적 시료를 전유전체 시퀀싱(WGS, Whole Genome Sequencing), 전엑솜 시퀀싱(WES, Whole Exome Sequencing), 마이크 로어레이(Microarray), 타켓 시퀀싱(Target Sequencing), 생어 시퀀싱(Sanger sequencing), 전기영동법(Electrophoresis), 차세대염기서열분석법(NGS), 알엔에이 시퀀싱(RNA Sequenicng), 중합효소연쇄반응법(PCR), 전기영동법(Electrophoresis) 등의 유전자 분석 방법을 통해 분석한 데이터일 수 있다.

상기 유전자 데이터는 기 구축된 데이터베이스로부터 제공받을 수 있으며, 또는 필요에 따라 환자로부터 확보된 생물학적 시료에서 공지된 유전자 분석방법에 따라 분석되고 처리된 데이터일 수도 있다.

본 발명에서 상기 '비-유전자'데이터란 환자로부터 수득된 질병 진단 데이터, 질병 예후 데이터, 약물 반응성 데이터, 병리학 데이터, 생화학 데이터 또는 이들의 임의의 조합을 포함할 수 있으며, 바람직하게는 질병 진단 데이터, 질병 예후 데이터, 약물 반응성 데이터 또는 이들의 조합일 수 있다.

상기 질병 진단 데이터는 환자가 특정 질병에 걸린 것으로 진단되었는지 여부, 진단 시점에서의 연령, 성별, 기타 임상정보 등을 포함하며, 바람직하게는 특정 질환의 진단 여부를 의미할 수 있다.

상기 질병 예후 데이터란 환자가 특정 질병에 걸린 것으로 진단된 이후 진행 경과를 의미하는 것으로, 사망률, 재발율, 완치율, 질병 경과의 좋고 나쁨의 정도 등을 포함한다.

상기 약물 반응성 데이터는 특정 약물을 투여 받은 특정 질환의 환자에서 약효의 발휘 정도를 의미하는 것으로, 약물을 투여한 이후에 질병의 치료율, 재발율, 사망률, 질병 경과의 좋고 나쁨의 정도, 약물을 투여한 시점의 및 중단한 시점에서의 환자의 질병의 진행 정도, 약물의 투여 농도 등을 포함한다.

본 발명에서 상기 유전자 데이터 및 비-유전자 데이터는 동일한 환자로부터 확보된 것이며, 유전자 데이터 및 비-유전자 데이터 중 어느 한 가지 데이터만 확보된 환자의 데이터는 본 발명의 상기 (a) 단계에서 제외되는 것이 바람직하다.

본 발명에서 상기 비-유전자 데이터는 수치화된 데이터로 변환되어 제공될 수 있다. 예를 들어, 상기 비-유전자 데이터가 환자의 질병 진단 데이터인 경우, 특정 질병에 걸린 것으로 진단된 이력이 있는 경우 1, 없는 경우 0으로 나타내어질 수 있다. 상기 비-유전자 데이터가 환자의 질병 예후 데이터인 경우, 특정 질병의 예후의 좋고 나쁨의 정도는 10 내지 -10 등의 수치로 환산되어 나타내어질 수 있다. 상기, 비-유전자 데이터가 약물 반응성 데이터인 경우, 특정 약물에 대한 반응성의 높고 낮음의 정도는 10 내지 -10 등의 수치로 환산되어질 수 있다.

(b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계;

본 발명에서 상기 (b) 단계는 실시자가 관심을 갖고 있는, 환자의 비-유전자 데이터 중 어느 한 가지 이상, 바람직하게는 어느 한 가지와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계이다.

본 발명에서 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자는 본 발명이 속하는 기술분야에서 일반적으로 '진단 마커', '예후 마커', '약물 반응성 마커' 등으로 불리는 '바이오 마커' 유전자 또는 상기 바이오 마커 단백질을 코딩하는 유전자로 쉽게 이해될 수 있다.

보다 구체적으로는, 상기 질병 관련 유전자는 비-유전자 데이터, 예를 들어 질병의 진단, 질병의 예후 또는 약물의 반응성 정도와 양의 상관관계 또는 음의 상관관계가 공지된 유전자일 수 있다.

바람직한 일 구현예에 따르면, 상기 질병 관련 유전자는 특정 유전자의 발현이 증가되어 있는 환자에서 특정 질병의 진단 가능성이 증가하거나, 질병의 예후가 나쁘거나 또는 약물의 반응성이 증가하거나, 또는 이와 반대되는 등 유전자의 발현 경향성이 비-유전자 데이터의 경향성과 직접적인 상관관계가 있음이 공지된 유전자일 수 있다.

상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자는 1종 이상일 수 있으며, 이 경우 복수의 질병 관련 유전자가 선별될 수 있다.

본 발명에서 상기 질병 관련 유전자는 종래 공지된 데이터베이스를 통해서 선별할 수 있으며, 상기 공지된 데이터베이스는, 예를 들어 OMIM(Online Mendelian Inheritance in Man), Genetic Association Database, KEGG DISEASE, PharmGKB, Cancer Gene Census, HuGE Navigator, PharmGKB, ClinVar 또는 Leiden Open Variation Database일 수 있으나, 이에 제한되는 것은 아니다. 또한, 본 발명에서 상기 질병 관련 유전자는 공지된 문헌 검색을 통해 선별되거나, 실험을 통해 새롭게 규명하여 선별될 수도 있다.

(c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자의 유전자 데이터를 필터링하는 단계;

본 발명에서 상기 (c) 단계는 상기 (b) 단계에서 선별된 1종 또는 그 이상의 질병 관련 유전자와 달리 상기 비-유전자 데이터와의 직접적인 연관성이 공지되어 있지는 않지만, 상기 비-유전자 데이터와 직간접적으로 연관성이 있을 가능성이 높은 유전자 후보군을 선정하기 위하여 도메인 지식(domain knowledge)을 활용하는 단계이다.

본 발명의 일 양태에 따르면, 본 발명에서 상기 질병 관련 유전자와 네트워크를 형성하는 유전자군이란 유전자의 기능적 링크(functional link)를 포함하는 네트워크 내에서 상기 질병 관련 유전자의 생물학적 경로(biological pathway)와 관련된 유전자 집단을 의미하는 것일 수 있다.

본 발명에서 “유전자 네트워크(gene network)”의 용어는 유전자들간에 서로 복잡하게 연결된 네트워크를 나타내기 위한 용어로서, 유전자들이 노드들(nodes)로 표현되고 유전자들 간의 연결들은 에지들(edges)로 표현된 유전자 집단을 의미할 수 있다.

본 발명에서 정의하는 상기 유전자 네트워크의 종류는 크게 발현, 단백질 상호작용, 전사조절 네트워크가 포함될 수 있으나, 이에 제한되는 것은 아니다.

상기 발현 네트워크는 유전자 발현 데이터를 활용하여 특정 환경 또는 형질에서 발현 차이를 보이는 유전자들을 대량 발굴하여, 유전자들 사이에서 공발현을 가지고 있는 관계가 규명된 유전자군을 의미한다.

상기 단백질 상호작용 네트워크는 상호간에 물리적 접촉을 나타내는 단백질 네트워크, 특정 단백질의 기능이 타 단백질의 기능 발현에 직접적으로 영향을 주는 단백질 네트워크, 또는 이를 코딩하는 유전자군을 의미한다.

상기 전사조절 네트워크는 조절인자와 표적인자의 관계로 설명되는 네트워크이다. 보다 구체적으로는, 특정 대사경로에 참여하는 단백질군의 발현이 그들에게 공통적으로 특이성을 갖는 전사조절인자에 의해 결정되는 경우, 이들 전사조절인자들과 그들의 표적유전자들 간의 종속관계를 갖는 네트워크이다.

상기 유전자 네트워크는 현재 많은 논문들, 특허들을 통해 접할 수 있는 개념으로서, 당해 기술분야의 통상의 기술자라면 상기 예시한 유전자 네트워크 이외에도 그 범위와 의미를 명확하게 이해할 수 있다.

본 발명의 다른 일 양태에 따르면, 본 발명에서 상기 질병 관련 유전자와 유전자 네트워크를 형성하는 유전자군은 상기 질병 관련 유전자와 직접적인 네트워크를 형성하고 있는 유전자로 제한되지 않는다.

즉, 본 발명에서 정의되는 상기 (c) 단계에서의 유전자군은 통상적인 의미의 유전자 네트워크를 포함할 뿐 아니라 하기 단계를 포함하는 방법에 따라 선별된 유전자군도 포함될 수 있다:

(c1) 상기 질병 관련 유전자와 동일한 분자생리학적 기능을 나타내는 유전자군; 및 상기 질병 관련 유전자와 연관성이 공지된 비-유전자 데이터에 동일한 연관성을 나타내는 유전자군으로 이루어진 군에서 선택된 1종 이상의 유전자군을 선별하는 단계; 및

(c2) 상기 (c1) 단계에서 선별된 유전자군과 유전자 네트워크를 형성하는 유전자군을 선별하는 단계.

상기 (c2) 단계에서 정의된 '유전자 네트워크'는 전술한 통상적인 의미의 유전자 네트워크를 의미한다.

본 발명의 상기 (c) 단계는 상기 비-유전자 데이터와 연관성이 공지된 질병 관련 유전자와 직간접적으로 상호작용하여 상기 비-유전자 데이터에 영향을 미칠 가능성이 있는 유전자를 1차적으로 선별하는 과정이므로, 종래 공지된 유전자 네트워크 이외에도 다양한 도메인 지식을 활용한 문헌 조사, 분석 등을 통해 그 범위가 충분히 확장되는 것이 바람직할 수 있다.

상기 공지된 유전자 네트워크는 기 구축된 데이터베이스를 통해서 확보할 수 있으며 상기 데이터베이스는, 예를 들어, HPRD, BioGrid, IntAct, MINT, DIP, iRefWeb data, pathway map, MsigDB 등이 포함될 수 있으나 이에 제한되는 것은 아니다.

본 발명에서 상기 '필터링'이란 상기 (a) 단계에서 수신한 환자의 유전자 데이터 중에서 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군에 대한 데이터만을 이후의 절차에서 활용하고, 나머지 유전자 데이터는 이후의 절차에서 활용하지 않는 것을 의미한다.

본 발명에서는 상기 (a) 단계에서 유전자 데이터를 수신한 이후에 유전자를 필터링하는 것으로 설명하였으나, 상기 (b) 단계 및 (c) 단계를 통해서 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군을 먼저 선별한 후, 상기 선별된 유전자군에 대한 환자의 유전자 데이터만 수신하는 것으로 단계가 변경될 수 있다.

(d) 상기 필터링된 유전자(p개) 데이터와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계;

본 발명에서 상기 (d) 단계는 상기 (c) 단계에서 필터링된 상기 환자(q명)의 유전자(p개) 데이터를 이용하여 p × q의 제1입력행렬 원본값을 생성하는 단계이다.

상기 p × q의 제1입력행렬에서 각 행렬의 값은 상기 환자의 유전자 데이터를 벡터화한 수치이며, 바람직하게는 필터링된 각 유전자의 발현량일 수 있다.

본 발명에서 상기 유전자 데이터를 벡터화한 수치란 정량적인 수치로 표현 가능한 유전자 발현량의 경우 유전자의 발현량 값, 정량적인 수치로 표현되지 않는 유전자 데이터, 예를 들어, 유전자 돌연변이, SNP(single nucleotide polymorphism) 등의 경우 발현 또는 미발현으로 이분화하여 0 또는 1로 표현하는 방법을 의미한다.

(e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계;

본 발명에서 상기 (e) 단계 및 (f) 단계는 상기 (d) 단계에서 확보된 입력행렬(p × q)에 대해 NMF를 수행하여 차원을 축소하는 단계이다.

본 발명의 상기 (e) 단계 및 (f) 단계에서는 상기 (d) 단계에서 확보된 입력행렬을 최적화하여, 상기 입력행렬 내 p개의 유전자 중에서 공통되는 특성에 의해서 가장 잘 구분이 될 수 있는 유전자 조합 및 이의 NMF 데이터를 확보할 수 있다. 상기 (e) 단계 및 (f) 단계를 포함하는 최적화 과정의 결과, 메타유전자를 구분하기 위한 최종 유전자군 및 최적의 NMF 랭크(rank)값 r이 얻어질 수 있다.

우선 상기 (e) 단계에서는 상기 (d) 단계에서 생성한 제1입력행렬(p × q)을 기초로 제2입력행렬을 생성한다. 상기 제2입력행렬은 상기 제1입력행렬과 동일한 열(환자, q)을 포함하며, 상기 제1입력행렬의 행(p)에 포함된 유전자 1개 내지 p개의 모든 유전자 조합으로 이루어진 각각의 입력행렬이다.

즉, 상기 제2입력행렬은 p × q 입력행렬, (p-1) × q 입력행렬, (p-2) × q 입력행렬, (p-3) × q 입력행렬 ......1 × q 입력행렬의 모든 조합을 포함한다. 상기 (p-1)은 p개의 유전자에서 임의의 유전자 1개를 제외한 모든 경우의 유전자 조합을 의미하며, 상기 (p-2)는 p개의 유전자에서 임의의 유전자 2개를 제외한 모든 경우의 유전자 조합을 의미하며, 상기 (p-3)은 p개의 유전자에서 임의의 유전자 3개를 제외한 모든 경우의 유전자 조합을 의미하며, 상기 1은 p개의 유전자에 포함된 각각의 유전자를 의미한다.

상기 제2입력행렬을 생성한 후, 각각의 제2입력행렬에서 임의의 값을 결측치로 처리한다. 결측치로 처리하는 값의 개수는 특별히 제한되지 않는다.

상기 (e) 단계에서 결측치로 처리되는 유전자 데이터는 임의의 유전자 데이터일 수 있으나, 상기 (b) 단계에서 선별된 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자 데이터를 결측치로 처리하는 것이 바람직하다.

구체적으로는, 상기 (b) 단계에서 선별된 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자 데이터 중 1 내지 20%의 환자 데이터를 결측치로 처리하는 것이 바람직하며, 더 바람직하게는 2 내지 15%, 보다 더 바람직하게는 3 내지 10%, 가장 바람직하게는 4 내지 6%의 환자 데이터를 결측치로 처리할 수 있다.

임의의 값을 결측치로 처리한 각각의 제2입력행렬에 대해 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소를 진행한다. NMF 수행시 적용되는 랭크(rank)값은 2 내지 r이다.

상기 랭크(rank)값은, 예를 들어, 10, 9, 8, 7, 6, 5, 4, 3 또는 2 일 수 있으며, 바람직하게는 7, 6, 5, 4, 3, 또는 2일 수 있으며, 더 바람직하게는 6, 5, 4, 3 또는 2일 수 있으며, 가장 바람직하게는 5, 4 또는 3 일 수 있다.

본 발명에서 상기 유전자 매트릭스란 상기 제2입력행렬에 대한 NMF를 수행하여 생성된 p × r, (p-1) × r, (p-2) × r … 1 × r 각각의 행렬을 의미하며, 상기 환자 매트릭스란, 상기 제2입력행렬에 대한 NMF를 수행하여 생성된 r × q 각각의 행렬을 의미한다.

상기 각각의 제2입력행렬에 대한 랭크(rank)값 2 내지 r의 NMF 수행 결과 출력된 유전자 매트릭스와 환자 매트릭스를 재결합하고, 상기 재결합에 의해 생성된 결측치에 대한 복원값을 상기 각각의 제2입력행렬 내 원본값과 비교하여 오차를 산출한다.

상기 오차는 AE(Average Error), MAE(Mean absolute error), MAPE(Mean absolute percentage error), MAE(Mean squared error), MSE(Mean square error) 및 RMSE(root MSE)으로 이루어진 군에서 선택된 방법에 따라 수치화하여 각각의 제2입력행렬에 대한 성능을 평가한다.

상기 방법에 따라 각각의 제2입력행렬 및 랭크값 r에 대한 NMF의 성능을 평가하여 가장 낮은 오차를 나타내는(즉, 가장 우수한 복원력을 나타내는) 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터(N × r, r × q)를 산출한다.

바람직하게는, 본 발명의 상기 (e) 단계에서는 p개의 유전자부터 1개의 유전자 조합까지 순차적으로 NMF를 수행하면서 그 성능을 평가하여, 가장 나쁜 성능을 나타내는(즉, 가장 높은 오차를 나타내는) 유전자를 1개씩 제거하는 그리디(greedy) 방법에 따라 최적의 성능을 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터를 산출할 수 있다.

보다 바람직하게는, 상기 선별된 p개의 유전자 중에서 상기 (b) 단계에서 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자 k개를 제외한 (p-k)개의 유전자부터 1개의 유전자 조합까지 순차적으로 NMF를 수행하면서 그 성능을 평가하여, 가장 나쁜 성능을 나타내는(즉, 가장 높은 오차를 나타내는) 유전자를 1개씩 제거하는 그리디(greedy) 방법에 따라 최적의 성능을 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터를 산출할 수 있다. 이와 같은 방법에 따라, 상기 (b) 단계에서 선별된 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자는 상기 NMF 성능 평가 과정에서 제거될 가능성이 배제된다.

본 발명에서 정의하는 상기 메타유전자(meta-gene)'는 상기 (f) 단계에서 산출된 NMF 데이터에서 N × r 행렬의 각 열을 의미하며, 상기 q명의 환자 각각 대한 메타유전자들의 값(또는 발현값)은 상기 산출된 NMF 데이터에서 r × q 행렬 값에 대응된다. 즉, 상기 산출된 NMF 데이터에서 N × r 행렬의 각 열을 메타유전자 1, 메타유전자 2, 메타유전자 3 … 메타유전자 r로 표현할 수 있으며, 환자 각각에 대한 메타유전자 1 내지 메타유전자 r의 값(또는 발현값)은 상기 r × q 행렬값에 대응이 된다.

예를 들어, 상기 (f) 단계에서 30개의 유전자(N) 및 랭크값(r) 5가 선별되었고, 수치화된 약물 반응성 데이터를 제공하고 있는 환자의 수가 100명일 때, 상기 (f) 단계에서는 30 × 5 행렬 (W 행렬) 및 5 × 100 행렬 (H 행렬)이 NMF 데이터로 산출된다. 상기 W 행렬에서 각각의 열이 메타유전자 1 내지 5로 정의되며, 상기 100명의 환자 각각의 메타유전자 1 내지 5의 값(또는 발현값)은 상기 H 행렬의 값에 대응된다. 구체적인 예로서, 상기 100명의 환자 중 5번 환자의 메타유전자 3의 값(또는 발현값)은 상기 H 행렬의 5열, 3행의 값이다.

(g) 상기 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계;

상기 (g) 단계는 상기 산출된 NMF 데이터에서 r Х q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계이다. 즉, 상기 r × q 행렬에서 각 환자의 메타유전자 1 내지 r의 값(또는 발현값)과 상기 환자의 비-유전자 데이터의 관계를 설명할 수 있는 예측모델을 생성하는 단계이다.

본 발명의 일양태에서, 상기 (g) 단계는 상기 r × q 행렬에서 각 환자의 메타유전자 1 내지 r의 값(또는 발현값)을 학습용 입력 데이터, 상기 환자들의 비-유전자 데이터를 학습용 출력 데이터로 하여 기계학습시켜 예측모델을 생성할 수 있다.

본 발명에서 상기 "예측모델"이란 환자의 비-유전자 데이터 예측모델을 의미한다. 보다 구체적으로는, 상기 학습용 입력 데이터와 학습용 출력 데이터의 상관관계를 분석하여 상기 r × q 행렬에서 각 환자의 메타유전자 1 내지 r의 값(또는 발현값)에 따른 환자의 비-유전자 데이터를 예측하는 입출력함수를 의미한다.

상기 (g) 단계에서는 상기 r × q 행렬에서 각 환자의 메타유전자 1 내지 r의 값(또는 발현값)을 학습용 입력 데이터로, 상기 환자들의 비-유전자 데이터를 학습용 출력 데이터로 하여 기계학습을 시키는 과정에서 상기 메타유전자 1 내지 r 각각의 중요도가 평가될 수 있다. 상기 "중요도"란 환자의 비-유전자 데이터를 예측하는 예측변수로서의 "정확도" 또는 "기여도" 등으로 이해될 수 있다. 구체적으로, 상기 메타유전자 1 내지 r 중에서 환자의 비-유전자 데이터 예측에 있어서 중요도 순위가 가장 낮은 메타유전자를 순차적으로 제외해가면서, 나머지 메타유전자를 학습용 입력 데이터로 하여 환자의 비-유전자 데이터를 예측하는 예측모델을 각각 생성하거나, 또는 상기 메타유전자 1 내지 r로 이루어진 군에서 선택된 2종 이상의 변수를 학습용 입력 데이터로 하여 환자의 비-유전자 데이터를 예측하는 예측모델을 각각 생성할 수 있다. 이와 같은 방식으로 생성된 각각의 예측모델은 이후 단계에서 그 성능이 평가되어 환자의 비-유전자 데이터를 가장 정확하게 예측할 수 있는, 즉 최대의 성능을 나타내는 예측모델이 선별될 수 있다.

본 발명의 일양태에서, 상기 (g) 단계의 예측모델은 로지스틱 회귀 알고리즘, 딥 러닝 알고리즘, 의사 결정 트리 알고리즘, 랜덤 포레스트 알고리즘, 나이브 베이즈(nave Bayes) 알고리즘, 서포트 벡터 기계 알고리즘, K-근접이웃(K-Nearest Neighbor) 알고리즘, 그래디언트 부스팅(Gradient Boosting Machine) 알고리즘, 신경망(Neural Network) 알고리즘 및 엑스트라 트리(extra trees) 알고리즘으로 이루어진 군에서 선택된 어느 하나 이상의 기계 학습 모델인 것을 특징으로 할 수 있다.

(h) 상기 생성된 예측모델의 성능을 평가하는 단계;

본 발명의 상기 (h) 단계는 상기 (g) 단계에서 생성된 예측모델의 예측 정확도 및 예측 정밀도를 평가하는 단계이다.

본 발명의 상기 (h) 단계에서 예측모델의 성능을 평가하는데 사용되는 방법은 특별히 제한되지 않으며, 독립변수(x)와 종속변수(y) 사이의 연관성을 확인하기 위해 통상적으로 사용되는 통계적 혹은 컴퓨팅적 방법을 사용할 수 있다. 예를 들어, 종속변수에 해당하는 비-유전자 데이터가 연속형일 때 상관분석 및 회귀분석 등을, 비-유전자 데이터가 불연속형일 때 t-test, chi-square test, 로지스틱 회귀분석 등을 사용할 수 있다. 지도학습으로 상기 예측모델의 성능을 검증할 경우, 비-유전자 데이터가 연속형일 때 회귀분석을, 비-유전자 데이터가 불연속형일 때 로지스틱 회귀분석, K-최근접이웃알고리즘, 결정트리 등을 사용할 수 있으나, 이에 제한되는 것은 아니다.

본 발명의 일양태에서, 상기 예측모델의 성능은 ROC의 곡선 아래 면적(AUC), 밸런스 정확도(BA), 민감도, 특이도, 양성 예측값(PPV), 음성 예측값(NPV), 위양성률(FPR), 위발견율(FDR) 및 F1 스코어로 이루어진 군에서 선택된 하나 이상의 결과에 의해 평가될 수 있다.

본 발명은 또한 상기 각 단계가 포함된 방법을 수행하기 위한 프로그램이 기록되는, 컴퓨터 판독 가능한 기록 매체를 제공한다.

본 발명은 또한 전술한 각 단계가 일련의 프로세서에 의해 구동되는 질병 관련 메타 유전자 생성 장치를 제공한다.

보다 구제적으로, 상기 장치는 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자 데이터를 수신하는 데이터 수신부;

(b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자가 입력되는 입력부;

(c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자의 유전자 데이터를 필터링하는 필터링부;

(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 입력행렬 생성부;

(e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬(p × q, (p-1) × q, (p-2) × q … 1 × q)을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 NMF 연산부;

(f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터(N × r, r × q)를 산출하여 출력하는 출력부;

(g) 상기 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 예측모델 생성부; 및

(h) 상기 생성된 예측모델의 성능을 평가하는 검증부.

본 발명의 상기 장치에는 데이터 수신부, 입력부, 필터링부, 입력행렬 생성부, NMF 연산부, 출력부, 메타유전자 선별부 및 검증부는 각각의 기능들에 따라 별도의 독립적인 명칭들로 구분된 것일 뿐, 하나의 프로세서로 구현될 수 있다.

또한, 데이터 수신부, 입력부, 필터링부, 입력행렬 생성부, NMF 연산부, 출력부, 예측모델 생성부및 검증부 각각은 프로세서 내의 하나 이상의 프로세싱 모듈에 대응될 수도 있다. 또는, 데이터 수신부, 입력부, 필터링부, 입력행렬 생성부, NMF 연산부, 출력부, 예측모델 생성부 및 검증부는 각각의 기능들에 따라 구분된 별도의 소프트웨어 알고리즘 단위에 해당될 수도 있다. 즉, 프로세서 내에서 데이터 수신부, 입력부, 필터링부, 입력행렬 생성부, NMF 연산부, 출력부, 예측모델 생성부 및 검증부의 구현 형태는 어느 하나에 의해 제한되지 않는다.

또한, 상기 나열된 (a) 내지 (h)의 각 구성요소 이외에 다른 범용적인 구성요소들이 더 포함될 수 있다.

본 발명에서 제공하는 상기 장치의 (a) 내지 (h)의 각 구성요소의 구동방식은 전술한 바를 참고할 수 있다.

한편, 본 발명이 제공하는 상기 장치의 (c) 필터링부는 유전자 네트워크 데이터베이스를 저장하는 데이터베이스 저장부; 및 상기 질병 관련 유전자와 관련된 도메인 지식을 검색하는 검색부를 추가로 포함할 수 있다.

상기 데이터베이스 저장부는 유전자 정보 프로세서, 단백질 상호작용 프로세서, 신호전달 경로 프로세서 등과 같은 유전자 네트워크 정보 제공을 위한 복수의 프로세서를 포함할 수 있다.

상기 데이터베이스 저장부에는 질병 관련 유전자의 기능적 링크(functional link)를 포함하는 네트워크 내에서 상기 질병 관련 유전자의 생물학적 경로(biological pathway)와 관련된 유전자 정보 및 유전자 네트워크 정보가 저장되어 있다.

상기 (b) 입력부에서 질병 관련 유전자가 입력되면 상기 데이터베이스 저장부에서는 상기 질병 관련 유전자와 직간접적인 생물학적 경로를 공유하고 있는 유전자 네트워크 정보를 검색하여 제공한다.

상기 검색부는 상기 데이터베이스 저장부에 저장되어 있는 유전자 네트워크 정보뿐만 아니라, 기 구축된 온라인 데이터베이스를 검색하여 상기 질병 관련 유전자와 직간접적인 생물학적 경로를 공유하고 있는 네트워크 정보를 탐색한다.

상기 기 구축된 온라인 데이터베이스는, 예를 들어, HPRD, BioGrid, IntAct, MINT, DIP, iRefWeb data, pathway map, MsigDB 등이 포함될 수 있다.

또한, 상기 검색부는 기 구축된 온라인 데이터베이스 외에도 논문, 특허, 보고서 등을 검색하여 상기 질병 관련 유전자와의 관련성이 공지되었으나 상기 온라인 데이터베이스에 반영되지 않은 추가 유전자를 탐색할 수 있다. 보다 구체적으로는, 상기 검색부는 도메인 지식을 검색하여 상기 질병 관련 유전자와 동일한 분자생리학적 기능을 나타내는 유전자군; 상기 질병 관련 유전자와 단백질-단백질 상호작용을 하는 것으로 공지된 유전자군; 및 상기 질병 관련 유전자와 연관성이 공지된 비-유전자 데이터에 동일한 연관성을 나타내는 유전자군을 검색하고 그 정보를 제공할 수 있다.

또한, 상기 (c) 필터링부는 상기 검색된 도메인 지식에 따라 상기 질병 관련 유전자와 동일한 분자생리학적 기능을 나타내는 유전자군; 상기 질병 관련 유전자와 단백질-단백질 상호작용을 하는 것으로 공지된 유전자군; 및 상기 질병 관련 유전자와 연관성이 공지된 비-유전자 데이터에 동일한 연관성을 나타내는 유전자군으로 이루어진 군에서 선택된 1종 이상의 유전자군을 상기 질병 관련 유전자와 유전자 네트워크를 형성하는 유전자군으로 선별하는 유전자 네트워크 선별부를 더 포함할 수 있다.

또한, 상기 (c) 필터링부에는 사용자가 설정하는 제한조건에 따라 상기 질병 관련 유전자와 유전자 네트워크를 형성하는 유전자군을 한정하는 제한조건 입력부가 추가로 포함될 수 있다. 상기 제한조건 입력부에서는, 예를 들어, 상기 질병 관련 유전자와 동일한 분자생리학적 기능을 나타내는 유전자군, 상기 질병 관련 유전자와 단백질-단백질 상호작용을 하는 유전자군, 상기 질병 관련 유전자와 연관성이 공지된 비-유전자 데이터에 동일한 연관성을 나타내는 유전자군 등 사용자가 필터링하고자 하는 조건을 한정함으로써, 상기 데이터베이스 저장부 및 검색부에서 제공되는 유전자군이 일정한 범위 내지는 군으로 제한되도록 설정할 수 있다.

본 발명은 또한 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자(q명) 데이터, 및 피검체(t명)명의 유전자 데이터를 수신하는 단계; (b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계; (c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자(q명)의 유전자 데이터를 필터링하는 단계; (d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계; (e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계; (f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하는 단계; (g) 상기 환자(q명) 및 상기 피검체(t명)의 유전자 데이터를 병합한 후 상기 N개의 유전자로 필터링하여 입력행렬(N × (q + t))을 생성하는 단계; (h) 상기 입력행렬에 대해 랭크(rank)값 r의 NMF를 수행하여 NMF 데이터(N × r, r × (q + t))를 산출하는 단계; (i) 상기 (h) 단계에서 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계; (j) 상기 (h) 단계에서 산출된 r × t 행렬을 상기 예측모델의 입력 값으로 하여 상기 피검체(t명)의 비-유전자 데이터를 출력하는 단계를 포함하는, 피검체의 질병 관련 비-유전자 데이터 예측 방법을 제공한다.

본 발명의 상기 방법에서 (a) 내지 (j)의 각 단계는 질병 관련 메타유전자 생성 방법에 관한 이전 설명을 참고할 수 있다.

본 발명의 상기 (a) 단계에서 피검체란 유전자 데이터만이 제공되어 있고, 비-유전자 데이터는 제공되지 않은 임의의 환자를 의미한다. 보다 구체적으로는, 상기 피검체는 특정 질병에 걸렸는지 진단하고자 하는 환자, 특정 질병에 걸린 것으로 진단된 환자로서 예후를 예측하고자 하는 환자, 특정 질병에 걸린 것으로 진단된 환자로서 적절한 치료 약물을 선택하고자 하는 환자 등을 포함한다.

상기 (h) 단계에서의 랭크(rank)값 r은 상기 (f) 단계에서 선별된 랭크값 r과 동일한 것이다.

상기 (j) 단계에서는 상기 (h) 단계에서 NMF로 생성된 상기 r × t 행렬을 상기 예측모델의 입력값으로 하여 상기 피검체(t명)의 비-유전자 데이터를 출력한다.

예를 들어, 상기 (h) 단계에서 생성된 예측모델이 특정 약물에 대한 반응성(비-유전자 데이터) 예측을 위한 예측모델이었다면, 상기 r × t 행렬 내 각 피검체의 메타유전자 1 내지 r의 값을 상기 예측모델의 입력값으로 하여 상기 피검체(t명)의 상기 특정 약물에 대한 반응성을 예측해 볼 수 있다.

본 발명의 상기 방법에서 상기 (i) 단계 이후에 상기 예측모델의 성능을 평가하는 단계를 추가로 수행할 수 있다.

본 발명이 제공하는 상기 피검체의 질병 관련 비-유전자 데이터 예측 방법은 피검체의 질병 관련 비-유전자 데이터를 예측하는데 필요한 정보를 제공하기 위한 목적으로 수행될 수 있다.

본 발명은 또한 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자(q명) 데이터, 및 피검체(t명)명의 유전자 데이터를 수신하는 단계; (b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계; (c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자(q명)의 유전자 데이터를 필터링하는 단계; (d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계; (e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계; (f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터(N × r, r × q)를 산출하는 단계; (g) 상기 산출된 NMF 데이터에서 r Х q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계; (h) 상기 환자(q명) 및 상기 피검체(t명)의 유전자 데이터를 병합한 후 상기 N개의 유전자로 필터링하여 입력행렬(N × (q + t))을 생성하는 단계; (i) 상기 (h) 단계에서 생성된 입력행렬(N × (q + t))에 대해 랭크(rank)값 r의 NMF를 수행하여 NMF 데이터(N × r, r × (q + t))를 산출하는 단계; 및 (j) 상기 (i) 단계에서 산출된 NMF 데이터에서 r × t 행렬을 상기 (g) 단계에서 생성된 예측모델의 입력 값으로 하여 상기 피검체(t명)의 비-유전자 데이터를 출력하는 단계를 포함하는, 피검체의 질병 관련 비-유전자 데이터 예측 방법을 제공한다.

본 발명의 방법에 따라 생성된 메타유전자 및 이를 이용한 예측모델을 통해 미지의 피검체로부터 비-유전자 데이터를 예측하는 방법은 단일 바이오 마커 유전자 또는 바이오 마커 유전자군 등 통상적인 방법에 따라 선별된 바이오 마커를 이용한 비-유전자 데이터 예측방법과 비교해 향상된 예측력을 제공할 수 있다.

도메인 지식 및 NMF 기법을 활용한 본 발명의 방법 따라 생성된 메타유전자는 질병의 진단, 예후 예측, 약물 반응성 예측 등과 관련된 정확한 정보를 제공할 수 있어 새로운 바이오 마커로서 활용 가능성이 매우 높다.

도 1은 도메인 지식에 따라 선별된 유전자 조합에 따른 랭크값 r의 NMF 수행 결과, 결측치에 대한 행렬의 복원값과 대응되는 원본값 사이의 오차(mean-square error)를 나타낸 결과이다.
도 2는 행렬 최적화 과정을 통해 오차가 가장 낮은 것으로 선정된 유전자 조합 및 랭크값을 갖는 NMF 결과의 세포주 매트릭스(A) 및 유전자 매트릭스(B)를 출력한 결과이다.
도 3은 베네토클락스에 대한 약물 반응성(IC50)과 BLC2의 유전자 발현량(A) 또는 본 발명의 실시예에서 선별된 메타유전자 2의 가중치(B)와의 상관관계를 확인한 도면이다.
도 4는 선형 회귀 방법에 따라 본 발명의 실시예에서 선별된 각 메타유전자 각각이 베네토클락스 약물 반응성(IC50) 값에 미치는 영향을 베타 계수(beta coefficient)로 확인한 결과이다.
도 5는 선형 회귀(Linear regression) 모델을 사용하여 각각의 바이오마커가 베네토클락스 약물 반응성(IC50)을 예측하는 성능을 평가한 결과이다.
도 6은 도메인 지식에 따라 선별된 유전자 조합에 따른 랭크값 3의 NMF 수행 결과, 결측치에 대한 행렬의 복원값과 대응되는 원본값 사이의 오차(Mean absolute percentage error)를 나타낸 결과이다.
도 7는 행렬 최적화 과정을 통해 오차가 가장 낮은 것으로 선정된 유전자 조합을 갖는 NMF 결과의 환자 매트릭스(A) 및 유전자 매트릭스(B)를 출력한 결과이다.
도 8은 로지스틱 회귀 (logistic regression) 알고리즘을 사용하여 각각의 바이오 마커가 베네토클락스 약물 반응성(high group/low group)을 예측하는 성능을 평가한 결과이다.

이하, 본 발명을 하기 실시예에 의해 상세히 설명한다. 단, 하기 실시예는 본 발명을 예시하기 위한 것일 뿐, 본 발명이 이들에 의해 제한되는 것은 아니다.

실시예 1: AML 세포주를 이용한 메타유전자의 생성 및 이의 유용성 검증

1. AML(acute myeloid leukemia) 세포주의 베네토클락스(venetoclax)에 대한 약물 반응성 평가

"Cancer Discov.　2018 Dec;8(12):1582-1597." 에서 제공하는 각 AML 세포주에 대한 IC50 값을 이용하여, 21종 AML 세포주의 베네토클락스에 대한 약물 반응성 정보(즉, 비-유전자 데이터)를 확보하였다. 확보한 각 AML 세포주의 베네토클락스에 대한 약물 반응성은 도 2에 표시하였다.

이후, 하기 방법에 따라 베네토클락스에 대한 반응성이 확보된 각 AML 세포주의 전체 유전자 발현량(즉, 유전자 데이터)을 확보하였다:

(1) Broad Institute Cancer Cell Line Encyclopedia (CCLE, Nature.　2019 May;569(7757):503-508.)에서 제공하는 fastq (mRNA 시퀀스 리드) 를 Sequence Read Archive (SRA)를 통해 받음

(2) 상기 시퀀스 리드를 STAR (Bioinformatics.　2013 Jan 1;29(1):15-21)를 통해 reference 서열(hg19)에 매핑

(3) 상기 매핑 정보에서 RSEM (BMC Bioinformatics.　2011 Aug 4;12:323.)을 통해 유전자에 매핑된 시퀀스 리드를 카운트하여 유전자 발현 값(FPKM; Fragments Per Kilobase of transcript per Million)으로 가공

2. 베네토클락스 약물 반응성 예측을 위한 메타유전자 선별

(1) BCL2와 유전자 네트워크를 형성하는 유전자군의 선별

베네토클락스는 BCL2 선택적인 저해제이다. 베네토클락스의 약물 반응성을 예측하기 위한 메타유전자 선별을 위해 BCL2와 유전자 네트워크를 형성하는 유전자군을 다음과 같이 선별하였다:

1) 문헌조사 (BCL2 family 유전자들)

내재적 세포사멸 과정의 핵심 유전자는 BCL2 family로써, 총 15개의 유전자가 pro-apoptotic 및 anti-apoptotic 기능에 대해 알려져 있다(Cell Death Differ.　2018 Jan;25(1):56-64.). 이들 BCL2 famaily 유전자 15개를 1차적으로 선별하였으며, 선별된 BCL2 family 유전자 리스트는 다음과 같다:

BID,BCL2L11,PMAIP1,BBC3,BAD,BIK,HRK,BCL2,BCL2L1,MCL1,BCL2L2,BCL2A1,BAX,BAK1,BOK

2) gene set DB 이용

세포사멸 과정은 내재적/외재적으로 구분되므로, BCL2와 같이 내재적 세포사멸에 한정된 유전자 선별을 위해 공개 DB인 MsigDB에서 내재적 세포사멸과 관련된 유전자를 다음과 같이 수집하였다.

-GO_INTRINSIC_APOPTOTIC_SIGNALING_PATHWAY (내재적 세포사멸 조절 경로에 참여하는 유전자): 152개

-REACTOME_INTRINSIC_PATHWAY_FOR_APOPTOSIS (내재적 세포사멸 조절 경로에 참여하는 유전자): 30개

-BIOCARTA_MITOCHONDRIA_PATHWAY (내재적 세포사멸 조절은 미토콘드리아에서 일어남. 따라서, 미토콘드리아에서 내재적 세포사멸에 관여하는 유전자를 선별함): 21개

- REACTOME_ACTIVATION_OF_BH3_ONLY (BH3 only protein은 BCL2 family의 일부임. 이들의 activation에 관여하는 유전자 항목을 선별함): 17개

- GENEGO_TNF_NFkB_BCL2_PATHWAY (내재적 세포사멸의 핵심 유전자인 BCL2 family의 전사(transcription) 관련 유전자와 단백질-단백질 상호작용(protein-protein interaction) 관계의 유전자들도 간접적 연관성이 존재하므로 포함시킴. 구체적으로, BCL2 family 유전자 중 일부는 TNFs/NF-kB pathway를 통해 전사가 조절됨. 이에 관련된 유전자를 선별함): 38개

또한, anti-apoptotic BCL2 family와 단백질-단백질 상호작용하는 유전자 266개를 BioGRID에서 수집하였다.

(2) 행렬 최적화

상기 선별된 유전자군으로 상기 AML 세포주들의 유전자 데이터를 필터링하고, 상기 선별된 유전자 중 사용 가능한 유전자 (391개) X 상기 AML 세포주(21개)의 제1입력행렬(p x q)을 생성하였다.

상기 사용가능한 유전자는 1) 전체 샘플 수의 90% 이하에서만 발현하는 유전자 제외하고 2) 유전자의 스케일을 통일하기 위해 quantile normalization을 수행 후 제 1 입력행렬의 값으로 사용하였다.

이후, 상기 제1입력행렬을 기준으로 하기 단계를 포함하는 방법에 따라 제2입력행렬을 생성한 후 임의의 값을 결측치로 처리하고 NMF를 수행하여, 최적의 유전자 조합 및 랭크값을 나타내는 NMF 데이터를 선별하였다:

본 실시예에서는 결측치 대상 유전자를 다음과 같이 선택하였다.

1) 베네토클락스 약물의 대상이 되는 BCL2

2) BCL2와 동일한 기능성을 가지지만, 베네토클락스 약물의 대상이 되지 않기 때문에 약물 저항성을 가지게 하는 유전자 4개 (MCL1, BCL2L1(BCLXL), BCL2A1(BFL1), BCL2L2(BCLW))

1) 상기 선별된 391종의 유전자에서부터 유전자가 10개가 남을 때까지 하기 (1-1) 내지 (1-4) 과정을 반복(p=391, 390, 389, … 10)함

(1-1) 상기 결측치 대상 유전자(5개)를 제외한 (p-5)개 유전자 중에서 각각의 유전자(G)에 대해 각각 아래 과정을 실시함

(1-1-1) 유전자 G를 제외한 (p-1)개 유전자로 제2입력행렬 (p-1)x 21 생성

(1-1-2) 상기 제2입력행렬에서 결측치 대상 유전자에 해당하는 부분 (5 x 21)의 유전자 데이터 중에서 무작위로 5%를 결측치로 처리

(1-1-3) 상기 결측치 처리된 행렬에서 rank(r)에 대해 NMF를 수행하여 결과 행렬 W((p-1) × r), H(r × 21) 생성

(1-1-4) 상기 생성된 결과행렬(W행렬, H행렬)끼리 곱해 제2입력행렬을 복원

(1-1-5) 상기 (1-1-3)단계에서 결측치 처리된 값의 상기 (1-1-4)에서의 복원값과 상기 제2입력행렬에서 대응되는 원본값 사이의 오차를 (MSE) 계산

(1-1-6) 상기 (1-1-3) ~ (1-1-5) 과정을 30번 반복하여 계산된 30개의 MSE 값의 평균을 최종 오차로 지정

(1-2) 상기 과정에서 생성된 오차(p-5)개 중 최소값의 오차를 나타내는 유전자를 선별

(1-3) 상기 선별된 유전자를 입력행렬에서 제거

(1-4) 남은 유전자(p-1개) 및 이에 해당하는 오차값 기록

2) 상기 기록된 오차 중 최소값의 오차를 나타내는 유전자군 (최종 유전자군) 및 랭크(rank)값 선별

(3) NMF 결과 출력

상기 (1)의 유전자군 선발 및 상기 (2)의 행렬 최적화 과정을 통해 유전자(64개) 조합 및 랭크값(5)을 갖는 유전자 매트릭스(W)와 세포주 매트릭스(H)를 출력하였다.

도면의 W 매트릭스에서 각 열을 좌측에서부터 메타유전자 1 내지 5로 지정하였으며, 이들 메타유전자 중에서 베네토클락스의 약물 반응성과 양의 상관관계를 나타내는 것으로 알려진 BCL2의 가중치가 가장 높은 메타유전자 2, 그리고 베네토클락스의 약물 반응성과 음의 상관관계를 나타내는 것으로 알려진 BCL2L2, BCL2L1, BCL2A1 또는 MCL1의 가중치가 가장 높은 메타유전자 1, 3, 4 및 5중에서, 우선 메타유전자 2를 선별하여 이하 바이오 마커로서의 유용성을 검증하였다.

(4) 메타유전자의 검증

1) 메타유전자 2의 검증

상기 (3)에서 선별된 메타유전자 2가 베네토클락스의 약물 반응성을 예측할 수 있는 바이오 마커로서 활용될 수 있을지를 이하 검증하였다.

우선, 도면의 H 매트릭스를 참고하면, 각 AML 세포주의 베네토클락스에 대한 반응성을 IC50 순서로 나열하고, 이를 표시하였다. 도면의 H 매트릭스에 표시된 각 AML 세포주의 베네토클락스에 대한 반응성과 메타유전자 2와의 양의 상관관계가 존재하는 것으로 확인되었다. 구체적으로, 도면의 H 매트릭스에서 베네토클락스에 대한 반응성이 좋은 세포주들은 메타유전자 1 내지 5 중에서 메타유전자 2의 가중치가 가장 높은 것을 확인할 수 있으며, 베네토클락스에 대한 반응성이 좋지 않은 세포주들은 메타유전자 2의 가중치가 낮은 것을 확인할 수 있다.

보다 상세하게는 상기 도면에 나타낸 바와 같이, BCL2 단독의 발현량 보다, 본 발명의 방법에 따라 선별된 메타유전자 2(BCL2-related mata-gene)가 베네토클락스 약물 반응성에 더 높은 상관관계를 나타낸다는 것을 확인할 수 있다.

2) 모든 메타유전자의 검증

또한, 상기 선별된 메타유전자 2 뿐만 아니라 메타유전자 1,3,4,5도 베네토클락스의 약물 반응성을 예측할 수 있는 바이오 마커로서 활용될 수 있을지를 추가적으로 이하 검증하였다.

구체적으로, 선형 회귀(Linear Regression)를 사용하여 메타유전자(x값)가 각각 약물 반응성 IC50(y값)에 미치는 영향을 베타 계수(beta coefficient)로 파악했다.

양의 coefficient는 IC50(y)와 양의 연관성이, 음의 coefficient는 IC50(y)와 음의 연관성이 있다고 해석 가능하다.

도면을 참고하면, 상기 선별되었던 메타유전자 2(BCL2-related)는 각 세포주에서 베네토클락스의 IC50와 강한 음의 연관성 (반응성과 양의 연관성)을 갖는 것으로 확인되었다. 즉, 메타유전자 2의 가중치가 높은 세포주일수록 베네토클락스의 IC50값이 낮기 때문에 약물 반응성이 높다.

반대로, 메타유전자 1,4 및 5는 IC50과 양의 연관성 (반응성과 음의 연관성)을 갖는 것으로 확인되었다. 즉, 메타유전자 1, 4 또는 5의 가중치가 높은 세포주일수록 베네토클락스의 IC50값이 높기 때문에 약물 반응성이 낮다.

한편, 상기 메타유전자 3은 베네토클락스의 IC50와 양의 연관성 및 음의 연관성 모두 나타내지 않기 때문에 베네토클락스 약물 반응성 예측을 위한 바이오마커에서 제외하였다.

즉, 메타유전자 1,2,4,5를 베네토클락스 반응성 예측을 위한 바이오 마커로 선정하였다.

선형 회귀(Linear Regression) 모델을 사용하여 상기 선정된 메타유전자 1,2,4,5 (x값)의 베네토클락스 약물 반응성(y값) 예측력을 평가하였다. 예측력 평가의 지표는 100-repeated 5-fold cross-validation으로 얻은 MSE(Mean Square Error)를 사용하였으며, 세부 내용은 다음과 같다:

상기 유전자 데이터를 확보한 21개 세포주의 유전자 데이터를 무작위로 5개 fold로 나눈다. 4개의 fold로 모델을 학습시킨 후 남은 1개의 fold로 모델을 평가하여 MSE 값을 얻는다. 이를 각 fold에 대해 반복한 후 얻은 5개의 MSE 평균을 5-fold cross-validation MSE (CV-MSE)라 칭한다. 이 과정을 100번 반복하여 얻은 100개의 CV-MSE의 평균을 모델 평가에 이용하였다.

도면에서, 갈색 및 노란색 막대는 각각 BCL2 또는 BCL2 패밀리 유전자 발현 정보(x값)를 이용한 IC50 (y값) 예측 모델 학습 결과를 나타내며, 주황 막대는 필터링 수행 전 모든 유전자 정보에서 최적화된 유전자 개수와 동일하게 무작위로 추출한 후 NMF를 수행해 발굴된 메타유전자(x값)를 이용한 IC50 (y값) 예측 모델 학습 결과를 나타내며, 보라 막대는 필터링 수행 전 모든 유전자 정보에서 NMF를 통해 발굴된 메타유전자(x값)를 이용한 IC50 (y값) 예측 모델 학습 결과를 나타내며, 초록 막대는 도메인 지식으로 축소된 유전자 자료(apoptosis genes) 에서 NMF를 통해 발굴된 메타유전자(x값)를 이용한 IC50 (y값) 예측 모델 학습 결과를 나타내며, 파랑 막대는 도메인 지식을 활용한 유전자 네트워크 자료 및 행렬 최적화된 유전자 정보로부터 발굴된 메타유전자(x값)를 모두(메타유전자1~5) 이용한 IC50 (y값) 예측 모델 학습 결과를 나타낸다. 빨강 막대는 상기 최종적으로 선별된 메타유전자 1,2,4,5 (x값)를 이용한 IC50 (y값) 예측 모델 학습 결과를 나타낸다.

도면에서 확인할 수 있는 바와 같이, 본 발명의 방법에 따라 도메인 지식을 활용하고, 행렬 최적화된 유전자 정보로부터 발굴된 메타유전자를 이용한 IC50 예측 모델이 다른 모델들과 비교했을 때 베네토클락스의 약물 반응성 예측력이 현저히 우수한 것을 확인할 수 있다. 또한, 메타유전자 1,2,4 및 5 사용 시 최고의 성능을 내는 것을 확인할 수 있다. 즉, 상기 선별된 메타유전자와 비-유전자 데이터와의 양의 상관관계 또는 음의 상관관계를 검증함으로써 이들 메타유전자를 활용한 약물 반응성 예측의 정확도를 더욱 향상시킬 수 있다.

실시예 2: 환자 데이터를 이용한 메타유전자의 생성 및 이의 유용성 검증

1. AML(acute myeloid leukemia) 환자의 베네토클락스(venetoclax)에 대한 약물 반응성 평가

"Nature. 2018 Oct;562(7728):526-531." 에서 제공하는 beatAML 프로젝트에서 AML 환자 451 명의 전제 유전자 발현량 (즉, 유전자 데이터)와 그 중, 153 명의 약물 반응성 정보(즉, 비-유전자 데이터)를 확보하였다. 확보한 각 AML 환자의 베네토클락스에 대한 약물 반응성은 도7에 표시하였다. 이후 하기 방법에 따라 AML 환자의 전체 유전자 발현량 (즉, 유전자 데이터)를 가공하였다.

(1) BCL2와 유전자 네트워크를 형성하는 유전자군의 산출

베네토클락스는 BCL2 선택적인 저해제이다. 베네토클락스의 약물 반응성을 예측하기 위한 메타유전자 산출을 위해 BCL2와 유전자 네트워크를 형성하는 유전자군을 다음과 같이 선별하였다:

1) 문헌조사 (BCL2 family 유전자들)

BID,BCL2L11,PMAIP1,BBC3,BAD,BIK,HRK,BCL2,BCL2L1,MCL1,BCL2L2,BCL2A1,BAX,BAK1,BOK

2) gene set DB 이용

- GO_INTRINSIC_APOPTOTIC_SIGNALING_PATHWAY (내재적 세포사멸 조절 경로에 참여하는 유전자): 152개

- REACTOME_INTRINSIC_PATHWAY_FOR_APOPTOSIS (내재적 세포사멸 조절 경로에 참여하는 유전자): 30개

- BIOCARTA_MITOCHONDRIA_PATHWAY (내재적 세포사멸 조절은 미토콘드리아에서 일어남. 따라서, 미토콘드리아에서 내재적 세포사멸에 관여하는 유전자를 선별함): 21개

이외에 문헌조사를 통해, BCL2 family의 조절에 관여하는 유전자 30개를 추가하여 최종 유전자 세트 (236개)를 선별했다.

(2) 행렬 최적화

상기 선별된 유전자군으로 상기 AML 환자의 유전자 데이터를 필터링하고, 상기 선별된 유전자 중 사용 가능한 유전자 (228개) X 상기 AML 환자(451건)의 제1입력행렬(p x q)을 생성하였다.

이후, 상기 제1입력행렬을 기준으로 하기 단계를 포함하는 방법에 따라 제2입력행렬을 생성한 후 임의의 값을 결측치로 처리하고 NMF를 수행하여, 최적의 유전자 조합을 나타내는 NMF 데이터를 선별하였다.

1) 베네토클락스 약물의 대상이 되는 BCL2

1) 상기 선별된 391종의 유전자에서부터 유전자가 10개가 남을 때까지 하기 (1-1) 내지 (1-4) 과정을 반복(p=228, 227, 226, … 10)함

(1-1-1) 유전자 G를 제외한 (p-1)개 유전자로 제2입력행렬 (p-1) × 451 생성

(1-1-2) 상기 제2입력행렬에서 결측치 대상 유전자에 해당하는 부분 (5 × 451)의 유전자 데이터 중에서 무작위로 10%를 결측치로 처리

(1-1-3) 상기 결측치 처리된 행렬에서 rank(r)에 대해 NMF를 수행하여 결과 행렬 W((p-1) × r), H(r × 451) 생성

(1-1-5) 상기 (1-1-3)단계에서 결측치 처리된 값의 상기 (1-1-4)에서의 복원값과 상기 제2입력행렬에서 대응되는 원본값 사이의 오차를 (MAPE;

Mean Absolute Percentage Error) 계산

(1-3) 상기 선별된 유전자를 입력행렬에서 제거

(1-4) 남은 유전자(p-1개) 및 이에 해당하는 오차값 기록

2) 상기 기록된 오차 중 최소값의 오차를 나타내는 유전자군 (최종 유전자군)선별

(3) NMF 결과 출력

상기 (1)의 유전자군 선발 및 상기 (2)의 행렬 최적화 과정을 통해 유전자(97개) 조합 및 랭크값(3)을 갖는 유전자 매트릭스(W)와 환자 매트릭스(H)를 출력하였다.

도면의 W 매트릭스에서 베네토클락스 저항성 관련 유전자 (BCL2, MCL1, BCL2A1; 연구자의 경험에 의한 선택)의 기여도에 따라, 각 열을 좌측에서부터 BCL2 메타유전자, MCL1/BCL2 메타유전자, BFL1/MCL1 메타유전자로 지정하였다.

(4) 메타유전자의 검증

상기 (3)에서 산출된 메타유전자가 베네토클락스의 약물 반응성을 예측할 수 있는 바이오 마커로서 활용될 수 있을지를 이하 검증하였다.

구체적으로, 로지스틱 회귀(Logistic Regression) 모델을 사용하여 상기 산출된 메타유전자의 베네토클락스 약물 반응성(y값) 예측력을 평가하였다. 예측력 평가는 10-repeated train/test split(7:3)으로 얻은 test AUROC (Area Under a Receiver Operating Characteristic)를 사용하였으며, 세부 내용은 다음과 같다:

상기 유전자 데이터와 약물 반응성 정보를 확보한 153건 환자의 유전자 데이터를 무작위로 70%:30%으로 나눈다. 70%로 모델을 학습시킨 후 남은 30%로 모델을 평가하여 AUROC 값을 얻는다. 무작위 나눔을 10번 반복하여 얻은 10개의 AUROC의 평균을 모델 평가에 이용하였다.

도 8에서, 빨간색 막대는 상기 생성된 메타유전자를 이용한 약물 반응성 모델 결과를 나타내며, 파란색과 하늘색 막대는 각각 BCL2 패밀리 유전자 발현 정보 (BCL2+MCL1+BFL1) 와 (BCL2+MCL1+BFL1+BCLXL+BCLW)를 이용한 예측 모델 결과를 나타낸다. DEG로 표기된 막대는 차등발현 (Differential Expression Gene; DEG) 중 상위 유전자 발현 정보를 이용한 예측 모델 결과를 나타낸다. total과 BCL2 family-related genes로 표기된 막대는 각각 전체유전자 발현 정보, 도메인 지식으로 축소된 유전자 발현 정보를 이용해 다른 머신러닝 방법 (Lasso, 랜덤포레스트, 서포트벡터머신)으로 학습한 모델의 결과를 나타낸다.

도면에서 확인할 수 있는 바와 같이, 본명의 방법에 따라 도메인 지식을 활용하고, 행렬 최적화된 유전자 정보로부터 발굴된 메타유전자를 이용한 모델이 다른 모델들과 비교했을 때, 베네토클락스 약물 반응성 예측력이 현저히 우수한 것을 확인할 수 있다.

이상의 결과를 통해, 본 발명의 방법에 따라 선별된 메타유전자가 단일 유전자 또는 도메인 지식만을 적용하여 발굴된 메타유전자보다 바이오 마커로서 향상된 유용성을 제공한다고 판단할 수 있다.

도메인 지식 및 NMF 기법을 활용한 본 발명의 방법 따라 생성된 메타유전자는 질병의 진단, 예후 예측, 약물 반응성 예측 등과 관련된 정확한 정보를 제공할 수 있어 새로운 바이오 마커로서 활용 가능성이 매우 우수해 산업상 이용가능성이 높다.

Claims

(a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자(q명) 데이터를 수신하는 단계;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계;
(c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자(q명)의 유전자 데이터를 필터링하는 단계;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계;
(e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계;
(f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터(N × r, r × q)를 산출하는 단계;
(g) 상기 산출된 NMF 데이터에서 r Х q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계; 및
(h) 상기 생성된 예측모델의 성능을 평가하는 단계를 포함하는, 질병 관련 메타유전자(meta-gene) 생성 방법.
제1항에 있어서, 상기 (a) 단계의 유전자 데이터는 환자로부터 제공된 생물학적 시료에서 분석된 유전자 발현량 데이터인 것을 특징으로 하는 질병 관련 메타유전자 생성 방법.
제1항에 있어서, 상기 비-유전자 데이터는, 환자의 질병 진단 데이터, 질병 예후 데이터 및 약물 반응성 데이터로 이루어진 군에서 선택되는 것을 특징으로 하는 질병 관련 메타유전자 생성 방법.
제3항에 있어서, 상기 비-유전자 데이터는 수치화된 데이터인 것을 특징으로 하는 질병 관련 메타유전자 생성 방법.
제1항에 있어서, 상기 (b) 단계의 질병 관련 유전자는 유전자의 발현량과 비-유전자 데이터 사이에 양의 상관관계 또는 음의 상관관계가 존재하는 것으로 공지된 유전자인 것을 특징으로 하는 질병 관련 메타유전자 생성 방법.
제1항에 있어서, 상기 (c) 단계에서 질병 관련 유전자와 유전자 네트워크를 형성하는 유전자군은 유전자의 기능적 링크(functional link)를 포함하는 네트워크 내에서 상기 질병 관련 유전자의 생물학적 경로(biological pathway)와 관련된 유전자 집단인 것을 특징으로 하는 질병 관련 메타유전자 생성 방법.
제1항에 있어서, 상기 (c) 단계의 질병 관련 유전자와 유전자 네트워크를 형성하는 유전자군은 하기 단계를 포함하는 방법에 의해 선별되는 것을 특징으로 하는 질병 관련 메타유전자 생성 방법:
(c1) 상기 질병 관련 유전자와 동일한 분자생리학적 기능을 나타내는 유전자군; 상기 질병 관련 유전자와 단백질-단백질 상호작용을 하는 것으로 공지된 유전자군; 및 상기 질병 관련 유전자와 연관성이 공지된 비-유전자 데이터에 동일한 연관성을 나타내는 유전자군으로 이루어진 군에서 선택된 1종 이상의 유전자군을 선별하는 단계; 및
(c2) 상기 (c1) 단계에서 선별된 유전자군과 유전자 네트워크를 형성하는 유전자군을 선별하는 단계.
제1항에 있어서, (f) 단계에서 오차는 결측치에 대한 복원값과 상기제2입력행렬 내 대응되는 원본값 사이의 AE(Average Error), MAE(Mean absolute error), MAPE(Mean absolute percentage error), MAE(Mean squared error), MSE(Mean square error) 및 RMSE(root MSE)로 이루어진 군에서 선택된 지표에 따라 평가하는 것을 특징으로 하는 질병 관련 메타유전자 생성 방법.
제1항에 있어서, 상기 (e)에서 p개 내지 1개의 유전자 조합을 따른 각각의 제2입력행렬을 그리디(gkreedy) 방법에 따라 순차적으로 NMF를 수행하고, 상기 (f) 단계에서 결측치에 대한 복원값이 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자 조합 및 이의 NMF 데이터를 선별하는 것을 특징으로 하는 질병 관련 메타유전자 생성 방법.
제1항 내지 제9항 중 어느 한 항에 따른 방법을 수행하기 위한 프로그램이 기록되는, 컴퓨터 판독 가능한 기록 매체.
(a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자(q명) 데이터를 수신하는 데이터 수신부;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자가 입력되는 입력부;
(c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자(q명)의 유전자 데이터를 필터링하는 필터링부;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 입력행렬 생성부;
(e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 NMF 연산부;
(f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터(N × r, r × q)를 산출하여 출력하는 출력부;
(g) 상기 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 예측모델 생성부; 및
(h) 상기 생성된 예측모델의 성능을 평가하는 검증부를 포함하는, 질병 관련 메타유전자 생성 장치.
제11항에 있어서, 상기 필터링부는 상기 질병 관련 유전자와 관련된 도메인 지식을 검색하는 검색부를 더 포함하는 것을 특징으로 하는 질병 관련 메타유전자 생성 장치.
제12항에 있어서, 상기 필터링부는 상기 검색된 도메인 지식에 따라 상기 질병 관련 유전자와 동일한 분자생리학적 기능을 나타내는 유전자군; 상기 질병 관련 유전자와 단백질-단백질 상호작용을 하는 것으로 공지된 유전자군; 및 상기 질병 관련 유전자와 연관성이 공지된 비-유전자 데이터에 동일한 연관성을 나타내는 유전자군으로 이루어진 군에서 선택된 1종 이상의 유전자군을 상기 질병 관련 유전자와 유전자 네트워크를 형성하는 유전자군으로 선별하는 유전자 네트워크 선별부를 더 포함하는 것을 특징으로 하는 질병 관련 메타유전자 생성 장치.
(a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자(q명) 데이터, 및 피검체(t명)명의 유전자 데이터를 수신하는 단계;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계;
(c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자(q명)의 유전자 데이터를 필터링하는 단계;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계;
(e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계;
(f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하는 단계;
(g) 상기 환자(q명) 및 상기 피검체(t명)의 유전자 데이터를 병합한 후 상기 N개의 유전자로 필터링하여 입력행렬(N × (q + t))을 생성하는 단계;
(h) 상기 (g) 단계에서 생성된 입력행렬에 대해 랭크(rank)값 r의 NMF를 수행하여 NMF 데이터(N × r, r × (q + t))를 산출하는 단계;
(i) 상기 (h) 단계에서 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계;
(j) 상기 (h) 단계에서 산출된 r × t 행렬을 상기 예측모델의 입력 값으로 하여 상기 피검체(t명)의 비-유전자 데이터를 출력하는 단계를 포함하는, 피검체의 질병 관련 비-유전자 데이터 예측 방법.
제14항에 있어서, 상기 (i) 단계 이후에 상기 예측모델의 성능을 평가하는 단계를 추가로 수행하는 것을 특징으로 하는, 피검체의 질병 관련 비-유전자 데이터 예측 방법.
(a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자(q명) 데이터, 및 피검체(t명)명의 유전자 데이터를 수신하는 단계;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 질병 관련 유전자를 선별하는 단계;
(c) 상기 선별된 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군으로 상기 환자(q명)의 유전자 데이터를 필터링하는 단계;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자(q명)를 행렬 형태로 변환하여 NMF (Non-negative matrix factorization) 제1입력행렬(p × q)을 생성하는 단계;
(e) 상기 제1입력행렬(p × q)로부터 1개 내지 p개의 모든 유전자 조합에 따른 각각의 제2입력행렬을 생성한 후, 상기 각각의 제2입력행렬 내 임의의 값을 결측치로 처리하고 랭크(rank)값 r의 NMF를 수행하여 유전자 매트릭스와 환자 매트릭스로 차원 축소하는 단계;
(f) 상기 유전자 매트릭스와 환자 매트릭스를 재결합하여 생성된 상기 결측치에 대한 복원값을 상기 제2입력행렬 내 대응되는 원본값과 비교하여 가장 낮은 오차를 나타내는 유전자(N개) 조합 및 랭크값(r)을 선별하고, 이의 NMF 데이터(N × r, r × q)를 산출하는 단계;
(g) 상기 산출된 NMF 데이터에서 r × q 행렬 및 상기 환자(q명)의 비-유전자 데이터를 이용하여 예측모델을 생성하는 단계;
(h) 상기 환자(q명) 및 상기 피검체(t명)의 유전자 데이터를 병합한 후 상기 N개의 유전자로 필터링하여 입력행렬(N × (q + t))을 생성하는 단계;
(i) 상기 (h) 단계에서 생성된 입력행렬(N × (q + t))에 대해 랭크(rank)값 r의 NMF를 수행하여 NMF 데이터(N × r, r × (q + t))를 산출하는 단계; 및
(j) 상기 (i) 단계에서 산출된 NMF 데이터에서 r × t 행렬을 상기 (g) 단계에서 생성된 예측모델의 입력 값으로 하여 상기 피검체(t명)의 비-유전자 데이터를 출력하는 단계를 포함하는, 피검체의 질병 관련 비-유전자 데이터 예측 방법.
제16항에 있어서, 상기 (g) 단계 이후에 상기 예측모델의 성능을 평가하는 단계를 추가로 수행하는 것을 특징으로 하는, 피검체의 질병 관련 비-유전자 데이터 예측 방법.