KR101701168B1

KR101701168B1 - 유전자 패스웨이 활성지수의 세부적 정량화를 위한 유전자 프로파일 방법

Info

Publication number: KR101701168B1
Application number: KR1020160057573A
Authority: KR
Inventors: 정성원
Original assignee: 가천대학교 산학협력단
Priority date: 2016-05-11
Filing date: 2016-05-11
Publication date: 2017-02-01

Abstract

본 발명은, 세포 샘플과 유전자의 매트릭스 데이터(Gene x Sample matrix)를 이용한 유전자 프로파일 방법에 있어서, 경로 정보인 유전적 네트워크 리스트를 포함하는 유전자 패스웨이의 데이터가 저장된 데이터베이스로부터 상기 매트릭스 데이터의 유전자 패스웨이에 해당하는 데이터를 입력받는 (a)단계; 상기 (a)단계에서 입력받은 유전자 패스웨이의 데이터에서 각각의 유전적 네트워크 별로 활성지수를 산출하여 확률분포의 형태로 유전자 패스웨이를 정규화하는 (b)단계; 및 상기 (b)단계가 모든 유전자 패스웨이에 대하여 수행된 전체의 정규화된 유전자 패스웨이를 확률분포 벡터의 형태로 취합하는 (c)단계를 포함하여, 상기 매트릭스 데이터를 세포 샘플과 유전적 네트워크가 정규화된 유전자 패스웨이로 모델링한다.
본 발명에 따르면, (b)단계에서 패스웨이의 유전적 네트워크 별로 활성지수를 확률분포의 형태로 산출하고 (c)단계에서 이를 취합하여 전체 패스웨이의 활성지수를 패스웨이 활성지수 확률분포의 벡터 형태로 파악할 수 있다.

Description

유전자 패스웨이 활성지수의 세부적 정량화를 위한 유전자 프로파일 방법{GENOMIC PROFILE METHOD FOR IN-SILICO INTERACTION-RESOLUTION PATHWAY ACTIVITY QUANTIFICATION}

본 발명은 유전자 프로파일 방법에 관한 것으로서, 특히 유전자 패스웨이 활성지수를 하위 네트워크별로 정량화하여 질환의 서브타입 분석이 가능한 유전자 프로파일 방법에 관한 것이다.

우수한 데이터 처리 기술과 함께 유전자 프로파일 기술은 복합적인 질환의 다양한 상태를 인지하는 기본적이고 주요한 정보를 제공할 수 있게 되었다. 암(cancer)은 대표적인 복합 질환의 하나이다. 같은 조직에서 발생된 종양일지라도, 발병적 근원에는 다양한 분자적 메커니즘이 관여한다. 암에 있어서 이와 같이 높은 복합성(heterogeneity)은 치료시 메커니즘별로 요구되는 접근법이 다르기 때문에 극복이 어려운 장애요인 중 하나로 볼 수 있다. 이러한 이유로, 상이한 기능의 메커니즘별로 암의 서브타입(sub-type)을 규명하는 것은 암 치료 및 극복에 매우 중요한 기술적 이슈이다.

암의 서브타입을 인식하기 위한 접근법으로 유전자 프로파일링 기술이 이용될 수 있다. 도 1은 종래의 유전자 프로파일에 사용된 매트릭스 데이터(Gene x Sample matrix)를 나타낸다. 이는, 환자의 샘플에서 발현된 유전자 데이터를 배열한 것으로, 전체 유전자의 전사(transcription) 활성지수(activity)를 나타낸 스냅샷을 제공한다. 도 1을 참조하면, 유전자의 활성지수는 색상(ex. RGB)값으로 표현된 것을 확인할 수 있다. 매트릭스 데이터에서 유전자 사이의 관련도를 분석하여 활성지수가 유사한 군으로 군집화를 할 수 있다. 종래의 군집화 연구에서, 각각의 유전자는 군집화를 위한 인자이고, 각 유전자가 나타내는 발현 레벨은 암의 서로 다른 서브타입을 구별하기 위한 요소로 가정되었다. 그러나, 각각의 유전자에 초점을 맞춘 상기의 접근 방식은, 유전자간 상호작용으로 모듈과 같이 기능이 발현되는 실제적인 생물학적 시스템을 반영하지 못하는 치명적인 한계가 있다.

이와 같은 한계를 극복하기 위해서, 알려진 유전자 패스웨이(pathway)를 이용하여 유전자 데이터를 표현하는 접근방식이 연구되었다. 패스웨이(pathway)란 일반적으로, 기술문헌에 출현한 다양한 전문용어와 그들 간의 의미적 상관관계를 네트워크 형식으로 표현한 자료구조를 말한다. 생명공학 관점에서 패스웨이는 단백질, 유전자, 세포 등의 생체적 요소 간의 역학관계 혹은 상호작용 등을 세밀하게 기술한 생물학적 심층지식을 의미할 수 있다. 패스웨이를 구축하는 프로파일 기술은 컴퓨터 내 실험 기술을 뜻하는 인실리코(in silico) 기술에 해당하며, 생명정보학시장에서 신속, 정밀, 정확한 데이터 발굴을 가능하게 하였다.

도 2는 각 샘플을 단일 유전자로 표현한 도 1의 매트릭스 데이터를 유전자의 상호작용을 고려할 수 있도록 유전자 패스웨이로 구성한 모습이다. 도 2를 참조하면, 유전자의 상호작용 측면은 패스웨이의 색상값으로 그 발현 정도가 표현되므로, 패스웨이로 된 매트릭스 구성 및 군집화는 전술한 한계를 극복하기 위한 보다 바람직한 접근방법이 될 수 있다. 이 경우, 복합적 가능성이 유전자 패스웨이로 표현된 모델이기 때문에 유전자 패스웨이의 세부적인 특징을 분석할 수 있는 프로파일 방법이 필요하다.

최근, 패스웨이로부터 다차원의 게놈 데이터를 알려진 유전적 상호작용을 이용하여 유전자 활성지수를 추론하는 PARADIGM 방법이 제안되었다. 도 3은 PARADIGM을 이용하여 패스웨이의 활성지수를 스칼라 값으로 추론하여 군집화한 모습을 나타낸다. 도 3을 참조하면, PARADIGM은 샘플에 대하여 유전자의 종합적 활성지수를 나타내는 단일 IPA 값을 도출할 수 있다. 이는 유전자 패스웨이에서 유전적 상호작용으로 고려되는 사항을 평가한 지표이다. PARADIGM 프로파일은 유전자의 기능적 영상해석 정보를 제공해주며, 패스웨이의 활성지수 및 패턴을 직관적으로 파악할 수 있도록 시각화한다. 하지만, 이와 같은 종래의 프로파일 방법은 개별적인 유전자-유전자 상호작용에 대한 정보는 제공할 수 없는 한계가 있다.

정리하면 다음과 같다. 패스웨이의 활성지수를 프로파일 하는 종래의 방법은 패스웨이의 활성지수 또는 환자 군에 따라 그룹화하여 활성지수의 패턴을 분석할 수 있다. 패스웨이의 활성지수 분석은 암의 서브타입 질환을 규명하기 위해서 초기에 수행되어야 하는 분석 작업이 될 수 있다. 이에 따라, 게놈의 특징에 기반하여 암을 야기시키는 다양한 질환적 요인이 분석되어야 한다. 하지만, 종래의 프로파일 방법은 여러 개의 샘플 집합으로 이루어진 그룹별로 패스웨이의 활성지수는 산출하지만, 프로파일 결과 활성지수 수치의 높낮음 이유를 알기 위한 추가적인 분석이 불가능하였다. 이는, 전술한 바와 같이 패스웨이를 구성하는 게놈의 다양한 네트워크가 고려되지 않고 패스웨이의 전체적인 활성지수만 산출하기 때문이다. 어느 일 유전자 패스웨이는 다양한 유전적 상호작용에 의해서 발현되는 점을 고려하면, 유전자 패스웨이 활성지수를 하위 네트워크별로 정량화하여 질환의 서브타입을 분석할 수 있도록, 유전자 프로파일 기법의 개량이 요구된다.

미국공개특허 제2014/0172385(A1)호

본 발명은 유전자 패스웨이의 네트워크 상태를 고려하여 활성지수를 산출할 수 있는 유전자 프로파일 방법을 제공하고자 한다. 특히, 본 발명은 Gene x Sample matrix 데이터로부터 유전자 패스웨이의 네트워크 상태를 산출할 수 있어 보다 상세하게 패스웨이 분석을 수행할 수 있는 프로파일 방법을 제공하고자 한다.

또한, 본 발명은 유전자 네트워크 간 유사도를 판단하여 패스웨이를 군집화(clustering)하는 프로파일 방법을 제공하고자 한다.

상기 목적을 달성하기 위하여 본 발명은, 세포 샘플과 유전자의 매트릭스 데이터(Gene x Sample matrix)를 이용한 유전자 프로파일 방법에 있어서, 경로 정보인 유전적 네트워크 리스트를 포함하는 유전자 패스웨이의 데이터가 저장된 데이터베이스로부터 상기 매트릭스 데이터의 유전자 패스웨이에 해당하는 데이터를 입력받는 (a)단계; 상기 (a)단계에서 입력받은 유전자 패스웨이의 데이터에서 각각의 유전적 네트워크 별로 활성지수를 산출하여 확률분포의 형태로 유전자 패스웨이를 정규화하는 (b)단계; 및 상기 (b)단계가 모든 유전자 패스웨이에 대하여 수행된 전체의 정규화된 유전자 패스웨이를 확률분포 벡터의 형태로 취합하는 (c)단계를 포함하여, 상기 매트릭스 데이터를 세포 샘플과 유전적 네트워크가 정규화된 유전자 패스웨이로 모델링하는 것을 특징으로 한다.

바람직하게, 상기 (a)단계는 상기 유전자 패스웨이를 구성하는 유전적 네트워크 중 상호작용이 하나씩 소거된 경로의 유전적 네트워크 리스트를 입력받을 수 있다.

바람직하게, 상기 (b)단계는 상기 유전자 패스웨이를 구성하는 유전적 네트워크의 활성지수를 확률값으로 산출할 수 있다.

바람직하게, 상기 (b)단계는 로지스틱 회귀 알고리즘을 이용하되, 단일 샘플의 입력값으로 상기 활성지수에 해당하는 확률값을 산출할 수 있다.

바람직하게, 상기 로지스틱 회귀 알고리즘은 BDeu(Bayesian Dirichlet equivalence uniform)이고 상기 확률값은 하기의 [수학식 1]에 따라 산출될 수 있다.

[수학식 1]

(BDeu는 로지스틱 회귀 알고리즘이고, D는 상기 매트릭스 데이터이며,

는 j번째 샘플 값을 나타내며,

는 유전자 패스웨이의 k번째 네트워크를 나타내고,

는 j번째 샘플, k번째 네트워크에서의 활성지수 확률값을 나타낸다.)

바람직하게, 상기 (b)단계는 어느 한 유전자 패스웨이를 확률분포의 형태로 정규화함에 있어서, 유전자 패스웨이를 구성하는 유전적 네트워크를 제1 축(x축), 상기 유전적 네트워크의 활성지수를 제2 축(y축)으로 하여, 어느 한 유전자 패스웨이를 다중 경로 네트워크의 활성지수가 확률분포의 형태로 표현되도록 정규화할 수 있다.

바람직하게, 상기 (c)단계는 세포 샘플을 제1 축(x축), 상기 샘플의 유전자 패스웨이를 제2 축(y축)으로 하여 전체의 정규화된 유전자 패스웨이를 확률분포 벡터의 형태로 취합함으로써, 상기 매트릭스 데이터를 세포 샘플과 확률 분포의 형태로 지표화된 유전자 패스웨이의 매트릭스로 모델링할 수 있다.

바람직하게, 본 발명에 따른 유전자 프로파일 방법은 상기 (c)단계에서 취합된 전체 유전자 패스웨이들의 유사도를 계산하여 세포 샘플을 군집화하는 (d)단계를 더 포함할 수 있다.

바람직하게, 상기 (d)단계는 정규화된 유전자 패스웨이의 유사도를 유전적 네트워크의 활성지수 별로 거리차를 계산하여 연산할 수 있다.

또한, 본 발명은 세포 샘플과 유전자의 매트릭스 데이터(Gene x Sample matrix)를 이용한 유전자 프로파일 프로그램이 저장된 기록매체에 있어서, 경로 정보인 유전적 네트워크 리스트를 포함하는 유전자 패스웨이의 데이터가 저장된 데이터베이스로부터 상기 매트릭스 데이터의 유전자 패스웨이에 해당하는 데이터를 입력받는 (a)단계; 상기 (a)단계에서 입력받은 유전자 패스웨이의 데이터에서 각각의 유전적 네트워크 별로 활성지수를 산출하여 확률분포의 형태로 유전자 패스웨이를 정규화하는 (b)단계; 상기 (b)단계가 모든 유전자 패스웨이에 대하여 수행된 전체의 정규화된 유전자 패스웨이를 확률분포 벡터의 형태로 취합하는 (c)단계; 및 상기 (c)단계에서 취합된 전체 유전자 패스웨이들의 유사도를 계산하여 세포 샘플을 군집화하는 단계를 컴퓨터에서 수행하여, 상기 매트릭스 데이터를 세포 샘플과 유전적 네트워크가 정규화된 유전자 패스웨이로 모델링 할 수 있다.

본 발명에 따르면, (b)단계에서 패스웨이의 유전적 네트워크 별로 활성지수를 확률분포의 형태로 산출하고 (c)단계에서 이를 취합하여 전체 패스웨이의 활성지수를 패스웨이 활성지수 확률분포의 벡터 형태로 파악할 수 있다. 이에 따라, 본 발명은 서브타입의 메커니즘을 분석할 수 있는 이점이 있다. 즉, 패스웨이의 유사도 계산으로 군집화(clustering)를 수행함으로써 환자의 샘플별로 질환에 관계된 패스웨이를 파악할 수 있고, 패스웨이의 활성지수가 단일 색상값이 아닌 네트워크 별 확률분포의 형태로 산출되기 때문에 질환의 서브타입 분석과 접근법을 파악할 수 있는 이점이 있다.

도 1은 종래의 유전자 프로파일에 사용된 매트릭스 데이터(Gene x Sample matrix)를 나타낸다.
도 2는 각 샘플을 단일 유전자로 표현한 도 1의 매트릭스 데이터를 유전자 패스웨이로 구성한 모습이다.
도 3은 PARADIGM을 이용하여 패스웨이의 활성지수를 스칼라 값으로 추론하여 군집화하는 프로파일 기법의 흐름도를 나타낸다.
도 4는 본 발명의 실시예에 따른 유전자 프로파일 방법의 순서도를 나타낸다.
도 5는 본 발명의 실시예에 따른 유전자 프로파일링을 도식적으로 설명하기 위한 개념도를 나타낸다.
도 6은 본 발명의 실시예에 따른 유전자 프로파일 및 군집화를 도식적으로 설명하기 위한 개념도를 나타낸다.
도 7은 흑색종 환자 267명을 대상으로 수행한 패스웨이 활성지수 샘플의 군집화 데이터로서, 구분되는 두 그룹군(Group Ⅰ,Ⅱ)을 표시한 모습을 나타낸다.
도 8은 도 7의 그룹군의 생존 패턴을 분석한 KM 플롯(Kaplan-Meier plots) 곡선을 나타낸다.
도 9는 도 7의 Group Ⅰ,Ⅱ를 각각 여집합의 그룹군과 비교하여 생존 패턴을 분석한 KM 플롯 곡선을 나타낸다.
도 10은 세포 접합(cell-cell adhesion)에 관련된 패스웨이에서 Group Ⅰ,Ⅱ가 구별되는 활성지수 패턴을 보이는 것을 나타낸다.
도 11은 DNA의 분쇄(DNA Fragmentation)에 관련된 패스웨이에서 Group Ⅰ,Ⅱ가 구별되는 활성지수 패턴을 보이는 것을 나타낸다.

이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명을 상세히 설명한다. 다만, 본 발명이 예시적 실시 예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일 참조부호는 실질적으로 동일한 기능을 수행하는 부재를 나타낸다.

본 발명의 목적 및 효과는 하기의 설명에 의해서 자연스럽게 이해되거나 보다 분명해 질 수 있으며, 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.

도 4는 본 발명의 실시예에 따른 유전자 프로파일 방법의 순서도를 나타낸다. 도 4를 참조하면, 유전자 프로파일 방법은 데이터를 입력받는 (a)단계(S10), 활성지수를 산출하는 (b)단계(S30), 패스웨이를 정규화하는 (c)단계(S50) 및 샘플별로 패스웨이를 군집화하는 (d)단계(S70)를 포함할 수 있다.

본 실시예에 따른 유전자 프로파일 방법은 세포 샘플과 유전자의 매트릭스 데이터(Gene x Sample matrix)를 입력값으로 하며, 유전자 패스웨이의 지표를 네트워크 상태별 확률분포의 형태로 표현되도록 모델링한다.

도 5는 본 발명의 실시예에 따른 유전자 프로파일링을 도식적으로 설명하기 위한 개념도를 나타낸다.

도 5에서, 입력 샘플이 되는 매트릭스 데이터(Gene x Sample matrix)는 Data D로 표현하였다. Data D는 x축이 환자의 샘플이며, y축이 샘플의 유전자이다. 유전자의 활성지수는 색상값으로 표현되었으며, 그 색상값은 예시로서 발현도가 높을수록 R값이 높은 붉은색을 띄고, 발현도가 낮을수록 G값이 높은 초록색을 띈다. 도 5에서는 Data D 중 특정한 단일 샘플 s의 라인을 프로파일 하는 과정을 나타낸다. 여기서, 본 실시예에 따른 프로파일링은 유전자 패스웨이 데이터가 저장된 데이터베이스(Knowledge database)를 이용하여 유전자 패스웨이를 새로운 지표 도출 형태(Pr(PA,s))로 모델링하게 된다.

도 6은 본 발명의 실시예에 따른 유전자 프로파일 및 군집화를 도식적으로 설명하기 위한 개념도를 나타낸다. 도 6을 참조하면 도 5에서의 모델링 결과, 매트릭스 데이터가 새롭게 프로파일된 결과를 확인할 수 있다. 이하, 설명하게 될 본 발명의 실시예에 따르면, 도 6과 같이 샘플x유전자의 매트릭스 데이터를 샘플(S1, S2, S3)x패스웨이(P1, P2, P3) 형태로 모델링하게 된다. 특히, 이 경우 유전자 패스웨이가 RGB 등의 색상값이 아닌 확률분포의 형태로 지표화 된 것에 주목한다. 이러한 지표는 패스웨이의 서브타입 네트워크의 활성지수를 나타낸다. 따라서, 본 실시예에 따른 프로파일 방법은 암과 같은 복합적인 질환의 하위 질환 메커니즘 분석시 보다 유용한 정보를 제공할 수 있다. 이하, 도 5 및 도 6을 참조하여 (a) 내지 (d) 단계를 상세히 설명한다.

(a)단계(S10)는 경로 정보인 유전적 네트워크 리스트를 포함하는 유전자 패스웨이의 데이터가 저장된 데이터베이스로부터 매트릭스 데이터(Data D)의 유전자 패스웨이에 해당하는 데이터를 입력받는다. 데이터베이스에는 유전자 패스웨이(PA)와 패스웨이의 유전적 상호작용 정보가 저장되어 있다. (a)단계(S10)에서는 Data D에서 단일 입력값(sample s line)에 존재하는 유전자의 패스웨이 정보를 데이터베이스로부터 호출한다. 이 때, 종래의 프로파일링과 달리 유전적 네트워크 리스트가 포함된 패스웨이 정보를 입력받는다.

본 명세서에서 지칭하는 유전적 네트워크 리스트란 패스웨이를 형성하는 다양한 유전적 상호작용을 의미한다. 즉 도 5에 도시된 바와 같이, 패스웨이 PA는 여러 케이스의 유전적 네트워크(normal network, disturbed network)를 포함한다. 각각의 네트워크는 V1~V4로 표기한 유전자들의 상호작용으로 이루어진다. 도 5에서는 V1~V4의 네트워크 케이스 중 상호작용이 서로 다르게 소거된 4가지 형태의 네트워크를 예시하였다.

(a)단계(S10)는 이와 같이 유전자 패스웨이를 구성하는 유전적 네트워크 중 상호작용이 하나씩 소거된 경로의 유전적 네트워크 리스트를 입력받을 수 있다. 결국, 데이터베이스로부터 호출한 네트워크 리스트는 상호작용이 서로 다르게 소거된 형태이다. 이는, 추후 확률분포의 형태로 지표화 된 패스웨이에서 다양한 네트워크 중 어느 상호작용에서 불능이 발생되었는지 파악하기 위함이다. 상호작용의 불능이 서로 다르게 소거된 네트워크 리스크는 질환의 서브타입 메커니즘 분석에 용이할 것이다. 다만, 데이터베이스로부터 입력받게 되는 유전자 네트워크의 리스트는 분석의 목적에 따라 달라질 수 있으며 상기의 실시예로 한정되지 않는다.

(b)단계(S30)는 (a)단계(S10)에서 입력받은 유전자 패스웨이의 데이터에서 각각의 유전적 네트워크 별로 활성지수(activity)를 산출한다. 이로써, 패스웨이의 상태는 다각적 관점으로 정량화된다. 도 5를 참조하면, 예시된 4가지의 유전적 네트워크마다 활성지수(Pr)가 산출된 막대 그래프의 모습을 확인할 수 있다. 이 경우, (b)단계(S30)는 유전자 패스웨이를 구성하는 유전적 네트워크의 활성지수를 확률값(Network likelihood)으로 산출할 수 있다.

본 발명은 패스웨이의 상태를 네트워크 리스트 별로 다각화된 활성지수로 산출하기 때문에 연산량이 최소화되도록 고려되어야 한다. 활성지수는 배포된 종래의 확률계산 프로그램을 이용할 수 있으나, 대부분의 프로그램들은 다수개의 입력값을 요구한다. 본 실시예에 따른 (b)단계(S30)는 단일 샘플의 입력값 만으로도 특정 유전적 네트워크의 활성지수를 산출하여 연산량을 최소화하는 주요한 특장점이 존재한다. 이와 관련 보다 상세히 설명하면 다음과 같다.

(b)단계(S30)는 로지스틱 회귀 알고리즘을 이용하되, 단일 샘플의 입력값으로 활성지수에 해당하는 확률값을 산출할 수 있다. 본 실시예로, 로지스틱 회귀 알고리즘은, BDeu(Bayesian Dirichlet equivalence uniform)이고 상기 확률값은 하기의 [수학식 1]에 따라 산출될 수 있다.

[수학식 1]

여기서, D는 매트릭스 데이터(Data D)이고,

는 j번째 샘플 값을 나타내며,

는 유전자 패스웨이의 k번째 네트워크를 나타내고,

는 j번째 샘플, k번째 네트워크에서의 활성지수 확률값을 나타낸다.

BDe(Bayesian Dirichlet equivalent) 점수 산출은 Heckerman이 개발했으며 Cooper와 Herskovits가 개발한 BD 메트릭을 기반으로 한다. Dirichlet 분포는 네트워크에 있는 각 변수에 대한 조건부 확률을 설명하는 다차원 분포로 학습에 유용한 속성을 다수 포함한다. BDeu는 로지스틱 회귀 알고리즘의 일종으로 주로 확률 계산에 이용되는 프로그램이다. 본 실시예에서는, 최적화의 측면 및 보급성을 고려하여 BDeu를 사용하였으나 반드시 상기 프로그램으로 한정되는 것은 아니며 이와 유사하게 보급된 확률계산 프로그램이 사용될 수 있다.

BDeu와 같은 알고리즘은 각 샘플을 변수로 고려하여 하나의 샘플의 점수를 산정하기 위해서 모든 샘플의 가능성을 직접적으로 연산해야 한다. (b)단계(S30)는 이러한 점을 고려하여 활성지수를 간접적인 접근 방식으로 산출한다. [수학식 1]을 참조하면, 분모에 샘플 전체에서 j번째 단일 샘플 값을 뺀 값과 분자에 샘플 전체 값이 갖도록 수식화된다. 이는, j번째 단일 샘플 값이 소거된 비중으로 활성지수를 산출하는 간접적인 접근방식이다. 따라서, (b)단계(S30)는 활성지수 산출시 j번째 단일 샘플의 입력값 만으로 점수를 계산할 수 있게 되어 연산량을 감소시킬 수 있다.

(b)단계(S30)는 [수학식 1]의 연산으로 (a)단계(S10)에서 입력받은 네트워크리스트의 활성지수를 차례로 산출한다. 도 5를 참조하여 설명하면, 패스웨이 PA의 네트워크 상태를 계산하여 산출된 활성지수가 막대 그래프의 길이로 표현된 것으로 이해할 수 있다. 같은 원리로, 첫 번째 샘플의 첫 번째 패스웨이에서 네트워크 리스트의 활성지수 산출이 모두 완료되면, 첫 번째 샘플의 두 번째 유전자 패스웨이를 같은 방식으로 계산한다. 첫 번째 샘플에서의 패스웨이 계산이 모두 완료되면, 두 번째 샘플 라인으로 넘어간다. (b)단계(S30)는 이와 같이 Data D에 대한 활성지수 연산을 수행한다.

이후, (b)단계(S30)는 산출된 활성지수를 취합하여 확률분포의 형태로 유전자 패스웨이를 정규화한다. 본 실시예로, (b)단계(S30)는 어느 한 유전자 패스웨이를 확률분포의 형태로 정규화 함에 있어서, 유전자 패스웨이를 구성하는 유전적 네트워크를 제1 축(x축), 유전적 네트워크의 활성지수를 제2 축(y축)으로하여, 어느 한 유전자 패스웨이를 다중 경로 네트워크의 활성지수가 확률분포의 형태로 표현되도록 정규화할 수 있다.

(b)단계(S30) 까지는 여러 유전자 패스웨이의 활성지수를 통합적으로 취합하는 것이 아니고, 특정 유전자 패스웨이에 있어서 다양한 네트워크 리스트의 활성지수를 취합하는 것임에 주의한다. 도 6을 참조하면, 패스웨이(P1, P2, P3)는 네트워크 리스트(x축)의 활성지수(y축) 정보를 포함하도록 표현된다.

(b)단계(S30)의 정규화 과정은 모든 유전자 패스웨이에 대하여 순차적 또는 동시적으로 수행될 수 있다. (b)단계(S30)의 정규화가 완료되면, 유전자 패스웨이를 통합적으로 취합하는 과정이 수행되어야 한다.

(c)단계(S50)는 (b)단계(S30)가 모든 유전자 패스웨이에 대하여 수행된 전체의 정규화된 유전자 패스웨이를 확률분포 벡터의 형태로 취합한다. 취합된 형태는 도 6을 통해 확인할 수 있다. 도 6과 같이, (c)단계(S50)는 세포 샘플을 제1 축(x축), 상기 샘플의 유전자 패스웨이를 제2 축(y축)으로 하여 전체의 정규화된 유전자 패스웨이를 확률분포 벡터의 형태로 취합함으로써, 매트릭스 데이터(sample x gene)를 세포 샘플(S1, S2, S3, Si)과 확률 분포의 형태로 지표화된 유전자 패스웨이(P1, P2, P3, Pi)의 매트릭스로 모델링하게 된다.

(c)단계(S50)에서 수행되는 과정은 하기의 [수학식 2]와 같다.

[수학식 2]

는 i번째 샘플, A 유전자 패스웨이들을 갖는 패스웨이 전체의 집합 PA에 대한 패스웨이들의 활성지수 벡터를 의미한다.

은 (b)단계(S30)에서 PA에 속한 패스웨이들 중 패스웨이

의 활성지수를 확률분포로 산출한 값이 된다. 이 과정에서 (b)단계(S30)는 종래에 한 패스웨이

의 활성지수가 단일값(ex. 색상)으로 산출된 것과 달리

의 활성지수를 확률분포 형태로 새롭게 정의한다. 그 결과, 종래의 방법에서 전체 샘플에 대하여 PA에 속한 모든 패스웨이들의 활성화 상태가 개개의 셀이 단일값(ex. 색상)으로 지표화된 매트릭스로 표현된 반면, (c)단계(S50)에서 샘플별로 취합된

는 개개의 셀이 단일값이 아닌 확률분포의 벡터로서, 전체 샘플에 대하여 취합하면 확률분포로 표현된 매트릭스로 제공되는 것이다.

(d)단계(S70)는 (c)단계(S50)에서 취합된 전체 유전자 패스웨이들의 유사도를 계산하여 세포 샘플을 군집화할 수 있다. 여기서, 본 발명의 실시예에 따르면, 패스웨이의 지표가 단일값이 아니기 때문에 유사도를 어떻게 계산할 것인지가 문제된다. (d)단계(S70)는 세포 샘플 사이의 유사도를 유전적 패스웨이의 활성지수 별로 거리차를 계산하여 연산한다. 이와 같은 (d)단계(S70)의 유사도 연산은 하기의 [수학식 3]과 같다.

[수학식 3]

PAVd는 본 실시예에서 고안된 두 샘플로부터의 패스웨이 활성 지수 벡터들의 거리를 의미한다. 즉 [수학식 3]은 A개의 패스웨이를 갖는 집합 PA에 속한 모든 패스웨이들에 대하여 l번째 샘플의 전체 패스웨이들의 활성 지수 벡터와 m번째 샘플의 전체 패스웨이들의 활성 지수 벡터 사이의 거리를 계산한 것이다.

JS는 Jensen-Shannon divergence이고 확률분포의 차이를 계산하는 종래의 알고리즘이다. 본 예시에서는 JS 알고리즘을 사용하였으나 이로 한정하는 것은 아니며, 두 개의 확률분포의 유사도를 측정하는 다른 알고리즘이 사용되어도 무방하다.

(d)단계(S70)에서 계산된 PAVd는 메트릭(metric) 특성을 갖는 점에 주목한다. 이는 현재 배포된 다양한 알고리즘에서 요구하는 4가지의 특성(non negativity, identity of indiscernibles, symmetry, triangle inequality)을 만족하여 활용성 및 적용성이 우수한 특장점을 갖는다.

실시예 - 흑색종 RNA-Seq TCGA(The Cancer Genome Atlas) 분석

본 실시예에서 암유전체지도(TCGA)로부터 267명의 흑색종 환자의 RNA-Seq 데이터를 획득하였다. 샘플의 패스웨이 활성지수 벡터는 267 환자의 각 샘플로부터 계산되었고, 패스웨이 활성지수는 확률분포의 형태로 정규화된 매트릭스 형태로 구축하였다. 이후, 전술한 PAVd를 계산하여 환자의 그룹을 군집화하였다.

실시예의 결과

도 7은 흑색종 환자 267명을 대상으로 수행한 패스웨이 활성지수 샘플의 군집화 데이터로서, 구분되는 두 그룹군(Group Ⅰ,Ⅱ)을 표시한 모습을 나타낸다. 267명의 전체 환자군에서 40명을 Stage 1로 분류하고, 이중 18명은 Group Ⅰ에 포함되었다.(p-value = 0.0362) Stage 1의 분류는 흑생종 암이 표피에 형성되고 피부 내측의 깊은 층에는 형성되지 않은 환자군이다. 즉, Stage 1은 흑색종 예후의 초기 증상을 보이는 집단을 대표한다. 한편, 267명의 전체 환자군에서 52명의 환자는 Stage 2로 분류되었고, 그 중 24명은 Group Ⅱ로 분류하였다.(p-value = 0.0049) Stage 2의 분류는 흑색종 암이 Stage 1의 환자군보다 피부 깊숙이 침투한 환자군이다. Stage 2는 흑색종이 어느정도 진행된 환자군을 대표한다. 본 실험례에서는 (a)단계 내지 (d)단계의 수행으로 군집화된 데이터로부터 흑색종 암의 초기와 중기증상의 환자군을 Group Ⅰ,Ⅱ로 분류하였다. 분류의 정확성을 검증하기 위해 생존 패턴을 추가적으로 분석하였다.

도 8은 도 7의 그룹군의 생존 패턴을 분석한 KM 플롯(Kaplan-Meier plots) 곡선을 나타낸다. 도 8의 (A)를 참조하면, Group Ⅰ은 다른 환자들에 비하여 생존 기간이 길게 통계되어 예후가 좋은 것을 확인할 수 있다. 반면, Group Ⅱ는 도 8의 (B)와 같이 다른 환자들보다 생존 기간이 짧은 것을 확인할 수 있다.

도 9는 도 7의 Group Ⅰ,Ⅱ를 각각 여집합의 그룹군과 비교하여 생존 패턴을 분석한 KM 플롯 곡선을 나타낸다. 도 9의 (A)를 참조하면, Group Ⅰ이 전체 그룹군에서 Group Ⅰ,Ⅱ를 제외한 여집합의 그룹군 대비 생존기간이 확연히 길게 통계된 점을 확인할 수 있다. 도 9로부터, Group Ⅰ은 다른 환자군들과 명백히 구별되는 생존 패턴을 보였음이 확인되었고, Group Ⅱ는 다른 환자군들과 비교하여 명백히 구분되는 생존 패턴을 보이지 않았지만, 상이한 생물학적 메커니즘을 갖고 있을 것으로 판단될 수 있다.

Group Ⅰ,Ⅱ의 패스웨이 활성지수 패턴을 비교한 결과, Cell-Cell Adhesion과 DNA Fragmentation 2가지 패스웨이에서 구별될 만한 활성지수의 패턴이 있었으며, 보다 상세한 분석이 요구되는 것으로 판단되었다.

도 10은 Cell-Cell Adhesion에 관련된 패스웨이에서 Group Ⅰ,Ⅱ가 구별되는 활성지수 패턴을 보이는 것을 나타낸다. 도 10의 (A)를 참조하면, Group Ⅰ은 정상적인 "normal" 네트워크에서는 높은 가능성을 갖는 것으로 활성지수가 산출된 반면, Group Ⅱ는 SIRPG-CD47 네트워크의 손실이 높은 가능성을 갖는 것으로 산출되었다. Cell-Cell Adhesion 패스웨이는 생물학적으로 세포와 세포를 접합하는 기작에 연관되고, 세포를 구축하여 표피를 형성하는 메커니즘에 관련되어 있다. CD47은 SIRP 단백질 패밀리의 리간드이며, SIRP-gamma는 CD47을 합성할 수 있다. 전술한 바와 같이 Group Ⅱ는 Group Ⅰ 보다 흑색종이 더 진척된 상황임을 고려하면, 암 세포는 피부 조직에 더 깊게 침투한 것이고, 따라서 도 10의 (B)에서 볼 수 있듯이 CD47 리간드는 두 그룹간 유지되는 반면 SIRPG는 Group Ⅱ에서 발현되지 않는 것이다.

이처럼, 패스웨이의 세부적인 상호작용 상황을 분석해보면, Group Ⅱ는 Cell-Cell Adhesion 패스웨이에서 SIRPG가 발현되지 않아 SIRPG-CD47의 상호작용이 소거된 것으로 이해할 수 있을 것이다. 그리고, 이는 피부에 발생된 암 종양이 진피층으로 침투하는 것에 연관된 메커니즘으로 이해할 수 있을 것이다.

도 11은 DNA의 분쇄(DNA Fragmentation)에 관련된 패스웨이에서 Group Ⅰ,Ⅱ가 구별되는 활성지수 패턴을 보이는 것을 나타낸다. 도 11의 (A)를 참조하면, DNA Fragmentation 패스웨이의 평균적인 수치는 Group Ⅰ,Ⅱ가 유사함에 주목한다. 도 11의 (A)는 DNA Fragmentation 패스웨이에서 유전적 네트워크 중 "Normal" 상호작용이 우수한 Group Ⅰ의 수치가 높음을 보여준다. 즉, 이는 Group Ⅱ의 환자군은 DNA Fragmentation 메커니즘의 비정상적 활성이 높음을 나타낸다. 또한, DNA Fragmentation 패스웨이에서, GZMB-CASP3 상호작용이 소거된 "Net6" 네트워크와 GZMB-CASP7 상호작용이 소거된 "Net7" 네트워크의 결과값에서 Group Ⅰ,Ⅱ는 확연한 차이를 갖는다. 도 11의 (B)를 함께 참조하면, 바이러스 감염 세포를 죽이는 림프구 세포로 NK 셀(natural killer)로 발현되는 GZMB가 Group Ⅱ의 환자군에서는 비활성되었음을 확인할 수 있다. 결국 Group Ⅱ 그룹군은 면역 시스템에 있어서 DNA를 분쇄하는 메커니즘이 제한되어 면역 반응이 억제되는 것으로 판단할 수 있다.

이상에서와 같이 본 실시예에 따른 프로파일 방법에 의하면, 패스웨이의 활성지수가 단일 색상값이 아닌 네트워크 별 확률분포의 형태로 산출되기 때문에 질환의 서브타입 분석과 접근법을 파악할 수 있다.

대표적인 실시예를 통하여 본 발명을 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리 범위는 설명한 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 특허청구범위와 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태에 의하여 정해져야 한다.

S10: 데이터 입력 단계
S30: 활성지수 산출 및 정규화 단계
S50: 패스웨이 취합 단계
S70: 군집화 단계

Claims

세포 샘플과 유전자의 매트릭스 데이터(Gene x Sample matrix)를 이용한 유전자 프로파일 방법에 있어서,
(a) 경로 정보인 유전적 네트워크 리스트를 포함하는 유전자 패스웨이의 데이터가 저장된 데이터베이스로부터 상기 매트릭스 데이터의 유전자 패스웨이에 해당하는 데이터를 입력받는 단계;
(b) 상기 (a)단계에서 입력받은 유전자 패스웨이의 데이터에서 각각의 유전적 네트워크 별로 활성지수를 산출하여 확률분포의 형태로 유전자 패스웨이를 정규화하는 단계; 및
(c) 상기 (b)단계가 모든 유전자 패스웨이에 대하여 수행된 전체의 정규화된 유전자 패스웨이를 확률분포 벡터의 형태로 취합하는 단계를 포함하고,
상기 (b)단계는, 로지스틱 회귀 알고리즘을 이용하되, 단일 샘플의 입력값으로 상기 활성지수에 해당하는 확률값을 산출하고,
상기 로지스틱 회귀 알고리즘은,
BDeu(Bayesian Dirichlet equivalence uniform)이고 상기 확률값은 하기의 [수학식 1]에 따라 산출되어,
상기 매트릭스 데이터를 세포 샘플과 유전적 네트워크가 정규화된 유전자 패스웨이로 모델링하는 것을 특징으로 하는 유전자 프로파일 방법;
[수학식 1]

(BDeu는 로지스틱 회귀 알고리즘이고, D는 상기 매트릭스 데이터이며,
는 j번째 샘플 값을 나타내며,
는 유전자 패스웨이의 k번째 네트워크를 나타내고,
는 j번째 샘플, k번째 네트워크에서의 활성지수 확률값을 나타낸다.).
제 1 항에 있어서,
상기 (a)단계는,
상기 유전자 패스웨이를 구성하는 유전적 네트워크 중 상호작용이 하나씩 소거된 경로의 유전적 네트워크 리스트를 입력받는 것을 특징으로 하는 유전자 프로파일 방법.
제 1 항에 있어서,
상기 (b)단계는,
상기 유전자 패스웨이를 구성하는 유전적 네트워크의 활성지수를 확률값으로 산출하는 것을 특징으로 하는 유전자 프로파일 방법.
삭제
삭제
제 1 항에 있어서,
상기 (b)단계는,
어느 한 유전자 패스웨이를 확률분포의 형태로 정규화함에 있어서, 유전자 패스웨이를 구성하는 유전적 네트워크를 제1 축(x축), 상기 유전적 네트워크의 활성지수를 제2 축(y축)으로 하여, 어느 한 유전자 패스웨이를 다중 경로 네트워크의 활성지수가 확률분포의 형태로 표현되도록 정규화하는 것을 특징으로 하는 유전자 프로파일 방법.
제 1 항에 있어서,
상기 (c)단계는,
세포 샘플을 제1 축(x축), 상기 샘플의 유전자 패스웨이를 제2 축(y축)으로 하여 전체의 정규화된 유전자 패스웨이를 확률분포 벡터의 형태로 취합함으로써,
상기 매트릭스 데이터를 세포 샘플과 확률 분포의 형태로 지표화된 유전자 패스웨이의 매트릭스로 모델링하는 것을 특징으로 하는 유전자 프로파일 방법.
제 1 항에 있어서,
(d) 상기 (c)단계에서 취합된 전체 유전자 패스웨이들의 유사도를 계산하여 세포 샘플을 군집화하는 단계를 더 포함하는 것을 특징으로 하는 유전자 프로파일 방법.
제 8 항에 있어서,
상기 (d)단계는,
정규화된 유전자 패스웨이의 유사도를 유전적 네트워크의 활성지수 별로 거리차를 계산하여 연산하는 것을 특징으로 하는 유전자 프로파일 방법.
세포 샘플과 유전자의 매트릭스 데이터(Gene x Sample matrix)를 이용한 유전자 프로파일 프로그램이 저장된 기록매체에 있어서,
(a) 경로 정보인 유전적 네트워크 리스트를 포함하는 유전자 패스웨이의 데이터가 저장된 데이터베이스로부터 상기 매트릭스 데이터의 유전자 패스웨이에 해당하는 데이터를 입력받는 단계;
(b) 상기 (a)단계에서 입력받은 유전자 패스웨이의 데이터에서 각각의 유전적 네트워크 별로 활성지수를 산출하여 확률분포의 형태로 유전자 패스웨이를 정규화하는 단계; 및
(c) 상기 (b)단계가 모든 유전자 패스웨이에 대하여 수행된 전체의 정규화된 유전자 패스웨이를 확률분포 벡터의 형태로 취합하는 단계를 포함하고,
상기 (b)단계는, 로지스틱 회귀 알고리즘을 이용하되, 단일 샘플의 입력값으로 상기 활성지수에 해당하는 확률값을 산출하고,
상기 로지스틱 회귀 알고리즘은,
BDeu(Bayesian Dirichlet equivalence uniform)이고 상기 확률값은 하기의 [수학식 1]에 따라 산출되어,
상기 매트릭스 데이터를 세포 샘플과 유전적 네트워크가 정규화된 유전자 패스웨이로 모델링하는 것을 특징으로 하는 유전자 프로파일 프로그램이 저장된 기록매체;
[수학식 1]

(BDeu는 로지스틱 회귀 알고리즘이고, D는 상기 매트릭스 데이터이며,
는 j번째 샘플 값을 나타내며,
는 유전자 패스웨이의 k번째 네트워크를 나타내고,
는 j번째 샘플, k번째 네트워크에서의 활성지수 확률값을 나타낸다.).
제 10 항에 있어서,
(d) 상기 (c)단계에서 취합된 전체 유전자 패스웨이들의 유사도를 계산하여 세포 샘플을 군집화하는 단계를 더 포함하는 것을 특징으로 하는 유전자 프로파일 프로그램이 저장된 기록매체.