KR102618536B1

KR102618536B1 - 환자의 개인화된 치료를 위한 돌연변이 우선순위화 방법 및 장치

Info

Publication number: KR102618536B1
Application number: KR1020150153809A
Authority: KR
Inventors: 가리마 아가왈; 라마 스리칸스 말라바라푸; 시얌순더 아지트 보파르디카; 안태진
Original assignee: 삼성전자주식회사
Priority date: 2015-08-12
Filing date: 2015-11-03
Publication date: 2023-12-27
Also published as: KR20170020189A

Abstract

환자의 개인화된 치료를 돕기 위하여 돌연변이 우선순위화를 수행하는 방법 및 장치가 제공된다. 또한, 질병 지식베이스를 생성하는 방법 및 장치가 제공된다. <질병, 유전자, 돌연변이>의 특정 세트에 대하여 지식 소스들의 다양한 카테고리들에 존재하고 있는 정보들이 식별될 수 있다. 환자에 대한 <질병, 유전자, 돌연변이>의 특정 세트에 맞춤화된 치료를 위하여 가장 관련이 있는 정보를 찾기 위하여, 식별된 정보는 질병 지식베이스에 대하여 순위화된다. 이에 따라, 의사는 환자에게 주어질 치료를 개인화시키는 것이 가능하게 된다.

Description

환자의 개인화된 치료를 위한 돌연변이 우선순위화 방법 및 장치{Method and device for mutation prioritization for personalized therapy of one or more patients}

임상 게노믹스(clinical genomics)의 분야에 관한 것으로서, 보다 구체적으로 개인화된 치료를 위한 돌연변이 우선순위화(mutation prioritization) 방법 및 장치에 관한다.

개인화된 진단에 기초한 차세대 시퀀싱(Next generation sequencing, NGS)은 건강 관리에 있어 임상적 결정을 위한 가치 있는 도구로서 큰 잠재력을 갖는다. 그 시장 가치는 현재 대략 393만 달러로 추산되고 매년 급격하게 성장하는 추세이다. 개인화된 진단은 유전적 질병들, 특히 암과 관련하여 강조되어 왔다. 미국에서만 매년 백만 명의 암 환자들이 발생하였고, 유전적 치료는 낮은 비율(약 25%)로 시행되고 있다. NGS-기반 진단은 개개인에게 효과적인 치료를 처방하는데 있어서 중요할 수 있다.

이와 같은 개인화된 진단은 NGS 분석 파이프라인(NGS analysis pipeline)을 통한 개인의 DNA 데이터의 분석으로부터 획득된 돌연변이 세트들에 기초한다. 개인의 질병을 특성화시키는 이 돌연변이들은 임상의들이 맞춤화된 치료를 수행하는데 도움을 준다. 비록 매우 유망하더라도, 몇몇 도전들은 돌연변이 데이터가 개인화된 치료를 하는데 유용하게 되기 전에 검토될 필요가 있다. 돌연변이-질병 간의 연관성이나 암 특이적 표적화된 치료 정보와 같은 종종 체계화되지 않은 데이터는, 자동화된 분석을 위한 체계화된 포맷으로 조직화되어야 하는 것이 핵심적인 이슈이다. 관련 정보들의 체계적인 조직화는 임상의들이나 연구자들에게 치료들을 추천하기 위한 영향력 있는 지식들에 대한 데이터 지향적인(data-driven) 접근들에서 필수적인 역할을 수행한다.

존재하는 접근 방식들은 치료들 및 그 치료들을 우선화시키는데 종종 초점이 맞춰져 있다. 특정 치료를 뒷받침하는 임상 시험들 및 간행물들과 같은 소스들로부터 추출되고 만들어진 에비던스들(evidences)이 이와 같은 접근 방식들에 포함될 수 있다. 또한, 바이오마커 데이터도 이용될 수 있다. 몇몇 다른 접근 방식들에 따르면, 돌연변이들은 간행물을 이용하여, 간행물들과 같은 소스들로부터 서로 다른 클래스들로 분류될 수 있다.

그러므로, 사용자에 의해 구체화된 지식베이스를 고려하고, 환자의 돌연변이를 획득하고, 지식베이스 등으로부터 수집된 데이터에 기초하여 돌연변이들을 우선순위화하고, 돌연변이들에 대해 수집된 정보에 기초하여 치료 옵션들을 결정하는데 보조할 수 있는 방법이 요구되고 있다.

개인화된 치료를 위한 돌연변이 우선순위화 방법 및 장치를 제공하는데 있다. 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 실시예들로부터 또 다른 기술적 과제들이 유추될 수 있다.

일 측면에 따르면, 개인화된 치료를 위한 돌연변이 우선순위화(mutation prioritization)를 수행하는 방법은, 질병, 유전자 및 게노믹(genomic) DNA의 변이(alteration) 중 적어도 하나와 연관된 정보를 포함하는, 치료할 환자의 돌연변이 정보를 획득하는 단계; 상기 획득된 돌연변이 정보를 질병 지식베이스(disease knowledgebase)에 매핑하는 단계; 상기 질병 지식베이스에 존재하는 데이터 포인트들에 대해 매핑된, 상기 질병, 상기 유전자 및 상기 게노믹 DNA의 상기 변이 중 적어도 하나를 식별함으로써, 매핑 돌연변이 정보(mapped mutation information)를 형성하는 단계; 상기 매핑 돌연변이 정보에 기초하여, 지식 소스(knowledge source)의 카테고리 및 카테고리 내의 각 클래스 별로, 빈도 표(frequency table)를 생성하는 단계; 및 우선순위화 스킴(prioritization scheme)에 기초하여 상기 빈도 표 내의 상기 매핑 돌연변이 정보를 우선순위화하는 단계를 포함한다.

다른 측면에 따르면, 개인화된 치료를 위한 돌연변이 우선순위화(mutation prioritization)를 수행하는 장치는, 메모리; 및 상기 메모리에 연결된 하나 이상의 프로세서들을 포함하고, 상기 하나 이상의 프로세서들은 질병, 유전자 및 게노믹(genomic) DNA의 변이(alteration) 중 적어도 하나와 연관된 정보를 포함하는, 치료할 환자의 돌연변이 정보를 획득하고, 상기 획득된 돌연변이 정보를 질병 지식베이스(disease knowledgebase)에 매핑하고, 상기 질병 지식베이스에 존재하는 데이터 포인트들에 대해 매핑된, 상기 질병, 상기 유전자 및 상기 게노믹 DNA의 상기 변이 중 적어도 하나를 식별함으로써, 매핑 돌연변이 정보(mapped mutation information)를 형성하고, 상기 매핑 돌연변이 정보에 기초하여, 지식 소스(knowledge source)의 카테고리 및 상기 카테고리 내의 각 클래스 별로, 빈도 표(frequency table)를 생성하고, 우선순위화 스킴(prioritization scheme)에 기초하여 상기 빈도 표 내의 상기 매핑 돌연변이 정보를 우선순위화한다.

또 다른 측면에 따르면, 질병 지식베이스(disease knowledgebase)를 생성하는 방법은, 질병, 유전자, 게노믹 DNA의 변이, 임상적 관련(clinical relevance)의 파라미터 중 적어도 하나에 관련된 정보를, 하나 이상의 카테고리들이 속하는 하나 이상의 지식 소스들로부터 획득하는 단계; 상기 지식 소스들로부터, 상기 질병, 상기 유전자, 상기 게노믹 DNA의 상기 변이, 상기 임상적 관련의 상기 파라미터 중 적어도 하나를 나타내는 하나 이상의 데이터 포인트들을 추출하기 위하여, 상기 획득된 정보를 큐레이팅하는(curating) 단계; 상기 질병, 상기 유전자 및 상기 게노믹 DNA의 상기 변이를 나타내는 데이터 포인트들과, 상기 임상적 관련의 상기 파라미터를 나타내는 데이터 포인트들 간의 연관성들(associations)을 식별함으로써, 상기 데이터 포인트들의 상기 연관성들에 대한 데이터를 형성하는 단계; 상기 질병, 상기 유전자, 상기 게노믹 DNA의 상기 변이의 연결(linkage)을 위하여 상기 데이터 포인트들의 상기 연관성들을 하나 이상의 클래스들로 분류하는 단계; 및 상기 카테고리들의 상기 분류된 데이터 포인트들의 상기 연관성들에 기초하여 상기 질병 지식베이스를 생성하는 단계를 포함한다.

또 다른 측면에 따르면, 질병 지식베이스(disease knowledgebase)를 생성하는 장치는, 상기 메모리에 연결된 하나 이상의 프로세서들을 포함하고, 상기 하나 이상의 프로세서들은 질병, 유전자, 게노믹 DNA의 변이, 임상적 관련(clinical relevance)의 파라미터 중 적어도 하나에 관련된 정보를, 하나 이상의 카테고리들이 속하는 하나 이상의 지식 소스들로부터 획득하고, 상기 지식 소스들로부터, 상기 질병, 상기 유전자, 상기 게노믹 DNA의 상기 변이, 상기 임상적 관련의 상기 파라미터 중 적어도 하나를 나타내는 하나 이상의 데이터 포인트들을 추출하기 위하여, 상기 획득된 정보를 큐레이팅하고(curating), 상기 질병, 상기 유전자 및 상기 게노믹 DNA의 상기 변이를 나타내는 데이터 포인트들과, 상기 임상적 관련의 상기 파라미터를 나타내는 데이터 포인트들 간의 연관성들(associations)을 식별함으로써, 상기 데이터 포인트들의 상기 연관성들에 대한 데이터를 형성하고, 상기 질병, 상기 유전자, 상기 게노믹 DNA의 상기 변이의 연결(linkage)을 위하여 상기 데이터 포인트들의 상기 연관성들을 하나 이상의 클래스들로 분류하고, 상기 카테고리들의 상기 분류된 데이터 포인트들의 상기 연관성들에 기초하여 상기 질병 지식베이스를 생성한다.

도 1은 일 실시예에 따른, 환자의 개인화된 치료를 위한 돌연변이 우선화(mutation prioritization)하는 방법의 흐름도이다.
도 2는 일 실시예에 따라, 환자의 변이 데이터(예를 들어, VCF 파일)를 획득하고 빈도 표를 생성하는 것을 도식화한 흐름도이다.
도 3은 일 실시예에 따라, 환자의 변이 데이터(예를 들어, VCF 파일)로부터 빈도 표를 생성하는 단계를 설명하기 위한 도면이다.
도 4a 및 도 4b는 일 실시예에 따라, 2개의 우선순위화 스킴들을 설명하기 위한 도면들이다.
도 5는 일 실시예에 따라, 치료 에비던스 값(therapy evidence value)보다 더 높은 임상 시험 에비던스 값(clinical trial evidence value)에 기초하여 돌연변이들을 정렬(sort)하는 것을 설명하기 위한 도면이다.
도 6은 일 실시예에 따라, 임상 시험 에비던스 값보다 더 높은 치료 에비던스 값에 기초하여 돌연변이들을 정렬하는 것을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른, 하나 이상의 환자들에 대한 개인화된 치료를 위한 돌연변이 우선순위화를 수행하는 장치의 블록도이다.
도 8은 일 실시예에 따른, 질병 지식베이스를 생성하는 방법의 흐름도이다.
도 9는 일 실시예에 따라 지식 소스들의 복수의 카테고리들로부터 데이터를 획득 및 축적하고(aggregating), 데이터 포인트들을 획득하기 위해 데이터를 큐레이팅하고(curating), 데이터 포인트들을 분류하는 것을 설명하기 위한 도면이다.
도 10은 일 실시예에 따라, 질병 지식베이스를 생성하는 장치의 블록도이다.

본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 기술분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 임의로 선정된 용어도 있으며, 이 경우 해당 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들의 전반에 걸친 내용을 토대로 정의되어야 한다.

실시예들에 대한 설명들에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 그 중간에 다른 구성요소를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 실시예들에 기재된 “...부”, “...모듈”의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

본 실시예들에서 사용되는 “구성된다” 또는 “포함한다” 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 도는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.

하기 실시예들에 대한 설명은 권리범위를 제한하는 것으로 해석되지 말아야 하며, 해당 기술분야의 당업자가 용이하게 유추할 수 있는 것은 실시예들의 권리범위에 속하는 것으로 해석되어야 할 것이다. 이하 첨부된 도면들을 참조하면서 오로지 예시를 위한 실시예들을 상세히 설명하기로 한다.

본 실시예들에서, “게노믹 DNA의 변이(alteration in genomic DNA)”의 용어는, 치환(substitutions), 삽입(insertions), 결실(deletions), 프레임시프트(frameshifts) 등과 같은 모든 종류의 돌연변이들을 포함한다. 그리고, 본 실시예들에서 “게노믹 DNA의 변이”의 용어는 “돌연변이”의 용어와 동의어로서 혼용되어 사용될 수 있다.

환자의 개인화된 치료를 위한 돌연변이 우선화 (mutation prioritization)

본 실시예는, 환자의 개인화된 치료를 수행하는데 도움을 주는 돌연변이 우선화를 위한 방법 및 장치를 제공한다. 다시 말하면, 본 실시예는 의사 입장에서 환자에게 주어질 치료를 개인화시키는 것을 가능하게 한다. 암에 걸린 환자의 돌연변이 맵(mutation map)은 일반적으로, 수십에서 수천만의 게노믹 DNA(genomic DNA)의 변이들(alterations)을 나타낸다. 암 환자의 치료가 진행되는 동안, 개인화된 치료를 목표로 하는데 있어서 유용한 게노믹 DNA의 변이들을 식별하는 것은 어려운 일이다. 본 실시예는, 가장 관련이 깊은 게노믹 DNA의 변이를 식별하는 문제를 해결하고자 한다. 그럼으로써, 임상 시험들(clinical trials), 치료(therapy)에 관한 웹 사이트들, 또는 간행물들 등과 같은 다양한 카테고리들의 지식 소스들(knowledge sources)로부터 수집된 데이터에 의해 증거(evidence)를 지지하는 것에 기초하여, 환자의 게노믹 DNA의 변이들을 정렬(sort)하는 의사결정 지원 시스템(decision support system)을 제공하고자 한다. 임상 시험에 관한 지식 소스는 예를 들어 ClinicalTrials . gov 등일 수 있고, 치료에 관한 지식 소스는 예를 들어 Drugs@FDA® 또는 DrugBank® 등일 수 있고, 간행물에 관한 지식 소스는 예를 들어 PubMed® 등일 수 있다. 환자의 게노믹 DNA에서 정렬된 변이들은, 임상의 또는 연구자들이 정확한 의사결정을 하는데 도움을 주는 가장 관련이 깊은 돌연변이들을 식별하는데 있어서, 의사, 케어기버(caregiver), 연구자 등에게 적정한 아이디어(fair idea)를 준다.

도 1은 일 실시예에 따른 환자의 개인화된 치료를 위한 돌연변이 우선화하는 방법의 흐름도이다.

102 단계에서, 치료할 환자의 돌연변이 정보를 획득한다. 돌연변이 정보는, 도 2에 도시된 바와 같이, 질병, 유전자 또는 게노믹 DNA의 변이와 관련된 정보를 포함할 수 있다. 환자의 돌연변이 정보의 생성(generation)은 당해 기술분야에서 알려진 방법들을 이용하여 수행될 수 있다. 예를 들어, 환자의 게놈(genome)은 관련된 돌연변이들을 식별하기 위해 서열화(sequenced) 및 분석된다. 표준 NGS 파이프라인(standard NGS pipeline)을 이용하여 식별된 돌연변이들을 포함하는 환자 변이 데이터(patient variation data), 예를 들어 VCF(Variant Call Format) 파일이 생성될 수 있다.

104 단계에서, 획득된 돌연변이 정보는, 획득된 돌연변이 정보와 관련된 정보가 질병 지식베이스(disease knowledgebase)에서 이용 가능한지 찾기 위하여 질병 지식베이스에 매핑된다. 이와 같은 매핑은 획득된 돌연변이 정보에 관하여, 질병 지식베이스에 이용 가능한 관련 정보를 발견하는데 도움을 줄 수 있다.

질병 지식베이스는, 하나 이상의 카테고리들에 속하는 하나 이상의 지식 소스들로부터 데이터들을 수집함으로써 사전에 미리 생성될 수 있다. 질병 지식베이스는, 지식 소스의 카테고리로부터 유래된, 게노믹 DNA의 변이, 유전자 및 질병을 나타내는 데이터 포인트(data point)와, 지식 소스의 카테고리로부터 임상적 관련(clinical relevance)의 파라미터들을 나타내는 데이터 포인트 간의 연관성들(associations) 또는 연결들(linkages)에 대한 데이터를 포함한다. 여기서 사용되는 임상적 관련의 파라미터들은, 질병 단계(disease stage), 질병 타입(disease type), 또는 질병 서브 타입(disease sub-type) 등을 포함할 수 있다.

지식 소스의 카테고리는 사용자 입력 또는 미리 정의된 우선순위(priority)에 기초하여 순위화(rank)된다. 나아가서, 지식 소스들의 카테고리들에서 데이터 포인트들의 연관성들(associations)에 대한 데이터는, 미리 할당된 우선 순위(pre-assigned precedence)와 함께, 지식 소스의 각 카테고리마다 미리 정의된 클래스 별로 분류된다.

질병 지식베이스의 생성은, <D, G, M> 연결들(linkages) 또는 <D, G, M> 3요소(triad)와 같이 표시되는 <Disease, Gene, Mutation>의 특정 정보(specific information)에 대해 수집된 데이터를 큐레이팅하고(curating), 큐레이팅하는 동안(during curation) 식별된 모든 <D, G, M> 3요소 (즉, 연결된(linked) 데이터)를 분류하고(classifying), 지식베이스에서 <D, G, M> 3요소에 연결된(linked) 지식 소스들로부터 포인트들을 식별하는(identifying) 것과 관련이 있다. 본 명세서에서, <D, G, M>은 <Disease(질병), Gene(유전자), Mutation(돌연변이)>을 나타낸다. 이에 대해서는 이하에서 보다 구체적으로 설명하도록 한다. 앞서 설명된 바와 같이, 지식 소스들(임상 시험들, 치료에 관한 웹 사이트들, 또는 간행물들 등)의 카테고리들은 사용자 입력 및 미리 정의된 우선순위(priority) 중 어느 하나에 기초하여 순위화(rank)될 수 있다. 그러므로, 지식 소스들의 카테고리들에 할당된 랭킹에 따라, 지식 소스로부터의 특정한 데이터 포인트들은, 질병 지식베이스에 디스플레이되거나 존재할(presented) 수 있다. 예를 들어, 종종, 의사들 또는 케어기버들은 환자에 존재할 만한 특정한 돌연변이들에 대해 더 흥미를 가질 수 있다. 치료 옵션들은 종종 이러한 돌연변이들에 기초하여 결정될 수 있다. 그러므로, 사용자의 선호는 치료, 임상 시험, 그리고 간행물의 순으로 (Therapies > Clinical Trials > Publications) 고려될 수 있다.

위와 같은 3가지 카테고리들(임상 시험들, 치료들 및 간행물들) 중 어느 것에 속하는 지식 소스들의 데이터 포인트들은, 지식 소스들의 카테고리 각각마다 정의된 복수의 클래스들로 더 분류될 수 있다. 여기서, 클래스들은 미리 할당된 우선 순위(pre-assigned precedence)를 갖는다.

예를 들어, 임상 시험들이 지식 소스들의 카테고리들 중 어느 하나인 것으로 선택되고, 연관성들(associations)이 하나의 <D, G, M> 세트 (데이터 포인트)로 식별될 수 있다. 임상 시험 카테고리는, 주어진 <D, G, M>에 대한 관련성(relevance)에 기초하여 그 <D, G, M>을 위한 특정 클래스가 할당된다. 추가적으로, 같은 임상 시험 카테고리는 또한, 다른 <D, G, M> 세트가 할당될 수 있고 그 다른 <D, G, M> 세트에 대한 관련성에 기초하여 분류될 수 있다. 나아가서, 하나의 <D, G, M> 세트는 지식 소스의 주어진 카테고리로부터 다수의 데이터 포인트들에 연관될 수 있다. 나아가서, 하나의 <D, G, M> 세트는 다수의 임상 시험 카테고리들에 연관될 수 있다. 표 1은 질병 지식베이스 또는 그 일부를 형성하는 임상 시험 카테고리들을 위한 연관성들의 데이터를 설명한다. 그러므로, 분류는 항상 <D, G, M>에 관한 것이고, 지식 소스들의 다른 카테고리들의 다른 분류에 대한 것도 마찬가지일 수 있다. 'ClinicalTrials.gov'는 NCTID로 불려지는 각 임상 시험에 대하여 유니크 ID(unique ID) / 레지스트리 넘버(registry number)를 제공한다. NCTID는 8자리의 숫자로서 앞에 'NCT' 문자들이 붙는다. 도 1에서는 데이터 및 분류에 관한 설명의 편의를 위하여 가상의 유니크 ID / 레지스트리 넘버들을 사용하였다. 매 클래스는, 어느 질병에 대하여, 임상 시험에 대한 주어진 유전자 및 돌연변이와의 관련성의 정도를 나타낸다. 클래스들은 CT0, CT1, CT2 및 CT3로 라벨링될(labelled) 수 있고, CT0는 가장 관련성이 큰 클래스이고, CT3는 가장 관련성이 적은 클래스일 수 있다.

종양 (질병)	유전자	돌연변이	NCTID	클래스
Breast	ERBB2	S310F	NCT01827267	CT1
Breast	ERBB2	S310F	NCT01670877	CT1
Breast	ERBB2	S310F	NCT01953926	CT1
Breast	ERBB2	S310F	NCT00730925	CT1
Breast	ERBB2	S310F	NCT01288261	CT1
Breast	ERBB2	S310F	NCT00580333	CT1
Breast	ERBB2	S310F	NCT01271725	CT1
Breast	ERBB2	S310F	NCT01441596	CT1
Breast	ERBB2	S310F	NCT01531764	CT1

치료들은, 지식 소스의 카테고리로서, 예를 들어 공개될 연구들의 준비를 통해 약물 또는 약효(drug action)에 대한 <D, G, M>의 매 연관성마다 선택될 수 있다. 치료 카테고리의 분류는 환자 돌연변이 및 질병 정보에 기초하여 수행된다. 클래스들은 T0, T1, T2 및 T3로 라벨링될 수 있고, T0는 가장 관련성이 큰 클래스이고, T3는 가장 관련성이 적은 클래스일 수 있다.

간행물들은, 지식 소스의 카테고리로서 선택되고, 주어진 <D, G, M>과 관련된 간행물들이 식별된다. 식별된 {<D,G,M>, publication} 세트들은 간행물에서 논의된 연구들의 임상 상태, 임상 전(pre-clinical) 상태에 기초하여 관련된 클래스들로 분류된다. 클래스들은 P0, P1, P2 및 P3로 라벨링될 수 있고, P0는 가장 관련성이 큰 클래스이고, P3는 가장 관련성이 적은 클래스일 수 있다. 낮은 클래스 넘버는 더 높은 관련성을 나타내고, 높은 클래스 넘버는 더 낮은 관련성을 나타낸다. 예를 들어, P0는 P3보다 더 높은 관련성을 갖고, 임상 시험(CT) 및 치료(T)와 유사하게 적용될 수 있다.

106 단계에서, 데이터 포인트들의 연관성 또는 연결들의 데이터에 매핑된, 환자의 획득된 돌연변이 정보에서 제공된 게노믹 DNA의 변이가 식별된다. 매핑 단계의 출력은, 획득된 돌연변이 정보에 대한 지식베이스에 존재하는 관련 데이터 포인트들을 나타내는 돌연변이 정보에 매핑된다. 이는, 도 2 및 3을 참고하여 설명하도록 한다.

108 단계에서, 매핑된 돌연변이 정보를 위한 빈도 표(frequency table)가 지식 소스의 카테고리 별로, 그 다음으로 각각의 클래스 별로 생성된다. 빈도 표는 복수의 열들(columns)을 포함한다. 각각의 열은 지식 소스의 카테고리의 특정 클래스에 속하는 데이터 포인트들의 연관성들(associations) 또는 연결들(linkages)의 데이터의 발생 빈도수가 분포된다. 또한, 빈도 표는 복수의 행들(rows)을 포함한다. 각각의 행은 게노믹 DNA의 특정 변이에 연결된(linked) 데이터 포인트들의 연관성들 또는 연결들의 데이터의 발생 빈도수가 분포된다. 도 2는 일 실시예에 따라 환자의 변이 데이터(예를 들어, VCF 파일)를 획득하고 빈도 표를 생성하는 것을 도식화한 흐름도이다. 지식 소스들의 열들에 분포한 수치 값들 및 그 뒤의 클래스들은 지식 소스의 특정 클래스에서 발견된, 매핑된 돌연변이 정보의 발생 빈도수를 나타낸다. 예를 들어, 유전자-돌연변이(gene-mutation) ATP6AP2-K205E에 대하여, 임상 시험 카테고리에 관한 CT1 열은 '1'의 값을 갖고, 이는 ATP6AP2-K205E는 임상 시험 카테고리의 클래스 1에 한번 매핑되었음을 나타낸다. 유사하게, 임상 시험 카테고리에 관한 CT0 열은 '0'의 값을 갖고, 이는 ATP6AP2-K205E는 임상 시험 카테고리의 클래스 0의 카테고리에 매핑되지 않았음을 나타낸다.

도 3은 일 실시예에 따라, 빈도 표를 생성하는 단계를 설명하기 위한 도면이다. 도 3에는, 질병 지식베이스 또는 그 일부를 형성하는 임상 시험들을 위한 연관성들의 데이터로부터 빈도 표가 어떻게 생성되는지를 설명하기 위하여, 표 1이 도시되어 있다. 이와 같은 경우에서, 임상 시험 카테고리 및 치료 카테고리를 포함하는 2개의 지식 소스들이 빈도 표의 생성을 위해 사용될 수 있다. 임상 시험 지식베이스 (질병 지식베이스의 일부)에 대해 유전자-돌연변이 ERBB2-S310F를 분석한 결과, 유전자-돌연변이 ERBB2-S310F는 클래스 CT1에 대해 4번 매핑되고, 클래스 CT2에 대해 2번 매핑되고, 클래스 CT3에 대해 3번 매핑되는 것으로 발견된다. 이후 클래스들의 각 열에서 유전자-돌연변이 ERBB2-S310F에 대한, 대응되는 항목들이 빈도 표에서 만들어 진다. 나아가서, 치료 지식베이스 (질병 지식베이스의 일부)에 대해 유전자-돌연변이 ERBB2-S310F를 또한 분석한 결과, 유전자-돌연변이 ERBB2-S310F는 클래스 T1에 대해 1번 매핑되고, 클래스 T2에 대해 1번 매핑되고, 클래스 T3에 대해 1번 매핑되는 것으로 발견된다. 이후 클래스들의 각 열에서 유전자-돌연변이 ERBB2-S310F에 대한, 대응되는 항목들이 빈도 표에서 만들어 진다. 비슷하게, 환자의 VCF로부터 식별된 다른 유전자-돌연변이도 하나하나 매핑되어 빈도 표가 생성된다. 다른 실시예에 따르면, 빈도 표를 생성할 목적으로 환자의 VCF로부터 식별된 유전자-돌연변이들은 모두 합쳐서 매핑될 수 있다.

110 단계에서, 매핑된 돌연변이 정보는 빈도표에서 우선순위화 스킴(prioritization scheme)에 기초하여 우선순위화된다. 빈도 표를 정렬하기 위한 사용자 요구에 기초하여 지정된 다양한 우선순위화 스킴들이 존재할 수 있다. 일 실시예에서, 일차적인 필터링(primary filtering)으로서, 지식 소스에서 선호하는 카테고리에 기초하여 데이터를 선별하기 위한 엄격한 기준(strict criterion)이 선택될 수 있다. 이와 같은 스킴은 다양한 데이터 소스들간에 존재하는 연결들(linkages)을 활용한다. 이 스킴에 대해 구체적으로 설명하면 다음과 같다.

(a) 지식 소스들의 하나 이상의 카테고리들로부터 선택된 하나의 카테고리에 기초하여 빈도 표를 필터링한다.

(b) 지식 소스의 선택된 카테고리와 연관된 데이터 포인트에 연결되고, 이전 단계((a) 단계)에서 선택되지 않은, 지식 소스의 카테고리의 데이터 포인트들을, 필터링된 빈도 표에 추가시킨다(populating).

(c) 지식 소스의 카테고리의 랭킹마다(viz a viz ranking) 데이터 포인트의 발생 빈도수 및 지식 소스들의 각 카테고리에 존재하는 데이터 포인트의 클래스의 미리 할당된 우선순위에 기초하여, 빈도 표를 정렬한다(sorting).

우선순위화 스킴의 일 실시예에 따르면, 임상 시험 카테고리(지식 소스의 카테고리)가 일차적인 필터링으로서 선택될 수 있다. 생성된 빈도 표(예를 들어 108 단계에서 생성된 빈도 표)는, 빈도 표에서 임상 시험 섹션의 어느 클래스의 대응 엔트리들을 나타내는 환자의 돌연변이 정보를 목록화(list out)하기 위하여, 임상 시험 카테고리에 기초하여 필터링된다. 이전 단계의 임상 시험 카테고리의 식별된 데이터 포인트들에 관련된 또는 연결된, 지식 소스들의 다른 카테고리들(즉, 치료 카테고리 및 간행물 카테고리)의 데이터 포인트들은 다음 단계에서 선택되고, 빈도 표에 분포된다. 마지막 단계에서, 대응하는 클래스들 내 높은 엔트리들을 나타내는 유전자-돌연변이들에 대해 높은 랭킹을 부여함으로써, 빈도 표의 엔트리들이 정렬된다. 유전자-돌연변이들의 순위 결정(ranking)은, 지식 소스들에 할당된 랭크(rank)들 및 각 지식 소스들 내의 클래스들에 할당된 우선순위(precedence)를 고려하며 수행된다. 이에 대해서는 도 4a를 참고할 수 있다.

다른 실시예에 따르면, 우선순위화 스킴은 빈도 표에서, 주어진 돌연변이에 독립적으로 존재하는 모든 증거들(evidences)을 고려하면서 정렬될 수도 있다. 이에 대해서는 도 4b를 참고할 수 있다. 보다 상세하게 설명하면 다음과 같다.

(a) 지식소스의 카테고리 별로 그리고 뒤이어 각 클래스 별로 빈도 표에서 연결된(linked) 데이터 포인트들을 배열한다(arranging).

(b) 지식 소스의 카테고리의 랭킹마다(viz a viz ranking) 데이터 포인트의 발생 빈도수 및 지식 소스들의 각 카테고리에 존재하는 데이터 포인트들의 클래스의 미리 할당된 우선순위에 기초하여, 매핑된 돌연변이 정보에 대해 빈도 표를 정렬한다(sorting).

일 실시예에 따르면, 정렬 테크닉(sorting technique)은 멀티레벨 정렬(multilevel sort)을 사용할 수 있다. 이하에서는 도 5를 참고하여 이와 같은 정렬 방식에 대해 설명하도록 한다. 각각의 돌연변이에 대해서는 스코어 S(m)이 할당되고, 스코어 S(m)은 아래 수학식 1과 같이 정의될 수 있다.

그리고, 돌연변이에 대한 스코어는 S(m)으로 표현되고 아래 수학식 2를 이용하여 계산될 수 있다.

수학식 2를 참고하면, k는 지식 소스들의 카테고리의 개수이고, c는 지식 소스들의 각 카테고리에 있는 클래스들의 총 개수이다. 예를 들어, c=4인 경우, 클래스 0부터 클래스 3이 존재할 수 있다. N _ij 는 지식 소스 i의 카테고리 및 클래스 j에 속하는 데이터 포인트들의 개수를 나타낸다. 10 ^t 는 클래스 당 데이터의 최대 개수를 의미한다.

우선순위화 스킴의 일 실시예에 따르면, 임상 시험 카테고리 및 치료 카테고리 각각에 대해 독립적으로 정렬이 수행된다. 데이터 필터링은 임상 시험 카테고리 및 치료 카테고리 각각에 대해 독립적으로 수행된다. 그러나, 이에 제한되지 않고, 지식 소스들의 카테고리의 개수가 더 많거나 적더라도 동일하게 적용될 수 있다. 본 실시예에서, 임상 시험 카테고리는 치료 카테고리에 비해 더 높게 랭크된다. 즉, 임상 시험 카테고리 다음에 치료 카테고리의 순이다(Clinical trial > Therapies). 108 단계 이후에 생성된 빈도 표는 우선순위화 스킴에 따라 정렬된다. 이는 도 5에 도시되어 있다. 정렬 후에, 6번째 행(Row #6) 및 7번째 행(Row #7)이 정렬된 빈도 표(sorted frequency table)의 제일 위에 표시된다. 여기서, 6번째 행은 4, 2, 3, 4, 5, 4, 3, 2의 에비던스 스코어들(evidence scores)을 갖고, 7번째 행은 5, 2, 3, 4, 5, 2, 3, 1의 에비던스 스코어들을 갖는다. 이후에, 단순한 정렬 메커니즘에 기초하여, 이 두 엔트리들에 대해 정렬된 순서는 7번째 행(Row #7) 다음에 6번째 행(Row #6)이다.

우선순위화 스킴의 다른 실시예에 따르면, 치료 카테고리는 임상 시험 카테고리에 비해 더 높게 랭크될 수 있다. 즉, 치료 카테고리 다음에 임상 시험 카테고리의 순이다(Therapies > Clinical trials). 이는 도 6에 도시되어 있다. 정렬 후에, 6번째 행(Row #6) 및 7번째 행(Row #7)이 정렬된 빈도 표의 제일 위에 표시된다. 여기서, 6번째 행은, 임상 시험 카테고리에 대해서는 4, 2, 3, 4의 에비던스 스코어들을 갖고, 치료 카테고리에 대해서는 5, 4, 3, 2의 에비던스 스코어들을 갖는다. 7번째 행은, 임상 시험 카테고리에 대해서는 5, 2, 3, 4의 에비던스 스코어들을 갖고, 치료 카테고리에 대해서는 5, 2, 3, 1의 에비던스 스코어들을 갖는다.

이와 같은 시나리오에서는, 최우선 순위는 치료 카테고리 내의 클래스들에 주어진다. 따라서, 에비던스 순서(evidence order)에 대해 설명하면, 6번째 행은 5, 4, 3, 2, 4, 2, 3, 4의 에비던스 스코어들을 갖고, 7번째 행은 5, 2, 3, 1, 5, 2, 3, 4의 에비던스 스코어들을 갖는다.

이 경우, 단순한 정렬 메커니즘에 기초하여, 이 두 엔트리들에 대해 정렬된 순서는 6번째 행(Row #6) 다음에 7번째 행(Row #7)이다.

한편, 본 실시예들에서 설명된 서로 다른 지식 소스들의 랭킹은 사용자의 요구에 따라 달라질 수 있다. 정렬된 빈도 표가 생성되면, 이용 가능한 증거들 또는 정보들에 기초하여, 환자에 대해 치료를 개인화시키기에 어떠한 방식이 적절한지 선택하는 것은 의사들에게 용이할 수 있다.

환자의 개인화된 치료를 위한 돌연변이 우선화를 수행하는 장치에 대해 설명하도록 한다. 도 7은 일 실시예에 따라, 돌연변이 우선순위화를 수행하는 장치의 블록도이다. 장치는 매핑된 돌연변이 정보를 우선순위화하기 위해 구현되고, 의사들 또는 케어기버들의 활용을 위해 우선순위화된 돌연변이의 리스트를 생성한다.

장치(700)는 프로세서(706) 및 프로세서(706)에 연결된 메모리(702)를 포함한다.

프로세서(706)는, 어떠한 종류의 연산 회로(computational circuit)로도 구현될 수 있고, 예를 들어 마이크로프로세서, 마이크로컨트롤러, CISC(complex instruction set computing) 마이크로프로세서, RISC(reduced instruction set computing) 마이크로프로세서, VLIW(very long instruction word) 마이크로프로세서, EPIC(explicitly parallel instruction computing) 마이크로프로세서, DSP(digital signal processor), 또는 다른 종류의 프로세싱 회로, 또는 이들의 조합을 포함할 수 있다.

메모리(702)는, 프로세서(706)가 도 1에 도시된 단계들을 수행하도록 명령하는, 실행 가능한 프로그램(executable program)의 형태로 저장된 복수의 모듈들을 포함한다. 메모리(702)는, 돌연변이 정보 획득 모듈(708), 매핑 모듈(710), 식별 모듈(712), 빈도 표 생성 모듈(714) 및 우선순위화 모듈(716)을 포함할 수 있다. 메모리(702)는 또한, 질병 지식베이스를 포함할 수 있다. 한편, 이와 달리, 질병 지식베이스는, 장치의 어느 종류의 통신 수단을 이용하여 통신 가능하도록 연결된 것일 수 있다.

컴퓨터 메모리 엘리먼트들은, ROM(read only memory), RAM(random access memory), EPROM(erasable programmable read only memory), EEPROM(electrically erasable programmable read only memory), 하드 드라이브, 메모리 카드를 위한 착탈식 미디어 드라이브 등과 같이, 데이터 및 실행 가능한 프로그램의 저장을 위한 적절한 메모리 디바이스를 포함할 수 있다. 본 실시예들은, 프로그램 모듈들과 결합하여 구현되거나, 기능들, 프로시져들(procedures), 데이터 구조들 및 애플리케이션 프로그램들을 포함하도록 구현되거나, 태스크들을 수행하도록 구현되거나, 또는 ADT(abstract data types) 또는 로우-레벨(low-level) 하드웨어 컨텍스트들을 정의하도록 구현될 수 있다. 앞서 설명된 어느 스토리지 미디어에 저장된 실행 가능한 프로그램은 프로세서(706)에 의해 실행될 수 있다.

돌연변이 정보 획득 모듈(708)은 프로세서(706)가 도 1의 102 단계를 수행하도록 명령한다(instruct).

매핑 모듈(710)은 프로세서(706)가 도 1의 104 단계를 수행하도록 명령한다.

식별 모듈(712)은 프로세서(706)가 도 1의 106 단계를 수행하도록 명령한다.

빈도 표 생성 모듈(714)은 프로세서(706)가 도 1의 108 단계를 수행하도록 명령한다.

우선순위화 모듈(716)은 프로세서(706)가 도 1의 110 단계를 수행하도록 명령한다.

질병 지식베이스 및 질병 지식베이스를 생성하는 방법

본 실시예에 따르면, 질병 지식베이스를 생성하는 방법이 제공된다. 방법의 단계들은, 다양한 공개 데이터 소스들로부터 로컬 저장소(local repository)로 로우 데이터(raw data)를 축적시키는(aggregation) 것을 포함한다. 또한, 데이터 포인트라 불리는 특정 정보(<Disease, Gene, Mutation> 및 임상 관련 데이터(data of clinical relevance))에 대해 수집된 축적 데이터(aggregated data)를 클리닝(cleaning) 및 큐레이팅(curating)하고, 데이터 포인트들간의 연관성들(associations)을 식별(identifying)하는 것을 포함한다. 이와 같이 큐레이팅된(curated) 정보, 데이터 포인트 연관성들(data point associations)은, 질병 지식베이스를 생성하기 위하여, 분류 규칙들에 따라 분류된다. 그러므로, 질병 지식베이스는, 임상 시험들, 치료들 및 간행물들과 같은 3가지 일차적인 카테고리들에 연결된 다양한 지식 소스들을 포함한다. 임상 시험, 치료 및 간행물의 지식 소스들은 독립적으로 큐레이팅되고(curated) 분류될 수 있다. 나아가서, 지식 소스들의 각각의 카테고리들(임상 시험들, 치료들 및 간행물들)을 위한 분류 규칙들은 사용자의 요구에 따라 지정될 수 있다. 그러므로, 예를 들어, 치료 카테고리 또는 간행물 카테고리와 비교하여, 임상 시험 카테고리에 속하는 데이터 포인트들의 분류는 다를 수 있다.

도 8은 일 실시예에 따라 질병 지식베이스를 생성하는 방법의 상세 흐름도이다.

802 단계에서, 다양한 지식 소스들로부터, 게노믹 DNA의 변이, 유전자, 질병 및 임상적 관련(clinical relevance)의 파라미터에 관계된 정보가 획득된다.

804 단계에서, 지식 소스로부터 게노믹 DNA의 변이, 유전자, 질병 및 임상적 관련의 파라미터를 나타내는 데이터 포인트를 추출하기 위하여, 획득된 정보가 큐레이팅된다(curated). 큐레이팅 이후에(after curation), 대략 2 세트들의 데이터 포인트들이 생성된다. 예를 들어, 데이터 포인트의 1 세트는 게노믹 DNA의 변이, 유전자, 질병을 나타내고, 다른 세트는 임상적 관련의 파라미터를 나타낼 수 있다.

806 단계에서, 게노믹 DNA의 변이, 유전자, 질병을 나타내는 데이터 포인트와 임상적 관련의 파라미터를 나타내는 데이터 포인트의 연관성들(associations)에 대한 데이터가 식별된다. 예를 들어, Breast tumor:ERBB2: S310F <DGM>의 데이터 포인트는, 유전자 ERBB2 및 돌연변이 S310F에 관련된 유방암을 커버하는 포함 기준(inclusion criteria)에 따라 임상 시험 카테고리에서 매칭되는 것을 찾을 수 있다.

808 단계에서, <DGM>에 연관된 지식 소스의 데이터 포인트는 복수의 클래스들로 분류된다. 이 단계는, 지식 소스의 카테고리 내의 질병, 유전자 및 게노믹 DNA와 클래스 간의 연결(linkage)을 위하여, 데이터 포인트들의 연관성(association)을 분류하는(classifying) 것을 포함한다. 클래스는, 질병, 유전자 및 게노믹 DNA의 변이의 연결을 위하여, 각 데이터 포인트에 할당된다. 그러므로, 이 분류(classification)는, 각 <D, G, M> 세트에 관계된다. 주어진 데이터 포인트가 주어진 지식 소스로부터 다수의 데이터 포인트들(<DGM> 세트들)에 연관되면, 각 <D, G, M>에 대해 서로 다르게 분류될 수 있다. 이는 앞서 환자의 개인화된 치료를 위한 돌연변이 우선순위화에서 설명한 바와 유사하다. 클래스들은 미리 할당된 우선순위(precedence)와 함께, 지식 소스의 각 카테고리 별로 미리 정의된다. 나아가서, 지식 소스들의 카테고리는 또한, 사용자 입력 또는 미리 정의된 우선순위(priority)에 기초하여 순위화될(ranked) 수 있다. 다양한 지식 소스들에서 임상 시험들, 치료들 및 간행물의 3가지 일차적인 카테고리들에 속하는 데이터 포인트들의 분류는 앞서 도 1 등에서 설명된 바와 유사하게 수행될 수 있다.

도 9는 일 실시예에 따라 지식 소스들의 복수의 카테고리들로부터 데이터를 획득 및 축적하고(aggregating), 데이터 포인트들을 획득하기 위해 데이터를 큐레이팅하고(curating), 데이터 포인트들을 분류하는 것을 설명하기 위한 도면이다.

810 단계에서, 지식 소스들의 하나 이상의 카테고리들 내의 분류된 하나 이상의 데이터 포인트들에 기초하여 질병 지식베이스가 생성된다. 생성된 질병 지식베이스는, 지식 소스의 카테고리 별로, 그리고 뒤이어 각 클래스 별로, 지식 소스로부터 유래된 게노믹 DNA의 변이, 유전자 및 질병을 나타내는 데이터 포인트와 지식 소스로부터 임상적 관련의 파라미터를 나타내는 데이터 포인트간의 연관성들에 대한 데이터의 배열을 포함한다.

임상 시험 카테고리, 치료 카테고리 및 간행물 카테고리에 속한 데이터 포인트들을 분류하기 위한 분류 규칙에 대해서는 이하에서 각 시나리오 별로 설명하도록 한다.

(A) 임상 시험 카테고리

임상 시험으로부터 식별된 <D, G, M> 세트(데이터 포인트)는 특정 클래스에 할당된다. 매 클래스는, 주어진 유전자 및 돌연변이와, 질병에 대한 임상 시험과의 관련성(relevance)의 정도를 나타낸다. 클래스들은 CT0, CT1, CT2 및 CT3로 라벨링될(labelled) 수 있고, CT0는 가장 관련성이 큰 클래스로 우선순위가 할당될 수 있고, CT3는 가장 관련성이 적은 클래스일 수 있다. 임상 시험 카테고리에 대한 분류 규칙은 표 2에 나열되어 있다. 표 2의 클래스들의 정의는 임상적 관련의 파라미터를 예시적으로 나타내는 것이나, 이는 설명의 편의를 위한 임의적인 것으로서, 본 실시예들은 표 2에 의해 제한되지 않는다. 예를 들어, <G, M>에 대한 정보를 나타내는 데이터 포인트는 클래스 CT0에 포함된다.

Class ID	Definition
CT0	Given <Gene, Mutation> is specified in inclusion criteria
CT1	Existence of mutation in the gene is specified in the inclusion criteria
CT2	Mutation in the gene is not specified, clinical trial might be for retrospective subgroup analysis
CT3	Drug mechanism might be related to the gene

(B) 치료 카테고리

약 또는 약효에 대한 <D, G, M>의 연관성은, 공개된 연구들의 큐레이션(curation)을 통해 수행될 수 있다. 주어진 약의 승인 상태(on-label / off-label)는 미국 FDA의 약 라벨(drug label) 정보를 이용하여 획득될 수 있다. 치료 카테고리의 정렬은, 획득된 환자 돌연변이 및 질병 정보에 기초하여 수행될 수 있다. 치료 카테고리의 분류는 환자 특이적 정보에 의존하고, 이는 환자의 데이터를 처리하면서 수행될 수 있다. 클래스들은 T0, T1, T2 및 T3로 라벨링될 수 있고, T0는 가장 관련성이 큰 클래스로 우선순위가 할당될 수 있고, T3는 가장 관련성이 적은 클래스일 수 있다. 표 3의 클래스들의 정의는 임상적 관련의 파라미터를 예시적으로 나타내는 것이나, 이는 설명의 편의를 위한 임의적인 것으로서, 본 실시예들은 표 3에 의해 제한되지 않는다. 치료 카테고리에 대한 분류 규칙은 표 3에 나열되어 있다. 예를 들어, 주어진 환자의 암 유형에서 <G, M>에 대한 승인된 치료를 나타내는 데이터 포인트는 클래스 T0이다.

Class ID	Definition
T0	Approved therapy for {gene, mutation} in patients' cancer type
T1	Approved therapy for {gene, mutation} in other cancer type
T2	Experimental therapy for {gene, mutation} in patients' cancer type
T3	Experimental therapy for {gene, mutation} in other cancer type

(C) 간행물 카테고리

주어진 <D, G, M>에 대하여, 관련 간행물들이 식별된다. 식별된 {<D,G,M>, publication} 세트들은, 간행물에서 논의된 연구들의 임상(clinical), 임상 전(pre-clinical) 상태에 기초하여 관련된 클래스들로 분류된다. 표 4의 클래스들의 정의는 임상적 관련의 파라미터를 예시적으로 나타내는 것이나, 이는 설명의 편의를 위한 임의적인 것으로서, 본 실시예들은 표 4에 의해 제한되지 않는다. 클래스들은 P0, P1, P2 및 P3로 라벨링될 수 있고, P0는 가장 관련성이 큰 클래스로 우선순위가 할당될 수 있고, P3는 가장 관련성이 적은 클래스일 수 있다. 간행물 카테고리에 대한 분류 규칙은 표 4에 나열되어 있다.

Class ID	Definition
P0	Pre-clinical and clinical studies are in agreement on the use of therapy for a given <D, G, M>
P1	Only clinical studies available on the use of a therapy for a given <D, G, M>
P2	Only pre-clinical studies are available on the use of a therapy for a given <D, G, M>
P3	Neither pre-clinical nor clinical studies are available for a given <D, G, M>

규칙들에 따라, 임상 전 연구들 및 임상 연구들을 나타내는 데이터 포인트는 주어진 <D, G, M>에 대한 치료의 사용에 동의한 것으로서 클래스 P0에 할당된다.

한편, 보다 정밀하게 지식 소스들의 카테고리를 분류하기 위한 추가적인 분류 방식도 본 실시예들에 적용될 수 있다.

앞서 설명된 분류들과 달리, 아래의 기준은 보다 세밀하게 지식 소스들의 카테고리를 추가적으로 분류하는데 이용될 수 있다.

(a) 임상 시험 카테고리를 위한 위치 기반 분류

관련성은 임상 시험의 지리적 위치에 기초하여 임상 시험 카테고리에 할당될 수 있다. 치료할 환자에 대한 다양한 관련 지리적 위치들은 우선순위화될 수 있다. 예를 들어, 1번째 선호 위치, 2번째 선호 위치, 3번째 선호 위치 등과 같이 사용자 입력에 기초하여 우선순위화될 수 있다.

(b) 치료 카테고리를 위한 약효 기반 분류

주어진 유전자 또는 돌연변이에 대하여 “Sensitive, Resistant 또는 No Effect”와 같은 약효가 빈도 표를 분류하기 위한 추가적인 필터로서 사용될 수도 있다.

이하에서는 질병 지식베이스를 생성하는 장치에 대해 설명하도록 한다.

도 10은 일 실시예에 따른 질병 지식베이스를 생성하는 장치의 블록도이다. 장치는 획득된 로우 데이터(raw data)에 기초하여 질병 지식베이스를 생성하기 위해 구현될 수 있다.

장치(1000)는 프로세서(1006) 및 프로세서(1006)에 연결된 메모리(1002)를 포함한다.

프로세서(1006)는, 어떠한 종류의 연산 회로(computational circuit)로도 구현될 수 있고, 예를 들어 마이크로프로세서, 마이크로컨트롤러, CISC(complex instruction set computing) 마이크로프로세서, RISC(reduced instruction set computing) 마이크로프로세서, VLIW(very long instruction word) 마이크로프로세서, EPIC(explicitly parallel instruction computing) 마이크로프로세서, DSP(digital signal processor), 또는 다른 종류의 프로세싱 회로, 또는 이들의 조합을 포함할 수 있다.

메모리(1002)는, 프로세서(1006)가 도 8에 도시된 단계들을 수행하도록 명령하는, 실행 가능한 프로그램(executable program)의 형태로 저장된 복수의 모듈들을 포함한다. 메모리(1002)는, 로우(raw) 정보 획득 모듈(1008), 큐레이팅(curating) 모듈(1010), 식별 모듈(1012), 분류 모듈(1014) 및 생성 모듈(1016)을 포함할 수 있다.

컴퓨터 메모리 엘리먼트들은, ROM(read only memory), RAM(random access memory), EPROM(erasable programmable read only memory), EEPROM(electrically erasable programmable read only memory), 하드 드라이브, 메모리 카드를 위한 착탈식 미디어 드라이브 등과 같이, 데이터 및 실행 가능한 프로그램의 저장을 위한 적절한 메모리 디바이스를 포함할 수 있다. 본 실시예들은, 프로그램 모듈들과 결합하여 구현되거나, 기능들, 프로시져들(procedures), 데이터 구조들 및 애플리케이션 프로그램들을 포함하도록 구현되거나, 태스크들을 수행하도록 구현되거나, 또는 ADT(abstract data types) 또는 로우-레벨(low-level) 하드웨어 컨텍스트들을 정의하도록 구현될 수 있다. 앞서 설명된 어느 스토리지 미디어에 저장된 실행 가능한 프로그램은 프로세서(1006)에 의해 실행될 수 있다.

로우 정보 획득 모듈(1008)은 프로세서(1006)가 도 8의 802 단계를 수행하도록 명령한다(instruct).

큐레이팅 모듈(1010)은 프로세서(1006)가 도 8의 804 단계를 수행하도록 명령한다.

식별 모듈(1012)은 프로세서(1006)가 도 8의 806 단계를 수행하도록 명령한다.

분류 모듈(1014)은 프로세서(1006)가 도 8의 808 단계를 수행하도록 명령한다.

생성 모듈(1016)은 프로세서(1006)가 도 8의 810 단계를 수행하도록 명령한다.

본 실시예들에 따른 장치는 프로세서, 프로그램 데이터를 저장하고 실행하는 메모리, 디스크 드라이브와 같은 영구 저장부(permanent storage), 외부 장치와 통신하는 통신 포트, 터치 패널, 키(key), 버튼 등과 같은 사용자 인터페이스 장치 등을 포함할 수 있다. 소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 상기 프로세서상에서 실행 가능한 컴퓨터가 읽을 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체 상에 저장될 수 있다. 여기서 컴퓨터가 읽을 수 있는 기록 매체로 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다.

본 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 실시 예는 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩 업 테이블(look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 본 실시예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 실시예는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “매커니즘”, “요소”, “수단”, “구성”과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.

본 실시예에서 설명하는 특정 실행들은 예시들로서, 어떠한 방법으로도 기술적 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다.

본 명세서(특히 특허청구범위에서)에서 “상기”의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 포함하는 것으로서(이에 반하는 기재가 없다면), 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 마지막으로, 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 한정되는 것은 아니다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

개인화된 치료를 위한 돌연변이 우선순위화(mutation prioritization)를 수행하는 방법에 있어서,
질병, 유전자 및 게노믹(genomic) DNA의 변이(alteration) 중 적어도 하나와 연관된 정보를 포함하는, 치료할 환자의 돌연변이 정보를 획득하는 단계;
상기 획득된 돌연변이 정보를 질병 지식베이스(disease knowledgebase)에 매핑하는 단계;
상기 질병 지식베이스에 존재하는 데이터 포인트들에 대해 매핑된, 상기 질병, 상기 유전자 및 상기 게노믹 DNA의 상기 변이 중 적어도 하나를 식별함으로써, 매핑 돌연변이 정보(mapped mutation information)를 형성하는 단계;
상기 매핑 돌연변이 정보에 기초하여, 지식 소스(knowledge source)의 카테고리 및 카테고리 내의 각 클래스 별로, 빈도 표(frequency table)를 생성하는 단계; 및
우선순위화 스킴(prioritization scheme)에 기초하여 상기 빈도 표 내의 상기 매핑 돌연변이 정보를 우선순위화하는 단계를 포함하고,
상기 질병 지식베이스는 하나 이상의 카테고리들에 속하는 하나 이상의 지식 소스들(knowledge sources)로부터 유래된, 하나 이상의 질병들, 하나 이상의 유전자들 및 상기 게노믹 DNA의 하나 이상의 변이들 중 적어도 하나를 나타내는 하나 이상의 데이터 포인트들과, 임상적 관련(clinical relevance)의 파라미터들을 나타내는 하나 이상의 데이터 포인트들간의 연관성들에 대한 데이터를 포함하고,
상기 연관성들에 대한 상기 데이터는 미리 할당된 우선순위와 함께, 상기 지식 소스들 내의 각 카테고리 별로 미리 정의된 복수의 클래스들로 분류되고,
상기 우선순위화 스킴은
상기 지식 소스들의 상기 카테고리들로부터 선택된 하나의 카테고리에 기초하여 상기 빈도 표를 필터링하고,
상기 선택된 카테고리에 연관된 하나 이상의 데이터 포인트들에 연결되고 상기 필터링 동안 선택되지 않은 카테고리들의 데이터 포인트들을 상기 빈도 표에 추가시키고(populating),
상기 카테고리들의 랭킹마다(viz a viz ranking) 상기 데이터 포인트들의 발생 빈도수 및 상기 클래스들에 미리 할당된 우선순위에 기초하여, 상기 빈도 표를 정렬하는(sorting),
방법.
삭제
제 1 항에 있어서,
상기 지식 소스들의 상기 카테고리들은
임상 시험(clinical trial) 카테고리, 치료(therapy) 카테고리 및 간행물(publication) 카테고리를 포함하는, 방법.
제 1 항에 있어서,
상기 빈도 표는
특정 클래스에 속하는 상기 데이터 포인트들의 상기 연관성들에 대한 상기 데이터의 발생 빈도수가 각각의 열(column)에 분포되어 있는, 복수의 열들; 및
상기 게노믹 DNA의 특정 변이에 연결된 상기 데이터 포인트들의 연관성들에 대한 상기 데이터의 발생 빈도수가 각각의 행(row)에 분포되어 있는, 복수의 행들을 포함하는, 방법.
삭제
제 1 항에 있어서,
상기 우선순위화 스킴은
상기 빈도 표에서, 카테고리 별로 그리고 뒤이어 각 클래스 별로, 연결된 데이터 포인트들(linked data points)을 배열하고(arranging),
상기 카테고리들의 랭킹마다(viz a viz ranking) 상기 데이터 포인트들의 발생 빈도수 및 상기 클래스들에 미리 할당된 우선순위에 기초하여, 상기 매핑 돌연변이 정보에 대해 상기 빈도 표를 정렬하는(sorting), 방법.
제 1 항에 있어서,
상기 카테고리들은
사용자 입력 및 미리 정의된 우선순위 중 어느 하나에 기초하여 순위화되는(ranked), 방법.
개인화된 치료를 위한 돌연변이 우선순위화(mutation prioritization)를 수행하는 장치에 있어서,
메모리; 및
상기 메모리에 연결된 하나 이상의 프로세서들을 포함하고,
상기 하나 이상의 프로세서들은
질병, 유전자 및 게노믹(genomic) DNA의 변이(alteration) 중 적어도 하나와 연관된 정보를 포함하는, 치료할 환자의 돌연변이 정보를 획득하고,
상기 획득된 돌연변이 정보를 질병 지식베이스(disease knowledgebase)에 매핑하고,
상기 질병 지식베이스에 존재하는 데이터 포인트들에 대해 매핑된, 상기 질병, 상기 유전자 및 상기 게노믹 DNA의 상기 변이 중 적어도 하나를 식별함으로써, 매핑 돌연변이 정보(mapped mutation information)를 형성하고,
상기 매핑 돌연변이 정보에 기초하여, 지식 소스(knowledge source)의 카테고리 및 상기 카테고리 내의 각 클래스 별로, 빈도 표(frequency table)를 생성하고,
우선순위화 스킴(prioritization scheme)에 기초하여 상기 빈도 표 내의 상기 매핑 돌연변이 정보를 우선순위화하고,
상기 질병 지식베이스는 하나 이상의 카테고리들에 속하는 하나 이상의 지식 소스들(knowledge sources)로부터 유래된, 하나 이상의 질병들, 하나 이상의 유전자들 및 상기 게노믹 DNA의 하나 이상의 변이들 중 적어도 하나를 나타내는 하나 이상의 데이터 포인트들과, 임상적 관련(clinical relevance)의 파라미터들을 나타내는 하나 이상의 데이터 포인트들간의 연관성들에 대한 데이터를 포함하고,
상기 연관성들에 대한 상기 데이터는 미리 할당된 우선순위와 함께, 상기 지식 소스들 내의 각 카테고리 별로 미리 정의된 복수의 클래스들로 분류되고,
상기 우선순위화 스킴은
상기 지식 소스들의 상기 카테고리들로부터 선택된 하나의 카테고리에 기초하여 상기 빈도 표를 필터링하고,
상기 선택된 카테고리에 연관된 하나 이상의 데이터 포인트들에 연결되고 상기 필터링 동안 선택되지 않은 카테고리들의 데이터 포인트들을 상기 빈도 표에 추가시키고(populating),
상기 카테고리들의 랭킹마다(viz a viz ranking) 상기 데이터 포인트들의 발생 빈도수 및 상기 클래스들에 미리 할당된 우선순위에 기초하여, 상기 빈도 표를 정렬하는(sorting),
장치.
삭제
제 8 항에 있어서,
상기 지식 소스들의 상기 카테고리들은
임상 시험(clinical trial) 카테고리, 치료(therapy) 카테고리 및 간행물(publication) 카테고리를 포함하는, 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제