KR101974769B1 - 앙상블-기반 연구 추천 시스템 및 방법 - Google Patents

앙상블-기반 연구 추천 시스템 및 방법 Download PDF

Info

Publication number
KR101974769B1
KR101974769B1 KR1020177027662A KR20177027662A KR101974769B1 KR 101974769 B1 KR101974769 B1 KR 101974769B1 KR 1020177027662 A KR1020177027662 A KR 1020177027662A KR 20177027662 A KR20177027662 A KR 20177027662A KR 101974769 B1 KR101974769 B1 KR 101974769B1
Authority
KR
South Korea
Prior art keywords
data
model
trained
clinical outcome
ensemble
Prior art date
Application number
KR1020177027662A
Other languages
English (en)
Other versions
KR20180008403A (ko
Inventor
크리스토퍼 스제토
Original Assignee
난토믹스, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 난토믹스, 엘엘씨 filed Critical 난토믹스, 엘엘씨
Publication of KR20180008403A publication Critical patent/KR20180008403A/ko
Application granted granted Critical
Publication of KR101974769B1 publication Critical patent/KR101974769B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Primary Health Care (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

기계 학습 엔진이 제시된다. 개시된 추천 엔진은 공지된 게놈 데이터 세트 및 상응하는 공지된 임상 결과 데이터 세트에 대해 트레이닝되는 트레이닝된 기계 학습 모델의 앙상블을 생성한다. 각각의 모델은 성능 측정 기준 또는 트레이닝된 모델의 본질을 기술하는 다른 속성에 따라 특징지어 질 수 있다. 모델의 속성은 가능하게는 약물 반응 연구, 약물 또는 화합물 연구, 수집할 데이터 유형 또는 다른 주제를 포함하여 하나 또는 그 초과의 잠재적인 연구 프로젝트와 관련될 수 있다. 잠재적 연구 프로젝트는 잠재적 연구 프로젝트와도 공통된 속성을 공유하는 모델의 성능 또는 특성 측정 기준에 따라 순위가 지정될 수 있다. 모델 측정 기준에 따라 높은 순위를 갖는 프로젝트는 가장 통찰력이 있을 것같은 대상으로 고려된다.

Description

앙상블-기반 연구 추천 시스템 및 방법
본 출원은 2015년 3월 3일자로 출원된 미국 가 출원 제62/127546호에 대한 우선권의 이익을 청구한다. 이러한 참증 및 본원에서 인용된 모든 다른 참증은 전체가 인용에 의해 본원에 포함된다.
발명의 분야
본 발명의 분야는 앙상블(ensemble)-기반 기계 학습 기술에 관한 것이다.
배경 기술의 설명은 본 발명의 요지를 이해하기에 유용할 수 있는 정보를 포함한다. 본원에서 제공된 어떠한 정보도 종래 기술이거나 현재 청구된 발명의 요지와 관련되거나 구체적으로 또는 암시적으로 인용된 어떠한 공보도 종래 기술인 것으로 인정되는 것은 아니다.
컴퓨터-기반 기계 학습 기술은 "빅 데이터(big data)"에 대한 관심과 함께 지난 수년 동안에 걸쳐 이용이 증가되고 있으며, 여기서 데이터 세트는 이해하기 위한 인간의 능력을 완전히 초과한다. 기계 학습 알고리즘은 연구원이 패턴을 찾거나 예측할 수 있는 디지털 모델을 구축하기 위해 합리적인 시간 내에 데이터 세트를 면밀히 조사하는 것을 허용한다. 전형적으로, 연구원은 특정 질문에 대해 대답하기 위해 특정 타입의 알고리즘을 이용한다. 이러한 접근법은 분석 데이터 세트의 본질이 알고리즘에 내재된 근본적인 수학적 가정과 잘 일치하는 특정 작업에 매우 유용하다. 예를 들면, 두 개의 범주로 용이하게 분류될 수 있는 대용량 데이터 세트는 기하학적 가정을 기초로 하여 분류하기 위해 특별히 설계되는 지원 벡터 머신(SVM)에 의해 가장 잘 분석된다. 비록 특정 분석 작업이 특정 알고리즘으로부터 이익을 얻을 수 있지만, 덜 정확하거나 알고리즘에 대한 근본적인 수학적 가정과 덜 일치하는 데이터를 갖는 보다 일반적인 프로젝트에 이러한 알고리즘을 적용하는 것은 문제가 될 수 있다.
더 일반적인 데이터 상에 특정 알고리즘을 이용하는 하나의 문제점은 알고리즘의 근본적인 수학적 가정이 알고리즘을 데이터에 적용하여 생성된 결론에 부정적인 영향을 줄 수 있다는 것이다. 즉, 동일한 데이터 세트를 적용할 때조차 상이한 타입의 알고리즘으로부터의 결론은 서로 상이할 것이다. 이에 따라, 알고리즘의 가정은 결과에 영향을 미쳐서 데이터의 본질이 알고리즘의 근본적인 가정과 이상적으로 일치되지 않는 경우 연구원이 불확실하거나 덜 확신하는 결론을 내릴 수 있다. 이러한 상황에서, 연구원은 알고리즘 가정에 의해 유도되는 불확실한 결론의 위험을 완화시키기 위한 기술이 필요하다.
연구원이 알고리즘 가정에 의해 발생하는 위험을 완화할 수 있다는 가정조차, 연구원은 특히 다수의 상이한 주제에 관한 다수의 데이터 세트에 직면되고 제한된 자원(예를 들면, 돈, 시간, 계산력, 등)의 면에서, 다수의 상이한 주제의 연구를 하는 다수의 가능한 방향과 직면될 때, 하나 또는 그 초과의 우선적인 문제점과 만나게 된다. 연구원이 다수의 상이한 약물 연구와 관련된 수백 가지의 상이한 임상 데이터 세트에 접근할 수 있는 경우를 고려하자. 연구원에게 이용 가능한 자료에 기초하여 어떤 약물이 계속된 연구의 대상이 되어야 하는지를 결정하는 목적이 주어졌다고 가정하자. 추천되는 작용 과정을 찾는 것은 매우 지루한 프로젝트일 수 있다. 연구원은 각각의 약물 연구에 대해 어떤 타입의 기계 학습 알고리즘이 각각의 데이터 세트에 대해 최상으로 적합한지를 결정하기 위해 각각의 데이터 세트를 검토할 수 있다. 연구원은 데이터 세트에 대응하는 선택된 특정 기계 학습 알고리즘을 트레이닝하기 위한 각각의 데이터 세트를 이용할 수 있다. 순진하게, 이때 연구원은 결과적으로 트레이닝된 모델의 예측 정확도를 서로 비교하고 가장 정확한 것으로 보이는 트레이닝된 모델을 갖는 약물을 선택할 수 있다.
불행하게도, 각각의 트레이닝된 알고리즘은 여전히 자체 가정과 관련된 위험이 있다. 비록 연구원이 대부분의 적절한 알고리즘을 데이터 세트에 맞추는 시도를 하지만, 이 같은 맞춤은 거의 이상적이지 않고 의도되지 않은 경우에도 여전히 연구원의 편견에 빠지기 쉽다. 또한, 트레이닝된 알고리즘이 과도하게 트레이닝된 경우에도 겹 교차 검증(cross fold validation)을 고려하더라도 단일 데이터 세트에 대한 트레이닝된 알고리즘의 정확도는 신뢰될 수 없다. 예를 들면, 트레이닝된 알고리즘은 트레이닝된 데이터에 대한 100% 정확도를 갖지만 여전히 현실을 정확하게 반영하지 못한다. 다수의 데이터 세트 및 초점을 맞출 수 있는 가능한 방향이 있는 경우, 어떤 방향이 가장 잠재적인 학습 이득을 제공하는지에 대한 통찰력을 얻을 수 있는 것이 바람직하다. 더 향상된 접근법은 알고리즘 가정과 관련된 위험을 완화하는 동시에 이용될 알고리즘을 선택할 때 연구원의 가능한 편견을 제거하고 과도하게 트레이닝될 수 있는 알고리즘을 더 고려한다.
특정 주제와 관련하여 어떤 모델이 최상의 정보를 제공할 수 있는지를 결정하기 위한 일부 노력이 기울여 왔다. 예를 들면, 2013년 11월 21일자로 출원되고 발명의 명칭이 "진단, 예후 방법 및 치료 방법"인 Cesano 등에 대한 미국 특허 출원 공보 제 2014/0199273호는 건강 관리 환경에서 예측 또는 예후에 이용될 모델의 선택에 대해 논의한다. 비록 Cesano는 다수 모델로부터 모델을 설정하는 것을 논의하지만, Cesano는 단순히 이들의 예측 결과를 넘어서서 모델을 어떻게 이용할 수 있는지에 대한 통찰력을 제공하지 못하였다.
2011년 4월 26일자로 출원되고 발명의 명칭이 "약물 설계 및 임상 적용을 위한 약리 유전체학에서의 유전적 다형성의 컴퓨터 유도 단백질 구조의 용도"인 Ramnarayan에 대한 미국 특허 출원 공보 제 2012/0010866호에서 설명된 바와 같이, 예측 모델보다는 컴퓨터 기반 분자 구조 모델을 이용하여 더 많은 진전이 이루어졌다. Ramnarayan은 단백질 구조 변형체의 3-D 모델을 생성하고 어떤 약물이 변형과 만족스럽게 도킹하는지를 결정하는지를 논의한다. 이러한 모델은 이어서 약물 모델이 얼마나 많이 단백질에 도킹하는지를 기초로 하여 잠재적인 약물 후보의 순위를 지정하기 위해 이용될 수 있다. 여전히 Ramnarayan은 연구 자원을 할당할 위치를 결정하기 위해 이용될 수 있는 예측 결과 모델의 생성보다는 3D 모델 자체 및 이들의 용도에 중점을 두고 있다.
결과 모델의 더 전형적인 용도는 2003년 3월 24일자로 출원되고 발명의 명칭이 "환자의 생물학적 프로파일 그룹의 샘플링으로부터 개인의 임상 치료 결과를 예측하는 방법"인 Wei에 대한 미국 특허 출원 공보 제 2004/0193019호에서 논의된다. Wei는 생물학적 프로파일 정보와 치료 결과 정보를 상관시키는 모델을 생성하는 판별 분석 기반 패턴 인식의 이용을 논의한다. 상기 예측 모델은 치료에 대한 가능한 반응의 순위를 지정하는데 이용된다. Wei는 단순히 예측 결과 모델을 구축하여 환자-특정 프로필 정보를 기반으로 가능한 결과를 평가한다. Wei는 또한 모델이 단순히 결과보다는 가치가 있고 생성된 모델로부터의 결과를 단순히 이용하는 대신 어떤 유형의 연구가 가치를 창출할 수 있는지에 더 많은 통찰력을 제공한다는 것을 인정하지 않는다.
이상적으로, 연구원 또는 다른 이해관계자는 모델을 통해 가정을 개선하는 앙상블 예측 모델(즉, 트레이닝된 알고리즘)로부터 추가 정보에 접근할 수 있으며 또한 가능한 방향이 가장 수익을 높일 가능성이 있다는 표시를 제공한다. 따라서, 많은 데이터 세트와 관련된 연구 프로젝트가 다양한 유형의 예측 모델로부터 생성된 앙상블 모델의 본질을 기반으로 대부분의 정보를 산출할 수 있는 통찰력을 제공할 수 있는 기계 학습 시스템에 대한 필요가 남아 있다.
여기에서 확인된 모든 공보들은 각각의 개별 공보 또는 특허 출원이 인용에 의해 포함되도록 구체적이고 개별적으로 표시된 경우와 동일한 정도로 인용에 의해 포함된다. 포함된 참증 내의 용어의 정의 또는 이용이 본 명세서에 제공된 대응하는 용어의 정의와 일치하지 않거나 상반되는 경우, 본 명세서에 제공된 대응하는 용어의 정의가 적용되며 인용 문헌 내의 대응하는 용어의 정의는 적용되지 않는다.
일부 실시예에서, 본 발명의 요지의 특정 실시예를 기술하고 청구하는 데 이용되는 성분의 양, 농도, 반응 조건 등과 같은 특성을 나타내는 숫자는 어떤 경우에는 일부 용어 "약"에 의해 변형되는 것으로 이해되어야 한다. 따라서, 일부 실시예에서, 서술된 설명 및 첨부된 청구항에서 설명된 수치 매개 변수는 특별한 실시예에 의해 획득될 수 있는 원하는 특성에 따라 변할 수 있는 근사치이다. 일부 실시예에서, 수치 매개 변수는 보고된 유효 자릿수의 개수와 통상의 반올림 기법을 적용하여 해석되어야 한다. 본 발명의 요지의 일부 실시예의 광범위한 범위를 설명하는 수치 범위 및 매개 변수가 근사치임에도 불구하고, 특정 예에 기재된 수치 값은 가능한 정확하게 보고된다. 본 발명의 요지의 일부 실시예에서 제시된 수치는 각각의 시험 측정에서 발견된 표준 편차로부터 필연적으로 발생하는 특정 오차를 포함할 수 있다.
문맥에 상반되는 내용이 명시되어 있지 않는 한, 본 명세서에 명시된 모든 범위는 종점을 포함하는 것으로 해석되어야 하며 개방 단부형 범위는 상업적으로 실용적인 가치만을 포함하도록 해석되어야 한다. 마찬가지로 문맥에 상반되는 것을 나타내지 않는 한 모든 값 목록은 중간 값을 포함하는 것으로 고려되어야 한다.
본 명세서의 설명 및 하기의 청구 범위를 통해 이용된 바와 같이, "a", "an"및 "the"의 의미는 그 문맥이 명확하게 달리 지시하지 않는 한 복수 인용을 포함한다. 또한, 본 명세서의 설명에서 이용되는 바와 같이, "in"의 의미는 그 문맥이 달리 지시하지 않는 한 "in" 및 "on"을 포함한다.
본 명세서에서의 값의 범위의 인용은 단지 범위 내에 속하는 각각의 개별 값을 개별적으로 인용하는 약식 방법으로서 기능하는 것으로 의도된다. 본 명세서에서 달리 지시하지 않는 한, 각각의 개별 값은 본 명세서에서 개별적으로 인용된 것처럼 명세서에 포함된다. 본원에 기술된 모든 방법은 본원에서 달리 지시되지 않거나 내용에 명확히 모순되지 않는 한 임의의 적합한 순서로 수행될 수 있다. 본 명세서의 특정 실시예와 관련하여 제공되는 임의의 및 모든 예 또는 예시적인 언어(예를 들면, "~와 같은")의 이용은 본 발명의 요지를 보다 잘 나타내도록 의도된 것이며, 달리 청구된 본 발명의 요지의 범위를 제한하지 않는다. 명세서에서 어떠한 언어도 본 발명 요지의 실시에 필수적인 청구되지 않은 요소를 나타내는 것으로 해석되어서는 안된다.
본 명세서에 개시된 본 발명의 요지의 대안적인 요소 또는 실시예의 그룹화는 제한으로서 해석되어서는 안된다. 각 그룹 부재는 개별적으로 또는 그룹의 다른 부재 또는 본원의 다른 요소와 조합하여 인용되어 청구될 수 있다. 편의성 및/또는 특허성을 이유로 한 그룹의 하나 또는 그 초과의 부재가 그룹에 포함되거나 그룹에서 삭제될 수 있다. 그러한 포함 또는 삭제가 발생하면 명세서는 수정된 그룹을 포함하는 것으로 고려되어 첨부된 청구항에서 이용된 모든 마커쉬 그룹의 작성된 설명을 이행한다.
본 발명의 요지는 기계 학습 컴퓨터 시스템이 생성되고 트레이닝된 기계 학습 모델의 앙상블에 기초하여 잠재적인 연구 프로젝트(예를 들면, 약물 분석 등)에 대한 순위 지정 또는 추천을 생성할 수 있는 장치, 시스템 및 방법을 제공한다. 본 발명의 요지의 하나의 양태는 적어도 하나의 비 일시적인 컴퓨터 판독 가능 메모리(예를 들면, 플래시, RAM, HDD, SSD, RAID, SAN, NAS 등), 적어도 하나의 프로세서(예를 들면, CPUs, GPUs, Intel®i7®, AMD®Opteron®, ASICs, FPGAs, 등), 및 적어도 하나의 모델링 컴퓨터 또는 엔진을 포함하는 연구 프로젝트 기계 학습 컴퓨터 시스템(예를 들면, 컴퓨팅 장치, 콘서트에서 작업하는 분산 컴퓨팅 장치, 등)을 포함한다. 메모리는 건강 관리 데이터와 관련된 정보를 나타내는 하나 또는 그 초과의 데이터 세트를 저장하도록 구성된다. 보다 구체적으로, 데이터 세트는 집단 환자 개체군과 관련된 하나 또는 그 초과의 조직 샘플로부터의 게놈 정보를 나타내는 게놈 데이터 세트를 포함할 수 있다. 따라서, 게놈 데이터 세트에는 수백, 수천 또는 더 많은 환자의 게놈 데이터가 포함될 수 있다. 데이터 세트는 또한 집단을 위한 치료 결과를 나타내는 하나 이상의 임상 결과 데이터 세트를 포함할 수 있다. 예를 들면, 임상 결과 데이터 세트는 게놈 데이터가 게놈 데이터 세트에도 존재하는 하나 또는 그 초과의 환자와의 약물 반응 데이터(예 : IC50, GI50 등)를 포함할 수 있다. 데이터 세트는 하나 또는 그 초과의 잠재 연구 프로젝트; 분석 연구의 유형, 수집할 데이터의 유형, 예측 연구, 약물 또는 기타 관심 연구 주제와 관련된 하나 또는 그 초과의 양태를 설명하는 메타 데이터 또는 기타 속성을 포함할 수도 있다. 모델링 엔진 또는 컴퓨터는 메모리에 저장된 소프트웨어 명령에 따라 프로세서상에서 실행하고 적어도 게놈 데이터 세트 및 임상 결과 데이터 세트로부터 예측 모델의 앙상블을 구축하도록 구성된다. 모델링 엔진은 가능한 기계 학습 알고리즘(예를 들면, 클러스터링 알고리즘, 분류자 알고리즘, 신경망 등)의 구현을 나타내는 하나 또는 그 초과의 예측 모델 템플릿을 획득하도록 구성된다. 모델링 엔진 또는 컴퓨터는 게놈 데이터 세트 및 임상 결과 데이터 세트를 트레이닝 입력으로서 예측 모델 템플릿에 이용함으로써 트레이닝된 임상 결과 예측 모델의 앙상블을 생성한다. 일부 실시예에서, 앙상블은 수천, 수만 또는 수십만 개의 트레이닝된 모델을 포함할 수 있다. 각각의 트레이닝된 모델은 하나 또는 그 초과의 성능 측정치 또는 각 모델의 다른 속성을 나타내는 모델 특성 측정 기준을 포함할 수 있다. 모델 특성 측정 기준은 대응하는 모델의 본질을 설명하는 것으로 고려될 수 있다. 측정 기준의 예는 정확도, 정확도 이득, 실루엣 계수 또는 다른 유형의 성능 측정 기준을 포함할 수 있다. 그러면 이러한 측정 기준은 입력 데이터 세트의 본질 또는 속성과 상관시킬 수 있다. 게놈 데이터 세트 및 임상 결과 데이터 세트가 잠재적 연구 프로젝트와 이 같은 속성을 공유한다는 점에서, 모델로부터의 측정 기준을 이용하여 잠재적 연구 프로젝트의 순위를 지정시킬 수 있다. 모델 특성 측정 기준, 특히 앙상블 측정 기준에 따른 연구 프로젝트의 순위 지정은 생성된 모델에 의해 입증된 것처럼 가장 유용한 정보를 생성하는 프로젝트를 표시할 수 있다.
본 발명의 요지의 다양한 목적, 특징, 양태 및 장점은 첨부된 도면과 함께 바람직한 실시예에 대한 다음의 상세한 설명으로부터 더욱 명백해질 것이며, 도면에서 동일한 번호는 동일한 구성 요소를 나타낸다.
도 1은 연구 프로젝트 추천 시스템의 개관이다.
도 2는 결과 예측 모델의 앙상블의 생성을 예시한다.
도 3a는 다양한 약물에 대한 검증 데이터 세트로부터 생성된 모델의 평균 정확도로 순위가 지정된 약물 반응의 예측성을 나타낸다.
도 3b는 다양한 약물에 대한 검증 데이터 세트로부터 생성된 모델의 평균 정확도 이득으로 순위가 재지정된 도 3a로부터의 약물 반응의 예측성을 나타낸다.
도 4a는 Dasatinib과 관련된 데이터를 나타내는 모델의 앙상블에서 모델의 평균 정확도의 막대그래프를 나타내며 Dasatinib이 관심있는 연구 대상이 되는 것을 제안한다.
도 4b는 Dasatinib과 관련된 데이터를 나타내는 모델의 앙상블에서 모델의 평균 정확도 이득의 막대그래프로서 4a로부터의 데이터를 나타낸다.
도 5a는 막대그래프 형태로 정확도 관점에서 Dasatinib에 대한 게놈 데이터 세트의 유형의 예측성을 나타낸다.
도 5b는 명료성을 위해 도 5a의 데이터를 정확도 막대 차트 형태로 나타낸다.
도 5c는 도 5a로부터의 데이터를 나타내고, 막대그래프 형태의 정확도 이득 관점으로부터 Dasatinib에 대한 게놈 데이터 세트의 유형의 예측성을 나타낸다.
도 5d는 명확성을 위해 도 5c로부터의 데이터를 정확도 이득 막대 차트 형태로 나타낸다.
컴퓨터에 관한 모든 언어가 서버, 인터페이스, 시스템, 데이터베이스, 에이전트(agent), 피어(peer), 엔진, 컨트롤러, 모듈 또는 개별적으로 또는 집합적으로 작동하는 다른 유형의 컴퓨팅 장치를 포함하여 컴퓨팅 장치의 임의의 적절한 조합을 포함하도록 판독하여야 한다는 점에 주목하여야 한다. 컴퓨팅 장치는 실감형, 비-일시적인 컴퓨터 판독 가능 저장 매체(예를 들면, 하드 드라이브, RAID, NAS, SAN, FPGA, PLA, 솔리드 스테이트 드라이브, RAM, 플래시, ROM 등)에 저장된 소프트웨어 명령을 실행하도록 구성된 적어도 하나의 프로세서를 포함하다는 점을 이해하여야 한다. 소프트웨어 명령은 개시된 장치와 관련하여 후술되는 역할, 책임 또는 다른 기능을 제공하기 위해 컴퓨팅 장치를 구성하거나 그렇지 않으면 프로그래밍한다. 또한, 개시된 기술은 프로세서로 하여금 컴퓨터 기반 알고리즘, 프로세스, 방법 또는 다른 명령들의 구현과 관련된 개시된 단계들을 실행하게 하는 소프트웨어 명령들을 저장하는 비-일시적 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 일부 실시예에서, 다양한 서버, 시스템, 데이터베이스 또는 인터페이스는 가능하게는 HTTP, HTTPS, AES, 공공-개인 키 교환, 웹 서비스 API, 공지된 금융 거래 프로토콜, 또는 다른 전자 정보 교환 방법에 기초한 표준화된 프로토콜 또는 알고리즘을 이용하여 데이터를 교환한다. 장치 간 데이터 교환은 패킷-교환형 네트워크, 인터넷, LAN, WAN, VPN 또는 다른 유형의 패킷 교환형 네트워크; 회로 교환형 네트워크; 셀 교환형 네트워크; 또는 다른 유형의 네트워크를 통해 수행될 수 있다.
본 명세서의 설명 및 이하의 청구항에서 이용된 바와 같이, 시스템, 엔진, 서버, 장치, 모듈 또는 다른 컴퓨팅 요소가 메모리 내의 데이터에 대한 기능을 수행하거나 실행하도록 구성된 것으로 설명될 때, "~하도록 구성된" 또는 "~하도록 프로그래밍된"의 의미는 컴퓨팅 요소의 하나 또는 그 초과의 프로세서 또는 코어가 기능들의 세트를 실행하거나 메모리 내에 저장된 대상 데이터 또는 데이터 개체에서 작동하도록 컴퓨팅 요소의 메모리에 저장된 한 세트의 소프트웨어 명령에 의해 프로그래밍되는 것으로서 정의된다.
다음의 설명은 본 발명의 요지의 많은 예시적인 실시예를 제공한다. 각각의 실시예가 본 발명의 요소들의 단일 조합을 나타내지만, 본 발명의 요지는 개시된 요소들의 가능한 모든 조합을 포함하는 것으로 고려된다. 따라서, 일 실시예가 요소 A, B 및 C를 포함하고 제 2 실시예가 요소 B 및 D를 포함하는 경우, 본 발명의 요지는 명시적으로 개시되어 있지 않아도 A, B, C 또는 D의 다른 나머지 조합을 포함하는 것으로 고려된다.
본원에 이용된 바와 같이, 그리고 문맥상 달리 지시되지 않는 한, 용어 "~에 결합된"은 직접적인 결합(서로 결합된 두 개의 원소가 서로 접촉함) 및 간접적인 결합(적어도 하나의 부가 요소가 두 개의 요소들 사이에 위치함) 둘다를 포함하는 것으로 의도된다. 그러므로, "~에 결합된" 및 "~와 결합된"이라는 용어는 동의어로 이용된다. 또한, 네트워크 컴퓨팅 장치의 맥락에서, "~에 결합된" 및 "~와 결합된"이라는 용어는 장치가 그들의 결합(예를 들면, 유선, 무선 등)을 통해 통신할 수 있는 것을 의미합니다.
개시된 기술은 다수의 입력 트레이닝 데이터 세트에 기초하여 트레이닝된 예측 결과 모델을 생성하도록 프로세서를 조정하는 것을 포함하는 많은 유리한 기술적 효과를 제공한다는 것을 이해하여야 한다. 컴퓨팅 시스템의 메모리는 여러 장치에 걸쳐 분산되어 입력 트레이닝 데이터 세트를 저장하도록 분할되어 모든 장치가 모델의 앙상블을 생성시 동시에 작업할 수 있다. 일부 실시예에서, 본 발명의 요지는 다수의 컴퓨터가 기계 학습 환경을 지원하기 위한 통신 및 노력을 조정할 수 있게 하는 분산 컴퓨팅 시스템의 구성에 초점을 맞추는 것으로 고려될 수 있다. 또한, 본 발명의 요지의 기술적 효과는 트레이닝된 모델의 앙상블을 포함하는 하나 또는 그 초과의 트레이닝된 모델의 성능 측정 기준을 연구 대상과 상관시키는 것을 포함하는 것으로 고려된다. 이러한 상관 관계는 해석하기 어려운 데이터에 기반하여 그러한 대상의 성공 가능성을 증가시킬 뿐만 아니라 기계 학습 모델 유형에서 가능한 내재적인 편견에 대응하는 것으로 고려된다.
개시된 발명 요지의 초점은 컴퓨팅 장치(들)의 구조 또는 구성이 인간의 능력을 능가하는 방대한 양의 디지털 데이터상에서 동작할 수 있게 하는 것이다. 디지털 데이터가 게놈 및 치료 결과의 기계-훈련된 컴퓨터 모델을 나타낼 수 있지만, 디지털 데이터는 현실 아이템(actual item)이 아닌 현실에 존재하는 아이템(real-world item)의 하나 또는 그 초과의 디지털 모델을 나타내는 것임을 이해하여야 한다. 오히려, 본 명세서에 개시된 바와 같이 장치들을 적절하게 구성 또는 프로그래밍함으로써, 컴퓨팅 장치들의 메모리 내에 이 같은 디지털 모델의 실체를 통해, 컴퓨팅 장치는, 디지털 데이터 또는 모델을 인간의 능력을 능가하는 방식으로 관리할 수 있다. 또한, 컴퓨팅 장치는 이 같은 구성 없이도 직관적인 능력이 부족하다. 개시된 컴퓨터-기반 툴을 생성한 결과는 이 툴이 유익한 통찰력 또는 결과를 제공할 수 있는 연구 영역 내로 증거 기반 통찰력 또는 결과를 얻게 하는 것과 관련하여 컴퓨팅 장치의 이용자에게 이러한 툴이 없으면 이용자가 부족할 추가적인 유용성을 제공한다.
다음의 개시 내용은 다양한 연구 환경(예를 들면, 약물 반응, 수집할 데이터의 유형, 등) 하에서 게놈 데이터로부터 가능한 치료 결과로의 매핑을 나타내는 많은 수의 트레이닝된 모델을 예시하도록 구성되거나 프로그래밍된 컴퓨터 기반 기계 학습 시스템을 기술한다. 상기 모델은 방대한 양의 데이터에 대해 트레이닝된다. 예를 들면 많은 환자의 게놈 데이터가 동일한 환자로부터의 치료 결과와 조합되어 트레이닝 데이터 세트를 생성한다. 트레이닝된 데이터 세트는 하나 또는 그 초과의 모델 템플릿으로 공급되어 기계 학습 알고리즘을 실현한다. 따라서 기계 학습 시스템은 새로운 게놈 데이터를 기반으로 가능한 치료 결과를 예측하는데 이용될 수 있는 대응하는 트레이닝 모델을 생성한다.
그러나, 본 발명의 요지는 예측된 결과보다는 앙상블 트레이닝된 모델에 초점을 맞추고 있다. 가능한 치료 결과를 예측하는 것 외에도, 트레이닝된 모델의 수집 또는 오히려 트레이닝된 모델의 앙상블은 어떤 연구 환경 또는 프로젝트가 하나 또는 그 초과의 모델 성능 측정 기준 또는 트레이닝된 모듈의 앙상블에서 측정된 다른 특성 측정 기준에 의해 결정되는 가장 통찰력있는 정보를 생성할 수 있는지에 대한 통찰력을 제공할 수 있다는 것이 이해하여야 한다. 따라서, 개시된 시스템은 모델의 예측된 결과보다는 오히려 모델의 앙상블에 관해 컴파일링된 통계에 기초하여 연구 프로젝트가 가장 가치있는 추천 사항을 제공할 수 있다.
도 1은 컴퓨터 기반 연구 프로젝트 추천 시스템(100)을 제시한다. 비록 단일 메모리 및 단일 프로세서를 포함하는 것으로 예시되었지만, 메모리(120)는 다수의 컴퓨팅 장치에 분산된 분산 메모리를 포함할 수 있다는 것을 이해하여야 한다. 메모리(120)의 예는 RAM, 플래시, SSD, HDD, SAN, NAS, RAID, 디스크 어레이 또는 다른 유형의 비-일시적 컴퓨터 판독 가능 매체를 포함할 수 있다. 유사한 방식으로, 비록 프로세서(150)가 단일 유닛으로 예시되었지만, 프로세서(150)는 단일 코어, 멀티 코어, 프로세서 모듈(예를 들면, 서버 블레이드 등), 또는 심지어 네트워크형 컴퓨터 프로세서를 포함하는 다른 프로세서 구성을 완곡하게 나타낸다. 시스템(100)은 가능하게는 Apache® Hadoop에 기초한 분산형 컴퓨터 시스템으로 구현될 수 있다. 이 같은 시스템에서, 관련된 네트워크형 컴퓨터의 메모리와 함께 Hadoop 분산형 파일 시스템(HDFS)을 지지하는 저장 장치가 메모리(120)로서 작동한다. 또한, 클러스터의 컴퓨터의 각각의 프로세서는 총괄하여 프로세서(150)로서 작동된다. 개시된 시스템에 의해 처리되는 많은 데이터 세트가 상당히 클 수 있다는 점에서(예를 들면, 100GB 초과의 크기), 개시된 컴퓨팅 시스템은 GridEngine, 다수의 컴퓨터 중에서 작업 로드를 분산하기 위한 개방된-소스 분산 리소스 일괄 처리 프로세싱 시스템과 같은 툴에 영향을 미칠 수 있다. 또한, 개시된 시스템이 클라우드 방식으로 구현된 유료 서비스로서 동작할 수 있음을 이해하여야 한다. 이러한 활성을 지원할 수 있는 클라우드-기반 하부 구조의 예로는 Amazon AWS, Microsoft Azure, Google Cloud 또는 다른 유형의 클라우드 컴퓨팅 시스템을 포함할 수 있다. 본 문서에서 설명된 예는 Python으로 구현된 Pypeline이라 불리는 독점적인 작업 부하 관리자를 기반으로 생성되었으며 Slurm 작업 부하 관리자(URL slurm.schedmd.com 참조)를 이용한다.
메모리(120)는 다수의 데이터 세트를 위한 저장 설비로서 동작하도록 구성된다. 데이터 세트가 프로세서(150)에 로컬인 저장 장치상에 저장될 수 있거나 가능하게는 네트워크(미도시; 예를 들면, LAN, WAN, VPN, 인터넷, 인트라넷, 등)를 통해 프로세서(150)에 이용가능한 다수의 저장 장치를 통해 저장될 수 있다는 것을 이해하여야 한다. 특별한 관심의 두 개의 데이터 세트는 게놈 데이터 세트(123) 및 임상 결과 데이터 세트(125)를 포함한다. 조합될 때, 두 개의 데이터 세트는 후술되는 바와 같이 트레이닝된 모델을 생성하기 위해 이용되는 트레이닝 데이터를 형성한다.
게놈 데이터 세트(123)는 집단, 예를 들면 유방암 환자 그룹으로부터 취한 조직 샘플을 나타내는 게놈 정보를 나타낸다. 게놈 데이터 세트(123)는 또한 상이한 양태의 게놈 정보를 포함할 수 있다. 일부 실시예에서, 게놈 데이터 세트(123)는 전체 유전체 서열(WGS), 전체 엑솜 시퀀싱(WES) 데이터, 마이크로 어레이 발현 데이터, 마이크로 어레이 카피 수 데이터, PARADIGM 데이터, SNP 데이터, RNAseq 데이터, 단백질 마이크로 어레이 데이터, 엑솜 서열 데이터 또는 다른 유형의 게놈 데이터 중 하나 또는 그 초과를 포함할 수 있다. 예를 들면, 게놈 데이터(123)는 100, 1000 또는 그 초과의 환자로부터 유방암 종양에 대한 WGS를 포함할 수 있다. 게놈 데이터 세트(123)는 또한 건강한 조직과 관련된 게놈 정보를 더 포함할 수 있으며, 따라서 게놈 데이터 세트(123)는 일치된 정상 상태를 갖는 질병 조직에 관한 정보를 포함할 수있다. VCF, SAM, BAM, GAR, BAMBAM 등을 포함하는 게놈 데이터 세트(123)를 저장하기 위해 수많은 파일 형식이 이용될 수 있다. PARADIGM 및 경로 모델의 생성 및 이용은 2011년 4월 29일자로 출원되고 발명의 명칭이 "게놈 모델에 대한 데이터 통합을 이용한 경로 인식 알고리즘(PARADIGM)"인 Vaske 등의 미국 특허 출원 공보 제 US2012/0041683호; 2011년 10월 26일자로 출원되고 발명의 명칭이 "게놈 모델에 대한 데이터 통합을 이용한 경로 인식 알고리즘(PARADIGM)"인, Vaske 등의 미국 특허 출원 공보 제 US2012/0158391호; 및 2014년 5월 28일자로 출원되고 발명의 명칭이 "PARADIGM 약물 반응 네트워크"인 벤츠(Benz) 등의 국제 특허 출원 공보 제 WO 2014/193982호에 기재되어 있다. BAMBAM 기술은 2011년 5월 25일자로 출원되고 발명의 명칭이 "BAMBAM : 고 처리량 시퀀싱 데이터의 병렬 비교 분석"인 미국 공개 특허 출원 제 2012/0059670호; 및 2011년 11월 18일자로 출원되고 발명의 명칭이 "BAMBAM : 고 처리량 데이터의 병렬 비교 분석"인 미국 공개 특허 출원 제 2012/0066001호에 기재되어 있다.
임상 결과 데이터 세트(125)는 또한 집단와 관련되며, 치료 후; 예를 들면 신약을 투여한 후, 집단의 조직 샘플의 측정된 임상 결과를 나타낸다. 임상 결과 데이터 세트(125)는 또한 집단 내의 다수의 환자로부터의 데이터를 포함할 수 있고, 임상 결과 데이터 세트(125) 내의 환자의 결과 데이터가 게놈 데이터 세트(123)의 동일한 환자의 게놈 데이터와 적절히 동기화되도록 환자 식별자에 의해 인덱싱될 수 있다. 게놈 데이터 세트(123)를 구성할 수 있는 수많은 다른 유형의 게놈 데이터가 있는 것처럼, 수많은 유형의 임상 결과 데이터 세트가 있다. 예를 들면, 임상 결과 데이터 세트(125)는 약물 반응 데이터, 생존 데이터 또는 다른 유형의 결과 데이터를 포함할 수 있다. 일부 실시예에서, 약물 반응 데이터는 IC50 데이터, GI50 데이터, Amax 데이터, ACarea 데이터, 필터링된 ACerea 데이터, 최대 용량 데이터 등을 포함할 수 있다. 또한, 임상 결과 데이터 세트는 수많은 임상 시험에 걸쳐 적용된 100개, 150개, 200개 또는 그 초과의 약물로부터의 약물 반응 데이터를 포함할 수 있다. 보다 구체적인 예로서, 단백질 데이터는 MD Anderson으로부터의 MDA RPPA 코어 플랫폼을 포함할 수있다.
각 데이터 세트는 데이터의 다른 측면 중에서, 임상 또는 연구 프로젝트의 측면을 나타낸다. 게놈 데이터 세트(123)와 관련하여, 수집된 데이터의 본질 또는 유형은 대응하는 연구 프로젝트의 매개 변수를 나타낸다. 유사하게, 임상 결과 데이터 세트(125)에 관하여, 대응하는 연구 프로젝트 매개 변수는 수집된 약물 반응 데이터의 유형(예를 들면, IC50, GI50 등), 연구중인 약물, 또는 대응하는 연구 프로젝트와 관련된 다른 매개 변수 또는 속성을 포함할 수 있다. 이러한 요소가 향후 초점 영역이 될 수 있기 때문에 독자의 관심이 이러한 요소에 부각된다. 트레이닝된 모델의 앙상블이 생성되면 어떤 요소가 가능한 기회를 제공하는지에 대한 통찰력을 얻기 위하여 이 요소들은 앙상블 통제와 관련하여 분석될 수 있다.
도 1에 도시된 예에서, 메모리(120)에 저장된 연구 프로젝트(150)는 잠재적인 연구의 측면을 나타내는 데이터 구조물 또는 기록 객체를 나타낸다. 일부 실시예에서, 연구 프로젝트(150)는 속성-값 쌍들의 세트에 기초하여 정의될 수 있다. 속성-값 쌍은 잠재 연구 프로젝트를 설명하고 게놈 데이터 세트(123) 또는 임상 결과 데이터 세트(125)와 매개 변수 또는 속성을 공유하는 명칭 공간에 부착될 수 있다. 데이터 세트 중에서 공통 명칭 공간을 이용하면 데이터 세트 중에서 가능한 상관 관계를 제공한다. 또한, 연구 프로젝트(150)는 메타 데이터로 고려될 수 있는 속성-값 쌍을 포함할 수 있는데, 속성 값 쌍은 수집된 데이터의 실제 본질과는 직접적으로 관련이 없으며, 오히려 데이터 세트와 미미하게 관련된 연구 과제 또는 예측 과제와 더 직접적으로 관련된다. 연구 과제 메타 데이터의 예로는 데이터를 수집하는 비용, 예측 연구, 연구원, 보조금 정보 또는 다른 연구 프로젝트 정보가 포함될 수 있다. 모델이 구축될 수 있는 예측 연구와 관련하여, 예측 연구에는 약물 반응 연구, 게놈 발현 연구, 생존성 연구, 하위 유형 분석 연구, 하위 유형 차이 연구, 분자 하위 유형 연구, 질병 상태 연구, 또는 다른 유형의 연구를 포함하는 연구의 광범위한 범위를 포함할 수 있다. 개시된 접근법은 입력된 트레이닝 데이터의 본질을 데이터의 공유 또는 브리징 속성을 통해 잠재 연구 프로젝트의 본질에 연결하기 위해 제공되는 것이 이해되어야 한다.
메모리(120) 또는 메모리(120)의 일부는 또한 하나 또는 그 초과의 예측 모델 템플릿(140)을 포함할 수 있다. 예측 모델 템플릿(140)은 아직 특정 피쳐를 취하고 대응 알고리즘의 구현을 나타내는 트레이닝되지 않은 또는 "블랭크(blank)" 모델을 나타낸다. 모델 템플릿의 일 예는 SVM(Support Vector Machine) 라이브러리 또는 실행 가능 모듈로 저장된 SVM 분류자를 포함할 수 있다. 시스템(100)이 게놈 데이터 세트(123) 및 임상 결과 데이터 세트(125)를 이용하여 SVM 모델을 트레이닝시키는 경우, 시스템(100)은 공지된 게놈 데이터 세트(123) 및 공지진 결과 데이터 세트(125)에 기초하여 트레이닝되거나 심지어 완전히 트레이닝된 SVM 모델을 예시하는 것으로 고려될 수 있다. 이때 완전히 트레이닝된 모델에 대한 구성 매개변수는 트레이닝된 모델의 예로서 메모리(120)에 저장될 수 있다. 구성 매개변수가 모델 유형마다 다를 수 있지만 요소 가중치의 편집으로서 고려될 수 있다. 일부 실시예에서, 예측 모델 템플릿(140)은 적어도 5개의 상이한 타입의 모델, 적어도 10 개의 상이한 타입의 모델, 또는 심지어 15개 이상의 상이한 타입의 모델을 포함한다. 모델의 유형의 예에는 선형 회귀 모델 템플릿, 클러스터링 모델 템플릿, 분류자 모델, 감독되지 않은 모델 템플릿, 인공 신경망 템플릿 또는 심지어 준 감독 모델 템플릿이 포함될 수 있다.
예측 모델 템플릿(140)의 적어도 일부에 대한 소스는 scikit-learn(URL www.scikit-learn.org 참조)을 통해 이용 가능한 것들을 포함하며, 다양한 분류자를 포함하여 많은 상이한 모델 템플릿을 포함한다. 분류자의 유형은 또한 꽤 다양할 수 있으며 선형 분류자, NMF-기반 분류자, 그래픽-기반 분류자, 트리-기반 분류자, 베이지안-기반 분류자, 규칙-기반 분류자, 네트-기반 분류자, kNN-분류자, 또는 다른 유형의 분류자일 수 있다. 더 구체적인 예로는 NMFpredictor(선형), SVMlight(선형), SVMlight 1차 다항 커널(d차 다항식), SVMlight 2차 다항식 커널(d차 다항식, WEKA SMO(선형), WEKA j48 트리(트리 기반), WEKA 하이퍼 파이프(분배-기반), WEKA 임의적 포리스트(트리-기반), WEKA naive Bayes(확률/베이), WEKA JRip(규칙-기반), glmnet lasso(희소 선형), glmnet 리지 회귀(희소 선형), glmnet 탄성 그물(희소 선형), 인공 신경망(예 : ANN, RNN, CNN 등) 등을 포함한다. 예측 모델 템플릿(140)의 추가 소스는 Microsoft의 CNTK(URL github.com/Microsoft/cntk 참조), TensorFlow(URL www.tensorflow.com 참조), PyBrain(URL pybrain.org 참조) 또는 다른 소스를 포함한다.
모델의 각 유형에는 동일한 데이터에 대해 트레이닝된 경우에도 다른 유형의 트레이닝된 모델에 대해 결과적으로 트레이닝된 모델이 작동하는 방식에 영향을 미칠 수 있는 내재적 편견 또는 가정이 포함되는 것이 이해되어야 한다. 발명가는 모델을 선택할 때 이러한 가정이나 편견에 대한 노출을 줄이는데 이용 가능한 보조로서 많은 합리적인 모델을 이용할 수 있음을 이해하였다. 따라서, 본 발명의 요지는 특히 모델 템플릿 가정에 민감할 수 있는 연구 요지와 관련하여 10개 또는 그 초과의 유형의 모델 템플릿을 이용하는 것을 포함하는 것으로 고려된다.
메모리(120) 또는 메모리(120)의 일 부분은 또한 프로세서(150) 중 하나 또는 그 초과의 프로세서에서 실행 가능한 모델링 컴퓨터 또는 엔진(135) 중 하나 또는 그 초과를 나타내는 모델링 엔진 소프트웨어 명령(130)을 포함할 수 있다. 모델링 엔진(135)은 예측 모델 템플릿(140)으로부터 많은 트레이닝된 예측 결과 모델들을 생성할 책임이 있다. 기본 예로서, 예측 모델 템플릿이 두 가지 유형의 모델; SVM 분류자 및 NMF 예측기(2013년 12월 20일자로 출원된 미국 가출원 제 61/919,289호 및 2014년 5월 28일자로 출원된 대응하는 국제 출원 제 WO 2014/193982호 참조)을 포함하는 시나리오를 고려하자. 지금부터 게놈 데이터 세트(123)와 임상 결과 데이터 세트(125)가 150개의 약물로부터의 데이터를 나타내는 것을 고려하자. 모델링 엔진(135)은 집단 데이터 세트를 이용하여 모든 150개의 약물에 대한 트레이닝된 SVM 모델의 세트뿐만 아니라 모든 150개의 약물에 대한 트레이닝된 NMF예측기 모델의 세트를 생성한다. 따라서, 2개의 모델 템플릿으로부터, 모델링 엔진(135)은 300개의 트레이닝된 예측 모델들을 생성하거나 그렇지 않으면 예시할 것이다. 모델링 엔진(135)의 일례는 2014년 5월 28일자로 출원되고 발명의 명칭이 "Paradigm 약물 반응 네트워크"인 국제 공개 특허 출원 제WO 2014/193982호에 기재된 모델 엔진들을 포함한다.
모델링 엔진(135)은 모델 생성기 및 분석 시스템으로서 동작하도록 프로세서(150)를 구성한다. 모델링 엔진(135)은 하나 또는 그 초과의 예측 모델 템플릿(140)을 획득한다. 도시된 예에서, 예측 모델 템플릿(140)은 메모리(120)에 이미 존재한다. 그러나, 다른 실시예들에서, 예측 모델 템플릿(140)은 애플리케이션 프로그램 인터페이스(API)를 통해 획득될 수 있으며, 애플리케이션 프로그램 인터페이스(API)를 통해 가능하게는 웹 서비스에 기초하여 모듈 또는 라이브러리의 대응하는 세트가 접근된다. 다른 실시예에서, 이용자는 이용 가능한 예측 모델 템플릿(140)을 저장소(예를 들면, 데이터베이스, 파일 시스템, 디렉토리 등)에 배치할 수 있고 저장소를 통해 모델링 엔진(135)이 파일을 판독하거나 가져오고 및/또는 데이터베이스를 쿼리(query)함으로써 템플릿에 접근할 수 있다. 이 접근법은 시간이 진행됨에 따라 계속 증가하는 개수의 예측 모델 템플릿을 제공하기 때문에 유리한 것으로 고려된다. 또한 각 템플릿에는 근본적인 본질을 나타내는 메타 데이터로 주석; 대응하는 알고리즘, 최상의 이용법, 명령 또는 다른 데이터에 의해 이루어진 가정을 달 수 있다. 그런 다음 연구원이 어떤 모델이 연구 프로젝트(예를 들면, 반응 연구, 수집할 데이터, 예측 작업, 등) 선택 기준을 만족하는 메타 데이터를 가지는 모델을 선택하여 연구원의 작업에 가장 적합한지를 선택할 수 있도록 메타 데이터에 따라 모델 템플릿이 인덱싱(index)될 수 있다. 전형적으로, 모델 템플릿 중 거의 전부(전부가 아닌 경우)가 앙상블 구축에 이용될 것이 예상된다.
모델링 엔진(135)은 트레이닝된 모델(143)로서 총괄적으로 지칭되는, 트레이닝된 모델(143A 내지 143N)에 의해 표현되는 트레이닝된 임상 결과 예측 모델의 앙상블을 생성함으로써 더 계속된다. 각각의 모델은 또한 계측 항목(147)으로서 총괄적으로 지칭되는, 특성 계측 항목(147A 및 147N)을 포함한다. 모델링 엔진(135)은 예측 모델 템플릿(140)을 이용하고 게놈 데이터 세트(123)(예를 들면, 초기에 공지된 데이터) 및 임상 결과 데이터 세트(125)(예를 들면, 최종으로 공지된 데이터) 상에서 템플릿을 트레이닝시킴으로써 트레이닝된 모델(143)을 예시한다. 트레이닝된 모델(143)은 예측된 결과를 생성하기 위해 트레이닝된 모델을 통해 특정 환자의 게놈 데이터를 실행함으로써 원하는 경우 개인화된 치료 또는 예측 결과에 대한 임상 설정에서 이용될 수 있는 예측 모델을 나타낸다. 그러나 두 가지 주의 사항이 있다. 첫째, 본 문서의 발명 요지의 초점은 단지 예측된 결과가 아니라 전체 모델의 앙상블에 있다. 둘째, 트레이닝된 모델(143)의 앙상블은 단지 완전히 트레이닝된 모델 이외에, 단지 데이터 세트의 일 부분만이 트레이닝되는, 평가 모델을 포함할 수 있으며, 완전히 트레이닝된 모델은 완료된 데이터 세트에 대해 트레이닝을 받는다. 평가 모델은 완전히 트레이닝된 모델이 가치가 있거나 가치가 있는지 여부를 나타내는 것을 보조한다. 어떤 의미에서, 평가 모델은 겹 교차 검증 중에 생성된 부분적으로 트레이닝된 모델로 고려될 수 있다.
비록 도 1은 두 개의 트레이닝된 모델(143)만을 보여 주지만, 트레이닝된 모델의 수에는 10,000개 초과, 100,000; 200,000; 또는 심지어 1,000,000개 초과의 트레이닝된 모델을 포함할 수 있다는 것을 이해하여야 한다. 사실, 일부 실시예에서는 앙상블이 2,000,000개 초과의 트레이닝된 모델을 포함한다. 일부 실시예에서, 데이터 세트의 본질에 따라, 트레이닝된 모델(143)은 도 2와 관련하여 논의된 200,000개 이상을 갖는 완전히 트레이닝된 모델을 갖는 트레이닝된 임상 결과 모델(145)의 앙상블을 포함할 수 있다.
트레이닝된 모델(143) 각각은 또한 이들의 대응하는 트레이닝된 모델에 대한 측정 기준(147A 및 147N)에 의해 제공되는 모델 특성 측정 기준(147)을 포함할 수있다. 모델 특성 측정기준(147)은 대응하는 트레이닝된 모델(143)의 본질 또는 성능을 나타낸다. 특성 측정 기준의 예에는 정확도, 정확도 이득, 성능 측정 기준 또는 대응하는 모델의 다른 측정 값이 포함될 수 있다. 성능 측정 기준의 부가 예에는 곡선하 면적 측정 기준, R2, p-값 측정 기준, 실루엣 계수, 오차 행렬 또는 모델 또는 상기 모델의 대응하는 모델 템플릿의 본질과 관련된 다른 측정 기준을 포함할 수 있다. 예를 들면, 클러스터-기반 모델 템플릿은 실루엣 계수를 가질 수 있지만 SVM 분류자 트레이닝된 모델은 실루엣 계수를 갖지 않는다. SVM 분류자 트레이닝된 모델은 예를 들면 AUC 또는 p-값을 이용할 수 있다. 특성 측정 기준(147)이 모델 자체의 결과로 고려되지 않음을 이해하여야 한다. 오히려, 모델 특성 측정 기준(147)은 트레이닝된 모델의 특성을 나타낸다; 예를 들면 트레이닝 데이터 세트를 기반으로 예측이 얼마나 정확한지를 나타낸다. 또한, 모델 특성 측정 기준(147)은 성능 측정 기준 이외의 다른 유형의 속성 및 관련 값을 포함할 수도 있다. 트레이닝된 모델과 관련된 측정 기준에서 이용될 수 있는 부가적인 속성은 모델 템플릿의 소스, 모델 템플릿 식별자, 모델 템플릿의 가정, 버전 번호, 이용자 식별자, 특징 선택, 게놈 트레이닝 데이터 속성, 환자 식별자, 약물 정보, 결과 트레이닝 데이터 속성, 타임스탬프 또는 다른 유형의 속성을 포함한다. 모델 특성 측정 기준(147)은 이하에서 논의되는 바와 같이 용이한 휴대성, 조작 또는 다른 유형의 관리 또는 분석을 가능하게하기 위해 값의 벡터 또는 n-튜플로서 표현될 수 있다. 따라서, 각각의 모델은 그 출처에 대한 정보를 포함할 수 있고 따라서 게놈 데이터 세트(123), 임상 결과 데이터 세트(125) 및 연구 프로젝트(150)와 연관된 동일한 명칭 공간과 관련된 속성을 포함할 수 있다. 트레이닝된 모델(143) 및 대응하는 모델 특성 측정 기준(147)은 가능하게는 JSON, YAML 또는 XML 포맷에 기초할 수 있는 최종 트레이닝된 모델 예로서 메모리(120)에 저장될 수있다. 따라서 트레이닝된 모델은 보관하고 나중에 검색할 수 있다.
각각의 개별 트레이닝 모델(143A 내지 143N)에 대해 개별 모델 특성 측정 기준(147)이 이용 가능할 뿐만 아니라, 모델링 엔진(135)도 트레이닝된 임상 결과 모델(145)의 앙상블의 속성을 나타내는 앙상블 측정 기준(149)을 생성할 수 있다. 앙상블 측정 기준(149)은 예를 들면 앙상블 내의 모든 모델에 대한 정확도 분포 또는 정확도 이득 분포를 포함할 수 있다. 또한, 앙상블 측정 기준(149)은 앙상블 내 모델 수, 앙상블 성능, 앙상블 소유자(들), 앙상블 내의 모델 유형 분포, 앙상블 생성을 위한 소비 전력, 모델당 소비 전력, 모델당 비용 또는 일반적으로 앙상블과 관련된 다른 정보를 포함할 수 있다.
모델의 정확도는 공지된 게놈 데이터 세트와 이에 대응하는 공지된 임상 결과 데이터 세트로 구축된 평가 모델을 이용하여 도출할 수 있다. 특정 모델 템플릿에 대해, 모델링 엔진(135)은 입력된 공지된 데이터 세트에 대해 트레이닝되고 검증된 다수의 평가 모델을 구축할 수 있다. 예를 들면, 트레이닝된 평가 모델은 입력 데이터의 80%를 기반으로 트레이닝될 수 있다. 일단 평가 모델이 트레이닝되면 나머지 20%의 게놈 데이터가 평가 모델을 통해 실행되어 나머지 2O%의 공지된 임상 결과 데이터와 유사하거나 가장 근접한 예측 데이터를 생성하는지 확인한다. 트레이닝된 평가 모델의 정확도는 총 결과 수에 대한 정확한 예측 수의 비율로 고려된다. 평가 모델은 하나 또는 그 초과의 겹 교차 검증 기술을 이용하여 트레이닝될 수 있다.
게놈 데이터 세트(123)와 임상 결과 데이터 세트(125)가 500명의 환자 집단을 나타내는 시나리오를 고려하자. 모델링 엔진(135)은 데이터 세트를 예를 들면 400명의 환자 샘플을 포함하는 평가 트레이닝 세트의 하나 또는 그 초과의 그룹으로 분할할 수 있다. 모델링 엔진은 400명의 환자 샘플을 기반으로 트레이닝된 평가 모델을 만든다. 트레이닝된 평가 모델은 100개의 예측 결과를 생성하기 위해 나머지 100명 환자의 게놈 데이터 세트에 대해 트레이닝된 평가 모델을 실행함으로써 검증될 수 있다. 100개의 예측 결과는 임상 결과 데이터 세트(125)의 환자 데이터로부터 실제 100개의 결과와 비교된다. 트레이닝된 평가 모델의 정확도는 총 결과 수에 대한 정확한 예측 결과(즉, 진양성(true positive) 및 진음성(true negative))의 수이다. 100개의 예측 결과 중 트레이닝된 평가 모델이 환자 데이터로부터의 실제 또는 공지된 임상 결과와 일치하는 85개의 정확한 결과를 생성하면, 트레이닝된 평가 모델의 정확도는 85%로 고려된다. 나머지 15개의 부정확한 결과는 위양성(false positive) 및 위음성(false negative)으로 고려된다.
모델링 엔진(135)은 집단 데이터가 트레이닝 샘플과 검증 시스템 사이에서 분할되는 방법을 변경함으로써 집단 데이터 및 모델 템플릿의 특정 예에 대한 다수의 트레이닝된 평가 모델을 생성할 수 있음이 이해되어야 한다. 예를 들면, 일부 실시예는 5x3 겹 교차 검증을 이용하여 15개의 평가 모델을 산출할 수 있다. 15개의 트레이닝된 평가 모델 각각은 자체의 정확도 측정치(예를 들면, 총 수에 대한 올바른 예측의 수)를 가질 것이다. 평가 모델로부터의 정확도가 모델 수집이 유용하다는 것을 나타내면(예를 들면, 기회 임계 값 초과, 다수 분류자 초과 등), 완전히 트레이닝된 모델은 데이터의 100%에 기초하여 구축될 수 있다. 이는 하나의 알고리즘에 대한 모델의 전체 수집에는 하나의 완전히 트레이닝된 모델과 15개의 평가 모델이 포함되는 것을 의미한다. 이때, 완전히 트레이닝된 모델의 정확도는 트레이닝된 평가 모델의 평균으로 고려된다. 따라서 완전히 트레이닝된 모델의 정확도는 앙상블에서의 대응하는 트레이닝된 모델의 평균, 확산, 개수, 최대 정확도, 최소 정확도 또는 트레이닝된 평가 모델의 통계로부터의 다른 측정치가 포함될 수 있다. 이어서, 연구 프로젝트는 관련된 완전히 트레이닝된 모델의 정확도에 기초하여 순위를 지정할 수 있다.
정확도와 관련된 다른 측정 기준으로는 정확도 이득을 포함한다. 정확도 이득은 모델의 정확도와 "다수 분류자"의 정확도 사이의 산술적 차이로 정의될 수 있다. 결과 측정 기준은 양수 또는 음수일 수 있습니다. 정확도 이득은 공지된 가능한 결과에 대한 기회에 대한 모델의 성능으로 고려될 수 있다. 모델의 정확도 이득이 높을수록(더 양성일수록) 트레이닝 데이터로부터 제공하거나 학습할 수 있는 정보가 많아진다. 모델의 정확도 이득이 낮을수록(더 음성일수록) 기회 이외에 통찰력을 제공할 수 없기 때문에 모델의 관련성이 낮아진다. 정확도와 비슷한 맥락에서 완전하게 트레이닝된 모델에 대한 정확도 이득은 평가 모델로부터의 정확도 이득 분포를 포함할 수 있다. 따라서 완전히 트레이닝된 모델의 정확도 이득에는 평균, 확산, 최소, 최대 또는 다른 값이 포함될 수 있다. 통계적으로 볼 때, 매우 흥미로운 연구 프로젝트는 0 이상의 정확도 이득 분포를 갖는 정확도 이득을 가질 수 있다.
트레이닝된 임상 결과 모델(145)의 앙상블 내의 모델이 모델을 생성하는데 이용된 데이터의 본질 또는 모델 소스와 관련된 속성 또는 측정 기준 정보를 보유한다는 것을 고려하여, 모델링 엔진(135)은 앙상블에 관한 정보를 유사한 속성을 갖는 연구 프로젝트(150)와 상관시킬 수 있다. 따라서, 모델링 엔진(135)은 모델 특성 측정 기준(147) 또는 심지어 앙상블 측정 기준(149)에 의존하는 순위 지정 기준에 따라, 연구 프로젝트(150)로부터 잠재적인 연구 프로젝트의 예를 들면 잠재된 연구 프로젝트(160)를 순위 지정한 순위 지정 목록을 생성할 수 있다. 앙상블이 100개를 초과하는 약물 반응 연구를 위해 트레이닝된 모델(143)을 포함하는 상황을 고려하자. 모델링 엔진(135)은 각 연구의 대응하는 모델의 정확도 또는 정확도 이득에 의해 약물 반응 연구를 순위 지정할 수 있다. 순위가 지정진 목록은 약물 반응, 약물, 게놈 데이터 수집의 유형, 수집된 약물 반응 데이터의 유형, 예측 과제, 유전자 발현, 임상 질문(예 : 생존성 등), 결과 통계 또는 다른 유형의 연구 주제의 순위가 지정된 세트를 포함할 수 있다.
모델링 엔진(135)이 순위 지정된 잠재 연구 프로젝트(160)를 컴파일링하면, 모델링 엔진(135)은 장치(예를 들면, 휴대폰, 태블릿, 컴퓨터, 웹 서버 등)가 순위 지정된 목록을 이해 관계자에게 제시할 수 있다. 순위 지정 목록은 본질적으로 모델의 본질 또는 모델이 학습할 수 있는 방법에 기초하여 프로젝트, 과제, 주제 또는 영역이 가장 통찰력이 있는 것으로 고려되는 추천 사항을 나타낸다. 예를 들면, 앙상블의 정확도 이득은 어떤 모델링된 영역이 최고의 정보 통찰력을 제공했는지에 대한 척도로 고려될 수 있다. 이러한 영역은 공지된 현실에 존재하는 게놈 데이터 세트(123) 및 그에 상응하는 공지된 현실에 존재하는 임상 결과 데이터 세트(125)로부터 생성된 훈련 모델에 의해 입증된 바와 같이 연구 달러(research dollar) 또는 진단 노력의 후보로서 고려된다.
도 2는 트레이닝된 임상 결과 예측 모델(245)의 앙상블 생성에 관한 부가적인 세부 사항을 제공한다. 도시된 예에서, 모델링 엔진은 공지된 게놈 데이터 세트(225) 및 공지된 임상 결과 데이터 세트(223)를 포함하는 데이터 세트(220)에 의해 표현되는 훈련 데이터를 획득한다. 이러한 예에서, 데이터 세트(220)는 단일 약물과 관련된 약물 반응 연구를 나타내는 데이터를 포함한다. 그러나 여러 약물로부터의 데이터 세트가 트레이닝 데이터 세트에 100개 이상의 약물, 150개의 약물, 200개의 약물 또는 그 초과의 약물을 포함할 수 있다. 또한, 모델링 엔진은 트레이닝되지 않은 기계 학습 모듈을 나타내는 하나 또는 그 초과의 예측 모델 템플릿(240)을 얻을 수 있다. 여러 유형의 모델 템플릿을 이용하면 각각의 개별 템플릿의 근본적인 가정에 대한 노출을 줄이는 데 도움이 되며 모든 관련 템플릿 또는 알고리즘이 이용되므로 연구원 편견을 제거하는 데 도움이 된다.
모델링 엔진은 트레이닝된 모델이 트레이닝된 임상 결과 예측 모델(245)의 앙상블을 형성하는 모델 템플릿(240)으로부터 많은 트레이닝된 모델을 생성하기 위해 트레이닝 데이터 세트를 이용한다. 모델(245)의 앙상블에는 광범위한 수의 트레이닝된 모듈을 포함할 수 있다. 도시된 예에서 연구원이 200개의 약물과 관련된 트레이닝 데이터에 접근할 수 있는 상황을 고려해 보자. 각 약물에 대한 트레이닝 데이터에는 6 가지 유형의 공지된 임상 결과 데이터(예를 들면, IC50 데이터, GI50 데이터, Amax 데이터, ACarea 데이터, 필터링된 ACarea 데이터(Filtered ACarea data) 및 최대 선량 데이터) 및 3가지 유형의 공지된 게놈 데이터 세트(예를 들면, WGS, RNAseq, 단백질 발현 데이터)를 포함할 수 있다. 네 개의 기능 선택 방법과 약 14개의 상이한 유형의 모델이 있는 경우, 모델링 엔진은 앙상블에서 200,000개 초과의 트레이닝된 모델을 생성할 수 있으며, 가능한 각각의 구성 매개 변수에 대해 하나의 모델을 만든다.
모델들(245)의 앙상블 내의 개개의 모델들 각각은 모델의 본질을 기술하는 메타 데이터를 더 포함한다. 전술된 바와 같이, 메타 데이터는 성능 측정 기준, 모델을 트레이닝하는 데 이용되는 유형 데이터, 모델을 트레이닝하는 데 이용되는 기능, 또는 연구 프로젝트 명칭 공간에서 속성 및 대응하는 값으로 고려될 수있는 다른 정보가 포함될 수 있다. 이러한 접근법은 명칭 공간의 속성에 의존하는 선택 기준을 만족하는 모델 그룹을 선택하는 것을 제공한다. 예를 들면, 수집된 WGS 데이터에 따라 트레이닝된 모든 모델 또는 특정 약물과 관련된 데이터에 대해 트레이닝된 모든 모델을 선택할 수 있다. 개별 모델은 근본적인 템플릿의 본질에 따라 저장 장치에 저장할 수 있으며, 가능하게는 JSON, YAML 또는 XML 파일에 관련 속성, 성능 측정 기준 또는 다른 메타 데이터와 함께 트레이닝된 모델의 계수 또는 다른 매개 변수의 특정 값을 저장한다. 필요하거나 원하는 경우, 모델은 간단히 대응하는 파일의 모델 훈련 값 또는 가중치를 판독하는 대응하는 템플릿의 매개 변수를 판독 값으로 설정하여 다시 예시할 수 있다.
일단 모델들(245)의 앙상블이 형성되거나 생성되면, 성과 측정 기준 또는 다른 속성들이 잠재적인 연구 프로젝트의 순위 지정 목록을 생성하는데 이용될 수 있다. 200,000개 초과의 모델이 생성되는 상황을 고려하자. 임상의는 특정 약물의 약물 반응 연구와 관련된 모델을 선택하며, 이는 약 1000개 내지 5000개의 선택된 모델을 초래할 수 있다. 모델링 엔진은 선택된 모델의 성능 측정 기준(예를 들면, 정확도, 정확도 이득 등)을 이용하여 수집할 게놈 데이터의 유형(예를 들면, WGS, 발현, RNAseq 등)을 순위 지정할 수 있다. 이것은 수집된 게놈 데이터의 유형에 따라 모델을 결과 세트로 분할하는 모델링 엔진에 의해 달성된다. 각 결과 세트에 대해 선택된 성능 측정 기준(또는 다른 속성 값), 예를 들면 평균 정확도 이득을 계산할 수 있다. 따라서 각 결과 세트는 대응하는 계산된 모델의 성능 측정 기준을 기초로 하여 순위를 지정할 수 있다. 현재의 예에서, 수집할 게놈 데이터의 각 유형은 대응하는 모델의 평균 정확도 이득에 따라 순위를 지정할 수 있다. 이러한 순위 지정은 모델의 본질상 모델 정보가 가장 통찰력이 있을 위치를 제안하기 때문에 특정된 약물을 투여받는 환자에게 어떤 유형의 게놈 데이터를 수집하는 것이 가장 좋을지 임상의에게 통찰력을 제공한다. 일부 실시예에서, 순위 지정은 가능하게는 마이크로 어레이 발현 데이터, 마이크로 어레이 카피 수 데이터, PARADIGM 데이터, SNP 데이터, 전체 게놈 시퀀싱(WGS) 데이터, 전체 엑솜 시퀀싱 데이터, RNAseq 데이터, 단백질 마이크로 어레이 데이터 또는 다른 유형의 데이터를 포함하여 어떤 유형의 게놈 데이터를 수집할 것인지를 제안한다. 순위가 지정된 목록은 2차 또는 3차 측정 기준으로 순위를 지정할 수도 있다. 수집할 데이터 유형의 비용 및/또는 대응하는 데이터를 처리하는 데 드는 시간은 두 개의 예이다. 이러한 접근법은 연구원이 어떤 주제 또는 프로젝트 구성이 앙상블의 측정 기준을 기초로 하여 가장 큰 통찰력을 제공할 수 있는지를 알 수 있기 때문에 연구원이 대상 연구 주제 또는 프로젝트에 대한 최상의 행동 방침을 결정할 수 있게 한다.
또 다른 예로는 모델 측정 기준에 따라 약물 반응 순위를 지정할 수 있다. 이 경우, 순위가 지정된 약물 반응 연구는 약물 반응 또는 화합물의 어느 영역에 추구될 대상 연구 프로젝트로서 가장 이익이 될지에 대한 통찰력을 제공한다. 또한 순위 지정은 가능하게는 IC50 데이터, GI50 데이터, Amax 데이터, ACarea 데이터, 필터링된 ACarea 데이터, 최대 용량 데이터 또는 다른 유형의 결과 데이터를 포함하여 수집할 임상 결과 데이터의 유형을 제안할 수 있다. 더 나아가, 순위 지정은 아마도 약물 반응 연구, 게놈 표현 연구, 생존성 연구, 하위 유형 분석 연구, 하위 유형 차이 연구, 분자 하위 유형 연구, 질병 상태 연구, 또는 다른 연구 중 하나 또는 그 초과를 포함하여, 어떤 타입의 예측 연구가 가장 이익이 될지를 제안할 수 있다.
다음 도면은 현실에 존재하는 공지된 게놈 데이터 세트와 그에 대응하는 공지된 임상 결과 데이터 세트에 대해 트레이닝된 100,000개 초과의 트레이닝된 모델의 앙상블로부터 얻은 정확도 또는 정확도 이득 성능 측정 기준을 기초로 하여 다양한 연구 주제의 순위 지정을 나타낸다. 다음 도면들에서의 이러한 결과는 Broad Institute의 Cancer Cell Line Encyclopedia(CCLE, URL www.broadinstitute.org/ccle/home 참조) 및 Sanger Institute의 Cancer 게놈 프로젝트(CGP, URL www.sanger.ac.uk/science/groups/cancer-genome-project 참조)로부터 획득한 현실에 존재하는 데이터를 기반으로 하여 출원인에 의해 생성된 현실에 존재하는 예이다.
도 3a는 다양한 약물 반응 연구와 관련된 현실에 존재하는 데이터를 포함하며 약물에 대응하는 검증 데이터 세트로부터 생성된 모델의 평균 정확도에 의해 결정된 약물 반응의 예측성을 나타낸다. 정확도만을 기초로 한, 모델의 앙상블이 트레이닝된 모든 모델의 평균 정확도가 가장 높기 때문에 소분자 c-Met 억제제인 PHA-664752와 관련된 데이터로부터 학습될 상당한 정보가 있음을 나타내기 때문에 상기 데이터는 PHA-665752가 추가 연구에 대한 후보가 될 수 있음을 제안한다. 이 같은 후보를 추구하기 위한 결정은 비용, 정확도 이득, 시간 또는 매개 변수를 포함한 다른 측정 기준 또는 요소에 의해 균형을 이룰 수 있다. 도시된 분포는 평가 모델이 아닌 완전히 트레이닝된 다양한 모델에 걸쳐 확산된 정확도 값을 나타낸다. 또한, 연구원은 원할 경우 모델링 엔진과 상호 작용하여 하나 또는 그 초과의 평가 모델 및 이에 대응하는 측정 기준 또는 메타 데이터를 드릴 다운할 수 있습니다.
판독자의 의도는 도 3a에서 7번째 순위로 지정되는 Dasatinib에 대한 것이다. 도 3b는 도 3a와 동일한 데이터를 나타낸다. 그러나 약물은 정확도 이득으로 순위가 지정되어 있다. 이 경우 PHA-665752는 평균 정확도 이득이 0에 가까워짐과 동시에 팩 중간으로 떨어진다. 그러나, 티로신 키나아제 억제제인 Dasatinib은 7번째 순위에서 1번째 순위로 이동하여 평균 정확도 이득이 0보다, 약 15%만큼 훨씬 높아 진다. 이러한 데이터는 Dasatinib이 모델의 앙상블이 높은 정확도와 높은 정확도 이득을 제공한다는 점에서 추가 자원 할당을 위한 더 나은 후보가 될 수 있음을 제안한다.
도 4a는 앙상블 모델로부터의 측정 기준이 어떻게 행동할지에 대해 더 명확하게 제공한다. 도 4a는 모델의 Dasatinib 앙상블 내의 모델에 대한 평균 정확도의 막대그래프이다. 이 모드는 상대적으로 높기 때문에 Dasatinib이 추가 리소스를 적용하는 데 유리한 후보일 수 있음을 나타낸다. 즉, Dasatinib과 관련된 180 개의 모델은 총 모델이 평균적으로 잘 학습되었음을 나타낸다.
도 4b는 모델의 Dasatinib 앙상블로부터 평균 정확도 이득의 막대그래프의 형태로 4a와 동일한 데이터를 나타낸다. 다시, 모드는 0 미만의 작은 개수의 모델로 상대적으로 20% 정도 높다는 점에 주목하자. 모델 측정 기준에 따라 약물 반응 연구 또는 약물의 순위를 지정하는 이러한 개시된 접근법은 유리한 것으로 고려되는데, 그 이유는 제약 회사가 학습을 위해 데이터를 얼마나 잘 이용할 수 있는지에 근거하여 자원을 제공해야 하는 위치에 대한 입증된 지표가 제공되기 때문이다.
Dasatinib의 드릴 다운을 계속하면, 도 5a는 모델 정확도와 관련하여 게놈 데이터 유형(예 : PARADIGM, 발현, CNV-카피 수 변화, 등)이 얼마나 예측 적인지를 보여준다. 이 데이터는 PARADIGM 및 발현 데이터가 CNV보다 더 유용하다는 것을 제안한다. 따라서 임상의는 비용, 시간 또는 다른 요인에 따라 달라질 수 있는, CNV 수집에 대한 Dasatinib 치료 환자의 PARADIGM 또는 발현 데이터를 수집하는 것이 더 합리적이라고 제안할 수 있다.
도 5b는 도 5a와 동일한 데이터를 막대 차트로서 더 콤팩트한 형태로 나타낸다. 이러한 차트는 발현 데이터가 높은 정확도와 일관성있는(즉, 촘촘한 확산) 모델을 산출하기 때문에 수집할 수 있는 최상의 데이터 유형이라는 것을 명백히 보여준다.
도 5C는 막대그래프 형태의 정확도 이득에 대한 것을 제외하고 도 5a와 동일한 데이터를 도시한다. 정확도 이득 데이터가 발현 데이터가 Dasatinib에 관해 수집될 가장 유용한 데이터인 것으로 보강되는 막대 차트로 제시되는 것이 도 5d에 의해 더욱 명료하게 제공된다.
위에서 제공된 실시예는 데이터가 초기 상태(예를 들면, 카피 수 변화, 발현 데이터, 등) 내지 최종 상태(예를 들면, 약물에 대한 반응성)를 나타내는 특정 약물 연구로부터의 데이터를 반영한다. 제시된 예에서, 최종 단계는 치료 결과가 동일하게 유지된다. 그러나, 개시된 기술은 단지 치료 결과가 아닌 환자 데이터와 관련된 임의의 2개의 상이한 상태에 동일하게 적용될 수 있다는 것을 이해해야한다. 예를 들면, 단지 WGS 및 치료 결과에 대한 모델 앙상블을 트레이닝하는 대신 WGS 및 중개 생물학적 프로세스 상태 또는 면역 상태, 예를 들면 단백질 발현에 대한 앙상블을 트레이닝할 수 있다. 따라서, 본 발명의 요지는 단지 치료 결과를 요구하는 것보다 더 미세한 상태 세분성을 반영하는 데이터 세트로부터 모델의 앙상블을 구축하는 것을 포함하는 것으로도 고려된다. 보다 구체적으로, 다양한 생물학적 상태를 나타내는 환자 데이터는 치료 결과와 같은 거시적 효과를 통해 실제 DNA 서열로부터 수집될 수 있다. 고려된 생물학적 상태 정보는 유전자 서열, 돌연변이(예를 들면, 단일 뉴클레오타이드 다형성, 카피 수 변화, 등), RNAseq, RNA, mRNA, miRNA, siRNA, shRNA, tRNA, 유전자 발현, 이형 접합체의 소실, 단백질 발현, 메틸화, 세포 내 상호 작용, 세포 간 활성, 표본의 이미지, 수용체 활성, 체크 포인트 활성, 억제제 활성, T 세포 활성, B 세포 활성, 자연 살해 세포 활성, 조직 상호 작용, 종양 상태(예를 들면, 크기 감소, 변화 없음, 성장, 등), 등을 포함할 수 있다. 이 중 두 가지가 기본 구축 트레이닝 데이터 세트가 될 수 있다. 일부 실시예에서, 데이터가 잘 정의된 부류들로 정리되지 않을 때 준(semi)-감독 또는 비-감독 학습 알고리즘(예를 들면, k-평균 클러스터링, 등)이 이용될 수 있다. 적절한 데이터 소스는 The Cancer Genome Atlas에서 얻을 수 있다(URL tcga-data.nci.nih.gov/tcga 참조).
각각의 생물학적 상태 (즉, 초기 상태)로부터의 데이터는 모델의 대응하는 앙상블을 구축함으로써 다른 나중의 생물학적 상태 (즉, 최종 상태)로부터의 데이터와 비교될 수 있다. 이러한 접근법은 인과 관계가 관찰된 상관 관계를 유발할 가능성이있는 곳에 대한 더 깊은 통찰력을 제공하기 때문에 유리한 것으로 고려된다. 또한 이러한 세분화된 접근법은 또한 앙상블 학습 관찰을 기반으로 학습할 수 있는 상태를 가장 잘 파악할 수 있는 시간적 이해를 구축하기 위해 제공된다. 다른 관점으로부터, 임의의 두 개의 상태에 대한 모델의 앙상블을 구축하는 것은 상태들 중에서 가능한 상관 관계에 대한 가시성을 높게함으로써 발견 기회를 제공하는 것으로 고려될 수 있다. 이러한 가시성은 단지 상관 관계를 관찰하는 것 이상에 기초한다는 것을 이해해야 한다. 오히려, 가시성 및 / 또는 발견은 이전에 논의된 바와 같이 대응하는 앙상블의 성능 측정 기준에 의해 입증된다.
치료 결과와 관련하여 유전자 돌연변이가 연구되는 상황을 고려하자. 특정 약물의 경우, 치료 결과와 비교할 때 모델의 앙상블이 특정 유전자에 대한 중요한 학습의 증거가 부족할 수도 있다. 거기서 데이터 분석이 중단되면 더 이상 통찰력을 얻을 수 없다. 개시된 세분화된 접근법을 이용하여, 가능하게는 단백질 발현 또는 T-세포 체크 포인트 억제제 활성을 포함하는 다수의 상이한 생물학적 상태에서 데이터를 수집할 수 있다. 이러한 두 개의 상태는 특정 약물이 존재할 때 단백질 발현과 T 세포 체크 포인트 억제제 활성이 상관 관계가 있을 뿐만 아니라 높은 정확도의 이득을 가진 기계 학습을 가장 잘 파악할 수 있다는 것을 밝혀 내기 위해 분석될 수 있다. 이러한 통찰력은 유전자 돌연변이에 대한 것보다 이러한 상관 관계에 대해 더 많은 연구가 타당하다는 것을 나타낸다.
여기에서, 본 발명의 개념을 벗어나지 않고 이미 기술된 것들 이외의 많은 수정이 가능하다는 것이 당업자에게 명백할 것이다. 그러므로, 본 발명의 요지는 첨부된 청구항의 사상을 제외하고는 제한되지 않는다. 또한, 명세서 및 청구항 모두를 해석함에 있어서, 모든 용어는 문맥에 따라 가능한 가장 넓은 방식으로 해석되어야 한다. 특히, "포함하는("comprises" 및 "comprising" )" 이라는 용어는 인용된 요소, 구성 요소 또는 단계가 존재하거나 이용되거나 명시적으로 언급되지 않은 다른 요소, 구성 요소 또는 단계와 조합될 수 있음을 나타내는 비 배타적인 방식으로 요소, 구성 요소 또는 단계를 언급하는 것으로 해석되어야 한다. 명세서 또는 청구항이 A, B, C ... 및 N으로 구성된 그룹에서 선택된 것 중 적어도 하나를 나타내는 경우, 이는 A 더하기 N, B 더하기 N, 등이 아닌 상기 그룹으로부터 하나의 요소만을 요구하는 것으로 해석되어야 한다.

Claims (31)

  1. 임상 연구 프로젝트 기계 학습 컴퓨터 시스템으로서,
    적어도 하나의 프로세서;
    상기 프로세서와 결합되는 적어도 하나의 메모리로서,
    집단으로부터 추출한 조직 샘플을 나타내는 게놈 데이터 세트; 및
    상기 집단과 연관되고 치료 후 상기 조직 샘플의 임상 결과를 나타내는 임상 결과 데이터 세트를 저장하도록 구성되고,
    상기 게놈 데이터 세트 및 상기 임상 결과 데이터는 복수의 잠재적 연구 프로젝트에 관련되는, 적어도 하나의 메모리; 및
    상기 적어도 하나의 메모리 내에 저장된 소프트웨어 명령에 따라 상기 적어도 하나의 프로세서상에서 실행가능한 적어도 하나의 모델링 엔진을 포함하며,
    상기 적어도 하나의 모델링 엔진은:
    한 세트의 예측 모델 템플릿을 획득하고;
    상기 예측 모델 템플릿의 세트에 기초하여 그리고 상기 게놈 데이터 세트 및 상기 임상 결과 데이터 세트의 함수로서 훈련된(trained) 임상 결과 예측 모델의 앙상블을 생성하되, 각각의 상기 훈련된 임상 결과 예측 모델은 대응하는 훈련된 임상 결과 예측 모델의 속성을 나타내는 모델 특성 측정 기준을 포함하고;
    상기 훈련된 임상 결과 예측 모델의 앙상블을 상기 속성에 기초하여 복수의 잠재적 연구 프로젝트와 상관시키고;
    복수의 상기 훈련된 임상 결과 예측 모델의 예측 모델 특성 측정 기준에 따른 순위 지정 기준에 따라 상기 복수의 잠재적 연구 프로젝트로부터 선택된 잠재적 연구 프로젝트의 순위 지정 목록을 생성하고; 그리고
    장치가 상기 잠재적 연구 프로젝트의 순위 지정 목록을 제공하도록;
    상기 프로세서를 구성하는,
    시스템.
  2. 제 1 항에 있어서,
    상기 예측 모델 템플릿의 세트는 적어도 10개의 예측 모델 유형을 포함하는,
    시스템.
  3. 제 1 항에 있어서,
    상기 예측 모델 템플릿의 세트는 선형 회귀 알고리즘, 클러스터링 알고리즘, 인공 신경망, 및 분류자 알고리즘의 구현 중 적어도 하나를 포함하는,
    시스템.
  4. 제 3 항에 있어서,
    상기 분류자 알고리즘의 구현 중 적어도 하나는,
    준-감독 분류자, 분류자의 유형들인 선형 분류자, NMF-기반 분류자, 그래픽-기반 분류자, 트리-기반 분류자, 베이지안-기반 분류자, 규칙-기반 분류자, 넷-기반 분류자, 및 kNN 분류자
    중 적어도 하나를 나타내는,
    시스템.
  5. 제 1 항에 있어서,
    상기 모델 특성 측정 기준은 모델 정확도 측정을 포함하는,
    시스템.
  6. 제 5 항에 있어서,
    상기 모델 정확도 측정은 모델 정확도 이득을 포함하는,
    시스템.
  7. 제 1 항에 있어서,
    상기 모델 특성 측정 기준은 모델 성능(performance) 측정 기준들인: 곡선하 면적 (AUC) 측정 기준, R2 측정 기준, p-값, 및 실루엣 계수 중 적어도 하나를 포함하는,
    시스템.
  8. 제 1 항에 있어서,
    상기 순위 지정 기준은 상기 모델 특성 측정 기준으로부터 유도된 앙상블 측정 기준에 따라 규정되는,
    시스템.
  9. 제 1 항에 있어서,
    훈련된 임상 결과 예측 모델의 앙상블은 상기 게놈 데이터 세트 및 상기 임상 결과 데이터 세트로부터 선택되는 완료된 집단 데이터 세트 상에서 훈련되는 적어도 하나의 완전히 훈련된 임상 결과 예측 모델을 포함하는,
    시스템.
  10. 제 1 항에 있어서,
    상기 임상 결과 데이터는 약물 반응 결과 데이터를 포함하는,
    시스템.
  11. 제 10 항에 있어서,
    상기 약물 반응 결과 데이터는 복수의 약물에 대한: IC50 데이터, GI50 데이터, Amax 데이터, ACarea 데이터, 필터링된 ACarea 데이터 및 최대 투여량(dose) 데이터 중 적어도 하나를 포함하는,
    시스템.
  12. 제 10 항에 있어서,
    상기 약물 반응 결과 데이터는 적어도 100개의 약물에 대한 데이터를 포함하는,
    시스템.
  13. 제 1 항에 있어서,
    상기 게놈 데이터 세트는: 마이크로 어레이 발현 데이터, 마이크로 어레이 카피 수 데이터, PARADIGM 데이터, SNP 데이터, 전체 게놈 시퀀싱 (WGS) 데이터, RNAseq 데이터, 및 단백질 마이크로 어레이 데이터 중 적어도 하나를 포함하는,
    시스템.
  14. 제 1 항에 있어서,
    상기 잠재적 연구 프로젝트에는 상기 게놈 데이터 세트와 관련하여 수집할 게놈 데이터의 유형을 포함하는,
    시스템.
  15. 제 14 항에 있어서,
    상기 수집할 게놈 데이터의 유형은: 마이크로 어레이 발현 데이터, 마이크로 어레이 카피 수 데이터, PARADIGM 데이터, SNP 데이터, 전체 게놈 시퀀싱 (WGS) 데이터, 전체 엑솜 시퀀싱 데이터, RNAseq 데이터, 및 단백질 마이크로 어레이 데이터 중 적어도 하나를 포함하는,
    시스템.
  16. 제 1 항에 있어서,
    상기 잠재적 연구 프로젝트는 상기 임상 결과 데이터 세트와 관련하여 수집할 임상 결과 데이터의 유형을 포함하는,
    시스템.
  17. 제 16 항에 있어서,
    상기 수집할 임상 결과 데이터의 유형은: IC50 데이터, GI50 데이터, Amax 데이터, ACarea 데이터, 필터링된 ACarea 데이터 및 최대 투여량(dose) 데이터를 포함하는,
    시스템.
  18. 제 1 항에 있어서,
    상기 잠재적 연구 프로젝트는 예측 연구의 유형을 포함하는,
    시스템.
  19. 제 18 항에 있어서,
    상기 예측 연구의 유형은: 약물 반응 연구, 게놈 발현 연구, 생존성 연구, 하위 유형 분석 연구, 하위 유형 차이 연구, 분자 하위 유형 연구, 및 질병 상태 연구 중 적어도 하나를 포함하는,
    시스템.
  20. 제 1 항에 있어서,
    상기 적어도 하나의 메모리는 디스크 어레이를 포함하는,
    시스템.
  21. 제 1 항에 있어서,
    상기 적어도 하나의 프로세서는 네트워크를 통해 분산된 복수의 프로세서를 포함하는,
    시스템.
  22. 기계 학습 결과를 생성하는 방법으로서,
    비-일시적 컴퓨터 판독 가능 메모리에, 훈련(training) 데이터 세트를 저장하는 단계로서, 상기 훈련 데이터 세트는:
    a) 집단으로부터 추출한 조직 샘플을 나타내는 게놈 데이터 세트, 및
    b) 상기 집단과 연관되고 치료 후 상기 조직 샘플의 임상 결과를 나타내는 임상 결과 데이터 세트를 포함하고,
    상기 훈련 데이터 세트는 복수의 잠재적 연구 프로젝트와 관련되는, 단계;
    모델링 컴퓨터를 통해, 한 세트의 예측 모델 템플릿을 획득하는 단계;
    상기 모델링 컴퓨터를 통해, 상기 게놈 데이터 세트 및 상기 임상 결과 데이터 세트의 함수로서 상기 예측 모델 템플릿을 훈련함으로써 훈련된 임상 결과 예측 모델의 앙상블을 생성하는 단계로서, 각각의 상기 훈련된 임상 결과 예측 모델은 대응하는 훈련된 임상 결과 예측 모델의 속성을 나타내는 모델 특성 측정 기준을 포함하는, 단계;
    상기 훈련된 임상 결과 예측 모델의 앙상블을 상기 속성에 기초하여 복수의 잠재적 연구 프로젝트와 상관시키는 단계;
    상기 모델링 컴퓨터를 통해, 복수의 상기 훈련된 임상 결과 예측 모델의 예측 모델 특성 측정 기준에 따른 순위 지정 기준에 따라 상기 복수의 잠재적 연구 프로젝트로부터 선택된 잠재적 연구 프로젝트의 순위 지정 목록을 생성하는 단계; 및
    상기 모델링 컴퓨터를 통해, 장치가 상기 잠재적 연구 프로젝트의 순위 지정 목록을 제공하도록 하는 단계를 포함하는,
    방법.
  23. 제 22 항에 있어서,
    상기 훈련된 임상 결과 예측 모델의 앙상블을 생성하는 단계는 상기 게놈 데이터 세트 및 상기 임상 결과 데이터 세트에 대한 기계 학습 알고리즘의 복수의 구현을 훈련하는 단계를 포함하는,
    방법.
  24. 제 23 항에 있어서,
    상기 기계 학습 알고리즘의 복수의 구현은 기계 학습 알고리즘의 적어도 10개의 상이한 유형을 포함하는,
    방법.
  25. 제 22 항에 있어서,
    상기 예측 모델 특성 측정 기준은 성능 측정 기준들인: 곡선하 면적 (AUC) 측정 기준, R2 측정 기준, p-값, 정확도, 정확도 이득, 및 실루엣 계수 중 적어도 하나를 포함하는,
    방법.
  26. 제 22 항에 있어서,
    상기 예측 모델 특성 측정 기준은 앙상블 측정 기준을 포함하는,
    방법.
  27. 제 26 항에 있어서,
    잠재적 연구 프로젝트의 순위 지정 목록을 생성하는 단계는 상기 앙상블 측정 기준에 따라 상기 잠재적 연구 프로젝트의 순위를 지정하는 단계를 포함하는,
    방법.
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
KR1020177027662A 2015-03-03 2016-03-03 앙상블-기반 연구 추천 시스템 및 방법 KR101974769B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562127546P 2015-03-03 2015-03-03
US62/127,546 2015-03-03
PCT/US2016/020742 WO2016141214A1 (en) 2015-03-03 2016-03-03 Ensemble-based research recommendation systems and methods

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020197011738A Division KR20190047108A (ko) 2015-03-03 2016-03-03 앙상블-기반 연구 추천 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20180008403A KR20180008403A (ko) 2018-01-24
KR101974769B1 true KR101974769B1 (ko) 2019-05-02

Family

ID=56849144

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020197011738A KR20190047108A (ko) 2015-03-03 2016-03-03 앙상블-기반 연구 추천 시스템 및 방법
KR1020177027662A KR101974769B1 (ko) 2015-03-03 2016-03-03 앙상블-기반 연구 추천 시스템 및 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020197011738A KR20190047108A (ko) 2015-03-03 2016-03-03 앙상블-기반 연구 추천 시스템 및 방법

Country Status (9)

Country Link
US (1) US20180039731A1 (ko)
EP (1) EP3265942A4 (ko)
JP (2) JP6356359B2 (ko)
KR (2) KR20190047108A (ko)
CN (1) CN107980162A (ko)
AU (3) AU2016226162B2 (ko)
CA (1) CA2978708A1 (ko)
IL (2) IL254279B (ko)
WO (1) WO2016141214A1 (ko)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200294642A1 (en) * 2018-08-08 2020-09-17 Hc1.Com Inc. Methods and systems for a pharmacological tracking and reporting platform
WO2016118527A1 (en) 2015-01-20 2016-07-28 Nantomics, Llc Systems and methods for response prediction to chemotherapy in high grade bladder cancer
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
JP6993334B2 (ja) 2015-11-29 2022-01-13 アーテリーズ インコーポレイテッド 自動化された心臓ボリュームセグメンテーション
US10552002B1 (en) * 2016-09-27 2020-02-04 Palantir Technologies Inc. User interface based variable machine modeling
US10552432B2 (en) * 2016-10-12 2020-02-04 Salesforce.Com, Inc. Ranking search results using hierarchically organized machine learning based models
US11056241B2 (en) * 2016-12-28 2021-07-06 Canon Medical Systems Corporation Radiotherapy planning apparatus and clinical model comparison method
EP3573520A4 (en) 2017-01-27 2020-11-04 Arterys Inc. AUTOMATED SEGMENTATION USING FULLY CONVOLUTIVE NETWORKS
US11139048B2 (en) 2017-07-18 2021-10-05 Analytics For Life Inc. Discovering novel features to use in machine learning techniques, such as machine learning techniques for diagnosing medical conditions
US11062792B2 (en) 2017-07-18 2021-07-13 Analytics For Life Inc. Discovering genomes to use in machine learning techniques
KR101953762B1 (ko) * 2017-09-25 2019-03-04 (주)신테카바이오 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템 및 방법
EP3714467A4 (en) * 2017-11-22 2021-09-15 Arterys Inc. CONTENT-BASED IMAGE RECOVERY FOR LESION ANALYSIS
KR102327062B1 (ko) * 2018-03-20 2021-11-17 딜로이트컨설팅유한회사 임상시험 결과 예측 장치 및 방법
GB201805302D0 (en) * 2018-03-29 2018-05-16 Benevolentai Tech Limited Ensemble Model Creation And Selection
US11475995B2 (en) * 2018-05-07 2022-10-18 Perthera, Inc. Integration of multi-omic data into a single scoring model for input into a treatment recommendation ranking
US11574718B2 (en) 2018-05-31 2023-02-07 Perthera, Inc. Outcome driven persona-typing for precision oncology
US10922362B2 (en) * 2018-07-06 2021-02-16 Clover Health Models for utilizing siloed data
CN109064294B (zh) * 2018-08-21 2021-11-12 重庆大学 一种融合时间因素、文本特征和相关性的药品推荐方法
US11250346B2 (en) * 2018-09-10 2022-02-15 Google Llc Rejecting biased data using a machine learning model
SG11202104882WA (en) * 2018-11-15 2021-06-29 Ampel Biosolutions Llc Machine learning disease prediction and treatment prioritization
JP6737519B1 (ja) * 2019-03-07 2020-08-12 株式会社テンクー プログラム、学習モデル、情報処理装置、情報処理方法および学習モデルの生成方法
US11195270B2 (en) 2019-07-19 2021-12-07 Becton Dickinson Rowa Germany Gmbh Measuring and verifying drug portions
KR102270303B1 (ko) 2019-08-23 2021-06-30 삼성전기주식회사 적층형 커패시터 및 그 실장 기판
US20210110926A1 (en) * 2019-10-15 2021-04-15 The Chinese University Of Hong Kong Prediction models incorporating stratification of data
KR102120214B1 (ko) * 2019-11-15 2020-06-08 (주)유엠로직스 앙상블 기계학습 기법을 이용한 사이버 표적공격 탐지 시스템 및 그 탐지 방법
AU2021221048A1 (en) * 2020-02-14 2022-09-08 Caris Mpi, Inc. Panomic genomic prevalence score
CN111367798B (zh) * 2020-02-28 2021-05-28 南京大学 一种持续集成及部署结果的优化预测方法
US11308436B2 (en) * 2020-03-17 2022-04-19 King Fahd University Of Petroleum And Minerals Web-integrated institutional research analytics platform
CN113821332B (zh) * 2020-06-19 2024-02-13 富联精密电子(天津)有限公司 自动机器学习系统效能调优方法、装置、设备及介质
CN111930350B (zh) * 2020-08-05 2024-04-09 深轻(上海)科技有限公司 一种基于计算模板的精算模型建立方法
WO2022235876A1 (en) * 2021-05-06 2022-11-10 January, Inc. Systems, methods and devices for predicting personalized biological state with model produced with meta-learning
US20220398055A1 (en) * 2021-06-11 2022-12-15 The Procter & Gamble Company Artificial intelligence based multi-application systems and methods for predicting user-specific events and/or characteristics and generating user-specific recommendations based on app usage
US11881315B1 (en) 2022-08-15 2024-01-23 Nant Holdings Ip, Llc Sensor-based leading indicators in a personal area network; systems, methods, and apparatus
CN115458045B (zh) * 2022-09-15 2023-05-23 哈尔滨工业大学 一种基于异构信息网络和推荐系统的药物对相互作用预测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060173663A1 (en) 2004-12-30 2006-08-03 Proventys, Inc. Methods, system, and computer program products for developing and using predictive models for predicting a plurality of medical outcomes, for evaluating intervention strategies, and for simultaneously validating biomarker causality

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003079286A1 (en) * 2002-03-15 2003-09-25 Pacific Edge Biotechnology Limited Medical applications of adaptive learning systems using gene expression data
EP1579383A4 (en) * 2002-10-24 2006-12-13 Univ Duke MODELING OF A BINARY PREVISIONAL TREE WITH SEVERAL PREDICTORS, AND ITS USE IN CLINICAL AND GENOMIC APPLICATIONS
US20050210015A1 (en) * 2004-03-19 2005-09-22 Zhou Xiang S System and method for patient identification for clinical trials using content-based retrieval and learning
GB2444410B (en) * 2006-11-30 2011-08-24 Navigenics Inc Genetic analysis systems and methods
US7899764B2 (en) * 2007-02-16 2011-03-01 Siemens Aktiengesellschaft Medical ontologies for machine learning and decision support
WO2010030794A1 (en) * 2008-09-10 2010-03-18 Digital Infuzion, Inc. Machine learning methods and systems for identifying patterns in data
US8484225B1 (en) * 2009-07-22 2013-07-09 Google Inc. Predicting object identity using an ensemble of predictors
EP2681709A4 (en) * 2011-03-04 2015-05-06 Kew Group Llc PERSONALIZED MEDICAL MANAGEMENT SYSTEM, NETWORKS AND ASSOCIATED METHODS
US9934361B2 (en) * 2011-09-30 2018-04-03 Univfy Inc. Method for generating healthcare-related validated prediction models from multiple sources
EP2769321B1 (en) * 2011-10-21 2016-06-01 Nestec S.A. Methods for improving inflammatory bowel disease diagnosis
US9767526B2 (en) * 2012-05-11 2017-09-19 Health Meta Llc Clinical trials subject identification system
US20140143188A1 (en) * 2012-11-16 2014-05-22 Genformatic, Llc Method of machine learning, employing bayesian latent class inference: combining multiple genomic feature detection algorithms to produce an integrated genomic feature set with specificity, sensitivity and accuracy
CA2905072A1 (en) * 2013-03-15 2014-09-25 The Cleveland Clinic Foundation Self-evolving predictive model

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060173663A1 (en) 2004-12-30 2006-08-03 Proventys, Inc. Methods, system, and computer program products for developing and using predictive models for predicting a plurality of medical outcomes, for evaluating intervention strategies, and for simultaneously validating biomarker causality

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
. Bayer 외 2인, "Prediction Errors in Learning Drug Response from Gene Expression Data - Influence of Labelling, Sample Size, and Machine Learning Algorithm", PLOS One, 8권, 7호, 2013.07. 1부.*
H. J. Escalante 외 2인, "Ensemble Particle Swarm Model Selection", International Joint Conference on Neural Networks(IJCNN 2010), 2010.07.18. 1부.*

Also Published As

Publication number Publication date
EP3265942A1 (en) 2018-01-10
JP2018513461A (ja) 2018-05-24
US20180039731A1 (en) 2018-02-08
IL254279A0 (en) 2017-10-31
WO2016141214A1 (en) 2016-09-09
AU2018200276B2 (en) 2019-05-02
EP3265942A4 (en) 2018-12-26
CA2978708A1 (en) 2016-09-09
KR20180008403A (ko) 2018-01-24
AU2016226162B2 (en) 2017-11-23
CN107980162A (zh) 2018-05-01
IL254279B (en) 2018-05-31
KR20190047108A (ko) 2019-05-07
IL258482A (en) 2018-05-31
JP6356359B2 (ja) 2018-07-11
AU2018200276A1 (en) 2018-02-22
AU2019208223A1 (en) 2019-08-15
AU2016226162A1 (en) 2017-09-21
JP2018173969A (ja) 2018-11-08

Similar Documents

Publication Publication Date Title
KR101974769B1 (ko) 앙상블-기반 연구 추천 시스템 및 방법
Tran et al. A benchmark of batch-effect correction methods for single-cell RNA sequencing data
JP6382459B1 (ja) 細胞系ゲノミクスからの薬物応答の患者特異的予測のためのシステムおよび方法
KR102100985B1 (ko) 패러다임 약물 반응 네트워크
JP2019526851A (ja) 分散型機械学習システム、装置、および方法
Wang et al. Random forests on Hadoop for genome-wide association studies of multivariate neuroimaging phenotypes
JP2019527894A (ja) ダサチニブ反応予測モデルおよびその方法
Rashid et al. Knowledge management overview of feature selection problem in high-dimensional financial data: Cooperative co-evolution and MapReduce perspectives
Çelik et al. Diagnostic accuracy comparison of artificial immune algorithms for primary headaches
KR20190143043A (ko) 필터링된 데이터로 구성되는 게놈 모듈 네트워크에 기반한 샘플 데이터 분석 방법
Sharma et al. Predicting survivability in oral cancer patients
Saren et al. Targeted Drug Delivery in Cancer Tissues by Utilizing Big Data Analytics: Promising Approach of AI
Arango et al. AI-based predictive biomarker discovery via contrastive learning retrospectively improves clinical trial outcome
Bazlur Rashid et al. Knowledge management overview of feature selection problem in high-dimensional financial data: Cooperative co-evolution and Map Reduce perspectives
Levi Analysis of network-based module discovery algorithms from the perspective of biological enrichment

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant