KR20190077372A - 준비된 유전자 라이브러리 및 네트워크 기반의 데이타 구조를 이용한 표현형/질환 특이적 유전자 등급화 - Google Patents

준비된 유전자 라이브러리 및 네트워크 기반의 데이타 구조를 이용한 표현형/질환 특이적 유전자 등급화 Download PDF

Info

Publication number
KR20190077372A
KR20190077372A KR1020197012690A KR20197012690A KR20190077372A KR 20190077372 A KR20190077372 A KR 20190077372A KR 1020197012690 A KR1020197012690 A KR 1020197012690A KR 20197012690 A KR20197012690 A KR 20197012690A KR 20190077372 A KR20190077372 A KR 20190077372A
Authority
KR
South Korea
Prior art keywords
genes
gene
score
experimental
data
Prior art date
Application number
KR1020197012690A
Other languages
English (en)
Inventor
마크 정
샘 엔지
조셉 알. 델러니
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20190077372A publication Critical patent/KR20190077372A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 처리량이 많은 생물학적 및 화학적 분석 플랫폼으로부터 대규모 데이터를 캡쳐, 통합, 구성, 항법 및 질의하는 방법, 시스템 및 장치에 관한 것이다. 다양한 생물학 및 화학 분석법, 데이터 유형 및 유기체뿐만 아니라 이러한 인프라를 구축하고 추가할 수 있는 시스템으로부터 많은 연구 및 실험을 통해 연구 질의를 수행할 수 있는 매우 효율적인 메타 분석 인프라를 제공한다. 각종 실시 양태에 따라, 잠재적으로 생물학적, 화학적 또는 의학적 관심 대상과 관련된 유전자를 식별하기 위한 방법, 시스템 및 인터페이스가 제공된다.

Description

준비된 유전자 라이브러리 및 네트워크 기반의 데이타 구조를 이용한 표현형/질환 특이적 유전자 등급화
관련 출원에 대한 상호 참조
본원은 35 U.S.C. § 119(e) 하에 2016 년 10 월 3 일자로 출원된 발명의 명칭 "PHENOTYPE/DISEASE SPECIFIC GENE RANKING USING CURATED, GENE LIBRARY AND NETWORK BASED DATA STRUCTURES"의 미국특허가출원 제62/403,206 호에 기초한 우선권을 주장하며, 그 내용 전체는 본 명세서에 모든 용도로 포함된다.
본 발명은 일반적으로 생물학적, 화학적 및 의학적 정보를 저장하고 불러오는 방법, 시스템 및 장치에 관한 것이다. 이 분야의 연구는 실험실 벤치에서 컴퓨터 기반 방법으로 점차 옮겨 가고 있다. 예를 들어, NCBI(National Center for Biotechnology Information)와 같은 공개 소스는 데이터베이스에 유전자 및 분자 데이터를 제공한다. 이러한 공개 소스와 사적 소스 사이에는 다양한 분석 플랫폼, 생물체, 데이터 유형 등으로부터 연구원이 얻을 수 있는 엄청난 양의 데이터가 있다. 생물 의학 정보의 양이 증가함에 따라 연구자들은 새로운 정보를 신속하게 흡수하고 다양한 플랫폼, 유기체, 등 사이에서 이를 기존 정보와 통합할 수 있는 빠르고 효율적인 도구가 필요하다. 연구원은 다양한 유형의 정보를 신속하게 탐색하고 분석할 수 있는 도구가 또한 필요하다.
개인화된 치료 옵션을 향상시키거나 현존하는 약물에 대한 새로운 질병을 확인하기 위해 잠재적인 바이오 마커를 스크리닝하는 제약 및 임상 요구가 증가하고있다. 암 및 복합 질환에서 질병 특이적 유전자를 확인하는 것은 어렵고 시간이 많이 걸린다. 복합 질환은 대개 상이한 생물학적 경로를 통해 복잡한 유전적 요인에 의해 영향을 받는 몇 가지 관련 질병 표현형을 특징으로 한다. 이러한 경로는 서로 중첩되어 상호 작용하여 보다 복잡한 네트워크를 만들 수 있다. 전통적인 경로 기반 유전자 순위는 다양한 상황에서 제한된 가치를 제공할 수 있다. 이러한 표현형과 관련된 유전자의 식별은 포괄적인 방식으로 질병 발달의 메커니즘을 이해하는데 도움을 줄 것이다.
이러한 맥락에서, 해결되어야할 문제점은 주어진 표현형 또는 다른 생물학적, 화학적 및 의학적 개념과 관련된 가장 가까운 유전자를 확인하는 것이다. 예를 들어, 전립선 암과 같은 표현형이 주어진다면, 임의의 크기의 유전자 패널을 확인할 수 있을까? 질병이 주어졌을 때 기존의 접근 방식을 사용하면, 저널, 온라인 데이터베이스, 실험 데이터, 토론 및 교환 등 다양한 출처에 대한 여러 달 동안의 검토와 분석이 유전자 세트로 이어질 수 있다. 이 프로세스는 몇 개월 또는 그 이상 걸릴 수 있다.
본 발명의 다양한 구현예는 표현형 또는 다른 생물학적, 화학적 또는 약학적 관심 개념, 즉, 개념이 주어졌을 때, 가장 중요한 유전자를 식별하는 기술을 제공한다. 한편으로 유전자 조절 데이터와 다른 한편으로 유전자 세트 및 상호 작용체 데이터 사이의 포괄적 상관 관계뿐만 아니라 준비된(curated) 유전자 조절 데이터(예: RNA 발현, 단백질 발현, DNA 메틸화, 전사 인자 활성 및 게놈 관련 연구에서의 연관 수준)를 포함한, 대형의 데이터베이스에 기초할 수 잇다.
본 발명은 고처리량 생물학적 및 화학적 검정 플랫폼으로부터 대량 데이터를 캡처, 일체화, 조직화, 항법, 및 질의하기 위한 방법, 시스템, 및 장치에 관한 것이다. 이는 상이한 생물학적 및 화학적 검정, 데이터 유형 및 유기체로부터 다수의 연구 및 실험 간에 연구 질의를 수행하기 위한 고도로 효율적인 메타-분석 인프러스트럭처와, 이러한 인프러스트럭처를 구축하고 이에 추가하기 위한 시스템을 제공한다. 본 발명의 실시예는 온톨로지(ontology) 또는 택소노미(taxonomy)에서 화학적, 의학적 및/또는 생물학적 용어와, 구조 및/또는 기능적으로 관련된 실험 데이터, 특징 및 데이터 그룹을 연관시키기 위 한 방법, 시스템 및 인터페이스를 제공한다. 본 발명의 실시예는 또한 데이터 소스 정보에 의해 데이터를 필터링하기 위한 방법, 시스템 및 인터페이스를 제공하여, 대용량 데이터를 통한 동적 탐색이 특정 질의에 대해 가장 관련이 있는 결과를 찾도록 한다.
하나 이상의 컴퓨터들의 시스템은 동작시 시스템이 동작을 수행할 수 있게 하는 시스템 상에 설치된 소프트웨어, 펌웨어, 하드웨어, 또는 이들의 조합을 가짐으로서, 특정 동작(들)을 수행하도록 구성될 수 있다. 하나 이상의 컴퓨터 프로그램은 데이터 처리 장치에 의해 실행될 때, 장치로 하여금 다음을 포함하는 동작들을 수행하게 하는 명령어를 포함시킴으로써, 특정 동작 또는 작용을 수행하도록 구성될 수 있다. 즉,(a) 하나 이상의 프로세서에 의해 데이터베이스로부터 복수의 유전자 세트를 선택하는 단계 - 상기 복수의 유전자 세트의 각각의 유전자 세트는 복수의 유전자 및 상기 복수의 유전자와 관련된 복수의 실험값을 포함하고, 상기 복수의 실험값은 적어도 하나의 실험에서 생물학적, 화학적 또는 의학적 관심 개념과 상관 관계가 있음;(b) 각각의 유전자 세트에 대해 그리고 하나 이상의 프로세서에 의해, 상기 복수의 유전자 가운데 제 1 하나 이상의 유전자의 하나 이상의 실험 값을 이용하여 상기 복수의 유전자 가운데 상기 제 1 하나 이상의 유전자에 대한 하나 이상의 실험 유전자 스코어를 결정하는 단계;(c) 각각의 유전자 세트에 대해 그리고 하나 이상의 프로세서에 의해, 상기 복수의 유전자 중 제 2 하나 이상의 유전자에 대한 상기 제 1 하나 이상의 유전자의 상관 관계에 적어도 부분적으로 기초하여 상기 복수의 유전자 중 제 2 하나 이상의 유전자에 대한 하나 이상의 인 실리코(in silico) 유전자 스코어를 결정하는 단계 - 상기 제 2 하나 이상의 유전자에 대한 상기 제 1 하나 이상의 유전자의 상관 관계는 상기 복수의 유전자 세트 외에 데이터베이스 내의 다른 유전자 세트에 표시됨;(d) 상기(b)에서 결정된 제 1 하나 이상의 유전자에 대한 하나 이상의 실험 유전자 스코어 및 단계(c)에서 결정된 제 2 하나 이상의 인 실리코 유전자 스코어에 적어도 부분적으로 기초하여 제 1 및 제 2 하나 이상의 유전자에 대한 요약 스코어를, 하나 이상의 프로세서에 의해, 얻는 단계 - 각각의 요약 스코어는 복수의 유전자 세트 간에 집합화됨; 및(e) 하나 이상의 프로세서에 의해, 제 1 및 제 2 하나 이상의 유전자의 요약 스코어를 사용하여 생물학적, 화학적 또는 의학적 관심 개념과 연관성이 있을 수 있는 유전자를 식별하는 단계를 포함한다.
구현예는 다음의 특징들 중 하나 이상을 포함할 수 잇다. 일부 구현예에서,(c) 단계는 복수의 유전자 세트의 각 유전자 세트에 대해,(ⅰ) 데이터베이스로부터 제 2 복수의 유전자 세트를 식별하는 단계 - 제 2 복수의 유전자 세트의 각각의 유전자 세트는 제 2 복수의 유전자 및 제 2 복수의 유전자와 관련된 제 2 복수의 실험 값을 포함하고, 제 2 복수의 실험 값은 제 1 하나 이상의 유전자 중 제 1 유전자와 상관 관계가 있음 - 를 포함한다. 이 방법은 또한,(ii) 상기 제 1 하나 이상의 유전자 중 상기 제 1 유전자에 대해 집합화된 값의 벡터를 얻기 위해 상기 제 2 복수의 유전자 세트에 걸쳐 상기 실험값을 집합화시키는 단계를 포함할 수 있다. 방법은 또한,(ⅲ) 상기 제 1 하나 이상의 유전자 중 하나 이상의 다른 유전자에 상기(i) 및(ii)를 적용하여, 상기 제 1 하나 이상의 유전자 중 상기 하나 이상의 다른 유전자에 대한 실험값의 하나 이상의 벡터를 얻는 단계를 포함할 수 있다. 방법은 또한(iv) 상기 제 1 하나 이상의 유전자 중 제 1 유전자 및 하나 이상의 다른 유전자에 대한 집합화된 값의 벡터를 집합화하여, 상기 제 2 유전자에 대한 하나 이상의 인 실리코 유전자 스코어를 포함하는 하나의 압축 벡터를 얻는 단계를 포함할 수 있다.
상기 제 1 하나 이상의 유전자 중 특정 유전자에 대한 상기(ⅳ)의 집합화된 벡터 각각은 상기 특정 유전자의 실험값에 비례하여 가중치를 부여하는 방법이 또한 제공된다. 이 방법에서, 상기 제 1 하나 이상의 유전자 중 특정 유전자에 대한 상기(ⅳ)의 집합화된 벡터 각각은 상기 특정 유전자에 대해 식별된 제 2 복수의 유전자 세트 중 소정 개수의 유전자 세트에 비례하여 가중치를 부여한다.
일부 구현예에서, 상기 방법은, 상기(d) 이전에, 제 3 하나 이상의 유전자에 대한 하나 이상의 유전자-그룹 스코어를 결정하는 단계를 더 포함한다. 일부 구현예에서, 상기 방법에서, 특정 유전자에 대한 각각의 유전자-그룹 스코어는(i) 그룹 라벨과 관련된 유전자 그룹을 각각 포함하는 하나 이상의 유전자 그룹의 유전자 멤버십과,(ii) 상기 제 1 하나 이상의 유전자의 하나 이상의 실험값 중 적어도 일부를 이용하여 결정된다.
일부 구현예에서 제공하는 상기 방법에 따르면, 상기(d)는 상기 제 3 하나 이상의 유전자의 적어도 일부에 대한 유전자-그룹 스코어와,(b)에서 결정된 제 1 하나 이상의 유전자에 대한 하나 이상의 실험 스코어와,(c)에서 결정된 제 2 하나 이상의 유전자에 대한 인 실리코 유전자 스코어에 적어도 부분적으로 기초하여 상기 제 1 및 제 2 하나 이상의 유전자에 대한 요약 스코어를 획득하는 단계를 포함한다.
일부 구현예에서 제공하는 상기 방법에 따르면, 상기 제 3 하나 이상의 유전자에 대한 하나 이상의 유전자-그룹 스코어를 결정하는 단계는, 제 3 하나 이상의 유전자 중에서 특정 유전자에 대해, 각각이 특정 유전자를 포함하는 하나 이상의 유전자 그룹을 식별하는 단계; 각각의 유전자 그룹에 대해, 상기 제 1 하나 이상의 유전자 중 일부인 유전자 그룹의 멤버의 비율을 결정하는 단계; 각각의 유전자 그룹에 대해, 상기 유전자 그룹의 멤버인 제 1 하나 이상의 유전자 중 적어도 일부의 하나 이상의 실험 값을 집합화시켜, 상기 유전자 그룹에 대한 합계 실험값을 얻는 단계; 및 제 3 하나 이상의 유전자 중에서 특정 유전자에 대해, 제 1 하나 이상의 유전자 중 일원인 유전자 그룹의 멤버의 비율 및 상기 유전자 그룹에 대한 합계 실험값을 사용하여 유전자-그룹 스코어를 결정하는 단계를 포함한다.
일부 구현예에서 제공하는 상기 방법에 따르면, 상기 하나 이상의 유전자 중 일원인 유전자 그룹 멤버의 비율 및 상기 유전자 그룹에 대한 합계 실험값을 이용하여 상기 유전자-그룹 스코어를 결정하는 단계는, 각각의 유전자 그룹에 대해, 멤버의 비율 및 합계 실험값의 프로덕트(product)를 얻음으로써, 하나 이상의 유전자 그룹에 대한 하나 이상의 프로덕트를 얻는 단계; 하나 이상의 유전자 그룹에 대해, 상기 하나 이상의 프로덕트를 합산함으로써, 합산된 프로덕트를 얻는 단계; 및 제 3 하나 이상의 유전자 중 특정 유전자에 대해, 합산된 프로덕트에 기초한 유전자-그룹 스코어를 결정하는 단계를 포함한다.
일부 구현예에서 제공하는 상기 방법에 따르면, 상기 그룹 라벨과 관련된 상기 복수의 유전자는 유전자 세트 라이브러리 내의 유전자를 포함한다.
일부 구현예에서, 유전자 세트 라이브러리 내의 유전자는 유전자 온톨로지(gene ontology)의 유전자를 포함한다. 일부 구현예에서, 상기 그룹 라벨은 조건, 속성, 질병, 표현형, 증후군, 형질, 생물학적 기능, 생물학적 경로, 세포, 생물체, 생물학적 기능, 화합물, 치료제를 단독으로 또는 조합하여 포함한다.
일부 구현예에서, 상기 방법은(d) 전에, 제 4 하나 이상의 유전자에 대한 상호 작용체 스코어를 각각 결정하는 단계를 더 포함한다.
일부 구현예에서, 특정 유전자에 대한 각각의 상호 작용체 스코어는(i) 특정 유전자와 유전자 네트워크 내 특정 유전자에 연결된 다른 유전자 사이의 연결 및(ii) 제 1 하나 이상의 유전자의 하나 이상의 실험 값 중 적어도 일부를 이용하여 결정된다. 일부 구현예에서, 상기(d) 단계는 상기 제 4 하나 이상의 유전자 중 적어도 일부에 대한 상호 작용체 스코어와,(b)에서 결정된 제 1 하나 이상의 유전자에 대한 하나 이상의 실험 유전자 스코어와,(c)에서 결정된 제 2 하나 이상의 유전자에 대한 인 실리코 유전자 스코어에 적어도 부분적으로 기초하여 적어도 제 1 유전자 및 제 2 유전자에 대한 요약 스코어를 얻는 단계를 포함한다. 일부 구현예에서, 상기 유전자 네트워크는 유전자, 단백질, 인지질(phospholipids) 중 적어도 하나 간의 상호 작용 및 관계에 기초한다.
일부 구현예에서, 상기 제 4 하나 이상의 유전자 각각에 대한 상호 작용체 스코어를 결정하는 단계는, 유전자 네트워크를 제공하는 단계 - 네트워크 내 유전자의 각 쌍이 에지에 의해 연결되고, 네트워크의 유전자는 제 1 하나 이상의 유전자, 또는, 제 2 하나 이상의 유전자, 또는, 제 1 하나 이상의 유전자 및 제 2 하나 이상의 유전자 중 적어도 일부를 포함하는 제 4 하나 이상의 유전자를 포함함; 제 4 하나 이상의 유전자의 각 유전자에 대해, 인접한 두 개의 유전자를 연결하는 연결 에지의 수로 측정된 특정 유전자로부터의 연결 거리에 기초하여 연결된 유전자들의 인접부(neighborhood)를 형성하는 단계; 및(i) 특정 유전자와 상기 인접부 내 하나 이상의 다른 유전자 사이의 하나 이상의 연결 거리 및(ii) 상기 인접부 내 하나 이상의 다른 유전자의 요약 스코어 - 상기 요약 스코어는 실험 데이터에 기초함 - 를 이용하여 상호 작용체 스코어를 계산하는 단계를 포함한다.
일부 구현예에서, 상호 작용체 스코어는 복수의 분수의 합에 비례하여 계산되고, 각 분수는 특정 유전자와 인접부 내 다른 유전자 사이의 연결 거리로 나눈 인접부 내 상기 다른 유전자의 요약 스코어다.
일부 구현예에서, 제 4 하나 이상의 유전자 각각에 대한 상호 작용체 스코어를 결정하는 단계는, 유전자 네트워크를 제공하는 단계 - 네트워크의 유전자가 제 1 임계 값 이상의 실험 데이터에 기초한 요약 스코어를 갖고, 각 쌍의 유전자가 에지에 의해 연결되며, 네트워크의 유전자는 제 1 하나 이상의 유전자, 또는, 제 2 하나 이상의 유전자, 또는, 제 1 하나 이상의 유전자 및 제 2 하나 이상의 유전자 중 적어도 일부를 포함하는 제 4 하나 이상의 유전자를 포함함; 각각의 에지에 대해, 적어도 하나의 상호작용체 지식 베이스 내 2개의 유전자에 대한 연결 데이터에 기초하여 2 개의 유전자를 연결하는 에지에 가중치를 할당하는 단계; 및(i) 특정 유전자와 상기 특정 유전자에 연결된 모든 유전자 사이의 에지의 가중치 및(ii) 상기 특정 유전자에 연결된 모든 유전자의 요약 스코어를 사용하여 상호 작용체 스코어를 계산하는 단계를 포함한다.
일부 구현예에서, 상기 상호 작용체 스코어를 계산하는 단계는 상기 상호 작용체 스코어를 Ni'으로 계산하는 단계를 포함하고,
Figure pct00001
Ni는 특정 유전자 i의 요약 스코어이고, Nn은 특정 유전자에 연결된 유전자 n의 요약 스코어이며, edge_weightn은 특정 유전자 i 및 유전자 n을 연결하는 에지의 가중치다.
일부 구현예에서, 상기 상호 작용체 스코어를 계산하는 단계는, 제 1 패스 사전에서 제 2 임계치보다 작은 Ni'를 저장하는 단계; 및 상기 제 1 패스 사전 내의 모든 유전자에 대해 상기 계산 단계를 반복함으로써 상기 상호 작용체 스코어를 갱신하는 단계를 포함한다. 일부 구현예에서, 상기 상호 작용체 스코어를 계산하는 단계는 하나 이상의 패스에 대해 상기 계산의 동작들을 반복하는 단계를 더 포함한다.
일부 구현예에서, 상기(a)의 복수의 실험 유전자 세트를 선택하는 단계는 실험 유전자 세트와 관련된 바이오태그에 할당된 바이오태그 스코어에 기초하여 실험 유전자 세트를 선택하는 단계를 포함하고, 상기 바이오태그 스코어는 유전자 세트의 중요도 레벨을 표시한다. 일부 구현에에서, 상기 바이오태그는 바이오 소스, 바이오 디자인, 조직, 질병, 화합물, 유전자, 유전자 모드, 바이오 그룹을 단독으로 또는 조합하여 포함하는 그룹으로부터 선택되는 카테고리에 의해 조직화된다.
일부 구현예에서, 상기 방법은 바이오태그에 기초하여 유전자 세트와는 유전자 그룹 중 적어도 하나의 점수화(scoring)를 수행하는 단계를 더 포함한다.
일부 구현예에서, 상기 복수의 실험값은 데이터 값으로부터 일 유전자 또는 복수의 유전자로의 특정 관계를 유도할 수 있는 변이형 또는 유전자 관련 데이터를 포함한다. 일부 구현예에서, 상기 복수의 실험값은 복수의 유전자 교란 값(gene perturbation values)을 포함한다. 일부 구현예에서, 상기 복수의 실험값은 게놈 폭 연관 연구에서의 연관성, 전사 인자 활동, DNA 메틸화, 단백질 발현, RNA 발현의 레벨을 단독으로 또는 조합하여 표시한다.
일부 구현예에서, 생물학적, 화학적 또는 의학적 관심 개념은 표현형을 포함한다. 일부 구현예에서, 상기 표현형이 질환 관련 표현형을 포함한다.
일부 구현예에서, 특정 유전자의 각 요약 스코어는 상기 복수의 유전자 세트에 걸친 상기 실험 스코어와 인 실리코 스코어의 선형 조합으로서 계산된다.
일부 구현예에서, 상기(d) 단계는, 입력으로 실험 유전자 스코어 및 인 실리코 유전자 스코어를 수신하고 출력으로 요약 스코어를 제공하는 모델을 제공하는 단계; 및 상기 하나 이상의 실험 유전자 스코어 및 상기 하나 이상의 인 실리코 유전자 스코어에 상기 모델을 적용하여, 상기 제 1 하나 이상의 유전자 및 상기 제 2 하나 이상의 유전자에 대한 요약 스코어를 얻는 단계를 포함한다.
일부 구현예에서, 상기 방법은 목적 함수(objective function)를 최적화함으로써 상기 모델을 트레이닝하는 단계를 더 포함한다. 일부 구현예에서, 상기 모델을 트레이닝하는 단계는 샘플을 부트스트랩하기 위해 부트스트랩 기술을 적용하는 단계를 포함한다. 일부 구현예에서, 상기 목적 함수는 부트스트랩 이후 적어도 하나의 요약 스코어 분포에 관련된다. 일부 구현예에서, 상기 목적 함수를 최적화하는 단계는 트레이닝 세트와 유효화 세트 간의 요약 스코어의 차이를 최소화하는 단계를 포함한다. 일부 구현예에서, 상기 목적 함수를 최적화하는 단계는 상기 복수의 유전자 세트로부터 얻어진 요약 스코어 분포와, 랜덤 유전자 세트로부터 얻어진 요약 스코어 분포 간의 거리를 최대화하는 단계를 포함한다.
일부 구현예에서, 요약 스코어는 규정된 크기의 버킷들로 랭킹되고 비닝(binning)되며, 상기 버킷들에 페널티 스코어(penalty scores)들이 할당되고, 상기 페널티 스코어는 보다 높은 랭킹 요약 스코어를 우선시한다. 일부 구현예에서, 상기 목적 함수는 최상위 랭킹 요약 스코어에만 기초한다.
일부 구현예에서, 상기 모델을 트레이닝하는 단계는 상기 모델의 파라미터를 학습하기 위해 자율(unsupervised) 기계 학습 기법으로 상기 목적 함수를 사용하는 단계를 포함한다.
일부 구현예에서, 상기 모델은
Figure pct00002
여기서
Figure pct00003
는 모델의 파라미터이고, ci는 모델의 구성 요소이며, ki는 구성 요소의 가중 팩터다.
일부 구현예에서, 상기 방법은 실험 데이터 유형의 샘플 가중치에 기초하여 상기 모델의 하나 이상의 구성요소트를 서브구성요소로 분할하는 단계를 더 포함한다.
일부 구현예에서, 상기 제 1 및 제 2 하나 이상의 유전자의 요약 스코어는 하나 이상의 랜덤 유전자 세트 내의 제 1 및 제 2 하나 이상의 유전자의 실험 값이 생물학적, 화학적 또는 의학적 관심 개념과 얼마나 연관이 있는지에 기초하여 페널티화된다. 일부 구현예에서, 특정 유전자의 각 요약 스코어는 랭킹 프로덕트의 p 값에 반비례하는 페널티 값에 의해 페널티화되고, 상기 랭킹 프로덕트는 하나 이상의 랜덤 유전자 세트 간에 상기 특정 유전자의 랭킹들의 프로덕트를 포함한다.
일부 구현예에서, 상기 제 1 하나 이상의 유전자는 상기 제 2 하나 이상의 유전자와 동일하지 않다.
일부 구현예에서, 상기 요약 스코어는 정규화된다.
일부 구현예에서, 상기 데이터베이스는 복수의 서브-데이터베이스를 포함한다.
일부 구현예에서, 상기(b)에서의 상기 제 1 하나 이상의 유전자의 하나 이상의 실험값이 소정의 기준을 충족시킨다.
일부 구현예에서, 각각의 요약 스코어는 특이 값(singular values)들의 선형 조합에 의해 집합화된다. 일부 구현예에서, 상기 선형 조합은 제곱의 합을 포함한다.
하나의 대체적인 실시형태는 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행될 때, 생물학적, 화학적 또는 의학적 관심 개념(concept of interest)과 연관성있을 수 있는 유전자를 식별하기 위한 방법을 컴퓨터 시스템으로 하여금 구현할 수 있게 하는 프로그램 코드를 저장하는 비-일시적 기계 판독가능 매체를 포함하는 컴퓨터 프로그램 프로덕트에 있어서, 상기 프로그램 코드는,(a) 데이터베이스로부터 복수의 유전자 세트를 선택하기 위한 코드 - 상기 복수의 유전자 세트의 각각의 유전자 세트는 복수의 유전자 및 상기 복수의 유전자와 관련된 복수의 실험값을 포함하고, 상기 복수의 실험값은 적어도 하나의 실험에서 생물학적, 화학적 또는 의학적 관심 개념과 상관 관계가 있음;(b) 각각의 유전자 세트에 대해, 상기 복수의 유전자 가운데 제 1 하나 이상의 유전자의 하나 이상의 실험 값을 이용하여 상기 복수의 유전자 가운데 상기 제 1 하나 이상의 유전자에 대한 하나 이상의 실험 유전자 스코어를 결정하기 위한 코드;(c) 각각의 유전자 세트에 대해, 상기 복수의 유전자 중 제 2 하나 이상의 유전자에 대한 상기 제 1 하나 이상의 유전자의 상관 관계에 적어도 부분적으로 기초하여 상기 복수의 유전자 중 제 2 하나 이상의 유전자에 대한 하나 이상의 인 실리코(in silico) 유전자 스코어를 결정하기 위한 코드 - 상기 제 2 하나 이상의 유전자에 대한 상기 제 1 하나 이상의 유전자의 상관 관계는 상기 복수의 유전자 세트 외에 데이터베이스 내의 다른 유전자 세트에 표시됨;(d) 상기(b)에서 결정된 제 1 하나 이상의 유전자에 대한 하나 이상의 실험 유전자 스코어 및 단계(c)에서 결정된 제 2 하나 이상의 인 실리코 유전자 스코어에 적어도 부분적으로 기초하여 제 1 및 제 2 하나 이상의 유전자에 대한 요약 스코어를 얻기 위한 코드 - 각각의 요약 스코어는 복수의 유전자 세트 간에 집합화됨; 및(e) 제 1 및 제 2 하나 이상의 유전자의 요약 스코어를 사용하여 생물학적, 화학적 또는 의학적 관심 개념과 연관성이 있을 수 있는 유전자를 식별하기 위한 코드를 포함한다.
다른 대체적인 실시형태는 하나 이상의 프로세서를 포함하는 컴퓨터 시스템을 포함한다. 상기 컴퓨터 시스템은 시스템 메모리; 및 하나 이상의 프로세서에 의해 실행될 때, 생물학적, 화학적 또는 의학적 관심 개념(concept of interest)과 연관성있을 수 있는 유전자를 식별하기 위한 방법을 컴퓨터 시스템으로 하여금 구현하게 하는 컴퓨터-실행가능 명령어를 저장한 하나 이상의 컴퓨터 판독가능 저장 매체를 포함하고, 상기 방법은,(a) 하나 이상의 프로세서에 의해 데이터베이스로부터 복수의 유전자 세트를 선택하는 단계 - 상기 복수의 유전자 세트의 각각의 유전자 세트는 복수의 유전자 및 상기 복수의 유전자와 관련된 복수의 실험값을 포함하고, 상기 복수의 실험값은 적어도 하나의 실험에서 생물학적, 화학적 또는 의학적 관심 개념과 상관 관계가 있음;(b) 각각의 유전자 세트에 대해 그리고 하나 이상의 프로세서에 의해, 상기 복수의 유전자 가운데 제 1 하나 이상의 유전자의 하나 이상의 실험 값을 이용하여 상기 복수의 유전자 가운데 상기 제 1 하나 이상의 유전자에 대한 하나 이상의 실험 유전자 스코어를 결정하는 단계;(c) 각각의 유전자 세트에 대해 그리고 하나 이상의 프로세서에 의해, 상기 복수의 유전자 중 제 2 하나 이상의 유전자에 대한 상기 제 1 하나 이상의 유전자의 상관 관계에 적어도 부분적으로 기초하여 상기 복수의 유전자 중 제 2 하나 이상의 유전자에 대한 하나 이상의 인 실리코(in silico) 유전자 스코어를 결정하는 단계 - 상기 제 2 하나 이상의 유전자에 대한 상기 제 1 하나 이상의 유전자의 상관 관계는 상기 복수의 유전자 세트 외에 데이터베이스 내의 다른 유전자 세트에 표시됨;(d) 상기(b)에서 결정된 제 1 하나 이상의 유전자에 대한 하나 이상의 실험 유전자 스코어 및 단계(c)에서 결정된 제 2 하나 이상의 인 실리코 유전자 스코어에 적어도 부분적으로 기초하여 제 1 및 제 2 하나 이상의 유전자에 대한 요약 스코어를, 하나 이상의 프로세서에 의해, 얻는 단계 - 각각의 요약 스코어는 복수의 유전자 세트 간에 집합화됨; 및(e) 하나 이상의 프로세서에 의해, 제 1 및 제 2 하나 이상의 유전자의 요약 스코어를 사용하여 생물학적, 화학적 또는 의학적 관심 개념과 연관성이 있을 수 있는 유전자를 식별하는 단계를 포함한다.
본 발명의 실시예는 온톨로지 또는 택소노미에서 화학적, 의학적 및/또는 생물학적 용어로 구조 및/또는 기능에 관련된 실험 데이터, 피처 및 데이터 그룹을 연관시키는 방법을 제공한다. 특정 실시예에서, 기술된 방법에 의해 분석된 데이터는 일반적으로 노이즈있고 불완전하다. 이 방법은 예측을 하기 위해 노이즈있는 유전자를 필터링한다. 또한 질의에 대한 응답으로 데이터베이스에서 가장 관련이 있거나 중요한 유전자의 목록을 생성하기 위해 데이터베이스에 다양한 유형의 데이터를 질의하는 방법(피처, 피처 세트, 피처 그룹 및 태그 또는 개념 포함)이 제공된다. 위 방법 중 임의의 방법을 구현하기 위한 컴퓨터 프로그램 프로덕트 및 컴퓨터 시스템이 제공된다. 본 발명의 이러한 측면 및 다른 측면은 도면을 참조하여 이하에서 더 설명된다.
도 1은 본 발명의 다양한 실시예에 따른 과학 정보의 지식 베이스의 다양한 요소들을 나타낸다. .
도 2는 본 발명의 다양한 실시예에 따른 온톨로지의 대표적인 개략도이다.
도 3은 특정 실시예에 따른 피처에 대해 가장 관련있는 개념을 결정하는 방법의 일부 동작을 도시하는 프로세스 흐름도이다.
도 4는 특정 실시예에 따라 피처 세트에 대한 가장 관련있는 개념을 결정하는 방법의 일부 동작을 나타내는 프로세스 흐름도이다.
도 5는 특정 실시예에 따라 피처 그룹에 대한 가장 관련있는 개념을 결정하는 방법의 일부 동작을 나타내는 프로세스 흐름도이다.
도 6은 실험 유전자 데이터, 인 실리코 유전자 데이터 및 지식 베이스 유전자 데이터를 사용하여 유전자에 대한 요약 스코어를 얻는 구현을 개략적으로 도시한다.
도 7은 일부 구현에 따라 생물학적, 화학적 또는 의학적 관심 개념과 잠재적으로 관련되는 유전자를 확인하는 프로세스를 도시한다.
도 8은 자율 학습에 의해 훈련된 모델을 사용하여 요약 스코어를 획득하는 프로세스를 도시한다.
도 9는 목적 함수의 최적화를 설명하기 위한 데이터를 도시한다.
도 10은 일부 구현예에 따라 유전자 랭크를 얻기 위한 개략적인 데이터를 나타낸다.
도 11은 실험 유전자 세트 데이터로부터 인 실리코 스코어를 얻기 위한 프로세스를 도시한다.
도 12는 표현형 P1과 상관된 유전자 세트 S1에 대한 예시적인 데이터를 나타낸다.
도 13은 몇몇 실시예에 따라 유전자 그룹 스코어가 얻어 질 수 있는 과정을 도시한다.
도 14는 유전자 세트 S1-S3의 유전자 및 유전자 그룹의 유전자의 설명도이다.
도 15는 실험 유전자 세트 G1 내지 G3 중 하나 인 유전자 그룹 멤버 Ii에 대한 실험값을 나타낸다.
도 16은 일부 실시예에 따라 상호 작용체 스코어를 계산하는 프로세스를 도시한다.
도 17은 상호 작용체 데이터가 유전자 네트워크에 대해 어떻게 획득될 수 있는지를 도시하는 도면이다.
도 18은 상호 작용체 데이터 및 실험 데이터를 사용하여 상호 작용체 스코어를 얻기 위한 또 다른 구현으로서의 프로세스를 도시한다.
도 19는 프로세스를 구현하는 상호 작용체 스코어를 얻기 위한 유전자 네트워크 및 알고리즘을 나타낸다.
도 20은 여기에 설명된 방법들 및 장치들과 함께 사용될 수 있는 컴퓨터 시스템의 개략도이다.
도 21a 및도 21b는, 표현형에 특이적인 유전자 세트 대 랜덤 유전자 세트의 표현형과 상관되는 유전자의 요약 스코어를 예시하는 데이터를 보여준다. 또한 부트스트래핑의 효과를 보여준다.
소개 및 관련 용어
본 발명의 구현은 환자 데이터를 표현형 유도된 유전자 순위와 매칭시킴으로써 정밀 의학에서, 그리고 약물 조합에 대한 유전자 순위 목록을 최적화함으로써 약물 스크리닝에서와 같이 다양한 응용을 갖는다.
일부 구현예에서, 본 개시는 구체적 개념에 대해 높은 값 및 관련성을 갖는 후보 유전자의 정확하고 건전한 예측을 위해 DNA 발현 데이터의 힘을 이용하는 질병, 표현형 및 기타 생물학적, 화학적 또는 의학적 개념에 대한 유전자 서열 결정 기술을 제공한다. 일부 구현은 관련된 질병이나 치료법에 대한 연결을 식별할 수 있고, 이러한 연결은 실험적 상관 관계 데이터 내용이 총체적으로 연관되어 발전한다. 일부 구현은 질병 특이적 RNA, DNA 또는 후성 유전 패널을 즉각적으로 제공할 수 있어, 새로운 바이오 마커를 발견할 기회를 증가시킬 수 있다. 새 데이터가 상관 데이터베이스에 통합되면 새롭고 향상된 분석이 수행될 수 있다. 일부 구현은 데이터베이스에서 파생된 약물 혼란 데이터의 힘을 활용하여 관심있는 질병과 관련이 있는 약물 또는 화합물 조합을 찾을 수 있다.
일부 구현예에서, 상기 방법 및 시스템은 RNA 기반 발현 연구를 위해 준비된 데이터베이스에서 빅 데이터를 이용하며, 상기 데이터는 계층적 프레임워크에 내장된다. 기본 데이터베이스는 시간이 지남에 따라 유기적으로 커질 수 있으며 폭과 깊이를 넓혀준다. 일부 구현은 분석이 가장 가치 있고 관련성있는 데이터에 초점을 맞추도록 보장하는 바이오 설계 및 바이오 소스와 같은 바이오태그를 포함한다. 다양한 구현예는 다른 RNA 발현 분석 도구에 존재하지 않는 질병 특이적 유전자를 동정하기 위한 방법 및 시스템을 제공한다.
일부 구현예에서, 표현형 특이적 유전자 순위화 또는 개념 특이적 유전자 순위화의 문제점은 RNA 발현, 형질 관련 유전자 돌연변이, DNA 메틸화 및 기타 유전자 관련 데이터 구조를 포함하는 준비된(curated) 데이터 유형을 사용함으로써 해결된다. 이들은 폴리오믹스(polyomics) 또는 여기에 멀티오믹스 데이터(multiomics data)로 지칭된다. 또한 온톨로지 기반 정보와 같은 지식 베이스 정보와 단백질 - 단백질 상호 작용과 같은 네트워크 기반 정보를 사용하여 관련 유전자를 식별한다. 일부 구현예에서는 감독되지 않은(즉, 자율) 기계 학습 프레임워크가 구현되어 위의 여러 정보원에서 요약 스코어를 얻는다. 일부 구현예에서, 부트스트래핑 접근법은 보다 견고한 랭킹 구조를 생성하기 위해 사용된다. 일부 구현에서는, 전체 유전자 서열 평가 대신 최고 스코어 평가가 적용되며, 이는 무작위로 농축된 혼란 신호를 걸러 낼 수 있다. 일부 구현에서, 이는 셔플된 유전자 세트에서 확률적 랭크 프로덕트 스코어를 사용함으로써 달성된다. 또한, 일부 구현에서, 바이오태그 우선 순위 기술은 준비된 데이터베이스에서 주어진 표현형 또는 개념과 관련된 각각의 준비된 연구에 대한 최적 유전자 세트를 식별하는데 사용된다.
일부 구현예에서, 실험 데이터 기반 요약 스코어가 그래프 모델 또는 네트워크 모델과 함께 사용된다. 일부 구현예에서, 유전자 네트워크의 연결 에지는 단백질 - 단백질 상호 작용(PPI) 또는 유전자 세트 라이브러리와 같은 외부 지식 베이스에 의해 정의된다.
일부 구현예에서, 상기 접근법을 포함하는 모델의 파라미터는 자율 기계 학습 기술에 의해, 예를 들어 시험 데이터와 검증 데이터 간의 요약 스코어 차이를 최소화함으로써 및/또는 개념 특이적인 유전자 스코어와 랜덤 생성 유전자 스코어 사이의 차이를 최대화함으로써, 최적화된다.
종래의 접근법은 OMIM(Online Mendelian Inheritance in Man)과 같은 데이터 소스로부터 유도된 시드 유전자 및/또는 준비되지 않은(un-curated) 데이터 구조를 사용한다. 또한, 준비되지 않은 데이터를 이용하는 종래의 방법은 바이오태그에 기초한 유전자 우선 순위 부여를 허용하지 않는다.
상호 작용체 데이터는 2 개의 유전자의 상태와 관련된 데이터를 지칭한다. 두 유전자의 관계는 두 유전자와 다른 데이터 소스 및 연구 사이의 통계적 상관 관계를 기반으로할 수 있다. 두 유전자 사이의 상호 작용이나 관계는 기능, 구조, 생물학적 경로, 전사 인자, 프로모터 및 기타 요인과 관련이 있을 수 있다. 다양한 구현예에서, 상호 작용체 데이터는 접촉된 노드들의 네트워크 및 노드들 간의 연결을 형성하기 위한 기초를 제공하며, 노드들은 유전자를 나타낸다. 종래의 유전자 네트워크는 때로 인공물로부터 유래할 수 있는 높게 연결된 노드를 포함한다. 바꾸어 말하면, 유전자는 네트워크에서 서로 연결되어있어 연결이 질병과 같은 생물학적 또는 화학적 관심 개념의 기초가 되지 못한다. 많은 전통적인 네트워크 기반 유전자 연구에서, 종자 유전자는 네트워크를 개발하는 데 필요한다. 네트워크에는 제한된 실험 데이터가 포함된다. 또한 네트워크의 기반이되는 정보와 데이터는 종종 경직되고 융통성이 없다.
본 개시 물의 다양한 구현예는 질병, 표현형, 증후군, 형질, 생물학적 기능, 생물학적 경로, 화합물, 치료제 또는 치료제와 같은 관심 개념과 높은 상관 관계가있는 유전자를 확인하는 방법을 제공한다. 건강 상태 및 기타 생물학적, 화학적 및 의학적 개념을 포함한다. 이 방법은 관심의 개념과 관련되거나 규제되는 유전자의 실험 데이터를 사용한다. 이 방법은 또한 유전자와 유전자 세트 간의 상관 관계를 기반으로한 인 실리코 데이터를 사용한다. 일부 구현예에서, 상기 방법은 또한 실험 유전자 데이터 및 인 실리코 유전자 데이터 이외에 지식 베이스 데이터를 사용한다.
본 발명은 고 처리량 생물학적 및 화학적 분석 플랫폼으로부터의 대규모 데이터를 캡처, 통합, 조직화, 네비 게이팅 및 질의하는 방법, 시스템 및 장치에 관한 것이다. 다양한 생물학 및 화학 분석법, 데이터 유형 및 유기체뿐만 아니라 이러한 인프라를 구축하고 추가할 수 있는 많은 연구 및 실험에서 연구 질의를 수행할 수 있는 매우 효율적인 메타 분석 인프라를 제공한다.
이하의 설명의 대부분은 생물학적 실험 및 연구로부터의 데이터의 탐사를 통합하고 허용하는 시스템, 방법 및 장치로 제시되지만, 본 발명은 결코 그렇게 제한되지 않는다. 예를 들어, 본 발명은 화학적 및 임상적 데이터를 포함한다. 이하의 설명에서, 본 발명의 완전한 이해를 제공하기 위해 수많은 특정 세부 사항이 설명된다. 그러나, 본 발명은 여기에 제시된 특정 세부 사항의 일부를 제한하지 않고 실시될 수 있음이 명백할 것이다.
하기 용어들은 명세서 전체에 걸쳐 사용된다. 설명은 명세서의 이해를 돕기 위해 제공되지만 반드시 본 발명의 범위를 제한하는 것은 아니다.
개념(concept)이라는 용어는 본원에서 유전자 또는 유전자 관련 데이터와 상관될 수 있는 생물학적, 화학적 및 의학적 개념을 지칭하기 위해 사용된다. 개념은 질병, 표현형, 증후군, 형질, 생물학적 기능, 생물학적 경로, 세포, 유기체, 생물학적 기능, 화합물, 치료, 의학적 상태 및 기타 생물학적, 화학적 및 의학적 개념을 의미한다.
태그 - 태그는 피처 세트에 대한 기술 정보를 피처 세트와 연관시킨다. 이를 통해 질의가 특정 태그를 지정하거나 관련 지을 때 피처 세트를 결과로 식별할 수 있다. 종종 임상 매개 변수가 태그로 사용된다. 태그 카테고리의 예로는 종양 단계, 환자 연령, 샘플 표현형 특성 및 조직 유형이 있다. 특정 실시예에서, 개념들이 태그 들로서 사용될 수 있기 때문에, 태그들은 또한 개념들로 지칭될 수 있다.
바이오태그는 생물학적 특성과 관련되어있다. 바이오태그의 다양한 카테고리 및 예가 본 명세서에서 추가로 제공된다.
데이터베이스 - 데이터베이스는 조직화된 데이터의 집합이다. 일부 구현예에서, 데이터베이스는 유전자 집합 이론 또는 유전자 상호 작용과 같은 특정 주제 영역과 관련된 데이터를 포함한다. 이러한 데이터베이스는 지식 베이스라고도한다. 예를 들어, 데이터베이스는 질의를 분석하고 응답하는 데 사용되는 데이터 컬렉션을 나타낼 수 있다. 특정 실시예에서, 이는 특정 계층 또는 디렉토리(예를 들어, 연구 및 프로젝트의 계층 구조)에서 피처 세트를 조직화하기 위한 하나 이상의 피처 세트, 피처 그룹 및 메타 데이터를 포함한다. 또한, 지식 베이스는 서로 다른 플랫폼에서 측정된 특징리스트(예: Affymetrix human HG_U133A chip), 다른 유기체의 총 특징 수, 해당 성적서, 단백질 제품 및 그 관계와 같이 피처 세트를 서로 연관시키는 정보와 피처 그룹, 전역 고유 용어 목록 또는 유전자 또는 다른 기능에 대한 식별자 목록을 포함할 수 있다. 지식 베이스에는 일반적으로 조직, 질병 상태, 복합 유형, 표현형, 세포 및 그 관계에 대한 모든 태그(키워드)의 목록을 포함하는 분류 체계도 포함된다. 예를 들어 분류학은 암과 간암 간의 관계를 정의하고 이들 그룹과 관련된 키워드도 포함한다(예: 키워드 'neoplasm'은 '암'과 같은 의미다). 데이터베이스의 특정 내용으로 인해 지식 베이스라고도한다.
상관은 두 변수 또는 개념 사이의 의존을 포함하는 광범위한 클래스의 통계적 관계 중 임의의 것이다. 선형 관계나 인과 관계가 필요하지 않다. 그것은 두 가지 임의의 변수 또는 두 세트의 데이터 사이에 인과 관계가 아닌 모든 통계적 관계를 말한다.
예를 들어, 지식베이스에 입력된 새로운 피처 세트는 지식 베이스에 이미있는 모든 다른(또는 적어도 많은) 피처 세트와 상관된다. 상관 관계는 새로운 피처 세트와 고려 대상의 피처 세트를 특징에 따라 비교하여 일치하는 유전자에 대한 순위 또는 기타 정보를 비교한다. 일 실시예에서(피처 세트를 상관시키기 위해) 랭킹 기반 러닝 알고리즘이 사용된다. 두 가지 피처 세트를 서로 연관시킨 결과는 "스코어"다. 스코어는 지식 베이스에 저장되고 유전자, 임상 매개 변수, 약물 치료 등에 대한 질의에 응답하는 데 사용된다.
또한 상관 관계는 지식 베이스의 모든 피처 그룹에 대한 새로운 피처 세트를 상관시키기 위해 사용된다. 예를 들어, "성장" 유전자를 나타내는 피처 그룹은 약물 반응을 나타내는 피처 세트와 상관될 수 있고, 이는 약물 효과와 성장 유전자 사이의 상관 관계가 만들어지게한다.
상호 작용체라는 용어는 특정 세포에서 분자 상호 작용의 전체 세트를 지칭하는데 사용된다. 이 용어는 특히 분자간의 물리적 상호 작용(단백질 간 상호 작용, 단백질 - 단백질 상호 작용, PPI)을 말하지만 유전자 간 간접적인 상호 작용 세트를 기술할 수도 있다.
상호 작용체(interactome) 데이터는 2 개의 유전자의 상태를 관련시키는 데이터를 지칭한다. 두 유전자의 관계는 두 유전자와 다른 데이터 소스 및 연구 사이의 통계적 상관 관계를 기반으로할 수 있다. 두 유전자 사이의 상호 작용이나 관계는 기능, 구조, 생물학적 경로, 전사 인자, 프로모터 및 기타 요인과 관련이있을 수 있다.
원시 데이터(raw daa) - 이 것은 하나 이상의 샘플에 관한 정보를 제공하는 하나 이상의 실험으로부터 얻은 데이터이다. 통상적으로, 원시 데이터는 본 발명의 데이터베이스 및 시스템에서 사용하기에 적합한 지점에 이르도록 아직 처리되지 않는다. 후속 조작을 통해 그러한 데이터베이스 및 시스템에서 사용하기에 적합한 하나 이상의 "피처 세트"형태로 축소된다. 원시 데이터를 피처 세트로 변환하는 프로세스를 때때로 큐레이션이라고한다. 데이터는 종종 데이터베이스에서 태그가 지정되고 태깅은 큐레이션(curation)이라고도한다.
본원에 제시된 대부분의 실시예는 자극이 조직 또는 세포 배양과 같은 생물학적 샘플에 작용하는 생물학적 실험에 관한 것이다. 흔히 생물학적 실험은 종양 단계, 환자 병력 등과 같은 관련 임상 파라미터를 가질 것이다. 그러나, 본 발명은 생물학적 샘플에 국한되지 않으며, 예를 들어, 화학적 화합물, 다양한 유형의 합성(예: 암 세포주의 진행)에 영향을 미친다.
생물학적 또는 비 생물학적 시료로 작업할 때, 시료는 하나 이상의 자극 또는 처리에 노출되어 시험 데이터를 생성할 수 있다. 제어 데이터가 생성될 수도 있다. 수행된 특정 연구에 적절한 자극이 선택된다. 사용될 수 있는 자극의 예는 특정 물질 또는 혼합물, 방사선(모든 형태의 전자기 및 입자 복사 포함), 힘(기계적(예: 중력), 전기, 자기 및 핵 포함), 필드, 열에너지, 등이다. 자극으로서 사용될 수 있는 물질의 일반적인 예는 유기 및 무기 화합물, 핵산, 탄수화물, 단백질 및 펩타이드와 같은 생물학적 물질, 지질, 다양한 감염 제제, 상기의 혼합물 등을 포함한다. 자극의 다른 일반적인 예에는 비 주위 온도, 비 주변 압력, 음향 에너지, 모든 주파수의 전자기 방사, 특정 물질의 부족(예: 허혈과 같은 산소 부족), 일시적인 요인 등이 포함된다. 본 발명과 관련하여 특히 중요한 부류의 자극은 치료제(치료 적으로 의심되는 약제를 포함 하나이 특성을 갖는 것으로 입증되지 않은 약제 포함)에 대한 노출이다. 종종 치료제는 약물 또는 약물 후보 또는 환경에 존재하는 화합물과 같은 화학적 화합물이다. 화학적 화합물의 생물학적 영향은 유전자 발현 수준 또는 표현형 특성과 같은 특징의 변화로서 명백한다.
제안된 바와 같이, 원시 데이터는 관련 정보가 실험으로부터 생성되는 "피처"(features)를 포함할 것이다. 많은 예에서 피처는 특정 자극에 노출된 특정 조직 또는 세포 샘플의 유전자 또는 유전 정보다.
전형적인 생물학적 실험은 특정 세포 유형 또는 조직 유형과 관련된 유전자 또는 다른 피처에 대한 발현 또는 다른 정보를 결정한다. 실험 정보가 원시 데이터에서 수집될 수 있는 다른 유형의 유전적 피처에는 SNP 패턴(예: 일배 체형 블록(haplotype blocks)), 유전자의 일부(예: 엑손/인트론 또는 조절 모티프), 둘 이상의 유전자에 걸친 염색체 게놈의 영역 다른 유형의 생물학적 특징은 세포 및 세포 기관의 형태, 핵, 골지기 등과 같은 표현형 특징을 포함한다. 화학적 특징의 유형은 화합물, 대사 산물 등을 포함한다.
원시 데이터는 다양한 유형의 플랫폼(예를 들어, 유전자 마이크로 어레이, SNP 마이크로 어레이 및 단백질 마이크로 어레이, 세포 계수 시스템, 고 처리량 스크리닝(HTS: high-Throughput Screening), 등을 포함하는 다수의 마이크로 어레이 시스템 중 임의의 것)을 사용하여 다양한 유형의 실험으로부터 생성될 수 있다. 예를 들어, 올리고뉴클레오타이드 마이크로어레이는 또한 특정 유기체의 특정 세포 유형에서 다중 유전자의 발현을 결정하기 위한 실험에 사용된다. 다른 예에서, 질량 분석법은 샘플에서 단백질의 풍부를 결정하는데 사용된다.
피처 세트(feature set) - 하나 이상의 샘플에 대한 하나 이상의 실험으로부터 얻어진 "원시 데이터"로부터 도출된 데이터 세트를 지칭한다. 피처 세트는 하나 이상의 피처(일반적으로 복수 피처) 및 해당 피처에 대한 실험의 영향에 대한 관련 정보를 포함한다. 어떤 시점에서, 실험에서 자극이나 치료에 대한 반응의 상대적인 수준에 따라 또는 다른 표현형 간의 변화의 크기와 방향에 따라 그리고 다른 표현형 상태(예를 들어, 후반 종양 단계 대 초기 종양 단계)를 구별하는 그들의 능력에 기초하여, 피처 세트의 피처를 순위 결정할 수 있다.
저장 및 계산 효율의 이유로, 예를 들어, 피처 세트는 원시 데이터에 포함된 피처 또는 응답의 서브셋에 관한 정보만을 포함할 수 있다. 표시된 것처럼 큐레이션과 같은 프로세스는 원시 데이터를 피처 세트로 변환한다.
전형적으로, 피처 세트는 특정 질문 또는 문제점(예를 들어, 특정 화합물이 특정 경로에서 단백질과 상호 작용하는지)과 관련된 원시 데이터에 관련된다. 원시 데이터 및 연구에 따라 피처 세트는 단일 유기체의 단일 세포 유형으로 제한될 수 있다. "디렉토리"의 관점에서 보면 피처 세트는 "연구"에 속한다. 즉, 하나의 연구에는 하나 이상의 피처 세트가 포함될 수 있다.
많은 구체 예에서, 피처 세트는 "바이오 세트"또는 "화학 세팅"이다. 바이오 셋은 전형적으로 특정 자극 또는 치료의 생물학적 충격에 관한 정보를 제공하는 데이터를 포함한다. 바이오 셋의 특징은 전형적으로 위에 제시된 바와 같이 유전자 또는 표현형 정보의 단위이다. 이들은 자극에 대한 반응 수준(예: 표현의 위 또는 아래 조절 정도)을 기반으로하거나, 다른 표현형 사이의 변화의 크기와 방향뿐만 아니라 다른 표현형 상태(예를 들어 후기 종양 단계 대 초기 종양 단계)를 구별할 수 있는 능력에 따라 순위가 매겨진다.
유전자 및 유전자와 관련된 데이터를 포함하는 피처 세트는 유전자 세트이다. 이러한 의미에서 유전자 세트는 또한 바이오 셋의 한 유형이다.
화학 물질(chemset)은 전형적으로 화학 물질의 패널에 관한 데이터 및 이들이 어떻게 생물학적 샘플과 같은 샘플과 상호 작용하는지에 대한 데이터를 포함한다. 화학 물질(chemset)의 특징은 일반적으로 개별 화학 화합물 또는 특정 화학 화합물의 농도다. 이들 피처에 관한 관련 정보는 EC50 값, IC50 값 등일 수 있다.
피처 세트는 전형적으로 하나 이상의 피처들의 아이덴티티들에 더하여 각각의 피처에 대한 통계 정보 및 가능하게는 각 피처에 대한 공통 명칭 또는 다른 정보를 포함한다. 피처 세트는 키 피처의 연관된 설명, 사용자 - 기반 주석(user-based annotation) 등과 같은 각 피처에 대한 다른 정보 조각을 포함할 수 있다. 통계 정보는(데이터 큐레이션 단계로부터의) 피처에 대한 데이터의 p- 값, 변경 "데이터 등을 포함할 수 있다. 폴드 변화는 시험 또는 대조군 실험에서 발현이 증가 또는 감소하는 횟수(배수량)를 나타낸다(예를 들어, 특정 유전자의 발현은 치료에 따라 4 배 증가 하였다). 피처 세트에는 변경 표시가 아닌 "정상 상태"를 나타내는 피처가 포함될 수도 있다. 예를 들어,한 세트의 피처 세트는 대부분의 인간 조직에서 "정상적이고 균일한" 발현 수준을 갖는 유전자 세트를 포함할 수 있다. 이 경우, 피처 세트는 반드시 변경을 나타내는 것이 아니라 오히려 그것의 부족을 나타낼 것이다.
특정 실시예에서, 랭크는 적어도 일시적으로 각각의 특징에 기인한다. 이는 단순히 피처 세트의 피처 그룹 내에서 상대적으로 반응하는 척도 일 수 있다. 예를 들어, 순위는 대조군의 특성과 시험 실험의 표현 사이의 상대적 차이(위 또는 아래 조절)의 척도가될 수 있다. 특정 실시예에서, 랭크는 피처 응답의 절대 값과 독립적이다. 따라서, 예를 들어, 하나의 피처 세트는 반응이 1.5 배 증가한 피처 순위 2 번을 가질 수 있는 반면, 다른 피처 세트는 다른 자극에 대한 반응이 5 배 증가한 동일한 피처 순위 10 번을 갖는다.
방향성 피처 세트 - 방향성 피처 세트는 피처에서의 변화 방향에 관한 정보를 포함하는 피처 세트이다. 예를 들어, 양방향 피처 세트에는 어떤 피처가 상향 조절되고 어떤 피처가 조절 피처에 응답하여 하향 조절되는지에 대한 정보가 들어 있다. 양방향 피처 세트의한 예는 정상 상태에 비해 특정 질병 상태 또는 비처 료에 대해 처리된 샘플에서 상향 및 하향 조절된 유전자에 대한 정보를 포함하는 유전자 발현 프로파일이다. 본원에 사용된 용어 "상향 조절된"(upregulated) 및 "하향 조절된"(downregulated) 및 유사한 용어는 유전자 또는 단백질 발현에 한정되지 않고, 피처의 상이한 영향 또는 반응을 포함한다. 예로는 유전자 발현 수준이나 표현형 특성과 같은 피처의 변화로 나타나는 화학 물질 또는 기타 자극의 생물학적 영향이 포함 되나 이에 국한되지는 않습니다.
무 방향성 피처 세트는 그 특징의 변화 방향을 표시하지 않는 특징을 포함한다. 여기에는 일부 유형의 생물학적 반응을 측정하는 다양한 생물학적 측정뿐만 아니라 유전자 발현이 포함된다. 예를 들어, 무 지향성 피처 세트는 그 변화의 방향(위 또는 아래)을 나타내지 않고 자극에 반응하여 변화되는 유전자를 포함할 수 있다. 무 방향성 피처 세트는 상향 조절된 피처만, 하향 조절된 피처만, 또는 상향 및 하향 조절된 피처 모두를 변화 방향 표시없이 가질 수 있어서, 모든 피처가 변화 크기에만 기초하여 고려된다.
피처 그룹(feature group) - 이것은 서로 관련된 피처들의 그룹(예를 들어, 유전자들)을 지칭한다. 예를 들어 피처 그룹의 멤버는 모두 특정 셀의 동일한 단백질 경로에 속할 수 있거나 공통 피처 또는 공통 구조적 피처를 공유할 수 있다. 피처 그룹은 그 작용 메카니즘 또는 구조/결합 특징에 기초하여 화합물을 그룹화할 수도있다.
인덱스 세트 - 인덱스 세트는 피처 식별자 및 매핑 식별자를 포함하는 지식 베이스의 세트이며, 가져온 피처 세트의 모든 피처를 이미 지식베이스에 있는 피처 세트 및 피처 그룹으로 매핑하는데 사용된다. 예를 들어, 인덱스 집합은 수십만 개의 매핑 식별자를 가리키는 수백만 개의 피처 식별자를 포함할 수 있다. 각각의 매핑 식별자(어떤 경우에는 주소라고도 함)는 고유한 특징, 예를 들어 마우스 게놈의 고유한 유전자를 나타낸다. 특정 실시예에서, 인덱스 세트는 고유한 식별자 또는 어드레스에 대한 포인터를 각각 갖는 다양한 유형의 특징 식별자(예를 들어, 유전자, 유전 영역 등)를 포함할 수 있다. 새로운 지식을 습득할 때 색인 집합을 추가하거나 변경할 수 있다.
준비(Curation) - 준비(Curation)는 원시 데이터를 하나 이상의 피처 세트(또는 피처 그룹)로 변환하는 프로세스이다. 경우에 따라 실험을 통해 원시 데이터에 포함된 데이터의 양이 크게 줄어든다. 의미가 없는 피처에 대한 데이터를 제거한다. 특정 구현예에서 이는 대조군과 시험 실험 사이의 발현이 현저하게 증가 또는 감소하지 않는 특징은 특징 군에 포함되지 않는다는 것을 의미한다. 큐레이션 프로세스는 이러한 피처를 식별하여 원시 데이터에서 제거한다. 또한 큐레이션 프로세스는 피처 세트를 정의하는 데 사용되는 원시 데이터의 관련 임상 질문을 식별한다. 또한 큐레이션은 지식 베이스에서 사용하기 위해 적절한 표준 형식으로 설정된 피처를 제공한다.
데이터 임포트 - 데이터 임포트는 피처 세트 및 피처 그룹을 시스템 내의 지식 베이스 또는 다른 저장소로 가져 오는 프로세스이며, 지식 베이스를 구축하는 중요한 동작이다. 사용자 인터페이스는 실험, 특정 연구 및/또는 프로젝트와의 연관성, 실험 플랫폼(예: Affymetrix 유전자 칩)을 사용자가 지정할 수 있도록하여 데이터 입력을 용이하게하고, 태그에 대한 주요 개념을 식별할 수 있다. 특정 실시예에서, 데이터 임포트는 또한 임포트된 데이터를 이미 시스템 내의 데이터에 매핑하는 것뿐만 아니라 태깅 데이터의 자동화된 동작을 포함한다. 이후의 "사전 처리"(가져 오기 후)는 가져온 데이터(예: 가져온 피처 세트 및/또는 피처 그룹)를 다른 피처 세트 및 피처 그룹과 연관시킨다.
전처리(preprocessing) - 전처리는 지식베이스 내의 피처 세트 쌍 사이의 통계적 관계를 식별하고 저장하기 위해 피처 세트를 조작하는 것을 수반한다. 전처리는 지식 베이스의 피처 세트와 피처 세트 사이의 통계적 관계를 식별하고 저장하는 작업을 포함할 수도 있다. 특정 실시예에서, 전처리는 새로이 임포트된 피처 세트를 다른 피처 세트 및 지식 베이스의 피처 그룹에 대해 상관시키는 것을 포함한다. 전형적으로, 통계적 관계는 상이한 세트의 모든 피처 세트 및 피처 세트 및 피처 그룹의 모든 조합에 대해 사전 계산되고 저장되지만, 본 발명은 이러한 완전한 상관 관계의 레벨에 제한되지 않는다.
일 실시예에서, 통계적 상관은 랭크 기반 농축 통계를 사용하여 이루어진다. 예를 들어, 특정 실시예에서는 정확한 테스트를 사용하는 랭크 기반 반복 알고리즘이 사용되지만, 피처 세트 간의 오버랩의 크기와 같은 다른 유형의 관계가 사용될 수도 있다. 당 업계에 공지된 다른 상관 방법이 또한 사용될 수 있다.
예를 들어, 지식베이스에 입력된 새로운 피처 세트는 지식 베이스에 이미있는 모든 다른(또는 적어도 많은) 피처 세트와 상관된다. 상관 관계는 해당 유전자에 대한 순위 또는 기타 정보를 비교함으로써 새로운 피처 세트와 고려중인 피처 세트를 피처 단위로 비교한다. 일 실시예에서, 피처 세트를 상관시키기 위해 랭크 기반 반복 알고리즘(rank-based iterative algorithm)이 사용된다. 두 가지 피처 세트를 서로 연관시킨 결과는 "스코어"다. 스코어는 지식 베이스에 저장되고 질의에 응답하는 데 사용된다.
연구/프로젝트/라이브러리 - 특정 실시예에서 사용될 수 있는(디렉토리와 같은) 데이터 컨테이너의 계층이다. 연구에는 집중 실험 세트에서 얻은 하나 이상의 피처 세트(예: 특정 심혈관 목표와 관련된 실험)가 포함될 수 있다. 프로젝트는 하나 이상의 연구(예:한 회사 내의 전체 심혈관 활동)를 포함한다. 라이브러리는 지식 베이스의 모든 프로젝트 모음이다. 최종 사용자는 다양한 수준의 계층간에 경계를 정의할 때 유연성을 갖는다.
매핑 - 매핑은 피처 세트에서 피처(feature)(예를 들어, 유전자)를 취하여이를 지식베이스 내의 전역적으로 고유한 매핑 식별자에 매핑한다. 예를 들어, 두 개의 서로 다른 피처 세트를 생성하는 데 사용되는 실험 데이터의 두 세트는 동일한 유전자에 대해 다른 이름을 사용할 수 있다. 본 명세서에서 종종 지식베이스는 인덱스 세트에서 전역 적으로 고유한 매핑 식별자의 포괄적 인 목록을 포함한다. 매핑은 피처에 대한 지식 베이스의 전역적 고유 매핑 식별자를 사용하여 서로 다른 피처 이름 또는 ID 간의 연결을 설정한다. 특정 실시예에서, 피처는 복수의 전역 적으로 고유한 매핑 식별자로 매핑될 수 있다. 예를 들어, 유전자는 또한 특정 유전 영역에 대한 전역 적으로 유일한 매핑 식별자에 매핑될 수 있다. 매핑을 사용하면 다양한 유형의 정보(즉, 상이한 플랫폼, 데이터 유형, 및 유기체로부터 상이한 피처)를 서로 연결할 수 있다. 지도 작성 방법에는 여러 가지가 있으며, 그 중 일부는 아래에 자세히 설명되어 있다. 하나는 세계적으로 유일한 유전자의 동의어 검색이다. 다른 하나는 유전자 서열의 공간적인 중첩을 포함한다. 예를 들어 피처 세트의 피처의 유전자 또는 염색체 좌표는 지식 베이스의 색인 세트에서 매핑된 피처의 좌표와 겹칠 수 있다. 또 다른 유형의 매핑에는 피처 세트의 유전자를 색인 집합의 유전자에 간접 매핑하는 것이 포함된다. 예를 들어, 실험에서 유전자는 지식 베이스의 조절 서열과 겹칠 수 있다. 그 조절 서열은 차례로 특정 유전자를 조절한다. 따라서 간접 매핑을 통해 실험 시퀀스는 지식 베이스의 해당 유전자에 간접적으로 매핑된다. 간접적 인지도 작성의 또 다른 형태는 피처 세트에서 고려중인 실험 유전자로 설정된 색인에서 유전자의 근접성을 결정하는 것을 포함한다. 예를 들어, 실험 피처 좌표는 지식 베이스 유전자의 100 기본 쌍 내에 있을 수 있으며, 따라서 그 유전자에 매핑될 수 있다.
지식 베이스
도 1은 본 발명의 다양한 실시예에 따른 과학 정보의 지식베이스 내의 다양한 요소의 표현을 도시한다. 이들 요소 중 일부(예를 들어, 피처 세트 및 피처 세트 점수화 표)의 생성 또는 추가의 예는 전술한 미국 특허 출원 제 11/641,539 호(미국 특허 공개 20070162411 호로 공개됨)에서 논의된다. 지식 베이스에는 데이터 가져 오기 프로세스 중에 피처를 매핑하는 데 사용되는 인덱스 세트같은 다른 요소도 포함될 수 있다. 도 1에서, 요소(104)는 지식베이스 내의 모든 피처 세트를 나타낸다. 미국 특허 공개 제 20070162411 호에 기술된 바와 같이, 데이터 임포트 이후에, 피처 세트는 전형적으로 적어도 피처 세트 명칭 및 피처 표를 포함한다. 피처 표에는 피처 목록이 포함되며 각 피처는 일반적으로 가져온 ID 및/또는 피처 식별자로 식별된다. 각 피처에는 피처 식별자의 정규화된 순위와 매핑 식별자가 있다. 매핑 식별자들 및 랭크들은 예를 들어 미국 특허 공개 20070162411에 기술된 바와 같이 임포트 프로세스 동안 결정될 수 있고, 그 다음 피처 세트들 간의 및 피처 세트들 및 피처 그룹들 간의 상관 스코어들을 생성하는데 사용될 수 있다. 또한 피처 표에는 일반적으로 각 피처과 관련된 통계(예: p- 값 및/또는 변형)가 포함된다. 이러한 통계 중 하나 이상을 사용하여 각 피처의 순위를 계산할 수 있다. 특정 실시예에서, 랭크는 정규화될 수 있다. 피처 세트에는 연관된 연구 명칭 및/또는 태그 목록이 포함될 수도 있다. 피처 세트는 공개 소스 또는 내부 소스에서 가져온 데이터로부터 생성될 수 있다.
요소(106)는 지식 베이스 내의 모든 피처 그룹을 나타낸다. 피처 그룹은 피처 그룹 이름과 서로 관련된 피처(예: 유전자) 목록을 포함한다. 피처 그룹은 전형적으로, 공용 자원(예를 들어, 표준 신호 경로, 단백질 패밀리 등)으로부터 일반적으로 잘 정의된 피처 세트를 나타낸다. 피처 세트와 달리, 피처 그룹은 통상적으로 연관된 통계 또는 순위를 갖지 않는다. 피처 세트는 연관된 연구 명칭 및/또는 태그 목록이 포함될 수도 있다.
요소(108)는 점수화 표를 나타내며, 점수화 표는 각 피처 세트와 다른 피처 세트 각각 사이 및 각 피처 세트와 각 피처 그룹 사이의 상관 측정치를 포함한다. 도면에서, FS1-FS2는 피처 세트 1과 피처 세트 2 사이의 상관 관계의 척도이고, FS1-FG1은 피처 세트 1과 피처 그룹 1 사이의 상관 척도이다. 특정 실시예에서, 척도는 p- 값 또는 p 값에서 파생된 순위 스코어이다.
요소(110)는 상이한 조직, 질병 상태, 화합물 유형, 표현형, 세포 및 다른 표준 생물학적, 화학적 또는 의학적 개념 및 이들의 관계에 대한 태그 또는 과학 용어를 포함하는 택소노미 또는 온톨로지이다. 태그는 일반적으로 그림과 같이 계층적 구조로 구성된다. 그러한 구조의 예는 Diseases/Classes of Diseases/Specific Diseases in each Class다. 지식 베이스에는 각 태그와 관련된 모든 피처 세트 및 피처 그룹 목록이 포함될 수도 있다. 계층적 구조의 태그와 카테고리 및 하위 카테고리는 개념으로 언급될 수 있도록 배열된다. 온톨로지의 대표적인 개략도가 도 2에 도시되어있다. 도 2에서, 구조의 각 노드는 의료, 화학 또는 생물학적 개념을 나타낸다. 노드(202)는 상위 레벨 카테고리를 나타내며, 노드(208)에 의해 지시된 최하위 레벨의 개념까지 다른 노드에 의해 지시된 차일드 또는 서브-카테고리가 트리를 따라 내려간다. 이러한 방식으로 과학적 개념이 카테고리화된다. 예를 들어 2 기 유방암의 분류는 질병/증식 성 질환/암/유방암/2 기 유방암 일 수 있으며 질병은 최상위 카테고리다. 질병, 증식 성 질환, 암, 유방암 및 2 기 유방암은 데이터베이스의 다른 정보를 태그하는 데 사용할 수 있는 의학 개념이다. 택소노미(Taxonomy)는 Medical Subject Headings(MeSH) 분류법, Snomed, FMA(해부학의 기초 모델), PubChem 피처, 개인적 분류법 또는 이들의 조합과 같은 공개적으로 사용 가능한 분류법 수 있다. 최상위 카테고리의 예로는 질병, 조직/장기, 치료법, 유전자 변형 및 피처 그룹이 있다.
요소(112)는 개념 점수화 표이며, 각 개념의 관련성 또는 각 개념과 피처, 피처 세트 및 피처 그룹과 같은 데이터베이스의 다른 정보와의 상관 관계를 나타내는 스코어를 포함한다. 도 2에 도시된 실시예에서, 도 1에서, 각 특징에 대한 택소노미의 각 개념의 관련성을 나타내는 스코어는 114로 표시되고, 각 피처 세트에 대한 택소노미의 각 개념의 관련성을 나타내는 스코어는 116에 표시되고, 택소노미에서 각 개념의 관련성을 나타내는 스코어(도 1에 나타낸 다른 요소들과 마찬가지로, 개념 점수화의 조직 구조는 일례이고, 다른 구조들도 점수화를 저장하거나 제시하는데 사용될 수 있다.) 도면에서, F1 -C1은 개념 1과 피처 1의 관련성을 측정한 것으로, FS1-C1은 개념 1과 피처 세트 1의 관련성을 측정한 값이며, FG1-C1은 피처 그룹 1에 대한 개념 1과의 관련성 측정치이다. 특정 실시예에서, 개념 점수화 표는 적어도 일부 개념과 모든 또는 다른 복수 개념의 각각과의 관련성 또는 상관에 관한 정보를 포함한다.
이하에서 더 설명하는 바와 같이, 스코어는 지식베이스에 대한 사용자 질의에 사용하기 위해 저장된다. 개념 점수화를 사용하면 과학자가 지식 베이스를 질의하여 관심있는 질의에 대해 가장 관련성이 높은 조건을 필터링할 수 있다. 사용자는 관심있는 검색어와 관련된 상위 질병 상태, 조직, 치료 및 기타 항목을 신속하게 식별할 수 있다. 또한 아래에 설명 된대로 개념 점수화를 사용하면 개념과 관련된 가장 관련성이 높은 피처, 피처 세트 및 피처 그룹을 찾기 위해 개념을 질의할 수 있다.
일반적으로, 개념 점수화는 i) 고려중인 개념을 갖는 모든 피처 세트를 식별하고, ii) 식별된 피처 세트 내의 정규화된 피처 세트 또는 다른 피처 세트 또는 피처 그룹의 사전 계산된 상관 스코어를 식별된 피처 세트를 고려하여 각 피처, 피처 세트 및 피처 그룹에 대한 고려 대상 개념의 관련성을 나타내는 스코어를 결정한다. 그런 다음 개념 스코어를 사용하여 특정 피처 인 Feature Set 또는 Feature Group에 대해 가장 관련있는 개념을 신속하게 식별할 수 있다. 특정 실시예에서, 관련성이 낮은 피처 세트는 스코어를 결정하기 전에 제거된다. 예를 들어, 세포주에서 수행된 실험은 세포주의 원래 질병 조직원과는 거의 관련이 없을 수 있다. 따라서, 특정 실시 양태에서, 질병 개념에 대한 스코어를 계산할 때 이 세포주에서 수행된 실험과 관련된 피처 세트가 제외될 수 있다.
개념 점수화(Concept Scoring)
도 3-5는 특정 실시예에 따라 피처(도 3), 피처 세트(도 4) 및 피처 그룹(도 5)에 대한 가장 관련있는 개념을 결정하는 방법의 동작을 나타내는 프로세스 흐름도이다. 이들 방법은 예를 들어, 도 1에 나타낸 바와 같이 개념 점수화 표를, 또는 개념 스코어를 저장하는 일부 다른 형태를 채우기 위해 사용될 수 있다. 아래에 설명된 것처럼 저장된 스코어는 피처, 피처 세트 또는 피처 그룹에 대한 사용자 질의에 응답하는 데 사용될 수 있다. 도 3-5에서는 사용자 질의 이전에 수행된 개념 점수화에 대해 설명하고 있지만 모든 지식 베이스에는 기술의 각 피처, 피처 세트 및 피처 그룹에 대해 가장 관련있는 개념에 대한 정보가 포함되어 있으므로 점수화가 또한 하나 이상의 피처, 피처 세트 또는 피처 그룹을 식별하는 사용자 질의에 대한 응답으로 즉석에서 수행된다. 일단 결정되면, 이 정보는 해당 피처를 수반하는 차후 질의에 응답하는데 사용하기 위해 도 1에 도시된 바와 같이 저장될 수 있고, 또는 폐기될 수 있다.
도 3은 특정 실시예에 따라 유전자, 화합물 등과 같은 개개의 피처에 대한 개념의 관련성을 결정하는 방법을 나타낸다. 도시된 바와 같이, 프로세스는 분류(taxonomy)에서 "다음(next)" 개념을 식별하는 동작(301)에서 시작한다. 전형적으로, 프로세스는 택소노미의 각 개념을 고려할 것이다. 프로세스는 다음으로 지식 베이스의 "다음" 피처를 식별한다. 블록 303을 참조할 수 있다. 프로세스는 일반적으로 지식 베이스의 각 피처를 고려한다. 이 프로세스는 전형적으로 개념 및 피처의 각 가능한 쌍에 대한 스코어를 결정하고, 따라서 도 3의 2 개의 루프에 의해 표시된 바와 같이 모든 가능한 조합에 대해 반복한다. 현재 반복에 대한 개념 및 피처를 설정한 후, 프로세스는 다음과 같이 태그가 지정된 모든 피처 세트를 식별한다. 1) 현재 개념 또는 2) '하위 개념. 따라서, 예를 들어, 도 2에 도시된 바와 같이, 노드(206)에 표현된 개념이 고려되고있는 경우,이 개념으로 태그된 모든 피처 세트 및/또는 그 차일드 노드(208a, 208b 및 208c)에 표현된 개념 중 하나 이상이 식별된다. 특정 예를 들어, "2 단계 유방암"이라는 개념으로 만 태그된 피처 세트는 '부모 개념'인 유방암의 개념 인 '2 단계 유방암'으로 식별된다.
아래에서 더 논의되는 바와 같이, 식별된 피처 세트는 개념에 덜 관련되거나 결과를 왜곡할 수 있는 피처 세트를 제거(또는 특정 실시예에서 재 계량)하기 위해 필터링된다. 식별된 피처 세트를 필터링한 후, 필터링된 피처 세트, 즉 덜 관련있는 피처 세트를 제거한 후에 남아있는 피처 세트에 대해 현재 특징의 정규화된 랭크를 얻는다. 블록(309)을 참조할 수 있다. 미국 특허 공개 20070162411에 기술된 바와 같이, 피처 세트의 피처들은 전형적으로 피처 세트와 관련된 실험에서 피처상의 또는 피처에 의한 상대적 효과에 기초하여 순위가 정해진다. 예를 들어, 도 1의 개략도에서, 피처 세트(104)는 그 피처들의 랭킹을 포함한다. 특정 실시예에서, 정규화된 랭크를 얻는 단계는 필터링된 피처 세트의 각각에서 피처의 랭크를 식별, 검색 또는 수신하는 단계를 포함한다. 예를 들어, 주어진 피처 Fn 및 주어진 개념 Cm에 대해, Cm 및/또는 적어도 그의 차일드 개념으로 태그된 25 개의 피처 세트가 존재할 수 있다. 25 개의 피처 세트 중 10 개에 Fn이 포함될 수 있다. 각 Feature Set에서 Fn의 정규화된 순위가 얻어진다. 예를 들어, 1/20, null, 4/8 등은 제 1 필터링된 피처 세트에서 20 개의 피처 중 1 개의 정규화된 순위를 나타내며 제 2 필터링된 피처 세트, 제 3 필터링된 피처 세트의 4/8 피처의 정규화된 순위 등이 있다(표준화된 등급의 예다. 피처 세트 크기, 측정 피처의 수를 포함하여 여러 기준을 사용하여 순위를 정규화할 수 있음). 플랫폼에 대한 플랫폼 및 기타 관련 기준 표준화된 순위를 사용하면한 피처 세트의 피처의 중요성을 상대 피처의 크기 및 기타 차이에 관계없이 다른 피처 세트의 해당 피처의 중요성과 비교할 수 있다. 이들 스코어가 얻어진 후에, 개념과 그 피처와의 관련성을 나타내는 전체 스코어 Fn-Cm이 얻어진다. 특정 실시예에서, 최종 피처 개념 스코어의 계산에 사용된 기준은 다음의 속성을 포함한다: "포함" 기준을 통과하는 개념으로 태그된 각 피처 셋 내의 그 피처의 정규화된 랭크, "포함" 기준을 통과하는 이 피처를 지닌 피처 세트의 총 개수, 및 이 개념으로 태그된 피처 세트의 총 개수.
전체 스코어 Fn-Cm은 예를 들어 도 1에 도시된 개념 점수화 표에 저장된다. 모든 피처에 대한 반복은 결정 블록(313)에서 지시된 바와 같이 제어되고 모든 개념에 대한 반복은 결정 블록(315)에서 지시된 바와 같이 제어된다. 도 3에서, 반복은 내부 또는 외부 루프 일 수 있다. 도 3에 도시된 방법은, 지식베이스의 분류와 특징에 있는 모든 개념 조합을 반복한다. 그러나, 다른 실시예들에서, 개념 스코어가 계산되는 특징들 및/또는 택소노미 개념들의 서브 세트 만이 존재할 수 있다.
도 4는 특정 실시예에 따라 피처 세트에 대한 개념의 관련성을 결정하는 방법을 도시한다. 유사하게, 특징 개념 점수화에 대해, 프로세스는 분류(taxonomy)에서 "다음(next)" 개념을 식별하는 동작(401)에서 시작한다. "다음"피처 세트는 또한 동작(403)에서 식별된다. 프로세스는 전형적으로 모든 가능한 피처 세트 - 개념 쌍을 점수화한다. 특징 현재 개념(및/또는 그의 차일드)으로 태그된 세트는 도 3과 관련하여 상술한 바와 같이 식별되고 필터링된다. 블록(405 및 407)을 참조할 수 있다. 현재의 피처 세트(즉, 동작(403)에서 식별된 피처 세트)와 태그되고 필터링된 피처 세트 각각 사이의 상관 관계를 나타내는 스코어가 얻어진다. 많은 실시예에서, 이들 스코어는 미국 특허 공개 20070162411에 기술된 바와 같이 계산된 상관 스코어이다. 많은 실시예에서, 이들은 도 1에 도시된 표(106)과 같은 상관 행렬 또는 표 점수화로부터 얻어진다. 현 피처 세트에 대한 현 개념의 관련성을 표시하는 전체 스코어 FSn-Cm이 동작(409)에서 얻은 상관 스코어에 기초하여 계산된다. 소정의 실시예에서, 최종 피처 세트 - 개념 스코어의 계산에 사용된 기준은 개념으로 태그된 피처 세트의 총 수와, "포함" 기준을 통과하는 관심 피처 세트와의 0이 아닌 상관 관계를 제공하는 피처 세트의 총 수와, "포함" 기준을 통과하는 주어진 개념으로 태그된 각각의 피처 세트와 연구 대상 피처 세트 사이의 상관 스코어를 포함한다. 그런 다음 사용자 질의에 응답하는 데 사용하기 위해 전체 스코어를 저장할 수 있다. 피처 세트 및 개념 반복은 결정 블록(413 및 415)에 의해 제어된다.
도 5는 본 발명의 특정 실시예에 따라 피처 그룹에 대한 개념의 관련성을 결정하는 방법을 나타낸다. 이 방법은 도 4에 도시된 피처 세트에 대한 개념 점수화를 반영한다. 피처 세트 대신 피처 그룹을 반복한다. 블록 501-515를 참조할 수 있다. 현재의 피처 그룹과 필터링된 피처 세트 사이의 상관 관계를 나타내는 스코어는 도 1에 도시된 바와 같이 상관 행렬 또는 점수화 표로부터 획득될 수 있다.
피처, 피처 세트 및 피처 그룹에 대한 개념 점수화는 각 개념에 대해 개념으로 태그된 피처 세트를 식별하고 이들 피처 세트를 필터링하여 개념에 덜 관련되거나 왜곡될 수 있는 특정 피처 세트를 제거한다. 이러한 동작은 블럭 309 및 311, 409 및 411, 및 509 및 511에 도시된 바와 같이 수행된 원하는 피처, 피처 세트 및/또는 피처 그룹 점수화로 각 개념에 대해 수행될 수 있다.
전술한 바와 같이, 특정 실시예에서, 상기 방법은 특정 피처 세트를 배제하기 위해 특정 개념으로 태그된 피처 세트를 필터링하는 단계를 포함한다. 예를 들어 간과 같은 장기에 관련된 개념의 경우 간염이있는 피처 세트를 제외하고 건강한 또는 정상적인 간 조직과 관련된 피처 세트 만 포함하는 것이 좋다. 다양한 실시예들에 따르면, 피처 세트들은 다음 중 하나 이상에 기초하여 필터링될 수 있다:
특정 택소노미에 태그를 갖는 피처 세트를 배제한다(예: 기관으로 또는 조직의 개념 스코어에 기여하는 것으로부터 질병으로 태그된 모든 피처 세트를 제외 함).
주어진 택소노미의 특정 브랜치 또는 태그들의 특정 조합에 태그들을 갖는 피처 세트들의 배제
예를 들어, 너무 일반적이기 때문에, 카테고리 로직으로부터 특정 카테고리를 배제한다. 예를 들어, "질병"과 같은 개념은 특별히 유용하지 않다. 결과에 나타나서는 안되는 그러한 개념의 "블랙리스트"가 생성되어 범주를 필터링하는 데 사용될 수 있다.
전술한 바와 같이, 특정 실시 양태에서, 최상위 카테고리는 질병, 치료 및 조직/장기의 전부 또는 일부를 포함한다. 개별 피처 세트에는 이러한 카테고리 중 일부 또는 전체의 태그가 있을 수 있다. 예를 들어, 다음과 같은 태그 조합을 갖는 피처 세트는 다음 논리에 따라 필터링될 수 있다.
Figure pct00004
상기 논리는 조직/기관의 개념 스코어에 기여하는 것으로부터 "질병" 또는 "치료"로 분류된 태그를 갖는 피처 세트를 배제한다. 위에서 논의한 바와 같이, 이것은 이러한 기관의 질병 및/또는 치료와 관련된 피처 세트가 개념 스코어에 기여하지 않도록하기 위한 것이다.
결정 로직은 고려중인 실험 데이터/모델의 유형에 기초할 수 있다. 상기한 바와 같이, 세포주에서 수행된 실험은 세포주에 대한 원래의 질병 조직 공급원과 거의 관련이 없을 수 있다. 따라서, 원래의 질병 개념으로 태그된 세포주 피처 세트는 그 질병의 개념 스코어에 기여하도록 허용된 경우 질병과 무관한 효과로 통계를 왜곡할 수 있다. 예를 들어, 다양한 종류의 화합물로 치료한 MCF7 유방암 세포와 관련하여 수 백 가지의 바이오 셋(피처 세트)이 존재할 경우이를 필터링하지 않고 "유방암"개념에 대해 스코어를 계산할 때 상당한 편견이 있다. 이 경우 특성 집합을 필터링하려면 특정 질병 개념이 점수화될 때 분류학의 특정 분기를 제외해야할 수 있다.
데이터 유형
여기에 설명된 방법, 계산 시스템 및 사용자 인터페이스는 매우 다양한 원시 데이터 소스 및 플랫폼과 함께 사용될 수 있다. 예를 들어, RNA 및 miRNA 발현, SNP 유전자 타이핑, 단백질 발현, 단백질-DNA 상호 작용 및 염색체 영역 플랫폼의 메틸화 데이터 및 증폭/결실을 포함하는 마이크로 어레이 플랫폼이 본원에 기재된 방법에 사용될 수 있다. 마이크로 어레이는 일반적으로 DNA 올리고 뉴클레오타이드, miRNAs, 단백질, 화학 화합물 등을 포함하여 수백 또는 수천 가지의 다른 포획 제제를 포함하며, 기질에 부착되어 배열되고, 나노 웰 등의 위치 파악을 통해 분석 물 용액을 분석한다. 플랫폼에는 DNA 올리고 뉴클레오타이드, miRNA(MMChips), 항체, 펩타이드, 아프타 머, 지질, 항체 및 단백질, 화합물, 조직 등을 포함한 세포 상호 작용 물질의 배열이 포함된다. 원시 데이터 소스의 또 다른 예에는 QPCR(Quantitative Polymerase Chain Reaction)(CNV) 검출 플랫폼, 염색체 이상(증폭/결실) 검출 및 전체 게놈 시퀀싱과 같은 다양한 유전자 발현 플랫폼을 제공한다. QPCR 플랫폼은 전형적으로 뉴클레오타이드 주형, 중합 효소 및 다른 시약이 DNA 또는 RNA를 증폭하기 위해 사이클링되고이어서 정량화되는 열 순환기를 포함한다. 카피 수 변화는 형광 인 시츄(in situ) 하이브리드 화, 비교 게놈 하이브리드 화, 어레이 비교 게놈 하이브리드 화 및 대규모 SNP 유전자 타이핑을 포함한 기술로 발견할 수 있다. 예를 들어, 형광 프로브 및 형광 현미경을 사용하여 염색체상의 특정 DNA 서열의 존재 또는 부재를 검출할 수 있다.
특정 실시 양태에서, 세포에 대한 화합물 효과의 스크리닝, 동물 조직에 대한 화합물 효과의 스크리닝 및 화합물, DNA 및 단백질 간의 상호 작용 스크리닝을 포함하는 높은 함량 및 높은 처리량의 화합물 스크리닝 데이터가 본원에 기재된 방법 및 시스템에 따라 사용된다. 높은 처리량 검사는 수백만 가지의 생화학적, 유전 학적 또는 약리학적 검사를 수행하기 위해 로봇, 액체 처리 장치 및 자동화된 프로세스를 사용한다. 특정 HTS 스크리닝에서, 마이크로 타이 터 플레이트상의 웰 내의 화합물은 단백질, 세포 또는 배아와 같은 분석 물로 채워진다. 잠복기 후에, 분석 물에 대한 화합물의 상이한 영향을 결정하기 위해 플레이트 웰을 측정한다. 그런 다음 측정 결과는 지식 베이스에서 가져 오기 및 사용을위한 피처 세트로 형성될 수 있다. 고감도 스크리닝은 유동 세포 계측기 및 컴퓨터 시스템과 함께 자동화된 디지털 현미경을 사용하여 이미지 정보를 수집하고 분석할 수 있다.
여기에 기술된 방법, 계산 시스템 및 사용자 인터페이스는 다양한 연구, 약물 개발, 전임상 및 임상 연구 응용에 사용될 수 있다. 예를 들어, 질병과 같은 개념을 조회함으로써, 관련성 높은 유전자 및 생물학적 경로가 표시될 수 있다. 이러한 유전자 또는 경로는 가능한 약물 치료 후보 물질을 찾기 위해 화합물에 대해 질의될 수 있다. 여기에 설명된 방법과 시스템이 없으면 이러한 연구 경로를 사용할 수 없다. 훨씬 더 복잡한 진행 및 연결도 가능한다. 그러한 응용의 비 제한적 예는 질병과 관련된 유전자, 질병에 관련된 경로, 및 질병에 관련된 환경 영향의 식별, 전개 및 질병 진전 메커니즘 이해, 종 다양성 및 종간 비교 연구, 새로운 약물 표적 식별, 질병 및 치료 반응 바이오 마커 확인, 기존 화합물의 대체 적응증 확인, 약물 독성 예측, 약물 작용 메커니즘 확인, 염색체 부위의 증폭 또는 결실 확인 등이 있다.
본원에 기술된 방법 및 시스템에 의해 가능하게되는 전-임상 및 임상 연구의 추가의 예는 환자의 약물 반응 및 약물 대사를 예측하는 흡수, 분포, 대사 및 배설(ADME), 질병 카테고리로의 환자 층화, 보다 정확하게 환자 층화, 환자 질병 단계, 조기 질병 탐지 및 예방 의학을 가능하게하는 조기 질병 바이오 마커 식별, 환자의 유전 정보를 사용하여 질병, 약물 반응 또는 다른 표현형의 가능성을 추정하는 것을 포함한다. 예를 들어, 특정 실시 양태에서, 임상의는 유전자 프로파일 정보를 얻기 위해 마이크로 어레이를 사용한다. 유전자 프로필 정보는 지식 베이스로 피처 세트로 가져올 수 있다. 상기 방법 및 시스템은 지식베이스 내의 모든 다른 지식에 대한 그 피처 세트의 즉각적인 상관 관계를 포함하고, 상술한 바와 같은 관련 개념에 대한 질의를 포함한다. 질의 결과는 위에서 설명한대로 탐색 및 확장될 수 있다.
다중 구성 요소 프레임워크
도 6은 실험 유전자 데이터(602), 인 실리코 유전자 데이터(604) 및 지식 베이스 유전자 데이터(606)를 사용하여 유전자에 대한 요약 스코어를 얻는 구현을 개략적으로 도시한다. 요약 스코어는 표현형과 같은 관심 개념과 관련되거나 관련된 유전자를 식별하기 위해 유전자의 순위를 매기는 데 사용될 수 있다.
일부 구현예에서, 실험 유전자 데이터(602)는 데이터베이스로부터의 유전자 세트를 포함하며, 복수의 유전자 세트의 각각의 유전자 세트는 복수의 유전자 및 복수의 유전자와 관련된 다수의 실험값을 포함한다. 복수의 실험값은 생물학적, 화학적 또는 의학적 관심 개념에 영향을 받거나 상관 관계가 있다. 일부 구현예에서, 인 실리코 유전자 데이터(604)는 실험 유전자 데이터(602)로부터 얻어진다. 일부 구현예에서, 지식 베이스 유전자 데이터는 실험적 유전자 데이터를 갖는 데이터베이스와는 별도의 추가 데이터베이스 또는 외부 데이터베이스로부터 얻어진다. 일부 구현예에서, 지식 베이스 유전자 데이터는 실험적 유전자 데이터와 동일한 데이터베이스에 저장될 수 있다. 일부 구현예에서, 지식 베이스 유전자 데이터는 유전자 세트 데이터를 포함한다. 일부 구현예에서, 지식 베이스 유전자 데이터(606)는 유전자 네트워크 데이터를 포함한다. 일부 구현예에서, 지식 베이스 유전자 데이터는 유전자 그룹 데이터를 포함한다. 유전자 군은 생물학적 경로, 세포주기, 세포 피처, 세포 유형, 생물학적 활성, 공통 조절, 전사 인자 등과 같은 다양한 기작을 통해 서로 연관된 다수의 유전자를 포함한다.
도 10은 도 6에 도시된 3 가지 타입의 데이터에 대한 예시적인 데이터를 포함하는 표을 도시한다. 가상 유전자 13 개에 대한 데이터가 표에 나와 있다. 표의 각 행은 유전자에 대한 데이터를 보여준다. 왼쪽 상단 셀 P1은 데이터가 표현형 P1과 상관 관계가 있음을 나타낸다. 표제 S1 ~ S3의 3 개의 열은 실험 데이터 인 3 개의 유전자 세트 S1, S2 및 S3에 대한 데이터를 나타낸다. 표제 S1 *, S2 * 및 S3 *가있는 세 개의 칼럼은 유전자 세트 S1, S2 및 S3로부터 실험적 유전자 데이터로부터 각각 유도된 인 실리코 유전자 데이터에 존재한다. 표제 PPI 란은 단백질-단백질 상호 작용(PPI) 네트워크로부터 얻어진 상호 작용체 데이터를 나타내며, PPI 데이터는 지식 베이스 데이터의 한 형태이다.
다른 유형의 지식 베이스 데이터는 유전자-그룹 데이터의 형태로서 유전자 온톨로지(GO) 데이터를 나타내는 GO 표제의 열로 도시된다. 기준 이상 값을 갖는 유전자 세트 S1, S2 및 S3에 대한 실험 데이터가 1002의 상자에 기술되어있다. 실험 데이터에 기초한 유전자 세트 S1 *, S2 * 및 S3 *에 대한 인 실리코 데이터가 유전자 1 ~ 9에 대한 상자 1002의 실험 데이터를 가진 유전자를 초과하는 일부 유전자에 대해 얻어진다는 점에 주목할 필요가 있다. 즉, 유전자 10 내지 13에 대한 데이터가 얻어지고 상자(1004)에 윤곽이 그려져있다. 지식 베이스 데이터는 실험 데이터와 결합되어 표에 데이터를 제공한다.
유사하게, 지식 베이스 데이터의 경우, 유전자에 대한 실험 데이터가 누락되거나 그 기준 아래로 떨어지더라도, 유전자 10, 12 및 13에 대한 데이터가 얻어진다. 그 결과, 실험적, 인 실리코 및 지식 베이스 데이터를 결합하여 유전자 요약 스코어를 얻을 수 있다. 요약 스코어는 실험 데이터를 뛰어 넘는 정보를 고려하므로 관심있는 표현형과 관련된 유전자에 대한 정보를 더 잘 포착할 수 있다.
최 우측 열은 13 개의 유전자의 요약 스코어의 랭킹을 나타낸다. Gene 10은 인 실리코 스코어와 지식 베이스 스코어로 인해 9 의 순위를 갖지만, 실험 스코어는 없다. 일부 구현에는 실험 데이터, 인 실리코 데이터 및 지식 베이스 데이터에 해당하는 세 가지 구성 요소가 포함된다. 이 모델에는 세 가지 구성 요소에 해당하는 다양한 매개 변수뿐만 아니라 관심 개념에 대한 유전자 순위에 대해 보다 일관되고 보다 유효한 예측을 제공하기 위해 모델을 수정하는 다른 매개 변수가 포함된다. 일부 구현예에서 감독되지 않은 기계 학습은 3 가지 구성 요소 프레임워크를 반영하는 모델의 매개 변수를 선택하는 데 사용된다. 3-구성요소 프레임워크 및 프레임워크를 반영한 모델을 트레이닝하기 위한 기계 학습 기술에 대해서는 아래에서 자세히 설명한다.
도 7은 일부 구현에 따라 생물학적, 화학적 또는 의학적 관심 개념과 잠재적으로 관련되는 유전자를 확인하는 프로세스를 도시한다. 프로세스(700)는 데이터베이스로부터 복수의 유전자 세트를 선택하는 것을 포함하며, 여기서 복수의 유전자 세트의 각각의 유전자 세트는 유전자와 관련된 복수의 유전자 및 복수의 실험 값을 포함한다. 복수의 실험값은 생물학적 또는 화학적 관심 개념과 상관 관계가있다. 일부 구현예에서, 다수의 유전자 세트는 생물학적, 화학적 또는 의학적 개념에 의해 태그된다. 일부 구현예에서, 다수의 유전자 세트는 생물학적, 화학적 또는 의학적 개념에 의해 영향을 받는다. 일부 구현에서, 유전자 세트는 종종 단일 연구에 대한 단일 샘플과 관련된다. 그러나, 실험 유전자 값은 또한 몇몇 구현에서 다른 표본 또는 연구로부터 도출될 수 있다. 일부 실시에서, 연구는 정상 상태와 질병 상태 사이의 유전자 발현 수준을 비교할 수 있다. 일부 구현예에서, 예를 들어, 유전자 세트는 질병에 대한 유전자에 대한 데이터 또는 치료하지 않은 질병 샘플 대 치료에 의한 질병 샘플로부터의 유전자에 대한 데이터를 포함할 수 있다.
프로세스(700)는 또한 제 1 하나 이상의 유전자의 실험값을 사용하여 다수의 유전자로부터 제 1 하나 이상의 유전자에 대한 하나 이상의 실험 유전자 스코어를 결정하는 것을 포함한다. 도 10은 일부 구현예에 따라 유전자 랭크를 얻기 위한 개략적인 데이터를 나타낸다. 도 10의 예를 사용하면, 상자 1002에서 유전자 1 내지 9의 실험값을 사용하여 3 개의 유전자 세트 S1, S2, S3이 선택되고 3 개의 유전자에 대한 유전자 스코어가 주어진다. 일부 구현예에서, 실험 값은 (100 개 중) 10의 하한 임계치와 같은 기준을 충족시킨다. 일부 구현예에서, 실험 유전자 스코어는 정상 스코어가 100의 천장값을 갖도록 정규화된다.
도 7을 다시 참조하면, 프로세스(700)는 또한 제 2 하나 이상의 유전자와의 적어도 제 1 하나 이상의 유전자 상관에 적어도 기초하여 복수의 유전자 중에서 제 2 하나 이상의 유전자에 대한 하나 이상의 인 실리코 유전자 스코어를 결정하는 것을 포함한다. 블록(706)을 참조한다. 일부 구현예에서, 하나 이상의 인 실리코 유전자 스코어는 도 11에 도시된 프로세스에 의해 얻어 질 수 있다.
프로세스(700)는 또한 704에서 얻어진 제 1 하나 이상의 유전자 및 하나 이상의 인 실리코 유전자에 대한 하나 이상의 실험 유전자 스코어에 적어도 부분적으로 기초하여 제 1 및 제 2 하나 이상의 유전자에 대한 요약 스코어를 얻는 것을 포함한다. 블록(708)을 참조한다. 일부 구현예에서, 요약 스코어는 복수의 유전자 세트에 걸친 유전자 스코어의 선형 집합에 의해 얻어 질 수 있다. 일부 구현예에서, 실험 유전자 스코어 및 인 실리코 유전자 스코어는 차동적으로 가중된다. 일부 구현에서 요약 스코어는 실험 스코어 및 인 실리코 스코어를 입력으로 받아서 유전자에 대한 요약 스코어를 출력으로 제공하는 모델을 사용하여 얻습니다. 일부 구현예에서, 도 8에 도시된 프로세스(800)는 요약 스코어를 얻기 위해 사용될 수 있다.
프로세스(700)는 요약 스코어를 사용하여 생물학적, 화학적 또는 의학적 관심 개념과 잠재적으로 연관되는 유전자를 확인하는 것을 추가로 포함한다. 블록(710)을 참조한다. 일부 구현예에서, 요약 스코어는 정규화될 수 있다. 일부 구현예에서, 요약 스코어는 유전자 순위를 매기는데 사용될 수 있고, 높은 순위의 유전자는 후보자를 유전자 패널에 제공할 수 있다. 일부 구현예에서, 표현형에 대해 확인된 유전자는 두 표현형이 속 - 종 관계를 가질 때와 같은 관련 표현형에 대한 유전자를 얻는 과정을 알리기 위해 사용될 수 있다. 일부 구현예에서, 2 개의 관련된 표현형에 대해 선택된 유전자를 비교하여 2 가지 표현형의 공통적인 기저 메커니즘을 확인하는 것과 같은 고차원 정보를 제공할 수 있다.
도 8은 자율 학습에 의해 훈련된 모델을 사용하여 요약 스코어를 획득하는 프로세스(800)를 도시한다. 프로세스 800은 입력으로 실험 스코어 및 인 실리코 스코어를 받는 모델을 제공하는 것을 포함한다. 이 모델은 또한 테스트 대상 유전자에 대한 요약 스코어를 출력으로 제공한다. 프로세스(800)는 데이터베이스의 데이터를 트레이닝 세트 및 유효화 세트로 분할하는 것을 더 포함한다. 프로세스(800)는 트레이닝 세트에 대한 요약 스코어 및 유효성 세트에 대한 요약 스코어를 획득하는 것을 포함한다. 프로세스(800)는 목적 함수를 최적화함으로써 모델을 훈련시키는 감독되지 않은(즉, 자율) 학습 기술을 사용하는 것을 추가로 포함한다. 일부 구현예에서, 목적 함수를 최적화하는 것은 트레이닝 세트에 대한 요약 스코어와 유효성 세트에 대한 요약 스코어 사이의 차이를 최소화하는 것을 포함한다. 일부 구현예에서, 프로세스(800)는 훈련된 모델을 하나 이상의 인 실리코 유전자 스코어 내의 하나 이상의 실험 유전자 스코어에 적용하여 제 1 하나 이상의 유전자 및 제 2 하나 이상의 유전자에 대한 요약 스코어를 얻는 것을 추가로 포함한다.
일부 구현예에서, 요약 스코어는 정규화된다. 일부 구현예에서, 각각의 요약 스코어는 특이 값의 선형 조합에 의해 집합된다. 일부 구현예에서, 선형 결합은 제곱의 합을 포함한다. 일부 구현예에서, 제 1 하나 이상의 유전자는 제 2 하나 이상의 유전자와 동일하지 않다.
일부 구현예에서, 모델은 다음과 같은 형태를 갖는다:
Figure pct00005
Figure pct00006
는 모델의 파라미터이고, ci는 모델의 성분이고, ki는 성분의 가중 팩터이다.
일부 구현예에서, 상기 방법은 실험 데이터 유형의 샘플 가중치에 기초하여 모델의 하나 이상의 성분을 서브 성분으로 분할하는 단계를 더 포함한다. 예를 들어, 실험 데이터는 RNA 표현 데이터, DNA 메틸화 데이터 및 SNP 데이터를 구성 요소 C1으로 포함할 수 있다. 상기 모델은 K1의 중량을 3 가지 실험 유형, 예컨대 RNA 발현 데이타에 0.7, DNA 메틸화 데이타에 0.2 및 SNP 데이타에 대해 0.1을 제공할 수 있다.
일부 구현예에서, 목적 함수를 최적화하는 것은 트레이닝 세트에 대한 요약 스코어와 유효성 세트에 대한 요약 스코어 간의 차이를 최소화하는 것을 포함한다. 일부 구현에서, 목적 함수를 최적화함에 있어서, 요약 스코어는 정해진 크기의 버킷으로 랭킹되고 비닝된다. 페널티 스코어가 버킷에 할당되고 페널티 스코어가 상위 순위 요약 스코어에 우선한다. 도 9는 목적 함수의 최적화를 설명하기 위한 데이터를 도시한다. 왼쪽의 제 1 열은 테스트 데이터 세트의 요약 스코어를 기반으로한 테스트 데이터 세트에서 얻은 20 개의 유전자의 순위를 보여준다. 왼쪽에서 제 2 열은 순위 유전자에 대한 요약 스코어를 보여준다. 시험 항목의 제 3 열에는 유효성 검사 세트의 요약 스코어에 대한 데이터가 표시된다. 일부 구현에서, 목적 함수는 테스트 세트와 유효성 검증 세트 간의 스코어 차이를 최소화한다. 예를 들어, 목적 함수를 최적화할 때 평균 제곱근 차를 최소화할 수 있다.
일부 구현예에서, 요약 스코어는 특정 크기의 버킷으로 분류된다. 도 9에 도시된 바와 같이, 버킷 # 1은 1-5 등급의 유전자를 포함하며, 이에 대해 1의 페널티 가중치가 할당된다. 페널티 가중치에 유전자 요약 스코어를 곱한다. 따라서 1 ~ 5 위의 유전자는 페널티없다. 6에서 10까지 등급이 매겨진 유전자는 버킷 # 2에서 비닝되고 페널티 스코어 0.95가 할당된다. 랭킹 11 ~ 15 위의 유전자는 버킷 # 3에 배정되고 페널티 스코어 0.9를 부여받는다. 마지막으로, 16 ~ 20 위의 유전자는 버킷 # 4에 배치되고 페널티 스코어는 0.85로 지정된다. 따라서, 보다 높은 등급을 매긴 유전자는 블록(808)의 최적화 프로세스에서 보다 적게 또는 가중치가 높게 처벌된다. 일부 구현예에서, 목적 함수는 최상위 등급 요약 스코어에만 기초하며, 등급이 낮은 유전자는 페널티 스코어가 0이다.
일부 구현예에서, 개개의 유전자 랭크 대신에 버킷 순서 번호의 랭크 차이가 좀 더 거친 비교를 위한 목적 함수로서 사용될 수 있으며, 이는 일부 구현에서 잡음을 평활화할 수 있다.
일부 구현예에서, 모델의 예측력을 평가하기 위해 상이한 버킷 크기가 모델에 적용될 수 있다. 모델이 작은 버킷 크기로 잘 수행되면 모델의 예측 가능성이 높음을 나타낸다.
일부 구현예에서, 상기 방법은 목적 함수를 최적화함으로써 모델을 트레이닝하는 단계를 포함한다. 일부 구현예에서, 모델을 트레이닝하는 것은 샘플의 부트스트랩을 위해 부트스트랩 기술을 적용하는 것을 포함한다. 일부 구현예에서, 목적 함수는 부트스트래핑 이후에 적어도 하나의 요약 스코어 분포에 관련된다. 일부 구현예에서, 목적 함수를 최적화하는 것은 개념 특정 유전자 세트로부터 얻어진 요약 스코어 분포와 랜덤 유전자 세트로부터 얻어진 요약 스코어 분포 사이의 거리를 최대화하는 것을 포함한다.
바이오태그 기반 유전자 세트 우선 순위 지정
일부 구현예에서, 상이한 연구는 유전자 세트의 상이한 양 및 특성을 포함한다. 일부 구현은 연구에서 적절한 유전자 세트를 선택하는 메커니즘을 제공한다. 예를 들어, 제 1 연구에는 혼란 데이터의 30 가지 유전자 세트가 있다. 제 2 연구는 혼란 환자 데이터의 3 가지 유전자 세트를 가지고있다. 제 3 연구는 질병에 대해 세 가지 다른 약물 치료법을 사용한다. 제 4 연구는 동일한 화합물의 20 가지 농도의 데이터를 포함한다. 본 발명의 일부 구현은 연구로부터 유전자 세트를 선택하는 메카니즘을 제공하므로 상이한 연구가 유전자의 전체 스코어에 대해 유사한 영향을 미친다. 일부 구현은 연구의 우선 순위 바이오태그를 사용하여 문제를 해결한다. 일부 구현예에서, 유전자 세트 데이터는 유전자 세트 내의 데이터의 특성 및 특성을 나타 내기 위해 상이한 바이오태그로 태그된다. 다른 가중치가 바이오태그에 할당된다. 모든 유전자 세트는 복합 생명 공학 스코어를 제공할 수 있다.
2 개 이상의 태그와 관련된 유전자가 있다면, 복합 바이오태그 스코어가 바이오태그로부터 얻어 질 수 있다. 바이오태그 카테고리는 조직 유형, 바이오 디자인, 그룹, 바이오 소스, 화합물, 유전자 모드 등을 포함 하나 이에 한정되지 않는다. 상이한 카테고리의 태그의 예가 아래에 제공된다.
바이오소스(Biosource): 샘플이 유도된 방법을 기술하는데 필요하다. 여기에는 ATCC, HPA, Tumorscape, DSMZ, hESCreg, ISCR, JCRB, CellBank Australia, COSMIC, NIH Human Embryonic Stem Cell Registry, RIKEN BRC와 같은 자원에서 수집한 세포주가 포함된다.
바이오디자인(Biodesign): 비교의 성질을 기술하는데 필요하다. 바이오세트에서 구동 차이를 가장 잘 묘사하는 바이오디자인에 태그를 한다.
조직: 특정 기관/조직/세포 유형을 정의하는 것이 필요하다. 조직 온톨로지는 MeSH에서 파생된다.
질병: 샘플이 질환 상태에 상응하는 경우에만 지정된다. 질병 온톨로지는 SNOMED CT에서 파생된다.
화합물: 샘플은 화합물에 의해 영향을 받았다. 복합 온톨로지는 MeSH에서 파생된다.
유전자: 샘플 중의 유전자를 실험군(예: ER- 대 ER + 유방암) 사이의 중요한 분화 마커로 변형 시키거나 제공 하였다. 소스는 NCBI의 Entrez Gene, Unigene, GenBank, EMBL-EBI Ensembl 등이다.
유전자 모드(Genemode): 유전자 변형을 기술한다. Genemode는 특정 유전자와 연결되지 않고 할당될 수 없다.
바이오그룹(Biogroup): 위의 다른 어휘가 관련 용어를 제공하지 않을 때 태그로서 사용된다. 바이오그룹은 MSigDB, GO, EMBL-EBI InterPro, PMAP, TargetScan과 같은 리소스에서 파생된다.
유전자모드
세포 마커
유전자 과발현
조건부
필수적
이소성
후생적
노크-인(knock-in)
미믹(mimic)
유전자 녹다운
후생적
모폴리노(Morpholino)
RNA 간섭
- shRNA 녹다운
- siRNA 녹다운
ncRNA 녹다운
miRNA 녹다운
유전자 녹아웃
조건부
비가역적
유전자 돌연변이
증폭
삭제
퓨전
삽입
전도(Inversion)
이동(Translocation)
아모픽(amorphic)
하이퍼모픽(hypermorphic)
하이포모픽(hypomorphic)
앤티모픽-도미넌트-음성(antimorphic-dominanat-negative)
면역 침전-co-IP
ChIP 항체 표적
RIP 항체 표적
단백질 치료
항체 표적 - 억제
항체 표적 - 자극
바이오디자인
임상
임상 연구 - 임상 결과
데이터 유효화
임계치 미만의 중요도
불충분한 복제
불충분한 서열 판독
인구 통계 학적 비교
연령 비교
성별 비교
민족성 비교
질병 비교
질병 대 정상
질병 대 질병
질병 내성 대 민감성
유전적 혼란
돌연변이 대 야생형
돌연변이 대 돌연변이
성장 조건
환경 조건
화합물 철수
치료 박탈
약리학적 반응
약물에 대한 반응 - 약물 무반응 대 완전 반응 - 약물 무반응 대 부분 반응 - 약물 부분 대 완전 반응
약물 내성 대 민감성
시간 코스(Timecourse)
생물학적 주기의 시간 코스
발달 시간 코스
치료 시간 코스
치료 비교
용량 반응
치료 대 대조
치료 대 치료
다른 비교 유형
바이오 마커 비교
바이오소스 비교
메소드 비교
정상 대 정상
양적 특성 분석
종의 비교
변형률 비교
바이오소스
혈액 분획
골수 분획
세포주(사용 가능한 경우 특정)
세포 용 해물
1 차 세포
1 차 세포 - 배양
1 차 세포 - 레이저 포착
1 차 조직 - FFPE(포르말린 고정, 파라핀 임베디드)
1 차 조직 - 신선 또는 신선 냉동
전혈
전신
기관 전체
이종 이식(Xenograft)
일부 구현예에서, 유전자 세트는 유전자 세트와 관련된 하나 이상의 바이오태그에 기초하여 선택된다. 일부 구현예에서, 가장 높은 바이오태그 스코어를 갖는 유전자 세트가 분석에서 선택되는 반면, 선택되지 않은 유전자는 하류 분석에서 제외된다. 일부 구현에서는 연구에서 유전자의 수가 제 1 기준보다 낮으면 연구를 제외한다. 일부 구현예에서, 선택된 유전자 세트의 수가 제 2 기준을 초과하지 않으면 서 바이오태그 스코어의 관점에서 최상위 서열의 유전자가 선택된다.
일부 구현예에서, 바이오태그는 유전자 세트를 걸러 내기 위해 사용된다. 예를 들어, 유전자 세트의 바이오태그는 유전자 세트가 관심의 표현형과 관련이없는 특정 유전자의 녹다운(tag)으로 태그된다는 점을 표시할 수 있다. 유전자 세트 내의 유전자의 실험값은 관심 유전자형보다는 녹다운 유전자에 의해 조절될 가능성이 높다. 따라서,이 정보가 주어지면, 일부 구현에서 유전자 세트는 분석으로부터 제거되어 녹다운 유전자로부터 합성 효과를 피한다.
인 실리코 유전자 스코어
본 발명의 구현은 실험 유전자 스코어로부터 인 실리코 유전자 스코어를 얻는 방법 및 시스템을 제공한다. 다양한 구현에서 식별된 인 실리코 데이터는 실험 데이터와 상관되지만 완전히 평행하지는 않습니다.
도 11은 실험 유전자 세트 데이터로부터 인 실리코 스코어를 얻기 위한 프로세스(1100)를 도시한다. 도 2의 예시적인 데이터를 다시 참조하면, 도 10에서, 인 실리코 유전자 세트 S1 *은 실험 유전자 세트 S1에 대해 얻어진다. 유사하게 인 실리코 유전자 세트 데이터는 다른 경험적 실험 유전자 세트에 대해 각각 얻어 질 수 있다. 도 11에 도시된 바와 같이, 프로세스(1100)는 데이터베이스로부터 제 2 복수의 유전자 세트를 특정 유전자 세트(예를 들어, 도 10의 S1)에 대해 확인하고, 제 2 복수의 유전자 세트의 각각의 유전자 세트는 제 2 복수의 유전자를 포함하고, 제 2 복수의 실험 값은 제 2 복수의 유전자와 관련된다. 제 2 복수의 실험값은 제 1 하나 이상의 유전자(예를 들어, 도 10의 S1의 Gene1, Gene3 및 Gene6) 중 제 1 유전자(예를 들어, 도 10의 유전자 1)와 관련된다.
일부 구현예에서, 프로세스(1100)는 제 1 유전자에 대한 집합 값의 벡터를 얻기 위해 제 2 복수의 유전자에 걸쳐 실험 값을 집합시키는 것을 포함한다. 프로세스(1100)는 현재 유전자 세트에 대해 더 많은 유전자가 고려될 필요가 있는지 여부를 조사한다. 그렇다면 단계(1102)로 되돌아가 데이터베이스로부터 다른 복수의 유전자 세트를 확인하여 순간 유전자에 대한 집합 값의 벡터를 얻는다. 인 실리코 스코어에 대해 더 이상 고려해야할 유전자가 없다면 유전자에 대한 집계 벡터는 일부 구현에서 가중치가 부여된다. 블록(1110)을 참조한다. 프로세스(1100)는 제 2 하나 이상의 유전자에 대한 하나 이상의 인 실리코 유전자 스코어를 포함하는 압축 벡터를 얻기 위해 실험 값의 가중 벡터를 집합시킨다.
도 12는 표현형 P1과 상관된 유전자 세트 S1에 대한 예시적인 데이터를 나타낸다. 블럭(1201)을 참조할 수 있다. 도 12는 또한 인 실리코 데이터가 1202의 유전자 세트 S1의 실험 데이터로부터 어떻게 얻어 질 수 있는지 보여준다. 일부 구현예에서, 가장 높은 실험 스코어 92를 갖는 제 1 유전자, Gene1은 박스 1204에서 데이터의 n 행렬을 생성하도록 선택된다 다시 말하면, 유전자 세트 S04-S07에서의 유전자의 하나 이상의 실험값은 유전자 1과 상관 관계가있다. 유사하게, 유전자 세트는 유전자 3에 대해 식별되어, 상자(1206)에서 매트릭스 데이터를 제공한다. 다시, 유전자 세트 S08-S10은 유전자 3과 상관 관계가있다. 유사하게, 유전자 세트 S11-S15가 선택되거나 식별된다. 각 매트릭스(1204, 1206 및 1208)에 대해, 유전자의 실험적 값은, 특정 유전자와, 식별된 유전자 세트 간의 다른 유전자 사이에서 상관성을 나타내는 유전자 스코어의 집합 벡터를 얻기 위해 매트릭스의 유전자 세트에 걸쳐 집합화된다.
일부 구현예에서, 실험적 유전자 스코어는 선형 집합화에 의해 집합화된다. 일부 구현예에서, 집합된 유전자는 실험 스코어의 제곱 평균 제곱근을 포함한다. 그 다음, 3 개의 유전자의 집합 벡터는 매트릭스(1210)에서 더 모아져 압축된 벡터 S1 *을 제공한다. 결과 S1 * 벡터는 다른 유전자 세트의 다른 유전자와 유전자 세트 S1의 세 유전자와의 상관 관계를 반영한다. 일부 구현예에서, 각각의 집합 벡터, Gene 1 RMS, Gene 3 RMS 및 Gene 6 RMS는 유전자 세트 S1에서 상응하는 유전자의 실험값에 비례하여 가중된다. 다시 말해서, 행렬 1210의 Gene 1, Gene 3 및 Gene 6의 가중치는 92, 63 및 32에 비례하여 가중된다.
일부 구현예에서, 특정 유전자에 대한 집합화된 벡터 각각은 특정 유전자에 대해 동정된 제 2 다수 유전자 세트의 유전자 세트 수에 비례하여 가중치를 부여 받는다. 즉, 행렬(1204)은 4 개의 유전자 세트를 가지므로 행렬(1206)은 3 개의 유전자 세트를 가지며 행렬(1208)은 5 개의 유전자 세트를 가지며, 행렬(1210)의 3 개의 유전자는 4, 3 및 5에 비례하여 가중된다. 행렬 1210에서 S1에 대한 유전자 스코어는 0-1 사이의 범위로 표준화될 수 있으며, 행렬 1210에서 벡터에 대한 가중치 인자로 사용될 수 있다.
상기한 방법을 사용하여 얻어진 인 실리코 유전자 스코어 및 실험적 유전자 스코어를 이용하여, 제 1 및 제 2 하나 이상의 유전자에 대한 요약 스코어를 결정하기 위한 데이터가 상기 기술된 모델에 제공될 수 있다. 상관 관계가 많은 유전자 사이에서 강한 경우 인 실리코 유전자 스코어와 관련된 모델 용어가 커집니다. 반대로 유전자 간 상관 관계가 작 으면 인 실리코 유전자 스코어는 작을 것이다. 후자의 경우, 실험적 유전자 세트에서보다 적은 유전자가 일부 구현에서 인 실리코 유전자 스코어를 얻기 위해 처리될 필요가있다.
유전자 그룹 데이터
일부 구현예에서, 유전자 세트 이론 데이터는 실험적 유전자 데이터와 상승적으로 결합되어 관심 개념과 관련된 유전자를 순위 화하기 위한 요약 스코어를 결정할 수 있다. 일부 실시예에서, 실험군 유전자 스코어 및 실리코 유전자 스코어에 추가하여 유전자 그룹 스코어가 계산된다.
일부 구현예에서, 상기 방법은 제 3 하나 이상의 유전자에 대한 하나 이상의 유전자 그룹 스코어를 결정하는 것을 포함한다. 일부 구현예에서, 상기 방법은 제 3 및 제 4 유전자 중 적어도 일부에 대한 유전자 그룹 스코어, (b)에서 결정된 제 1 또는 그 이상의 유전자에 대한 실험 스코어와, (c)에서 결정된 제 2 이상의 하나 이상의 유전자에 대한 인 실리코 스코어에 적어도 부분적으로 기초하여 제 1 및 제 2 하나 이상의 유전자에 대한 요약 스코어를 얻는 단계를 포함한다. 일부 구현예에서, 표지와 관련된 다수의 유전자는 유전자 세트 라이브러리 내의 유전자를 포함한다. 일부 구현예에서, 유전자 세트 라이브러리 내의 유전자는 유전자 존재론에서 유전자를 포함한다.
도 13은 몇몇 실시예에 따라 유전자 그룹 스코어가 얻어 질 수 있는 과정을 도시한다. 프로세스(1300)는 유전자 스코어가 계산되는 특정 유전자를 포함하는 유전자 그룹을 식별하는 것을 포함한다. 블록 1302를 참조할 수 있다.
도 14에 도시된 데이터는 도 13의 프로세스(1300)를 설명하기 위해 사용된다. 또한, 이들은 프로세스(1300)의 범위를 도 14의 예로 제한하려는 것이 아니다. 도 14는 유전자 세트 S1-S3의 유전자 및 유전자 그룹의 유전자의 설명도이다. 또한 유전자 그룹 스코어를 데이터에서 얻는 방법을 보여준다. 세트(1406)는 유전자 세트 S1 내지 S3로부터의 유전자를 포함한다. 유전자 그룹 스코어가 계산되는 관심있는 즉각적인 유전자는 G1(1402)이다. 집합 1404는 유전자 그룹을 나타낸다. 세트 1406과 세트 1404의 교차점은 1408(Ii) 이다.
도 13의 프로세스(1300)의 단계(1302)는 특정 유전자(Gk)를 포함하는 유전자 그룹(Groupi)을 식별한다. 수식 1410을 참조할 수 있다. 과정 1300은 실험 유전자 세트(S1-S3) 사이에 있는 유전자 그룹의 멤버(Ii)을 확인하는 것을 추가로 포함한다. 블록(1304) 및 식(1412)를 참조한다. 일부 구현예에서, 유전자 그룹 내의 유전자는 유전자 세트 라이브러리 내의 유전자를 포함한다. 일부 구현예에서, 유전자 세트 라이브러리 내의 유전자는 유전자 존재론에서 유전자를 포함한다. 일부 구현예에서, 유전자 그룹의 표지는 생물학적 기능, 생물학적 경로, 공통 특징 등을 나타낸다.
프로세스(300)는 또한 실험 유전자 세트(도 14의 G1-G3) 중 하나인 유전자 그룹(도 14의 Group1)의 멤버의 백분율(예를 들어, 도 14의 Pi)을 결정하는 단계를 더 포함한다. 방정식 1414를 참조할 수 있다. 과정 1300은 실험적 유전자 세트 중 하나 인 유전자 그룹의 멤버(도 14의 I1)에 대한 실험 값을 집합화하여 유전자 그룹에 대한 합 실험 값(Qi)을 얻는 것을 포함한다. 블록 1308 및 식 1416을 참조
도 15는 실험 유전자 세트(G1 내지 G3) 중 유전자 그룹의 멤버 Ii에 대한 실험값을 도시하며, 이들은도 15의 박스(1002)에 의해 둘러싸인 음영 셀로 도시된다. 여기서, 교차점 Ii의 멤버는 유전자 G1 , G3, G7, G8 및 G11을 포함한다. 따라서, 하이라이트된 유전자 세트 S1, S2 및 S3에서의 상기 유전자에 대한 상응하는 실험값을 합하여 유전자 그룹에 대한 합계 실험값(Si)을 제공한다.
프로세스(1300)는 또한 유전자 그룹(Groupi)에 대한 백분율(Pi) 및 합 실험 값(Qi)을 곱하는 단계를 포함한다. 도 14의 방정식(1418) 및 도 14의 블록(1310)을 참조한다. 프로세스(1300)는 또한 인스턴트 유전자를 포함하는 더 많은 유전자 그룹이 존재하는지 여부를 결정하는 것을 포함한다. 만일 그렇다면, 프로세스는 블록(1302)으로 되돌아 간다. 그렇지 않다면, 프로세스(1300)는 모든 유전자 그룹에 대한 생성물을 모으기 위해 블록(1314)을 계속하고, 따라서 인스턴트 유전자에 대한 요약 스코어(Tk)를 얻는다:
Figure pct00007
상호 작용체 데이터
일부 구현예에서, 상호 작용체 데이터는 처리 프레임워크에 통합되어 유전자에 대한 요약 스코어를 결정한다.
일부 구현예에서, 상기 방법은 제 4 하나 이상의 유전자에 대해 상호 작용체 스코어를 각각 결정하는 단계를 더 포함한다. 일부 구현예에서, 특정 유전자에 대한 각 상호 작용체 스코어는(1) 특정 유전자와 유전자 네트워크에서 특정 유전자에 연결된 다른 유전자 사이의 연결 및 (2) 제 1 하나 이상의 유전자의 하나 이상의 실험 값 중 적어도 일부를 사용하여 결정된다. 일부 구현예에서, 상기 방법은 제 4 하나 이상의 유전자 중 적어도 일부에 대한 상호 작용체 스코어와, (b)에서 결정된 제 1 하나 이상의 유전자에 대한 하나 이상의 실험 유전자 스코어, 및 (c)에서 결정된 제 2 하나 이상의 유전자에 대한 인 실리코 유전자 스코어에 적어도 부분적으로 기초하여 적어도 제 1 하나 이상의 유전자 및 제 2 하나 이상의 유전자에 대한 요약 스코어를 얻는 단계를 포함한다. 일부 구현예에서, 유전자 네트워크는 유전자, 단백질 및 인지질 간의 상호 작용 및/또는 관계에 기초한다.
본 개시의 일부 구현예는 지식 베이스 데이터 및 실험 데이터를 사용하여 상호 작용체 스코어를 계산하는 방법을 제공한다. 도 16은 일부 실시예에 따라 상호 작용체 스코어를 계산하는 프로세스를 도시한다. 프로세스(1600)는 제 1 하나 이상의 유전자 및/또는 제 2 하나 이상의 유전자 중 적어도 일부를 포함하는 유전자 네트워크를 제공하는 것을 포함한다. 제 1 또는 그 이상의 유전자는 실험적 유전자 데이터와 관련이 있으며 제 2 이상의 하나 이상의 유전자는 인 실리코 유전자 데이터와 관련된다. 네트워크의 각 쌍의 유전자는 에지로 연결된다. 네트워크의 유전자는 제 4 하나 이상의 유전자를 포함한다.
도 17은 상호 작용체 데이터가 유전자 G1-G13을 포함하는 유전자 네트워크(1702)에 대해 어떻게 획득될 수 있는지를 설명하는 도면이다. 네트워크(1702)는 단계(1602)에서 제공될 수 있는 네트워크의 예이다. 프로세스(1600)는 연결 에지의 수에 의해 측정된 특정 유전자로부터의 연결 거리에 기초하여 특정 유전자에 대한 연결 유전자의 인접부(neighborhood)를 정의하는 단계를 더 포함한다. 블럭(1604)을 참조한다. 인접부(1704)는 1604에서 정의된 인접부의 예이다. 인접부(1704)는 2 개 이하의 접속 에지의 유전자(G1)로부터의 접속 거리를 갖는 유전자를 포함한다.
프로세스(1600)는 특정 유전자(G1)와 인접부에 있는 하나 이상의 다른 유전자 사이의 하나 이상의 연결 거리를 결정하는 것을 추가로 포함한다. 프로세스(1600)는(i) 하나 이상의 연결 거리 및(ii) 인접부에 있는 하나 이상의 다른 유전자의 요약 스코어를 사용하여 상호 작용체 스코어를 계산하는 것을 포함하며, 요약 스코어는 실험 데이터에 기초한다.
일부 구현예에서, 상호 작용체 스코어는 복수의 분수의 합에 비례하여 계산되며, 각 분율은 인접부에 있는 다른 유전자의 요약 스코어를 특정 유전자와 인접부에 있는 다른 유전자 사이의 연결 거리로 나눈 값이다. 일부 구현예에서, 유전자 Gk에 대한 상호 작용체 스코어는 다음과 같이 평가된다:
Figure pct00008
여기서 Gi ∩ N, dGi는 Gi와 Gk 사이의 거리이며, SGi는 Gi에 대한 실험 기반 요약 스코어이다.
일부 다른 구현예에서, 상호 작용체 스코어는 프로세스(1800)를 사용하여 결정될 수 있다. 도 18은 상호 작용체 데이터 및 실험 데이터를 사용하여 상호 작용체 스코어를 얻기 위한 대안적인 구현으로서 프로세스(1800)를 도시한다. 프로세스(1800)는 제 1 하나 이상의 유전자 및/또는 제 2 하나 이상의 유전자 중 적어도 일부를 포함하는 유전자 네트워크를 제공하는 것을 포함한다. 네트워크의 유전자는 제 1 임계 값 이상의 요약 스코어를 가진다. 블록 1802를 참조할 수 있다.
도 19는 프로세스 네트워크(1800)를 구현하는 상호 작용체 스코어를 얻기 위한 유전자 네트워크 및 알고리즘의 네트워크를 나타낸다.
프로세스(1800)는 또한 적어도 하나의 상호 작용 지식 베이스에서 두 유전자에 대한 연결 데이터에 기초하여 두 유전자를 연결하는 각 에지에 가중치를 할당하는 것을 포함한다. 일부 구현예에서, 에지의 가중치는 상호 작용 지식 베이스의 접속 수에 비례한다. 일부 구현에서, 가중치는 상호 작용 지식 베이스에 따라 두 유전자의 연결에 대한 다른 정량적 측정치에 비례한다. 블록 1804를 참조할 수 있다.
프로세스(1800)는(i) 특정 유전자와 특정 유전자에 연결된 다른 유전자 사이의 에지의 가중치 및(ii) 특정 유전자에 연결된 모든 유전자의 요약 스코어를 사용하여 네트워크의 각 유전자에 대해 상호 작용체 스코어를 계산하는 것을 더 포함한다. 블럭(1806)을 참조한다. 일부 실시예에서, 상호 작용체 스코어는 다음과 같이 계산된다:
Figure pct00009
S'Gi는 유전자 Gi에 대한 상호 작용체 스코어이고, SGi는 유전자 Gi에 대한 요약 스코어이며, SGn은 Gi에 직접 연결된 유전자 Gn에 대한 요약 스코어이고, EdgeWeightn은 지식 베이스 데이터에 기초하여 유전자 Gi 및 Gn을 연결하는 에지에 할당된 가중치다.
프로세스(1800)는 또한 제 1 패스 사전에서 제 2 임계치보다 작은 상호 작용체 스코어를 저장하는 것을 포함한다. 블록(1808)을 참조한다. 프로세스(1800)는 제 1 패스 사전 내의 모든 유전자들에 대한 상호 작용체 스코어의 계산을 반복함으로써 상호 작용체 스코어를 업데이트한다. 1810을 참조할 수 있다. 추가 프로세스 1800은 사전 통과를 위해 반복할지 여부를 결정하는 과정을 포함한다. 만일 그렇다면, 프로세스는 블록(1808)으로 되돌아 가서, 제 2 패스 사전에 임계 값보다 작은 상호 작용체 스코어를 저장하고, 제 2 패스 사전 내의 모든 유전자에 대한 상호 작용체 스코어의 계산을 반복함으로써 상호 작용체 스코어를 갱신한다 . 프로세스가 네트워크의 상호 작용체 스코어를 추가로 확장하지 않기로 결정하면 프로세스는 1814에서 끝난다. 1800의 프로세스는 상대적으로 높은 실험 값과 강력한 연결을 가진 유전자에 대한 상호 작용체 스코어를 계산함으로써 시작된다. 임계 값에 도달할 때까지 프로세스가 내려 와서 실험 데이터가 할당되지 않은 노트에 액세스한다. 그런 다음 프로세스는 더 높은 실험적 가중치를 가진 다른 노드와의 상호 작용을 통해 네트워크 강도를 재평가한다.
랜덤 유전자에 있는 유전자 댐핑
특정 유전자는 다양한 표현형과 무작위 또는 비 특이 적으로 관련되는 것으로 관찰되었다. 이 유전자는 특정 상황에서 무작위 배경 유전자로 간주될 수 있다. 따라서 표현형이나 관심있는 다른 개념에 대한 관련성이 높고 중요한 유전자를보다 효율적으로 식별하기 위해 이러한 무작위 배경 유전자의 효과를 제어하는 ??것이 바람직한다. 예를 들어 일부 사이토 카인은 암세포에 대한 반응으로 암과 높은 상관 관계가있는 경향이 있지만 암 원인을 이해하기 위한 가치는 제한적일 수 있다.
랜덤 유전자 세트가 정말로 랜덤 인 경우, 유전자 세트의 유전자와 관심의 표현형 사이의 구조 또는 상관 관계가 거의 없어야한다. 반대로 유전자가 유전자형의 무작위성에 관계없이 표현형과 유의한 상관 관계를 갖고 있다면 관심의 개념과의 상관 관계가 근본적인 메커니즘을 이해하는데 의미가 없을 수도있다.
일부 구현예에서, 랜덤 유전자 세트는 데이터베이스로부터 샘플링된다. 랜덤 유전자 세트의 유전자 순위 목록을 얻을 수 있다. 그런 다음 일부 구현은 랜덤 유전자 세트에서 유전자 순위의 산물을 얻는다. 랭크 생성물은 하나 이상의 랜덤 유전자 세트를 통한 특정 유전자의 랭크의 산물을 포함한다. 순위는 관심있는 생물학적, 화학적 또는 의학적 개념과 관련된 특정 유전자 상관 관계를 기반으로한다.
일부 구현예에서, 상기 방법은 또한 서열 결정의 p 값을 계산하는 것을 포함하는데, p 값은 유전자 또는 세트가 표현형과 상관되지 않는 경우 우연히 서열 생성물 값을 얻는 확률을 나타낸다. 일부 구현예에서, 상기 방법은 p 값에 기초하여 유전자의 유전자 스코어에 감쇠 가중치를 가하는 단계를 더 포함한다.
일부 구현예에서, 제 1 및 제 2 하나 이상의 유전자의 요약 스코어는 하나 이상의 랜덤 유전자 세트 내의 제 1 및 제 2 하나 이상의 유전자의 실험값이 생물학적, 화학적 또는 생물학적 특성과 얼마나 연관되어 있는지에 기초하여 불이익을 받는다. 또는 관심 의료 개념. 일부 구현예에서, 특정 유전자의 각 요약 스코어는 등급 제품의 p 값에 반비례하는 페널티 값에 의해 페널티를받습니다. 예를 들어, 감쇠 중량 ε은 ε ~ p-1 또는 ε ~ log(abs(p-1))로 정의될 수 있다.
컴퓨터 시스템
명백하게 알 수 있는 바와 같이, 본 발명의 특정 실시예는 하나 이상의 컴퓨터 시스템에 저장되거나 전송되는 명령 및/또는 데이터의 제어하에 작용하는 프로세스를 사용한다. 특정 실시예는 또한 이러한 동작을 수행하기 위한 장치에 관한 것이다. 이 장치는 요구되는 목적을 위해 특별하게 설계 및/또는 구성될 수 있거나, 컴퓨터에 저장되거나 달리 이용 가능하게된 하나 이상의 컴퓨터 프로그램 및/또는 데이터 구조에 의해 선택적으로 구성된 범용 컴퓨터 일 수 있다. 여기에 제시된 프로세스는 본질적으로 특정 컴퓨터 또는 기타 장치와 관련이 없다. 특히, 다양한 범용 기계가 본 명세서의 교시에 따라 작성된 프로그램과 함께 사용될 수 있거나, 요구된 방법 단계를 수행하기 위해보다 특수화된 장치를 구성하는 것이 더 편리할 수 있다. 다양한 기계에 대한 특정 구조가 아래에 설명되어 있다.
또한, 특정 실시예는 적어도 다음 태스크들과 관련된 다양한 컴퓨터-구현 동작들을 수행하기 위한 프로그램 명령어들 및/또는 데이터(데이터 구조들을 포함 함)를 포함하는 컴퓨터 판독 가능 매체 또는 컴퓨터 프로그램 제품들에 관한 것이다: (1) 인스트루멘테이션, 데이터베이스(사적 또는 공적(가령, NCBI)), 및 기타 소스로부터 원시 데이터를 획득하는 것, (2) 원시 데이터를 큐레이팅하여 피처 세트를 제공하는 것, (3) 피처 세트 및 기타 데이터를 데이터베이스 또는 지식 베이스와 같은 저장소로 가져 오는 것, (4) 가져온 데이터에서 색인의 미리 정의된 피처 참조로 피처 매핑, (5) 사전 정의된 피처 색인 생성, (6) 피처 세트와 피처 세트 간 및 피처 세트와 피처 그룹 간 상관 또는 기타 점수화 생성, (7) 피처 그룹 생성, (8) 피처, 피처 세트 및 피처 그룹과 관련된 개념 스코어 또는 기타 개념 측정 개념 생성, (9) 영원히 지속될 개념에 할당될 권한 수준 결정, (10) 데이터 소스, 유기체, 권한 레벨 또는 다른 카테고리에 의한 필터링, (11) 사용자로부터 질의 수신(선택적으로, 질의 입력 컨텐츠 및/또는 질의를 포함 함), (12) 피처들, 피처 그룹들, 피처 세트들, 연구들, 개념들, 택소노미 그룹들 등을 사용하여 질의를 실행하는 것, 및 (13) 질의 결과를 사용자에게 제시하는 것(선택적으로, 관련 콘텐츠를 탐색하여 관련 검색어를 수행). 본 발명은 또한 이러한 작업 중 일부 또는 전부를 수행하기 위한 명령어를 실행하는 연산 장치에 관한 것이다. 또한, 이러한 작업을 수행하기 위한 명령어로 인코딩된 컴퓨터 판독 가능 매체를 포함하는 연산 장치에 관한 것이다.
또한, 본 발명은 컴퓨터 판독 가능 매체 상에 저장된 유용한 데이터 구조에 관한 것이다. 이러한 데이터 구조는 예를 들어 피처 세트, 피처 그룹, 분류 계층 구조, 피처 색인, 스코어 표 및 여기에 제시된 다른 논리 데이터 그룹을 포함한다. 또한, 특정 실시예는 여기서 설명된 바와 같이 생성된 결과(예를 들어, 질의 결과) 또는 데이터 구조 중 임의의 것을 저장하기 위한 기능(예를 들어, 코드 및 프로세스)을 제공한다. 이러한 결과 또는 데이터 구조는 전형적으로 적어도 다음 일시적인 설명과 같은 컴퓨터 판독 가능 매체 상에 일시적으로 저장된다. 결과 또는 데이터 구조는 또한 디스플레이, 인쇄 등과 같은 다양한 방식으로 출력될 수 있다.
본 발명에 따라 사용자와 인터페이싱하기에 적합한 디스플레이의 예는 음극선 관 디스플레이, 액정 디스플레이, 플라즈마 디스플레이, 터치 스크린 디스플레이, 비디오 프로젝션 디스플레이, 발광 다이오드 및 유기 발광 다이오드 디스플레이, 표면-전도 전자-이미터 디스플레이, 등을 포함하지만 이에 제한되지 않는다. 프린터의 예로는 토너 기반 프린터, 액체 잉크젯 프린터, 솔리드 잉크 프린터, 염료 승화 프린터는 물론 감열 프린터와 같은 잉크없는 프린터가 있다. 인쇄는 종이 또는 투명 용지와 같은 유형 매체에 이루어질 수 있다.
본 발명의 컴퓨터 프로그램 제품 및 연산 장치를 사용하기에 적합한 유형의 컴퓨터 판독 가능 매체의 예는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체; CD-ROM 디스크와 같은 광 매체; 광 자기 매체;(ROM) 및 랜덤 액세스 메모리(RAM)와 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치 및 때로는 주문형 집적 회로(ASICs)와 같은 반도체 메모리 장치(예: 플래시 메모리), 로컬 영역 네트워크, 광역 네트워크 및 인터넷과 같은 컴퓨터 판독 가능 명령어를 전달하기 위한 PLD(programmable logic device) 및 신호 전송 매체를 포함한다. 본 명세서에 제공된 데이터 및 프로그램 명령은 반송파 또는 다른 이송 매체(전자 또는 광학적 도전 경로 포함)로 구현될 수도있다. 본 발명의 데이터 및 프로그램 명령은 또한 반송파 또는 다른 전송 매체(예를 들어, 광학 회선, 전기 회선 및/또는 공중파) 상에 구현될 수 있다.
프로그램 명령의 예는 인터프리터를 사용하여 컴퓨터에 의해 실행될 수 있는 상위 레벨 코드뿐만 아니라 컴파일러에 의해 생성된 것과 같은 저레벨 코드를 포함한다. 또한, 프로그램 명령은 기계 코드, 소스 코드 및/또는 컴퓨팅 머신의 동작을 직접적으로 또는 간접적으로 제어하는 임의의 다른 코드일 수 있다. 코드는 입력, 출력, 계산, 조건문, 분기, 반복 루프 등을 지정할 수 있다.
도 20은, 적절히 구성되거나 설계될 때, 특정 실시예에 따른 연산 장치로서 기능할 수 있는 일반적인 컴퓨터 시스템을 간단한 블록 형식으로 도시한다. 컴퓨터 시스템(2000)은 주기억 장치(2006)(전형적으로 랜덤 액세스 메모리 또는 RAM), 주기억 장치(2004)(전형적으로는 판독)를 포함하는 저장 장치에 결합되는 임의의 수의 프로세서(2002; 중앙 처리 장치 또는 CPU라고도 함) 전용 메모리 또는 ROM). CPU(2002)는 마이크로 컨트롤러 및 프로그램 가능 디바이스(예를 들어, CPLD 및 FPGA)와 같은 마이크로 프로세서 및 게이트 어레이 ASIC 또는 범용 마이크로 프로세서와 같은 비 프로그래머블 디바이스를 포함하는 다양한 유형일 수 있다. 도시된 실시예에서, 주저장소(2004)는 데이터 및 명령을 CPU에 단방향으로 전송하도록 동작하고, 주저장소(2006)는 일반적으로 양방향 방식으로 데이터 및 명령을 전송하는데 사용된다. 이들 주저장 장치들 모두는 전술한 것과 같은 임의의 적합한 컴퓨터 판독 가능 매체를 포함할 수 있다. 대용량 저장 장치(2008)는 또한 주저장소(2006)에 양방향으로 연결되고 추가적인 데이터 저장 용량을 제공하며 전술한 임의의 컴퓨터 판독 가능 매체를 포함할 수 있다. 대용량 저장 장치(2008)는 프로그램, 데이터 등을 저장하는데 사용될 수 있으며, 전형적으로 하드 디스크와 같은 2 차 저장 매체이다. 그러한 프로그램, 데이터 등은 종종 CPU(2002)에서의 실행을 위해 1 차 메모리(2006)에 일시적으로 복사된다. 대용량 기억 장치(2008) 내에 보유된 정보는 적절한 경우에, 표준 방식으로 부분 또한, CD-ROM(2014)과 같은 특정 대용량 저장 장치는 데이터를 CPU 또는 주 기억 장치에 단방향으로 전달할 수 있다.
CPU(2002)는 또한 비디오 모니터, 트랙볼, 마우스, 키보드, 마이크로폰, 터치 감지 디스플레이, 변환기 카드 판독기, 자기 또는 종이와 같은 하나 이상의 입력/출력 장치에 접속하는 인터페이스(2010) 타블렛, 스타일러스, 음성 또는 필기 인식 주변 장치, USB 포트, 또는 물론 다른 컴퓨터와 같은 다른 잘 알려진 입력 장치를 포함할 수 있다. 최종적으로, CPU(2002)는 선택적으로 2012 년에 일반적으로 도시된 바와 같이 외부 접속을 사용하여 데이터베이스 또는 컴퓨터 또는 전기 통신 네트워크와 같은 외부 장치에 결합될 수 있다. 이러한 접속으로, CPU는 네트워크로부터 정보를 수신할 수 있고, 여기에 설명된 방법 단계를 수행하는 과정에서 정보를 네트워크에 출력할 수 있다.
일 실시예에서, 컴퓨터 시스템(900)과 같은 시스템은 본 명세서에 기술된 태스크들의 일부 또는 전부를 수행할 수 있는 데이터 임포트, 데이터 상관 및 질의 시스템으로서 사용된다. 시스템(900)은 지식베이스 및 데이터 캡처 툴과 같은 질의와 연관된 다양한 다른 툴 로서도 기능할 수 있다. 데이터 파일을 포함한 정보 및 프로그램은 연구원이 액세스하거나 다운로드하기 위해 네트워크 연결(2012)을 통해 제공될 수 있다. 대안 적으로, 이러한 정보, 프로그램 및 파일은 저장 장치상의 연구원에게 제공될 수 있다.
특정 실시예에서, 컴퓨터 시스템(900)은 샘플로부터 데이터를 캡처하는 마이크로 어레이 또는 하이 스루풋 스크리닝 시스템과 같은 데이터 수집 시스템에 직접 연결된다. 그러한 시스템으로부터의 데이터는 시스템(900)에 의한 분석을 위해 인터페이스(2010)를 통해 제공된다. 대안으로, 시스템(900)에 의해 처리된 데이터는 데이터베이스 또는 관련 데이터의 다른 저장소와 같은 데이터 저장 소스로부터 제공된다. 일단 장치(900)에 들어가면, 주기억 장치(2006) 또는 대용량 기억 장치(2008)와 같은 메모리 장치는 관련 데이터를 적어도 일시적으로 버퍼링 또는 저장한다. 또한, 메모리는 피처 세트의 임포트, 피처 세트를 서로 및 피처 그룹과의 상관 관계, 질의의 생성 및 실행 등 데이터를 임포트, 분석 및 제시하기 위한 다양한 루틴 및/또는 프로그램을 저장할 수 있다.
특정 실시예에서, 사용자 단말기는 임의 유형의 컴퓨터(예를 들어, 데스크탑, 랩탑, 태블릿 등), 미디어 컴퓨팅 플랫폼(예: 케이블, 위성 셋톱 박스, 디지털 비디오 레코더 등), 핸드 헬드 컴퓨팅 장치(예: PDA, 전자 메일 클라이언트 등), 휴대폰 또는 기타 유형의 컴퓨팅 또는 통신 플랫폼을 포함할 수 있다. 사용자 단말기와 통신하는 서버 시스템은 서버 장치 또는 분산된 서버 장치를 포함할 수 있으며, 메인 프레임 컴퓨터, 미니 컴퓨터, 수퍼 컴퓨터, 퍼스널 컴퓨터 또는 이들의 조합을 포함할 수 있다. 본 발명의 범위를 벗어나지 않으면서 복수의 서버 시스템이 또한 사용될 수 있다. 사용자 단말기와 서버 시스템은 네트워크를 통해 서로 통신할 수 있다. 네트워크는 예를 들어 LAN(근거리 통신망), WAN(광역 네트워크), MAN(대도시 지역 네트워크), ISDN(통합 서비스 디지털 네트워크) 등과 같은 유선 네트워크를 포함할 수 있다.
예제들
예제 1
실시예 1은 표현형에 특이적인 유전자 세트 대 랜덤 유전자 세트에서의 표현형과 상관되는 유전자의 효과를 조사한다. 부트스트랩의 영향에 대해서도 조사했다.
랜덤 유전자 세트를 포함하는 그룹에 대해, 복수의 랜덤 유전자 세트의 랜덤 세트가 데이터베이스로부터 무작위로 선택되고, 랜덤 유전자 세트 내의 유전자에 대한 요약 스코어가 얻어진다. 랜덤 유전자 세트의 결과가 2102, 2106, 2012 및 2016에서 도 21A에서 도시된다. 2102에서의 결과는 부트스트랩없이 10 개의 랜덤 유전자 세트로부터 얻어진다. 2106의 결과는 부트스트래핑을 포함한 10 개의 랜덤 유전자 세트에서 얻어진다. 2112의 결과는 부트스트랩없이 50 개의 랜덤 유전자 세트에서 얻어진다. 2016 년의 결과는 부트스트래핑을 포함한 50 개의 랜덤 유전자 세트에서 얻어진다.
표현형 특이적인 유전자 세트의 결과는 2104, 2108, 2114 및 2118에 도시된다. 2104에서의 결과는 부트스트래핑없이 10 개의 표현형 특이적 유전자 세트로부터 얻어진다. 2108에서의 결과는 부트스트래핑(bootstrapping)을 갖는 10 개의 표현형 특정 유전자 세트로부터의 데이터로부터 얻어진다. 2114의 결과는 부트스트랩없이 50 개의 표현형 특정 유전자 세트의 데이터로부터 얻어지고, 2118에서의 결과는 부트스트래핑을 갖는 50 개의 표현형 특정 유전자 세트로부터 얻어진다. 도 21a로부터 명백한 바와 같이, 트레이닝 세트와 유효성 검정 세트 사이의 요약 스코어의 차이는 샘플의 크기가 커질수록 증가한다. 또한 부트스트래핑은 한편으로 2112에서 2114 사이의 차이와 2116과 2118 사이의 차이에서 볼 수 있는 요약 스코어 차이를 크게 향상시킨다. 또한, 표현형 특이적인 유전자 세트는 요약 차이 스코어가 더 낮으며, 이는 상기한 과정에 따라 유전자형 특이적 유전자 세트에 기초한 스코어의 경우 모델의 신뢰도가 향상되었음을 나타낸다.
상기 데이터는 랜덤 유전자 세트에서 몇몇 유전자로부터의 효과를 제거하는 것이 아마도 유익한 것으로 나타났다. 도 21b는 이 가설을 뒷받침하는 것으로 보인다. 도 21b는 상술한 일부 구현예에 따라 요약 스코어가 정정된 후의 데이터를 도시한다. 구현에서, 유전자의 요약 스코어는 랜덤 유전자 세트 내의 유전자의 순위 제품의 p 스코어에 근거하여 불이익을 받거나 완충되며, 벌점은 조각 스코어와 반비례 관계가있다. 여기에 있는 데이터는 유전자의 수가 증가함에 따라 요약 스코어 차이가 완충되지 않은 것보다 더 빨리 감소한다는 것을 보여준다.
예제 2: 기존 기술의 개선
본원에 개시된 방법 및 시스템은 실험적 유전자 데이터, 인 실리코(in silico) 유전자 데이터 및/또는 관심 개념의 유전자를 식별하기 위한 지식 베이스 데이터를 사용하는 프로세싱 프레임워크를 제공한다. 프레임워크의 구성 요소에는 위에서 설명한 심각한 새로운 피처가 추가로 포함된다. 이 예는 본 발명의 구현예로부터의 결과를 상기한 다중 오믹 또는 폴리 오믹 데이터 또는 다른 신규한 피처를 포함하지 않는 종래의 방법과 비교한다.
먼저, 실험 데이터의 동일한 세트가 잠재적인 결장암과 관련된 유전자를 확인하기 위한 몇몇 구현에 따른 방법에 그리고 종래의 방법에 제공된다. 이 결과는 두 방법간에 결과가 동일하지는 않지만 아래 표에 있는 기존 방법으로 확인된 상위 46 개 유전자는 일부 구현에 따라 방법으로 확인된 상위 2 % 유전자와 대부분 일치한다.
Figure pct00010
Figure pct00011
둘째, 자폐증과 잠재적으로 관련되는 유전자를 확인하기 위한 실험 데이터가 일부 구현예에 따른 방법 및 종래의 방법에 제공된다. 이 비교는 일부 구현예에 따른 방법으로 확인된 상위 100 개 유전자의 많은 유전자가 기존 방법으로 확인되지 않은 많은 유전자를 포함함을 보여준다. 아래의 표는 본 방법으로 확인된 상위 100 개의 유전자를 포함한다.
Figure pct00012
Figure pct00013
Figure pct00014
상기 확인된 유전자 중에서, 많은 것은 종래의 방법에 의해 식별되지 않는다. 더 중요한 것은, 문헌 연구에 의하면 이러한 유전자와 자폐증 사이의 연관성을 뒷받침하는 경험적 증거가 있음이 확인되었다. 예를 들어, Shi et al., Molecular Autism 2013, 4:8, confirming NOTCH2 link to autism; Bacon et al., Molecular Psychiatry (2015), 632 - 639, confirming FOXP1; and Nava et al., Amino Acids (2015) 47:2647-2658, confirming SLC7A3 을 참조할 수 있다.
전술한 발명이 이해의 명확성을 위해 일부 상세하게 설명되었지만, 특정 변경 및 수정이 본 발명의 범위 내에서 실시될 수 있음이 명백할 것이다. 본 발명의 프로세스 및 데이터베이스를 구현하는 많은 대안적인 방법이 있음에 유의해야한다. 따라서, 본 실시예들은 제한적인 것이 아니라 예시적인 것으로 고려되어야하며, 본 발명은 여기에 주어진 세부 사항에 제한되지 않는다.

Claims (52)

  1. 생물학적, 화학적 또는 의학적 관심 개념(concept of interest)과 연관성있을 수 있는 유전자를 식별하기 위한, 하나 이상의 프로세서 및 시스템 메모리를 포함하는 컴퓨터 시스템에서 구현되는 방법으로서,
    (a) 하나 이상의 프로세서에 의해 데이터베이스로부터 복수의 유전자 세트를 선택하는 단계 - 상기 복수의 유전자 세트의 각각의 유전자 세트는 복수의 유전자 및 상기 복수의 유전자와 관련된 복수의 실험값을 포함하고, 상기 복수의 실험값은 적어도 하나의 실험에서 생물학적, 화학적 또는 의학적 관심 개념과 상관 관계가 있음;
    (b) 각각의 유전자 세트에 대해 그리고 하나 이상의 프로세서에 의해, 상기 복수의 유전자 가운데 제 1 하나 이상의 유전자의 하나 이상의 실험 값을 이용하여 상기 복수의 유전자 가운데 상기 제 1 하나 이상의 유전자에 대한 하나 이상의 실험 유전자 스코어를 결정하는 단계;
    (c) 각각의 유전자 세트에 대해 그리고 하나 이상의 프로세서에 의해, 상기 복수의 유전자 중 제 2 하나 이상의 유전자에 대한 상기 제 1 하나 이상의 유전자의 상관 관계에 적어도 부분적으로 기초하여 상기 복수의 유전자 중 제 2 하나 이상의 유전자에 대한 하나 이상의 인 실리코(in silico) 유전자 스코어를 결정하는 단계 - 상기 제 2 하나 이상의 유전자에 대한 상기 제 1 하나 이상의 유전자의 상관 관계는 상기 복수의 유전자 세트 외에 데이터베이스 내의 다른 유전자 세트에 표시됨;
    (d) 상기(b)에서 결정된 제 1 하나 이상의 유전자에 대한 하나 이상의 실험 유전자 스코어 및 단계(c)에서 결정된 제 2 하나 이상의 인 실리코 유전자 스코어에 적어도 부분적으로 기초하여 제 1 및 제 2 하나 이상의 유전자에 대한 요약 스코어를, 하나 이상의 프로세서에 의해, 얻는 단계 - 각각의 요약 스코어는 복수의 유전자 세트 간에 집합화됨; 및
    (e) 하나 이상의 프로세서에 의해, 제 1 및 제 2 하나 이상의 유전자의 요약 스코어를 사용하여 생물학적, 화학적 또는 의학적 관심 개념과 연관성이 있을 수 있는 유전자를 식별하는 단계를 포함하는,
    방법.
  2. 제 1 항에 있어서,(c) 단계는 복수의 유전자 세트의 각 유전자 세트에 대해,
    (ⅰ) 데이터베이스로부터 제 2 복수의 유전자 세트를 식별하는 단계 - 제 2 복수의 유전자 세트의 각각의 유전자 세트는 제 2 복수의 유전자 및 제 2 복수의 유전자와 관련된 제 2 복수의 실험 값을 포함하고, 제 2 복수의 실험 값은 제 1 하나 이상의 유전자 중 제 1 유전자와 상관 관계가 있음;
    (ii) 상기 제 1 하나 이상의 유전자 중 상기 제 1 유전자에 대해 집합화된 값의 벡터를 얻기 위해 상기 제 2 복수의 유전자 세트에 걸쳐 상기 실험값을 집합화시키는 단계;
    (ⅲ) 상기 제 1 하나 이상의 유전자 중 하나 이상의 다른 유전자에 상기(i) 및(ii)를 적용하여, 상기 제 1 하나 이상의 유전자 중 상기 하나 이상의 다른 유전자에 대한 실험값의 하나 이상의 벡터를 얻는 단계; 및
    (iv) 상기 제 1 하나 이상의 유전자 중 제 1 유전자 및 하나 이상의 다른 유전자에 대한 집합화된 값의 벡터를 집합화하여, 상기 제 2 유전자에 대한 하나 이상의 인 실리코 유전자 스코어를 포함하는 하나의 압축 벡터를 얻는 단계를 포함하는, 방법.
  3. 제 2 항에 있어서, 상기 제 1 하나 이상의 유전자 중 특정 유전자에 대한 상기(ⅳ)의 집합화된 벡터 각각은 상기 특정 유전자의 실험값에 비례하여 가중치를 부여하는, 방법.
  4. 제 2 항에 있어서, 상기 제 1 하나 이상의 유전자 중 특정 유전자에 대한 상기(ⅳ)의 집합화된 벡터 각각은 상기 특정 유전자에 대해 식별된 제 2 복수의 유전자 세트 중 소정 개수의 유전자 세트에 비례하여 가중치를 부여하는, 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서, 상기(d) 이전에, 제 3 하나 이상의 유전자에 대한 하나 이상의 유전자-그룹 스코어를 결정하는 단계를 더 포함하는 방법.
  6. 제 5 항에 있어서, 특정 유전자에 대한 각각의 유전자-그룹 스코어는(i) 그룹 라벨과 관련된 유전자 그룹을 각각 포함하는 하나 이상의 유전자 그룹의 유전자 멤버십과,(ii) 상기 제 1 하나 이상의 유전자의 하나 이상의 실험값 중 적어도 일부를 이용하여 결정되는, 방법.
  7. 제 6 항에 있어서, 상기(d)는 상기 제 3 하나 이상의 유전자의 적어도 일부에 대한 유전자-그룹 스코어와,(b)에서 결정된 제 1 하나 이상의 유전자에 대한 하나 이상의 실험 스코어와,(c)에서 결정된 제 2 하나 이상의 유전자에 대한 인 실리코 유전자 스코어에 적어도 부분적으로 기초하여 상기 제 1 및 제 2 하나 이상의 유전자에 대한 요약 스코어를 획득하는 단계를 포함하는, 방법.
  8. 제 7 항에 있어서, 상기 제 3 하나 이상의 유전자에 대한 하나 이상의 유전자-그룹 스코어를 결정하는 단계는,
    제 3 하나 이상의 유전자 중에서 특정 유전자에 대해, 각각이 특정 유전자를 포함하는 하나 이상의 유전자 그룹을 식별하는 단계;
    각각의 유전자 그룹에 대해, 상기 제 1 하나 이상의 유전자 중 일부인 유전자 그룹의 멤버의 비율을 결정하는 단계;
    각각의 유전자 그룹에 대해, 상기 유전자 그룹의 멤버인 제 1 하나 이상의 유전자 중 적어도 일부의 하나 이상의 실험 값을 집합화시켜, 상기 유전자 그룹에 대한 합계 실험값을 얻는 단계; 및
    제 3 하나 이상의 유전자 중에서 특정 유전자에 대해, 제 1 하나 이상의 유전자 중 일원인 유전자 그룹의 멤버의 비율 및 상기 유전자 그룹에 대한 합계 실험값을 사용하여 유전자-그룹 스코어를 결정하는 단계를 포함하는, 방법.
  9. 제 8 항에 있어서,
    상기 하나 이상의 유전자 중 일원인 유전자 그룹 멤버의 비율 및 상기 유전자 그룹에 대한 합계 실험값을 이용하여 상기 유전자-그룹 스코어를 결정하는 단계는,
    각각의 유전자 그룹에 대해, 멤버의 비율 및 합계 실험값의 프로덕트(product)를 얻음으로써, 하나 이상의 유전자 그룹에 대한 하나 이상의 프로덕트를 얻는 단계;
    하나 이상의 유전자 그룹에 대해, 상기 하나 이상의 프로덕트를 합산함으로써, 합산된 프로덕트를 얻는 단계; 및
    제 3 하나 이상의 유전자 중 특정 유전자에 대해, 합산된 프로덕트에 기초한 유전자-그룹 스코어를 결정하는 단계를 포함하는 방법.
  10. 제 6 항에 있어서, 상기 그룹 라벨과 관련된 상기 복수의 유전자는 유전자 세트 라이브러리 내의 유전자를 포함하는 방법.
  11. 제 10 항에 있어서, 유전자 세트 라이브러리 내의 유전자는 유전자 온톨로지(gene ontology)의 유전자를 포함하는 방법.
  12. 제 6 항에 있어서, 상기 그룹 라벨은 조건, 속성, 질병, 표현형, 증후군, 형질, 생물학적 기능, 생물학적 경로, 세포, 생물체, 생물학적 기능, 화합물, 치료제를 단독으로 또는 조합하여 포함하는, 방법.
  13. 제 1 항 내지 제 12 항 중 어느 한 항에 있어서,(d) 전에, 제 4 하나 이상의 유전자에 대한 상호 작용체 스코어를 각각 결정하는 단계를 더 포함하는 방법.
  14. 제 13 항에 있어서, 특정 유전자에 대한 각각의 상호 작용체 스코어는(i) 특정 유전자와 유전자 네트워크 내 특정 유전자에 연결된 다른 유전자 사이의 연결 및(ii) 제 1 하나 이상의 유전자의 하나 이상의 실험 값 중 적어도 일부를 이용하여 결정되는, 방법.
  15. 제 14 항에 있어서, 상기(d) 단계는 상기 제 4 하나 이상의 유전자 중 적어도 일부에 대한 상호 작용체 스코어와,(b)에서 결정된 제 1 하나 이상의 유전자에 대한 하나 이상의 실험 유전자 스코어와,(c)에서 결정된 제 2 하나 이상의 유전자에 대한 인 실리코 유전자 스코어에 적어도 부분적으로 기초하여 적어도 제 1 유전자 및 제 2 유전자에 대한 요약 스코어를 얻는 단계를 포함하는 방법.
  16. 제 14 항에 있어서, 상기 유전자 네트워크는 유전자, 단백질, 인지질(phospholipids) 중 적어도 하나 간의 상호 작용 및 관계에 기초하는 방법.
  17. 제 14 항에 있어서, 상기 제 4 하나 이상의 유전자 각각에 대한 상호 작용체 스코어를 결정하는 단계는,
    유전자 네트워크를 제공하는 단계 - 네트워크 내 유전자의 각 쌍이 에지에 의해 연결되고, 네트워크의 유전자는 제 1 하나 이상의 유전자, 또는, 제 2 하나 이상의 유전자, 또는, 제 1 하나 이상의 유전자 및 제 2 하나 이상의 유전자 중 적어도 일부를 포함하는 제 4 하나 이상의 유전자를 포함함;
    제 4 하나 이상의 유전자의 각 유전자에 대해, 인접한 두 개의 유전자를 연결하는 연결 에지의 수로 측정된 특정 유전자로부터의 연결 거리에 기초하여 연결된 유전자들의 인접부(neighborhood)를 형성하는 단계; 및
    (i) 특정 유전자와 상기 인접부 내 하나 이상의 다른 유전자 사이의 하나 이상의 연결 거리 및(ii) 상기 인접부 내 하나 이상의 다른 유전자의 요약 스코어 - 상기 요약 스코어는 실험 데이터에 기초함 - 를 이용하여 상호 작용체 스코어를 계산하는 단계를 포함하는, 방법.
  18. 제 17 항에 있어서, 상호 작용체 스코어는 복수의 분수의 합에 비례하여 계산되고, 각 분수는 특정 유전자와 인접부 내 다른 유전자 사이의 연결 거리로 나눈 인접부 내 상기 다른 유전자의 요약 스코어인 방법.
  19. 제 14 항에 있어서, 제 4 하나 이상의 유전자 각각에 대한 상호 작용체 스코어를 결정하는 단계는,
    유전자 네트워크를 제공하는 단계 - 네트워크의 유전자가 제 1 임계 값 이상의 실험 데이터에 기초한 요약 스코어를 갖고, 각 쌍의 유전자가 에지에 의해 연결되며, 네트워크의 유전자는 제 1 하나 이상의 유전자, 또는, 제 2 하나 이상의 유전자, 또는, 제 1 하나 이상의 유전자 및 제 2 하나 이상의 유전자 중 적어도 일부를 포함하는 제 4 하나 이상의 유전자를 포함함;
    각각의 에지에 대해, 적어도 하나의 상호작용체 지식 베이스 내 2개의 유전자에 대한 연결 데이터에 기초하여 2 개의 유전자를 연결하는 에지에 가중치를 할당하는 단계; 및
    (i) 특정 유전자와 상기 특정 유전자에 연결된 모든 유전자 사이의 에지의 가중치 및(ii) 상기 특정 유전자에 연결된 모든 유전자의 요약 스코어를 사용하여 상호 작용체 스코어를 계산하는 단계를 포함하는 방법.
  20. 제 19 항에 있어서, 상기 상호 작용체 스코어를 계산하는 단계는 상기 상호 작용체 스코어를 Ni'으로 계산하는 단계를 포함하고,
    Figure pct00015

    Ni는 특정 유전자 i의 요약 스코어이고, Nn은 특정 유전자에 연결된 유전자 n의 요약 스코어이며, edge_weightn은 특정 유전자 i 및 유전자 n을 연결하는 에지의 가중치인, 방법.
  21. 제 20 항에 있어서, 상기 상호 작용체 스코어를 계산하는 단계는,
    제 1 패스 사전에서 제 2 임계치보다 작은 Ni'를 저장하는 단계; 및
    상기 제 1 패스 사전 내의 모든 유전자에 대해 제 20 항의 계산 단계를 반복함으로써 상기 상호 작용체 스코어를 갱신하는 단계를 포함하는 방법.
  22. 제 21 항에 있어서, 상기 상호 작용체 스코어를 계산하는 단계는 하나 이상의 패스에 대해 청구항 제 21 항의 동작들을 반복하는 단계를 더 포함하는 방법.
  23. 제 1 항 내지 제 22 항 중 어느 한 항에 있어서, 상기(a)의 복수의 실험 유전자 세트를 선택하는 단계는 실험 유전자 세트와 관련된 바이오태그에 할당된 바이오태그 스코어에 기초하여 실험 유전자 세트를 선택하는 단계를 포함하고, 상기 바이오태그 스코어는 유전자 세트의 중요도 레벨을 표시하는, 방법.
  24. 제 23 항에 있어서, 상기 바이오태그는 바이오 소스, 바이오 디자인, 조직, 질병, 화합물, 유전자, 유전자 모드, 바이오 그룹을 단독으로 또는 조합하여 포함하는 그룹으로부터 선택되는 카테고리에 의해 조직화되는 것인 방법.
  25. 제 24 항에 있어서, 바이오태그에 기초하여 유전자 세트와는 유전자 그룹 중 적어도 하나의 점수화(scoring)를 수행하는 단계를 더 포함하는 방법.
  26. 제 1 항에 있어서, 상기 복수의 실험값은 데이터 값으로부터 일 유전자 또는 복수의 유전자로의 특정 관계를 유도할 수 있는 변이형 또는 유전자 관련 데이터를 포함하는 방법.
  27. 제 26 항에 있어서, 상기 복수의 실험값은 복수의 유전자 교란 값(gene perturbation values)을 포함하는 방법.
  28. 제 26 항에 있어서, 상기 복수의 실험값은 게놈 폭 연관 연구에서의 연관성, 전사 인자 활동, DNA 메틸화, 단백질 발현, RNA 발현의 레벨을 단독으로 또는 조합하여 표시하는 방법.
  29. 제 1 항 내지 제 28 항에 있어서, 생물학적, 화학적 또는 의학적 관심 개념은 표현형을 포함하는 방법.
  30. 제 29 항에 있어서, 상기 표현형이 질환 관련 표현형을 포함하는 방법.
  31. 제 1 항에 있어서, 특정 유전자의 각 요약 스코어는 상기 복수의 유전자 세트에 걸친 상기 실험 스코어와 인 실리코 스코어의 선형 조합으로서 계산되는 방법.
  32. 제 1 항에 있어서, 상기(d) 단계는,
    입력으로 실험 유전자 스코어 및 인 실리코 유전자 스코어를 수신하고 출력으로 요약 스코어를 제공하는 모델을 제공하는 단계; 및
    상기 하나 이상의 실험 유전자 스코어 및 상기 하나 이상의 인 실리코 유전자 스코어에 상기 모델을 적용하여, 상기 제 1 하나 이상의 유전자 및 상기 제 2 하나 이상의 유전자에 대한 요약 스코어를 얻는 단계를 포함하는 방법.
  33. 제 32 항에 있어서, 목적 함수(objective function)를 최적화함으로써 상기 모델을 트레이닝하는 단계를 더 포함하는 방법.
  34. 제 33 항에 있어서, 상기 모델을 트레이닝하는 단계는 샘플을 부트스트랩하기 위해 부트스트랩 기술을 적용하는 단계를 포함하는 방법.
  35. 제 34 항에 있어서, 상기 목적 함수는 부트스트랩 이후 적어도 하나의 요약 스코어 분포에 관련되는 것을 특징으로하는 방법.
  36. 제 33 항에 있어서, 상기 목적 함수를 최적화하는 단계는 트레이닝 세트와 유효화 세트 간의 요약 스코어의 차이를 최소화하는 단계를 포함하는 방법.
  37. 제 33 항에 있어서, 상기 목적 함수를 최적화하는 단계는 상기 복수의 유전자 세트로부터 얻어진 요약 스코어 분포와, 랜덤 유전자 세트로부터 얻어진 요약 스코어 분포 간의 거리를 최대화하는 단계를 포함하는 방법.
  38. 제 33 항에 있어서, 요약 스코어는 규정된 크기의 버킷들로 랭킹되고 비닝(binning)되며, 상기 버킷들에 페널티 스코어(penalty scores)들이 할당되고, 상기 페널티 스코어는 보다 높은 랭킹 요약 스코어를 우선시하는 방법.
  39. 제 38 항에 있어서, 상기 목적 함수는 최상위 랭킹 요약 스코어에만 기초하는 방법.
  40. 제 33 항에 있어서, 상기 모델을 트레이닝하는 단계는 상기 모델의 파라미터를 학습하기 위해 자율 기계 학습 기법으로 상기 목적 함수를 사용하는 단계를 포함하는 방법.
  41. 제 40 항에 있어서, 상기 모델은
    Figure pct00016

    여기서
    Figure pct00017
    는 모델의 파라미터이고, ci는 모델의 구성 요소이며, ki는 구성 요소의 가중 팩터인, 방법.
  42. 제 41 항에 있어서, 실험 데이터 유형의 샘플 가중치에 기초하여 상기 모델의 하나 이상의 구성요소트를 서브구성요소로 분할하는 단계를 더 포함하는 방법.
  43. 제 1 항 내지 제 42 항 중 어느 한 항에 있어서, 상기 제 1 및 제 2 하나 이상의 유전자의 요약 스코어는 하나 이상의 랜덤 유전자 세트 내의 제 1 및 제 2 하나 이상의 유전자의 실험 값이 생물학적, 화학적 또는 의학적 관심 개념과 얼마나 연관이 있는지에 기초하여 페널티화되는 방법.
  44. 제 43 항에 있어서, 특정 유전자의 각 요약 스코어는 랭킹 프로덕트의 p 값에 반비례하는 페널티 값에 의해 페널티화되고, 상기 랭킹 프로덕트는 하나 이상의 랜덤 유전자 세트 간에 상기 특정 유전자의 랭킹들의 프로덕트를 포함하는 방법.
  45. 제 1 항 내지 제 44 항 중 어느 한 항에 있어서, 상기 제 1 하나 이상의 유전자는 상기 제 2 하나 이상의 유전자와 동일하지 않은 방법.
  46. 제 1 항 내지 제 45 항 중 어느 한 항에 있어서, 상기 요약 스코어는 정규화되는 방법.
  47. 제 1 항 내지 제 46 항 중 어느 한 항에 있어서, 상기 데이터베이스는 복수의 서브-데이터베이스를 포함하는 방법.
  48. 제 1 항 내지 제 47 항 중 어느 한 항에 있어서, 상기(b)에서의 상기 제 1 하나 이상의 유전자의 하나 이상의 실험값이 소정의 기준을 충족시키는 방법.
  49. 제 1 항 내지 제 48 항 중 어느 한 항에 있어서, 각각의 요약 스코어는 특이 값(singular values)들의 선형 조합에 의해 집합화되는 방법.
  50. 제 49 항에 있어서, 상기 선형 조합은 제곱의 합을 포함하는 방법.
  51. 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행될 때, 생물학적, 화학적 또는 의학적 관심 개념(concept of interest)과 연관성있을 수 있는 유전자를 식별하기 위한 방법을 컴퓨터 시스템으로 하여금 구현할 수 있게 하는 프로그램 코드를 저장하는 비-일시적 기계 판독가능 매체를 포함하는 컴퓨터 프로그램 프로덕트에 잇어서, 상기 프로그램 코드는,
    (a) 데이터베이스로부터 복수의 유전자 세트를 선택하기 위한 코드 - 상기 복수의 유전자 세트의 각각의 유전자 세트는 복수의 유전자 및 상기 복수의 유전자와 관련된 복수의 실험값을 포함하고, 상기 복수의 실험값은 적어도 하나의 실험에서 생물학적, 화학적 또는 의학적 관심 개념과 상관 관계가 있음;
    (b) 각각의 유전자 세트에 대해, 상기 복수의 유전자 가운데 제 1 하나 이상의 유전자의 하나 이상의 실험 값을 이용하여 상기 복수의 유전자 가운데 상기 제 1 하나 이상의 유전자에 대한 하나 이상의 실험 유전자 스코어를 결정하기 위한 코드;
    (c) 각각의 유전자 세트에 대해, 상기 복수의 유전자 중 제 2 하나 이상의 유전자에 대한 상기 제 1 하나 이상의 유전자의 상관 관계에 적어도 부분적으로 기초하여 상기 복수의 유전자 중 제 2 하나 이상의 유전자에 대한 하나 이상의 인 실리코(in silico) 유전자 스코어를 결정하기 위한 코드 - 상기 제 2 하나 이상의 유전자에 대한 상기 제 1 하나 이상의 유전자의 상관 관계는 상기 복수의 유전자 세트 외에 데이터베이스 내의 다른 유전자 세트에 표시됨;
    (d) 상기(b)에서 결정된 제 1 하나 이상의 유전자에 대한 하나 이상의 실험 유전자 스코어 및 단계(c)에서 결정된 제 2 하나 이상의 인 실리코 유전자 스코어에 적어도 부분적으로 기초하여 제 1 및 제 2 하나 이상의 유전자에 대한 요약 스코어를 얻기 위한 코드 - 각각의 요약 스코어는 복수의 유전자 세트 간에 집합화됨; 및
    (e) 제 1 및 제 2 하나 이상의 유전자의 요약 스코어를 사용하여 생물학적, 화학적 또는 의학적 관심 개념과 연관성이 있을 수 있는 유전자를 식별하기 위한 코드를 포함하는,
    컴퓨터 프로그램 프로덕트.
  52. 컴퓨터 시스템에 있어서,
    하나 이상의 프로세서;
    시스템 메모리; 및
    하나 이상의 프로세서에 의해 실행될 때, 생물학적, 화학적 또는 의학적 관심 개념(concept of interest)과 연관성있을 수 있는 유전자를 식별하기 위한 방법을 컴퓨터 시스템으로 하여금 구현하게 하는 컴퓨터-실행가능 명령어를 저장한 하나 이상의 컴퓨터 판독가능 저장 매체를 포함하고, 상기 방법은,
    (a) 하나 이상의 프로세서에 의해 데이터베이스로부터 복수의 유전자 세트를 선택하는 단계 - 상기 복수의 유전자 세트의 각각의 유전자 세트는 복수의 유전자 및 상기 복수의 유전자와 관련된 복수의 실험값을 포함하고, 상기 복수의 실험값은 적어도 하나의 실험에서 생물학적, 화학적 또는 의학적 관심 개념과 상관 관계가 있음;
    (b) 각각의 유전자 세트에 대해 그리고 하나 이상의 프로세서에 의해, 상기 복수의 유전자 가운데 제 1 하나 이상의 유전자의 하나 이상의 실험 값을 이용하여 상기 복수의 유전자 가운데 상기 제 1 하나 이상의 유전자에 대한 하나 이상의 실험 유전자 스코어를 결정하는 단계;
    (c) 각각의 유전자 세트에 대해 그리고 하나 이상의 프로세서에 의해, 상기 복수의 유전자 중 제 2 하나 이상의 유전자에 대한 상기 제 1 하나 이상의 유전자의 상관 관계에 적어도 부분적으로 기초하여 상기 복수의 유전자 중 제 2 하나 이상의 유전자에 대한 하나 이상의 인 실리코(in silico) 유전자 스코어를 결정하는 단계 - 상기 제 2 하나 이상의 유전자에 대한 상기 제 1 하나 이상의 유전자의 상관 관계는 상기 복수의 유전자 세트 외에 데이터베이스 내의 다른 유전자 세트에 표시됨;
    (d) 상기(b)에서 결정된 제 1 하나 이상의 유전자에 대한 하나 이상의 실험 유전자 스코어 및 단계(c)에서 결정된 제 2 하나 이상의 인 실리코 유전자 스코어에 적어도 부분적으로 기초하여 제 1 및 제 2 하나 이상의 유전자에 대한 요약 스코어를, 하나 이상의 프로세서에 의해, 얻는 단계 - 각각의 요약 스코어는 복수의 유전자 세트 간에 집합화됨; 및
    (e) 하나 이상의 프로세서에 의해, 제 1 및 제 2 하나 이상의 유전자의 요약 스코어를 사용하여 생물학적, 화학적 또는 의학적 관심 개념과 연관성이 있을 수 있는 유전자를 식별하는 단계를 포함하는,
    컴퓨터 시스템.







KR1020197012690A 2016-10-03 2017-10-03 준비된 유전자 라이브러리 및 네트워크 기반의 데이타 구조를 이용한 표현형/질환 특이적 유전자 등급화 KR20190077372A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662403206P 2016-10-03 2016-10-03
US62/403,206 2016-10-03
PCT/US2017/054977 WO2018067595A1 (en) 2016-10-03 2017-10-03 Phenotype/disease specific gene ranking using curated, gene library and network based data structures

Publications (1)

Publication Number Publication Date
KR20190077372A true KR20190077372A (ko) 2019-07-03

Family

ID=60117816

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197012690A KR20190077372A (ko) 2016-10-03 2017-10-03 준비된 유전자 라이브러리 및 네트워크 기반의 데이타 구조를 이용한 표현형/질환 특이적 유전자 등급화

Country Status (11)

Country Link
US (1) US10810213B2 (ko)
EP (1) EP3520006B1 (ko)
JP (1) JP2020502697A (ko)
KR (1) KR20190077372A (ko)
CN (1) CN109906486B (ko)
AU (2) AU2017338775B2 (ko)
CA (1) CA3039201A1 (ko)
MX (1) MX2019003765A (ko)
RU (1) RU2019110756A (ko)
SG (1) SG11201902925PA (ko)
WO (1) WO2018067595A1 (ko)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103748236B (zh) 2011-04-15 2018-12-25 约翰·霍普金斯大学 安全测序系统
WO2014070462A1 (en) 2012-10-29 2014-05-08 The Johns Hopkins University Papanicolaou test for ovarian and endometrial cancers
US11286531B2 (en) 2015-08-11 2022-03-29 The Johns Hopkins University Assaying ovarian cyst fluid
US11948662B2 (en) * 2017-02-17 2024-04-02 The Regents Of The University Of California Metabolite, annotation, and gene integration system and method
WO2019067092A1 (en) 2017-08-07 2019-04-04 The Johns Hopkins University METHODS AND SUBSTANCES FOR THE EVALUATION AND TREATMENT OF CANCER
EP3550568B1 (en) * 2018-04-07 2023-07-05 Tata Consultancy Services Limited Graph convolution based gene prioritization on heterogeneous networks
US11354591B2 (en) 2018-10-11 2022-06-07 International Business Machines Corporation Identifying gene signatures and corresponding biological pathways based on an automatically curated genomic database
CA3115991A1 (en) * 2018-10-12 2020-04-16 Human Longevity, Inc. Multi-omic search engine for integrative analysis of cancer genomic and clinical data
KR102230156B1 (ko) * 2018-10-15 2021-03-19 연세대학교 산학협력단 네트워크 기반의 유전자 세트 증강 분석 방법을 이용한 약물 재창출 방법
CN109684286B (zh) * 2018-12-28 2021-10-22 中国科学院苏州生物医学工程技术研究所 数字期刊实验数据共享方法及系统、存储介质、电子设备
US20220223225A1 (en) * 2019-05-24 2022-07-14 Northeastern University Chemical-disease perturbation ranking
CN110310708A (zh) * 2019-06-18 2019-10-08 广东省生态环境技术研究所 一种构建异化砷还原酶蛋白数据库的方法
CN110364266A (zh) * 2019-06-28 2019-10-22 深圳裕策生物科技有限公司 用于指导临床肿瘤个体化用药的数据库及其构建方法和装置
EP4018393A4 (en) * 2019-08-20 2023-04-05 Technion Research & Development Foundation Limited AUTOMATED LITERATURE METAANALYSIS USING HYPOTHESE GENERATORS AND AUTOMATIC SEARCH
CN110797080A (zh) * 2019-10-18 2020-02-14 湖南大学 基于跨物种迁移学习预测合成致死基因
CN110729022B (zh) * 2019-10-24 2023-06-23 江西中烟工业有限责任公司 一种被动吸烟大鼠早期肝损伤模型建立方法及相关基因筛选方法
CN111028883B (zh) * 2019-11-20 2023-07-18 广州达美智能科技有限公司 基于布尔代数的基因处理方法、装置及可读存储介质
EP3855114A1 (en) * 2020-01-22 2021-07-28 Siemens Gamesa Renewable Energy A/S A method and an apparatus for computer-implemented analyzing of a road transport route
CN111540405B (zh) * 2020-04-29 2023-07-07 新疆大学 一种基于快速网络嵌入的疾病基因预测方法
JP7402140B2 (ja) * 2020-09-23 2023-12-20 株式会社日立製作所 登録装置、登録方法、および登録プログラム
CN112802546B (zh) * 2020-12-29 2024-05-03 中国人民解放军军事科学院军事医学研究院 一种生物状态表征方法、装置、设备及存储介质
TWI755261B (zh) * 2021-01-25 2022-02-11 沐恩生醫光電股份有限公司 基因評估裝置以及方法
WO2023023366A1 (en) 2021-08-19 2023-02-23 Rehrig Pacific Company Imaging system with unsupervised learning
CN115240772B (zh) * 2022-08-22 2023-08-22 南京医科大学 一种基于图神经网络的解析单细胞通路活性的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007075488A2 (en) 2005-12-16 2007-07-05 Nextbio System and method for scientific information knowledge management
US8364665B2 (en) 2005-12-16 2013-01-29 Nextbio Directional expression-based scientific information knowledge management
US9183349B2 (en) * 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management
CN101989297A (zh) * 2009-07-30 2011-03-23 陈越 用于计算机上的疾病基因相关药物发掘系统
CN102855398B (zh) 2012-08-28 2016-03-02 中国科学院自动化研究所 基于多源信息融合的疾病潜在关联基因的获取方法
US10072296B2 (en) * 2016-09-19 2018-09-11 The Charlotte Mecklenburg Hospital Authority Compositions and methods for sjögren's syndrome

Also Published As

Publication number Publication date
SG11201902925PA (en) 2019-05-30
AU2017338775A1 (en) 2019-05-02
AU2022268283A1 (en) 2022-12-15
EP3520006A1 (en) 2019-08-07
MX2019003765A (es) 2019-09-26
CN109906486B (zh) 2023-07-14
US10810213B2 (en) 2020-10-20
RU2019110756A (ru) 2020-11-06
EP3520006B1 (en) 2023-11-29
CN109906486A (zh) 2019-06-18
JP2020502697A (ja) 2020-01-23
AU2022268283B2 (en) 2024-03-28
AU2017338775B2 (en) 2022-08-11
WO2018067595A1 (en) 2018-04-12
US20180095969A1 (en) 2018-04-05
CA3039201A1 (en) 2018-04-12

Similar Documents

Publication Publication Date Title
AU2022268283B2 (en) Phenotype/disease specific gene ranking using curated, gene library and network based data structures
Franzén et al. PanglaoDB: a web server for exploration of mouse and human single-cell RNA sequencing data
US9141913B2 (en) Categorization and filtering of scientific data
JP4594622B2 (ja) 薬発見法
Van Driel et al. A text-mining analysis of the human phenome
US8275737B2 (en) System and method for scientific information knowledge management
JP2006501531A5 (ko)
Costello et al. Gene networks in Drosophila melanogaster: integrating experimental data to predict gene function
Petereit et al. petal: Co-expression network modelling in R
Li et al. A mouse protein interactome through combined literature mining with multiple sources of interaction evidence
Lapins et al. Evaluation of gene expression and phenotypic profiling data as quantitative descriptors for predicting drug targets and mechanisms of action
Wang et al. Pathway-based single-cell RNA-seq classification, clustering, and construction of gene-gene interactions networks using random forests
Angel et al. A simple, scalable approach to building a cross-platform transcriptome atlas
KR101067352B1 (ko) 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체
Lucas et al. Cross-study projections of genomic biomarkers: an evaluation in cancer genomics
Xi et al. SiftCell: A robust framework to detect and isolate cell-containing droplets from single-cell RNA sequence reads
Lin et al. Bayesian mixture models for cytometry data analysis
Jiang et al. Spatial Transcriptomics Arena (STAr): an Integrated Platform for Spatial Transcriptomics Methodology Research
Case et al. Machine learning to predict continuous protein properties from binary cell sorting data and map unseen sequence space
Rich et al. The impact of package selection and versioning on single-cell RNA-seq analysis
Kumar et al. A comprehensive overview of microbiome data in the light of machine learning applications: categorization, accessibility, and future directions
Wodak et al. High-throughput analyses and curation of protein interactions in yeast
Majhi et al. Artificial Intelligence in Bioinformatics
Shtetinska Statistical analysis and modelling of proteomic and genetic network data illuminate hidden roles of proteins and their connections
Stamm Gene set enrichment and projection: A computational tool for knowledge discovery in transcriptomes

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application