KR20190016149A - 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템 - Google Patents

게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템 Download PDF

Info

Publication number
KR20190016149A
KR20190016149A KR1020197003895A KR20197003895A KR20190016149A KR 20190016149 A KR20190016149 A KR 20190016149A KR 1020197003895 A KR1020197003895 A KR 1020197003895A KR 20197003895 A KR20197003895 A KR 20197003895A KR 20190016149 A KR20190016149 A KR 20190016149A
Authority
KR
South Korea
Prior art keywords
genome
data
sequence
information
scale
Prior art date
Application number
KR1020197003895A
Other languages
English (en)
Inventor
찰스 조셉 바스크
존 자카리 산본
스테펜 벤즈
Original Assignee
파이브3 제노믹스, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 파이브3 제노믹스, 엘엘씨 filed Critical 파이브3 제노믹스, 엘엘씨
Publication of KR20190016149A publication Critical patent/KR20190016149A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • G09G5/37Details of the operation on graphic patterns
    • G09G5/373Details of the operation on graphic patterns for modifying the size of the graphic pattern
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/24Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2340/00Aspects of display data processing
    • G09G2340/04Changes in size, position or resolution of an image
    • G09G2340/045Zooming at least part of an image, i.e. enlarging it or shrinking it
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2354/00Aspects of interface with display user

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

게놈 데이터의 동적 시각화를 위한 시스템과 방법이 제공되며, 여기서 게놈 시각화 시스템은 시퀀스 오브젝트 내의 스케일-관련 주석에 따른 정보 콘텐츠의 표현을 채택한다.

Description

게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템{DISTRIBUTED SYSTEM PROVIDING DYNAMIC INDEXING AND VISUALIZATION OF GENOMIC DATA}
본 발명의 분야는 컴퓨터를 이용한 유전체학(genomics)이며, 특히 복잡한 게놈 정보의 동적 그래픽 표현에 관한 것이다.
<우선권 주장>
본 출원은 2011년 12월 8일에 출원된, 미국 특허 가출원 제61/568478호의 혜택을 주장한다. 여기에서 논의되는 본 그리고 다른 외적인 재료는 전부 여기 참조에 의해 포함된다.
다음의 설명은 본 발명을 이해하는데 유용한 정보를 포함한다. 여기 제공된 어떠한 정보도 선행기술 또는 현재 청구되는 발명에 관련된 것이라고 인정하는 것이 아니며, 또는 특정하여 또는 내포적으로 참조되는 어떠한 발행물도 선행기술로인정하는 것이 아니다.
높은 처리율의 시퀀싱(sequencing)과 전체 게놈 데이터 세트의 가용성의 출현으로, 데이터 저장소, 검색 및 협력 분석(coordinated analysis)을 제외하고, 시퀀싱 속도는 게놈 분석에 있어서 더 이상 병목지점이 아니다. 데이터 저장소, 검색 및 분석은 서로 다른 사용자로부터의 시각화된 정보에 대한 다양한 요구사항들에 의해 좀 더 복잡해진다. 서로 다른 관점으로부터 관찰되는, 게놈 데이터의 정보-집약적이고 선별적인 표현은 현재 가용한 방대한 양의 데이터의 활용에 중요하다.
본 분야에 알려진 몇 가지 게놈 브라우저가 있지만, 모든 알려진 브라우저는 상당한 문제를 갖는다. 예를 들면, UCSC 게놈 브라우저(http://genome.ucsc.edu)는 대용량 데이터를 그래픽 형태로 제공하지만, 그러나, 줌 레벨(zoom level)에 독립적인 미리 정의된 디스플레이로 인해 사용자 특정한 정보 밀도에 부응하지 못한다. 그러므로, 그러한 브라우저들은 모든 줌 레벨에서의 요구사항에 최적으로 응답할 수 없다. 유사하게, NCBI(http://www.ncbi.nlm.nih.gov/nuccore/)의 그래픽 뷰어에 유사한 그래픽 뷰어들도 역시 특정 미리 정의된 파라미터에 한정되며 동적 표현과 콘텐츠의 적응을 허용하지 않는다.
결과적으로, 복잡한 게놈 정보의 디스플레이에 대한 다양한 시스템과 방법이 본 분야에 알려져 있지만, 많은 단점이 여전히 남아있다. 그러므로 복잡한 유전자 정보의 그래픽 표현, 그리고 특히 동적 그래픽 표현을 위한 향상된 장치와 방법이 여전히 제공될 필요가 있다.
본 발명의 주제는, 게놈 시각화 시스템이 시퀀스 오브젝트 내의 스케일-관련 주석(annotations)에 따라 정보 콘텐츠의 표현을 적응하는, 게놈 데이터의 동적 시각화를 위한 방법 및 장치에 관련된다. 따라서 적응형(adaptive) 콘텐츠 디스플레이는 상당히 감소된 데이터 분석과 전송에서 성취될 수 있다.
본 발명의 주제의 바람직한 측면에서, 게놈 시각화 시스템은 게놈 영역을 나타내는 시퀀스 오브젝트를 저장하는 인덱싱된 게놈 데이터베이스를 포함하는 것이 고려된다. 좀 더 전형적으로, 상기 시퀀스 오브젝트는 복수의 스케일-관련 주석을 포함한다. 스케일링(scaling) 엔진은 상기 인덱싱된 게놈 데이터 저장소와 연결되고, (a)상기 시퀀스 오브젝트의 스케일-관련 주석으로부터 도출된 스케일-관련 정보를 사용자 선택된 줌 레벨의 기능에 따라 조정하고, (b) 상기 스케일-관련 정보를 나타내는 게놈 디스플레이 오브젝트를 상기 줌 레벨에 기초하여 동적으로 생성하고, 그리고 (c) 상기 게놈 디스플레이 오브젝트를 사용자에게 표현하는 출력 장치를 구성하도록 구성된다.
본 발명의 주제로 한정하는 것은 아니지만, 시퀀스 오브젝트는 SAM/BAM 또는 BAMBAM 포맷을 가지며, 그리고/또는 게놈 영역은 전장 유전체(whole genome), 염색체, 염색체 절편(chromosomal fragment) 또는 대립 유전자인 것이 일반적으로 바람직하다.
스케일링 엔진과 관련하여, 하나 이상의 밤서버(barmserver) 그리고/또는 시각화 서버가 스케일링 엔진으로 동작하는 것이 고려된다. 또한, 스케일링 엔진은 상기 줌-레벨에 기초하여 다운샘플링함으로써 상기 스케일-관련 정보를 조정하도록 더 구성될 수 있다 것이 고려된다(다운샘플링은 줌 레벨로부터 도출된 데이터 밀도의 기능일 수 있다). 대안으로, 또는 추가적으로, 상기 스케일링 엔진은 상기 줌 레벨을 결정하고, 그리고 선택적으로 상기 시퀀스 오브젝트의 전(full) 데이터 세트를 상기 줌 레벨에 따라 요약하도록, 구성되는 것이 고려된다. 희망시, 스케일링 엔진은 상기 스케일 관련 정보를 서로 다른 시퀀스 오브젝트들 내의 스케일-관련 주석에서의 차이로부터 도출하도록 구성될 수도 있다.
고려되는 또 다른 측면에서, 시퀀스 오브젝트는 참조 시퀀스 오브젝트를 포함하고, 이는 가장 바람직하게는 행(raw) 시퀀스 데이터, 호모 스태티스티커스(homo statisticus )로부터의 시퀀스 데이터, 그리고 특정 시점(a specified point in time)으로부터의 시퀀스 데이터인 것이 좋다. 대안으로, 또는 추가적으로, 상기 시퀀스 오브젝트는 참조 게놈 영역과 관련된 미분 시퀀스 오브젝트를 포함한다(예를 들면, 호모 스태티스티커스로부터 얻거나 또는 특정 시점의 참조 게놈 영역). 유사하게, 상기 스케일 관련 주석은 상당히 다양하며 바람직하게는 게놈 구조 정보(예를 들면, 염색체 식별, 염색체 내의 위치, 대립 유전자, 등), 게놈 변화 정보(예를 들면, 돌연변이, 전좌, 역위, 결실, 반복, 그리고 복제수), 질병 정보(예를 들면, 질병의 유형, 질병의 상태, 그리고 질병에 대한 치료 옵션), 유전자 관련 정보(예를 들면, 행 시퀀스 데이터나 프로세싱된 시퀀스 데이터, 유전자 식별, 유전자 규칙에 대한 정보, 그리고 질병을 갖는 유전자의 연합 정보), 참조 시퀀스와 관련된 미분 정보, 그리고 메타 데이터(예를 들면, 환자 식별, 시설 식별, 의사 식별, 그리고 보험 정보)를 포함할 것이다.
본 발명의 주제로 한정하지는 않지만, 게놈 시각화 시스템은 일반적으로 스케일 관련 주석을 나타내는 그래픽 오브젝트를 저장하도록 구성되는 게놈 그래픽 라이브러리를 더 포함하는 것이 바람직하다. 그러한 시스템에서, 상기 스케일링 엔진은 상기 스케일 관련 정보를 상기 줌 레벨에 따라 그래픽 라이브러리로부터의 그래픽 오브젝트에 매핑하고, 상기 게놈 디스플레이 오브젝트는 상기 매핑된 그래픽 오브젝트를 포함하는 것이 바람직하다. 적합한 출력 장치와 관련하여, 디스플레이, 브라우저, 프린터, 3D 프린터, 그리고/또는 스피커가 전형적으로 바람직하다.
본 발명의 주제의 다양한 오브젝트, 특징, 측면 및 이점은, 유사한 번호는 유사한 구성요소를 나타내는 첨부하는 도면과 함께, 이하의 바람직한 실시예에 대한 상세한 설명으로부터 좀 더 명백해질 것이다.
도 1은 분산 게놈 시각화 환경의 개요도를 제공한다.
도 2는 시각화 스케일링(scaling) 엔진을 포함하는 가능한 게놈 시각화 시스템을 보여준다.
도 3은 베이스 줌 레벨에서의 예제 디스플레이 뷰를 보여준다.
도 4는 서브-킬로베이스(sub-kilobase) 줌 레벨에서의 도 3의 예제 디스플레이 뷰를 보여준다.
도 5는 1 킬로베이스(sub-kilobase) 줌 레벨에서의 도 4의 예제 디스플레이 뷰를 보여준다.
도 6은 염색체 줌 레벨에서의 도 5의 예제 디스플레이 뷰를 보여준다.
본 발명의 주제는 게놈 데이터의 동적 시각화를 위한 장치와 방법에 관한 것이다. 고려되는 시스템과 방법은 데이터 응집(aggregation)과 트래픽을 감소시키는 한편 정보-풍부 콘텐츠의 선택적이고 확장가능한(scalable) 디스플레이를 허용한다.
다음의 설명은 컴퓨터-서버 기반의 게놈 시각화 시스템에 대한 것이지만, 다양한 대안의 구성도 적합하다고 여겨지며, 또한 서버, 인터페이스, 시스템, 데이터베이스, 에이전트, 피어(peers), 엔진, 컨트롤러, 또는 개별적으로나 집합적으로 동작하는 다른 유형의 컴퓨팅 장치를 포함하는 다양한 컴퓨팅 장치를 채용할 수 있다는 것이 주지되어야 한다. 컴퓨팅 장치는 유형의, 비-일시적 컴퓨터 판독가능한 저장 매체(예를 들면, 하드 드라이브, 솔리드 상태 드라이브, RAM, 플래시, ROM 등 )에 저장된 소프트웨어 명령을 수행하도록 구성되는 프로세서를 포함한다는 것이 인정되어야 한다. 소프트웨어 명령은 바람직하게는, 여기 개시된 장치와 관련하여이하 논의되는, 역할, 책임, 또는 다른 기능성을 제공하는 컴퓨팅 장치를 구성한다. 특별히 바람직한 실시예에서, 다양한 서버, 시스템, 데이터베이스 또는 인터페이스는, 아마도 HTTP, HTTPS, AES, 공중-개인 키 교환, 웹 서비스 APIs, 알려진 재무 트랜잭션 프로토콜, 또는 다른 전자 정보 교환 방법에 기초하는, 표준 프로토콜이나 알고리즘을 사용하여 데이터를 교환한다. 데이터 교환은 바람직하게는 패킷-스위칭된 네트워크, 인터넷, LAN, WAN, VPN, 또는 다른 유형의 패킷 스위칭 네트워크를 통해 수행된다.
다음의 논의 전반에서, 많은 참조가 서버, 서비스, 인터페이스, 포털, 플랫폼, 또는 컴퓨팅 장치로터 형성되는 다른 시스템을 고려하여 만들어질 것이다. 이러한 용어의 사용은 컴퓨터 판독가능한 유형의, 비-일시적 매체에 저장된 소프트웨어 명령을 실행하도록 구성되는 적어도 하나의 프로세서를 갖는 하나 이상의 컴퓨팅 장치를 표현하는 것으로 여겨진다는 것이 인정되어야 한다. 예를 들면, 서버는, 서술되는 역할, 책임, 또는 기능을 이행하는 방식에서 웹 서버, 데이터베이스 서버, 또는 다른 유형의 컴퓨터 서버로서 동작하는 하나 이상의 컴퓨터를 포함할 수 있다.
여기의 상세한 설명 내에서 그리고 뒤 따르는 청구항 전역에서 사용되는, "일", "하나의", 그리고 "상기"의 의미는, 맥락상 명백하게 다르게 지시하지 않는 한, 복수의 참조를 포함한다. 또한, 문맥상 명백하게 다르게 지시하지 않는 한, 여기 상세한 설명에서 사용되는, "내의"의 의미는, "내의"와 "상의"를 포함한다.
여기서 값의 범위의 열거는 단지 해당 범위 내에 속하는 각 별도의 값을 개별적으로 지칭하는 약기(shorthand)의 방법으로서 제공됨이 의도된다. 여기서 다르게 지시되지 않는 한, 각 별도의 값은 마치 그것이 여기서 개별적으로 인용된 것 처럼 본 명세서에 통합된다. 여기 설명되는 모든 방법은, 여기서 다르게 지시되거나 또는 문맥상 명확하게 다르게 부정되지 않는 한, 어떠한 적합한 순서로도 수행될 수 있다. 여느 그리고 모든 예제, 또는 여기의 특정 실시예와 관련되어 제공된 예시적 언어(예를 들면, "그와 같은")의 사용은 단순히 본 발명을 잘 보여주기 위한 의도이며 청구된 본 발명의 영역에 한정을 제기하지 않는다. 본 명세서상의 어떠한 언어도 어느 미-청구된 구성요소가 본 발명의 실행에 필수적이라고 표현한 것으로 이해되어서는 안 된다.
여기 개시된 본 발명의 대안적인 구성요소의 그룹핑이나 실시예는 한정으로 이해되서는 안된다. 각 그룹 멤버는 개별적으로 또는 그룹의 다른 멤버나 여기서 발견된 다른 구성요소와 결합하여 지칭되고 청구될 수 있다. 그룹의 하나 이상의 멤버가 편의 및/또는 특허성의 이유로, 그룹 내에 포함되거나 그룹으로부터 삭제될 수 있다. 그러한 여떠한 포함이나 삭제가 발생하더라도, 여기서 명세서는 갱신된 상태로 해당 그룹을 포함하는 것으로, 이에 따라 첨부된 청구범위 내에 사용된 모든 마쿠쉬(Markush) 그룹의 기록된 설명을 이행하는 것으로 여겨진다. 비록 각 실시예는 발명의 구성요소의 싱글 콤비네이션을 나타내지만, 본 발명의 주제는 개시된 구성요소의 모든 가능한 콤비네이션을 포함하는 것으로 고려된다. 따라서 만일 일 실시예가 구성요소 A, B 및 C를 포함하고, 제2 실시예가 구성요소 C와 D를 포함한다면, 이때, 본 발명의 주제는, 비록 명백하게 개시되지 않았어도, A, B, C 또는 D의 다른 잔여 콤비네이션을 포함하는 것으로도 간주될 수 있다.
여기서 사용되는 바와 같이, 그리고 문맥이 다르게 지시하지 않는 한, 용어 "연결된"은 직접적인 연결(두 구성요소는 상호 접촉하여 연결되는) 그리고 간접적인 연결(적어도 하나의 구성요소가 두 구성요소 사이에 위치하는)을 모두 포함하는 것으로 의도된다. 그러므로, 용어 "~로 연결된" 과 "~와 연결된"은 동의어로 사용된다.
고려되는 장치와 방법은, 다른 대안적인 게놈 동력 엔진이나 또는 다른 게놈 데이터 저장소 솔루션과의 경미한 통합을 허용하도록 느슨하게 연결된, 밤서버(bamserver)와 게놈 시각화 엔진의 유리한 특징을 결합한다. 또한, 도 1에 개요적으로 그리고 예시적으로 도시된 것 처럼, 각 컴포넌트는 필요시 스케일링하여 다중 밤서버나 다중 시각화 엔진을 수용할 수 있다. 가장 바람직하게는, 각 서버는 독립적인 저장소, 인증, 그리고 데이터 검색을 스스로 유지하기에 충분하도록 유연한 것이 좋고, 또한 각 서버는 일부를 다른 서버와 협력할 수 있는 분산 특성을 갖는 것이 좋다. 더욱이, 큰 데이터 소스로부터 제공된 데이터를 동적으로 스케일하는 밤서버와 시각화 엔진의 능력은 미래의 데이터 포맷과 파일 유형의 데이터 크기의 큰 증가를 경감시키도록 도울 것이다.
도 2는 관찰의 다른 스케일로 게놈 정보의 시각화 디스플레이를 생성할 수 있는 게놈 시각화 시스템(200)을 보여준다. 시스템(200)은 인덱싱된 게놈 데이터베이스(220)와 스케일링 엔진(230)을 포함한다. 몇몇 실시예에서, 시스템(200)은 또한 게놈 그래픽 라이브러리(237) 또는 시스템(200)에 의해 제공되는 서비스의 클라이언트로 동작할 수 있는, 장치(250)도 포함할 수 있다. 예를 들면, 장치(250)는 브라우저-인에이블드(enabled) 컴퓨팅 장치(예를 들면, 휴대폰, 태블릿, 컴퓨터, 등)를 포함할 수 있는데, 이를 통해, 헬스케어 제공자 또는 환자가 네트워크(215)를 통해 관심있는 게놈 정보에 접근할 수 있다. 스케일링 엔진(230)은 게놈 정보의 시각화 디스플레이를 HTTP, 또는 다른 적합한 프로토콜을 통해 사용자의 브라우저에 제공할 수 있다.
게놈 시각화 시스템(200)은, 게놈 영역을 나타내는 하나 이상의 시퀀스 오브젝트(223)를 저장하는, 인덱싱된 게놈 데이터베이스(220)를 포함하는 것이 일반적으로 고려되며, 이때, 시퀀스 오브젝트(223)는 복수의 스케일-관련 주석(annonations)(225)을 포함한다. 스케일링 엔진(230)은 인덱싱된 게놈 데이터베이스(220)와 연결되고 그리고 시퀀스 오브젝트(223)의 스케일-관련 주석(225)으로부터 도출된 스케일-관련 정보(233)를 사용자 선택된 줌 레벨(252)의 기능에 따라서 조절하도록 구성된다. 스케일링 엔진(230)은 이때 스케일-관련 정보(233)를 나타내는 게놈 디스플레이 오브젝트(235)를 줌 레벨(252)에 기초하여 동적으로 생성할 것이고, 그리고 게놈 디스플레이 오브젝트(235)를 사용자에게 보여주도록 출력 장치(250)를 구성할 것이다.
여기서 사용되는, 용어 "게놈 영역"은 전형적으로 시퀀스 명과 시퀀스 내의 폐쇄된 인터벌을 명시하는 시작 및 종료 좌표를 지칭한다. 게놈 영역의 예는: chr1:1234-5678 이며, 여기서 chr1은 인간 참조 게놈으로부터의 염색체 1의 시퀀스를 명시하고, 1234는 시작 좌표, 그리고 5678은 종료 좌표이다. 그러나 게놈 영역의 특정 포맷은 상당히 다양할 수 있고 또한 적합한 포맷은 염색체 위치 및/또는 서브-위치, 유전자 명이나 기능, 상기 영역 내 유전자(들)의 규제 측면, 상기 영역 내 유전자(들)의 염색질 구조적 측면, 시퀀스의 길이 등으로의 특정 참조를 포함한다는 것이 본 발명이 속한 기술 분야의 통상의 지식을 가진자에게 명백할 것이다. 따라서, 그리고 다른 관점에 견주어, 게놈 영역은 전장 유전체, 염색체, 염색체 절편 또는 대립 유전자일 수 있다. 더욱이, 게놈 영역간의 어떤 알려진 구획문자(delimiter)를 사용함으로써, 싱글 요청내의 다중 게놈 영역의 명시가 가능하다는 것이 주지되어야 한다.
따라서, 시퀀스 오브젝트(223)는 많은 데이터 포맷을 가질수 있으며, 모든 알려진 포맷은, 그러한 포맷이 하나 이상의 스케일-관련 주석을 포함하기만 하면, 적합하다고 여겨진다는 것이 인정되어야 한다. 예를 들면, 고려되는 시퀀스 오브젝트에 대한 특히 선호되는 포맷은 SAM/BAM 및 BAMBAM 포맷을 포함한다. 이와 같이, 시퀀스 오브젝트(223)는 참조 게놈(예를 들면, 호모 스태티스티커스로부터의)의 게놈 영역이나 또는 테스트 샘플의 게놈 영역을 표현할 수 있다는 것이 인정되어야 한다. 시퀀스 오브젝트(223)가 분석되는 테스트 샘플로부터 오는 경우에, 일반적으로 분석은 참조 게놈 및/또는 다른 시점으로부터의 동일한 테스트 대상(subject)의 게놈에 관련되어 수행되는 것이 바람직하다. 따라서, 적합한 참조 시퀀스 오브젝트(223)는 행 시퀀스 데이터, 호모 스태티스티커스 로부터의 시퀀스 데이터, 및/또는 특정 시점으로부터의 테스트 대상의 시퀀스 데이터를 포함할 수 있다. 더욱이, 시퀀스 오브젝트(223)는 읽혀진 행 데이터 리드(read)나 어셈블드 시퀀스(예를 들면, 전-길이 유전자)에 국한될 필요는 없지만, 그러나 시퀀스 오브젝트(223)는 참조 게놈 영역에 관련된 미분 시퀀스 오브젝트(223)이거나 또는 이에 포함할 수 있다는 것이 인정되어야 한다(예를 들면, 조화되지 않는 통신 베이스(base)만이 열거된다). 앞에서와 같은, 그러한 참조 게놈 영역은 좀 더 이른 시점에 취해진 동일한 테스트 발단자(proband), 또는 실제의 건강한 발단자로부터 오거나, 또는 복수의 건강한 발단자로부터의 가상의, 컨센서스(consensus) 시퀀스일 수 있다.
스케일 관련 주석(225)과 관련하여, 주석(225)은 상당히 다양하고, 또한 게놈 분석에 알려진 모든 주석은 여기서의 사용에 적합하다는 것이 고려된다. 예를 들면, 특히 바람직한 주석(225)은 다양한 스케일 레벨 상의 게놈 구조(예를 들면, 염색체 상의 시퀀스 위치, 염색체 내의 위치, 대립 유전자 정보, 등)에 관련된 것, 그리고 다양한 스케일 레벨 상의 게놈 변화(예를 들면, 염색체 전좌(translocaion), 반복이나 복제수, 삽입, 결실(deletion), 역위(inversion), SNPs 같은 다양한 돌연변이, 전위(transition), 변위(transversion). 등)와 관련된 것을 포함한다. 마찬가지로, 스케일 관련 주석(225)은 또한 다양한 스케일 레벨 상의 질병 정보(예를 들면, 다배수(polyploid), 복제 및/또는 반복 수, 돌연변이나 복제수와 연관된 질병의 유형/상태/처치 옵션, 등)를 포함할 수 있다. 다른 고려되는 측면에서, 스케일 관련 주석(225)은 또한 다양한 스케일 레벨 상의 유전자 관련 정보(예를 들면, 유전자의 기능적 또는 조절(regulatory) 네트워크의 부분으로서의 유전자, 유전자 명칭이나 기능적인 식별, 행 시퀀스 데이터 또는 프로세싱된 시퀀스 데이터, 유전자 식별, 유전자 조절에 대한 정보, 그리고 질병이 있는 유전자의 연합 정보)를 포함할 수 있다.
물론, 관련 정보의 모두 또는 일부는 참조 시퀀스와 관련된 미분 정보로서 표현될 수도 있으며(예를 들면, 호모 스태티스티커스 또는 더 이른 시점), 이는 데이터 크기와 복잡성을 현저히 감소시킬 것이라는 것이 인정되어야 한다. 추가적으로, 스케일 관련 주석(225)은 전형적으로 시퀀스 오브젝트와 연관되는 메타데이터를 포함할 것이며, 또한 가장 전형적으로 환자 식별, 시설 식별, 의사 식별, 및/또는 보험 정보를 포함할 것이다.
다른 관점에서 보면, 스케일 관련 주석(225)은 선택된 청중(예를 들면, 의사, 연구원, 환자, 보험, 등)을 위한 디스플레이에 적합한 주석을 포함할 것이다. 예를 들면, 청중이 의사인 경우에, 스케일 관련 주석(225)은 돌연변이가 단순한 포인터나 다른 그래픽 툴에 의해 지시되는, 단순화된 포맷의 전체 게놈의 디스플레이 포맷에 관련될 수 있다(예를 들면, 써클 플롯, 중기(metaphase) 스프레드, 등). 한편, 청중이 연구원인 경우에, 스케일 관련 주석(225)은 실제 행 시퀀스 데이터와 복제수/대립유전자 빈도가 제공되는 디스플레이 포맷에 관련될 수 있다.
더욱이, 그리고 청중과 관련 없이, 시각적 표현의 유형이 줌 레벨(252)의 기능에 따라 동적으로 변화함으로써 줌과 관련된 적절한 콘텐츠가 디스플레이된다는 것이 인정되어야 한다. 이에 따라, 스케일 관련 주석(225)은 특정 줌 레벨 또는 레벨들(252)에 대한 특정 주석에 대한 적합성을 지시하는 데이터를 더 포함할 수 있다. 물론, 주어진 줌 레벨에서의 디스플레이의 적합성은 아래서 좀 더 논의되는 그러한 데이터에 독립적으로 결정될 수도 있다. 사용자에 의해 선택되는 줌 레벨(252)은 다양한 테크닉을 통해 결정될 수 있다. 몇몇 실시예에서, 줌 레벨(252)은 사용자 프로파일(헬스케어 제공자, 환자, 보험사, 연구원, 또는 다른 유형의 프로파일)에 기초하여 결정될 수 있다. 예를 들면, 가장 높은 레벨의 줌을 나타내는 줌 레벨(252)(즉, 게놈 영역의 최대치 뷰)이 환자가 데이터를 볼 때 디폴트로 선택될 수 있다. 대안으로 연구원은 특정 관심 영역을 대상으로 하는 디폴트 줌 레벨(252)을 가질 수 있다. 줌 레벨(252)을 설정하는 다른 기법은 사용자 선택된 바운딩 박스를 시각화 장치(예를 들면, 브라우저, 어플리케이션, 등)로부터 수신하는것, 참조 영역(호모 스태티스티커스)에 관한 변칙의 게놈 영역을 자동으로 트리거링 하는 것, 게놈 정보를 관심영역을 나타내는 시퀀스 장치로부터 수신하는 것, 또는 다른 기법을 포함한다.
스케일 관련 주석(225)을 그래픽으로 표현하는 많은 옵션이 있으며 특히 그래픽 표현은 알려진 심볼과 표기법(notation)을 사용하여 수행되는 것이 좋다. 가장 바람직하게는, 알려진 심볼과 주석은 스케일 관련 주석(225)을 나타내는 그래픽 오브젝트를 저장하도록 구성되는 게놈 그래픽 라이브러리(237)에 저장될 수 있다. 이 경우에, 스케일링 엔진은 특히 스케일 관련 정보(233)를 그래픽 라이브러리(237)로부터의 그래픽 오브젝트에 줌 레벨(252)에 따라 매핑하도록 구성되고, 그리고 게놈 디스플레이 오브젝트(235)는 매핑된 그래픽 오브젝트를 포함하는 것이 바람직하다. 예를 들면, 스케일링 엔진(230)은 줌 레벨(252)을 알려진 돌연변이에 관련된 환자의 게놈 정보를 검토하는 헬스케어 제공자로부터 수신한다. 스케일링 엔진(230)은 시퀀스 오브젝트(223)를 연관된 스케일-관련 주석(225)과 더불어 인덱싱된 게놈 데이터베이스(220)로부터 획득한다. 스케일링 엔진(230)은 스케일-관련 정보(233)를, 스케일-관련 주석(225), 헬스케어 제공자 정보(예를 들면, 인가, 프로파일, 등), 그리고 줌 레벨(252)의 기능으로서 도출한다. 스케일 관련 정보(233)는 따라서 관찰자와 관련된 세부사항의 적절한 레벨에서뿐만 아니라 적절한 줌 레벨에서 시퀀스 오브젝트(223)의 게놈 영역을 나타낸다. 즉, 주어진 줌 레벨에서, 스케일-관련 정보(233)는 헬스케어 제공자에게 적합할 정보를 표현한다. 만일 관찰자가 환자라면, 비록 줌 레벨(252)과 시퀀스 오브젝트(223)가 동일하더라도, 스케일 관련 정보(233)는 환자에게 적합할 수 있는 게놈 정보의 다른 표현을 실어나를 수 있다. 스케일링 엔진(230)은 이때 스케일 관련 정보(233)를 게놈 그래픽 라이브러리(237) 내의 하나 이상의 그래픽 오브젝트에 매핑하여 게놈 디스플레이 오브젝트(235)를 생성한다.
게놈 그래픽 라이브러리(237)는 단순한 그래픽 프리미티브가 아닌 게놈 그래픽 오브젝트를 저장하도록 구성된다는 것이 인정되어야 한다. 게놈 그래픽 라이브러리(237)는 희망에 따라 추가적인 게놈 그래픽 오브젝트에 의해 갱신될 수 있으며, 또는 존재하는 게놈 그래픽 오브젝트는, 다른 그래픽(예를 들면, 텍스쳐, 스킨(skins), 테마, 등)에 의해, 수정될 수 있다. 그러한 접근방법은, 시각적 표현의 브랜딩이나 커스터마이제이션을 허용하기 때문에, 시장 내에서 이점이 있는 것으로 간주된다.
하드웨어와 관련하여, 고려되는 장치와 방법은 다양한 방법으로 구성되고 작동할 수 있다는 것을 주지하여야 하며, 또한 특정 구성 및/또는 동작 방식은 적어도 부분적으로 기능적 컴포넌트 및 상호접속을 지시한다는 것이 인정되어야 한다. 따라서, 바람직한 측면에 대한 후속하는 설명은 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자에게 표본적인 가이드로서만 생각되어야 한다.
적합한 밤서버(bamserver)와 관련하여, 일반적으로 밤서버는, 보안 연결을 너머 암호화된 파일 접근을 통해 암호화된 데이터로의 보호된 접근을 지지하면서, 게놈 영역에 의해 인덱싱된 데이터에 효율적인 랜덤 액세스할 수 있는 분산 네트워크 서버 시스템이거나 상기 시스템을 포함하는 것이 바람직하다. 전형적인 유즈케이스(use case)에서, 사용자는: 1. 네트워크를 통해 밤서버에 연결하고, 2. 두 개의 파라미터로 요청을 발하고- A) 데이터 아카이브(archive) 및 B) 게놈 영역의 리스트, 그리고, 3. 모든 데이터 엔트리를 제공된 게놈 영역 중 어느 것이라도 오버랩하는 아카이브로부터 수신할 것이다. 여기서 사용되는, 용어 "데이터 아카이브"는, 각 엔트리가 게놈 영역과 연관되는 데이터 엔트리의 세트를 지칭한다. 데이터 엔트리는 싱글 숫자, 문자 스트링, 그리고 수 및/또는 스트링의 리스트를 포함하는, 어느 데이터도 될 수 있다. 데이터 엔트리의 몇몇 공통 예는 시퀀싱 머신, 알려진 유전자 위치, 또는 탐지된 돌연변이로부터의 시퀀스 리드 및 연관된 리드 품질이다.
게놈 영역을 인덱싱 : 데이터 아카이브가 밤서버에 추가될 때, 밤서버는 데이터 엔트리를 게놈 영역으로 정렬하고, 바이닝(binning) 인덱스와 같은 R-트리를 생성하는 것이 좋은데, 이는 게놈 어플리케이션에서 공통적으로 사용되고 그리고 UCSC 게놈 브라우저와 SAM Tools 소프트웨어 라이브러리 내에서 그것의 사용에 대해 전부 기술되어 있기 때문이다. 간략하게, 인덱싱된 시퀀스는 오버래핑 빈(overlapping bins)으로 분산된다. 전 시퀀스를 다루는 하나의 빈으로 시작하면서, 이전의 빈이 반으로 쪼개진 두 개의 새로운 빈이 추가된다. 다음으로 인덱스는, 빈 내에 들어맞지만 빈 보다 더 작지는 않은, 각 빈으로부터 데이터 엔트리를 향하는 포인터를 갖는다. 쿼리를 오버랩하는 데이터 엔트리를 검색하는 것은 쿼리를 오버랩하는 빈만을 조사하는 것이 관건이다.
데이터 접근 보호 : 가장 전형적으로, 밤서버는 데이터 파일 접근 서버에 대한 각 요청을 저지(check)함으로써 비-퍼블릭 데이터 아카이브로의 접근을 제한한다. 만일 클라이언트가 데이터 파일 접근 서버에 따른 충분한 보안 크리덴셜(credentials)을 제공하지 않는다면, 어느 결과로의 접근도 부인된다. 각 밤서버는 유일한 데이터 파일 접근 서버를 위해 구성되어, 유연한 허가 계획(scheme)과 연합된 인증 방법을 허용할 수 있다.
데이터 저장소와 관련하여, 밤서버의 데이터 아카이브는 밤서버에 가까운 파일 시스템에 저장된다는 것이 일반적으로 고려된다. 이러한 파일 시스템은 밤서버에 직접 부착된 디스크 및/또는 네트워크-접근가능한 디스크를 사용할 수 있다. 보호된 데이터 아카이브는 암호화된 형태(예를 들면, CRT 모드를 사용하는, AES 대칭 블록 암호화)로 저장되는 것이 좋다. 밤서버는 전형적으로 암호화 키에 접근을 갖지 않는다. 보호된 데이터 아카이브에 대한 요청을 처리할 때, 만일 데이터 파일 접근 서버가 접근을 승인하면, 데이터 파일 접근 서버는 요청된 파일에 대한 암호키를 제공할 것이다. 밤서버는 요청을 처리하는 동안 상기 키를 사용하고, 요청이 완전히 처리되자마자 상기 키를 버릴 것이다.
적합한 요청 방법은 전형적으로 HTTPS, SSL-secured HTTP 프로토콜을 통해 RESTful(묘사적인 상태 대표적인 상태 이전 제약조건을 따르는) 쿼리를 사용하여, 또는 HTTP 쿼리가 만들어지는 다른 암호화된 터널링(tunnelling) 메커니즘을 사용하여, 만들어진다. 쿼리의 RESTful 본성은 밤서버가 지정학적으로 지역적으로 분산되어 시간이 소모적인(consuming) 어플리케이션에 최대의 처리량을 제공하도록 허용한다. 밤서버의 지역성(locality)에 대한 유일한 제약조건은 기저(underlying) 데이터로의 직접적인 파일 접근인데, 이는 적절한 프로토콜(VPN을 통한 NFS, 또는 다른 그와 같은 솔루션)을 사용하는 광-역 네트워크에서도 나타나기도 한다.
다른 바람직한 측면에서, 데이터의 동적 스케일링이 구현된다. 요청된 게놈 영역의 크기와 데이터가 디스플레이될 해상도에 관한 지식에 기초하여, 스케일링 엔진(230)으로서 동작할, 밤서버는 데이터를 동적으로 스케일링("다운샘플링")하여 프로세싱과 전송 시간을 감소시킬 좀 더 응축된 버전을 제공할 수 있다. 다운샘플링은 두 개의 병렬 메커니즘에서 가장 바람직하게 수행될 수 있다. 첫 번째 메커니즘은 기저 데이터에 대한 지식을 요구하지 않으며, 특정 레벨로 미리-응축된 밤서버 파일을 제공함으로써 수행된다. 밤서버는 쿼리시에 "행" 레벨 데이터, 또는 대안으로 응축된 파일 중의 하나를 제공해야하는지 여부를 동적으로 결정할 수 있다. 이러한 결정은 소모적인 어플리케이션에 의해 활용될 데이터 포인트의 수를 지시하는 요청 내의 추가적인 파라미터를 포함함으로써 이루어진다. 만일 소모적인 어플리케이션이, 스케일링 엔진(230)으로도 동작할 수 있는, 시각화 엔진(230)이라면, 유용한 데이터 포인트의 일 예는 스크린에 그려질 픽셀의 수에 기초할 것이다. 다운샘플링에 대한 2차 메카니즘은 밤서버에 접근가능한 전 데이터의 동적 요약이다. 이러한 메카니즘은 밤서버에 파일 유형에 관한 추가적인 정보를 제공하도록 요구하여 어떤 필드가 요약 가능한지와, 요약의 메커니즘을 이해할 수 있도록 한다. 게놈 좌표 인덱스를 통해 싱글 데이터 칼럼만을 갖는 파일이 주어지면, 이것은 자동으로 결정될 수 있으며 중간값 또는 평균 요약이 자동으로 수행될 것이다. 좀 더 복잡한 데이터 유형이나 좀 더 복잡한 요약 기법에 대하여, 밤서버는 요약을 수행하는 방법을 아웃라인하는 파라미터를 요구할 것이다. 일 예는 SAM/BAM 포맷의 다운샘플링이며, 이는 각 위치에서 개별적인 리드(read)를 서브-샘플링함으로써 다운샘플링을 수행하며, 소모적인 어플리케이션으로 한정된 숫자를 반환할 할 것이다.
고려되는 시스템과 방법은 쉽게 확장될 수 있다는 것도 인정되어야 하며, 이는 밤서버가 복수의 포맷으로부터 파일을 읽을 수 있고 또한 유전자적으로 인덱싱된 데이터와 SQLite와 JSON 같은 추가적인 저장 포맷을 모두 이해할 수 있기 때문이다. 요청된 파일의 포맷은 현재 소모적인 어플리케이션에 의해 제공되지만, 그러나 파일 포맷의 자동-탐지도 고려된다. 밤서버의 아키텍처는 외래 인덱싱 기법(scheme)을 이해하고 통일된 인터페이스도 제공할 수 있는 플러그인 형태로 추가적인 데이터 포맷을 지원하는 것이 좋다. 이러한 플러그인은 범용 자원 식별자(unversial resource identifier, URI)REST 요청을 통해 명시되거나, 또는 밤서버 내의 적절한 포맷의 자동 탐지에 의해 명시될 수 있다.
동적 게놈 시각화 엔진과 관련하여, 동적 게놈 시각화 엔진은 일반적으로 게놈 내의 위치에 매핑되는 공통 속성을 갖는 복수 유형의 데이터를 해석할 수 있고, 또한 데이터의 이미지-기반의 해석을 생성할 수 있다는 것이 고려된다. 어떤 의미에서 게놈 "브라우저"의 개념은 이미 알려져 있다는 것이 주목되어야 한다(예를 들면, 2001년에 설립된, 캘리포니아 대학의, 산타 크루즈 게놈 브라우저(URL genome.ucsc.edu 참조)). 그러나, 현재 알려진 브라우저는 데이터 뷰를 사용자 특정한 밀도로 한정하고 또한 특정 한도를 넘어서 적시에 유효한 방법으로 요청에 응답할 수 없다. 대조적으로, 여기서 고려되는 동적 게놈 시각화 엔진은 사용자가 요청하는 데이터의 양을 이해하고 좀더 압축되고 요약된 버전을 적시에 제공하도록 표현된 시각화를 변화시킬 수 있다. 일 레벨에서, 다운샘플링의 레벨은, 시각화되기를 시도하는 영역을 이해하는, 밤서버에 의해 다루어지며, 또한, 시각화 엔진에 전송될 데이터를 자동으로 감소시킬 것이다. 더 상위 레벨에서, 만일 엔진 스스로 충분하게 많은 양의 데이터가 요청되었음을 인정하면, 생성된 기저 시각화는 최종-사용자에게 좀 더 유용한 요약을 제공하는 방식으로 대치할 것이다.
디스플레이는 뷰잉되고자 시도하는 데이터의 밀도에 따라 상당히 다양할 수 있다. 도 3-6은 사용자가 윈도우 내에서 보고 있는 베이스(base)의 다양한 수에 기초하여 디스플레이가 어떻게 변하는지에 대하여 몇몇 예를 보여주는데, 이때, 디스플레이는 브라우저 내에 게놈 디스플레이 오브젝트(235)를 생성하기 위해 사용되는 게놈 그래픽 오브젝트로부터 생성된다. 이러한 디스플레이들은 동적으로 생성되고 프리-컴퓨팅되지 않는다는 것이 강조되어야 하며, 하지만 특정 유즈 케이스를 위해 미리-생성된 상태 이미지가 배제되지 않고 고려되는 장치와 방법에 의해 지원된다. 도 3에서, 인간 게놈의 52 베이스는, 총 복제-수, 대립 형질 특정의 복제-수, BAM으로부터의 행 시퀀싱 데이터, 그리고 UCSC Known Genes의 주석 트랙의 그래픽 표현으로, 대략 1000 수평 픽셀을 가로질러 도시된다. 이들 각 트랙은 먼저 아웃라인된 밤서버 아키텍처로부터 동적으로 당겨지며, 각 트랙은 독립적인 밤서버를 쿼리하여 필요한 데이터를 획득할 수 있다. 그와 같이 작은 수의 베이스가 도시되었기 때문에, 밤서버나 시각화 엔진 어디에서도 다운샘플링이 수행되지 않는다. 따라서, 더 낮은 줌 레벨이 행 또는 컴퓨팅된 시퀀스의 베이스 리드아웃(readout)에서 특히 바람직하다.
도 4는 게놈의 동일 영역으로부터 온 약 1000 베이스를 보여주는 서브-킬로베이스(sub-kilobase) 줌 레벨을 표현한다. 이러한 해상도 및 베이스의 수에서는, 어떤 다운샘플링도 밤서버 상에 발생하지 않지만, 그러나 시각화 엔진은 증가된 뷰포트(viewport)를 수용하도록 각 데이터 소스의 디스플레이를 변경하기 시작했다. 특히, 각 베이스 상의 문자는 더 이상 상부 참조 베이스 바 상에도, 각 밤 리드 내에도 나타나지 않고, 대신 단순한 컬러로 재분류되어 인식할 수 있는 변화를 보여준다.
도 5는 픽셀의 수가 일정하게 유지되는 동안 킬로베이스 줌 레벨에서 대략 2 메가베이스(이백만 베이스)를 보여준다. 결과적으로, 밤서버와 시각화 엔진은 끌어온 데이터를 다운샘플링하였다. 밤서버는 시각화 엔진에 제공하는 복제-수 데이터의 양을 감소시켰고, 그리고 시각화 엔진은 뷰잉이 비현실적이기 때문에 행 데이터 트랙을 무시했다. 더욱이, 시각화 엔진은 상부에 그래픽 히스토그램을 생성함으로써 변종 트랙 중의 하나(가장 하부 트랙)를 요약하기 시작했다. 마침내, 시각화 엔진은 좀더 정확한 이미지를 생성하도록 각 픽셀 밑의 복제-수 변종을 위한 다중 데이터포인트를 함께 평균을 내었다.
도 6의, 최종적인 해상도는 염색체 줌 레벨에서의 염색체(12) 모두를 보여준다. 이전의 모든 다운샘플링은, 텍스트를 제거하여 UCSC Known Gene과 이미지 하부의 COSMIC 변종 트랙의 좀 더 그래픽한 표현을 디스플레이하도록 다운되는 추가적인 다운샘플링과 함께, 본 해상도에서 발생한다. 명확한 예가 본 다이어그램 내에 표현되는 한편, 본 엔진은 미리-결정된 그리고 미리-끌어온 해상도 레벨에 한정되지 않는 동적 시각화에 대한 프레임워크를 제공하고, 또한 더 나아가 여기서 보여준 것 이외의 많은 다른 유형의 기저 데이터를 수용할 수 있다.
본 발명의 개념에서 벗어나지 않고 이미 설명된 것들 이외의 좀 더 많은 변경이 가능하다는 것이 본 발명이 속하는 기술 분야의 통상의 지식을 갖는 자에게 명백할 것이다. 본 발명의 주제는, 따라서, 첨부하는 청구항의 사상 내에서만 한정될 것이다. 또한, 명세서와 청구범위를 모두 해석함에 있어서, 모든 용어는 문맥상 일치하는 가능한 가장 넓은 방식으로 해석되어야 한다. 특히, 용어 "포함한다"와 "포함하는"은 구성요소, 컴포넌트, 또는 단계들을 비-배타적 방법으로 지칭하면서, 참조되는 구성요소, 컴포넌트, 또는 단계들이 표현되고, 또는 활용되고, 또는 명시적으로 참조되지 않는 다른 구성요소, 컴포넌트, 단계들과 결합되는 것을 나타내는 것으로 해석되어야 한다. 병합된 참조 내의 용어의 정의나 사용이 일관적이지 않거나 여기 제공된 용어의 정의와 다르다면, 여기 제공된 용어의 그러한 정의가 적용되고, 참조 내의 해당 용어의 정의가 적용되지 않는다. 명세서의 청구범위는 A, B, C ... 및 N으로 구성된 그룹으로부터 선택된 것 중에 적어도 하나를 지칭할 때, 그러한 텍스트는, A 더하기 N, 또는 B 더하기 N, 등이 아닌, 그룹으로부터 온 오직 하나의 구성요소만을 필요로 하는 것으로서 해석되어야 한다.

Claims (26)

  1. 게놈 정보 시각화 방법으로서,
    게놈 영역을 나타내는 시퀀스 오브젝트를 저장하는 인덱싱된 게놈 데이터베이스를 제공하는 단계, 상기 시퀀스 오브젝트는 복수의 스케일-관련 주석(annotations)을 포함하고;
    상기 인덱싱된 게놈 데이터베이스와 스케일링 엔진을 연결하는 단계;
    상기 스케일링 엔진을 이용하여:
    상기 시퀀스 오브젝트의 스케일-관련 주석들로부터 도출된 스케일-관련 정보를 사용자 선택된 줌 레벨의 기능에 따라 조정하고;
    상기 시퀀스 오브젝트에 대한 게놈 디스플레이 오브젝트를 동적으로 생성하되, 상기 디스플레이 오브젝트는 상기 줌 레벨에 기초하여 상기 스케일-관련 정보를 나타내고, 상기 동적 생성은 상기 시퀀스 오브젝트의 표현된 시각화의 교체를 포함하고;
    요청된 게놈 영역의 크기와 데이터가 디스플레이될 출력 장치의 그래픽 해상도에 관한 지식에 기초하여, 표현되는 시각화를 교체하도록 상기 데이터를 동적으로 다운샘플링하고; 그리고
    상기 게놈 디스플레이 오브젝트를 사용자에게 보여주는 출력 장치를 구성하도록 구성되는, 방법.
  2. 제 1항에 있어서,
    상기 시퀀스 오브젝트는 SAM/BAM 또는 BAMBAM 포맷을 갖는, 방법.
  3. 제 1항에 있어서,
    상기 게놈 영역은 전장 유전체(whole genome), 염색체, 염색체 절편(chromosomal fragment), 대립 유전자 중의 하나인, 방법.
  4. 제 1항에 있어서,
    상기 스케일링 엔진으로서 동작하는 밤서버(barmserver)를 더 포함하는, 방법.
  5. 제 4항에 있어서,
    복수의 밤서버를 더 포함하는, 방법.
  6. 제 1항에 있어서,
    스케일링 엔진으로 동작하는 시각화 서버를 더 포함하는, 방법.
  7. 제 6항에 있어서,
    복수의 시각화 서버를 더 포함하는, 방법.
  8. 제 1항에 있어서,
    상기 출력 장치는 디스플레이, 브라우저, 프린터, 3D 프린터 및 스피커 중의 적어도 하나를 포함하는, 방법.
  9. 제 1항에 있어서,
    상기 스케일링 엔진은 상기 스케일-관련 정보를 상기 줌-레벨에 기초하여 다운샘플링함으로써 조정하도록 더 구성되는, 방법.
  10. 제 9항에 있어서,
    상기 스케일링 엔진은 상기 줌 레벨로부터 도출된 데이터 밀도의 기능에 따라 다운샘플링하도록 더 구성되는, 방법.
  11. 제 1항에 있어서,
    상기 스케일링 엔진은 상기 줌 레벨을 결정하도록 더 구성되는, 방법.
  12. 제 11항에 있어서,
    상기 스케일링 엔진은 상기 시퀀스 오브젝트의 전(full) 데이터 세트를 상기 줌 레벨에 따라 요약하도록 더 구성되는, 방법.
  13. 제 1항에 있어서,
    상기 스케일링 엔진은 상기 스케일 관련 정보를 서로 다른 시퀀스 오브젝트들 내의 스케일-관련 주석들 내의 차이로부터 도출하도록 더 구성되는, 방법.
  14. 제 1항에 있어서,
    상기 시퀀스 오브젝트는 참조 시퀀스 오브젝트를 포함하는, 방법.
  15. 제 14항에 있어서,
    상기 참조 시퀀스 오브젝트는 행(raw) 시퀀스 데이터, 호모 스태티스티커스(homo statisticus)로부터의 시퀀스 데이터, 그리고 특정 시기(a specified point in time)로부터의 시퀀스 데이터로 구성된 그룹으로부터 선택되는, 방법.
  16. 제 1항에 있어서,
    상기 시퀀스 오브젝트는 참조 게놈 영역과 관련된 미분 시퀀스 오브젝트를 포함하는, 방법.
  17. 제 16항에 있어서,
    상기 참조 게놈 영역은 호모 스태티스티커스로부터 얻거나 또는 시점에 특정된, 방법.
  18. 제 1항에 있어서,
    상기 스케일 관련 주석들은 게놈 구조 정보, 게놈 변화 정보, 질병 정보, 유전자 관련 정보, 참조 시퀀스와 관련된 미분 정보, 그리고 메타 데이터 중의 적어도 하나를 포함하는, 방법.
  19. 제 18항에 있어서,
    상기 게놈 구조는 염색체 식별, 염색체 내의 위치, 대립 유전자 중의 적어도 하나를 포함하는, 방법.
  20. 제 18항에 있어서,
    상기 게놈 변화 정보는 돌연변이(mutation), 전좌(translocation), 역위(inversion), 결실(deletion), 반복(repeat), 그리고 복제수(copy number) 중의 적어도 하나를 포함하는, 방법.
  21. 제 18항에 있어서,
    상기 질병 정보는 질병의 유형, 질병의 상태, 그리고 상기 질병에 대한 치료 옵션 중의 적어도 하나를 포함하는, 방법.
  22. 제 18항에 있어서,
    상기 유전자 관련 정보는 행(raw) 시퀀스 데이터나 프로세싱된 시퀀스 데이터, 유전자 식별, 유전자 규칙에 대한 정보, 그리고 질병을 갖는 유전자의 연합 정보를 포함하는, 방법.
  23. 제 18항에 있어서,
    상기 메타데이터는 환자 식별, 시설 식별, 의사 식별, 그리고 보험 정보 중 적어도 하나를 포함하는, 방법.
  24. 제 1항에 있어서,
    스케일 관련 주석들을 나타내는 그래픽 오브젝트를 저장하도록 구성되는 게놈 그래픽 라이브러리를 더 포함하는, 방법.
  25. 제 24항에 있어서,
    상기 스케일링 엔진은 상기 스케일 관련 정보를 상기 줌 레벨에 따라 그래픽 라이브러리로부터의 그래픽 오브젝트에 매핑하도록 더 구성되는, 방법.
  26. 제 25항에 있어서,
    상기 게놈 디스플레이 오브젝트는 상기 매핑된 그래픽 오브젝트를 포함하는, 방법.
KR1020197003895A 2011-12-08 2012-12-07 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템 KR20190016149A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161568478P 2011-12-08 2011-12-08
US61/568,478 2011-12-08
PCT/US2012/068493 WO2013086355A1 (en) 2011-12-08 2012-12-07 Distributed system providing dynamic indexing and visualization of genomic data

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020167013318A Division KR101949569B1 (ko) 2011-12-08 2012-12-07 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020197024130A Division KR20190099105A (ko) 2011-12-08 2012-12-07 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템

Publications (1)

Publication Number Publication Date
KR20190016149A true KR20190016149A (ko) 2019-02-15

Family

ID=48574927

Family Applications (5)

Application Number Title Priority Date Filing Date
KR1020197003895A KR20190016149A (ko) 2011-12-08 2012-12-07 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템
KR20147016583A KR20140135945A (ko) 2011-12-08 2012-12-07 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템
KR1020167013318A KR101949569B1 (ko) 2011-12-08 2012-12-07 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템
KR1020197024130A KR20190099105A (ko) 2011-12-08 2012-12-07 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템
KR1020207011314A KR20200044149A (ko) 2011-12-08 2012-12-07 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템

Family Applications After (4)

Application Number Title Priority Date Filing Date
KR20147016583A KR20140135945A (ko) 2011-12-08 2012-12-07 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템
KR1020167013318A KR101949569B1 (ko) 2011-12-08 2012-12-07 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템
KR1020197024130A KR20190099105A (ko) 2011-12-08 2012-12-07 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템
KR1020207011314A KR20200044149A (ko) 2011-12-08 2012-12-07 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템

Country Status (10)

Country Link
US (2) US10140683B2 (ko)
EP (2) EP2788861B1 (ko)
JP (3) JP6025859B2 (ko)
KR (5) KR20190016149A (ko)
CN (1) CN104246689B (ko)
AU (1) AU2012347547B2 (ko)
CA (1) CA2858686C (ko)
ES (1) ES2729714T3 (ko)
IL (3) IL233016A (ko)
WO (1) WO2013086355A1 (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2858686C (en) * 2011-12-08 2018-10-02 Five3 Genomics, Llc Distributed system providing dynamic indexing and visualization of genomic data
EP2870581B1 (en) 2012-07-06 2023-11-29 Nant Holdings IP, LLC Healthcare analysis stream management
EP2912587A4 (en) 2012-10-24 2016-12-07 Complete Genomics Inc GENOME EXPLORATION SYSTEM FOR TREATING AND PRESENTING NUCLEOTIDE VARIATIONS IN GENOMIC SEQUENCE DATA
US9792405B2 (en) 2013-01-17 2017-10-17 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10847251B2 (en) 2013-01-17 2020-11-24 Illumina, Inc. Genomic infrastructure for on-site or cloud-based DNA and RNA processing and analysis
US10068054B2 (en) 2013-01-17 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10691775B2 (en) 2013-01-17 2020-06-23 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9679104B2 (en) 2013-01-17 2017-06-13 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
JP6472798B2 (ja) * 2013-11-13 2019-02-20 ファイヴ3 ゲノミクス,エルエルシー 配列決定データの伝送および前処理のためのシステムおよび方法
WO2015130954A1 (en) * 2014-02-26 2015-09-03 Nantomics, Llc Secured mobile genome browsing devices and methods therefor
MX2017011511A (es) * 2015-03-12 2018-01-11 Koninklijke Philips Nv Manejo y control de la infeccion.
WO2016154154A2 (en) 2015-03-23 2016-09-29 Edico Genome Corporation Method and system for genomic visualization
JP6593763B2 (ja) * 2015-04-30 2019-10-23 株式会社テンクー ゲノム解析装置及びゲノム可視化方法
US10068183B1 (en) 2017-02-23 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on a quantum processing platform
US20170270245A1 (en) 2016-01-11 2017-09-21 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
BR112019007359A2 (pt) * 2016-10-11 2019-07-16 Genomsys Sa método e sistema para acesso seletivo dos dados bioinformáticos armazenados ou transmitidos
CA3039692A1 (en) * 2016-10-11 2018-04-19 Genomsys Sa Method and system for the transmission of bioinformatics data
CN107506618B (zh) * 2017-07-07 2020-12-08 北京中科晶云科技有限公司 高通量测序序列的存储方法和查询方法
CN110993033A (zh) * 2019-11-14 2020-04-10 北京诺禾致源科技股份有限公司 一种基因组数据的处理方法、系统及装置
US11662938B2 (en) 2020-05-11 2023-05-30 Nantcell, Inc. Object storage and access management systems and methods

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519583B1 (en) * 1997-05-15 2003-02-11 Incyte Pharmaceuticals, Inc. Graphical viewer for biomolecular sequence data
EP1067466A2 (en) * 1999-07-09 2001-01-10 Smithkline Beecham Genome browser interface
WO2002035395A2 (en) 2000-10-27 2002-05-02 Entigen Corporation Integrating heterogeneous data and tools
US20030204317A1 (en) * 2002-04-26 2003-10-30 Affymetrix, Inc. Methods, systems and software for displaying genomic sequence and annotations
US20040002818A1 (en) * 2001-12-21 2004-01-01 Affymetrix, Inc. Method, system and computer software for providing microarray probe data
GB0202809D0 (en) * 2002-02-07 2002-03-27 Riverwood Int Corp A paperboard carton
US20050038776A1 (en) * 2003-08-15 2005-02-17 Ramin Cyrus Information system for biological and life sciences research
JP2006065501A (ja) * 2004-08-25 2006-03-09 Nittetsu Hitachi Systems Engineering Inc ゲノム情報表示システム
US7868888B2 (en) * 2006-02-10 2011-01-11 Adobe Systems Incorporated Course grid aligned counters
US20090125248A1 (en) 2007-11-09 2009-05-14 Soheil Shams System, Method and computer program product for integrated analysis and visualization of genomic data
US8954337B2 (en) 2008-11-10 2015-02-10 Signature Genomic Interactive genome browser
KR102218512B1 (ko) * 2010-05-25 2021-02-19 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 Bambam:고처리율 서열분석 데이터의 병렬 비교 분석
US20120066601A1 (en) * 2010-09-14 2012-03-15 Apple Inc. Content configuration for device platforms
CN101944151B (zh) 2010-09-30 2012-06-27 重庆大学 分子动力学模拟中壁面边界的模拟方法
KR101188886B1 (ko) 2010-10-22 2012-10-09 삼성에스디에스 주식회사 유전 정보 관리 시스템 및 방법
CA2858686C (en) * 2011-12-08 2018-10-02 Five3 Genomics, Llc Distributed system providing dynamic indexing and visualization of genomic data

Also Published As

Publication number Publication date
JP2015500535A (ja) 2015-01-05
JP6171058B2 (ja) 2017-07-26
AU2012347547A1 (en) 2014-07-03
EP2788861B1 (en) 2019-05-15
IL252817A0 (en) 2017-08-31
KR20160062211A (ko) 2016-06-01
JP6368832B2 (ja) 2018-08-01
KR20200044149A (ko) 2020-04-28
EP2788861A1 (en) 2014-10-15
IL233016A (en) 2017-06-29
IL252817B (en) 2019-07-31
US10733701B2 (en) 2020-08-04
KR101949569B1 (ko) 2019-02-18
EP3534368B1 (en) 2020-09-16
KR20190099105A (ko) 2019-08-23
KR20140135945A (ko) 2014-11-27
WO2013086355A1 (en) 2013-06-13
EP2788861A4 (en) 2015-04-15
ES2729714T3 (es) 2019-11-05
JP2017208115A (ja) 2017-11-24
CN104246689A (zh) 2014-12-24
US20190066262A1 (en) 2019-02-28
JP6025859B2 (ja) 2016-11-16
EP3534368A1 (en) 2019-09-04
CA2858686A1 (en) 2013-06-13
IL233016A0 (en) 2014-07-31
CN104246689B (zh) 2020-06-02
AU2012347547B2 (en) 2015-10-22
US20140368550A1 (en) 2014-12-18
CA2858686C (en) 2018-10-02
IL267977A (en) 2019-09-26
US10140683B2 (en) 2018-11-27
JP2016212900A (ja) 2016-12-15

Similar Documents

Publication Publication Date Title
KR101949569B1 (ko) 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템
Goddard et al. UCSF ChimeraX: Meeting modern challenges in visualization and analysis
AU2007325055B2 (en) Rendering document views with supplemental informational content
US8854371B2 (en) Method and system for generating a columnar tree map
US8548990B2 (en) Presenting interactive images with search results
US9864815B2 (en) Systems and methods for medical image viewer compatibility determination
US10146802B2 (en) Generating device specific thumbnails
US9202007B2 (en) Method, apparatus and computer program product for providing documentation and/or annotation capabilities for volumetric data
JP2005309745A (ja) オリジナル画像文書情報と追記情報とを管理する文書管理ネットワークシステム、画像文書配信サーバ
AU2017202994B2 (en) Distributed system providing dynamic indexing and visualization of genomic data
US20150120681A1 (en) System and method for aggregating media content metadata
TW202418108A (zh) 一種跨機構數位典藏之虛擬展覽系統、方法及其電腦可讀媒介
JP2009223853A (ja) 医療診断支援装置
JP2005258795A (ja) 情報管理装置、情報管理システム、情報管理方法、情報管理システムの情報管理方法、およびそれらの方法をコンピュータに実行させるプログラム

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
A107 Divisional application of patent