KR20200098189A - 차세대 염기서열 분석 서비스 제공 시스템 및 그 방법 - Google Patents

차세대 염기서열 분석 서비스 제공 시스템 및 그 방법 Download PDF

Info

Publication number
KR20200098189A
KR20200098189A KR1020190015994A KR20190015994A KR20200098189A KR 20200098189 A KR20200098189 A KR 20200098189A KR 1020190015994 A KR1020190015994 A KR 1020190015994A KR 20190015994 A KR20190015994 A KR 20190015994A KR 20200098189 A KR20200098189 A KR 20200098189A
Authority
KR
South Korea
Prior art keywords
analysis
sequencing
analysis result
providing
service
Prior art date
Application number
KR1020190015994A
Other languages
English (en)
Inventor
최원재
Original Assignee
주식회사 꿀비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 꿀비 filed Critical 주식회사 꿀비
Priority to KR1020190015994A priority Critical patent/KR20200098189A/ko
Publication of KR20200098189A publication Critical patent/KR20200098189A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 차세대 염기서열 분석 서비스 제공 시스템 및 그 방법에 관한 것으로서, 더욱 상세하게는, 사용자의 요청에 따라 염기서열 제공업체로부터 시퀀싱 파일을 전달받아, 상기 시퀀싱 파일에 대한 제1 분석결과를 제공하고, 상기 제1 분석결과를 기반으로 한 분석 환경 및 상기 사용자의 요청에 따른 제2 분석결과를 제공하고, 상기 제2 분석결과를 기반으로 한 분석 환경 및 상기 사용자의 요청에 따른 제3 분석결과를 제공하되, 상기 사용자는 상기 제1 분석결과를 위한 비용만 지불하고, 상기 제2 분석결과 및 상기 제3 분석결과는 분석 환경의 변수 설정에 따라 무료 또는 저렴한 비용으로 이용이 가능한 차세대 염기서열 분석 서비스 제공 시스템 및 그 방법을 제공한다.

Description

차세대 염기서열 분석 서비스 제공 시스템 및 그 방법{SYSTEM FOR PROVIDING ANALYSIS SERVICE OF NEXT GENERATION SEQUENCING AND METHOD THEREOF}
본 발명은 차세대 염기서열 분석 서비스 제공 시스템 및 그 방법에 관한 것으로서, 더욱 상세하게는, 사용자의 요청에 따라 염기서열 제공업체로부터 시퀀싱 파일을 전달받아, 상기 시퀀싱 파일에 대한 제1 분석결과를 제공하고, 상기 제1 분석결과를 기반으로 한 분석 환경 및 상기 사용자의 요청에 따른 제2 분석결과를 제공하고, 상기 제2 분석결과를 기반으로 한 분석 환경 및 상기 사용자의 요청에 따른 제3 분석결과를 제공하되, 상기 사용자는 상기 제1 분석결과를 위한 비용만 지불하고, 상기 제2 분석결과 및 상기 제3 분석결과는 분석 환경의 변수 설정에 따라 무료 또는 저렴한 비용으로 이용이 가능한 차세대 염기서열 분석 서비스 제공 시스템 및 그 방법에 관한 것이다.
인간게놈프로젝트(Human Genome Project) 이후, 차세대 염기서열 분석 기술(NGS: Next Generation Sequencing)은 급격하게 발달했다. 대량의 유전 정보를 일시에 해독하는 장비(NGS sequencer)와 빅데이터(대량정보)를 다루는 IT 기술의 발전과 더불어 개인 유전체 해독에 소요되는 비용과 시간이 극적으로 감소되었다. 따라서, 유전체 염기서열 분석 비용은 매우 저렴해지게 되었다. 이에 반비례하여 유전체 빅데이터는 기하급수적으로 양산되고 있는 추세이다.
차세대 염기서열 분석 기술(Next Generation Sequencing, 이하, NGS라고 함)은 유전체의 염기서열의 고속 분석 방법이다. NGS는 기존의 생어 염기서열 분석(Sanger sequencing)과 달리 많은 수(백만 개 이상)의 DNA 조각을 병렬로 처리하는 데 특징이 있다. 차세대 염기서열 분석의 등장으로 유전체 분석에 필요한 비용이 급격히 낮아져 많은 분야에서 다양하게 사용되고 있다. NGS는 하나의 유전체를 무수히 많은 조각으로 분해하여 각 조각을 동시에 읽어낸 뒤, 이렇게 얻은 데이터를 생물 정보학적 기법을 이용하여 조합함으로써 방대한 유전체 정보를 빠르게 해독하고자 하기 위함이다. 이러한 NGS의 기본 개념은 1992년 시드니 브레너 등에 의해 제시되었지만, 기술적 한계 등으로 인하여 2004년에야 최초로 상용화될 수 있었다.
유전체 분석기술의 발전으로 인해, 기존의 단편적인 생명공학 패러다임 수준을 뛰어 넘어 개인 유전체의 전반적인 변이와 질병과의 연관성을 종합적 연구할 수 있게 되었다. 개인별 맞춤의료, 미생물 연구, 동식물 품종개량 등 막대한 산업적 파급효과를 창출할 수 있는 분야로 국내에서도 관련된 시장의 확장 가능성은 무한하다.
현재, 국내 유전체 분석 시장에서는 대량으로 생산되는 유전체 빅데이터를 분석할 수 있는 생물정보 전문 인력은 턱없이 부족한 상황이다. 이런 병목현상을 해결하기 위해, IT(Information Technology)와 BT(Bio Technology)의 협업은 필수불가결한 일이 되었다. 과거, NGS 기술을 통한 대량의 데이터를 생산하는 하드웨어(시퀀싱 장비) 중심이었다면, 앞으로는 데이터 분석에 대한 급격한 수요 증가 추세에 발맞추어 분석 소프트웨어 중심으로 변화되어야 할 것이다.
따라서, 고성능 컴퓨팅 인프라를 기반으로 한 대용량 개인 유전체 데이터를 효과적으로 처리하고 질병과 연관된 유전정보를 통합적으로 분석할 수 있는 시스템 개발이 절실히 요구되고 있다.
이와 관련해 비슷한 방식의 플랫폼을 구축한 사례들로 해외는 워크플로우 형태의 갤럭시(Galaxy)와, 정밀의료 분석 플랫폼(미국+유럽)인 트랜스마트(tranSMART), 디엔에이넥서스(DNAnexus), 씨엘씨 바이오(CLC bio), 일루미나(Illumina)의 베이스스페이스(BaseSpace) 등이 있고, 국내에서는 케이티(KT) '게놈클라우드', 테라젠의 '게놈 리포트', 국가생명연구자원정보센터(KOBIC)의 클로샤(CLOSHA : Bio-Exoress) 등을 볼 수 있다.
상기 종래의 플랫폼들은 너무 다양하고 복잡한 워크플로우 형태를 지니고 있어서 다양한 목표를 가지는 연구에 활용하기 어렵거나, 연구자들에게 일률적인 분석 파이프라인 셋을 제공하여 연구자들이 원하는 파이프라인 워크플로우로 분석을 시도하기 어려운 문제점이 있었다.
한편, NGS를 분석하기 위해서는 생물정보학 전공자를 채용하여 리눅스 기반의 커맨드(command) 형태의 분석 소프트웨어를 사용해야만 한다.
그러나, 중소업체들은 시퀀싱 기술은 보유하고 있지만 대규모 분석 시스템과 웹서비스 구축을 하기에는 경제적인 부담이 되기 때문에, 염기서열 제공업체에 시퀀싱 분석을 의뢰하여 진행하는 경우가 많다. 이때, 분석마다 데이터 사용에 따른 상당한 가격을 지불해야만 하는 어려움이 있었다. 물론 이러한 비용은 대규모 분석 시스템 및 웹서비스 구축에 필요한 비용보다는 낮은 금액이지만, 연구를 계속하는데는 부담이 될 수밖에 없다.
또한, 기존에는 동일한 시퀀싱 파일에 대한 추가적인 분석을 위해서는 염기서열 분석업체에 의뢰하여야 하며, 이를 위해서는 회당 비용을 지불해야만 하는 문제가 있었다.
한국등록특허공보 제10-1533792에서는, NGS 기반(next generation sequencing-based) 인간 객체(human subject)의 상염색체 분석방법을 개시하고 있다.
한편, 한국등록특허공보 제10-1849879는 프로그래밍 경험이 없는 생명공학 실험 연구자들이나 생물정보학 전문 연구자들이 실행서버에서 제공하는 서비스를 이용하여 맞춤형 유전체 정보를 분석할 수 있는 유전체 염기서열 분석 파이프라인 처리시스템 및 방법을 개시하고 있다.
한편, 한국등록특허공보 제10-1870632는 대상체로부터 직접 추출해야 하는 생체 세포로부터 영구적으로 사용될 수 있고, 사용에 따라서 훼손되지 않는 전자적 데이터를 획득하고, 상기 획득된 생체 세포에 대한 전자적 데이터를 적정한 가격으로 거래될 수 있도록 하는 질병 기전 연구를 위한 생물학적 데이터를 제공하는 데이터 제공 장치 및 방법을 개시하고 있다.
한국등록특허 [10-1533792](등록일자: 2015. 06. 29) 한국등록특허 [10-1849879](등록일자: 2018. 04. 11) 한국등록특허 [10-1870632](등록일자: 2018. 06. 19)
따라서, 본 발명은 상기한 바와 같은 문제점을 해결하기 위하여 고안된 것으로, 본 발명의 목적은 사용자의 요청에 따라 염기서열 제공업체로부터 시퀀싱 파일을 전달받아, 상기 시퀀싱 파일에 대한 제1 분석결과를 제공하고, 상기 제1 분석결과를 기반으로 한 분석 환경 및 상기 사용자의 요청에 따른 제2 분석결과를 제공하고, 상기 제2 분석결과를 기반으로 한 분석 환경 및 상기 사용자의 요청에 따른 제3 분석결과를 제공하되, 상기 사용자는 상기 제1 분석결과를 위한 비용만 지불하고, 상기 제2 분석결과 및 상기 제3 분석결과는 분석 환경의 변수 설정에 따라 무료 또는 저렴한 비용으로 이용이 가능한 차세대 염기서열 분석 서비스 제공 시스템 및 그 방법을 제공하는 것이다.
본 발명의 실시예들의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기한 바와 같은 목적을 달성하기 위한 본 발명의 일 실시예에 따른 차세대 염기서열 분석 서비스 제공 시스템에 있어서, 시퀀싱 파일을 제공하는 염기서열 제공업체 단말기(130); 염기서열 제공업체로 시퀀싱 파일을 요청하고, 상기 염기서열 제공업체 단말기가 상기 시퀀싱 파일을 업로드함에 따라 상기 시퀀싱 파일에 대한 제1 분석결과를 수신하고, 상기 제1 분석결과를 기반으로 한 제1 분석환경을 제공받고, 상기 제1 분석환경 설정에 따른 제2 분석결과를 수신하고, 상기 제2 분석결과를 기반으로 한 제2 분석환경을 제공받고, 상기 제2 분석환경 설정에 따른 제3 분석결과를 수신하기 위한 사용자 단말기(110, 120); 및 상기 사용자 단말기를 통해 송수신되는 데이터에 따라 차세대 염기서열 분석 서비스를 제공하기 위한 시퀀싱분석서비스제공서버(100)를 포함하고, 상기 시퀀싱분석서비스제공서버(100)는, 상기 사용자 단말기와 상기 시퀀싱분석서비스제공서버 간의 인터페이스 및 상기 염기서열 제공업체 단말기와 상기 시퀀싱분석서비스제공서버 간의 인터페이스를 제공하는 인터페이스부(101); 상기 사용자 단말기로부터의 요청에 따라, 상기 염기서열 제공업체 단말기를 통해 시퀀싱 파일을 업로드받고, 해당 사용자 단말기로 상기 시퀀싱 파일에 대한 제1 분석결과를 출력하고, 상기 사용자 단말기로 상기 제1 분석결과를 기반으로 한 제1 분석환경을 제공하고, 상기 사용자 단말기의 상기 제1 분석환경 설정에 따른 제2 분석결과를 출력하고, 상기 사용자 단말기로 상기 제2 분석결과를 기반으로 한 제2 분석환경을 제공하고, 상기 사용자 단말기의 상기 제2 분석환경 설정에 따른 제3 분석결과를 출력하는 처리부(103); 상기 사용자 단말기를 통해 염기서열 분석을 위한 서비스 요금을 과금하고, 상기 염기서열 제공업체 단말기가 업로드한 상기 시퀀싱 파일의 비용을 처리하기 위한 과금부(105); 상기 차세대 염기서열 분석 서비스를 제공하기 위한 데이터를 저장하고 있는 데이터베이스관리부(104); 및 상기 인터페이스부, 처리부, 과금부, 및 데이터베이스 관리부 간의 데이터의 흐름을 제어하는 제어부(102)를 포함하는 것을 특징으로 한다.
상기 시퀀싱 파일은, 패스트큐(FASTQ) 파일인 것을 특징으로 하고, 상기 제1 분석결과는, 상기 FASTQ 파일을 레퍼런스 유전자 데이터와 매핑함에 따른, 유전자 정보 및 발현횟수를 포함하는 것을 특징으로 한다.
상기 제2 분석결과는, 상기 유전자 정보 및 발현횟수를 기반으로 하여, 상기 제1 분석환경의 설정에 따라 서로 다르게 발현되는 유전자 정보를 포함하는 것을 특징으로 한다.
상기 제3분석결과는, 상기 서로 다르게 발현되는 유전자 정보를 기반으로 하여, 상기 제2 분석환경의 설정에 따라 유전자 온톨로지 분석 결과, 경로분석 결과, 및 지능성 경로분석 결과를 포함하는 것을 특징으로 한다.
상기한 바와 같은 목적을 달성하기 위한 본 발명의 일 실시예에 따른 차세대 염기서열 분석 서비스 제공 방법은, 사용자 단말기의 요청에 따라 염기서열 제공업체의 단말기를 통해 시퀀싱분석서비스제공서버가 시퀀싱 파일을 전달받는 파일업로드단계(S720); 상기 시퀀싱 파일에 대한 제1 분석결과를 제공하는 제1분석결과제공단계(S730); 상기 제1 분석결과를 기반으로 한 제1 분석환경을 제공하는 제1분석환경제공단계(S740); 상기 사용자 단말기의 요청에 따른 제2 분석결과를 제공하는 제2분석결과제공단계(S750); 상기 제2 분석결과를 기반으로 한 제2 분석환경을 제공하는 제2분석환경제공단계(S760); 및 상기 사용자 단말기의 요청에 따른 제3 분석결과를 제공하는 제3분석결과제공단계(S770)를 포함한다.
차세대 염기서열 분석 서비스 제공 방법은, 상기 사용자 단말기를 통해 염기서열 분석을 위한 서비스 요금이 결제되는 결제단계(S710); 및 상기 시퀀싱분석서비스제공서버에서 상기 염기서열 제공업체가 업로드한 시퀀싱 파일의 비용을 처리하는 비용처리단계(S780)를 더 포함하는 것을 특징으로 하고, 상기 서비스 요금은, 선불 또는 후불이 가능한 것을 특징으로 한다.
상기 파일업로드단계(S720)에서 업로드되는 시퀀싱 파일은, 패스트큐(FASTQ) 파일인 것을 특징으로 하고, 상기 제1분석결과제공단계(S730)는, 상기 FASTQ 파일을 레퍼런스 유전자 데이터와 매핑함에 따른, 유전자 정보 및 발현횟수를 제공하는 것을 특징으로 한다.
상기 제2분석결과제공단계(S750)는, 상기 유전자 정보 및 발현횟수를 기반으로 하여, 상기 제1 분석환경의 설정에 따라 서로 다르게 발현되는 유전자 정보를 제공하는 것을 특징으로 한다.
상기 제3분석결과제공단계(S770)는, 상기 서로 다르게 발현되는 유전자 정보를 기반으로 하여, 상기 제2 분석환경의 설정에 따라 유전자 온톨로지 분석 결과, 경로분석 결과, 및 지능성 경로분석 결과를 제공하는 것을 특징으로 한다.
상기 제1분석환경제공단계(S740) 및 상기 제2분석환경제공단계(S760)는, 분석완료 시점에서 상기 사용자 단말기로의 분석완료 알림을 선택 및 설정하는 것을 특징으로 한다.
또한, 본 발명의 일 실시예에 따르면, 상기 차세대 염기서열 분석 서비스 제공 방법을 구현하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록매체가 제공되는 것을 특징으로 한다.
아울러, 본 발명의 일 실시예에 따르면, 상기 차세대 염기서열 분석 서비스 제공 방법을 구현하기 위해, 컴퓨터 판독 가능한 기록매체에 저장된 프로그램이 제공되는 것을 특징으로 한다.
본 발명의 일 실시예에 따른 차세대 염기서열 분석 서비스 제공 시스템 및 그 방법에 의하면, 사용자의 요청에 따라 염기서열 제공업체로부터 시퀀싱 파일을 전달받아, 상기 시퀀싱 파일에 대한 제1 분석결과를 제공하고, 상기 제1 분석결과를 기반으로 한 분석 환경 및 상기 사용자의 요청에 따른 제2 분석결과를 제공하고, 상기 제2 분석결과를 기반으로 한 분석 환경 및 상기 사용자의 요청에 따른 제3 분석결과를 제공하되, 상기 사용자는 상기 제1 분석결과를 위한 비용만 지불하고, 상기 제2 분석결과 및 상기 제3 분석결과는 분석 환경의 변수 설정에 따라 무료 또는 저렴한 비용으로 이용이 가능한 효과가 있다.
또한, 본 발명의 일 실시예에 따른 차세대 염기서열 분석 서비스 제공 시스템 및 그 방법에 의하면, 염기서열 제공업체는 분석 시스템을 이용한 시퀀싱 파일만 전달해주면 되므로, 생물정보학 전공자를 의무적으로 채용하지 않는 것이 가능하다.
또한, 본 발명의 일 실시예에 따른 차세대 염기서열 분석 서비스 제공 시스템 및 그 방법에 의하면, 염기서열 제공업체가 시퀀싱 파일을 전달하는 경우에, 해당 사용자의 저장소에만 접근이 가능하도록 설정되며, 사용자 또한 본인의 저장소에 업로드된 파일만 엑세스가 가능하므로, 파일이 바뀌어 전달될 위험이 적고, 많은 파일을 관리 할 때, 특히 파일을 정렬, 처리 및 보관해야 할 경우 발생할 수 있는 인적 오류를 줄일 수 있다.
도 1은 본 발명에 따른 차세대 염기서열 분석 서비스 제공 시스템의 일 실시예 구성도.
도 2는 본 발명에 따른 차세대 염기서열 분석 서비스 제공 방법을 설명하는 도면.
도 3a 및 3b는 본 발명의 일 실시예에 따른 차세대 염기서열 분석 서비스 제공시, 제1 분석환경을 설명하기 위한 도면.
도 4a 내지 4d는 본 발명의 일 실시예에 따른 차세대 염기서열 분석 서비스 제공시, 제2 분석결과를 설명하기 위한 도면.
도 5는 본 발명의 일 실시예에 따른 차세대 염기서열 분석 서비스 제공시, 제2 분석환경을 설명하기 위한 도면.
도 6a 내지 6c는 본 발명의 일 실시예에 따른 차세대 염기서열 분석 서비스 제공시, 제3 분석결과를 설명하기 위한 도면.
도 7은 본 발명의 일 실시예에 따른 차세대 염기서열 분석 서비스 제공 방법의 흐름도.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 명세서에서 사용되는 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 공정, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 공정, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미가 있는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부된 도면을 참조하여 본 발명을 더욱 상세하게 설명한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정하여 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여, 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 또한, 사용되는 기술 용어 및 과학 용어에 있어서 다른 정의가 없다면, 이 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 통상적으로 이해하고 있는 의미를 가지며, 하기의 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 설명은 생략한다. 다음에 소개되는 도면들은 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것이다. 따라서, 본 발명은 이하 제시되는 도면들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 또한, 명세서 전반에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다.
본 발명에서는, NGS 분석 방법에 있어서 알엔에이(RNA) 서열을 분석하는 것을 예로 들어 설명하기로 한다.
RNA 서열분석(RNA sequencing, RNA-seq)은 DNA로부터 전사된 모든 RNA를 의미하는 전사체(transcriptome)의 염기서열을 분석하는 기술이다. 차세대 유전체 분석기술(next generation sequencing, NGS)을 이용하여 RNA의 염기서열을 분석하면 유전자의 발현량, 염기서열의 변이, RNA 대체 이어 맞추기(alternative RNA splicing), 유전자 융합(gene fusion), 단일염기서열 다형성(single nucleotide polymorphism, SNP) 등의 정보를 알아낼 수 있다.
유전자의 발현량을 분석하기 위한 대표적 방법 중 하나인 마이크로어레이는 각 유전자의 특정 염기서열을 제작하여 작은 유리판 위에 다량 심은 후, 그 위에 RNA를 cDNA로 역전사하고 형광물질로 표지한 비교군 및 대조군의 샘플을 처리한다.
처리한 샘플은 각각의 유전자 염기서열에 상보적인 결합을 통해 결합하고, 각 유전자에 결합한 cDNA의 양을 광학 스캐너가 측정한 상대적인 형광의 세기로 측정하는 방법이다. RNA 서열분석은 역전사 방법에 의해 제작한 cDNA를 직접 염기서열 분석을 하고 그 결과들을 이미 알고 있는 유전자의 염기서열에 대입하여 유전자의 발현량을 측정하는 방법이다. 즉, 역전사하여 제작한 특정 유전자의 cDNA 염기서열이 나타날 때마다 1개의 hit로 기록하고, 전체 발현량을 숫자로 정확히 표현해 준다는 점에서 빛의 세기를 측정하는 마이크로어레이 방법에 비해 정밀한 결과물을 나타내는 재현성이 높은 실험방법이다.
RNA 서열분석을 하려고 하는 샘플에서 전체 RNA 분자들을 추출하여 해독하는 것이 일반적인 방법이다. 대부분의 RNA 서열분석의 연구 목적은 유전자의 발현에 대한 것으로 주로 messenger RNA를 대상으로 염기서열과 그 수를 분석하는 것이다. 전체 RNA 분자 중 95% 정도에 해당하는 ribosomal RNA(rRNA)를 제거하고, messenger RNA(mRNA) 분자를 cDNA로 역전사 (reverse transcription)한 후 양쪽 끝에 sequencing adaptor를 붙인다. 이렇게 제작한 라이브러리를 중합효소 연쇄반응 (polymerase chain reaction)으로 증폭하고 이것들의 염기서열을 분석하는 것이다.
상기 RNA 대체 이어 맞추기(alternative RNA splicing)에서는, RNA splicing pattern이 뇌, 간, 신장 등 각 장기마다, 장기의 각 조직마다 다른 조합을 나타낼 수 있다. 또한 질병의 원인 돌연변이 중 15~60% 정도는 이러한 splicing에 영향을 주는 것으로 알려져 있다. 그러므로 한 유전자에 대한 RNA 서열분석의 결과를 분석하면 유전자를 발현하는 DNA상의 엑손(exone)의 배열 순서를 알아낼 수 있다.
서로 다른 유전자의 융합(fusion)은 암과 같은 중대한 질병의 원인으로 알려져 있다. 예를 들어, A라는 유전자는 우리 몸속에서 대량으로 존재하여야 하는 유전자로 정상상태에서 다른 유전자들에 비해 많은 수의 유전자를 발현하고 있다. 그러나 이 A라는 유전자를 대량으로 발현시키는 프로모터 부위나 엑손 부위에 세포의 성장과 전이에 관련된 B라는 인산화효소의 유전자가 융합되면, 정상상태에서는 일정량만의 유전자가 발현되는데 비해 암세포는 비정상적으로 많은 수의 B 인산화효소 유전자가 발현하여 세포 성장을 촉진하므로 암과 같은 질병이 생길 수 있다. RNA 서열분석을 하여 A 유전자를 발현하는 RNA에 전혀 상관없는 B 유전자의 염기서열이 발견되면 비정상적인 유전자 융합이 나타났다는 것을 확인할 수 있다.
유전자 변이(mutation)분석에서는, RNA 서열분석을 수행하여 특정 유전자에서 기준유전자(reference gene)와 다른 변이가 발견될 수 있다. DNA 상에서 변이가 생긴 경우와 RNA 에디팅에 의해, DNA로부터 정상적인 전사(transcription) 이후 생긴 경우로 나눌 수 있다.
본 발명에서는, RNA를 추출하여 이를 시퀀싱 머신을 이용하여 패스트큐(FASTQ) 형식으로 출력된 시퀀싱 파일이 시퀀싱분석서비스제공서버(100)에 업로드 되면, 상기 시퀀싱분석서비스제공서버(100)는 FASTQ 파일을 레퍼런스 유전자 데이터와 매핑하여 해당하는 유전자 정보 및 발현횟수 등을 제1 분석결과로 출력한다.
이후, 이전 단계에서 획득한 분석결과(해당하는 유전자 정보 및 발현횟수)를 기반으로 사용자 설정에 따른 분석을 수행하여 서로 다르게 발현되는 유전자 정보(차별발현유전자, DEG)를 제2 분석결과로 출력한다.
이후, 이전 단계에서 획득한 분석결과(DEG 정보)를 기반으로 사용자 설정에 따른 분석을 수행하여 GO TERM 분석이나 경로분석 결과를 제3 분석결과로 출력한다.
패스트큐(FASTQ) 형식은 생물학적 순서 (일반적으로 뉴클레오타이드 순서)와 해당 품질 점수를 저장하기 위한 텍스트 기반 형식이다. 시퀀스와 품질 점수는 간결성을 위해 각각 하나의 ASCII 문자로 인코딩된다. 원래 웰컴 트러스트 생어 연구소(Wellcome Trust Sanger Institute)에서 패스트에이(FASTA) 포맷 시퀀스와 그 품질 데이터를 묶기 위해 개발되었지만, 일루미나 게놈 애널라이저(Illumina Genome Analyzer)와 같은 고효율 시퀀싱 장비의 출력을 저장하기 위한 사실상의 표준이 되었다.
한편, 상기 차별발현유전자 (DEG : Differentially Expressed Genes) 분석 방법은, 대조검체에 비해 실험검체에서 발현량이 유의미하게 증가 혹은 감소한 유전자의 목록을 얻는 방법이다.
도 1은 본 발명에 따른 차세대 염기서열 분석 서비스 제공 시스템의 일 실시예 구성도이다.
도 1을 참조하면, 본 발명에 따른 차세대 염기서열 분석 서비스 제공 시스템은, 사용자 단말기(110, 120), 염기서열 제공업체 단말기(130) 및 시퀀싱분석서비스제공서버(100)를 포함한다. 통신 네트워크를 통하여 상기 사용자 단말기(110, 120) 및 상기 염기서열 제공업체 단말기(130)와 통신하는 본 발명에 따른 시퀀싱분석서비스제공서버(100)는 인터페이스부(101), 제어부(102), 처리부(103), 데이터베이스 관리부(104), 및 과금부(105) 등을 포함한다. 상기 인터페이스부(101), 상기 제어부(102), 상기 처리부(103), 상기 데이터베이스 관리부(104), 및 상기 과금부(105)는 그 중 적어도 일부가 시퀀싱분석서비스제공서버(100)와 통신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 시퀀싱분석서비스제공서버(100)에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈들은 시퀀싱분석서비스제공서버(100)와 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.
여기서, 통신 네트워크는 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 통신망(LAN; Local Area Network), 도시권 통신망(MAN; Metropolitan Area Network), 광역 통신망(WAN; Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. 바람직하게는, 본 발명에서 말하는 통신 네트워크는 공지의 월드와이드웹(WWW; World Wide Web)일 수 있다.
상기 시퀀싱분석서비스제공서버(100)는 통신 네트워크를 통하여 상기 사용자 단말기(110, 120) 및 상기 염기서열 제공업체 단말기(130)와 통신하며, 상기 사용자 단말기(110, 120) 및 상기 염기서열 제공업체 단말기(130)로부터 차세대 염기서열 분석 서비스를 제공하는데 필요한 데이터를 수신한다.
본 발명에 따른 차세대 염기서열 분석 서비스 제공 시스템은, 과금 결제를 위한 결제 서버(140)를 더 포함할 수 있다.
상기 사용자 단말기(110, 120)는 상기 시퀀싱분석서비스제공서버(100)에 접속한 후 차세대 염기서열 분석 서비스를 제공받기 위한 사용자가 통신 네트워크를 통하여 상기 시퀀싱분석서비스제공서버(100)에 접속한 후 통신할 수 있도록 하는 기능을 포함하는 디지털 기기로서, 개인용 컴퓨터(예를 들어, 데스크탑 컴퓨터, 노트북 컴퓨터 등), 워크스테이션, PDA, 웹 패드, 이동 전화기 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 사용자 단말기(110, 120)로서 채택될 수 있다.
상기 사용자 단말기(110, 120)는 염기서열 제공업체로 시퀀싱 파일을 요청하고, 상기 염기서열 제공업체 단말기가 상기 시퀀싱 파일을 업로드함에 따라 상기 시퀀싱 파일에 대한 제1 분석결과를 수신하고, 상기 제1 분석결과를 기반으로 한 제1 분석환경을 제공받고, 상기 제1 분석환경 설정에 따른 제2 분석결과를 수신하고, 상기 제2 분석결과를 기반으로 한 제2 분석환경을 제공받고, 상기 제2 분석환경 설정에 따른 제3 분석결과를 수신한다.
상기 제1분석결과는, 상기 FASTQ 파일을 레퍼런스 유전자 데이터와 매핑함에 따른, 유전자 정보 및 발현횟수를 포함한다.
상기 제2 분석결과는, 상기 유전자 정보 및 발현횟수를 기반으로 하여, 상기 제1 분석환경의 설정에 따라 서로 다르게 발현되는 유전자 정보(DEG)를 포함한다.
상기 제3 분석결과는, 상기 서로 다르게 발현되는 유전자 정보를 기반으로 하여, 상기 제2 분석환경의 설정에 따라 유전자 온톨로지 분석 결과, 경로분석 결과, 지능성 경로분석 결과를 포함한다.
또한, 상기 염기서열 제공업체 단말기(130)는 상기 시퀀싱분석서비스제공서버(100)에 접속하여 상기 사용자 단말기가 요청한 시퀀싱 파일을 업로드하는 염기서열 제공업체의 단말기로서, 상기 사용자 단말기(110, 120)와 마찬가지의 속성을 갖는다.
한편, 상기 인터페이스부(101)는 상기 사용자 단말기(110, 120) 및 염기서열 제공업체 단말기(130)와 상기 시퀀싱분석서비스제공서버(100) 사이의 통신을 수행할 수 있도록 인터페이싱하며, 차세대 염기서열 분석 서비스 제공을 위해 필요한 그래픽 사용자 인터페이스를 상기 사용자 단말기(110, 120) 및 염기서열 제공업체 단말기(130)에 제공할 수 있다.
상기 제어부(102)는 상술한 바와 같은 인터페이스부(101)와, 후술할 처리부(103), 데이터베이스 관리부(104), 및 과금부(105) 간의 데이터의 흐름을 제어하는 기능을 수행한다.
상기 처리부(103)는 인터페이스부(101)를 통하여 송수신되는 데이터에 기초하여 차세대 염기서열 분석 서비스 제공을 위한 각종 처리를 수행한다. 상세하게는, 상기 처리부(103)는 상기 사용자 단말기로(110, 120)부터의 요청에 따라, 상기 염기서열 제공업체 단말기(130)를 통해 시퀀싱 파일을 업로드받고, 해당 사용자 단말기로 상기 시퀀싱 파일에 대한 제1 분석결과를 출력하고, 상기 사용자 단말기로 상기 제1 분석결과를 기반으로 한 제1 분석환경을 제공하고, 상기 사용자 단말기의 상기 제1 분석환경 설정에 따른 제2 분석결과를 출력하고, 상기 사용자 단말기로 상기 제2 분석결과를 기반으로 한 제2 분석환경을 제공하고, 상기 사용자 단말기의 상기 제2 분석환경 설정에 따른 제3 분석결과를 출력한다.
상기 과금부(105)는 상기 사용자 단말기(110, 1220)를 통해 염기서열 분석을 위한 서비스 요금을 과금하고, 상기 염기서열 제공업체 단말기(130)가 업로드한 상기 시퀀싱 파일의 비용을 처리한다.
상기 데이터베이스 관리부(104)는, 상기 차세대 염기서열 분석 서비스를 제공하기 위한 데이터를 저장하고 있으며, 시퀀싱 파일에 대한 기본정보를 관리하기 위한 시퀀싱 파일 데이터베이스(104a), 개인사용자, 회사에 속한 다수의 사용자들 및 염기서열 제공업체의 직원 등을 회원으로 가입시켜 그 인적 정보를 관리하기 위한 회원 데이터베이스(104b), 분석 결과와 관련된 정보를 저장하기 위한 분석 결과 데이터베이스(104c) 등을 포함할 수 있다.
예를 들면, 시퀀싱 파일 데이터베이스(104a)는 상기 염기서열 제공업체 단말기를 통해 업로드한 시퀀싱 파일의 이름, 업로드 날짜, 작업명, 파일 사이즈 등의 기본정보를 포함할 수 있다. 또한, 상기 기본정보는 지속적으로 분석됨에 따라 복사본 또는 백업본에 관한 정보가 포함될 수 있다. 이러한 시퀀싱 파일 데이터베이스(104a)는 처리부(103)에 의해 참조되어 그 정보 중 적어도 일부가 인터페이스부(101)를 통해 외부 장치로 전송될 수 있다.
회원 데이터베이스(104b)는 상기 염기서열 제공업체의 직원이 시퀀싱 파일을 업로드하기 위해, 사용자가 시퀀싱 파일 및 추가적인 분석을 요청하고 분석 결과를 얻기 위해, 또한 회원들의 차세대 염기서열 분석 서비스를 제공받기 위해 로그인하는데 사용하는 로그인 ID 및 패스워드 등의 식별 정보와, 이름, 주민등록번호, 법인등록번호, 계좌번호, 연락처, 이메일 주소, 의뢰하는 염기서열 제공업체 등에 관한 정보를 포함할 수 있다. 이러한 회원 데이터베이스(104b)는 처리부(103)에 의해 참조될 수 있다.
한편, 분석 결과 데이터베이스(104c)는 사용자 요청에 따른 염기서열 분석 결과를 저장하는 정보를 포함한다.
상기 실시예에서는, 본 발명의 구현을 위한 정보를 저장하는 데이터베이스를시퀀싱 파일 데이터베이스(104a), 회원 데이터베이스(104b), 분석 결과 데이터베이스(104c)의 세 가지 데이터베이스로 분류하였지만, 이러한 분류를 포함한 데이터베이스의 구성은 당업자의 필요에 따라 변경될 수 있다.
한편, 본 발명에 있어서, 데이터베이스란, 협의의 데이터베이스뿐만 아니라, 컴퓨터 파일 시스템에 기반을 둔 데이터 기록 등을 포함하는 넓은 의미의 데이터베이스까지 포함하는 개념으로서, 단순한 연산 처리 로그의 집합이라도 이를 검색하여 소정의 데이터를 추출할 수 있다면 본 발명에서 말하는 데이터베이스에 포함될 수 있음이 이해되어야 한다.
도 2는 본 발명에 따른 차세대 염기서열 분석 서비스 제공 방법을 설명하는 도면이다.
도 2에 도시된 바와 같이, 사용자A-1(211), 사용자A-2(212), 사용자B-1(221), 사용자B-2(222), 사용자C-1(231), 및 사용자C-2(232)가 시퀀싱분석서비스제공서버(100)를 통해 염기서열 제공업체A(210), 염기서열 제공업체B(220), 염기서열 제공업체C(230)로 시퀀싱 파일을 요청한다. 예를 들어, 사용자가 염기서열 제공업체로 전화 또는 이메일 등의 방법으로 직접 요청을 할 수 있다.
그러면, 시퀀싱분석서비스제공서버(100)가 염기서열 제공업체A(210), 염기서열 제공업체B(220), 염기서열 제공업체C(230)로부터 시퀀싱 파일 업로드를 받으면, 상기 시퀀싱분석서비스제공서버(100)는 시퀀싱 파일의 비용을 염기서열 제공업체(210, 220, 230)에서 지불한다.
각 사용자A-1(211), 사용자A-2(212), 사용자B-1(221), 사용자B-2(222), 사용자C-1(231), 및 사용자C-2(232)는 서비스 요금을 결제하면, 상기 시퀀싱분석서비스제공서버(100)는 해당 시퀀싱 파일에 대한 시퀀싱 분석결과(제1 분석결과) 및 분석환경을 제공한다.
한편, 상기 사용자A-1(211) 및 사용자A-2(212)는 염기서열 제공업체A(210)에 시퀀싱 파일을 요청을 한 것이고, 사용자B-1(221) 및 사용자B-2(222)는 염기서열 제공업체B(220)에 시퀀싱 파일을 요청을 한 것이고, 사용자C-1(231) 및 사용자C-2(232)는 염기서열 제공업체C(230)에 시퀀싱 파일을 요청을 한 것이다.
상기 염기서열 제공업체는 자신에게 의뢰한 사용자의 저장소에만 엑세스가 가능하고, 시퀀싱 파일을 업로드할 수 있다. 이를 위해, 사전에 사용자는 본인이 의뢰한 염기서열 제공업체에 대한 정보를 상기 시퀀싱분석서비스제공서버(100)에 제공할 수 있다.
한편, 사용자A-1(211), 사용자A-2(212), 사용자B-1(221), 사용자B-2(222), 사용자C-1(231), 및 사용자C-2(232)가 결제하는 서비스 요금은 하나의 시퀀싱 파일(하나의 샘플)당 대략 5만원 정도로 서비스가 가능하며, 시퀀싱분석서비스제공서버(100)가 염기서열 제공업체(210, 220, 230)로 지불하는 비용은 대략 1만원 정도로 가능하다. 왜냐하면, 상기 염기서열 제공업체(210, 220, 230)에서는 시퀀싱 머신에서 추출된 fastq 파일만을 전달해주면 되므로, 1차 분석을 하기 위한 생물정보학 담당자에게 소요되는 비용을 줄 일 수 있기 때문이다.
또한, 분석환경 설정 및 분석이 시스템을 통해 이루어질 수 있으므로, 사용자는 제1 분석환경 설정에 따른 제2 분석결과 출력 및 제2 분석환경 설정에 따른 제3 분석결과 출력은 무료 또는 저렴하게 이용이 가능할 수 있다.
도 3a 및 3b는 본 발명의 일 실시예에 따른 차세대 염기서열 분석 서비스 제공시, 제1 분석환경을 설명하기 위한 도면이다.
사용자 단말기가 기본적인 제1 분석결과를 수신한 이후, 상기 제1 분석결과를 기반으로 하여 제1 분석환경을 설정할 수 있다.
도 3a 및 3b을 참조하면, 차 선택으로 유클리드(Euclidean), 맨하탄(Mahattan) 및 코사인 유사도(Cosine similiarity)를 선택할 수 고, 2차 선택으로 배수변화도(폴드 체인지, fold change) 및 p-값(p-value)을 선택할 수 있다.
그리고, 분석된 FASTQ 파일들을 드래그앤 드롭 형태로 움직여, 분석하고자 하는 샘플(시퀀싱 파일)을 선택하는 것이 가능하다.
한편, 도면에는 도시되지 않았으나, 분석하는데 시간이 오래 걸릴 수 있으므로, 분석완료 시점에서 상기 사용자 단말기로의 분석완료 알림을 선택하거나 설정할 수 있는 인터페이스가 제공될 수 있다.
도 4a 내지 4d는 본 발명의 일 실시예에 따른 차세대 염기서열 분석 서비스 제공시, 제2 분석결과를 설명하기 위한 도면이다.
도3a 및 3b에서의 제1 분석환경 설정에 따라, 제2 분석결과를 보여준다.
도 4a를 참조하면, 유전자 리스트 중 폴드 체인지(F.C, sample/control)가 2보다 크거나 0.5 보다 작고, p-값이 0.05 이하인 유전자만 선별하는 경우, 유전자 B가 선택된다(401).
도 4b는 전체 유전자에 대한 DEG 유전자 리스트를 보여준다.
도 4c는 제2 분석결과로 히트맵을 도시하고 있다.
히트맵은 데이터의 값을 컬러로 변환시켜 시각적인 분석을 가능하게 하는 데이터 시각화 기법의 하나이다. 원래는 금융시장의 정보를 보여주기 위해서 만들어졌다고 하는데 그 외에 생물학적 정보, 지리적 밀도를 보여주는 정보 등 다양한 분야에서 사용된다.
가로축은 샘플이름으로 하고, 세로축은 유전자이름으로 하여 시각화하였다.
도 4d는 제2 분석결과로 산포도를 도시하고 있다.
산포도(Scatter Plot)는 상관연구에서 사용되는 일종의 도표로서, 도표의 가로축과 세로축에 X변수와 Y변수를 설정하고 각각의 X값에 해당되는 Y값을 도표 상에 점으로 표시하여 X와 Y의 상관정도를 추정할 수 있는 도표이다. 흔히 상관도표라고 하며, 점들의 집락이나 흩어진 정도를 통하여 두 변수 X, Y간의 관련성을 알 수 있다.
도 4d에서는, 제어값을 x변수로 하고, 베르베린 값(BBR, berberine)을 y변수로 하였고, 상향된 유전자는 1960개, 하향된 유전자는 4837개, 다르게 발현되지 않는 유전자는 8993개로 산포도가 출력되었다.
도 5는 본 발명의 일 실시예에 따른 차세대 염기서열 분석 서비스 제공시, 제2 분석환경을 설명하기 위한 도면이다.
도 5에 도시된 바와 같이, DEG 분석 목록(500)이 제공되며, 선택할 수 있는 체크박스(501)가 있다.
유전자 온톨로지 분석(GO-term analysis)(502), 경로 분석(reactome pathway analysis)(503), 및 지능형 경로 분석(intelligent pathway anlysis(504) 등이 가능한 것으로 표시되어 있다.
DEG 분석 목록을 선택하고, 분석 방법을 선택하면, 그에 대한 제3 분석결과가 출력될 수 있다.
한편, 도면에는 도시되지 않았으나, 분석하는데 시간이 오래 걸릴 수 있으므로, 분석완료 시점에서 상기 사용자 단말기로의 분석완료 알림을 선택하거나 설정할 수 있는 인터페이스가 제공될 수 있다.
도 6a 내지 6c는 본 발명의 일 실시예에 따른 차세대 염기서열 분석 서비스 제공시, 제3 분석결과를 설명하기 위한 도면이다.
도 6a 및 도 6b는, 제3 분석결과로 유전자 온톨로지(gene ontology term, GO-term)를 도시하고 있다.
유전자 온톨로지(GO-term)는 유전자 기능 연구를 위해 개별 유전자(gene)에 대해 유전자가 관련된 세포 기작(biological process), 유전자가 가지는 분자 기능(molecular function) 및 유전자의 세포 내외 위치(cellular component)를 주석(annotation)으로 달아 놓은 구조화된 모델이다. 세계적으로 혼돈을 피하기 위해 국제 협의체(consortium)를 구성하여 모든 연구자들이 일관되게 사용할 수 있도록 정의한 공통 통제용어체제(controlled vocabulary system)이다. 유전자 온톨로지 협의체에서 프로젝트 관리가 수행되며, 온톨로지 주석 정보는 AmiGO 데이터베이스를 통해 접근할 수 있다. 분석결과는 일반적으로 GO 용어의 순위가 매겨진 목록이며 각 용어는 p-값(p-value)과 연관되어 있다.
도 6c는 제3 분석결과로 경로 분석에 대하여 도시하고 있다.
우선, 경로모형은 현상의 원인 및 결과로 여겨지는 원인변수와 결과변수 사이의 관계를 나타내는 모형이며, 경로분석은 독립변수들 간의 혹은 독립변수와 종속변수 사이의 관계를 조사할 수 있는 분석 방법을 말한다.
한편, 회귀분석은 여러 개의 독립변수가 하나의 종속변수에 미치는 영향을 조사한다면 경로분석에서는 독립변수들 간의 혹은 독립변수와 종속변수 사이의 관계를 조사할 수 있으며. 경로분석은 회귀분석을 확장한 개념이다.
한편, 회귀분석에서는 독립변수 간에 상관관계가 없다고 가정하면, 회귀계수는 직접효과만을 설명하는데, 두 개의 회귀식을 결합하면 두 단계(two-stage) 회귀분석이 가능해지며 나아가서 경로분석이 된다.
경로분석은 모든 관련된 변수들 간의 인과관계를 나타내며, 이론적인 가정이 성립되는 변수는 모두 포함될 수 있다. 해당 변수와 관련된 가설을 빼고자 한다면 그 경로를 제거하면 된다.
경로분석에서는 각각의 경로가 이론적인 가설을 내포하며 이 가설을 총체적으로 결합하여 그림으로 나타내며, 수집된 자료가 경로모형으로 나타낸 인과모형에 적합하게 나타내는지 여부를 검정하여야 한다.
즉, 도 6a 내지 6c와 같이, 본 발명에 따른 차세대 염기서열 분석 서비스 제공 방법에 있어서, 제3 분석결과에 대해 시각화된 출력을 얻을 수 있다.
도 7은 본 발명의 일 실시예에 따른 차세대 염기서열 분석 서비스 제공 방법의 흐름도이다.
회원가입 단계는 일회성이므로, 사용자 단말기(110, 120) 및 염기서열 제공업체의 단말기(130)는 본 발명에 따른 차세대 염기서열 분석 서비스 제공 시스템에 회원가입이 되어 있는 것으로 한다.
도 7을 참조하면, 본 발명의 차세대 염기서열 분석 서비스 제공 방법은, 먼저, 사용자 단말기(110, 120)를 통해 염기서열 분석을 위한 서비스 요금이 결제되고(S710). 여기서, 사용자 단말기(110, 120)의 회원 정보에 따라 선불 또는 후불 결제가 가능하므로, 서비스 요금 결제 단계(S710)의 순서는 중요하지 않다.
이후, 사용자 단말기(110, 120)가 시퀀싱분석서비스제공서버(100)를 통해, 염기서열 제공업체로 시퀀싱 파일을 요청함에 따라, 상기 시퀀싱분석서비스제공서버(100)가 염기서열 제공업체의 단말기(130)를 통해 시퀀싱 파일을 전달받는다(S720). 즉, 상기 염기서열 제공업체의 단말기(130)를 통해 상기 시퀀싱 파일이 상기 시퀀싱분석서비스제공서버(100)에 업로드 된다.
상기 시퀀싱 파일은 패스트큐(FASTQ) 파일이다. 이때, 회원별로 구분되어 개인별 저장소에 업로드 될 수도 있고, 단체회원인 경우, 단체 그룹별 저장소에 업로드 될 수도 있다.
이후, 상기 시퀀싱분석서비스제공서버(100)는 상기 시퀀싱 파일에 대한 제1 분석결과를 해당 사용자 단말기(110, 120)로 제공한다(S730).
상기 제1 분석결과는, 상기 FASTQ 파일을 레퍼런스 유전자 데이터와 매핑함에 따른, 유전자 정보 및 발현횟수를 포함한다.
이후, 상기 시퀀싱분석서비스제공서버(100)는 상기 제1 분석결과를 기반으로 한 제1 분석환경을 제공한다(S740).
이후, 상기 사용자 단말기(110, 120)의 상기 제1 분석환경 설정에 따른 제2 분석결과를 제공한다(S750).
상기 제2 분석결과는, 상기 유전자 정보 및 발현횟수를 기반으로 하여, 상기 제1 분석환경의 설정에 따라 서로 다르게 발현되는 유전자 정보를 포함한다.
이후, 상기 시퀀싱분석서비스제공서버(100)는 상기 제2 분석결과를 기반으로 한 제2 분석환경을 제공한다(S760).
상기 제1분석환경제공단계(S740) 및 상기 제2분석환경제공단계(S760)에서는, 분석하는데 시간이 오래 걸릴 수 있으므로, 분석완료 시점에서 상기 사용자 단말기로의 분석완료 알림을 선택하거나 설정할 수 있다.
이후, 상기 사용자 단말기(110, 120)의 상기 제2 분석환경 설정에 따른 제3 분석결과를 제공한다(S770).
상기 제3 분석결과는, 상기 서로 다르게 발현되는 유전자 정보를 기반으로 하여, 상기 제2 분석환경의 설정에 따라 유전자 온톨로지 분석(GO-term analysis) 결과, 경로분석(reactome pathway analysis) 결과, 및 지능형 경로분석(intelligent pathway analysis) 결과를 포함한다.
이후, 상기 시퀀싱분석서비스제공서버(100)가 상기 염기서열 제공업체가 업로드한 시퀀싱 파일의 비용을 처리한다(S780).
상기 서비스요금결제단계(S710) 및 상기 비용처리단계(S780)는 순서에 상관없이 수행될 수 있다.
이상에서 본 발명의 일 실시예에 따른 차세대 염기서열 분석 서비스 제공 방법에 대하여 설명하였지만, 차세대 염기서열 분석 서비스 제공 방법을 구현하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록매체 및 차세대 염기서열 분석 서비스 제공 방법을 구현하기 위한 컴퓨터 판독 가능한 기록매체에 저장된 프로그램 역시 구현 가능함은 물론이다.
즉, 상술한 차세대 염기서열 분석 서비스 제공 방법은 이를 구현하기 위한 명령어들의 프로그램이 유형적으로 구현됨으로써, 컴퓨터를 통해 판독될 수 있는 기록매체에 포함되어 제공될 수도 있음을 당업자들이 쉽게 이해할 수 있을 것이다. 다시 말해, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어, 컴퓨터 판독 가능한 기록매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 상기 컴퓨터 판독 가능한 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리, USB 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 컴퓨터 판독 가능한 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 발명은 상기한 실시예에 한정되지 아니하며, 적용범위가 다양함은 물론이고, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 다양한 변형 실시가 가능한 것은 물론이다.
100: 시퀀싱분석서비스제공서버
110, 120: 사용자 단말기
130: 염기서열 제공업체 단말기
140: 결제 서버
101: 인터페이스부
102: 제어부
103: 처리부
104: 데이터베이스 관리부
105: 과금부

Claims (10)

  1. 차세대 염기서열 분석 서비스 제공 시스템에 있어서,
    시퀀싱 파일을 제공하는 염기서열 제공업체 단말기(130);
    염기서열 제공업체로 시퀀싱 파일을 요청하고, 상기 염기서열 제공업체 단말기가 상기 시퀀싱 파일을 업로드함에 따라 상기 시퀀싱 파일에 대한 제1 분석결과를 수신하고, 상기 제1 분석결과를 기반으로 한 제1 분석환경을 제공받고, 상기 제1 분석환경 설정에 따른 제2 분석결과를 수신하고, 상기 제2 분석결과를 기반으로 한 제2 분석환경을 제공받고, 상기 제2 분석환경 설정에 따른 제3 분석결과를 수신하기 위한 사용자 단말기(110, 120); 및
    상기 사용자 단말기를 통해 송수신되는 데이터에 따라 차세대 염기서열 분석 서비스를 제공하기 위한 시퀀싱분석서비스제공서버(100)
    를 포함하고,
    상기 시퀀싱분석서비스제공서버(100)는,
    상기 사용자 단말기와 상기 시퀀싱분석서비스제공서버 간의 인터페이스 및 상기 염기서열 제공업체 단말기와 상기 시퀀싱분석서비스제공서버 간의 인터페이스를 제공하는 인터페이스부(101);
    상기 사용자 단말기로부터의 요청에 따라, 상기 염기서열 제공업체 단말기를 통해 시퀀싱 파일을 업로드받고, 해당 사용자 단말기로 상기 시퀀싱 파일에 대한 제1 분석결과를 출력하고, 상기 사용자 단말기로 상기 제1 분석결과를 기반으로 한 제1 분석환경을 제공하고, 상기 사용자 단말기의 상기 제1 분석환경 설정에 따른 제2 분석결과를 출력하고, 상기 사용자 단말기로 상기 제2 분석결과를 기반으로 한 제2 분석환경을 제공하고, 상기 사용자 단말기의 상기 제2 분석환경 설정에 따른 제3 분석결과를 출력하는 처리부(103);
    상기 사용자 단말기를 통해 염기서열 분석을 위한 서비스 요금을 과금하고, 상기 염기서열 제공업체 단말기가 업로드한 상기 시퀀싱 파일의 비용을 처리하기 위한 과금부(105);
    상기 차세대 염기서열 분석 서비스를 제공하기 위한 데이터를 저장하고 있는 데이터베이스관리부(104); 및
    상기 인터페이스부, 처리부, 과금부, 및 데이터베이스 관리부 간의 데이터의 흐름을 제어하는 제어부(102)
    를 포함하는 것을 특징으로 하는 차세대 염기서열 분석 서비스 제공 시스템.
  2. 제 1항에 있어서,
    상기 시퀀싱 파일은,
    패스트큐(FASTQ) 파일인 것을 특징으로 하고,
    상기 제1 분석결과는,
    상기 FASTQ 파일을 레퍼런스 유전자 데이터와 매핑함에 따른, 유전자 정보 및 발현횟수를 포함하는 것을 특징으로 하는 차세대 염기서열 분석 서비스 제공 시스템.
  3. 제 2항에 있어서,
    상기 제2 분석결과는,
    상기 유전자 정보 및 발현횟수를 기반으로 하여, 상기 제1 분석환경의 설정에 따라 서로 다르게 발현되는 유전자 정보를 포함하는 것을 특징으로 하는 차세대 염기서열 분석 서비스 제공 시스템.
  4. 제 3항에 있어서,
    상기 제3분석결과는,
    상기 서로 다르게 발현되는 유전자 정보를 기반으로 하여, 상기 제2 분석환경의 설정에 따라 유전자 온톨로지 분석 결과, 경로분석 결과, 및 지능성 경로분석 결과를 포함하는 것을 특징으로 하는 차세대 염기서열 분석 서비스 제공 시스템.
  5. 차세대 염기서열 분석 서비스 제공 방법에 있어서,
    사용자 단말기의 요청에 따라 염기서열 제공업체의 단말기를 통해 시퀀싱분석서비스제공서버가 시퀀싱 파일을 전달받는 파일업로드단계(S720);
    상기 시퀀싱 파일에 대한 제1 분석결과를 제공하는 제1분석결과제공단계(S730);
    상기 제1 분석결과를 기반으로 한 제1 분석환경을 제공하는 제1분석환경제공단계(S740);
    상기 사용자 단말기의 요청에 따른 제2 분석결과를 제공하는 제2분석결과제공단계(S750);
    상기 제2 분석결과를 기반으로 한 제2 분석환경을 제공하는 제2분석환경제공단계(S760); 및
    상기 사용자 단말기의 요청에 따른 제3 분석결과를 제공하는 제3분석결과제공단계(S770)
    를 포함하는 차세대 염기서열 분석 서비스 제공 방법.
  6. 제 5항에 있어서,
    상기 사용자 단말기를 통해 염기서열 분석을 위한 서비스 요금이 결제되는 결제단계(S710); 및
    상기 시퀀싱분석서비스제공서버에서 상기 염기서열 제공업체가 업로드한 시퀀싱 파일의 비용을 처리하는 비용처리단계(S780)
    를 더 포함하는 것을 특징으로 하고,
    상기 서비스 요금은,
    선불 또는 후불이 가능한 것을 특징으로 하는 차세대 염기서열 분석 서비스 제공 방법.
  7. 제 5항에 있어서,
    상기 파일업로드단계(S720)에서 업로드되는 시퀀싱 파일은,
    패스트큐(FASTQ) 파일인 것을 특징으로 하고,
    상기 제1분석결과제공단계(S730)는,
    상기 FASTQ 파일을 레퍼런스 유전자 데이터와 매핑함에 따른, 유전자 정보 및 발현횟수를 제공하는 것을 특징으로 하는 차세대 염기서열 분석 서비스 제공 방법.
  8. 제 7항에 있어서,
    상기 제2분석결과제공단계(S750)는,
    상기 유전자 정보 및 발현횟수를 기반으로 하여, 상기 제1 분석환경의 설정에 따라 서로 다르게 발현되는 유전자 정보를 제공하는 것을 특징으로 하는 차세대 염기서열 분석 서비스 제공 방법.
  9. 제 8항에 있어서,
    상기 제3분석결과제공단계(S770)는,
    상기 서로 다르게 발현되는 유전자 정보를 기반으로 하여, 상기 제2 분석환경의 설정에 따라 유전자 온톨로지 분석 결과, 경로분석 결과, 및 지능성 경로분석 결과를 제공하는 것을 특징으로 하는 차세대 염기서열 분석 서비스 제공 방법.
  10. 제 5항에 있어서,
    상기 제1분석환경제공단계(S740) 및 상기 제2분석환경제공단계(S760)는,
    분석완료 시점에서 상기 사용자 단말기로의 분석완료 알림을 선택 및 설정하는 것을 특징으로 하는 차세대 염기서열 분석 서비스 제공 방법.
KR1020190015994A 2019-02-12 2019-02-12 차세대 염기서열 분석 서비스 제공 시스템 및 그 방법 KR20200098189A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190015994A KR20200098189A (ko) 2019-02-12 2019-02-12 차세대 염기서열 분석 서비스 제공 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190015994A KR20200098189A (ko) 2019-02-12 2019-02-12 차세대 염기서열 분석 서비스 제공 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR20200098189A true KR20200098189A (ko) 2020-08-20

Family

ID=72242859

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190015994A KR20200098189A (ko) 2019-02-12 2019-02-12 차세대 염기서열 분석 서비스 제공 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR20200098189A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102247812B1 (ko) 2020-12-08 2021-05-04 (주)셀레브레인 특정 유전자가 삽입된 줄기세포치료제의 유전자 삽입부위 분석 시스템 및 분석 방법
KR20220109707A (ko) * 2021-01-29 2022-08-05 대한민국(관리부서: 행정안전부 국립과학수사연구원장) 염기서열 시퀀싱 데이터 분석 장치 및 그 동작 방법
US11869632B2 (en) 2021-12-16 2024-01-09 Genome Insight Technology, Inc. Method and system for analyzing sequences

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101533792B1 (ko) 2015-02-24 2015-07-06 대한민국 Ngs 기반 인간 객체의 상염색체 분석방법
KR101849879B1 (ko) 2017-07-21 2018-04-17 주식회사 유클리드소프트 유전체 염기서열 분석 파이프라인 처리시스템 및 방법
KR101870632B1 (ko) 2015-04-14 2018-06-25 주식회사 테라젠이텍스 질병 기전 연구를 위한 생물학적 데이터를 제공하는 데이터 제공 장치, 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101533792B1 (ko) 2015-02-24 2015-07-06 대한민국 Ngs 기반 인간 객체의 상염색체 분석방법
KR101870632B1 (ko) 2015-04-14 2018-06-25 주식회사 테라젠이텍스 질병 기전 연구를 위한 생물학적 데이터를 제공하는 데이터 제공 장치, 및 방법
KR101849879B1 (ko) 2017-07-21 2018-04-17 주식회사 유클리드소프트 유전체 염기서열 분석 파이프라인 처리시스템 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102247812B1 (ko) 2020-12-08 2021-05-04 (주)셀레브레인 특정 유전자가 삽입된 줄기세포치료제의 유전자 삽입부위 분석 시스템 및 분석 방법
WO2022124529A1 (ko) * 2020-12-08 2022-06-16 (주)셀레브레인 특정 유전자가 삽입된 줄기세포치료제의 유전자 삽입위치 분석 시스템 및 분석 방법
KR20220109707A (ko) * 2021-01-29 2022-08-05 대한민국(관리부서: 행정안전부 국립과학수사연구원장) 염기서열 시퀀싱 데이터 분석 장치 및 그 동작 방법
US11869632B2 (en) 2021-12-16 2024-01-09 Genome Insight Technology, Inc. Method and system for analyzing sequences

Similar Documents

Publication Publication Date Title
Ren et al. Majorbio Cloud: A one‐stop, comprehensive bioinformatic platform for multiomics analyses
Fang et al. GSEApy: a comprehensive package for performing gene set enrichment analysis in Python
Zhang et al. DeepFunc: a deep learning framework for accurate prediction of protein functions from protein sequences and interactions
Sinha et al. YMF: a program for discovery of novel transcription factor binding sites by statistical overrepresentation
Ollier et al. UK Biobank: from concept to reality
Wanichthanarak et al. Genomic, proteomic, and metabolomic data integration strategies
Gollub et al. The Stanford Microarray Database: data access and quality assessment tools
CN106462337B (zh) 综合式消费者基因组服务
Du et al. lumi: a pipeline for processing Illumina microarray
Nekrutenko et al. Next-generation sequencing data interpretation: enhancing reproducibility and accessibility
Shen et al. BarleyBase—an expression profiling database for plant genomics
Mika et al. UniqueProt: creating representative protein sequence sets
Vaquerizas et al. GEPAS, an experiment-oriented pipeline for the analysis of microarray gene expression data
Jean et al. RNA‐Seq read alignments with PALMapper
Gierlinski et al. Proteus: an R package for downstream analysis of MaxQuant output
KR20200098189A (ko) 차세대 염기서열 분석 서비스 제공 시스템 및 그 방법
Wang et al. WordSpy: identifying transcription factor binding motifs by building a dictionary and learning a grammar
Hart et al. A Python package for parsing, validating, mapping and formatting sequence variants using HGVS nomenclature
Leonelli et al. Making open data work for plant scientists
Kume et al. NommPred: prediction of mitochondrial and mitochondrion-related organelle proteins of nonmodel organisms
LoVerso et al. A computational pipeline for cross-species analysis of RNA-seq data using R and bioconductor
Yu et al. SCSsim: an integrated tool for simulating single-cell genome sequencing data
Medina et al. Prophet, a web-based tool for class prediction using microarray data
Gifford Blazing pathways through genetic mountains
Hu GPRM: a genetic programming approach to finding common RNA secondary structure elements

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application