KR101849879B1 - System and method for genome sequence analysis pipeline - Google Patents

System and method for genome sequence analysis pipeline Download PDF

Info

Publication number
KR101849879B1
KR101849879B1 KR1020170092723A KR20170092723A KR101849879B1 KR 101849879 B1 KR101849879 B1 KR 101849879B1 KR 1020170092723 A KR1020170092723 A KR 1020170092723A KR 20170092723 A KR20170092723 A KR 20170092723A KR 101849879 B1 KR101849879 B1 KR 101849879B1
Authority
KR
South Korea
Prior art keywords
pipeline
data
analysis
user terminal
application
Prior art date
Application number
KR1020170092723A
Other languages
Korean (ko)
Inventor
채은경
Original Assignee
주식회사 유클리드소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 유클리드소프트 filed Critical 주식회사 유클리드소프트
Priority to KR1020170092723A priority Critical patent/KR101849879B1/en
Application granted granted Critical
Publication of KR101849879B1 publication Critical patent/KR101849879B1/en

Links

Images

Classifications

    • G06F19/26
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • G06F19/18
    • G06F19/28
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

The present invention relates to a system and a method for processing a genome sequencing analysis pipeline. The system for processing a genome sequencing analysis pipeline comprises: a user terminal capable of being connected to a web server via the internet or wireless communication with a structure capable of wired/wireless communication; and an execution server (S) accessible via the wires/wireless communication through the user terminal, driving and controlling an application for detailed analysis, newly generating/managing a pipeline for each detailed analysis, and providing the corresponding analysis result in a web reporting form. A customized next generation sequencing (NGS) analysis pipeline for bioinformatics researchers can be composed on the web, and experiments without programming experience can analyze genomic information by using an intuitive user interface (UI) provided in a genome sequencing analysis pipeline processing system.

Description

유전체 염기서열 분석 파이프라인 처리시스템 및 방법{System and method for genome sequence analysis pipeline}FIELD OF THE INVENTION [0001] The present invention relates to a genome sequence analysis pipeline system and method,

본 발명은 유전체 염기서열 분석 파이프라인 처리시스템 및 방법에 관한 것으로서, 이를 더욱 상세하게 설명하면 프로그래밍 경험이 없는 생명공학 실험 연구자들이나 생물정보학 전문 연구자들이 실행서버에서 제공하는 서비스를 이용하여 맞춤형 유전체 정보를 분석할 수 있는 유전체 염기서열 분석 파이프라인 처리를 위한 시스템 및 방법에 관한 것이다. The present invention relates to a system and a method for processing a genome sequence analysis pipeline. More specifically, the present invention relates to genome sequence analysis pipeline processing systems and methods, in which biotechnology researchers or bioinformatics researchers without programming experience use customized genome information To a system and method for genome sequencing pipeline processing that can be analyzed.

인간게놈프로젝트(Human Genome Project) 이후, 차세대 유전체 시퀀싱 기술(NGS: Next Generation Sequencing)은 급격하게 발달했다. 대량의 유전 정보를 일시에 해독하는 장비(NGS sequencer)와 빅데이터(대량정보)를 다루는 IT 기술의 발전과 더불어 개인 유전체 해독에 소요되는 비용과 시간이 극적으로 감소되었다. 따라서, 유전체 염기서열 분석 비용은 매우 저렴해지게 되었다. 이에 반비례하여 유전체 빅데이터는 기하급수적으로 양산되고 있는 추세이다. Since the Human Genome Project, Next Generation Sequencing (NGS) has developed rapidly. With the development of IT technology for dealing with large quantities of genetic information at one time (NGS sequencer) and big data (mass information), the cost and time for decrypting individual genome has been dramatically reduced. Thus, the cost of genome sequencing has become very cheap. Inversely, genomic big data is being mass-produced exponentially.

전 세계 NGS 시장은 매년 20.5%의 성장률을 보이며, 2022년에는 12.45 billion USD로 예측되고 있다. 유전체 분야는 급격한 발전을 보이는 분야지만, 아직까지 우리나라는 타 분야에 비해 투자 및 기술 수준이 낮은 편이다.The global NGS market is forecast to grow by 20.5% annually and to USD 12.45 billion by 2022. The genome sector is a rapidly developing field, but Korea has a low level of investment and technology compared to other fields.

유전체 분석기술의 발전으로 인해, 기존의 단편적인 생명공학 패러다임 수준을 뛰어 넘어 개인 유전체의 전반적인 변이와 질병과의 연관성을 종합적 연구할 수 있게 되었다. 개인별 맞춤의료, 미생물 연구, 동식물 품종개량 등 막대한 산업적 파급효과를 창출할 수 있는 분야로 국내에서도 관련된 시장의 확장 가능성은 무한하다. With advances in genomic analysis technology, we have been able to go beyond the traditional fractional biotechnology paradigm to study the overall variation of individual genomes and their linkage to disease. It is a field that can generate enormous industrial ripple effect such as customized medical care, microbiological research, and improvement of plant and animal variety.

현재, 국내 유전체 분석 시장에서는 대량으로 생산되는 유전체 빅데이터를 분석할 수 있는 생물정보 전문 인력은 턱없이 부족한 상황이다. 이런 병목현상을 해결하기 위해, IT(Information Technology)와 BT(Bio Technology)의 협업은 필수불가결한 일이 되었다. 과거, NGS 기술을 통한 대량의 데이터 생산하는 하드웨어(시퀀싱 장비) 중심이었다면, 앞으로는 데이터 분석에 대한 급격한 수요 증가 추세에 발맞추어 분석 소프트웨어 중심으로 변화되어야 할 것이다.Currently, there is a shortage of bio information professionals in the domestic genome analysis market, which can analyze large quantities of large genome data. To solve these bottlenecks, collaboration between IT (Information Technology) and BT (Bio Technology) has become indispensable. In the past, if we were focused on hardware (sequencing equipment) that produces large amounts of data through NGS technology, we will need to focus on analytical software to keep pace with the rapid increase in demand for data analysis.

따라서, 고성능 컴퓨팅 인프라를 기반으로 한 대용량 개인 유전체 데이터를 효과적으로 처리하고 질병과 연관된 유전정보를 통합적으로 분석할 수 있는 시스템 개발이 절실히 요구되고 있다. Therefore, it is urgently required to develop a system capable of efficiently processing large-capacity individual genome data based on a high-performance computing infrastructure and integrally analyzing genetic information associated with diseases.

이와 관련해 비슷한 방식의 플랫폼을 구축한 사례들로 해외는 워크플로우 형태의 Galaxy와, 정밀의료 분석 플랫폼(미국+유럽)인 tranSMART, DNAnexus, CLC bio, Illumina의 BaseSpace 등이 있고, 국내에서는 KT '게놈클라우드', 테라젠의 '게놈 리포트', 국가생명연구자원정보센터(KOBIC)의 CLOSHA(Bio-Exoress) 등을 볼 수 있다(도 1 내지 도5에 도시됨). Galaxy in the form of a workflow and tranSMART, DNAnexus, CLC bio, and Illumina's BaseSpace in the precision medical analysis platform (US + Europe), and KT's genome (Bio-Exoress) of National Bio Research Resource Information Center (KOBIC) (shown in FIG. 1 to FIG. 5).

상기의 기존 플랫폼들을 비교해본 결과, 종래의 플랫폼들은 너무 다양하고 복잡한 워크플로우 형태를 지니고 있어서 다양한 목표를 가지는 연구에 활용하기 어렵거나, 반대는 연구자들에게 일률적인 분석 파이프라인 셋을 제공하여 연구자들이 원하는 파이프라인 워크플로우로 분석을 시도하기 어려운 문제점이 있었다. 또한, 분석마다 데이터 사용에 따른 상당한 가격을 지불해야 했으며, 연구자의 서버(시스템)가 아니기 때문에 분석 데이터의 이력 관리 혹은 어플리케이션의 실행 상태(job status) 제어 등은 아예 불가능했다. 더구나, public cloud 방식의 서비스로는 연구자의 데이터를 자산화, 지식화하는데 많은 한계가 있다. 분석에 집중해야할 연구자들이 단순 데이터 처리에 소중한 시간을 허비하고 있다. 이런 단점들은 다양한 연구를 시도해야 하는 연구자들에게 높은 걸림돌로 작용했다. As a result of comparing the above existing platforms, it can be concluded that the conventional platforms have a wide variety of complex workflow forms, which makes it difficult to utilize them for research with various goals, or vice versa, providing researchers with a uniform set of analysis pipelines There has been a problem that it is difficult to attempt analysis with a desired pipeline workflow. In addition, each analysis required a considerable price to pay for data usage, and it was impossible to control the history of analytical data or control the job status of the application because it was not a researcher's server (system). Moreover, public cloud services have many limitations in capitalizing and knowledge of researchers' data. Researchers who need to focus on analytics are spending precious time on simple data processing. These disadvantages were a high stumbling block for researchers who should try various studies.

따라서, 본 발명은 종래의 플랫폼의 문제점을 해결하기 위하여, 유전체 데이터를 효율적으로 관리할 수 있고 통합적으로 분석할 수 있는 웹기반의 분석 파이프라인 서비스를 위한 플랫폼을 제공하는데 있다. Accordingly, the present invention is to provide a platform for a Web-based analysis pipeline service capable of efficiently managing and integrating genetic data in order to solve the problems of the conventional platform.

대한민국 특허청 등록특허공보 제10-1282798호Korean Patent Registration No. 10-1282798 대한민국 특허청 등록특허공보 제10-1279392호Korean Patent Registration No. 10-1279392

본 발명은 위와 같은 문제점을 해결하기 위한 것으로서, 프로그래밍 경험이 없는 생명과학 실험 연구자들이나 생물정보학 전문 연구자들이 실행서버에서 제공하는 직관적인 UI를 이용하여 유전체 정보 분석을 할 수 있도록 한다. 생물정보학 전문 연구자들이 원하는 맞춤형 NGS 분석 파이프라인을 웹을 통하여 구성할 수 있도록 하며, 실험실 외부에서도 모바일로 분석 진행 상태를 제어 또는 확인 가능하며, 분석결과를 웹레포팅 방식으로 시각화함으로 결과를 직관적으로 확인할 수 있도록 하는 유전체 염기서열 분석 파이프라인 처리시스템 및 방법을 제공하는데 그 목적이 있다. Disclosure of Invention Technical Problem [8] Accordingly, the present invention has been made in view of the above problems, and it is an object of the present invention to provide bio-scientific experiment researchers or bio-informatics researchers who do not have programming experience to perform genome information analysis using an intuitive UI provided by an execution server. The NGS analysis pipeline for bioinformatics researchers can be customized through the web. You can control or check the progress of the analysis from the outside of the laboratory. You can visualize the analysis result by Web reporting method intuitively. And to provide a genome sequencing pipeline processing system and method that enable the genome sequencing analysis pipeline processing system to be provided.

또한, 본 발명은 스크립트 분석, 어플리케이션 실행을 위한 환경 설정 시 발생하는 오류로 인해 발생되는 불필요한 요소를 절감하고 동일한 데이터의 다양한 분석이 용이하며, 기 분석된 데이터 정보와 이력은 통합 관리가 가능하므로 분석 방법의 비교에 유용할 수 있도록 하며, 높은 수준의 프로그래밍 실력을 갖추지 않아도 연구자의 맞춤형 분석 파이프라인 구성이 가능하고, 반복적인 데이터 분석 과정을 자동화하여 연구의 효율성을 높일 수 있는 유전체 염기서열 분석 파이프라인 처리시스템 및 방법을 제공하는데 그 목적이 있다. In addition, the present invention reduces unnecessary elements caused by an error occurring in setting environment for script analysis and application execution, facilitates various analysis of the same data, and enables integrated management of previously analyzed data information and history, It is also possible to construct a customized analytical pipeline without the need for a high level of programming skills and to improve the efficiency of research by automating repetitive data analysis processes. And an object of the present invention is to provide a processing system and method.

본 발명의 일 실시예에 따른 앱 방식을 이용한 유전체 염기서열 분석 파이프라인 처리시스템은 유무선 통신이 가능한 구조로 인터넷이나 무선 통신을 통해 웹서버에 접속 가능한 구조의 사용자단말과;A genome sequence analysis pipeline processing system using an app system according to an embodiment of the present invention includes a user terminal having a structure capable of wired / wireless communication and being connectable to a web server via the Internet or wireless communication;

상기 사용자 단말을 통해 유무선 통신을 통해 접속이 가능하며, 세부 분석용 어플리케이션을 구동 및 제어할 수 있고 세부 분석마다 파이프라인을 새롭게 생성/관리할 수 있으며, 해당 분석 결과를 웹 레포팅 형식으로 제공할 수 있도록 하는 실행서버(S)를 포함하는 것을 특징으로 한다. It is possible to connect to the user terminal through wired / wireless communication, to run and control the detailed analysis application, to newly create / manage the pipeline for each detailed analysis, and to provide the analysis result in a web reporting format And an execution server (S) for causing the server

또한, 본 발명의 상기 실행서버(S)는 각 사용자단말에 제공하는 UI와 비지니스 로직을 분리하여 제공할 수 있도록 하는 약관동의처리부와;In addition, the execution server (S) of the present invention includes a contract agreement processing unit for separately providing a UI provided to each user terminal and business logic;

사용자단말에서 등록하는 다수의 데이터를 어플리케이션과 공개 데이터로 분류하고 분류된 데이터 중에서 어플리케이션만 수집할 수 있도록 하는 어플리케이션 수집부와;An application collecting unit for classifying a plurality of data registered in a user terminal into applications and public data and collecting only applications from the classified data;

상기 어플리케이션 수집부를 통해 수집된 세부 분석용 어플리케이션을 구동 및 제어하여 세부 분석마다 파이프라인을 새롭게 생성 및 관리할 수 있도록 하는 파이프라인 셋팅부 및, A pipeline setting unit for driving and controlling a detailed analysis application collected through the application collecting unit to newly generate and manage a pipeline for each detailed analysis,

상기 실행서버(S)의 기능을 구성하는 각각의 구성부분을 웹서버와 연동하여 홈페이지의 화면으로 구현할 수 있도록 하는 프로그램 제공부를 포함하는 것을 특징으로 한다. And a program providing unit for allowing each component constituting the function of the execution server (S) to be implemented as a screen of a home page in cooperation with a web server.

또한, 본 발명의 상기 어플리케이션 수집부를 통해 수집된 어플리케이션은 다양한 학술 논문에 게재된 분석용 소프트웨어이며, 분석 시 보편적으로 활용하는 프로그램을 기준으로 셋팅될 수 있도록 하는 것을 특징으로 한다. In addition, the application collected through the application collecting unit of the present invention is analysis software that is published in various academic papers and can be set based on a program that is universally utilized in analysis.

또한, 본 발명의 상기 파이프라인 셋팅부는 파이프라인 실행 시, public data 또는 reference data가 필요한 경우 참조할 데이터를 미리 업로드 시킬 수 있고, 새로운 파이프라인을 구성할 수 있도록 하는 것을 특징으로 한다. In addition, the pipeline setting unit of the present invention is characterized in that when the public data or the reference data is required in the execution of the pipeline, the reference data can be uploaded in advance and a new pipeline can be constructed.

또한, 본 발명의 상기 실행서버(S)는 RDBMS(관계형 데이터베이스) 연동 처리로 분석 데이터 정보와 분석 시 설정 값의 이력 관리가 용이할 수 있도록 하여, 한번 설정해 둔 파이프라인 셋으로 다양한 데이터 셋을 적용해 실행할 수 있으므로 반복적인 데이터 분석 과정을 자동화하여 연구의 효율성을 높일 수 있도록 하는 것을 특징으로 한다. In addition, the execution server S of the present invention can easily manage the history of the analysis data information and the set values at the analysis by the RDBMS (relational database) interworking process, and apply various data sets to the set pipeline set And it is possible to automate the repetitive data analysis process, thereby improving the efficiency of the research.

또한, 본 발명의 상기 실행서버(S)에서 제공되는 파이프라인은 QC(Preprocessing, Quality Control and Trimming) Analysis, Genome(유전체) Analysis, RNA-seq/Transcriptome(전사체) Analysis 모듈을 포함하는 것을 특징으로 한다. The pipeline provided by the execution server S of the present invention includes a QC (Preprocessing, Quality Control and Trimming) analysis, a Genome (Dielectric) analysis, and an RNA-seq / Transcriptome .

또한, 본 발명의 상기 실행서버(S)는 간단하고 직관적인 사용자 중심의 UI 화면 구성에 따라 프로그래밍에 익숙하지 않은 연구자들도 실행서버(s)의 접근이 용이할 수 있도록 하며, 데이터를 입력하여 어플리케이션을 등록할 수 있도록 하고, 등록한 어플리케이션은 파이프라인 셋팅부에서 조합하여 파이프라인을 여러 형태로 설정하고, 이를 웹페이지를 통해 제공할 수 있도록 하는 것을 특징으로 한다. Also, according to the simple and intuitive user-oriented UI screen configuration, the execution server S of the present invention allows researchers who are not accustomed to programming to easily access the execution server s, The application can be registered, and the registered application can be combined in the pipeline setting unit to set the pipeline in various forms, and to provide the pipeline through the web page.

또한, 본 발명은 "서버관리자" 가 사용자단말을 이용하여 실행서버(s)에 접근할 수 있도록 로그인을 하거나 계정을 만드는 사용자등록단계(s100)와; In addition, the present invention includes a user registration step (s100) of creating a login or an account so that the "server administrator" can access the execution server (s) using the user terminal;

상기 사용자등록단계(s100)에서 등록된 서버관리자가 사용자단말을 통해 데이터를 등록하는 데이터등록단계(s200)와; A data registration step (s200) for registering data through a user terminal registered by the server administrator registered in the user registration step (s100);

상기 데이터등록단계(s200)에서 등록된 데이터 중에서 어플리케이션만 분류하여 수집하는 어플리케이션 수집단계(s300) 및;An application collecting step (s300) of classifying and collecting only applications among data registered in the data registration step (s200);

상기 어플리케이션 수집단계(s300)에서 수집된 어플리케이션을 파이프라인으로 형성하는 파이프라인세팅단계(s400)를 포함하는 것을 특징으로 한다. And a pipeline setting step (s400) of forming an application collected in the application collection step (s300) into a pipeline.

또한, 본 발명의 상기 데이터등록단계(s200)는 상기 서버관리자가 사용자단말을 이용하여 데이터를 등록하는 단계로서, In the data registration step (s200) of the present invention, the server administrator registers data using a user terminal,

등록된 데이터는 어플리케이션과 공개데이터로 나뉠 수 있도록 하고, 분류된 데이터 중 어플리케이션은 상기 어플리케이션 수집단계(s300)에 제공하고, 공개된 데이터는 "생물정보 연구자" 또는 "일반 연구자" 의 사용자 단말이 프로젝트를 생성하였을 경우에 필요 데이터로 제공될 수 있도록 하는 것을 특징으로 한다. The registered data can be divided into the application and the public data. The application of the classified data is provided to the application collection step (s300), and the published data is the user terminal of the "bio information researcher" The data can be provided as necessary data.

또한, 본 발명의 상기 파이프라인세팅단계(s400)는 상기 어플리케이션수집부에 수집된 어플리케이션을 파이프라인으로 셋팅하는 단계로서, In addition, the pipeline setting step (s400) of the present invention is a step of setting an application collected in the application collection unit as a pipeline,

데이터 분석을 위하여 트리밍단계(s410), 얼라인먼트단계(s420) 및 분석단계(s430)를 더 포함하는 것을 특징으로 한다. And further includes a trimming step (s410), an alignment step (s420), and an analysis step (s430) for data analysis.

또한, 본 발명은 "생물정보 연구자"의 사용자단말 또는 "일반 연구자"의 사용자 단말을 이용하여 실행서버(s)에 접근할 수 있도록 로그인을 하거나 계정을 만드는 사용자등록단계(s100)와; In addition, the present invention includes a user registration step (S100) of logging in or creating an account so that the user can access the execution server (s) using a user terminal of a "bioinformation researcher" or a user terminal of a "general researcher";

상기 사용자등록단계(s100)에서 등록된 연구자가 사용자단말을 통해 프로젝트를 생성하고 그에 따른 데이터를 선택하는 단계(s500)와; A step S500 of a researcher registered in the user registration step (s100) creating a project through a user terminal and selecting data according to the project;

선택된 데이터에 매칭되는 파이프라인을 선택하고 그에 따른 셋팅된 파이프라인을 제공받는 단계(s600)와;A step (s600) of selecting a pipeline matching the selected data and providing a set pipeline corresponding thereto;

제공받은 파이프라인을 구동하는 단계(s700) 및Driving the provided pipeline (S700) and

그에 따른 결과 데이터를 출력하고, 출력된 데이터를 리포트형식으로 출력하는 단계(s800)을 포함하는 것을 특징으로 한다. And outputting the resultant data and outputting the output data in a report format (s800).

본 발명의 실시 예들에 의하면 적어도 다음과 같은 효과가 있다.According to the embodiments of the present invention, at least the following effects are obtained.

본 발명은 생물정보학 연구자들이 원하는 맞춤형 차세대 유전체 시퀀싱 기술(NGS)을 분석할 수 있는 파이프라인을 웹을 통하여 구성하고, 이는 실험실 외부에서 모바일로 분석 진행 상태를 제어하거나 확인이 가능하며, 분석결과를 레포팅 형식으로 제공함으로 인해 결과를 직관적으로 웹에서 확인할 수 있는 효과를 지닌다. The present invention constitutes a pipeline for analyzing the next generation genetic sequencing technology (NGS) desired by bioinformatics researchers through the web, and it is possible to control or confirm the progress of analysis from outside the laboratory, The results are presented intuitively on the web.

또한, 본 발명은 스크립트 분석, 환경설정 시 발생하는 오류로 인해 발생되는 불필요한 요소를 절감하고 동일한 데이터의 다양한 분석이 용이하며, 기 분석된 정보 데이터의 통합 관리가 가능하므로 분석 방법 비교에 유용하며, 반복적인 데이터 분석 과정을 자동화하여 연구의 효율성을 높일 수 있는 효과를 도모할 수 있다. In addition, the present invention is useful for analyzing methods because it saves unnecessary elements caused by errors in script analysis and environment setting, facilitates various analysis of the same data, and enables integrated management of previously analyzed information data. It is possible to improve the efficiency of the research by automating the repetitive data analysis process.

또한, 본 발명은 실행서버에서 제공되는 프로그램이 사용자의 편리성을 도모할 수 있도록 형성하여 높은 수준의 프로그래밍 실력을 갖추지 않아도 연구자의 맞춤형 분석 파이프라인 구성이 가능하고, 유전체 정보를 분석하고 연구 결과를 보고하거나, 데이터 이력을 효과적으로 관리할 수 있는 효과를 지닌다. In addition, the present invention can be configured so that the program provided by the execution server is designed to facilitate the user's convenience, so that the researcher can construct a customized analysis pipeline without having a high level of programming skill, Reporting, and effectively managing data history.

도 1은 종래의 갤럭시 클라우드맨(Galaxy CloudMan) 예시화면이고,
도 2는 종래의 게놈 클라우드(Genome Cloud)예시화면이고,
도 3은 종래의 DNAnexus 예시화면이고,
도 4는 종래의 CLC bio 예시화면이고,
도 5는 종래의 CLOSHA(Bio-Exoress) 예시화면이고,
도 6은 본 발명의 일 실시예에 따른 유전체 염기서열 분석 파이프라인 처리시스템을 개략적으로 도시한 블럭도이고,
도 7은 본 발명의 일 실시예에 따른 유전체 염기서열 분석 파이프라인 처리시스템에 포함된 어플리케이션 수집부를 이용하여 어플리케이션을 수집하는 것을 개략적으로 예시한 도면이고,
도 8a 내지 도 8e는 본 발명의 일 실시예에 따른 유전체 염기서열 분석 파이프라인 처리시스템을 이용하여 사용자 단말이 상기 실행서버(S)에 접속하여 유전체 데이터를 효과적으로 분석하기 위해 설계된 일련의 과정을 설명하기 위한 본 시스템의 예시화면이고,
도 9는 본 발명의 일 실시예에 따른 유전체 염기서열 분석 파이프라인 처리시스템을 이용하여 관리자가 파이프라인을 형성하는 과정을 개략적으로 도시한 순서도이고,
도 10은 본 발명의 일 실시예에 따른 유전체 염기서열 분석 파이프라인 처리시스템을 이용하여 연구자가 파이프라인을 이용하여 결론을 도출하는 과정을 개략적으로 도시한 순서도이다.
FIG. 1 is a conventional Galaxy CloudMan example screen,
2 is a conventional genome cloud example screen,
3 is a conventional DNAnexus example screen,
4 is a conventional CLC bio example screen,
5 is a conventional CLOSHA (Bio-Exoress) example screen,
6 is a block diagram schematically illustrating a genome sequencing pipeline processing system according to an embodiment of the present invention,
FIG. 7 is a view schematically illustrating application collection using an application collection unit included in a genome sequence analysis pipeline processing system according to an embodiment of the present invention,
8A to 8E illustrate a series of processes designed for a user terminal to access the execution server S and analyze the genome data effectively using a genome sequencing pipeline processing system according to an embodiment of the present invention And is an exemplary screen of the present system,
9 is a flowchart schematically illustrating a process of forming a pipeline by an administrator using a genome sequencing analysis pipeline processing system according to an embodiment of the present invention,
FIG. 10 is a flowchart schematically illustrating a process in which a researcher draws a conclusion using a pipeline using a genome sequencing analysis pipeline processing system according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail. It should be understood, however, that the invention is not intended to be limited to the particular embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention. Like reference numerals are used for like elements in describing each drawing.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다. The terms first, second, A, B, etc. may be used to describe various elements, but the elements should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, the first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component. And / or < / RTI > includes any combination of a plurality of related listed items or any of a plurality of related listed items.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에서, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. It is to be understood that when an element is referred to as being "connected" or "connected" to another element, it may be directly connected or connected to the other element, . On the other hand, when an element is referred to as being "directly connected" or "directly connected" to another element, it should be understood that there are no other elements in between.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 다수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 표현한다. 본 출원에서 "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. The terminology used in this application is used only to describe a specific embodiment and is not intended to limit the invention. Many expressions represent plural expressions unless the context clearly dictates otherwise. It is to be understood that the term "comprises" or "having" in the present application does not preclude the presence or addition of features, numbers, steps, operations, components, parts, or combinations thereof described in the specification .

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해서 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. Terms such as those defined in commonly used dictionaries are to be interpreted as having a meaning consistent with the contextual meaning of the related art and are to be interpreted as either ideal or overly formal in the sense of the present application Do not.

이하에서, 첨부된 도면들을 참조하여 본 발명에 따른 유전체 염기서열 분석 파이프라인 처리시스템 및 방법에 대해 상세하게 설명한다. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS In the following, a system and method for processing a genome sequence analysis pipeline according to the present invention will be described in detail with reference to the accompanying drawings.

유전체(NGS) 분석 파이프라인이란 NGS sequencer(예: Illumina HiSeqX, HiSeq2500, MiSeq 등)라는 실험장비에서 생산된 데이터를 효과적으로 분석하기 위해 잘 정돈된 하나의 과정을 뜻한다. 생물정보 연구자들은 유전체 데이터를 분석하기 위해서는 다양하게 공개된 NGS 분석 소프트웨어들을 활용하며, 오픈소스 기반의 어플리케이션(소프트웨어)을 각각 단위 분석에 맞게 설정하고, 전체 분석 프로세스에 맞춰서 데이터가 막힘없이 흘러가게끔 하나의 소프트웨어처럼 연결한다. 이를 통상적으로 NGS 분석 파이프라인이라고 말한다. The dielectric (NGS) analysis pipeline is a well-organized process for effectively analyzing data generated from an experimental equipment called a NGS sequencer (eg Illumina HiSeqX, HiSeq2500, MiSeq, etc.). Bioinformatics researchers utilize various NGS analysis software to analyze genomic data, set up open source based applications (software) for each analysis, and let data flow seamlessly according to the entire analysis process Like software. This is commonly referred to as the NGS analysis pipeline.

분석 파이프라인을 구축하기 위해서는 해당하는 단위 분석에 어플리케이션을 배치해야 하고, 서버(시스템)환경에 맞게 컴파일하고, 설정해야 한다. 스크립트 언어(python, perl, ruby 등)를 사용해서 어플리케이션들을 통합하는 작업이 필요하다. 이때, 각 단위별 어플리케이션은 환경 설정과 생물정보 분석 도구들의 I/O 데이터 포맷, 실행 방식이 모두 다르다. 따라서 이를 효과적으로 연계하기 위해서는 다양한 예외 사항들을 고려하여 유연한 통합 스키마를 구현해야만 한다. 이와 같은 과정은 진행하기 위해서는 전문적인 IT 기술과 지식은 필수적이다. To build the analysis pipeline, you need to deploy the application in the corresponding unit analysis, compile and configure it for the server (system) environment. You need to integrate your applications using scripting languages (python, perl, ruby, etc.). At this time, the application of each unit is different from the environment setting and the I / O data format and execution method of the bioinformation analysis tools. Therefore, in order to effectively link them, a flexible integration schema must be implemented considering various exceptions. Professional IT skills and knowledge are essential for this process.

따라서 본 발명은 복잡한 유전체 분석의 일반적인 연구공정을 자동화하여 웹을 통해 쉽게 진행할 수 있게 하였고, 단위 분석 어플리케이션을 실행하기 위해 환경 설정을 하거나, 연계할 경우 흔히 발생할 수 있는 부차적인 문제를 해결하기 위해 연구자가 더 이상 IT에 의존하지 않게 함으로써 연구의 효율성을 향상시켰다.Therefore, the present invention can automate the general research process of a complex genome analysis and make it easy to proceed through the web. In order to solve the secondary problems that may occur when the unit analysis application is executed, To make the study more efficient by not relying on IT any more.

이를 더욱 자세하게 설명하면, 도 5는 본 발명의 실시예에 따른 유전체 염기서열 분석 파이프라인 처리시스템의 구성을 도시한 구성 블럭도이다. FIG. 5 is a block diagram showing a configuration of a genome sequence analysis pipeline processing system according to an embodiment of the present invention. Referring to FIG.

도 6을 참조하면, 본 시스템은 유무선 통신이 가능한 구조로 인터넷이나 무선 통신을 통해 웹서버에 접속 가능한 구조의 사용자단말(100)과 상기 사용자 단말을 통해 유무선 통신을 통해 접속이 가능하며, 세부 분석용 어플리케이션을 구동 및 제어할 수 있고 세부 분석마다 파이프라인을 새롭게 생성/관리할 수 있으며, 해당 분석 결과를 웹 레포팅 형식으로 제공할 수 있도록 하는 실행서버(S)를 포함하여 구성될 수 있다.Referring to FIG. 6, the system includes a user terminal 100 having a structure capable of wired / wireless communication and capable of accessing a web server via the Internet or wireless communication, and a user terminal 100, And an execution server S that can generate and manage a pipeline for each detailed analysis and can provide the analysis result in a web reporting format.

상기 사용자단말(100)은 유, 무선 인터넷 망을 통해 전송할 수 있도록 하는 단말기를 포함하는 일체의 유닛을 포함하는 것을 의미한다. 즉, 인터넷을 통해 접속하기 위한 단말에 해당하며, 넓게는 각종 데이터를 입력하는 키보드, 마우스 등과 같은 입력장치, 모니터 및 프린터 등과 같은 출력장치, 모뎀이나 LAN 등과 같은 송수신장치, 마이크로프로세서나 그래픽 카드와 같은 처리장치 및 이들을 운용하거나 제어하는 각종 프로그램을 탑재한 저장장치로 구성되며, 인터넷망에 접속할 수 있게 한다. 이러한 일예로는 개인 컴퓨터(Personal Computer; PC) 및/또는 노트북(Notebook)을 적어도 하나 이상 포함하여 이루어지는 것이 바람직하며, 상기 무선 단말은 개인 통신 단말기(Personal Communication System; PCS) 및/또는 GSM(Global System for Mobile communications) 단말기 및/또는 개인 디지털 셀룰러 단말기(Personal Digital Cellular; PDC) 및/또는 PHS(Personal Handyphone System) 단말기 및/또는 개인 정보 단말기(Personal Digital Assistant; PDA) 및/또는 스마트폰(Smart Phone) 및/또는 텔레매틱스(Telematics) 및/또는 무선 데이터 통신 단말기 및/또는 휴대 인터넷 단말을 적어도 하나 이상 포함하여 이루어지는 것이 바람직하다.The user terminal 100 includes an integrated unit including a terminal for transmitting data through a wired or wireless Internet network. An input device such as a keyboard and a mouse for inputting various data, an output device such as a monitor and a printer, a transmission / reception device such as a modem or a LAN, a microprocessor or a graphic card And a storage device equipped with various programs for operating or controlling the same, so as to be able to access the Internet network. For example, it is preferable to include at least one personal computer (PC) and / or a notebook computer, and the wireless terminal may be a Personal Communication System (PCS) and / System for mobile communications terminal and / or a personal digital cellular (PDC) and / or a personal handyphone system (PHS) terminal and / or a personal digital assistant (PDA) Phone and / or telematics and / or a wireless data communication terminal and / or a portable Internet terminal.

본 발명의 실시예에서, 상기 사용자단말(100)에는 "생물정보 연구자"가 사용할 "생물정보 연구자" 사용자단말(110)과, "일반 연구자"가 사용할 "일반 연구자" 사용자단말(120) 및 서버관리자가 사용할 "서버관리자" 사용자단말(130)을 포함하여 구성될 수 있다. In the embodiment of the present invention, the user terminal 100 includes a "bio information researcher" user terminal 110 to be used by a "bio information researcher", a "general researcher" user terminal 120 and a server And a "server manager" user terminal 130 for use by the administrator.

이는 생물정보 연구자 혹은 시스템관리자(admin)는 실행서버(S)에 접속하여 파이프라인(단위 분석 어플리케이션) 실행 시, public data(reference data)가 필요한 경우 참조할 데이터를 미리 업로드 시킬 수 있고, 새로운 파이프라인을 구성할 수 있도록 하며, 관리자가 설정한 파이프라인 셋을 일반 연구자가 활용할 수 있도록 한다. This means that the bioinformatic researcher or the system administrator (admin) can access the execution server S and upload data to be referred to in advance when public data (reference data) is required when executing a pipeline (unit analysis application) Line, and allows the general researcher to utilize the set of pipelines set by the administrator.

따라서, 일반연구자는 본인이 실행할 새로운 프로젝트를 생성, INPUT DATA를 업로드 후 선택, 원하는 분석 파이프라인을 선택한 후 job을 실행시키면, 분석된 결과로 OUTPUT DATA를 얻게 된다. 플랫폼에서는 OUTPUT DATA를 웹 레포팅 형식으로 연구자에게 제공하게 된다. Therefore, when a general researcher creates a new project to be executed by himself, uploads INPUT DATA, selects a desired analysis pipeline, and executes a job, OUTPUT DATA is obtained as an analyzed result. On the platform, OUTPUT DATA will be provided to the researchers in the form of web reporting.

상기 실행서버(S)의 경우, 차세대 유전체 시퀀싱 기술(NGS: Next Generation Sequencing) 장비에서 생산된 데이터를 분석하기 위하여 맵핑(mapping), 분류(sorting), 축소(reduction)를 포함한 일련의 처리과정과, 전체 분석 프로세스에 맞춰 하나의 소프트웨어처럼 작동할 수 있도록 하고, 직관적인 UI가 형성된 웹을 제공하므로 프로그래밍 경험이 없는 "일반연구자"들도 차세대 유전체 시퀀싱 기술(NGS: Next Generation Sequencing)의 포함한 파이프라인으로 분석이 가능할 수 있도록 한다. 이를 위해, 상기 실행서버(S)는 약관동의처리부(200)와, 어플리케이션 수집부(300)와, 파이프라인 셋팅부(400) 및 프로그램 제공부(500)를 포함한다.In the case of the execution server S, a series of processes including mapping, sorting, and reduction are performed in order to analyze data produced in the Next Generation Sequencing (NGS) equipment , "Programmers" who do not have programming experience will be able to work with a pipeline that includes Next Generation Sequencing (NGS) So that it can be analyzed. The execution server S includes a condition agreement processing unit 200, an application collecting unit 300, a pipeline setting unit 400, and a program providing unit 500.

상기 약관동의처리부(200)는 실행서버(S)에 접속한 사용자단말(100)이 "생물정보 연구자"의 사용자단말(110)인지, "일반 연구자"의 사용자 단말(120) 또는 "서버관리자" 사용자단말(130)인지 판단할 수 있도록 하여 각 사용자단말(100)에 제공하는 UI와 비지니스 로직을 분리하여 제공할 수 있도록 한다. The contract agreement processor 200 determines whether the user terminal 100 connected to the execution server S is the user terminal 110 of the "bio information researcher", the user terminal 120 of the "general researcher" It is possible to determine whether the UI is the user terminal 130 and separately provide the UI and business logic to be provided to each user terminal 100 separately.

따라서, 생물정보 연구자 사용자단말(110) 혹은 서버관리자 사용자단말(130)은 파이프라인(단위 분석 어플리케이션) 실행 시, public data(reference data)가 필요한 경우 참조할 데이터를 미리 업로드 시킬 수 있고, 새로운 파이프라인을 구성할 수 있다. admin이 설정한 파이프라인 셋을 일반 연구자(user)가 활용할 수 있게 된다.Accordingly, the bioinformation researcher user terminal 110 or the server administrator user terminal 130 can upload data to be referred to in advance when public data (reference data) is required when a pipeline (unit analysis application) is executed, Line. The set of pipelines set by admin will be available to general researchers.

또한, 일반 연구자 사용자단말(120)은 상기 생물정보 연구자 사용자단말(110) 혹은 서버관리자 사용자단말(130)을 통해 셋팅된 파이프라인을 이용하여 본인이 실행할 새로운 프로젝트를 생성, INPUT DATA를 업로드 후 선택, 원하는 분석 파이프라인을 선택한 후 job을 실행시키면, 분석된 결과로 OUTPUT DATA를 얻게 될 수 있도록 한다.  Also, the general researcher user terminal 120 generates a new project to be executed by the user using the pipeline set through the bioinformation researcher user terminal 110 or the server administrator user terminal 130, uploads INPUT DATA, , Select the desired analysis pipeline, and then run the job so that the OUTPUT DATA can be obtained from the analyzed results.

상기 어플리케이션 수집부(300)는 상기 생물정보 연구자 사용자단말(110) 혹은 서버관리자 사용자단말(130)에서 등록하는 어플리케이션을 수집하는 것으로서, 파이프라인 실행시, public data(reference data)가 필요한 경우 참조할 데이터를 미리 업로드 시킬 수 있고, 새로운 파이프라인 셋을 구성할 수 있도록 한다. The application collecting unit 300 collects applications to be registered in the bioinformation researcher user terminal 110 or the server administrator user terminal 130. When the public data (reference data) Data can be uploaded in advance, and new pipeline sets can be configured.

따라서, 상기 어플리케이션 수집부(300)는 도 7에 도시된 바와 같이, 다수의 공개 소프트웨어를 수집하는 것으로 동일한 데이터를 여러 연구 방법에 적용하거나, 기 분석된 실험 데이터를 재활용할 수 있도록 한다. 또한, 본 발명은 RDBMS(관계형 데이터베이스) 연동 처리로 분석 데이터 정보와 분석 시 설정값의 이력 관리가 용이할 수 있도록 한다. 따라서, 한번 설정해 둔 파이프라인 셋으로 다양한 데이터 셋을 적용해 실행할 수 있게 되어 있으므로 반복적인 데이터 분석 과정을 자동화하여 연구의 효율성을 높일 수 있도록 한다. Therefore, as shown in FIG. 7, the application collecting unit 300 collects a plurality of open software to apply the same data to various research methods or to reuse the previously analyzed experimental data. Further, the present invention facilitates the management of the history of the analysis data information and the set value at the time of analysis by the RDBMS (relational database) interworking process. Therefore, it is possible to apply various data sets to a set of pipelines once set, so that the efficiency of research can be improved by automating repetitive data analysis processes.

상기 파이프라인 셋팅부(400)는 상기 어플리케이션 수집부(300)를 통해 수집되 세부 분석용 어플리케이션을 구동 및 제어하여 세부 분석마다 파이프라인을 새롭게 생성 및 관리할 수 있도록 한다. 상기 파이프라인 셋팅부(400)에서 생성된 파이프라인은 후술되는 프로그램 제공부를 통해 웹 레포팅 형식으로 사용자단말(100)에 제공할 수 있도록 한다. The pipeline setting unit 400 may generate and manage a pipeline for each detailed analysis by driving and controlling the detailed analysis application collected through the application collection unit 300. The pipeline generated by the pipeline setting unit 400 can be provided to the user terminal 100 in a web reporting format through a program providing unit described later.

이때, 분석 시스템 구축을 위한 어플리케이션(단위 분석용 공개 소프트웨어, 프로그램)은 다양한 학술 논문에 게재 된 분석용 소프트웨어이며, 분석 시 보편적으로 활용하는 프로그램을 기준으로 셋팅한다.At this time, the application (analysis software for unit analysis, program) for analyzing system construction is analysis software posted in various academic papers, and it is set based on a program that is universally used for analysis.

한편, 상기 파이프라인은 QC(Preprocessing, Quality Control and Trimming) Analysis, Genome(유전체) Analysis, RNA-seq/Transcriptome(전사체) Analysis 모듈을 포함한다. The pipeline includes a QC (Preprocessing, Quality Control and Trimming) analysis, a Genome (Analysis) analysis, and an RNA-seq / Transcriptome (Transcriptome) Analysis module.

상기 QC는 유전체 분석에서 가장 기초가 되는 단계로 이 과정에서는 읽기 오류(read error)를 제거하고, 고품질의 서브시퀀스(subsequence)를 유지하게 한다.The QC is the most fundamental step in the dielectric analysis, which removes read errors and maintains a high quality subsequence.

또한, QC 분석의 Trimming 단계에서 세 가지의 어플리케이션을 선택할 수 있게 하였으며, 이때에는 단일 선택 또는 복수 선택이 가능하다. 본 발명에서는 QC 분석만 따로 할 수 있게도 구현하고, Genome 분석, RNA-Seq 분석에 QC 분석 단계를 전처리 단계로 포함해서 파이프라인을 설계하였다. In the trimming stage of the QC analysis, three applications can be selected, and single or multiple selection is possible at this time. In the present invention, the QC analysis is performed separately, and the pipeline is designed by including the genome analysis and the QC analysis step as the preprocessing step in the RNA-Seq analysis.

상기 Genome(유전체) Analysis(분석)은 de novo assembly, Resequencing(assembly-based variant calling)으로 나뉜다. The genome analysis is divided into de novo assembly and assembly-based variant calling.

상기 de novo assembly 분석 과정은 참조 genome이 없이 전체 길이의 서열을 생성하기 위해, short read를 assembling하는 방식이다. genome assembling 후, 생성된 sequence를 추가 연구에서 backbone genome으로 활용할 수 있기 때문에 매우 중요한 분석법이다. contig를 만들기 위한 paired-end sequence와 scaffolding을 위한 mate-paired sequence가 입력 데이터로 필요하다. contig building에 Platanus(Nishikawa et al., 2015), SOAPdenovo (Luo et al., 2012), Velvet (Zerbino et al., 2008)을 scaffolding에는 SSPACE (Boetzer et al., 2011) 공개 소프트웨어를 활용했다. The de novo assembly analysis method is a method of assembling a short read to generate a full length sequence without a reference genome. After assembling the genome, the generated sequence can be used as a backbone genome in further studies. The paired-end sequence for constructing the contig and the mate-paired sequence for scaffolding are required as input data. We used SSPACE (Boetzer et al., 2011) open software for scaffolding Platanus (Nishikawa et al., 2015), SOAPdenovo (Luo et al., 2012) and Velvet (Zerbino et al.

상기 Resequencing(assembly-based variant calling) 분석은 참조 genome에 직접 mapping하거나, 새로운 assembly genome을 생성함으로 SNP, indels calling하게 된다. 참조 genome이 부족하거나 적절하지 않으면, SNP를 찾는데 mapping 오류로 인한 편향된 결과를 얻을 수도 있다. 따라서, 본 발명에서는 참조 genome을 기반으로 한 variant analysis 형태로 파이프라인을 구성하고, alignment 소프트웨어 중, 가장 널리 사용되는 mapping tool인 bowtie2 (Langmead et al., 2012)와 BWA (Li et al., 2009)를 사용하였다. variants calling은 GATK (Mckenna et al., 2010)와 samtools (Li et al., 2009)로 구성하였다. The Resequencing (assembly-based variant calling) analysis directly maps to the reference genome or generates a new assembly genome, resulting in SNPs and indels. If the reference genome is deficient or not appropriate, you may get biased results due to mapping errors in finding SNPs. Therefore, in the present invention, a pipeline is constructed as a variant analysis based on a reference genome, and bowtie2 (Langmead et al., 2012), the most widely used mapping tool among alignment software, and BWA (Li et al. ) Was used. Variants calling consisted of GATK (Mckenna et al., 2010) and samtools (Li et al., 2009).

상기 Transcriptome(전사체) 분석은 생물학에서 phenotype variation을 분자 기반에서 특성화하고 이해하는데 중요한 방법 중 하나로서, RNA-Seq 또는 whole transcriptome shotgun sequencing이라고도 불리는데, 지속적으로 변하는 세포 전사체를 분석하는데 사용된다. RNA-Seq은 전사체 구조(alternative splicing)이나 돌연변이/SNPs, 유전자 융합, 유전자 변화, 발현에 관한 연구도 할 수 있다.((Maher et al., 2009).The Transcriptome analysis is one of the important methods for characterizing and understanding phenotype variation in biology, and is also known as RNA-Seq or whole-transcriptome shotgun sequencing, which is used to analyze continuously changing cell transcripts. RNA-Seq can also study alternative splicing, mutation / SNPs, gene fusion, gene alteration, and expression (Maher et al., 2009).

또한, 현재 RNA-Seq에서 많이 사용하고 있는 tuxedo pipeline을 활용하여 파이프라인을 구성하였다. TopHat으로 참조 genome에 reads를 mapping하는 과정을 거친 후, Cufflinks로 transcript를 assembling하여, FPKM(Fragments Per Killobase per transcript in Mapping fragments)값을 얻을 수 있다. 이는, Trinity로 3개의 독립적인 소프트웨어 모듈인 Inchworm, Chrysalis, Butterfly를 결합해서 대량의 RNA-Seq read를 처리하기 위해 순차적으로 적용하는 프로그램이다.(Grabherr et al. 2011). In addition, the pipeline was constructed using the tuxedo pipeline that is currently used in RNA-Seq. After tophat mapping the reads to the reference genome, you can assemble the transcripts with Cufflinks to get FPKM (Fragments per Killobase per transcript in Mapping fragments) values. This is a sequential application of Trinity to sequential processing of large amounts of RNA-Seq readings by combining three independent software modules: Inchworm, Chrysalis, and Butterfly (Grabherr et al. 2011).

상기 프로그램 제공부(500)는 상기 실행서버(S)의 기능을 구성하는 각각의 구성부분을 웹서버와 연동하여 홈페이지의 화면으로 구현할 수 있도록 하는 것으로서, 도 8a 내지 도 8e는 사용자 단말이 상기 실행서버(S)에 접속하여 유전체 데이터를 효과적으로 분석하기 위해 설계된 일련의 과정을 설명하기 위한 본 시스템의 예시화면이다.8A to 8E are diagrams illustrating a configuration of the program providing unit 500 according to an embodiment of the present invention. Referring to FIGS. 8A to 8E, And is an exemplary screen of the present system for explaining a series of processes designed to connect to the server S and analyze the dielectric data effectively.

프로그램 제공부(500)에서 웹레포팅 방식으로 제공되는 홈페이지의 화면은 직관적인 UI로 구성되며, 도 8b에 도시된 바와 같이, 왼쪽 상단에는 메뉴 목록이 구성되어 있고, 홈화면 중앙에는 프로젝트의 상태별 통계 및 개별 프로젝트 상태를 나타낼 수 있도록 한다. The screen of the homepage provided by the web providing method in the program providing unit 500 is composed of an intuitive UI. As shown in FIG. 8B, a menu list is formed in the upper left corner. In the center of the home screen, Statistics, and individual project status.

또한, 홈페이지 내에는 프로젝트의 진행상황을 확인할 수 있으며, 데이터영역을 포함하여 데이터를 입력 또는 출력이 가능할 수 있도록 하며, 파이프라인 실행시 프로젝트의 구동 및 스크립트를 미리 확인하거나, 서버내의 에러를 웹에서 확인이 가능할 수 있도록 한다. In addition, it is possible to check the progress of the project in the homepage, to be able to input or output the data including the data area, to confirm the operation of the project and the script in advance when executing the pipeline, So that it can be confirmed.

또한, 도 8d에 도시된 바와 같이, 상기 파이프라인셋팅부(400)에서 제공된 파이프라인중에서 필요한 파이프라인을 선택하고, 파이프라인의 어플리케이션을 임의로 선택하여 실행할 수 있도록 한다. 이때, 어플리케이션 설정이 가능하며, 설정된 어플리케이션의 상태를 표시할 수 있도록 하였다. In addition, as shown in FIG. 8D, a required pipeline is selected from the pipeline provided by the pipeline setting unit 400, and an application of the pipeline can be arbitrarily selected and executed. At this time, application setting is possible and the state of the set application can be displayed.

상기와 같이, 간단하고 직관적인 홈페이지의 구성에 따라 프로그래밍에 익숙하지 않은 연구자들도 실행서버(s)의 접근이 용이할 수 있도록 하며, 데이터를 입력하여 어플리케이션을 등록할 수 있도록 하고, 등록한 어플리케이션은 파이프라인 셋팅부(400)에서 조합하여 파이프라인을 여러 형태로 설정하고, 이를 웹페이지를 통해 제공할 수 있도록 한다. As described above, according to the simple and intuitive homepage configuration, researchers who are not familiar with programming can easily access the execution server (s), can input data to register an application, and the registered application The pipeline setting unit 400 may be combined to set various types of pipelines and provide them through a web page.

따라서, 연구자들은 사용자단말(100)을 통하여 프로젝트에 맞는 파이프라인을 선택하고 그에 따른 데이터를 입력 또는 출력 및 데이터 관리를 함으로서, 프로젝트에 대한 진행상황이나, 목록, 프로젝트의 정보 확인 등의 다양한 정보를 제공받거나 데이터를 입력할 수 있도록 한다. Accordingly, researchers can select various pipelines corresponding to the project through the user terminal 100, input or output data according to the pipelines, and manage various kinds of information such as the progress of the project, list, To be provided or to input data.

이상의 도 6 내지 도 7에서 상술한 시스템을 이용하여 파이프라인을 설정하고, 설정된 파이프라인을 통해 프로젝트를 진행하는 과정은 다음과 같은 과정으로 진행될 수 있다. 6 to 7, the process of setting the pipeline using the system described above and proceeding the project through the set pipeline may be performed as follows.

구체적으로, 도 9에 도시된 바와 같이, "서버관리자" 가 사용자단말(100)을 이용하여 실행서버(s)에 접근할 수 있도록 로그인을 하거나 계정을 만드는 사용자등록단계(s100)와; 상기 사용자등록단계(s100)에서 등록된 서버관리자가 사용자단말(100)을 통해 데이터를 등록하는 데이터등록단계(s200)와, 상기 데이터등록단계(s200)에서 등록된 데이터중에서 어플리케이션만 분류하여 수집하는 어플리케이션 수집단계(s300)와, 상기 어플리케이션 수집단계(s300)에서 수집된 어플리케이션을 파이프라인으로 형성하는 파이프라인세팅단계(s400)를 포함한다. Specifically, as shown in FIG. 9, a user registration step (SlOO) of creating a login or account for allowing the "server administrator" to access the execution server s using the user terminal 100; A data registration step s200 for registering data through the user terminal 100 by the server administrator registered in the user registration step s100 and the application registration step s200 for collecting and collecting only applications from the data registered in the data registration step s200 An application collection step (s300), and a pipeline setting step (s400) for forming an application collected in the application collection step (s300) into a pipeline.

상기 사용자등록단계(s100)는 실행서버(s)에서 제공하는 웹페이지를 통해 로그인을 하여 서버에 접근할 수 있도록 한 것으로서, 서버관리자의 사용자 단말(130)이 접근하였을 경우에는 데이터를 등록하는 과정이 웹페이지를 통해 출력될 수 있도록 하고, "생물정보 연구자" 또는 "일반 연구자" 의 사용자 단말(110,120)이 접근하였을 경우에는 프로젝트를 선택하고 그에 맞는 파이프라인을 제공하여 프로젝트에 관련한 결과물을 얻을 수 있도록 한다. The user registration step (s100) is a step for accessing the server by logging in through a web page provided by the execution server (s). When the user terminal (130) If the user terminal 110 or 120 of the "bioinformatic researcher" or the "general researcher" is approached, the user can select the project and provide a pipeline corresponding to the project to obtain the result related to the project .

상기 데이터등록단계(s200)는 상기 서버관리자가 사용자단말(110)을 이용하여 데이터를 등록하는 단계로서, 등록된 데이터는 어플리케이션과 공개데이터로 나뉠 수 있도록 한다. 분류된 데이터 중 어플리케이션은 상기 어플리케이션 수집단계(s300)에 제공하고, 공개된 데이터는 "생물정보 연구자" 또는 "일반 연구자" 의 사용자 단말(110,120)이 프로젝트를 생성하였을 경우에 제공될 수 있도록 한다. In the data registration step (s200), the server manager registers data using the user terminal 110, and the registered data can be divided into an application and a public data. Among the classified data, the application is provided to the application collection step (s300), and the published data can be provided when the user terminal 110, 120 of the "bio information researcher"

상기 어플리케이션을 수집하는 단계(s300)는 상기 서버관리자 사용자단말(130)이 등록한 다양한 데이터를 어플리케이션과 공개데이터롤 나뉠 수 있도록 하고, 어플리케이션은 실행서버(s)의 어플리케이션수집부(200)를 통해 수집될 수 있도록 하는 단계로서, 이는 상기 파이프라인 셋팅부(400)에 제공될 수 있도록 한다. The step of collecting the application (s300) allows various data registered by the server administrator user terminal 130 to be divided into an application and a public data roll, and the application is collected through the application collecting unit 200 of the execution server (s) So that it can be provided to the pipeline setting unit 400.

상기 파이프라인세팅단계(s400)는 상기 어플리케이션수집부(200)에 수집된 어플리케이션을 파이프라인으로 셋팅하는 단계로서, 파이프라인 셋팅방법은 데이터 분석을 위하여 트리밍단계(s410),얼라인먼트단계(s420) 및 분석단계(s430)을 포함한다. The pipeline setting step s400 is a step of setting the application collected in the application collecting part 200 as a pipeline. The pipeline setting method includes a trimming step s410, an alignment step s420, And an analysis step (s430).

도 10에 도시된 바와 같이, "생물정보 연구자"의 사용자단말(110) 또는 "일반 연구자"의 사용자 단말(120)을 이용하여 실행서버(s)에 접근할 수 있도록 로그인을 하거나 계정을 만드는 사용자등록단계(s100)와; 상기 사용자등록단계(s100)에서 등록된 연구자가 사용자단말(110,120)을 통해 프로젝트를 생성하고 그에 따른 데이터를 선택하는 단계(s500)와, 선택된 데이터에 매칭되는 파이프라인을 선택하고 그에따른 셋팅된 파이프라인을 제공받는 단계(s600)와, 제공받은 파이프라인을 구동하는 단계(s700)와, 그에 따른 데이터를 출력하고, 출력된 데이터가 리포트형식으로 출력되는 단계(s800)을 포함한다. As shown in Fig. 10, a user who uses a user terminal 110 of a "bio information researcher" or a user terminal 120 of a "general researcher" to log in or make an account so that the user can access the execution server (s) A registration step (SlOO); A step S500 of a researcher registered in the user registration step S100 to create a project through the user terminals 110 and 120 and to select data according to the selected project s500, a pipeline matched to the selected data, A step (s600) of receiving the line, a step (s700) of driving the provided pipeline, and a step (s800) of outputting the data and outputting the output data in a report format.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다. Therefore, the spirit of the present invention should not be construed as being limited to the above-described embodiments, and all of the equivalents or equivalents of the claims, as well as the following claims, I will say.

100 : 사용자단말
110 : "생물정보 연구자" 사용자단말
120 : "일반 연구자" 사용자단말
130 : "서버관리자" 사용자단말
S : 실행서버
200 : 약관동의처리부
300 : 어플리케이션 수집부
400 : 파이프라인 셋팅부
500 : 프로그램 제공부
100: user terminal
110: "Bioinformatics researcher"
120: "general researcher" user terminal
130: "Server Manager"
S: Execution Server
200: Terms and Conditions Processing Department
300: Application collecting unit
400: Pipeline setting section
500: Program Offering

Claims (1)

유무선 통신이 가능한 구조로 인터넷이나 무선 통신을 통해 웹서버에 접속 가능한 구조의 사용자단말과;
상기 사용자 단말을 통해 유무선 통신을 통해 접속이 가능하며, 세부 분석용 어플리케이션을 구동 및 제어할 수 있고 세부 분석마다 파이프라인을 새롭게 생성/관리할 수 있으며, 해당 분석 결과를 웹 레포팅 형식으로 제공할 수 있도록 하는 실행서버(S)에 있어서,
상기 실행서버(S)는 각 사용자단말에 제공하는 UI와 비지니스 로직을 분리하여 제공할 수 있도록 하는 약관동의처리부와;
사용자단말에서 등록하는 다수의 데이터를 어플리케이션과 공개 데이터로 분류하고 분류된 데이터 중에서 어플리케이션만 수집할 수 있도록 하는 어플리케이션 수집부와;
상기 어플리케이션 수집부를 통해 수집된 세부 분석용 어플리케이션을 트리밍, 얼라인먼트 및 분석하는 구동 및 제어를 통해 새로운 파이프라인을 구성하고 관리하는 파이프라인 셋팅부 및,
상기 실행서버(S)의 기능을 구성하는 각각의 구성부분을 웹서버와 연동하여 홈페이지의 화면으로 구현할 수 있도록 하는 프로그램 제공부를
포함하며,
상기 파이프라인 셋팅부는 파이프라인 실행시, public data 또는 reference data가 필요한 경우 참조할 데이터를 미리 업로드 시킬 수 있고, 새로운 파이프라인을 구성할 수 있도록 하는 것을 특징으로 하는 유전체 염기서열 분석 파이프라인 처리시스템.
A user terminal having a structure capable of connecting to a web server through internet or wireless communication in a structure capable of wired / wireless communication;
It is possible to connect to the user terminal through wired / wireless communication, to run and control the detailed analysis application, to newly create / manage the pipeline for each detailed analysis, and to provide the analysis result in a web reporting format In the execution server (S)
The execution server (S) has a contract agreement processing unit that can separately provide UI and business logic to be provided to each user terminal;
An application collecting unit for classifying a plurality of data registered in a user terminal into applications and public data and collecting only applications from the classified data;
A pipeline setting unit for configuring and managing a new pipeline by driving and controlling trimming, aligning, and analyzing the detailed analysis application collected through the application collecting unit;
A program providing unit for allowing each component constituting the function of the execution server S to be implemented as a screen of a home page in cooperation with a web server
≪ / RTI &
Wherein the pipeline setting unit is configured to upload data to be referred to in advance when public data or reference data is required, and to construct a new pipeline when the pipeline is executed.
KR1020170092723A 2017-07-21 2017-07-21 System and method for genome sequence analysis pipeline KR101849879B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170092723A KR101849879B1 (en) 2017-07-21 2017-07-21 System and method for genome sequence analysis pipeline

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170092723A KR101849879B1 (en) 2017-07-21 2017-07-21 System and method for genome sequence analysis pipeline

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020180026043A Division KR101962960B1 (en) 2018-03-05 2018-03-05 System and method for genome sequence analysis pipeline

Publications (1)

Publication Number Publication Date
KR101849879B1 true KR101849879B1 (en) 2018-04-17

Family

ID=62083014

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170092723A KR101849879B1 (en) 2017-07-21 2017-07-21 System and method for genome sequence analysis pipeline

Country Status (1)

Country Link
KR (1) KR101849879B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200098189A (en) 2019-02-12 2020-08-20 주식회사 꿀비 System for providing analysis service of next generation sequencing and method thereof

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150066381A1 (en) 2013-09-03 2015-03-05 Seven Bridges Genomics Inc. Genomic pipeline editor with tool localization

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150066381A1 (en) 2013-09-03 2015-03-05 Seven Bridges Genomics Inc. Genomic pipeline editor with tool localization

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200098189A (en) 2019-02-12 2020-08-20 주식회사 꿀비 System for providing analysis service of next generation sequencing and method thereof

Similar Documents

Publication Publication Date Title
Kumar et al. MEGA7: molecular evolutionary genetics analysis version 7.0 for bigger datasets
Appleton et al. Design automation in synthetic biology
Herwig et al. Analyzing and interpreting genome data at the network level with ConsensusPathDB
Reid et al. Launching genomics into the cloud: deployment of Mercury, a next generation sequence analysis pipeline
Anders et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor
Myers et al. iBioSim: a tool for the analysis and design of genetic circuits
Orjuela et al. ARMOR: An A utomated R eproducible MO dular Workflow for Preprocessing and Differential Analysis of R NA-seq Data
US20170199764A1 (en) Systems and methods for smart tools in sequence pipelines
US20180159747A1 (en) Automated feature deployment for active analytics microservices
Romano Automation of in-silico data analysis processes through workflow management systems
Zhang et al. DeepDISOBind: accurate prediction of RNA-, DNA-and protein-binding intrinsically disordered residues with deep multi-task learning
US20050234964A1 (en) System and method for creating dynamic workflows using web service signature matching
Liu et al. PGen: large-scale genomic variations analysis workflow and browser in SoyKB
US20150066381A1 (en) Genomic pipeline editor with tool localization
Allen et al. Using KBase to assemble and annotate prokaryotic genomes
van den Berg et al. SPiCE: a web-based tool for sequence-based protein classification and exploration
Haunschild et al. Investigating the dynamic behavior of biochemical networks using model families
KR101849879B1 (en) System and method for genome sequence analysis pipeline
KR101962960B1 (en) System and method for genome sequence analysis pipeline
Czech et al. grenepipe: a flexible, scalable and reproducible pipeline to automate variant calling from sequence reads
Pérez-Sánchez et al. Developing science gateways for drug discovery in a grid environment
Sanchez et al. dnadna: a deep learning framework for population genetics inference
Singh et al. A formative usability study to improve prescriptive systems for bioinformatics big data
Edwards et al. SCExecute: custom cell barcode-stratified analyses of scRNA-seq data
Hildebrandt et al. Ballaxy: web services for structural bioinformatics

Legal Events

Date Code Title Description
AMND Amendment
AMND Amendment
X701 Decision to grant (after re-examination)
A107 Divisional application of patent
GRNT Written decision to grant