KR101282798B1

KR101282798B1 - 생명 정보 분석 파이프라인 처리 시스템 및 방법

Info

Publication number: KR101282798B1
Application number: KR1020110091492A
Authority: KR
Inventors: 한영만
Original assignee: 한국과학기술정보연구원
Priority date: 2011-09-08
Filing date: 2011-09-08
Publication date: 2013-07-04
Also published as: KR20130027948A

Abstract

본 발명은 사용자가 원하는 생명 정보 분석 방법에 따라 생명 정보 분석 파이프라인을 생성하고 이를 처리할 수 있는 생명 정보 분석 파이프라인 처리 시스템과 그 처리 방법에 관한 것이다.
본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 시스템은 클라이언트로부터 생명 정보 분석 파이프라인 모델을 수신하고, 파이프라인 모델에 포함된 복수의 분석 작업들을 순차적으로 스케쥴링하여 실행을 명령하고, 분석 작업들 간의 입출력을 연계하는 데이터 변환을 실행하는 파이프라인 실행 서버, 파이프라인 실행 서버에 의해 스케쥴링된 분석 작업 실행 명령에 따라 각 분석 작업을 실행하는 클러스터 컴퓨팅 장치, 및 클러스터 컴퓨팅 장치에 의해 실행된 분석 작업의 결과 및 파이프라인 모델을 저장하는 저장 장치를 포함한다.

Description

생명 정보 분석 파이프라인 처리 시스템 및 방법{System and method for processing bio information analysis pipeline}

본 발명은 사용자가 원하는 생명 정보 분석 방법에 따라 생명 정보 분석 파이프라인을 생성하고 이를 처리할 수 있는 생명 정보 분석 파이프라인 처리 시스템과 그 처리 방법에 관한 것이다.

‘인간 게놈 프로젝트'가 성공적으로 진행된 이래로, 최근의 자동 DNA 시퀀서, DNA 마이크로 어레이, 이미지 분석기 등과 같은 고속 분석 기기들의 발달은 생물학적 데이터의 기하급수적인 증가를 가져왔다. 이러한 막대한 양의 데이터를 효과적으로 해석하여 생물학적으로 의미 있는 정보를 알아내기 위해서는 생명정보 분석 도구를 활용한 전산학적 처리가 필수적이다. 전통적으로 실험실에서 행해지던 많은 생명과학 연구가 막대한 양의 오믹스(-omics) 데이터의 전산학적 처리를 기반으로 지식 기반으로 컴퓨터상에서 이루어질 수 있게 되었다. 예를 들면, DNA의 어떤 부분이 생명의 다양한 화학 작용을 제어하는지, 새로운 단백질의 기능은 무엇인지, 새로운 단백질의 구조를 예측할 수 있는지 등의 질문에 대해 생명정보학은 잠재적으로 의미 있는 답을 줄 수 있다. 생명정보학이 현재 응용되는 생물학 분야는 유전체학, 전사체학, 단백질체학, 대사체학, 약리유전체학 등 분자생물학의 모든 분야를 포함하고 있다.

2005년 전 세계 생명공학 시장의 총매출은 1,263억 달러로 2001년에서 2005년까지 5년 동안 연평균 성장률이 12.8%로 지속적인 성장세를 보이고 있으며 2010년까지 생명 정보 연구 분야의 폭발적인 시장 수요 증가가 현실화되고 있는 시점에 있다. 또한, IT 기술의 발전과 생명정보 데이터 증가 추세와 발맞추어 생명정보 분석과 관련한 다양한 프로그램들이 기하급수적으로 증가하는 추세에 있다.

이러한 생명정보 분석 기술의 발전에도 불구하고, 생명과학 연구자들이 자신의 연구에 적합한 기술을 활용하기에는 몇 가지 문제점이 있다.

첫째, 생명정보 데이터 및 도구의 이질성이다. 현재까지 국내는 물론 전 세계 생명 과학 분야 기업이나 연구 기관들은 연구 결과로부터 얻어진 생물 정보 데이터를 각기 다른 독자적인 포맷으로 저장되고 배포되어 왔으며 생명 과학 연구에 필요한 분석 도구들도 역시 각자의 프로그래밍 언어와 개발 환경을 기반으로 개발된 것이 현실이다. 이러한 이유로 다양하고 이질적인 생명정보 분석 도구들이 각기 다른 입출력 포맷과 사용자 인터페이스를 갖고 분산되어 있어, 연구자들은 자신의 연구 환경에 맞는 분석 도구를 선택하고 그것을 활용하는 데 있어 많은 어려움을 겪게 된다. 특히 IT 기술이 부족한 생명과학 연구자들이 각기 다른 생명정보 분석 도구의 입출력 방식과 사용자 인터페이스를 익히는 것은 매우 어려운 일이다. 이것이 생명과학 연구자들이 생명정보 분석기술의 유용함에도 불구하고 그것의 사용을 꺼리는 가장 큰 요인 중의 하나이다.

둘째 여러 분석 도구 간의 입출력 연계가 어렵다는 것이다. 일반적인 생명정보 분석 과정은 여러 분석 도구 정보 데이터베이스를 검색하여 다양한 정보를 추출하고 이에 대한 다양한 의 적용 및 결과물 분석 등의 여러 단계의 단위 분석 도구의 입출력 연계로 이루어진다. 즉, 블록을 조립하는 것과 같이 각각의 단위 분석 도구들을 끼워 맞추어 자신이 원하는 기능을 발휘하는 완성품을 만들어 내는 과정인 것이다. 앞서 제기한 바대로 대부분의 분석 도구들이 각각 다른 입출력 포맷을 가지고 있어 분석 도구 간의 입출력 연계는 매우 어려운 일이다. 입출력 연계를 위한 데이터 변환 프로그램을 별도로 작성하면 되겠지만, 이것은 전체 분석과정의 결과물의 생물학적 분석이 중요한 생명과학 연구자에게는 별도의 부담스러운 일이다.

본 발명은 위와 같은 문제점을 해결하기 위한 것으로써, 본 발명이 이루고자 하는 기술적 과제는 생명 정보 분석 파이프라인 처리 시스템 및 방법에 있어서, 전술한 문제점을 겪지 않으면서, 다양한 실행 방식의 생명 정보 분석 도구를 포함하는 생명 정보 분석 파이프라인을 처리 가능하도록 하는 것이다.

전술한 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 시스템은 클라이언트로부터 생명 정보 분석 파이프라인 모델을 수신하고, 파이프라인 모델에 포함된 복수의 분석 작업들을 순차적으로 스케쥴링하여 실행을 명령하고, 분석 작업들 간의 입출력을 연계하는 데이터 변환을 실행하는 파이프라인 실행 서버; 파이프라인 실행 서버에 의해 스케쥴링된 분석 작업 실행 명령에 따라 각 분석 작업을 실행하는 클러스터 컴퓨팅 장치; 및 클러스터 컴퓨팅 장치에 의해 실행된 분석 작업의 결과 및 파이프라인 모델을 저장하는 저장 장치를 포함한다.

또한, 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 시스템에서 파이프라인 실행 서버는 각 분석 작업에 대해 클러스터 컴퓨팅 장치와 연계시켜 실행을 명령하는 것을 특징으로 한다.

또한, 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 시스템에서 파이프라인 실행 서버는 파이프라인 모델을 객체-관계 맵핑하여 저장 장치로 출력하는 것을 특징으로 한다.

또한, 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 시스템에서 분석 작업은 명령행 기반 분석 작업, 웹서비시스 기반 분석 작업 및 동적 스크립트 기반 분석 작업을 포함하는 것을 특징으로 한다.

또한, 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 시스템에서 데이터의 형식은, Ontology Web Language(OWL)를 사용하는 것을 특징으로 한다.

또한, 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 시스템에서 파이프라인 모델은, 생명 정보를 분석하는 적어도 한 개 이상의 분석 작업들, 각 분석 작업들을 연계하는 링크들 및 입출력의 데이터 형식을 변환하는 데이터 변환 스크립트를 포함하는 것을 특징으로 한다.

또한, 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 시스템에서 생명 정보는, 서열 데이터, 서열 정렬 데이터, 단백질구조 또는 분자 상호작용 네트워크 중 적어도 어느 하나를 포함하는 것을 특징으로 한다.

또한, 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 시스템에서 파이프라인 모델은, 유전체 서열로부터 유전자의 위치를 예측하고, 예측된 위치의 서열을 추출하여 단백질 서열로 변환한 후, 저장 장치로부터 단백질 서열에 대응되는 서열 목록을 검색하여 출력하는 것을 특징으로 한다.

전술한 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 방법은 클라이언트로부터 생명 정보 분석 파이프라인 모델을 수신하는 단계; 파이프라인 모델에 포함된 복수의 분석 작업들을 순차적으로 스케쥴링하여 실행을 명령하는 단계; 스케쥴링된 분석 작업 실행 명령에 따라 각 분석 작업을 실행하는 단계; 분석 작업들 간의 입출력을 연계하는 데이터 변환을 실행하는 단계; 및 실행된 분석 작업의 결과 및 파이프라인 모델을 저장하는 단계;를 포함한다.

또한, 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 방법에서 각 분석 작업을 실행하는 단계는, 각 분석 작업을 클러스터 컴퓨팅 장치와 연계하여 실행하는 것을 특징으로 한다.

또한, 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 방법에서 저장하는 단계는, 파이프라인 모델을 객체-관계 맵핑하여 저장 장치에 저장하는 것을 특징으로 한다.

또한, 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 방법에서 분석 작업은, 명령행 기반 분석 작업, 웹서비시스 기반 분석 작업 및 동적 스크립트 기반 분석 작업을 포함하는 것을 특징으로 한다.

또한, 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 방법에서 데이터의 형식은, Ontology Web Language(OWL)를 사용하는 것을 특징으로 한다.

또한, 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 방법에서 파이프라인 모델은, 생명 정보를 분석하는 적어도 한 개 이상의 분석 작업들, 각 분석 작업들을 연계하는 링크들 및 입출력의 데이터 형식을 변환하는 데이터 변환 스크립트를 포함하는 것을 특징으로 한다.

또한, 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 방법에서 생명 정보는, 서열 데이터, 서열 정렬 데이터, 단백질구조 또는 분자 상호작용 네트워크 중 적어도 어느 하나를 포함하는 것을 특징으로 한다.

또한, 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 방법에서 파이프라인 모델은, 유전체 서열로부터 유전자의 위치를 예측하고, 예측된 위치의 서열을 추출하여 단백질 서열로 변환한 후, 저장 장치로부터 단백질 서열에 대응되는 서열 목록을 검색하여 출력하는 것을 특징으로 한다.

본 발명의 일 실시예에 따르면, 다양하고 이질적인 생명 정보 데이터 분석을 위한 파이프라인을 처리하는 시스템을 제공할 수 있다.

본 발명의 일 실시예에 따르면, 웹 서비스를 통하여 시공간의 제약 없이 생명 정보 데이터를 분석할 수 있다.

본 발명의 일 실시예에 따르면, 높은 시스템 유연성 및 확장성을 제공할 수 있다.

본 발명의 일 실시예에 따르면, 대용량 생명 정보 분석 요구에 대해 빠르고 정확한 병렬 처리를 지원할 수 있다.

본 발명의 일 실시예에 따르면, 신규 생명 정보 분석 도구 서비스를 용이하게 추가 통합할 수 있다.

도 1은 본 발명의 일 실시예에 따른 생명 정보 분석 도구 객체지향 클래스 다이어 그램을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 객체 모델의 클래스 다이어그램을 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 일반적인 생명 정보 분석 파이프라인 모델을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인을 작성한 예를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 시스템을 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 방법을 나타낸 도면이다.

이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시 예를 상세하게 설명하지만, 본 발명이 실시 예들에 의해 제한되거나 한정되는 것은 아니다.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가지는 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.

본 발명은 다양하고 이질적인 생명 정보들을 통합적으로 분석하는 생명 정보 분석 파이프라인을 처리할 수 있다. 생명 정보 분석 파이프라인에는 생명 정보 데이터를 입력받아 분석을 실행하여 결과 데이터를 출력하는 복수의 분석 도구들, 복수의 분석 도구들을 연계하는 링크들, 및 각 분석 도구에서 출력된 결과 데이터를 차순위 분석 도구에 대응되는 생명 정보 데이터 형식으로 변환하는 데이터 변환 스크립트들이 포함된다.

생명정보 분석 도구들은 그 목적과 실행 방식이 다양하기 때문에 이들을 효과적으로 통합하는 것이 요구된다. 생명정보 분석 도구들을 효과적으로 통합하기 위해 고려해야 할 점은 같은 동작을 하는 분석 도구라 할지라도 실행방식이 여러 가지라는 것이다. 예를 들어, 유전자 데이터베이스에서 하나의 서열정보를 얻는 분석 도구의 경우 명령행 실행, 스크립트, 그리고 웹서비시스, XML-RPC, REST등의 원격 호출 방식 등 다양한 실행 방식이 있을 수가 있다. 따라서 효과적인 생명정보 분석 도구 통합을 위해서는 이러한 다양한 실행 방식을 고려하여 유연한 통합 스키마를 구현해야만 한다. 위의 분석 도구는 생명 정보 데이터를 분석하는 작업을 실행하는 개체를 의미하므로, 이하 분석 도구와 분석 작업은 동일한 의미로 사용될 수 있다.

도 1은 본 발명의 일 실시예에 따른 생명 정보 분석 도구의 객체지향 클래스 다이어 그램을 나타낸 도면이다. 본 발명은 각 분석 도구의 실행 방식별로 분석 도구(BioTool,1010) 클래스의 하위클래스로 명령행 기반 실행 방식(CommandLineBioTool, 1011), 웹서비시스 실행 방식(WebServicesBioTool, 1012), 스크립트 기반 실행방식(ScriptBioTool, 1013) 분석 도구가 정의된다. 각각의 하위클래스에서 주어진 입력 값을 사용하여 beforeExecute, execute, afterExecute 추상 메소드를 구현할 수 있다. 메소드 이름에서 알 수 있듯이 각각의 메소드는 실행 전처리, 도구 실행, 실행 후처리 방법을 각각 구현할 수 있다.

명령행 기반 실행방식(1011)은 운영 체제 환경에서 입력된 명령행을 읽어 실행하는 방식이다. 명령행을 하나 이상의 시스템 호출로 변환하여 실행하는 것이 가능하다. 이에 비해 웹서비시스 실행 방식(1012)은 네트워크 상에서 서로 다른 종류의 컴퓨터 간에 상호 작용을 제공하는 소프트웨어 시스템이다. 스크립트 기반 실행방식(1013)은 프로그래밍 언어가 아닌 스크립트로 작성되며 프로그램을 쉽고 빠르게 작성할 수 있다.

위와 같이 분석 도구들은 각기 다른 실행 방식으로 실행되므로 이들을 통합하기 위해서는 분석 도구의 확장성과 유연성이 요구된다. 이러한 특징을 구현하기 위하여 본 발명은 XML(eXtensible Markup Language)을 이용하여 분석 도구를 생성할 수 있다. XML은 이식성, 재사용성, 확장성, 효율적인 데이터 교환 등이 용이한 이점을 가지고 있어 본 발명에서 다양한 생명 정보 분석 도구를 통합하여 생명 정보 분석 파이프라인을 형성하는데 적합하다.

본 발명에 의한 생명 정보 분석 파이프라인은 복수의 분석 도구들이 링크에 의해 상호 연계되어 한 분석 도구의 출력이 연계된 다른 분석 도구의 입력으로 사용된다. 따라서 이질적인 입출력 데이터 양식을 갖는 분석 도구 간 연계가 자유롭게 이루어지게 하는 의미 기반의 계층적 데이터 스키마를 정의할 수 있다.

이것은 표준 온톨로지 표현 언어 중에서 OWL(Ontology Web Language)을 사용하여 구현할 수 있다. 대부분의 생명정보 분석 도구의 입출력 데이터는 문자열 형태이고 의미상으로 다양하게 존재하며 계층적으로 분류되어 질 수 있다. 따라서, OWL을 사용하여 생명정보 분석 도구의 입출력 데이터 양식을 정의할 수 있다.

입출력 데이터 양식은 서열데이터, 서열정렬데이터, 단백질구조, 분자 상호작용 네트워크 등과 같은 생명정보 데이터뿐만 아니라 문자열, 숫자, 불리언 값도 포함할 수 있다. 두 개의 분석 도구의 입출력 연계 가능 여부는 OWL 데이터 스키마 내에서 출력 데이터에 대한 양식 클래스가 입력데이터에 대한 양식 클래스의 하위 클래스 인지를 판단하여 결정된다.

OWL 기반으로 생명정보 입출력 양식을 정의함으로써, 기존의 생명정보 분야에서의 다양한 온톨로지 표현 명세, 예를들면 GO(Gene Ontology), BioPAX, EcoCyc, MGED(Microarray Gene Expression Data)등과 연계하여 상호 데이터 교환 시 유연하게 확장되어 질 수 있다는 장점이 있다.

위에서 설명한 바와 같이 분석 도구는 XML로, 입출력 데이터는 OWL을 이용함으로써 각각의 분석 도구에 대한, 분석 도구 간 입출력 데이터 연계에 대한 유연성과 확장성을 얻을 수 있는 효과가 있다.

도 2는 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 객체 모델의 클래스 다이어그램을 나타낸 도면이다. 하나의 생명 정보 분석 파이프라인(2010)은 하위 계층에 복수 개의 분석 도구 실행 작업(2020)을 포함할 수 있다. 각 분석 도구 실행 작업(2020)은 하위 계층에 복수 개의 입력 데이터(2030)와 출력 데이터(2040)를 포함할 수 있다. 또한 각 입력 데이터(2030)와 출력 데이터(2040)는 하위 계층에 복수 개의 링크(2050)를 포함하고 링크(2050)는 입출력 데이터 변환 스크립트(2060)와 일대일로 대응된다. 위의 각 분석 도구 실행 작업(2020)은 각 분석 도구 내에서 실행되는 것으로 아래에서는 분석 도구로 칭할 수 있다.

따라서 위에서 설명하였듯이, 생명 정보 분석 파이프라인(2010)은 내부에 분석 작업을 하는 복수 개의 분석 도구(2020)들을 포함하고 각 분석 도구들은 입출력 데이터(2030, 2040)로 여러 종류의 데이터를 포함할 수 있다. 또한 각 분석 도구(2020)들을 연계하는 링크(2050)의 경우, 하나의 분석 도구에 복수 개의 링크(2050)가 연계될 수 있으며 각 링크(2050)는 분석 도구 간의 데이터 형식이 상이한 경우 이를 변환하는 데이터 변환 스크립트(2060)를 수반할 수 있다.

하나의 생명 정보 분석 파이프라인은 입력 데이터를 사용하여 특정 작업을 처리하는 단위 분석 작업에 해당하는 BioTask를 정점으로 하고 BioTask 간의 입출력을 연계하는 링크를 간선으로 하는 방향성 비순환 그래프(Directed Acyclic Graph)로써 표현될 수 있다.

도 3은 본 발명의 일 실시예에 따른 일반적인 생명 정보 분석 파이프라인 모델을 나타낸 도면이다.

BioTask 1(3010)은 초기 실행 분석 task으로 최상위 정점에 해당한다. BioTask 1(3010)은 BioTask 2(3020), BioTask 3(3030), BioTask 4(3040), BioTask 5(3050)를 자식 task로 갖고 이들에게 BioTask 1(3010)은 부모 task가 된다.

하나의 task는 부모 task들이 모두 종료되어 그것의 출력 값이 해당 Task의 입력 값으로 적합하게 설정되었을 때 병렬적으로 실행된다. 즉, BioTask 6(3060)의 경우 부모 task인 BioTask 3(3030)과 BioTask 4(3040)가 모두 종료되어 그 출력 값이 BioTask 6(3060)에게 전달되어야 실행된다.

또한 BioTask 3(3030) 또는 BioTask 4(3040)의 출력 데이터가 BioTask 6(3060)의 입력 데이터로 적합하지 않은 경우에는 링크에 수반되는 데이터 변환 스크립트에 의해 적합한 입력 데이터 형식으로 변환되어 BioTask 6(3060)에 입력된다.

도 4는 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인을 작성한 예를 나타낸 도면이다.

도 4의 생명 정보 분석 파이프라인은 Prokaryotic gene prediction으로 명명되며 원핵 생물 유전체 서열로부터 Glimmer를 사용하여 유전자들의 위치를 예측하고 blastp를 이용하여 예측된 유전자들의 기능을 유추하는 생명 정보 분석 파이프라인이다. 분석 작업은 다음과 같이 진행된다.

초기 입력 데이터(4010)는 glimmer3(4020)으로 입력된다. glimmer3(4020)은 원핵 생물 유전체 서열로부터 유전자들의 ORF(Open Reading Frame) 위치를 예측하는 분석 작업을 한다. 이후 초기 입력 데이터(4010)와 glimmer3(4020)의 출력 데이터는 Glimmer3 Fene Extract(4030)로 입력된다. Glimmer3 Fene Extract(4030)는 초기 입력 데이터(4010)로부터 glimmer3(4020) 출력 데이터를 참조하여 ORF 위치의 서열들을 추출한다. 추출된 출력 데이터는 transeq(4040)으로 입력되어 유전자 DNA 서열을 단백질 서열로 변환한다. transeq(4040)의 출력 데이터는 blastp(4050)로 입력되어 단백질 서열 데이터 베이스로부터 단백질 서열과 유사성이 높은 서열 목록을 검색하여 출력한다. 이러한 일련의 작업에 의해 원핵 생물 유전체 서열로부터 유전자들의 ORF(Open Reading Frame) 위치를 예측하는 것이 가능하다.

위에서 설명한 생명 정보 분석 파이프라인에 대한 구현이 완료되면 이를 실행 자동화하여 처리하는 시스템이 요구된다.

도 5는 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 시스템을 나타낸 도면이다.

생명 정보 분석 파이프라인 처리 시스템은 클라이언트(5010), 파이프라인 실행 서버(5020), 컴퓨팅 자원(5030) 및/또는 저장 자원(5040)을 포함할 수 있다.

클라이언트(5010)는 파이프라인 디자이너(5011), 실행 상황 모니터(5012) 및/또는 데이터 업로더(5013)를 포함할 수 있다.

파이프라인 실행 서버(5020)는 요청 처리부(5021), 파이프라인 실행 스케쥴러(5022), 파이프라인 모델(5023), 입출력 데이터(5024), 작업 실행부(5025), 링크 변환부(5026), 객체-관계 맵퍼(5027), 배치큐 인터페이스(5028) 및/또는 저장 입출력 인터페이스(5029)를 포함할 수 있다.

클라이언트(5010)는 분석이 필요한 생명 정보를 분석하는 파이프라인 모델을 생성할 수 있다. 분석 도구들과 이들을 연계하는 링크, 데이터 변환 스크립트로 구성되는 파이프라인 모델은 파이프라인 디자이너(5011)에 의해 디자인된다. 클라이언트는 실행 상황 모니터(5012)를 이용하여 파이프라인 실행 서버(5020)에서 자신의 파이프라인 모델의 실행상황을 모니터링할 수 있다. 실행된 파이프라인 모델의 입출력 데이터 또는 파이프라인 모델은 데이터 업로더(5013)에 의해 서버로 전달 가능하다.

파이프라인 실행 서버(5020)는 요청 처리부(5021)를 통해 클라이언트(5010)의 요청 사항을 수신할 수 있다. 클라이언트(5010)와 파이프라인 실행 서버(5020) 간의 연결은 웹 서비시스 기반 또는 COMET 기반으로 가능하다.

파이프라인 실행 스케쥴러(5022)는 특정 파이프라인에 대한 실행 요청을 받으면 정점(Vertex)에 해당되는 각각의 Task와 Edge에 해당되는 링크로 구성된 DAG(Directed Acyclic Graph) 형태의 파이프라인 객체 모델(5023)을 생성할 수 있다. 파이프라인 실행 스케쥴러(5022)는 인커밍 링크가 없는 Task를 초기 실행 Task로 하여 깊이 우선 탐색 알고리즘에 따라 순차적으로 실행할 수 있다. 각 Task는 입출력 데이터(5024)를 분석할 수 있다.

각각의 Task 실행은 해당 분석 도구의 실행방식에 따라 설정된 작업 실행부(Task Executor, 5025)에 의해 수행된다. 즉, 명령행 기반 실행 방식(CommandLineBioTool), 웹서비시스 실행 방식(WebServicesBioTool), 스크립트 기반 실행 방식(ScriptBioTool) 작업 도구는 각각 배치큐 작업 실행부, 웹서비시스 작업 실행부, 스크립트 작업 실행부에 의해 실행된다.

연계된 Task 간의 입출력 연계시 데이터 변환이 필요한 경우에는 링크 변환부(5026)에 의해 파이프라인 모델 내의 데이터 변환 스크립트가 실행된다. 본 발명에서는 Ruby, Java, Python을 지원하는 것이 가능하다.

객체-관계 맵퍼(ORM; Object-Relation Mapper,5027)는 객체-관계 맵핑을 실행하여 파이프라인 모델(5023)을 저장 자원(5040)에 저장하고 관리할 수 있다. 객체-관계 맵퍼(5027)와 저장 자원(5040)과의 관계는 아래에서 다시 상술한다.

배치큐 인터페이스(5028)는 클러스터 컴퓨팅 자원(5030)을 사용하는 배치큐 시스템과 연계하는 장치로, 배치큐 작업 실행부는 해당 분석 도구의 실행 명령을 배치큐 인터페이스(5028)를 사용하여 배치큐 시스템의 큐에 배치작업으로 등록할 수 있다. 배치큐 시스템은 각 배치작업을 연계된 클러스터 환경에서 순차적으로 실행할 수 있다. 각각의 작업 실행 상태와 결과물들은 배치큐 인터페이스(5028)를 통해 수집되고 서버 시스템과 동기화된다.

저장 입출력 인터페이스(5029)는 각 Task의 실행 결과물을 저장 자원(5040, Database 또는 파일시스템)에 저장하는 역할을 담당할 수 있다. 결과 데이터의 사이즈가 지정된 값보다 큰 경우 파일 형태로 저장되며 저장 위치가 Database에 저장된다. 그렇지 않은 경우에는 결과 데이터는 Database에 저장된다.

클러스터 컴퓨팅 자원(5030) 및 저장 자원(5040)은 각각 실제 분석 작업 실행과 분석 결과 데이터의 저장을 수행할 수 있다.

클러스터 컴퓨팅 자원(5030)은 대용량의 생명 정보를 빠르게 분석할 수 있다. 사용될 수 있다. 클러스터 컴퓨팅 자원(5030)은 복수 개의 컴퓨터를 네트워크로 연결하여 하나의 컴퓨팅 시스템으로 동작할 수 있다.

파이프라인 모델을 저장 자원(5040)에 저장하는 방법에는 파일, 데이터베이스 등의 여러 가지 방법이 있을 수 있다. 이 중 데이터베이스에 객체모델을 영구적으로 저장하는 방법은 만일 데이터베이스의 스키마가 바뀌는 경우에 애플리케이션의 나머지 부분도 크게 변경해야 한다. 특히, 앞서 제시한 파이프라인 모델은 객체지향 기술을 사용하고 있는 데 반해, 데이터베이스는 관계형 데이터 모델을 이용하게 되면 이로 인해 객체 모델링과 관계형 데이터 모델링 사이에 개념적 불일치가 존재하게 되고, 시스템 구현 및 유지보수에 있어 복잡도가 증가할 수 있다.

따라서, 본 발명에서는 객체 수준의 데이터 베이스 모델을 OR(Object-Relation) 맵핑을 통해 자동화하는 객체-관계 맵퍼(5029)를 사용할 수 있다. 이를 통해 XML로 표현된 객체지향 데이터 모델을 관계형 데이터 베이스와 맵핑할 수 있다. 이로써 생명 정보 분석 파이프라인 처리 시스템의 구성 요소는 파이프라인의 객체지향 데이터 모델을 참조하여 구현되어 질 수 있으며, 결과적으로 데이터베이스 계층을 포함한 전체 시스템은 객체 지향적으로 구성되는 것이 가능하다.

도 6은 본 발명의 일 실시예에 따른 생명 정보 분석 파이프라인 처리 방법을 나타낸 순서도이다.

클라이언트(5010)는 파이프라인 디자이너(5011)를 이용하여 생명 정보 분석 파이프라인 모델을 생성할 수 있다(S6010). 생명 정보 분석 파이프라인 모델은 생명 정보를 분석하는 복수 개의 분석 도구와 이들을 연계하는 링크 및 분석 도구 연계시 입출력 데이터 형식을 변환하는 데이터 변환 스크립트를 포함할 수 있다. 생성된 파이프라인 모델은 웹서비시스 또는 COMET을 이용하여 파이프라인 실행 서버로 전달된다.

전달된 파이프라인 모델(5023)은 요청 처리부(5021)에 의해 수신된다. 파이프라인 실행 스케쥴러(5022)는 파이프라인 모델(5023)에 포함된 분석 도구들의 순차적 실행을 스케쥴링할 수 있다(S6020).

작업 실행부(5025)는 각 분석 도구를 실행하고 작업 상태를 모니터링하거나 관리할 수 있다(S6030). 이 때, 분석 도구의 실행에 의한 생명 정보 분석 작업은 파이프라인 실행 서버(5020)와 연결된 컴퓨팅 자원(5030)에 의해 실행이 가능하다. 컴퓨팅 자원(5030)과의 연결은 배치큐 인터페이스(5028)에 의해 이루어진다.

각 분석 도구를 서로 연계되어 있으므로 특정 분석 도구를 실행한 후 출력되는 데이터는 다른 분석 도구의 입력으로 사용된다. 분석 도구 간의 입출력 데이터 형식이 상이할 수 있으므로 링크 변환부(5026)는 입출력을 연계하는 데이터 변환 스크립트를 실행할 수 있다(S6040).

파이프라인에 대한 실행이 완료되면 결과 데이터는 데이터 베이스(5040)에 저장되고(S6050), 파이프라인 모델은 객체-관계 맵퍼(ORM, object-relation mapper, 5027)에 의해 객체-관계 맵핑되어 데이터 베이스에 저장된다(S6060). 데이터 베이스(5040)에 결과 데이터와 파이프라인 모델을 저장하는 단계(S6050)는 본 발명에서 필수적인 구성요소가 아니며 실시예에 따라 배제될 수 있다.

이상과 같이 본 발명은 비록 한정된 실시 예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시 예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

도면의 주요 부분에 대한 부호의 설명은 다음과 같다.
5010: 클라이언트 5011: 파이프라인 디자이너
5012: 실행 상황 모니터 5013: 데이터 업로더
5020: 파이프라인 실행 서버 5021: 요청 처리부
5022: 파이프라인 실행 스케쥴러 5023: 파이프라인 모델
5024: 입출력 데이터 5025: 작업 실행부
5026: 링크 변환부 5027: 객체-관계 맵퍼
5028: 배치큐 인터페이스 5029: 저장 입출력 인터페이스
5030: 컴퓨팅 자원 5040: 저장 자원

Claims

클라이언트로부터 생명 정보 분석 파이프라인 모델을 수신하고, 상기 파이프라인 모델에 포함된 복수의 분석 작업들을 순차적으로 스케쥴링하여 실행을 명령하고, 상기 분석 작업들 간의 입출력을 연계하는 데이터 변환을 실행하는 파이프라인 실행 서버;
상기 파이프라인 실행 서버에 의해 스케쥴링된 분석 작업 실행 명령에 따라 각 분석 작업을 실행하는 클러스터 컴퓨팅 장치; 및
상기 클러스터 컴퓨팅 장치에 의해 실행된 분석 작업의 결과 및 상기 파이프라인 모델을 저장하는 저장 장치;를 포함하고,
이때 상기 파이프라인 모델은, 유전체 서열로부터 유전자의 위치를 예측하고, 상기 예측된 위치의 서열을 추출하여 단백질 서열로 변환한 후, 상기 저장 장치로부터 상기 단백질 서열에 대응되는 서열 목록을 검색하여 출력하는 생명 정보 분석파이프라인 처리 시스템.
제 1항에 있어서, 상기 파이프라인 실행 서버는,
상기 각 분석 작업에 대해 상기 클러스터 컴퓨팅 장치와 연계시켜 실행을 명령하는 생명 정보 분석파이프라인 처리 시스템.
제 1항에 있어서, 상기 파이프라인 실행 서버는,
상기 파이프라인 모델을 관계형 데이터 베이스와 객체-관계 맵핑하여 출력하고, 상기 파이프라인 모델은 객체 지향 데이터 모델인 것을 포함하는 생명 정보 분석파이프라인 처리 시스템.
제 1항에 있어서, 상기 분석 작업은,
명령행 기반(CommandLine) 실행 방식, 웹서비시스 기반(WebServices) 실행 방식 및 스크립트 기반(Script) 실행 방식으로 이루어지는 것을 포함하는 생명 정보 분석파이프라인 처리 시스템.
제 1항에 있어서, 상기 데이터의 형식은,
Ontology Web Language(OWL)를 사용하는 생명 정보 분석파이프라인 처리 시스템.
제 1항에 있어서, 상기 파이프라인 모델은,
생명 정보를 분석하는 적어도 한 개 이상의 분석 작업들, 상기 각 분석 작업들을 연계하는 링크들 및 상기 입출력의 데이터 형식을 변환하는 데이터 변환 스크립트를 포함하는 생명 정보 분석파이프라인 처리 시스템.
제 1항에 있어서, 상기 생명 정보는,
서열 데이터, 서열 정렬 데이터, 단백질구조 또는 분자 상호작용 네트워크 중 적어도 어느 하나를 포함하는 생명 정보 분석파이프라인 처리 시스템.
클라이언트로부터 생명 정보 분석 파이프라인 모델을 수신하는 단계;
상기 파이프라인 모델에 포함된 복수의 분석 작업들을 순차적으로 스케쥴링하여 실행을 명령하는 단계;
상기 스케쥴링된 분석 작업 실행 명령에 따라 각 분석 작업을 실행하는 단계;
상기 분석 작업들 간의 입출력을 연계하는 데이터 변환을 실행하는 단계; 및
상기 실행된 분석 작업의 결과 및 상기 파이프라인 모델을 저장하는 단계;를 포함하고,
이때 상기 파이프라인 모델은, 유전체 서열로부터 유전자의 위치를 예측하고, 상기 예측된 위치의 서열을 추출하여 단백질 서열로 변환한 후, 상기 저장 장치로부터 상기 단백질 서열에 대응되는 서열 목록을 검색하여 출력하는 생명 정보 분석 파이프라인 처리 방법.
제 8항에 있어서, 상기 각 분석 작업을 실행하는 단계는,
상기 각 분석 작업을 클러스터 컴퓨팅 장치와 연계하여 실행하는 생명 정보 분석파이프라인 처리 방법.
제 8항에 있어서,
상기 파이프라인 모델은 관계형 데이터 베이스와 객체-관계 맵핑되어 저장되고, 상기 파이프라인 모델은 객체 지향 데이터 모델인 것을 포함하는 생명 정보 분석파이프라인 처리 방법.
제 8항에 있어서, 상기 분석 작업은,
명령행 기반(CommandLine) 실행 방식, 웹서비시스 기반(WebServices) 실행 방식 및 스크립트 기반(Script) 실행 방식으로 이루어지는 것을 포함하는 생명 정보 분석파이프라인 처리 방법.
제 8항에 있어서, 상기 데이터의 형식은,
Ontology Web Language(OWL)를 사용하는 생명 정보 분석파이프라인 처리 방법.
제 8항에 있어서, 상기 파이프라인 모델은,
생명 정보를 분석하는 적어도 한 개 이상의 분석 작업들, 상기 각 분석 작업들을 연계하는 링크들 및 상기 입출력의 데이터 형식을 변환하는 데이터 변환 스크립트를 포함하는 생명 정보 분석파이프라인 처리 방법.
제 8항에 있어서, 상기 생명 정보는,
서열 데이터, 서열 정렬 데이터, 단백질구조 또는 분자 상호작용 네트워크 중 적어도 어느 하나를 포함하는 생명 정보 분석파이프라인 처리 방법.
삭제
삭제