KR101494864B1 - Proteomics service system using cloud computing and the method for the same - Google Patents

Proteomics service system using cloud computing and the method for the same Download PDF

Info

Publication number
KR101494864B1
KR101494864B1 KR20110050019A KR20110050019A KR101494864B1 KR 101494864 B1 KR101494864 B1 KR 101494864B1 KR 20110050019 A KR20110050019 A KR 20110050019A KR 20110050019 A KR20110050019 A KR 20110050019A KR 101494864 B1 KR101494864 B1 KR 101494864B1
Authority
KR
South Korea
Prior art keywords
module
proteomics
sample data
program
search
Prior art date
Application number
KR20110050019A
Other languages
Korean (ko)
Other versions
KR20120131678A (en
Inventor
이문수
Original Assignee
주식회사 이노테라피
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이노테라피 filed Critical 주식회사 이노테라피
Priority to KR20110050019A priority Critical patent/KR101494864B1/en
Publication of KR20120131678A publication Critical patent/KR20120131678A/en
Application granted granted Critical
Publication of KR101494864B1 publication Critical patent/KR101494864B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 클라이언트의 요청에 응답해서 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템에 있어서, 사용자가 수행되어야 할 하나 이상의 프로그램의 순서를 입력하는 워크플로우 정의 모듈; 상기 하나 이상의 프로그램에 따른 입력 파일 및 출력 파일 형식으로 샘플데이터의 정보를 변환하는 입출력 정보 변환 모듈; 및 상기 하나 이상의 프로그램을 수행시키기 위해 프로그램별로 실행 스케줄러(job scheduler) 모듈에 제출가능한 스크립트(script)를 생성하는 실행 스크립트(job scripts) 생성 모듈을 포함하는 것을 특징으로 한다.The present invention provides a system for providing a proteomics service based on a cloud computing network that provides a proteomics service in response to a request from a client, the system comprising: a workflow definition module for inputting a sequence of one or more programs to be performed by a user; An input / output information conversion module for converting information of sample data in an input file and an output file format according to the at least one program; And a job script generation module for generating a script that can be submitted to the job scheduler module for each program in order to execute the one or more programs.

Description

클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템 및 그에 의한 서비스 제공방법{Proteomics service system using cloud computing and the method for the same}TECHNICAL FIELD [0001] The present invention relates to a system for providing a proteomics service based on a cloud computing network,

클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템 및 그에 의한 서비스 제공방법에 관한 것이다.The present invention relates to a system for providing a proteomics service based on a cloud computing network and a method for providing the service.

바이오 분야의 계산, 기계공학의 계산 문제의 경우 한 개 이상의 응용 프로그램들이 순차적으로 실행되어 최종 결과물을 얻는 형태가 대부분이다.In the case of computational problems in computation of bio-field and mechanical engineering, one or more application programs are sequentially executed to obtain the final result.

현재는 이러한 다수의 프로그램이 연동된 연산의 처리를 위하여 하나의 프로그램을 수행해서 나온 결과물을 수동으로 처리하고 다음 프로그램을 수행하는 형태로 작업을 진행한다.Currently, many of these programs process a single program for processing interlocked operations, process the output manually, and then work on the next program.

프로테오믹스 관련된 작업들은 실험 결과로부터 분석을 완료한 결과를 얻기까지, 다수의 파일들을 다양한 프로그램으로 처리하는 수동 작업들이 수반된다. 이러한 작업들은 입력 파일 형식이 다른 다양한 프로그램을 위한 입력 파일변환, 단계적으로 수행되어야 할 프로그램 등의 연동 등이 수반된다.Proteomics-related tasks involve manual tasks that process a large number of files into various programs, from obtaining experimental results to obtaining the results of the analysis. These tasks involve input file conversion for various programs with different input file formats, interworking of programs to be executed step by step, and the like.

본 발명은 상기한 바와 같은 문제를 해결하기 위해 안출된 것으로 연동작업에서 발생하는 수동 작업을 제거하고 복잡한 연산과정을 자동화하는데 그 목적이 있다.SUMMARY OF THE INVENTION The present invention has been made in order to solve the above problems, and it is an object of the present invention to eliminate a manual operation occurring in an interlocking operation and automate a complicated operation process.

생명공학 연구의 특성상, 프로테오믹스 분석법은 미완성된 데이터베이스를 이용하여, 가능성이 높은 결과치의 Pool을 선별한 후, 본 검색결과가 다음 단계의 생명공학 연구 방법을 수행함에 있어 재투입되는 특성이 있어, Due to the nature of biotechnology research, the proteomics method is characterized by the use of an incomplete database to select a pool of possible outcomes and then to re-enter the next step in performing the biotechnology research method,

본 발명은 여러 검색 알고리즘을 동시에 분석하여, 결과를 비교분석하고, 원하는 분석결과를 선별할 수 있는 UI가 제공되어야 하고, The present invention needs to provide a UI capable of simultaneously analyzing various search algorithms, comparing and analyzing results, and selecting desired analysis results,

프로테오믹스 서비스를 이용하는 생명공학 연구 분야의 다양성에 따라, 검색하고자 하는 기준(Criteria) 및 그 중요도가 상이하기 때문에, 생명공학 연구자들이 샘플데이터에 따라 다양한 워크플로우를 가능하게 하고,Because of the diversity of biotechnology research areas that use proteomics services, biotechnology researchers can make various workflows based on sample data,

다양한 검색 알고리즘, 데이터베이스 이용법이 서비스 상에서 자동업데이트가 되며,Various search algorithms and database usage are automatically updated on the service,

생명공학 유저가 원하는 분석을 수행할 경우, 자체적인 서버 투자 없이 포탈 서비스에서 해결가능하다.When biotechnology users perform the analysis they want, it can be solved in the portal service without investing in their own servers.

본 발명에 따른 클라이언트의 요청에 응답해서 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템은, 사용자가 수행되어야 할 하나 이상의 프로그램의 순서를 입력하는 워크플로우 정의 모듈; 상기 하나 이상의 프로그램에 따른 입력 파일 및 출력 파일 형식으로 샘플데이터의 정보를 변환하는 입출력 정보 변환 모듈; 및 상기 하나 이상의 프로그램을 수행시키기 위해 프로그램별로 실행 스케줄러(job scheduler) 모듈에 제출가능한 스크립트(script)를 생성하는 실행 스크립트(job scripts) 생성 모듈을 포함하는 것을 특징으로 한다.A system for providing a proteomics service based on a cloud computing network that provides a proteomics service in response to a request from a client according to the present invention includes a workflow definition module for inputting a sequence of one or more programs to be performed by a user; An input / output information conversion module for converting information of sample data in an input file and an output file format according to the at least one program; And a job script generation module for generating a script that can be submitted to the job scheduler module for each program in order to execute the one or more programs.

본 발명에 따르면, 상기 실행 스케줄러 모듈은 상기 스크립트에 따라 클라우드 멤버들을 선택하고 상기 클라우드 멤버들이 지원하는 형식으로 상기 샘플데이터를 변환하여 상기 샘플 데이터 및 검색 시작 명령을 전송하는 것을 특징으로 한다.According to the present invention, the execution scheduler module selects cloud members according to the script, converts the sample data into a format supported by the cloud members, and transmits the sample data and the search start command.

본 발명에 따르면, 상기 워크플로우 정의 모듈은 그래픽 유저 인터페이스(GUI)에서 지정되는 것을 특징으로 한다.According to the present invention, the workflow definition module is specified in a graphical user interface (GUI).

본 발명에 따르면, 상기 프로그램은 미리 정의된 카달로그 상에 존재하거나 신규등록도 가능한 것을 특징으로 한다.According to the present invention, the program is present on a predefined catalog or can be newly registered.

본 발명에 따르면, 상기 실행 스케줄러 모듈의 검색 시작 명령에 따라 상기 클라우드 멤버들에서 검색한 결과를 전송하여 저장하는 통합서버를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, there is provided an integrated server for transmitting and storing search results from the cloud members according to a search start command of the execution scheduler module.

본 발명에 따르면, 상기 통합서버에 저장된 검색 결과를 분석하여 분석 결과를 생성하고, 보고서를 생성하여 재저장하는 것을 특징으로 한다.According to the present invention, an analysis result is generated by analyzing a search result stored in the integration server, and a report is generated and restored.

본 발명에 따르면, 생성된 상기 분석 결과 및 보고서는 사용자 인터페이스(UI) 상에서 접근 가능한 것을 특징으로 한다.According to the present invention, the generated analysis result and report are accessible on a user interface (UI).

본 발명에 따르면, 상기 사용자 인터페이스(UI) 상에서 사용자 신청 및 인증을 위한 사용자 로그인 모듈을 포함하는 것을 특징으로 한다.According to the present invention, a user login module for user application and authentication on the user interface (UI) is included.

본 발명에 따르면, 상기 사용자 인터페이스(UI) 상에서 다양한 종류의 상기 샘플 데이터를 업로드하기 위한 업로드 모듈을 포함하는 것을 특징으로 한다.According to the present invention, an upload module for uploading various kinds of sample data on the user interface (UI) is included.

본 발명에 따르면, 상기 프로그램은 프로테오믹스 데이터 베이스 검색 알고리즘인 OMSSA 또는 X!Tandem인 것을 특징으로 한다.According to the present invention, the program is characterized by being a proteomics database search algorithm OMSSA or X! Tandem.

본 발명에 따르면, 상기 프로테오믹스 데이터 베이스 검색 알고리즘이 적용된 VM(virtual machine)이미지가 구동가능하도록 하는 클라우드 인프라 연동 모듈을 포함하는 것을 특징으로 한다.According to the present invention, a cloud infrastructure interworking module for enabling a virtual machine (VM) image to which the proteomics database search algorithm is applied can be driven.

본 발명에 따르면, 상기 실행 스케줄러 모듈은 상기 VM간의 작업 분배 및 리소스를 관리하고, 상기 VM의 성능 모니터링 및 작업 시간 예측 알고리즘을 구현하며, 대기 시간 단축을 위해 상기 VM간의 작업 재분배 알고리즘을 구현하는 것을 특징으로 한다.
According to the present invention, the execution scheduler module manages the task distribution and resources between the VMs, implements the performance monitoring and task time prediction algorithms of the VMs, and implements a task redistribution algorithm between the VMs to reduce latency .

본 발명에 따른 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법은 클라이언트의 요청에 응답해서 프로테오믹스 서비스를 제공하기 위해, 클라이언트가 수행되어야 할 하나 이상의 프로그램의 순서를 정의하는 워크플로우 정의 단계; 하나 이상의 프로그램에 따른 입력 파일 및 출력 파일 형식으로 샘플 데이터의 정보를 변환하는 입출력 정보 변환 단계; 및 하나 이상의 프로그램을 수행시키기 위해 프로그램별로 실행 스케줄러 모듈에 제출가능한 스크립트(script)를 생성하는 실행 스크립트(job scripts) 생성 단계을 포함하는 것을 특징으로 한다.A method for providing a proteomics service based on a cloud computing network providing a proteomics service according to the present invention includes defining a sequence of one or more programs to be executed by a client in order to provide a proteomics service in response to a request from a client; An input / output information conversion step of converting information of sample data into an input file and an output file format according to one or more programs; And a job script generation step of generating a script that can be submitted to the execution scheduler module for each program in order to execute one or more programs.

본 발명에 따른 실행 스케줄러 모듈은 스크립트에 따라 클라우드 멤버들을 선택하고 클라우드 멤버들이 지원하는 형식으로 상기 샘플데이터를 변환하여 상기 샘플 데이터 및 검색 시작 명령을 전송하는 것을 특징으로 한다.The execution scheduler module according to the present invention selects cloud members according to a script and converts the sample data into a format supported by cloud members, and transmits the sample data and the search start command.

본 발명에 따른 워크플로우 정의 단계는 그래픽 유저 인터페이스(GUI)에서 지정되는 것을 특징으로 한다.The workflow definition step according to the present invention is characterized in that it is specified in a graphical user interface (GUI).

본 발명에 따른 프로그램은 미리 정의된 카달로그 상에 존재하거나 신규등록도 가능한 것을 특징으로 한다.The program according to the present invention is present on a predefined catalog or can be newly registered.

본 발명에 따르면, 실행 스케줄러 모듈의 검색 시작 명령에 따라 클라우드 멤버들에서 검색한 결과를 통합서버에 전송하여 저장하는 저장단계를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, there is provided a computer readable recording medium storing a program for causing a computer to execute the steps of: receiving a search start command from an execution scheduler module;

본 발명에 따르면, 통합서버에 저장된 검색 결과를 분석하여 분석 결과를 생성하고, 보고서를 생성하여 재저장하는 분석결과 생성 단계를 포함하는 것을 특징으로 한다.According to the present invention, an analysis result generation step of analyzing a search result stored in the integration server, generating an analysis result, and generating and restoring a report is provided.

본 발명에 따르면, 생성된 상기 분석 결과 및 보고서는 사용자 인터페이스(UI) 상에서 접근 가능한 것을 특징으로 한다.
According to the present invention, the generated analysis result and report are accessible on a user interface (UI).

본 발명에 따른 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법은 웹상의 서비스 제공 포털에 접속한 후에 웹상의 사용자 인터페이스(UI) 상에서 사용자 신청 및 인증을 위한 사용자 로그인 단계를 포함하고, 상기 사용자 인터페이스(UI) 상에서 다양한 종류의 상기 샘플 데이터를 업로드하기 위한 업로드 단계를 포함하는 것을 특징으로 한다.A method of providing a proteomics service based on a cloud computing network that provides a proteomics service according to the present invention includes a user login step for user application and authentication on a user interface (UI) on the web after accessing a service providing portal on the web, And an upload step of uploading various kinds of the sample data on a user interface (UI).

본 발명에 따른 프로그램은 프로테오믹스 데이터 베이스 검색 알고리즘인 OMSSA 또는 X!Tandem인 것을 특징으로 한다.The program according to the present invention is characterized by being a proteomics database search algorithm OMSSA or X! Tandem.

본 발명에 따르면, 프로테오믹스 데이터 베이스 검색 알고리즘이 적용된 VM(virtual machine)이미지가 클라우드 인프라 연동 모듈에 의해 구동가능한 것을 특징으로 한다.According to the present invention, a virtual machine (VM) image to which a proteomics database search algorithm is applied can be driven by a cloud infrastructure interworking module.

본 발명에 따른 실행 스케줄러 모듈은 VM간의 작업 분배 및 리소스를 관리 하고, VM의 성능 모니터링 및 작업 시간 예측 알고리즘을 구현하며, 대기 시간 단축을 위해 상기 VM간의 작업 재분배 알고리즘을 구현하는 것을 특징으로 한다.
The execution scheduler module according to the present invention is characterized in that it manages work distribution and resources among VMs, implements VM performance monitoring and work time predicting algorithms, and implements a work redistribution algorithm between the VMs to reduce waiting time.

공개 소프트웨어 기반의 OMSSA, X!Tandem 등의 프로테오믹스 프로그램을 클라우드 컴퓨팅 인프라에 이식하여 컴퓨팅 자원의 제약 없이 클라우드 인프라에서 작업수행을 가능하게 한다. 이를 통하여 고가의 IT 자원을 구매할 필요 없이 단백질 데이터베이스 검색을 다양한 알고리즘, 단일 검색의 빠른 처리 속도, 복수의 검색에 대한 높은 처리량(throughput), 사용자 증가에 따른 확장성(Scalability)을 제공하는 효과가 있다.Proteomics programs such as OMSSA and X! Tandem, which are based on open software, are ported to the cloud computing infrastructure to enable work in the cloud infrastructure without restrictions on computing resources. This provides a variety of algorithms, a fast processing speed of a single search, a high throughput for a plurality of searches, and scalability due to an increase in users, without the need to purchase expensive IT resources .

또한, IT 비전문가인 프로테오믹스 연구자의 접근성을 높이기 위하여 편리한 UI를 제공하는 포탈을 통하여 작업을 제출하고, 단순/반복 작업을 제거하는 워크플로우 엔진이 제공되며, 다양한 클라우드 서비스 팜이 연동 가능하도록 스케줄링되어, 사용자가 제출한 작업을 빠른 시간 내에 포탈에서 확인하는 것이 가능하다.In addition, to increase accessibility of non-IT proteomics researchers, a workflow engine that submits work through a portal providing a convenient UI and eliminates simple and repetitive tasks is provided, and various cloud service farms are scheduled to be linked, It is possible to check the user submitted work quickly in the portal.

또한, 본 발명은 쉬운 UI를 통해 다양한 검색 알고리즘을 선택가능하고, 각기 다른 데이터 포맷에 따른 다양한 명령어 사용에 어려움이 없고, 검색 알고리즘을 설치하지 않고 로그인만으로 이용 가능하다.In addition, the present invention can select various search algorithms through an easy UI, has no difficulty in using various commands according to different data formats, and can be used only by logging in without installing a search algorithm.

또한, 본 발명은 일관된 워크플로우(workflow)를 통한 다양한 검색 알고리즘을 사용가능하고, 여러 검색 알고리즘을 통한 결과를 비교 분석 가능하다.In addition, the present invention can use various search algorithms through a consistent workflow, and can compare and analyze results through various search algorithms.

또한, 본 발명은 클라우드 환경하에서 검색 알고리즘 변경시 자동 업데이트가 되며, DNA 정보 변경시에도 자동 업데이트가 된다. Further, the present invention is automatically updated when a search algorithm is changed in a cloud environment, and is automatically updated even when DNA information is changed.

또한, 본 발명은 단일 서버 환경에서 검색 시간이 많이 걸리는 종래의 단점을 클라우드 환경하에서 수행함으로써, 검색 시간을 단축하고, 가변적인 리소스 사용에 따른 클라우드 프로비전닝을 제공한다.In addition, the present invention provides a cloud provisioning according to a variable resource usage by shortening a search time by performing a conventional disadvantage that a search time is long in a single server environment under a cloud environment.

또한, 본 발명은 검색 결과 데이터 크기가 수십 MB 이상임에도, 콘솔이나 ActiveX를 통한 뷰어 속도가 향상되어, 웹에서 데이터 결과를 빠르게 볼 수 있다.
In addition, the present invention improves the viewer speed through the console or ActiveX, even though the size of the search result data is more than tens MB, and the data result on the web can be seen quickly.

도 1은 본 발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템의 개념도이다.
도 2는 본 발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스에 대한 구조 및 클라우드 인프라 연동 모듈의 위치를 도시한다.
도 3은 연동 모듈 프로그램 구조이다.
도 4는 본 발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)에서 워크플로우 모듈을 실행한 디자인 결과를 나타낸다.
도 5는 X!Tandem을 이용한 분석 절차를 도시한다.
도 6은 가상 서버에서 X!Tandem을 수행한 화면이다.
도 7은 가상서버에서 X!Tandem 자원 사용 현황이다.
도 8은 Tandem2XML을 이용하여 변환된 데이터를 나타낸다
도 9는 펩티드 분석을 위한 설정화면을 도시한다.
도 10은 펜티드 분석 완료 화면이다.
도 11은 분석된 펩티드 정보를 나타낸다.
도 12는 단백질 분석 설정 화면이다.
도 13은 분석된 단백질 결과에서 임계값을 설정하는 화면이다.
도 14는 단백질 최종 분석결과를 나타내는 화면이다.
도 15는 본 발명에 따른 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법에 관한 순서도이다.
1 is a conceptual diagram of a system for providing a proteomics service based on a cloud computing network according to the present invention.
FIG. 2 shows a structure of a cloud computing network-based proteomics service and a location of a cloud infrastructure interworking module according to the present invention.
3 is a structure of an interlocking module program.
4 shows a design result of executing a workflow module in a system 1 for providing a proteomics service based on a cloud computing network according to the present invention.
5 shows an analysis procedure using X! Tandem.
6 is a screen in which X! Tandem is performed in the virtual server.
7 shows the usage status of X! Tandem resources in the virtual server.
Figure 8 shows the transformed data using Tandem2XML
Fig. 9 shows a setting screen for peptide analysis.
Fig. 10 is a pentide analysis completed screen.
Figure 11 shows the analyzed peptide information.
12 is a protein analysis setting screen.
13 is a screen for setting a threshold value in the analyzed protein result.
Fig. 14 is a screen showing the final analysis result of the protein.
15 is a flowchart illustrating a method of providing a proteomics service based on a cloud computing network for providing a proteomics service according to the present invention.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다. 우선, 도면들 중 동일한 구성요소 또는 부품들은 가능한 한 동일한 참조부호를 나타내고 있음에 유의해야 한다. 본 발명을 설명함에 있어서 관련된 공지기능 혹은 구성에 대한 구체적인 설명은 본 발명의 요지를 모호하게 하지 않기 위해 생략한다.
Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. First, it should be noted that the same components or parts among the drawings denote the same reference numerals whenever possible. In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted so as not to obscure the subject matter of the present invention.

도 1은 본 발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템의 개념도이다.1 is a conceptual diagram of a system for providing a proteomics service based on a cloud computing network according to the present invention.

도 1에 도시된 본 발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)은 클라이언트(100)의 요청에 응답해서 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)으로서, 대학교 연구자, 바이오 관련 연구소, 제약/R&D 기업과 같은 사용자가 클라이언트(100)를 통해 웹상에서 제공되는 프로테오믹스 서비스 제공 시스템을 사용하기 위해 포털에 접속하여 사용자 인터페이스(UI) 상에서 사용자 로그인 모듈(200)을 통해 사용자 신청과 사용자 인증 절차를 거치게 되고, 분석하고자 하는 다양한 종류의 샘플 데이터를 웹을 통해 업로드하기 위한 업로드 모듈(300)을 포함한다.1, a system 1 for providing a proteomics service based on a cloud computing network is a system 1 for providing a proteomics service based on a cloud computing network that provides a proteomics service in response to a request from a client 100, A user such as a university researcher, a biotechnology research institute, a pharmaceutical / R & D company accesses the portal to use the proteomics service providing system provided on the web via the client 100 and accesses the user login module 200 on a user interface (UI) And an upload module 300 for uploading various types of sample data to be analyzed through the web, through a user application and a user authentication procedure.

업로드 시간을 단축하기 위해 다양한 압축 기술이 적용가능하고, 업로드된 샘플 데이터는 통합서버(2)의 데이터 베이스에 저장되어 관리되고, 1~n개의 가상서버인 클라우드 멤버(3)에 샘플데이터가 배포되게 된다.
In order to shorten the uploading time, various compression techniques can be applied. The uploaded sample data is stored and managed in the database of the integration server 2, and sample data is distributed to the cloud member 3 as 1 to n virtual servers .

샘플 데이터가 업로드된 상태에서 사용자는 사용자 인터페이스(UI) 상의 워크플로우 정의 모듈(400)에서 수행되어야 할 하나 이상의 프로그램의 순서를 입력하게 된다. In the state where the sample data is uploaded, the user inputs a sequence of one or more programs to be performed in the workflow definition module 400 on the user interface (UI).

워크플로우 정의 모듈(400)에서의 사용자 입력 편의를 위하여 그래픽 유저 인터페이스(GUI)가 사용되는 것이 바람직하다.A graphical user interface (GUI) is preferably used for user input convenience in the workflow definition module 400.

여기서, 프로그램은 프로테오믹스 데이터 베이스 검색 알고리즘을 말하고, 프로테오믹스 데이터 베이스 검색 알고리즘에는 OMSSA 또는 X!Tandem 등이 있고, 검색방법에 따라 하나 또는 여러 검색 알고리즘의 선택이 가능하다.Here, the program refers to a proteomic database search algorithm, and the proteomic database search algorithm includes OMSSA or X! Tandem, and one or several search algorithms can be selected according to the search method.

워크플로우 정의 모듈(400)에서 실행되어야 할 프로그램들의 선후 순서가 지정되는데 프로그램들은 미리 정의된 카달로그 상에 존재하거나 신규로 등록할 수도 있다.프로그램 정보에는 프로그램들의 입출력 파일 양식이 포함되어 있다.
The order of the programs to be executed in the workflow definition module 400 is specified, and the programs may be present in a predefined catalog or newly registered. The program information includes an input / output file format of the programs.

샘플 데이터를 하나 이상의 프로그램에서 실행해야 되고, 프로그램별로 입출력 파일 형식이 서로 상이하므로, 입출력 정보 변환 모듈(500)은 입출력 파일의 양식을 각각의 프로그램에서 인식가능한 파일 형식으로 변환시킨다.The input / output information conversion module 500 converts the format of the input / output file into a file format recognizable by each program, since the input / output file format differs from one program to another.

실행 스케줄러 모듈(700)은 워크플로우 정의 모듈(400)에서 지정된 프로그램 순서에 따라 미리 등록된 계산 자원인 복수개의 클라우드 멤버(3)를 선택하고, 선택된 클라우드 멤버(3)에 샘플 데이터를 전송하며, 샘플 데이터 전송 후 검색 시작 명령을 전송하게 된다. 검색 시작 명령을 전송하기 위해서는 복수개의 클라우드 멤버(3)에 저장된 프로그램별로 명령어 집합인 실행 스크립트(job scripts)를 생성해야 되는데 이를 실행 스크립트(job scripts) 생성 모듈(600)에서 수행한다.The execution scheduler module 700 selects a plurality of cloud members 3 which are previously registered calculation resources in accordance with the program order specified in the workflow definition module 400 and transmits the sample data to the selected cloud member 3, After transmitting the sample data, the search start command is transmitted. In order to transmit the search start command, job scripts, which are a set of instructions, are generated for each program stored in the plurality of cloud members 3, and the job scripts are generated by the job scripts generating module 600.

즉, 실행 스크립트 생성모듈(600)에서 생성된 스크립트는 실행 스케줄러 모듈(700)에 전송되고 실행 스케줄러 모듈(700)은 스크립트에 따라 클라우드 멤버(3)를 선택하고, 샘플 데이터를 전송하여 검색을 수행하게 된다.That is, the script generated by the execution script generation module 600 is transmitted to the execution scheduler module 700, the execution scheduler module 700 selects the cloud member 3 according to the script, and transmits the sample data to perform the search .

실행 스크립트 생성모듈(600)에서는 프로그램 별로 생성된 스크립트를 병합하여 최종적인 단일 스크립트를 생성한다.
In the execution script generation module 600, a final single script is generated by merging the scripts generated for each program.

각각의 클라우드 멤버(3)는 서로 다른 검색 알고리즘을 가지고 있어, 여러 검색 알고리즘을 통한 결과를 비교 분석하기 용이하다.Each cloud member (3) has a different search algorithm, and it is easy to compare and analyze the results through various search algorithms.

클라우드 멤버(3)들에서 검색한 결과는 통합서버(2)에 전송되고, 통합서버(2) 상의 데이터베이스(DB)에 저장된다.The results retrieved from the cloud members 3 are transmitted to the integration server 2 and stored in the database DB on the integration server 2. [

통합서버(2)에 저장된 검색결과는 분석툴을 이용하여 검색 결과를 분석하여 분석 결과를 생성하게 되고, 사용자의 요구에 따라 다양한 보고서로 생성되어 사용자가 지정한 메일로 전송되거나 향후 재확인을 위해 통합서버(2)의 데이터베이스에 저장되어진다.The search result stored in the integration server 2 is analyzed by using an analysis tool to generate an analysis result. Various reports are generated according to a user's request and transmitted to a mail designated by the user, or an integrated server 2).

여기서 분석툴은 TPP(trans proteomic pipeline)과 같은 툴이 이용될 수 있고, 이러한 분석툴에 의해 검색 결과를 이용하여 단백질 분석이 가능하다.Here, a tool such as a TPP (trans proteomic pipeline) can be used as an analysis tool, and protein analysis can be performed using the search result by this analysis tool.

생성된 상기 분석 결과 및 보고서는 사용자 인터페이스(UI) 상에서 접근 가능하다.The generated analysis results and reports are accessible on a user interface (UI).

도 2는 본 발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스에 대한 구조 및 클라우드 인프라 연동 모듈의 위치를 도시한다.FIG. 2 shows a structure of a cloud computing network-based proteomics service and a location of a cloud infrastructure interworking module according to the present invention.

도 2에 도시된 바와 같이, 본 발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)은 프로테오믹스 검색 알고리즘을 클라우드 멤버들(3)에 이식하여 패키징하여 활용되고, VM(virtual machine) 형태의 이미지를 등록 활용할 수 있도록 지원된다.2, a system 1 for providing a proteomics service based on a cloud computing network according to the present invention is implemented by implanting a proteomics search algorithm into the cloud members 3 and packaging the same, Image registration is supported.

클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)은 프로테오믹스 검색 알고리즘이 이식되어 있는 VM 이미지들이 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)에서 동적으로 구동될 수 있도록 하는 클라우드 인프라 연동 모듈(800)을 추가로 포함할 수 있다.The system 100 for providing a proteomics service based on a cloud computing network includes a cloud infrastructure interworking module 800 for allowing VM images to which the proteomics search algorithm is implanted to be dynamically driven in the system 100 for providing a proteomics service based on the cloud computing network, May be further included.

클라우드 인프라 연동 모듈(800)을 포함하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)에 있어서, 실행 스케줄러 모듈(700)은 VM간의 작업 분배 및 리소스를 관리하는 기능을 하고, VM의 성능을 모니터링하며, 작업 시간 예측 알고리즘이 구현되고, 대기 시간 단축을 위해 상기 VM간의 작업 재분배 알고리즘을 구현가능하다.
In the cloud computing network-based proteomics service providing system 1 including the cloud infrastructure interworking module 800, the execution scheduler module 700 functions to distribute tasks and manage resources among VMs, A work time predicting algorithm is implemented, and a work redistribution algorithm between the VMs can be implemented to shorten the waiting time.

클라우드 인프라 연동 모듈(800)은 외부 개발자 혹은 기업이 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)에 제공하는 여러 서비스, 예를 들면 동적 VM 이미지 관리 서비스, 스토리지 서비스(storage service), 청구 서비스(billing service) 및 연동된 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)에 따른 VM 이미지 자동 제공(provision) 서비스에 대한 오픈 API(Open API)를 제공한다.
The cloud infrastructure interworking module 800 may be used by an external developer or an enterprise to provide various services provided to the cloud computing network-based proteomics service providing system 1, for example, a dynamic VM image management service, a storage service, billing service and an open API for VM image automatic provision service according to a system 1 for providing a proteomics service based on an integrated cloud computing network.

오픈 API(application programming interface)는 RESTful 웹서비스(Web Service) 형식으로 되어 있어 단말의 영향 없이 HTTP 프로토콜이 지원되는 프레임워크나 서비스에 연동이 용이하며, 기본적으로 가상화된 서버 및 스토리지에 대한 제어나 관리에 대한 기능과 더불어 여러 컴퓨팅 리소스들을 사용할 수 있도록 한다.Open API (application programming interface) is a RESTful web service (Web Service) format, so it is easy to integrate with a framework or service that supports HTTP protocol without affecting the terminal. Basically, it controls and manages virtualized server and storage With the ability to use multiple computing resources.

이 서비스는 외부 network에서 접근 가능하도록 되어 있고, 이는 내부적으로 다른 서비스를 접근하는 것을 논리적으로 제한 가능하도록 한다.
This service is made accessible from an external network, which makes it logically restrictive to access other services internally.

도 3은 연동 모듈 프로그램 구조이다.3 is a structure of an interlocking module program.

도 3에 도시된 Queue는 JMS를 사용하기 위한 모듈이며, ActiveMQ의 상업 버전인 FUSE Message Broker를 이용하여 데이터를 송신하거나 수신하도록 하는 기능을 제공한다.The Queue shown in FIG. 3 is a module for using JMS, and provides a function of transmitting or receiving data by using the commercial version of ActiveMQ, FUSE Message Broker.

JSon은 JSON data 및 array 등을 다루기 위한 모듈이고, WADL은 문서화를 위한 WADL generator를 위한 모듈이며, REST Client는 각 서비스로 RESTful Web Service를 이용한 request를 하기 위한 client 모듈이며, HTTP Service는 외부에서 API Server로 접근하도록 하는 Web server 역할을 하기 위한 HTTP 서비스 모듈이며, memcached controller는 인증 등을 위한 memcached 이용을 위한 컨트롤러 모듈이고, Product Concerned는 Billing, Authorization, User, Product 및 bundle 관련 Open API 모듈로서, 이 모듈은 외부에서 HTTP 프로토콜을 이용한 Restful Web 서비스 형태의 접근이 가능한 구조로 외부 네트워크(network)에 노출된다.
JSON is a module for handling JSON data and array. WADL is a module for WADL generator for documenting. REST Client is a client module for requesting RESTful Web Service to each service. HTTP Service is API Server is an HTTP service module to serve as a web server. Memcached controller is a controller module for using memcached for authentication and Product Concerned is an Open API module related to Billing, Authorization, User, Product and bundle. The module is externally exposed to the external network as a structure that can access the form of Restful Web service using the HTTP protocol.

도 4는 본 발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)에서 워크플로우 모듈을 실행한 디자인 결과를 나타낸다.4 shows a design result of executing a workflow module in a system 1 for providing a proteomics service based on a cloud computing network according to the present invention.

도 4에 도시된 바와 같이 웹 UI를 통하여, 사용자가 사용자 로그인 후, 샘플 데이터를 업로드하고, 데이터 형식 및 검색 알고리즘을 워크플로우 정의 모듈(400)을 통해 지정하고, 클라우드 플랫폼에서는 실행 스케줄러 모듈(700)에 따라 가상서버인 클라우드 멤버들(3)과 연동하여, 신속하고 정확한 검색 결과를 도출할 수 있다.4, the user uploads the sample data after the user logs in through the Web UI, designates the data format and the search algorithm through the workflow definition module 400, and in the cloud platform, the execution scheduler module 700 , It is possible to obtain a quick and accurate search result in cooperation with the cloud members 3 which are virtual servers.

검색결과는 통합서버(2)상의 데이터베이스(DB)에 저장되고, 저장된 검색결과를 분석한 분석결과 및 보고서는 웹 UI를 통해 확인가능하다.
The search result is stored in a database (DB) on the integrated server (2), and the analysis result and report analyzing the stored search result can be confirmed through the Web UI.

본 발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)에서 검색 알고리즘이 X!Tandem인 경우 서비스 제공순서는 아래와 같다.If the search algorithm is X! Tandem in the system 1 for providing the proteomics service based on the cloud computing network according to the present invention, the service providing procedure is as follows.

X!Tandem은 단백질 동정을 위해 사용되는 소프트웨어이며, 프로테오믹스 실험법에 따라 획득한 질량분석 데이터(Tandem mass spectrum)와 데이터베이스 상의 펩타이드 시퀀스(peptide sequence)를 매치시켜서 단백질 동정을 실시하며, XML 파일 형태의 출력(output)을 제공한다. X! Tandem is a software used for protein identification. Protein identification is performed by matching the peptide sequence with the Tandem mass spectrum obtained according to the proteomics method. The output of the XML file lt; / RTI >

Trans Proteomic Pipeline (TPP)은 X!Tandem을 이용하여 매칭 된 결과를 가지고 펩티드(peptide) 분석과 단백질(protein) 분석을 위하여 필요한 솔루션이다.
The Trans Proteomic Pipeline (TPP) is a solution for peptides and protein analysis with matched results using X! Tandem.

도 5는 X!Tandem을 이용한 분석 절차를 도시한다.5 shows an analysis procedure using X! Tandem.

XCalibur 질량 분석기를 이용하여 분석된 샘플데이터(sample data)는 ReadW 프로그램을 이용하여 mzXML 데이터로 변환하며, mzXML 데이터는 X!Tandem에서 매칭에 사용되고 매칭 된 결과는 Tandem2XML을 이용하여 다시 XML 데이터로 변환함. 이렇게 변환된 XML 데이터는 TPP를 이용하여 펩티드(peptides) 분석 후에 단백질(protein) 분석을 하여 엑셀(excel) 데이터를 얻을 수 있으며, 도 5와 같은 분석 플로우(Flow)를 따른다. The sample data analyzed using the XCalibur mass spectrometer is converted into mzXML data using the ReadW program, the mzXML data is used for matching in X! Tandem, and the matched result is converted into XML data again using Tandem2XML . The converted XML data can be analyzed by protein analysis after peptides are analyzed using TPP to obtain excel data and follow the analysis flow as shown in FIG.

SampleSample 데이터를  Data mzXMLmzXML 포맷으로 변환 Convert to format

XCalibur 샘플 데이터는 ReadW.exe를 통하여 mzXML 데이터로 변환되고, 샘플 데이터 포맷은 제조사의 형식을 따르기 때문에 제조사가 제공하는 api를 이용하여야만 mzXML 데이터로 변환할 수가 있고, 질량분석기기 제조사가 제공하는 api는 dll 형태로 배포되기 때문에 Windows 환경에서 데이터를 변환 하여야 한다.
The XCalibur sample data is converted into mzXML data through ReadW.exe. Since the sample data format conforms to the manufacturer's format, it can be converted into mzXML data only by using the API provided by the manufacturer. The api provided by the mass spectrometer manufacturer Because it is distributed as a dll, you have to convert the data in Windows environment.

TandemTandem 검색 방법 How to search

변환된 mzXML 데이터는 Linux 환경에서 human fasta 데이터와 매칭을 수행한다.The converted mzXML data is matched with human fasta data in Linux environment.

Human fasta 데이터는 ascii 포맷으로 이루어져 있기 때문에 빠른 검색을 위하여 binary 포맷으로 변환하여야 한다.
Human fasta data is in ascii format and should be converted to binary format for fast searching.

Binary 형태의 human 데이터와 mzXML 데이터를 이용하여 X!Tandem으로 검색을 수행하게 되는데, 검색 조건을 지정하는 default_input.xml 파일과, database를 지정하는 taxonomy.xml 파일, 그리고 검색 방법을 지정하는 XML 파일로 구성하여 이렇게 지정한 파일을 이용하여 X!Tandem을 수행한다.
The search is performed with X! Tandem using binary data of human type and mzXML data. The default_input.xml file specifying the search condition, the taxonomy.xml file specifying the database, and the XML file specifying the search method And executes X! Tandem using the specified file.

즉, 입출력 변환 모듈(500)은 결과적으로 입력 파일의 형식, 출력 파일의 형식들을 통일된 XML 또는 유사한 형태로 변환한다. 통일된 형식으로 변환된 파일은 사용자가 지정한 형태로 자동 재가공 된다.That is, the input / output conversion module 500 consequently converts the format of the input file and the formats of the output file into unified XML or similar form. The file converted to the unified format is automatically re-processed in the format specified by the user.

신규 등록된 프로그램의 입출력 파일 양식은 사용자가 시스템이 지정한 스크립트 형태로 등록한다.
The input / output file format of the newly registered program is registered by the user in the form of a script designated by the system.

도 6은 가상 서버에서 X!Tandem을 수행한 화면이고, 도 7은 가상서버에서 X!Tandem 자원 사용 현황이다.FIG. 6 is a view showing X! Tandem performed in a virtual server, and FIG. 7 is a view showing usage of X! Tandem resources in a virtual server.

도 7에 도시된 바와 같이, X!Tandem 수행 시, CPU core 하나를 100% 차지하며 메모리는 185M 이상 소요된다. 메모리 사용량과 수행시간은 입력 데이터 크기에 따라 비례적으로 늘어나는데, 단일 core에서 수행하는 job을 여러 개의 가상 서버에서 수행하다면 수행시간을 단축하여 결과를 빠르게 피드백 할 수 있으므로, 본원발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)에서 복수개의 가상서버인 클라우드 멤버들(3)을 사용함으로써, 수행시간을 단축하는 결과를 얻는다.
As shown in FIG. 7, when X! Tandem is executed, one CPU core occupies 100%, and the memory takes 185M or more. Since the memory usage and the execution time are proportionally increased according to the size of the input data, if a job executed in a single core is performed in a plurality of virtual servers, the execution time can be shortened and the result can be quickly fed back. Based proteomics service providing system 1, the result of shortening the execution time is obtained by using the cloud members 3, which are a plurality of virtual servers.

도 8은 Tandem2XML을 이용하여 변환된 데이터를 나타낸다Figure 8 shows the transformed data using Tandem2XML

TandemTandem 결과를  Results XMLXML 포맷으로 변환 Convert to format

검색된 X!Tandem 결과를 분석하기 위해서는 XML 데이터로 다시 변환해야 한다. Tandem2XML은 이러한 변환을 해주는 프로그램으로 standard output으로 출력을 하며 ascii 포맷으로 저장할 수 있다.In order to analyze the X! Tandem results, we need to convert them back to XML data. Tandem2XML is a program that performs this conversion. It outputs standard output and can be saved in ascii format.

도 9는 펩티드 분석을 위한 설정화면을 도시한다. Fig. 9 shows a setting screen for peptide analysis.

TransTrans ProteomicProteomic PipelinePipeline 을 이용한 Using PeptidesPeptides 분석 analysis

Tandem2XML을 이용하여 변환된 XML 파일은 xinteract 프로그램을 이용하여 펩티드(peptides) 분석을 할 수 있으며, 도 9는 XML 파일을 선택하고 각종 패러미터를 설정할 수 있는 화면을 보여준다.
The converted XML file using Tandem2XML can analyze peptides using the xinteract program, and Fig. 9 shows a screen where an XML file can be selected and various parameters can be set.

도 10은 펜티드 분석 완료 화면이다. Fig. 10 is a pentide analysis completed screen.

펩티드(Peptides) 분석을 실행시키면 어느 정도 시간이 경과한 후에 실행된 결과를 볼 수 있으며, 웹상에서 수행하여 일괄 처리된 결과 데이터를 획득가능하다.
When Peptide analysis is executed, it is possible to observe the results after a certain period of time has elapsed, and it is possible to obtain the batch processed data by performing on the web.

도 11은 분석된 펩티드 정보를 나타낸다.Figure 11 shows the analyzed peptide information.

분석된 peptides 정보는 웹을 통해서 도 11과 같이 볼 수 있다.
The analyzed peptides information can be seen through the web as shown in FIG.

도 12는 단백질 분석 설정 화면이고, 도 13은 분석된 단백질 결과에서 임계값을 설정하는 화면이며, 도 14는 단백질 최종 분석결과를 나타내는 화면이다.FIG. 12 is a protein analysis setting screen, FIG. 13 is a screen for setting a threshold value from the analyzed protein results, and FIG. 14 is a screen showing a final analysis result of the protein.

TransTrans ProteomicProteomic PipelinePipeline 을 이용한 Using ProteinProtein 분석 및 결과 저장 Analyze and save results

펩티드(Peptide) 분석을 마친 XML 데이터는 도 12 및 13과 같은 단백질(Protein) 분석 과정을 거쳐서 최종 결과를 얻게 된다. 본 단계에서는 샘플 데이터에 따라, 다양한 임계값을 설정할 수 있으며, 결과치를 확인하면서 임계값을 조절하는 단계가 수반된다.
After the peptide analysis, the XML data is subjected to the protein analysis process shown in FIGS. 12 and 13 to obtain the final result. In this step, various threshold values can be set according to the sample data, and a step of adjusting the threshold values is carried out while checking the result values.

도 15는 본 발명에 따른 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법에 관한 순서도이다.15 is a flowchart illustrating a method of providing a proteomics service based on a cloud computing network for providing a proteomics service according to the present invention.

도 15에 도시된 바와 같이, 본 발명에 따른 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법은 클라이언트의 요청에 응답해서 프로테오믹스 서비스를 제공하기 위해, 클라이언트(100)가 수행되어야 할 하나 이상의 프로그램의 순서를 정의하는 워크플로우 정의 단계(S100); 샘플 데이터를 하나 이상의 프로그램에 따른 입력 파일 및 출력 파일 형식으로 정보를 변환하는 입출력 정보 변환 단계(S200); 및 하나 이상의 프로그램을 수행시키기 위해 상기 프로그램별로 실행 스케줄러 모듈(700; job scheduler)에 제출가능한 스크립트(script)를 생성하는 실행 스크립트(job scripts) 생성 단계(S300)을 포함하는 것을 특징으로 한다.As shown in FIG. 15, a method of providing a proteomics service based on a cloud computing network providing a proteomics service according to the present invention includes providing a proteomics service in response to a request from a client, A workflow defining step (S100) of defining a sequence of programs; An input / output information conversion step (S200) of converting the sample data into an input file and an output file format according to one or more programs; And a job script generating step S300 for generating a script that can be submitted to the job scheduler 700 for each of the programs in order to execute one or more programs.

본 발명에 따른 실행 스케줄러 모듈(700)은 스크립트에 따라 클라우드 멤버들(3)을 선택하고 클라우드 멤버들(3)이 지원하는 형식으로 변환하여 상기 샘플 데이터 및 검색 시작 명령을 전송하는 것을 특징으로 한다.The execution scheduler module 700 according to the present invention is characterized by selecting the cloud members 3 according to a script and converting the data into a format supported by the cloud members 3 and transmitting the sample data and the search start command .

본 발명에 따른 워크플로우 정의 단계(S100)는 그래픽 유저 인터페이스(GUI)에서 지정되는 것을 특징으로 한다.The workflow definition step S100 according to the present invention is characterized in that it is specified in a graphical user interface (GUI).

본 발명에 따른 프로그램은 미리 정의된 카달로그 상에 존재하거나 신규등록도 가능한 것을 특징으로 한다.The program according to the present invention is present on a predefined catalog or can be newly registered.

본 발명에 따르면, 실행 스케줄러 모듈(700)의 검색 시작 명령에 따라 클라우드 멤버들(3)에서 검색한 결과를 통합서버(2)에 전송하여 저장하는 저장단계(S400)를 포함하는 것을 특징으로 한다.According to the present invention, a storage step (S400) for transmitting and storing the search result from the cloud members (3) to the integration server (2) according to a search start command of the execution scheduler module .

본 발명에 따르면, 통합서버(2)에 저장된 검색 결과를 분석하여 분석 결과 생성하고, 보고서를 생성하여 재저장하는 분석결과 생성 단계(S500)를 포함하는 것을 특징으로 한다.According to the present invention, an analysis result generation step (S500) of analyzing a search result stored in the integration server (2), generating an analysis result, and generating and restoring a report is provided.

본 발명에 따르면, 생성된 상기 분석 결과 및 보고서는 사용자 인터페이스(UI) 상에서 접근 가능한 것을 특징으로 한다.
According to the present invention, the generated analysis result and report are accessible on a user interface (UI).

본 발명에 따른 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법은 웹상의 서비스 제공 포털에 접속한 후에 웹상의 사용자 인터페이스(UI) 상에서 사용자 신청 및 인증을 위한 사용자 로그인 단계(S10)를 포함하고, 상기 사용자 인터페이스(UI) 상에서 다양한 종류의 상기 샘플 데이터를 업로드하기 위한 업로드 단계(S20)를 포함하는 것을 특징으로 한다.A method for providing a proteomics service based on a cloud computing network providing a proteomics service according to the present invention includes a user login step (S10) for user application and authentication on a user interface (UI) on the web after accessing a service providing portal on the web And an upload step (S20) for uploading various kinds of the sample data on the user interface (UI).

본 발명에 따른 프로그램은 프로테오믹스 데이터 베이스 검색 알고리즘인 OMSSA 또는 X!Tandem인 것을 특징으로 한다.The program according to the present invention is characterized by being a proteomics database search algorithm OMSSA or X! Tandem.

본 발명에 따르면, 프로테오믹스 데이터 베이스 검색 알고리즘이 적용된 VM(virtual machine)이미지가 클라우드 인프라 연동 모듈(800)에 의해 구동가능한 것을 특징으로 한다.According to the present invention, a virtual machine (VM) image to which a proteomics database search algorithm is applied can be driven by the cloud infrastructure interworking module 800.

본 발명에 따른 실행 스케줄러 모듈(700)은 VM간의 작업 분배 및 리소스 관리 기능하고, VM의 성능 모니터링 및 작업 시간 예측 알고리즘을 구현하며, 대기 시간 단축을 위해 상기 VM간의 작업 재분배 알고리즘을 구현하는 것을 특징으로 한다.
The execution scheduler module 700 according to the present invention is characterized in that it performs task distribution and resource management functions among VMs, implements VM performance monitoring and work time predicting algorithms, and implements a task redistribution algorithm between VMs .

이상에서 본 발명은 특정의 실시예와 관련하여 도시 및 설명하였지만, 첨부된 특허청구범위에 의해 나타난 발명의 사상 및 영역으로부터 벗어나지 않는 한도내에서 다양한 변경, 개조 및 변화가 가능하다는 것을 당 업계에서 통상의 지식을 가진 자라면 누구나 쉽게 알 수 있을 것이다.
While the present invention has been particularly shown and described with reference to specific embodiments thereof, it will be understood by those skilled in the art that various changes, modifications, and variations can be made therein without departing from the spirit and scope of the invention as defined by the appended claims. Anyone with the knowledge of this will know easily.

1: 프로테오믹스 서비스 제공 시스템 2: 통합서버
3: 클라우드 멤버 100: 클라이언트
200: 사용자 로그인 모듈 300: 업로드 모듈
400: 워크플로우 정의 모듈 500: 입출력 정보 변환모듈
600: 실행 스크립트 생성모듈 700: 실행 스케줄러 모듈
800: 클라우드 인프라 연동 모듈
S10: 사용자 로그인 단계 S20: 업로드 단계
S100: 워크플로우 정의 단계 S200: 입출력 정보 변환 단계
S300: 실행 스크립트(job scripts) 생성 단계
S400: 저장단계 S500: 분석결과 생성 단계
1: Proteomics service providing system 2: Integrated server
3: Cloud member 100: Client
200: user login module 300: upload module
400: workflow definition module 500: input / output information conversion module
600: Execution Script Generation Module 700: Execution Scheduler Module
800: Cloud infrastructure interworking module
S10: user login step S20: upload step
S100: Workflow definition step S200: Input / output information conversion step
S300: Creation of job scripts
S400: storing step S500: analysis result generating step

Claims (24)

클라이언트의 요청에 응답해서 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템에 있어서,
사용자가 수행되어야 할 하나 이상의 프로그램의 순서를 입력하는 워크플로우 정의 모듈;
상기 하나 이상의 프로그램에 따른 입력 파일 및 출력 파일 형식으로 샘플데이터의 정보를 변환하는 입출력 정보 변환 모듈; 및
상기 하나 이상의 프로그램을 수행시키기 위해 프로그램별로 실행 스케줄러(job scheduler) 모듈에 제출가능한 스크립트(script)를 생성하는 실행 스크립트(job scripts) 생성 모듈;을 포함하고,
상기 실행 스케줄러 모듈은 상기 스크립트에 따라 클라우드 멤버들을 선택하고 상기 클라우드 멤버들이 지원하는 형식으로 상기 샘플데이터를 변환하여 상기 샘플 데이터 및 검색 시작 명령을 전송하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.
1. A system for providing a proteomics service based on a cloud computing network in response to a request from a client,
A workflow definition module for inputting a sequence of one or more programs to be performed by a user;
An input / output information conversion module for converting information of sample data in an input file and an output file format according to the at least one program; And
And a job script generation module for generating a script that can be submitted to a job scheduler module for each program to execute the one or more programs,
Wherein the execution scheduler module selects cloud members according to the script and converts the sample data in a format supported by the cloud members to transmit the sample data and the search start command. system.
삭제delete 제1항에 있어서,
상기 워크플로우 정의 모듈은 그래픽 유저 인터페이스(GUI)에서 지정되는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.
The method according to claim 1,
Wherein the workflow definition module is specified in a graphical user interface (GUI).
제3항에 있어서,
상기 프로그램은 미리 정의된 카달로그 상에 존재하거나 신규등록도 가능한 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.
The method of claim 3,
Wherein the program is present on a predefined catalog or can be newly registered. ≪ Desc / Clms Page number 13 >
제4항에 있어서,
상기 실행 스케줄러 모듈의 검색 시작 명령에 따라 상기 클라우드 멤버들에서 검색한 결과를 전송하여 저장하는 통합서버를 포함하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.
5. The method of claim 4,
And an integration server for transmitting and storing the search result from the cloud members according to a search start command of the execution scheduler module.
제5항에 있어서,
상기 통합서버에 저장된 검색 결과를 분석하여 분석 결과를 생성하고, 보고서를 생성하여 재저장하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.
6. The method of claim 5,
Analyzing search results stored in the integration server to generate analysis results, and generating and re-storing the generated reports; and a system for providing the proteomics service based on the cloud computing network.
제6항에 있어서,
생성된 상기 분석 결과 및 보고서는 사용자 인터페이스(UI) 상에서 접근 가능한 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.
The method according to claim 6,
Wherein the generated analysis results and reports are accessible on a user interface (UI).
제7항에 있어서,
상기 사용자 인터페이스(UI) 상에서 사용자 신청 및 인증을 위한 사용자 로그인 모듈을 포함하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.
8. The method of claim 7,
And a user login module for user application and authentication on the user interface (UI).
제8항에 있어서
상기 사용자 인터페이스(UI) 상에서 다양한 종류의 상기 샘플 데이터를 업로드하기 위한 업로드 모듈을 포함하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.
The method of claim 8, wherein
And an upload module for uploading various types of sample data on the user interface (UI).
제9항에 있어서,
상기 프로그램은 프로테오믹스 데이터 베이스 검색 알고리즘인 OMSSA 또는 X!Tandem인 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.
10. The method of claim 9,
Wherein the program is a proteomics database search algorithm OMSSA or X! Tandem.
제10항에 있어서,
상기 프로테오믹스 데이터 베이스 검색 알고리즘이 적용된 VM(virtual machine)이미지가 구동가능하도록 하는 클라우드 인프라 연동 모듈을 포함하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.
11. The method of claim 10,
And a cloud infrastructure interworking module for enabling a VM (virtual machine) image to which the proteomics database search algorithm is applied to be driven.
제11항에 있어서,
상기 실행 스케줄러 모듈은 상기 VM간의 작업 분배 및 리소스를 관리 하고,
상기 VM의 성능 모니터링 및 작업 시간 예측 알고리즘을 구현하며,
대기 시간 단축을 위해 상기 VM간의 작업 재분배 알고리즘을 구현하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.
12. The method of claim 11,
The execution scheduler module manages work distribution and resources among the VMs,
Implementing the VM performance monitoring and work time prediction algorithm,
And a work redistribution algorithm between the VMs is implemented to reduce the waiting time.
클라이언트의 요청에 응답해서 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법에 있어서,
상기 클라이언트가 수행되어야 할 하나 이상의 프로그램의 순서를 정의하는 워크플로우 정의 단계;
상기 하나 이상의 프로그램에 따른 입력 파일 및 출력 파일 형식으로 샘플 데이터의 정보를 변환하는 입출력 정보 변환 단계; 및
상기 하나 이상의 프로그램을 수행시키기 위해 상기 프로그램별로 실행 스케줄러 모듈(job scheduler)에 제출가능한 스크립트(script)를 생성하는 실행 스크립트(job scripts) 생성 단계;를 포함하고,
상기 실행 스케줄러 모듈은 상기 스크립트에 따라 클라우드 멤버들을 선택하고 상기 클라우드 멤버들이 지원하는 형식으로 상기 샘플데이터를 변환하여 상기 샘플 데이터 및 검색 시작 명령을 전송하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.
A method for providing a proteomics service based on a cloud computing network in response to a request from a client,
A workflow definition step of defining an order of one or more programs to be executed by the client;
An input / output information conversion step of converting information of sample data in an input file and an output file format according to the at least one program; And
And generating job scripts that can be submitted to an execution scheduler for each of the programs to execute the one or more programs,
Wherein the execution scheduler module selects cloud members according to the script and converts the sample data in a format supported by the cloud members to transmit the sample data and the search start command. Way.
삭제delete 제13항에 있어서,
상기 워크플로우 정의 단계는 그래픽 유저 인터페이스(GUI)에서 지정되는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.
14. The method of claim 13,
Wherein the workflow definition step is specified in a graphical user interface (GUI).
제15항에 있어서,
상기 프로그램은 미리 정의된 카달로그 상에 존재하거나 신규등록도 가능한 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.
16. The method of claim 15,
Wherein the program is present on a predefined catalog or can be newly registered. ≪ Desc / Clms Page number 20 >
제16항에 있어서,
상기 실행 스케줄러 모듈의 검색 시작 명령에 따라 상기 클라우드 멤버들에서 검색한 결과를 통합서버에 전송하여 저장하는 저장단계를 포함하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.
17. The method of claim 16,
And storing the result of the search in the cloud members according to a search start command of the execution scheduler module to the integration server and storing the result.
제17항에 있어서,
상기 통합서버에 저장된 검색 결과를 분석하여 분석 결과를 생성하고, 보고서를 생성하여 재저장하는 분석결과 생성 단계를 포함하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.
18. The method of claim 17,
Generating an analysis result by analyzing a search result stored in the integration server, and generating an analysis result and re-storing the report; and generating an analysis result based on the analysis result.
제18항에 있어서,
생성된 상기 분석 결과 및 보고서는 사용자 인터페이스(UI) 상에서 접근 가능한 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.
19. The method of claim 18,
Wherein the generated analysis results and reports are accessible on a user interface (UI).
제19항에 있어서,
상기 사용자 인터페이스(UI) 상에서 사용자 신청 및 인증을 위한 사용자 로그인 단계를 포함하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.
20. The method of claim 19,
And a user login step for user application and authentication on the user interface (UI).
제20항에 있어서
상기 사용자 인터페이스(UI) 상에서 다양한 종류의 상기 샘플 데이터를 업로드하기 위한 업로드 단계를 포함하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.
The method of claim 20, wherein
And uploading various types of the sample data on the user interface (UI).
제21항에 있어서,
상기 프로그램은 프로테오믹스 데이터 베이스 검색 알고리즘인 OMSSA 또는 X!Tandem인 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.
22. The method of claim 21,
Wherein the program is a proteomics database search algorithm OMSSA or X! Tandem.
제22항에 있어서,
상기 프로테오믹스 데이터 베이스 검색 알고리즘이 적용된 VM(virtual machine)이미지가 클라우드 인프라 연동 모듈에 의해 구동가능하도록 하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.
23. The method of claim 22,
Wherein a virtual machine (VM) image to which the proteomics database search algorithm is applied is driven by a cloud infrastructure interworking module.
제23항에 있어서,
상기 실행 스케줄러 모듈은 상기 VM간의 작업 분배 및 리소스를 관리하고,
상기 VM의 성능 모니터링 및 작업 시간 예측 알고리즘을 구현하며,
대기 시간 단축을 위해 상기 VM간의 작업 재분배 알고리즘을 구현하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.
24. The method of claim 23,
The execution scheduler module manages work distribution and resources among the VMs,
Implementing the VM performance monitoring and work time prediction algorithm,
And implementing a work redistribution algorithm between the VMs to reduce the latency time.
KR20110050019A 2011-05-26 2011-05-26 Proteomics service system using cloud computing and the method for the same KR101494864B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20110050019A KR101494864B1 (en) 2011-05-26 2011-05-26 Proteomics service system using cloud computing and the method for the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20110050019A KR101494864B1 (en) 2011-05-26 2011-05-26 Proteomics service system using cloud computing and the method for the same

Publications (2)

Publication Number Publication Date
KR20120131678A KR20120131678A (en) 2012-12-05
KR101494864B1 true KR101494864B1 (en) 2015-02-23

Family

ID=47515456

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20110050019A KR101494864B1 (en) 2011-05-26 2011-05-26 Proteomics service system using cloud computing and the method for the same

Country Status (1)

Country Link
KR (1) KR101494864B1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102166185B1 (en) 2014-03-04 2020-10-15 한국전자통신연구원 Data processing apparatus for pipeline execution acceleration and method thereof
KR102485154B1 (en) * 2018-09-20 2023-01-06 한국전력공사 Power Communication Service
CN113674798B (en) * 2020-05-15 2024-04-26 复旦大学 Proteomics data analysis system
CN114242163B (en) * 2020-09-09 2024-01-30 复旦大学 Processing system for mass spectrometry data of proteomics

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100807651B1 (en) 2002-12-26 2008-02-28 리서치 인 모션 리미티드 System and method of creating and communicating with component based wireless applications
US20080166030A1 (en) 2007-01-09 2008-07-10 Morris Jeffrey S Method and computer-program product for detecting and quantifying protein spots
EP2302363A2 (en) 2001-09-05 2011-03-30 Life Technologies Corporation Method for normalization of assay data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2302363A2 (en) 2001-09-05 2011-03-30 Life Technologies Corporation Method for normalization of assay data
KR100807651B1 (en) 2002-12-26 2008-02-28 리서치 인 모션 리미티드 System and method of creating and communicating with component based wireless applications
US20080166030A1 (en) 2007-01-09 2008-07-10 Morris Jeffrey S Method and computer-program product for detecting and quantifying protein spots

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
J Proteome Res. 2009 Jun;8(6):3148-53. *

Also Published As

Publication number Publication date
KR20120131678A (en) 2012-12-05

Similar Documents

Publication Publication Date Title
US9094404B2 (en) Reconfigurable cloud computing
JP7090152B2 (en) Code module selection for device design
JP2018026114A (en) Application profiling job management system, program, and method
EP3035189A1 (en) Automated approach for integrating automated function library functions and algorithms in predictive analytics
US20180137431A1 (en) Multimodal, small and big data, machine learing systems and processes
CN106104468B (en) Dynamically determining a mode of a data processing application
CN110249312B (en) Method and system for converting data integration jobs from a source framework to a target framework
KR20200029387A (en) Data aggregation method for cache optimization and efficient processing
US9753834B1 (en) Certification process for cloud platform
KR101494864B1 (en) Proteomics service system using cloud computing and the method for the same
US20210367862A1 (en) Personalized serverless functions for multi-tenant cloud computing environment
US20190114168A1 (en) Framework for supporting multiple analytic runtimes
CN115756822B (en) Method and system for optimizing high-performance computing application performance
Wu et al. A distributed workflow management system with case study of real-life scientific applications on grids
US10467124B2 (en) Certification process for cloud platform
CN111309341B (en) Android application installation flow optimization method based on time-consuming prediction
Wu et al. Paraopt: Automated application parameterization and optimization for the cloud
Grunzke et al. Seamless HPC integration of data-intensive KNIME workflows via UNICORE
US12073268B2 (en) Dynamically adjusting objects monitored by an operator in a distributed computer environment
Subramanian et al. Parallel R computing on the web
WO2022225578A1 (en) Real-time event-driven serverless functions within storage systems for near data processing
KR102606044B1 (en) Service providing apparatus for processing meteorological and climate data provided by IoT
Li et al. Scalability and performance analysis of BDPS in clouds
Woodard et al. Real-time HEP analysis with funcX, a high-performance platform for function as a service
Kashyap et al. Big data at hpc wales

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180202

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20181218

Year of fee payment: 5