KR101494864B1 - Proteomics service system using cloud computing and the method for the same - Google Patents
Proteomics service system using cloud computing and the method for the same Download PDFInfo
- Publication number
- KR101494864B1 KR101494864B1 KR20110050019A KR20110050019A KR101494864B1 KR 101494864 B1 KR101494864 B1 KR 101494864B1 KR 20110050019 A KR20110050019 A KR 20110050019A KR 20110050019 A KR20110050019 A KR 20110050019A KR 101494864 B1 KR101494864 B1 KR 101494864B1
- Authority
- KR
- South Korea
- Prior art keywords
- module
- proteomics
- sample data
- program
- search
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Genetics & Genomics (AREA)
- Physiology (AREA)
- Information Transfer Between Computers (AREA)
Abstract
본 발명은 클라이언트의 요청에 응답해서 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템에 있어서, 사용자가 수행되어야 할 하나 이상의 프로그램의 순서를 입력하는 워크플로우 정의 모듈; 상기 하나 이상의 프로그램에 따른 입력 파일 및 출력 파일 형식으로 샘플데이터의 정보를 변환하는 입출력 정보 변환 모듈; 및 상기 하나 이상의 프로그램을 수행시키기 위해 프로그램별로 실행 스케줄러(job scheduler) 모듈에 제출가능한 스크립트(script)를 생성하는 실행 스크립트(job scripts) 생성 모듈을 포함하는 것을 특징으로 한다.The present invention provides a system for providing a proteomics service based on a cloud computing network that provides a proteomics service in response to a request from a client, the system comprising: a workflow definition module for inputting a sequence of one or more programs to be performed by a user; An input / output information conversion module for converting information of sample data in an input file and an output file format according to the at least one program; And a job script generation module for generating a script that can be submitted to the job scheduler module for each program in order to execute the one or more programs.
Description
클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템 및 그에 의한 서비스 제공방법에 관한 것이다.The present invention relates to a system for providing a proteomics service based on a cloud computing network and a method for providing the service.
바이오 분야의 계산, 기계공학의 계산 문제의 경우 한 개 이상의 응용 프로그램들이 순차적으로 실행되어 최종 결과물을 얻는 형태가 대부분이다.In the case of computational problems in computation of bio-field and mechanical engineering, one or more application programs are sequentially executed to obtain the final result.
현재는 이러한 다수의 프로그램이 연동된 연산의 처리를 위하여 하나의 프로그램을 수행해서 나온 결과물을 수동으로 처리하고 다음 프로그램을 수행하는 형태로 작업을 진행한다.Currently, many of these programs process a single program for processing interlocked operations, process the output manually, and then work on the next program.
프로테오믹스 관련된 작업들은 실험 결과로부터 분석을 완료한 결과를 얻기까지, 다수의 파일들을 다양한 프로그램으로 처리하는 수동 작업들이 수반된다. 이러한 작업들은 입력 파일 형식이 다른 다양한 프로그램을 위한 입력 파일변환, 단계적으로 수행되어야 할 프로그램 등의 연동 등이 수반된다.Proteomics-related tasks involve manual tasks that process a large number of files into various programs, from obtaining experimental results to obtaining the results of the analysis. These tasks involve input file conversion for various programs with different input file formats, interworking of programs to be executed step by step, and the like.
본 발명은 상기한 바와 같은 문제를 해결하기 위해 안출된 것으로 연동작업에서 발생하는 수동 작업을 제거하고 복잡한 연산과정을 자동화하는데 그 목적이 있다.SUMMARY OF THE INVENTION The present invention has been made in order to solve the above problems, and it is an object of the present invention to eliminate a manual operation occurring in an interlocking operation and automate a complicated operation process.
생명공학 연구의 특성상, 프로테오믹스 분석법은 미완성된 데이터베이스를 이용하여, 가능성이 높은 결과치의 Pool을 선별한 후, 본 검색결과가 다음 단계의 생명공학 연구 방법을 수행함에 있어 재투입되는 특성이 있어, Due to the nature of biotechnology research, the proteomics method is characterized by the use of an incomplete database to select a pool of possible outcomes and then to re-enter the next step in performing the biotechnology research method,
본 발명은 여러 검색 알고리즘을 동시에 분석하여, 결과를 비교분석하고, 원하는 분석결과를 선별할 수 있는 UI가 제공되어야 하고, The present invention needs to provide a UI capable of simultaneously analyzing various search algorithms, comparing and analyzing results, and selecting desired analysis results,
프로테오믹스 서비스를 이용하는 생명공학 연구 분야의 다양성에 따라, 검색하고자 하는 기준(Criteria) 및 그 중요도가 상이하기 때문에, 생명공학 연구자들이 샘플데이터에 따라 다양한 워크플로우를 가능하게 하고,Because of the diversity of biotechnology research areas that use proteomics services, biotechnology researchers can make various workflows based on sample data,
다양한 검색 알고리즘, 데이터베이스 이용법이 서비스 상에서 자동업데이트가 되며,Various search algorithms and database usage are automatically updated on the service,
생명공학 유저가 원하는 분석을 수행할 경우, 자체적인 서버 투자 없이 포탈 서비스에서 해결가능하다.When biotechnology users perform the analysis they want, it can be solved in the portal service without investing in their own servers.
본 발명에 따른 클라이언트의 요청에 응답해서 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템은, 사용자가 수행되어야 할 하나 이상의 프로그램의 순서를 입력하는 워크플로우 정의 모듈; 상기 하나 이상의 프로그램에 따른 입력 파일 및 출력 파일 형식으로 샘플데이터의 정보를 변환하는 입출력 정보 변환 모듈; 및 상기 하나 이상의 프로그램을 수행시키기 위해 프로그램별로 실행 스케줄러(job scheduler) 모듈에 제출가능한 스크립트(script)를 생성하는 실행 스크립트(job scripts) 생성 모듈을 포함하는 것을 특징으로 한다.A system for providing a proteomics service based on a cloud computing network that provides a proteomics service in response to a request from a client according to the present invention includes a workflow definition module for inputting a sequence of one or more programs to be performed by a user; An input / output information conversion module for converting information of sample data in an input file and an output file format according to the at least one program; And a job script generation module for generating a script that can be submitted to the job scheduler module for each program in order to execute the one or more programs.
본 발명에 따르면, 상기 실행 스케줄러 모듈은 상기 스크립트에 따라 클라우드 멤버들을 선택하고 상기 클라우드 멤버들이 지원하는 형식으로 상기 샘플데이터를 변환하여 상기 샘플 데이터 및 검색 시작 명령을 전송하는 것을 특징으로 한다.According to the present invention, the execution scheduler module selects cloud members according to the script, converts the sample data into a format supported by the cloud members, and transmits the sample data and the search start command.
본 발명에 따르면, 상기 워크플로우 정의 모듈은 그래픽 유저 인터페이스(GUI)에서 지정되는 것을 특징으로 한다.According to the present invention, the workflow definition module is specified in a graphical user interface (GUI).
본 발명에 따르면, 상기 프로그램은 미리 정의된 카달로그 상에 존재하거나 신규등록도 가능한 것을 특징으로 한다.According to the present invention, the program is present on a predefined catalog or can be newly registered.
본 발명에 따르면, 상기 실행 스케줄러 모듈의 검색 시작 명령에 따라 상기 클라우드 멤버들에서 검색한 결과를 전송하여 저장하는 통합서버를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, there is provided an integrated server for transmitting and storing search results from the cloud members according to a search start command of the execution scheduler module.
본 발명에 따르면, 상기 통합서버에 저장된 검색 결과를 분석하여 분석 결과를 생성하고, 보고서를 생성하여 재저장하는 것을 특징으로 한다.According to the present invention, an analysis result is generated by analyzing a search result stored in the integration server, and a report is generated and restored.
본 발명에 따르면, 생성된 상기 분석 결과 및 보고서는 사용자 인터페이스(UI) 상에서 접근 가능한 것을 특징으로 한다.According to the present invention, the generated analysis result and report are accessible on a user interface (UI).
본 발명에 따르면, 상기 사용자 인터페이스(UI) 상에서 사용자 신청 및 인증을 위한 사용자 로그인 모듈을 포함하는 것을 특징으로 한다.According to the present invention, a user login module for user application and authentication on the user interface (UI) is included.
본 발명에 따르면, 상기 사용자 인터페이스(UI) 상에서 다양한 종류의 상기 샘플 데이터를 업로드하기 위한 업로드 모듈을 포함하는 것을 특징으로 한다.According to the present invention, an upload module for uploading various kinds of sample data on the user interface (UI) is included.
본 발명에 따르면, 상기 프로그램은 프로테오믹스 데이터 베이스 검색 알고리즘인 OMSSA 또는 X!Tandem인 것을 특징으로 한다.According to the present invention, the program is characterized by being a proteomics database search algorithm OMSSA or X! Tandem.
본 발명에 따르면, 상기 프로테오믹스 데이터 베이스 검색 알고리즘이 적용된 VM(virtual machine)이미지가 구동가능하도록 하는 클라우드 인프라 연동 모듈을 포함하는 것을 특징으로 한다.According to the present invention, a cloud infrastructure interworking module for enabling a virtual machine (VM) image to which the proteomics database search algorithm is applied can be driven.
본 발명에 따르면, 상기 실행 스케줄러 모듈은 상기 VM간의 작업 분배 및 리소스를 관리하고, 상기 VM의 성능 모니터링 및 작업 시간 예측 알고리즘을 구현하며, 대기 시간 단축을 위해 상기 VM간의 작업 재분배 알고리즘을 구현하는 것을 특징으로 한다.
According to the present invention, the execution scheduler module manages the task distribution and resources between the VMs, implements the performance monitoring and task time prediction algorithms of the VMs, and implements a task redistribution algorithm between the VMs to reduce latency .
본 발명에 따른 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법은 클라이언트의 요청에 응답해서 프로테오믹스 서비스를 제공하기 위해, 클라이언트가 수행되어야 할 하나 이상의 프로그램의 순서를 정의하는 워크플로우 정의 단계; 하나 이상의 프로그램에 따른 입력 파일 및 출력 파일 형식으로 샘플 데이터의 정보를 변환하는 입출력 정보 변환 단계; 및 하나 이상의 프로그램을 수행시키기 위해 프로그램별로 실행 스케줄러 모듈에 제출가능한 스크립트(script)를 생성하는 실행 스크립트(job scripts) 생성 단계을 포함하는 것을 특징으로 한다.A method for providing a proteomics service based on a cloud computing network providing a proteomics service according to the present invention includes defining a sequence of one or more programs to be executed by a client in order to provide a proteomics service in response to a request from a client; An input / output information conversion step of converting information of sample data into an input file and an output file format according to one or more programs; And a job script generation step of generating a script that can be submitted to the execution scheduler module for each program in order to execute one or more programs.
본 발명에 따른 실행 스케줄러 모듈은 스크립트에 따라 클라우드 멤버들을 선택하고 클라우드 멤버들이 지원하는 형식으로 상기 샘플데이터를 변환하여 상기 샘플 데이터 및 검색 시작 명령을 전송하는 것을 특징으로 한다.The execution scheduler module according to the present invention selects cloud members according to a script and converts the sample data into a format supported by cloud members, and transmits the sample data and the search start command.
본 발명에 따른 워크플로우 정의 단계는 그래픽 유저 인터페이스(GUI)에서 지정되는 것을 특징으로 한다.The workflow definition step according to the present invention is characterized in that it is specified in a graphical user interface (GUI).
본 발명에 따른 프로그램은 미리 정의된 카달로그 상에 존재하거나 신규등록도 가능한 것을 특징으로 한다.The program according to the present invention is present on a predefined catalog or can be newly registered.
본 발명에 따르면, 실행 스케줄러 모듈의 검색 시작 명령에 따라 클라우드 멤버들에서 검색한 결과를 통합서버에 전송하여 저장하는 저장단계를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, there is provided a computer readable recording medium storing a program for causing a computer to execute the steps of: receiving a search start command from an execution scheduler module;
본 발명에 따르면, 통합서버에 저장된 검색 결과를 분석하여 분석 결과를 생성하고, 보고서를 생성하여 재저장하는 분석결과 생성 단계를 포함하는 것을 특징으로 한다.According to the present invention, an analysis result generation step of analyzing a search result stored in the integration server, generating an analysis result, and generating and restoring a report is provided.
본 발명에 따르면, 생성된 상기 분석 결과 및 보고서는 사용자 인터페이스(UI) 상에서 접근 가능한 것을 특징으로 한다.
According to the present invention, the generated analysis result and report are accessible on a user interface (UI).
본 발명에 따른 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법은 웹상의 서비스 제공 포털에 접속한 후에 웹상의 사용자 인터페이스(UI) 상에서 사용자 신청 및 인증을 위한 사용자 로그인 단계를 포함하고, 상기 사용자 인터페이스(UI) 상에서 다양한 종류의 상기 샘플 데이터를 업로드하기 위한 업로드 단계를 포함하는 것을 특징으로 한다.A method of providing a proteomics service based on a cloud computing network that provides a proteomics service according to the present invention includes a user login step for user application and authentication on a user interface (UI) on the web after accessing a service providing portal on the web, And an upload step of uploading various kinds of the sample data on a user interface (UI).
본 발명에 따른 프로그램은 프로테오믹스 데이터 베이스 검색 알고리즘인 OMSSA 또는 X!Tandem인 것을 특징으로 한다.The program according to the present invention is characterized by being a proteomics database search algorithm OMSSA or X! Tandem.
본 발명에 따르면, 프로테오믹스 데이터 베이스 검색 알고리즘이 적용된 VM(virtual machine)이미지가 클라우드 인프라 연동 모듈에 의해 구동가능한 것을 특징으로 한다.According to the present invention, a virtual machine (VM) image to which a proteomics database search algorithm is applied can be driven by a cloud infrastructure interworking module.
본 발명에 따른 실행 스케줄러 모듈은 VM간의 작업 분배 및 리소스를 관리 하고, VM의 성능 모니터링 및 작업 시간 예측 알고리즘을 구현하며, 대기 시간 단축을 위해 상기 VM간의 작업 재분배 알고리즘을 구현하는 것을 특징으로 한다.
The execution scheduler module according to the present invention is characterized in that it manages work distribution and resources among VMs, implements VM performance monitoring and work time predicting algorithms, and implements a work redistribution algorithm between the VMs to reduce waiting time.
공개 소프트웨어 기반의 OMSSA, X!Tandem 등의 프로테오믹스 프로그램을 클라우드 컴퓨팅 인프라에 이식하여 컴퓨팅 자원의 제약 없이 클라우드 인프라에서 작업수행을 가능하게 한다. 이를 통하여 고가의 IT 자원을 구매할 필요 없이 단백질 데이터베이스 검색을 다양한 알고리즘, 단일 검색의 빠른 처리 속도, 복수의 검색에 대한 높은 처리량(throughput), 사용자 증가에 따른 확장성(Scalability)을 제공하는 효과가 있다.Proteomics programs such as OMSSA and X! Tandem, which are based on open software, are ported to the cloud computing infrastructure to enable work in the cloud infrastructure without restrictions on computing resources. This provides a variety of algorithms, a fast processing speed of a single search, a high throughput for a plurality of searches, and scalability due to an increase in users, without the need to purchase expensive IT resources .
또한, IT 비전문가인 프로테오믹스 연구자의 접근성을 높이기 위하여 편리한 UI를 제공하는 포탈을 통하여 작업을 제출하고, 단순/반복 작업을 제거하는 워크플로우 엔진이 제공되며, 다양한 클라우드 서비스 팜이 연동 가능하도록 스케줄링되어, 사용자가 제출한 작업을 빠른 시간 내에 포탈에서 확인하는 것이 가능하다.In addition, to increase accessibility of non-IT proteomics researchers, a workflow engine that submits work through a portal providing a convenient UI and eliminates simple and repetitive tasks is provided, and various cloud service farms are scheduled to be linked, It is possible to check the user submitted work quickly in the portal.
또한, 본 발명은 쉬운 UI를 통해 다양한 검색 알고리즘을 선택가능하고, 각기 다른 데이터 포맷에 따른 다양한 명령어 사용에 어려움이 없고, 검색 알고리즘을 설치하지 않고 로그인만으로 이용 가능하다.In addition, the present invention can select various search algorithms through an easy UI, has no difficulty in using various commands according to different data formats, and can be used only by logging in without installing a search algorithm.
또한, 본 발명은 일관된 워크플로우(workflow)를 통한 다양한 검색 알고리즘을 사용가능하고, 여러 검색 알고리즘을 통한 결과를 비교 분석 가능하다.In addition, the present invention can use various search algorithms through a consistent workflow, and can compare and analyze results through various search algorithms.
또한, 본 발명은 클라우드 환경하에서 검색 알고리즘 변경시 자동 업데이트가 되며, DNA 정보 변경시에도 자동 업데이트가 된다. Further, the present invention is automatically updated when a search algorithm is changed in a cloud environment, and is automatically updated even when DNA information is changed.
또한, 본 발명은 단일 서버 환경에서 검색 시간이 많이 걸리는 종래의 단점을 클라우드 환경하에서 수행함으로써, 검색 시간을 단축하고, 가변적인 리소스 사용에 따른 클라우드 프로비전닝을 제공한다.In addition, the present invention provides a cloud provisioning according to a variable resource usage by shortening a search time by performing a conventional disadvantage that a search time is long in a single server environment under a cloud environment.
또한, 본 발명은 검색 결과 데이터 크기가 수십 MB 이상임에도, 콘솔이나 ActiveX를 통한 뷰어 속도가 향상되어, 웹에서 데이터 결과를 빠르게 볼 수 있다.
In addition, the present invention improves the viewer speed through the console or ActiveX, even though the size of the search result data is more than tens MB, and the data result on the web can be seen quickly.
도 1은 본 발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템의 개념도이다.
도 2는 본 발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스에 대한 구조 및 클라우드 인프라 연동 모듈의 위치를 도시한다.
도 3은 연동 모듈 프로그램 구조이다.
도 4는 본 발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)에서 워크플로우 모듈을 실행한 디자인 결과를 나타낸다.
도 5는 X!Tandem을 이용한 분석 절차를 도시한다.
도 6은 가상 서버에서 X!Tandem을 수행한 화면이다.
도 7은 가상서버에서 X!Tandem 자원 사용 현황이다.
도 8은 Tandem2XML을 이용하여 변환된 데이터를 나타낸다
도 9는 펩티드 분석을 위한 설정화면을 도시한다.
도 10은 펜티드 분석 완료 화면이다.
도 11은 분석된 펩티드 정보를 나타낸다.
도 12는 단백질 분석 설정 화면이다.
도 13은 분석된 단백질 결과에서 임계값을 설정하는 화면이다.
도 14는 단백질 최종 분석결과를 나타내는 화면이다.
도 15는 본 발명에 따른 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법에 관한 순서도이다.1 is a conceptual diagram of a system for providing a proteomics service based on a cloud computing network according to the present invention.
FIG. 2 shows a structure of a cloud computing network-based proteomics service and a location of a cloud infrastructure interworking module according to the present invention.
3 is a structure of an interlocking module program.
4 shows a design result of executing a workflow module in a
5 shows an analysis procedure using X! Tandem.
6 is a screen in which X! Tandem is performed in the virtual server.
7 shows the usage status of X! Tandem resources in the virtual server.
Figure 8 shows the transformed data using Tandem2XML
Fig. 9 shows a setting screen for peptide analysis.
Fig. 10 is a pentide analysis completed screen.
Figure 11 shows the analyzed peptide information.
12 is a protein analysis setting screen.
13 is a screen for setting a threshold value in the analyzed protein result.
Fig. 14 is a screen showing the final analysis result of the protein.
15 is a flowchart illustrating a method of providing a proteomics service based on a cloud computing network for providing a proteomics service according to the present invention.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다. 우선, 도면들 중 동일한 구성요소 또는 부품들은 가능한 한 동일한 참조부호를 나타내고 있음에 유의해야 한다. 본 발명을 설명함에 있어서 관련된 공지기능 혹은 구성에 대한 구체적인 설명은 본 발명의 요지를 모호하게 하지 않기 위해 생략한다.
Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. First, it should be noted that the same components or parts among the drawings denote the same reference numerals whenever possible. In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted so as not to obscure the subject matter of the present invention.
도 1은 본 발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템의 개념도이다.1 is a conceptual diagram of a system for providing a proteomics service based on a cloud computing network according to the present invention.
도 1에 도시된 본 발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)은 클라이언트(100)의 요청에 응답해서 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)으로서, 대학교 연구자, 바이오 관련 연구소, 제약/R&D 기업과 같은 사용자가 클라이언트(100)를 통해 웹상에서 제공되는 프로테오믹스 서비스 제공 시스템을 사용하기 위해 포털에 접속하여 사용자 인터페이스(UI) 상에서 사용자 로그인 모듈(200)을 통해 사용자 신청과 사용자 인증 절차를 거치게 되고, 분석하고자 하는 다양한 종류의 샘플 데이터를 웹을 통해 업로드하기 위한 업로드 모듈(300)을 포함한다.1, a
업로드 시간을 단축하기 위해 다양한 압축 기술이 적용가능하고, 업로드된 샘플 데이터는 통합서버(2)의 데이터 베이스에 저장되어 관리되고, 1~n개의 가상서버인 클라우드 멤버(3)에 샘플데이터가 배포되게 된다.
In order to shorten the uploading time, various compression techniques can be applied. The uploaded sample data is stored and managed in the database of the
샘플 데이터가 업로드된 상태에서 사용자는 사용자 인터페이스(UI) 상의 워크플로우 정의 모듈(400)에서 수행되어야 할 하나 이상의 프로그램의 순서를 입력하게 된다. In the state where the sample data is uploaded, the user inputs a sequence of one or more programs to be performed in the
워크플로우 정의 모듈(400)에서의 사용자 입력 편의를 위하여 그래픽 유저 인터페이스(GUI)가 사용되는 것이 바람직하다.A graphical user interface (GUI) is preferably used for user input convenience in the
여기서, 프로그램은 프로테오믹스 데이터 베이스 검색 알고리즘을 말하고, 프로테오믹스 데이터 베이스 검색 알고리즘에는 OMSSA 또는 X!Tandem 등이 있고, 검색방법에 따라 하나 또는 여러 검색 알고리즘의 선택이 가능하다.Here, the program refers to a proteomic database search algorithm, and the proteomic database search algorithm includes OMSSA or X! Tandem, and one or several search algorithms can be selected according to the search method.
워크플로우 정의 모듈(400)에서 실행되어야 할 프로그램들의 선후 순서가 지정되는데 프로그램들은 미리 정의된 카달로그 상에 존재하거나 신규로 등록할 수도 있다.프로그램 정보에는 프로그램들의 입출력 파일 양식이 포함되어 있다.
The order of the programs to be executed in the
샘플 데이터를 하나 이상의 프로그램에서 실행해야 되고, 프로그램별로 입출력 파일 형식이 서로 상이하므로, 입출력 정보 변환 모듈(500)은 입출력 파일의 양식을 각각의 프로그램에서 인식가능한 파일 형식으로 변환시킨다.The input / output
실행 스케줄러 모듈(700)은 워크플로우 정의 모듈(400)에서 지정된 프로그램 순서에 따라 미리 등록된 계산 자원인 복수개의 클라우드 멤버(3)를 선택하고, 선택된 클라우드 멤버(3)에 샘플 데이터를 전송하며, 샘플 데이터 전송 후 검색 시작 명령을 전송하게 된다. 검색 시작 명령을 전송하기 위해서는 복수개의 클라우드 멤버(3)에 저장된 프로그램별로 명령어 집합인 실행 스크립트(job scripts)를 생성해야 되는데 이를 실행 스크립트(job scripts) 생성 모듈(600)에서 수행한다.The
즉, 실행 스크립트 생성모듈(600)에서 생성된 스크립트는 실행 스케줄러 모듈(700)에 전송되고 실행 스케줄러 모듈(700)은 스크립트에 따라 클라우드 멤버(3)를 선택하고, 샘플 데이터를 전송하여 검색을 수행하게 된다.That is, the script generated by the execution
실행 스크립트 생성모듈(600)에서는 프로그램 별로 생성된 스크립트를 병합하여 최종적인 단일 스크립트를 생성한다.
In the execution
각각의 클라우드 멤버(3)는 서로 다른 검색 알고리즘을 가지고 있어, 여러 검색 알고리즘을 통한 결과를 비교 분석하기 용이하다.Each cloud member (3) has a different search algorithm, and it is easy to compare and analyze the results through various search algorithms.
클라우드 멤버(3)들에서 검색한 결과는 통합서버(2)에 전송되고, 통합서버(2) 상의 데이터베이스(DB)에 저장된다.The results retrieved from the
통합서버(2)에 저장된 검색결과는 분석툴을 이용하여 검색 결과를 분석하여 분석 결과를 생성하게 되고, 사용자의 요구에 따라 다양한 보고서로 생성되어 사용자가 지정한 메일로 전송되거나 향후 재확인을 위해 통합서버(2)의 데이터베이스에 저장되어진다.The search result stored in the
여기서 분석툴은 TPP(trans proteomic pipeline)과 같은 툴이 이용될 수 있고, 이러한 분석툴에 의해 검색 결과를 이용하여 단백질 분석이 가능하다.Here, a tool such as a TPP (trans proteomic pipeline) can be used as an analysis tool, and protein analysis can be performed using the search result by this analysis tool.
생성된 상기 분석 결과 및 보고서는 사용자 인터페이스(UI) 상에서 접근 가능하다.The generated analysis results and reports are accessible on a user interface (UI).
도 2는 본 발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스에 대한 구조 및 클라우드 인프라 연동 모듈의 위치를 도시한다.FIG. 2 shows a structure of a cloud computing network-based proteomics service and a location of a cloud infrastructure interworking module according to the present invention.
도 2에 도시된 바와 같이, 본 발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)은 프로테오믹스 검색 알고리즘을 클라우드 멤버들(3)에 이식하여 패키징하여 활용되고, VM(virtual machine) 형태의 이미지를 등록 활용할 수 있도록 지원된다.2, a
클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)은 프로테오믹스 검색 알고리즘이 이식되어 있는 VM 이미지들이 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)에서 동적으로 구동될 수 있도록 하는 클라우드 인프라 연동 모듈(800)을 추가로 포함할 수 있다.The
클라우드 인프라 연동 모듈(800)을 포함하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)에 있어서, 실행 스케줄러 모듈(700)은 VM간의 작업 분배 및 리소스를 관리하는 기능을 하고, VM의 성능을 모니터링하며, 작업 시간 예측 알고리즘이 구현되고, 대기 시간 단축을 위해 상기 VM간의 작업 재분배 알고리즘을 구현가능하다.
In the cloud computing network-based proteomics
클라우드 인프라 연동 모듈(800)은 외부 개발자 혹은 기업이 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)에 제공하는 여러 서비스, 예를 들면 동적 VM 이미지 관리 서비스, 스토리지 서비스(storage service), 청구 서비스(billing service) 및 연동된 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)에 따른 VM 이미지 자동 제공(provision) 서비스에 대한 오픈 API(Open API)를 제공한다.
The cloud
오픈 API(application programming interface)는 RESTful 웹서비스(Web Service) 형식으로 되어 있어 단말의 영향 없이 HTTP 프로토콜이 지원되는 프레임워크나 서비스에 연동이 용이하며, 기본적으로 가상화된 서버 및 스토리지에 대한 제어나 관리에 대한 기능과 더불어 여러 컴퓨팅 리소스들을 사용할 수 있도록 한다.Open API (application programming interface) is a RESTful web service (Web Service) format, so it is easy to integrate with a framework or service that supports HTTP protocol without affecting the terminal. Basically, it controls and manages virtualized server and storage With the ability to use multiple computing resources.
이 서비스는 외부 network에서 접근 가능하도록 되어 있고, 이는 내부적으로 다른 서비스를 접근하는 것을 논리적으로 제한 가능하도록 한다.
This service is made accessible from an external network, which makes it logically restrictive to access other services internally.
도 3은 연동 모듈 프로그램 구조이다.3 is a structure of an interlocking module program.
도 3에 도시된 Queue는 JMS를 사용하기 위한 모듈이며, ActiveMQ의 상업 버전인 FUSE Message Broker를 이용하여 데이터를 송신하거나 수신하도록 하는 기능을 제공한다.The Queue shown in FIG. 3 is a module for using JMS, and provides a function of transmitting or receiving data by using the commercial version of ActiveMQ, FUSE Message Broker.
JSon은 JSON data 및 array 등을 다루기 위한 모듈이고, WADL은 문서화를 위한 WADL generator를 위한 모듈이며, REST Client는 각 서비스로 RESTful Web Service를 이용한 request를 하기 위한 client 모듈이며, HTTP Service는 외부에서 API Server로 접근하도록 하는 Web server 역할을 하기 위한 HTTP 서비스 모듈이며, memcached controller는 인증 등을 위한 memcached 이용을 위한 컨트롤러 모듈이고, Product Concerned는 Billing, Authorization, User, Product 및 bundle 관련 Open API 모듈로서, 이 모듈은 외부에서 HTTP 프로토콜을 이용한 Restful Web 서비스 형태의 접근이 가능한 구조로 외부 네트워크(network)에 노출된다.
JSON is a module for handling JSON data and array. WADL is a module for WADL generator for documenting. REST Client is a client module for requesting RESTful Web Service to each service. HTTP Service is API Server is an HTTP service module to serve as a web server. Memcached controller is a controller module for using memcached for authentication and Product Concerned is an Open API module related to Billing, Authorization, User, Product and bundle. The module is externally exposed to the external network as a structure that can access the form of Restful Web service using the HTTP protocol.
도 4는 본 발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)에서 워크플로우 모듈을 실행한 디자인 결과를 나타낸다.4 shows a design result of executing a workflow module in a
도 4에 도시된 바와 같이 웹 UI를 통하여, 사용자가 사용자 로그인 후, 샘플 데이터를 업로드하고, 데이터 형식 및 검색 알고리즘을 워크플로우 정의 모듈(400)을 통해 지정하고, 클라우드 플랫폼에서는 실행 스케줄러 모듈(700)에 따라 가상서버인 클라우드 멤버들(3)과 연동하여, 신속하고 정확한 검색 결과를 도출할 수 있다.4, the user uploads the sample data after the user logs in through the Web UI, designates the data format and the search algorithm through the
검색결과는 통합서버(2)상의 데이터베이스(DB)에 저장되고, 저장된 검색결과를 분석한 분석결과 및 보고서는 웹 UI를 통해 확인가능하다.
The search result is stored in a database (DB) on the integrated server (2), and the analysis result and report analyzing the stored search result can be confirmed through the Web UI.
본 발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)에서 검색 알고리즘이 X!Tandem인 경우 서비스 제공순서는 아래와 같다.If the search algorithm is X! Tandem in the
X!Tandem은 단백질 동정을 위해 사용되는 소프트웨어이며, 프로테오믹스 실험법에 따라 획득한 질량분석 데이터(Tandem mass spectrum)와 데이터베이스 상의 펩타이드 시퀀스(peptide sequence)를 매치시켜서 단백질 동정을 실시하며, XML 파일 형태의 출력(output)을 제공한다. X! Tandem is a software used for protein identification. Protein identification is performed by matching the peptide sequence with the Tandem mass spectrum obtained according to the proteomics method. The output of the XML file lt; / RTI >
Trans Proteomic Pipeline (TPP)은 X!Tandem을 이용하여 매칭 된 결과를 가지고 펩티드(peptide) 분석과 단백질(protein) 분석을 위하여 필요한 솔루션이다.
The Trans Proteomic Pipeline (TPP) is a solution for peptides and protein analysis with matched results using X! Tandem.
도 5는 X!Tandem을 이용한 분석 절차를 도시한다.5 shows an analysis procedure using X! Tandem.
XCalibur 질량 분석기를 이용하여 분석된 샘플데이터(sample data)는 ReadW 프로그램을 이용하여 mzXML 데이터로 변환하며, mzXML 데이터는 X!Tandem에서 매칭에 사용되고 매칭 된 결과는 Tandem2XML을 이용하여 다시 XML 데이터로 변환함. 이렇게 변환된 XML 데이터는 TPP를 이용하여 펩티드(peptides) 분석 후에 단백질(protein) 분석을 하여 엑셀(excel) 데이터를 얻을 수 있으며, 도 5와 같은 분석 플로우(Flow)를 따른다. The sample data analyzed using the XCalibur mass spectrometer is converted into mzXML data using the ReadW program, the mzXML data is used for matching in X! Tandem, and the matched result is converted into XML data again using Tandem2XML . The converted XML data can be analyzed by protein analysis after peptides are analyzed using TPP to obtain excel data and follow the analysis flow as shown in FIG.
SampleSample 데이터를 Data mzXMLmzXML 포맷으로 변환 Convert to format
XCalibur 샘플 데이터는 ReadW.exe를 통하여 mzXML 데이터로 변환되고, 샘플 데이터 포맷은 제조사의 형식을 따르기 때문에 제조사가 제공하는 api를 이용하여야만 mzXML 데이터로 변환할 수가 있고, 질량분석기기 제조사가 제공하는 api는 dll 형태로 배포되기 때문에 Windows 환경에서 데이터를 변환 하여야 한다.
The XCalibur sample data is converted into mzXML data through ReadW.exe. Since the sample data format conforms to the manufacturer's format, it can be converted into mzXML data only by using the API provided by the manufacturer. The api provided by the mass spectrometer manufacturer Because it is distributed as a dll, you have to convert the data in Windows environment.
TandemTandem 검색 방법 How to search
변환된 mzXML 데이터는 Linux 환경에서 human fasta 데이터와 매칭을 수행한다.The converted mzXML data is matched with human fasta data in Linux environment.
Human fasta 데이터는 ascii 포맷으로 이루어져 있기 때문에 빠른 검색을 위하여 binary 포맷으로 변환하여야 한다.
Human fasta data is in ascii format and should be converted to binary format for fast searching.
Binary 형태의 human 데이터와 mzXML 데이터를 이용하여 X!Tandem으로 검색을 수행하게 되는데, 검색 조건을 지정하는 default_input.xml 파일과, database를 지정하는 taxonomy.xml 파일, 그리고 검색 방법을 지정하는 XML 파일로 구성하여 이렇게 지정한 파일을 이용하여 X!Tandem을 수행한다.
The search is performed with X! Tandem using binary data of human type and mzXML data. The default_input.xml file specifying the search condition, the taxonomy.xml file specifying the database, and the XML file specifying the search method And executes X! Tandem using the specified file.
즉, 입출력 변환 모듈(500)은 결과적으로 입력 파일의 형식, 출력 파일의 형식들을 통일된 XML 또는 유사한 형태로 변환한다. 통일된 형식으로 변환된 파일은 사용자가 지정한 형태로 자동 재가공 된다.That is, the input /
신규 등록된 프로그램의 입출력 파일 양식은 사용자가 시스템이 지정한 스크립트 형태로 등록한다.
The input / output file format of the newly registered program is registered by the user in the form of a script designated by the system.
도 6은 가상 서버에서 X!Tandem을 수행한 화면이고, 도 7은 가상서버에서 X!Tandem 자원 사용 현황이다.FIG. 6 is a view showing X! Tandem performed in a virtual server, and FIG. 7 is a view showing usage of X! Tandem resources in a virtual server.
도 7에 도시된 바와 같이, X!Tandem 수행 시, CPU core 하나를 100% 차지하며 메모리는 185M 이상 소요된다. 메모리 사용량과 수행시간은 입력 데이터 크기에 따라 비례적으로 늘어나는데, 단일 core에서 수행하는 job을 여러 개의 가상 서버에서 수행하다면 수행시간을 단축하여 결과를 빠르게 피드백 할 수 있으므로, 본원발명에 따른 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템(1)에서 복수개의 가상서버인 클라우드 멤버들(3)을 사용함으로써, 수행시간을 단축하는 결과를 얻는다.
As shown in FIG. 7, when X! Tandem is executed, one CPU core occupies 100%, and the memory takes 185M or more. Since the memory usage and the execution time are proportionally increased according to the size of the input data, if a job executed in a single core is performed in a plurality of virtual servers, the execution time can be shortened and the result can be quickly fed back. Based proteomics
도 8은 Tandem2XML을 이용하여 변환된 데이터를 나타낸다Figure 8 shows the transformed data using Tandem2XML
TandemTandem 결과를 Results XMLXML 포맷으로 변환 Convert to format
검색된 X!Tandem 결과를 분석하기 위해서는 XML 데이터로 다시 변환해야 한다. Tandem2XML은 이러한 변환을 해주는 프로그램으로 standard output으로 출력을 하며 ascii 포맷으로 저장할 수 있다.In order to analyze the X! Tandem results, we need to convert them back to XML data. Tandem2XML is a program that performs this conversion. It outputs standard output and can be saved in ascii format.
도 9는 펩티드 분석을 위한 설정화면을 도시한다. Fig. 9 shows a setting screen for peptide analysis.
TransTrans ProteomicProteomic PipelinePipeline 을 이용한 Using PeptidesPeptides 분석 analysis
Tandem2XML을 이용하여 변환된 XML 파일은 xinteract 프로그램을 이용하여 펩티드(peptides) 분석을 할 수 있으며, 도 9는 XML 파일을 선택하고 각종 패러미터를 설정할 수 있는 화면을 보여준다.
The converted XML file using Tandem2XML can analyze peptides using the xinteract program, and Fig. 9 shows a screen where an XML file can be selected and various parameters can be set.
도 10은 펜티드 분석 완료 화면이다. Fig. 10 is a pentide analysis completed screen.
펩티드(Peptides) 분석을 실행시키면 어느 정도 시간이 경과한 후에 실행된 결과를 볼 수 있으며, 웹상에서 수행하여 일괄 처리된 결과 데이터를 획득가능하다.
When Peptide analysis is executed, it is possible to observe the results after a certain period of time has elapsed, and it is possible to obtain the batch processed data by performing on the web.
도 11은 분석된 펩티드 정보를 나타낸다.Figure 11 shows the analyzed peptide information.
분석된 peptides 정보는 웹을 통해서 도 11과 같이 볼 수 있다.
The analyzed peptides information can be seen through the web as shown in FIG.
도 12는 단백질 분석 설정 화면이고, 도 13은 분석된 단백질 결과에서 임계값을 설정하는 화면이며, 도 14는 단백질 최종 분석결과를 나타내는 화면이다.FIG. 12 is a protein analysis setting screen, FIG. 13 is a screen for setting a threshold value from the analyzed protein results, and FIG. 14 is a screen showing a final analysis result of the protein.
TransTrans ProteomicProteomic PipelinePipeline 을 이용한 Using ProteinProtein 분석 및 결과 저장 Analyze and save results
펩티드(Peptide) 분석을 마친 XML 데이터는 도 12 및 13과 같은 단백질(Protein) 분석 과정을 거쳐서 최종 결과를 얻게 된다. 본 단계에서는 샘플 데이터에 따라, 다양한 임계값을 설정할 수 있으며, 결과치를 확인하면서 임계값을 조절하는 단계가 수반된다.
After the peptide analysis, the XML data is subjected to the protein analysis process shown in FIGS. 12 and 13 to obtain the final result. In this step, various threshold values can be set according to the sample data, and a step of adjusting the threshold values is carried out while checking the result values.
도 15는 본 발명에 따른 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법에 관한 순서도이다.15 is a flowchart illustrating a method of providing a proteomics service based on a cloud computing network for providing a proteomics service according to the present invention.
도 15에 도시된 바와 같이, 본 발명에 따른 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법은 클라이언트의 요청에 응답해서 프로테오믹스 서비스를 제공하기 위해, 클라이언트(100)가 수행되어야 할 하나 이상의 프로그램의 순서를 정의하는 워크플로우 정의 단계(S100); 샘플 데이터를 하나 이상의 프로그램에 따른 입력 파일 및 출력 파일 형식으로 정보를 변환하는 입출력 정보 변환 단계(S200); 및 하나 이상의 프로그램을 수행시키기 위해 상기 프로그램별로 실행 스케줄러 모듈(700; job scheduler)에 제출가능한 스크립트(script)를 생성하는 실행 스크립트(job scripts) 생성 단계(S300)을 포함하는 것을 특징으로 한다.As shown in FIG. 15, a method of providing a proteomics service based on a cloud computing network providing a proteomics service according to the present invention includes providing a proteomics service in response to a request from a client, A workflow defining step (S100) of defining a sequence of programs; An input / output information conversion step (S200) of converting the sample data into an input file and an output file format according to one or more programs; And a job script generating step S300 for generating a script that can be submitted to the
본 발명에 따른 실행 스케줄러 모듈(700)은 스크립트에 따라 클라우드 멤버들(3)을 선택하고 클라우드 멤버들(3)이 지원하는 형식으로 변환하여 상기 샘플 데이터 및 검색 시작 명령을 전송하는 것을 특징으로 한다.The
본 발명에 따른 워크플로우 정의 단계(S100)는 그래픽 유저 인터페이스(GUI)에서 지정되는 것을 특징으로 한다.The workflow definition step S100 according to the present invention is characterized in that it is specified in a graphical user interface (GUI).
본 발명에 따른 프로그램은 미리 정의된 카달로그 상에 존재하거나 신규등록도 가능한 것을 특징으로 한다.The program according to the present invention is present on a predefined catalog or can be newly registered.
본 발명에 따르면, 실행 스케줄러 모듈(700)의 검색 시작 명령에 따라 클라우드 멤버들(3)에서 검색한 결과를 통합서버(2)에 전송하여 저장하는 저장단계(S400)를 포함하는 것을 특징으로 한다.According to the present invention, a storage step (S400) for transmitting and storing the search result from the cloud members (3) to the integration server (2) according to a search start command of the execution scheduler module .
본 발명에 따르면, 통합서버(2)에 저장된 검색 결과를 분석하여 분석 결과 생성하고, 보고서를 생성하여 재저장하는 분석결과 생성 단계(S500)를 포함하는 것을 특징으로 한다.According to the present invention, an analysis result generation step (S500) of analyzing a search result stored in the integration server (2), generating an analysis result, and generating and restoring a report is provided.
본 발명에 따르면, 생성된 상기 분석 결과 및 보고서는 사용자 인터페이스(UI) 상에서 접근 가능한 것을 특징으로 한다.
According to the present invention, the generated analysis result and report are accessible on a user interface (UI).
본 발명에 따른 프로테오믹스 서비스를 제공하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법은 웹상의 서비스 제공 포털에 접속한 후에 웹상의 사용자 인터페이스(UI) 상에서 사용자 신청 및 인증을 위한 사용자 로그인 단계(S10)를 포함하고, 상기 사용자 인터페이스(UI) 상에서 다양한 종류의 상기 샘플 데이터를 업로드하기 위한 업로드 단계(S20)를 포함하는 것을 특징으로 한다.A method for providing a proteomics service based on a cloud computing network providing a proteomics service according to the present invention includes a user login step (S10) for user application and authentication on a user interface (UI) on the web after accessing a service providing portal on the web And an upload step (S20) for uploading various kinds of the sample data on the user interface (UI).
본 발명에 따른 프로그램은 프로테오믹스 데이터 베이스 검색 알고리즘인 OMSSA 또는 X!Tandem인 것을 특징으로 한다.The program according to the present invention is characterized by being a proteomics database search algorithm OMSSA or X! Tandem.
본 발명에 따르면, 프로테오믹스 데이터 베이스 검색 알고리즘이 적용된 VM(virtual machine)이미지가 클라우드 인프라 연동 모듈(800)에 의해 구동가능한 것을 특징으로 한다.According to the present invention, a virtual machine (VM) image to which a proteomics database search algorithm is applied can be driven by the cloud
본 발명에 따른 실행 스케줄러 모듈(700)은 VM간의 작업 분배 및 리소스 관리 기능하고, VM의 성능 모니터링 및 작업 시간 예측 알고리즘을 구현하며, 대기 시간 단축을 위해 상기 VM간의 작업 재분배 알고리즘을 구현하는 것을 특징으로 한다.
The
이상에서 본 발명은 특정의 실시예와 관련하여 도시 및 설명하였지만, 첨부된 특허청구범위에 의해 나타난 발명의 사상 및 영역으로부터 벗어나지 않는 한도내에서 다양한 변경, 개조 및 변화가 가능하다는 것을 당 업계에서 통상의 지식을 가진 자라면 누구나 쉽게 알 수 있을 것이다.
While the present invention has been particularly shown and described with reference to specific embodiments thereof, it will be understood by those skilled in the art that various changes, modifications, and variations can be made therein without departing from the spirit and scope of the invention as defined by the appended claims. Anyone with the knowledge of this will know easily.
1: 프로테오믹스 서비스 제공 시스템 2: 통합서버
3: 클라우드 멤버 100: 클라이언트
200: 사용자 로그인 모듈 300: 업로드 모듈
400: 워크플로우 정의 모듈 500: 입출력 정보 변환모듈
600: 실행 스크립트 생성모듈 700: 실행 스케줄러 모듈
800: 클라우드 인프라 연동 모듈
S10: 사용자 로그인 단계 S20: 업로드 단계
S100: 워크플로우 정의 단계 S200: 입출력 정보 변환 단계
S300: 실행 스크립트(job scripts) 생성 단계
S400: 저장단계 S500: 분석결과 생성 단계1: Proteomics service providing system 2: Integrated server
3: Cloud member 100: Client
200: user login module 300: upload module
400: workflow definition module 500: input / output information conversion module
600: Execution Script Generation Module 700: Execution Scheduler Module
800: Cloud infrastructure interworking module
S10: user login step S20: upload step
S100: Workflow definition step S200: Input / output information conversion step
S300: Creation of job scripts
S400: storing step S500: analysis result generating step
Claims (24)
사용자가 수행되어야 할 하나 이상의 프로그램의 순서를 입력하는 워크플로우 정의 모듈;
상기 하나 이상의 프로그램에 따른 입력 파일 및 출력 파일 형식으로 샘플데이터의 정보를 변환하는 입출력 정보 변환 모듈; 및
상기 하나 이상의 프로그램을 수행시키기 위해 프로그램별로 실행 스케줄러(job scheduler) 모듈에 제출가능한 스크립트(script)를 생성하는 실행 스크립트(job scripts) 생성 모듈;을 포함하고,
상기 실행 스케줄러 모듈은 상기 스크립트에 따라 클라우드 멤버들을 선택하고 상기 클라우드 멤버들이 지원하는 형식으로 상기 샘플데이터를 변환하여 상기 샘플 데이터 및 검색 시작 명령을 전송하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.1. A system for providing a proteomics service based on a cloud computing network in response to a request from a client,
A workflow definition module for inputting a sequence of one or more programs to be performed by a user;
An input / output information conversion module for converting information of sample data in an input file and an output file format according to the at least one program; And
And a job script generation module for generating a script that can be submitted to a job scheduler module for each program to execute the one or more programs,
Wherein the execution scheduler module selects cloud members according to the script and converts the sample data in a format supported by the cloud members to transmit the sample data and the search start command. system.
상기 워크플로우 정의 모듈은 그래픽 유저 인터페이스(GUI)에서 지정되는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.
The method according to claim 1,
Wherein the workflow definition module is specified in a graphical user interface (GUI).
상기 프로그램은 미리 정의된 카달로그 상에 존재하거나 신규등록도 가능한 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.The method of claim 3,
Wherein the program is present on a predefined catalog or can be newly registered. ≪ Desc / Clms Page number 13 >
상기 실행 스케줄러 모듈의 검색 시작 명령에 따라 상기 클라우드 멤버들에서 검색한 결과를 전송하여 저장하는 통합서버를 포함하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.5. The method of claim 4,
And an integration server for transmitting and storing the search result from the cloud members according to a search start command of the execution scheduler module.
상기 통합서버에 저장된 검색 결과를 분석하여 분석 결과를 생성하고, 보고서를 생성하여 재저장하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.6. The method of claim 5,
Analyzing search results stored in the integration server to generate analysis results, and generating and re-storing the generated reports; and a system for providing the proteomics service based on the cloud computing network.
생성된 상기 분석 결과 및 보고서는 사용자 인터페이스(UI) 상에서 접근 가능한 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.The method according to claim 6,
Wherein the generated analysis results and reports are accessible on a user interface (UI).
상기 사용자 인터페이스(UI) 상에서 사용자 신청 및 인증을 위한 사용자 로그인 모듈을 포함하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.8. The method of claim 7,
And a user login module for user application and authentication on the user interface (UI).
상기 사용자 인터페이스(UI) 상에서 다양한 종류의 상기 샘플 데이터를 업로드하기 위한 업로드 모듈을 포함하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.The method of claim 8, wherein
And an upload module for uploading various types of sample data on the user interface (UI).
상기 프로그램은 프로테오믹스 데이터 베이스 검색 알고리즘인 OMSSA 또는 X!Tandem인 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.10. The method of claim 9,
Wherein the program is a proteomics database search algorithm OMSSA or X! Tandem.
상기 프로테오믹스 데이터 베이스 검색 알고리즘이 적용된 VM(virtual machine)이미지가 구동가능하도록 하는 클라우드 인프라 연동 모듈을 포함하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.11. The method of claim 10,
And a cloud infrastructure interworking module for enabling a VM (virtual machine) image to which the proteomics database search algorithm is applied to be driven.
상기 실행 스케줄러 모듈은 상기 VM간의 작업 분배 및 리소스를 관리 하고,
상기 VM의 성능 모니터링 및 작업 시간 예측 알고리즘을 구현하며,
대기 시간 단축을 위해 상기 VM간의 작업 재분배 알고리즘을 구현하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템.
12. The method of claim 11,
The execution scheduler module manages work distribution and resources among the VMs,
Implementing the VM performance monitoring and work time prediction algorithm,
And a work redistribution algorithm between the VMs is implemented to reduce the waiting time.
상기 클라이언트가 수행되어야 할 하나 이상의 프로그램의 순서를 정의하는 워크플로우 정의 단계;
상기 하나 이상의 프로그램에 따른 입력 파일 및 출력 파일 형식으로 샘플 데이터의 정보를 변환하는 입출력 정보 변환 단계; 및
상기 하나 이상의 프로그램을 수행시키기 위해 상기 프로그램별로 실행 스케줄러 모듈(job scheduler)에 제출가능한 스크립트(script)를 생성하는 실행 스크립트(job scripts) 생성 단계;를 포함하고,
상기 실행 스케줄러 모듈은 상기 스크립트에 따라 클라우드 멤버들을 선택하고 상기 클라우드 멤버들이 지원하는 형식으로 상기 샘플데이터를 변환하여 상기 샘플 데이터 및 검색 시작 명령을 전송하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.A method for providing a proteomics service based on a cloud computing network in response to a request from a client,
A workflow definition step of defining an order of one or more programs to be executed by the client;
An input / output information conversion step of converting information of sample data in an input file and an output file format according to the at least one program; And
And generating job scripts that can be submitted to an execution scheduler for each of the programs to execute the one or more programs,
Wherein the execution scheduler module selects cloud members according to the script and converts the sample data in a format supported by the cloud members to transmit the sample data and the search start command. Way.
상기 워크플로우 정의 단계는 그래픽 유저 인터페이스(GUI)에서 지정되는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.14. The method of claim 13,
Wherein the workflow definition step is specified in a graphical user interface (GUI).
상기 프로그램은 미리 정의된 카달로그 상에 존재하거나 신규등록도 가능한 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.16. The method of claim 15,
Wherein the program is present on a predefined catalog or can be newly registered. ≪ Desc / Clms Page number 20 >
상기 실행 스케줄러 모듈의 검색 시작 명령에 따라 상기 클라우드 멤버들에서 검색한 결과를 통합서버에 전송하여 저장하는 저장단계를 포함하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.17. The method of claim 16,
And storing the result of the search in the cloud members according to a search start command of the execution scheduler module to the integration server and storing the result.
상기 통합서버에 저장된 검색 결과를 분석하여 분석 결과를 생성하고, 보고서를 생성하여 재저장하는 분석결과 생성 단계를 포함하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.18. The method of claim 17,
Generating an analysis result by analyzing a search result stored in the integration server, and generating an analysis result and re-storing the report; and generating an analysis result based on the analysis result.
생성된 상기 분석 결과 및 보고서는 사용자 인터페이스(UI) 상에서 접근 가능한 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.19. The method of claim 18,
Wherein the generated analysis results and reports are accessible on a user interface (UI).
상기 사용자 인터페이스(UI) 상에서 사용자 신청 및 인증을 위한 사용자 로그인 단계를 포함하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.20. The method of claim 19,
And a user login step for user application and authentication on the user interface (UI).
상기 사용자 인터페이스(UI) 상에서 다양한 종류의 상기 샘플 데이터를 업로드하기 위한 업로드 단계를 포함하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.The method of claim 20, wherein
And uploading various types of the sample data on the user interface (UI).
상기 프로그램은 프로테오믹스 데이터 베이스 검색 알고리즘인 OMSSA 또는 X!Tandem인 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.22. The method of claim 21,
Wherein the program is a proteomics database search algorithm OMSSA or X! Tandem.
상기 프로테오믹스 데이터 베이스 검색 알고리즘이 적용된 VM(virtual machine)이미지가 클라우드 인프라 연동 모듈에 의해 구동가능하도록 하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.23. The method of claim 22,
Wherein a virtual machine (VM) image to which the proteomics database search algorithm is applied is driven by a cloud infrastructure interworking module.
상기 실행 스케줄러 모듈은 상기 VM간의 작업 분배 및 리소스를 관리하고,
상기 VM의 성능 모니터링 및 작업 시간 예측 알고리즘을 구현하며,
대기 시간 단축을 위해 상기 VM간의 작업 재분배 알고리즘을 구현하는 것을 특징으로 하는 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 방법.24. The method of claim 23,
The execution scheduler module manages work distribution and resources among the VMs,
Implementing the VM performance monitoring and work time prediction algorithm,
And implementing a work redistribution algorithm between the VMs to reduce the latency time.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20110050019A KR101494864B1 (en) | 2011-05-26 | 2011-05-26 | Proteomics service system using cloud computing and the method for the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20110050019A KR101494864B1 (en) | 2011-05-26 | 2011-05-26 | Proteomics service system using cloud computing and the method for the same |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120131678A KR20120131678A (en) | 2012-12-05 |
KR101494864B1 true KR101494864B1 (en) | 2015-02-23 |
Family
ID=47515456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20110050019A KR101494864B1 (en) | 2011-05-26 | 2011-05-26 | Proteomics service system using cloud computing and the method for the same |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101494864B1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102166185B1 (en) | 2014-03-04 | 2020-10-15 | 한국전자통신연구원 | Data processing apparatus for pipeline execution acceleration and method thereof |
KR102485154B1 (en) * | 2018-09-20 | 2023-01-06 | 한국전력공사 | Power Communication Service |
CN113674798B (en) * | 2020-05-15 | 2024-04-26 | 复旦大学 | Proteomics data analysis system |
CN114242163B (en) * | 2020-09-09 | 2024-01-30 | 复旦大学 | Processing system for mass spectrometry data of proteomics |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100807651B1 (en) | 2002-12-26 | 2008-02-28 | 리서치 인 모션 리미티드 | System and method of creating and communicating with component based wireless applications |
US20080166030A1 (en) | 2007-01-09 | 2008-07-10 | Morris Jeffrey S | Method and computer-program product for detecting and quantifying protein spots |
EP2302363A2 (en) | 2001-09-05 | 2011-03-30 | Life Technologies Corporation | Method for normalization of assay data |
-
2011
- 2011-05-26 KR KR20110050019A patent/KR101494864B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2302363A2 (en) | 2001-09-05 | 2011-03-30 | Life Technologies Corporation | Method for normalization of assay data |
KR100807651B1 (en) | 2002-12-26 | 2008-02-28 | 리서치 인 모션 리미티드 | System and method of creating and communicating with component based wireless applications |
US20080166030A1 (en) | 2007-01-09 | 2008-07-10 | Morris Jeffrey S | Method and computer-program product for detecting and quantifying protein spots |
Non-Patent Citations (1)
Title |
---|
J Proteome Res. 2009 Jun;8(6):3148-53. * |
Also Published As
Publication number | Publication date |
---|---|
KR20120131678A (en) | 2012-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9094404B2 (en) | Reconfigurable cloud computing | |
JP7090152B2 (en) | Code module selection for device design | |
JP2018026114A (en) | Application profiling job management system, program, and method | |
EP3035189A1 (en) | Automated approach for integrating automated function library functions and algorithms in predictive analytics | |
US20180137431A1 (en) | Multimodal, small and big data, machine learing systems and processes | |
CN106104468B (en) | Dynamically determining a mode of a data processing application | |
CN110249312B (en) | Method and system for converting data integration jobs from a source framework to a target framework | |
KR20200029387A (en) | Data aggregation method for cache optimization and efficient processing | |
US9753834B1 (en) | Certification process for cloud platform | |
KR101494864B1 (en) | Proteomics service system using cloud computing and the method for the same | |
US20210367862A1 (en) | Personalized serverless functions for multi-tenant cloud computing environment | |
US20190114168A1 (en) | Framework for supporting multiple analytic runtimes | |
CN115756822B (en) | Method and system for optimizing high-performance computing application performance | |
Wu et al. | A distributed workflow management system with case study of real-life scientific applications on grids | |
US10467124B2 (en) | Certification process for cloud platform | |
CN111309341B (en) | Android application installation flow optimization method based on time-consuming prediction | |
Wu et al. | Paraopt: Automated application parameterization and optimization for the cloud | |
Grunzke et al. | Seamless HPC integration of data-intensive KNIME workflows via UNICORE | |
US12073268B2 (en) | Dynamically adjusting objects monitored by an operator in a distributed computer environment | |
Subramanian et al. | Parallel R computing on the web | |
WO2022225578A1 (en) | Real-time event-driven serverless functions within storage systems for near data processing | |
KR102606044B1 (en) | Service providing apparatus for processing meteorological and climate data provided by IoT | |
Li et al. | Scalability and performance analysis of BDPS in clouds | |
Woodard et al. | Real-time HEP analysis with funcX, a high-performance platform for function as a service | |
Kashyap et al. | Big data at hpc wales |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20180202 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20181218 Year of fee payment: 5 |