KR100592086B1 - 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차구조 예측 방법 - Google Patents

적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차구조 예측 방법 Download PDF

Info

Publication number
KR100592086B1
KR100592086B1 KR1020040055685A KR20040055685A KR100592086B1 KR 100592086 B1 KR100592086 B1 KR 100592086B1 KR 1020040055685 A KR1020040055685 A KR 1020040055685A KR 20040055685 A KR20040055685 A KR 20040055685A KR 100592086 B1 KR100592086 B1 KR 100592086B1
Authority
KR
South Korea
Prior art keywords
protein
secondary structure
reliability
modules
voting
Prior art date
Application number
KR1020040055685A
Other languages
English (en)
Other versions
KR20060006584A (ko
Inventor
김재훈
이수진
이원태
김민준
박상민
이성준
이민지
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Priority to KR1020040055685A priority Critical patent/KR100592086B1/ko
Publication of KR20060006584A publication Critical patent/KR20060006584A/ko
Application granted granted Critical
Publication of KR100592086B1 publication Critical patent/KR100592086B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차 구조 예측 방법에 관한 것으로서, 다수의 단백질 이차 구조 예측 프로그램을 통해 단백질의 이차 구조가 알려진 단백질의 서열을 입력값으로 하여 단백질의 이차 구조를 예측하되, 각각의 프로그램별로 예측된 단백질의 이차 구조가 알려진 단백질의 이차 구조에 일치하는 비율에 따라 산출된 정확도를 바탕으로 예측되는 결과에 대한 신뢰 정도를 나타내는 신뢰도를 산출하여 저장하는 학습 프로세스 과정과, 특정 단백질의 서열에 대한 단백질의 이차 구조 요청시 다수의 프로그램을 이용하여 단백질의 이차 구조를 예측하되, 저장된 각각의 프로그램별 신뢰도에 따른 가중치를 예측된 결과치에 적용하여 보팅하는 가중치 보팅 프로세스 과정을 포함한 것을 특징으로 한다.
본 발명에 따르면, 미리 학습되어 구축된 다수 모듈의 신뢰도에 대한 로그 파일을 이용하되 모듈별로 예측된 결과치에 대해 신뢰도에 따른 가중치를 다르게 적용하여 보팅을 행함으로써 단백질의 이차 구조를 보다 정확하게 예측할 수 있다.
모듈, 로그 파일, 가중치 보팅, 단백질 서열, 단백질 이차 구조, 예측

Description

적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차 구조 예측 방법{METHOD TO PREDICT PROTEIN SECONDARY STRUCTURE USING ADAPTIVE WEIGHTED VOTING ALGORITHM}
도 1 은 본 발명을 구현하기 위한 적응적인 가중치 보팅 시스템의 구성개략도,
도 2a,2b 는 본 발명에 따라 적응적인 가중치 보팅 알고리즘을 적용하여 단백질의 이차 구조를 예측하는 흐름도,
도 3 은 본 발명에 따라 적응적인 가중치 보팅 알고리즘을 적용한 단백질의 이차 구조 예측 개념도,
도 4 는 본 발명에 따른 학습 프로세스 과정으로 만들어진 모듈의 평균 신뢰도를 비교한 그래프,
도 5 는 본 발명에 따라 제안된 알고리즘과 종래의 다수결 보팅 알고리즘을 통해 예측된 평균 신뢰도값을 비교한 그래프,
도 6 은 본 발명에 따른 모듈들과 제안 알고리즘 비교한 그래프,
도 7 은 본 발명에 따른 각각의 보터들과 제안 알고리즘, 종래의 다수결 보팅 알고리즘의 결과 예측을 나타낸 분포도이다.
*도면의 주요부분에 대한 부호의 설명
110 : 에바 서버 120 : 데이터 메니저
130 : 학습 프로바이더 140 : 다수 모듈
150 : 가중치 보팅 프로바이더 160 : 로그 파일
본 발명은 단백질 이차 구조 예측 방법에 관한 것으로서, 특히 적응적인 가중치 보팅 알고리즘을 적용하여 단백질의 이차 구조를 예측하는 방법에 관한 것이다.
일반적으로, 보팅 알고리즘은 실시간 fault-tolerant 시스템, 분산 시스템, 및 분산 데이터베이스 시스템 등에서 시스템의 오류나 데이터의 일치성 등에 사용된다. 이러한 보팅 알고리즘은 보터들의 신뢰도가 약 60% 이상이 되면 보터들의 수가 증가할수록 보팅한 결과들의 정확도가 증가한다.
한편, 종래의 단백질 이차 구조를 예측하는 방법을 살펴보면, 단일 프로그램이나 복수의 프로그램을 이용하는 방법 등을 들 수 있다. 단일 프로그램을 이용하 는 예측 방법은 여러 알고리즘을 다양하게 적용할 수 있는 장점이 있으나 예측의 정확도가 떨어지는 단점이 있다. 이에 반해, 복수 프로그램을 이용하는 예측 방법은 단일 프로그램을 이용하는 예측 방법을 통해 발생되는 단점을 보완하여 예측의 정확도를 향상시킬 수 있다.
그런데, 복수의 프로그램을 이용하는 예측 방법은 복수의 모듈들 즉, 단백질의 서열을 입력값으로 하여 단백질의 이차 구조를 예측하는 프로그램들의 가치를 동일하게 적용하여 예측함으로써 예측의 정확도에 대한 성능을 개선하는데 한계가 있다.
이에 본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 미리 각각의 모듈별로 단백질의 이차 구조를 예측하는 정확도를 학습한 후, 산출된 정확도를 바탕으로 각각의 모듈을 통해 예측된 결과치에 서로 다른 가중치를 부여하여 보팅을 행하는 예측 방법을 제공하는데 그 목적이 있다.
상기와 같은 목적을 달성하기 위하여 본 발명에 따른 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차 구조 예측 방법은, 다수의 단백질 이차 구조 예측 프로그램을 통해 단백질의 이차 구조가 알려진 단백질의 서열을 입력값으로 하여 단백질의 이차 구조를 예측하되, 각각의 프로그램별로 예측된 단백질의 이차 구조가 알려진 단백질의 이차 구조에 일치하는 비율에 따라 산출된 정확도를 바탕으로 예측되는 결과에 대한 신뢰 정도를 나타내는 신뢰도를 산출하여 저장하는 학습 프로세스 과정과, 특정 단백질의 서열에 대한 단백질의 이차 구조 요청시 다수의 프로그램을 이용하여 단백질의 이차 구조를 예측하되, 저장된 각각의 프로그램별 신뢰도에 따른 가중치를 예측된 결과치에 적용하여 보팅하는 가중치 보팅 프로세스 과정을 포함한 것을 특징으로 한다.
이 때, 상기의 단백질 이차 구조 예측 방법은, 에바 서버(Eva Server), 데이터 메니저(Data Manager), 학습 프로바이더(Learning Provider), 가중치 보팅 프로바이더(Weighted Voting Provider), 모듈(Module), 및 로그 파일(LOG FILE) 등으로 이루어진 적응적인 가중치 보팅 시스템을 이용하되, 상기 학습 프로세스 과정은, 상기 데이터 메니저가 에바 서버로부터 특정 단백질의 서열과 단백질의 이차 구조에 대한 데이터를 가져오는 단계; 상기 데이터 메니저는 가져온 특정 단백질의 서열과 단백질의 이차 구조에 대한 데이터를 각각의 모듈이 필요로 하는 포맷으로 가공하는 단계; 상기 학습 프로바이더는 각각의 모듈을 실행시켜 가공된 단백질의 서열에 대한 데이터를 입력값으로 하여 단백질의 이차 구조를 예측하는 단계; 및 상기 학습 프로바이더는 각각의 모듈별로 예측된 단백질의 이차 구조가 알려진 단백질의 이차 구조에 일치하는 비율에 따른 정확도를 산출하되, 산출된 정확도를 바탕으로 각각의 모듈을 통해 예측되는 결과의 신뢰 정도에 따른 신뢰도를 산출한 후, 정해진 주기 동안의 평균 신뢰도를 산출하여 로그 파일에 저장하는 단계를 포함하고, 상기 가중치 보팅 프로세스 과정은, 상기 데이터 메니저가 사용자로부터 특 정 단백질의 서열에 대한 단백질의 이차 구조를 요청받으면 요청받은 단백질의 서열에 대한 데이터를 각각의 모듈이 필요로 하는 포맷으로 가공하는 단계; 상기 가중치 보팅 프로바이더는 사용자의 요청을 처리하기 위한 모듈수를 결정한 후, 결정된 모듈수에 따라 평균 신뢰도가 높은 모듈들을 선택하고 실행시켜 가공된 단백질의 서열에 대한 데이터를 입력하는 단계; 상기 가중치 보팅 프로바이더는 보팅에 참여할 모듈수를 결정한 후, 결정된 각각의 모듈로부터 예측된 단백질의 이차 구조의 결과치에 대해 로그 파일에 저장된 모듈별 평균 신뢰도를 적용하여 가중치 보팅을 행하는 단계; 및 상기 가중치 보팅 프로바이더는 가중치 보팅되어 예측된 단백질의 이차 구조를 사용자에게 알려주는 단계를 포함하여 보다 바람직하게 실시할 수 있다.
먼저, 본 발명의 설명에 따른 이해를 도우면서 내용을 명확히 하기 위해 이하에 사용하는 주요한 용어를 정의하기로 한다.
1. 모듈 : 투표권을 갖는 객체로서 구체적으로는 특정 단백질의 서열을 입력값으로 하여 단백질의 이차 구조를 예측하는 프로그램.
2. 보팅 : 투표하는 행위로서 구체적으로는 특정 단백질의 서열을 입력값으로 하여 단백질의 이차 구조를 예측하는 행위.
3. 정확도 : 모듈을 통해 특정 단백질의 예측된 단백질의 이차 구조가 알려진 단백질의 이차 구조에 얼마나 일치하는가를 나타내는 정도.
4. 신뢰도 : 정확도를 바탕으로 각각의 모듈을 통해 예측되는 결과에 대한 신뢰 정도.
5. 평균 신뢰도 : 정해진 주기 동안에 산출된 신뢰도의 평균치.
이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명하기로 한다.
도 1 은 본 발명을 구현하기 위한 적응적인 가중치 보팅 시스템의 구성개략도로서, 도면에서 "110"은 에바 서버(Eva Server), "120"은 데이터 메니저(Data Manager), "130"은 학습 프로바이더(Learning Provider), "140"은 다수의 모듈(Module), "150"은 가중치 보팅 프로바이더(Weighted Voting Provider), "160"은 로그 파일(LOG FILE)을 각각 나타낸다.
상기의 에바 서버(110)는 일종의 웹 서버로서 현재까지 알려진 단백질의 서열과 그 단백질의 이차 구조에 대한 데이터를 가지고 있다.
상기의 데이터 메니저(120)는 에바 서버(110)로부터 가져온 단백질의 서열과 단백질의 이차 구조에 대한 데이터를 특정한 포맷 즉, 다수의 모듈(140)에 입력할 수 있는 형태의 값으로 가공한다.
상기의 다수 모듈(140)은 일종의 프로그램들로서 학습 프로바이더(130) 혹은 가중치 보팅 프로바이더(150)와 연동하여 특정한 단백질의 서열을 입력값으로 하여 단백질의 이차 구조를 예측한다.
상기의 학습 프로바이더(130)는 다수 모듈(140)의 예측에 대한 정확도를 평가할 수 있는 이밸루에이터(Evaluator)를 구비하는데, 다수의 모듈(140)이 단백질 의 이차 구조를 예측한 결과에 대한 정확도를 평가한 후 그에 따른 신뢰도를 산출하여 로그 파일(160)에 저장한다.
상기의 가중치 보팅 프로바이더(150)는 가중치를 적용하여 보팅을 행하는 적응적인 가중치 보터(Adaptive Weighted Voter)를 구비하는데, 사용자의 요청시 각각의 모듈(140)이 실행하여 단백질의 이차 구조를 예측한 결과에 대해 로그 파일(160)에 저장된 각각의 모듈(140)의 신뢰도에 따라 서로 다른 가중치를 부여하여 보팅을 행한다.
여기서의 보터는 투표권을 모아 결과를 판단하는 객체를 의미한다. 그리고, 가중치 보팅은 보터마다 투표권의 수를 다르게 적용하여 보팅하는 것을 의미한다. 본 발명의 핵심이 되는 가중치 보팅에 대해서는 도 5,6,7 을 참조하여 보다 자세히 설명하기로 한다.
상기의 로그 파일(160)은 학습 프로바이더(130)를 통해 산출된 각각의 모듈(140)의 신뢰도에 관한 데이터를 저장하면서, 필요에 따라 저장된 데이터를 가중치 보팅 프로바이더(150)에 제공한다. 신뢰도는 정해진 주기마다 업데이트된다.
도 2a,2b 는 본 발명에 따라 적응적인 가중치 보팅 알고리즘을 적용하여 단백질의 이차 구조를 예측하는 흐름도이다.
도 2a 를 참조하면, 본 발명에 따라 적응적인 가중치 보팅 알고리즘을 적용하여 단백질의 이차 구조를 예측하는 방법은 크게 학습 프로세스 과정(S210)과 가 중치 보팅 프로세스 과정(S220)으로 이루어진다.
상기의 학습 프로세스 과정(S210)은 다수의 단백질 이차 구조 예측 프로그램을 통해 단백질의 이차 구조가 알려진 단백질의 서열을 입력값으로 하여 단백질의 이차 구조를 예측한다. 이어서, 각각의 프로그램별로 예측된 단백질의 이차 구조가 알려진 단백질의 이차 구조에 얼마나 일치하는가의 비율에 따라 정확도를 산출한다. 그리고, 이러한 정확도를 바탕으로 예측되는 결과에 대한 신뢰 정도를 나타내는 신뢰도를 산출하여 저장하는 과정이다.
상기의 가중치 보팅 프로세스 과정(S220)은 사용자가 특정 단백질의 서열에 대한 단백질의 이차 구조를 요청하면 다수의 프로그램을 이용하여 단백질의 이차 구조를 예측하는데, 예측된 결과치에 저장된 각각의 프로그램별로 산출되어 저장된 신뢰도에 따른 가중치를 서로 다르게 적용하여 보팅을 행한 후 최종 결과치를 사용자에게 알려주는 과정이다.
도 2b 를 참조하여 상기의 학습 프로세스 과정(S210)과 가중치 보팅 프로세스 과정(S220)을 보다 상세히 설명하기로 한다.
먼저, 학습 프로세스 과정(S210)을 단계별로 살펴보기로 한다.
데이터 메니저(120)는 에바 서버(110)로부터 새로운 입력 데이터와 알려진 결과값 즉, 특정한 단백질의 서열과 단백질의 이차 구조에 대한 데이터를 가져와서 가져온 데이터를 각각의 모듈(140)이 필요로 하는 포맷으로 가공한다(S211,S212).
이어서, 학습 프로바이더(130)는 각각의 모듈(140)을 실행시켜 가공된 단백질의 서열에 대한 데이터를 입력값으로 하여 단백질의 이차 구조를 예측한다(S213).
이어서, 상기의 학습 프로바이더(130)는 각각의 모듈(140)을 통해 예측된 단백질의 이차 구조가 실제로 알려진 단백질의 이차 구조에 얼마나 일치하는가의 비율에 따라 정확도를 산출하고, 이렇게 산출된 정확도를 바탕으로 각각의 모듈(140)을 통해 예측되는 결과의 신뢰 정도에 따른 신뢰도를 산출한 후, 정해진 주기 동안의 평균 신뢰도를 산출하여 로그 파일(160)에 저장한다(S214).
상기의 정확도, 신뢰도, 및 평균 신뢰도를 산출하는 것에 대해 보다 구체적으로 설명하기로 한다.
상기의 학습 프로바이더(130)는 각각의 모듈(140)을 통해 예측된 단백질의 이차 구조에 대한 데이터를 다음과 같은 수학식 1 에 적용할 수 있는 형태로 가공하고 이러한 Q3을 적용하여 각각의 모듈에 대한 정확도를 산출할 수 있다.
Figure 112004031640596-pat00001
즉, 모듈(140)을 통해 정확히 예측된 residues의 수가 전체 residues의 수에 얼마나 일치하는가의 비율에 따라 정확도를 산출한다.
한편, c 는 주기, i 는 임의의 모듈에 대해 주어진 아이디,
Figure 112004031640596-pat00002
는 모듈 i 의 신뢰도,
Figure 112004031640596-pat00003
는 주기 c 동안에 모듈 i 의 신뢰도에 대한 평균 신뢰도라고 가정할 때, 신뢰도는 다음과 같은 수학식 2 에 의해 산출할 수 있다.
Figure 112004031640596-pat00004
Q3 을 100 으로 나눈 것은 평균 신뢰도가 1 이하의 값을 갖도록 하기 위함이다.
그리고, 평균 신뢰도는 다음과 같은 수학식 3 에 의해 산출할 수 있다.
Figure 112004031640596-pat00005
그리고, Pi(c)가 c 주기에 모듈 i 에 의해 얻어진 예측 결과치라고 가정하면, c 주기에서의 모듈 i에 대한 로그 파일에는
Figure 112004031640596-pat00006
을 계산하여 저장할 수 있다. 이 때, 매 주기마다 변경되는 평균 신뢰도에 대한 데이터는 업데이트된다.
이제, 가중치 보팅 프로세스 과정(S220)을 살펴보기로 한다.
사용자가 특정한 단백질의 서열에 대한 단백질의 이차 구조를 요청하면, 데이터 메니저(120)는 요청받은 단백질의 서열에 대한 데이터를 각각의 모듈(140)이 필요로 하는 포맷으로 가공한다(S221).
이어서, 가중치 보팅 프로바이더(150)는 사용자의 요청을 처리하기 위한 모듈(SM:Sending Module)의 수를 결정한 후, 결정된 모듈수에 따라 평균 신뢰도가 높은 모듈(140)을 선택하고 실행시켜 가공된 단백질의 서열에 대한 데이터를 입력한다(S222). 이 때, 모듈의 수를 결정하는 이유는 사용자의 요청이 한정된 시간내에 처리되어야 한다고 가정하기 때문이다. 따라서, SM 수는 사용자의 요청 시간에 따라 실행될 수 있는 모듈수가 된다.
이어서, 상기의 가중치 보팅 프로바이더(150)는 보팅에 참여할 모듈(RM:Receiving Module)의 수를 결정한 후, 결정된 각각의 모듈(140)로부터 예측된 단백질의 이차 구조에 대해 로그 파일(160)에 저장된 각각의 모듈(140)의 평균 신뢰도를 적용하여 가중치 보팅을 행한다(S223). 이 때, RM 수는 사용자의 요청된 시간내에 실제의 결과를 낸 모듈의 수를 의미한다.
마지막으로, 상기의 가중치 보팅 프로바이더(150)는 가중치 보팅이 행해져서 예측된 단백질의 이차 구조에 대한 최종 데이터를 사용자에게 알려준다(S224).
도 3 은 본 발명에 따라 적응적인 가중치 보팅 알고리즘을 적용한 단백질의 이차 구조 예측 개념도이고, 도 4 는 본 발명에 따른 학습 프로세스 과정으로 만들 어진 모듈의 평균 신뢰도를 비교한 그래프를 나타낸다.
본 발명에서는 모듈 즉, 단백질의 이차 구조 예측 프로그램으로서 PSIPRED 프로그램, JNET 프로그램, PREDATOR 프로그램, 및 PROF 프로그램을 테스트를 위해사용하기로 한다. 도 3 에 나타난 바와 같이, PSIPRED 프로그램은 정확도에 영향을 주도록 파라메터를 조정하여 3개의 모듈로 구성하고 나머지 프로그램은 각각 한 개의 모듈로 구성하여 총 모듈의 수는 6 개가 된다.
단백질의 이차 구조는 대표적으로 C: Coil, H: helix, E: strand의 세가지 형태로 존재한다. 모듈들은 단백질의 서열에 대해 이차구조(C or H or E)를 예측한다. 예측된 결과들은 학습 프로세스에 의해 구축된 모듈들의 평균 신뢰도를 가중치로 사용하여 보팅을 행하여 최종 결과값을 얻는다.
한편, 본 발명에서 사용하는 테스트 데이터는 Eva 서버에서 단백질 서열과 알려진 단백질 구조 데이터로부터 DSSP 프로그램을 사용하여 얻어낸 단백질의 이차 구조에 대한 데이터를 이용한다. 그리고, Eva 서버로부터 단백질의 이차 구조 결과가 알려진 100 개의 서열을 이용하여 로그 파일을 만들 수 있다. 도 4 를 통해 100 개의 서열을 이용하여 만든 모듈들의 평균 신뢰도를 확인할 수 있다.
그런데, PSIPRED 프로그램은 같은 프로그램이더라도 E-value에 대한 파라메터 값을 조정하여 PSIPRED1, PSIPRED2, PSIPRED3 에 의해 산출된 결과값과 그에 따른 평균 신뢰도가 다양함을 확인할 수 있다.
도 5 는 본 발명에 따라 제안된 알고리즘과 종래의 다수결 보팅 알고리즘을 통해 예측된 평균 신뢰도값을 비교한 그래프이고, 도 6 은 본 발명에 따른 모듈들과 제안 알고리즘 비교한 그래프이다.
먼저, 로그 파일을 이용하여 100 개의 서열을 테스트하기로 한다. 또한, 적용된 6 개 모듈들의 결과에서 상위의 3-Moduler, 모든 모듈이 참여해 보팅한 6-Moduler, 일반적인 보팅 알고리즘, 및 각 6 개의 모듈들에서의 결과값을 비교하기로 한다.
그리고, AWVA-SUM 과 AWVA-AVG 를 통해 보팅 결과를 선택하기로 한다. 여기서, AWVA-SUM 은 결과에 대해 보터들의 가중치 값을 합하여 얻은 결과를 최종 결과로 선택하는 방법이고, AWVA-AVG 는 결과에 대해 보터들의 가중치값을 평균하여 얻은 결과를 최종 결과로 선택하는 방법이다.
이처럼, 두 개의 방법으로 나누는 이유는 AWVA-SUM 의 방법에서 로그 파일에서는 낮은 평균 신뢰도를 가지더라도 많은 보터들이 동일한 예측값을 보인다면 하나의 우수한 보터가 선택한 예측보다 높은 결과를 가질 수 있기 때문이다. 그리고, AWVA-AVG 의 방법은 많은 보터들이 선택하였더라도 우수한 보터가 선택한 예측값이 더 높은 결과를 가질 수 있기 때문이다.
도 5 를 참조하여 AWVA-SUM 방법, AWVA-AVG 방법, 및 종래의 다수결 보팅 알고리즘을 비교할 때, AWVA-SUM 방법에 의한 값이 AWVA-AVG 방법에 의한 값보다 0.133 % 높은 결과가 나왔으며, 다수결 보팅 알고리즘보다 RM=3일 때는 AWVA-SUM 방법에 의한 값이 종래보다 8.615% 높았고, AWVA-AVG 방법에서 RM=3 일 때는 11.755 % 높아 훨씬 우수한 성능을 보임을 알 수 있다.
이 때, AWVA-SUM 방법이 AWVA-AVG 방법보다 높은 정확도 결과를 낸 것은 평균 신뢰도가 상위권인 모듈이 낮은 정확도를 값을 낼 때 하위권 모듈이 높은 정확도 값을 내어 보완이 될 경우가 있기 때문이다.
또한, 몇 개의 보터들이 낮은 정확도를 가지기 때문에 보팅 모듈 수(RM)가 증가하더라도 높아지지 않는 것을 볼 수 있다. 이것은 도 5 에 나타난 바와 같이, 상위권 4개를 제외한 나머지 모듈이 50 % 정도이거나 낮은 결과의 정확도를 보이기 때문에 보팅 모듈 수가 증가해도 정확도가 높아지지 않게 된다.
그러나, 높은 결과의 정확도를 가진 보터들이 많아진다면 본 발명에 따른 적응적인 가중치 보팅 알고리즘의 결과는 훨씬 더 높아질 것으로 예상할 수 있다.
한편, 도 6 에 나타난 바와 같이, 제안된 AWVA-SUM(RM=3, RM=6), AWVA-AVG(RM=3, RM=6) 알고리즘 중에서 상위권 3개의 모듈의 평균 신뢰도에 대한 합으로 보팅의 결과를 판단하는 알고리즘이 보팅에 참여한 모듈들이나 다른 보팅 방법에 비해 높은 결과치가 산출됨을 알 수 있다.
도 7 은 본 발명에 따른 각각의 보터들과 제안 알고리즘, 및 종래의 다수결 보팅 알고리즘의 결과 예측을 나타낸 분포도로서, 각각의 모듈들과 제안하는 AWVA- SUM 방법, AWVA-AVG 방법, 및 종래의 보팅 알고리즘을 적용한 모듈을 통해 산출된 예측 정확도 값들의 분산된 정도를 보여준다.
도 7 에서 0 에 가까운 박스 경계선이 데이터의 25 % 이고 가장 먼 박스 경계선이 데이터의 75 % 이다. 박스 밖의 경계선은 결과 데이터의 10 % 와 90 % 를 보여준다. 박스 안의 선은 데이터의 중간 값이다.
도 7 을 참조하면, 제안된 AWVA-SUM 방법과 AWVA-AVG 방법이 비교적 높은 결과값으로 모여 있으며, 특히 RM=3에서의 AWVA-SUM 방법과 AWVA-AVG 방법에 의한 결과는 상위 모듈 3개와 유사하면서도 좀 더 밀집해 있음을 확인할 수 있다. 따라서, 제안하는 방법이 비교적 안정적으로 높은 결과값을 보인다는 것을 판단할 수 있다.
이상에서 설명한 바와 같이, 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차 구조 예측 방법은 미리 학습되어 구축된 다수 모듈의 신뢰도에 대한 로그 파일을 이용하되 모듈별로 예측된 결과치에 대해 신뢰도에 따른 가중치를 다르게 적용하여 보팅을 행함으로써 단백질의 이차 구조를 보다 정확하게 예측할 수 있다.

Claims (4)

  1. 각각이 단백질의 이차 구조 예측 프로그램인 복수 개의 모듈들에 대한 신뢰도를 기초로, 상기 신뢰도가 높을 수록 높은 가중치를 할당하는 단계;
    단백질의 이차 구조를 예측하도록 요청된 단백질의 서열 데이터를, 상기 복수 개의 모듈에 적용하기 위한 포맷으로 변경하는 단계;
    상기 변경된 단백질의 서열 데이터를 상기 복수 개 모듈에 입력함으로써 단백질 이차 구조를 예측하는 단계;
    상기 단백질 이차 구조 예측결과, 상기 복수개의 모듈들 중 단백질 이차 구조를 동일하게 예측한 모듈들끼리의 해당 가중치의 합 또는 평균을 계산하는 단계; 및
    상기 가중치의 합 또는 평균이 가장 높은 모듈들이 예측한 단백질 이차 구조를 상기 단백질 서열 데이터에 대한 최종 단백질 이차 구조로 선택하는 단계; 를 포함한 것을 특징으로 하는 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차 구조 예측 방법.
  2. 제1항에 있어서,
    상기 높은 가중치를 할당하는 단계는,
    단백질 이차 구조가 알려진 복수 개의 소정 단백질 서열 데이터를 기초로 상기 복수 개의 모듈이 예측한 단백질 이차 구조가 상기 알려진 단백질의 이차 구조와 일치하는 비율에 따른 정확도를 기초로 상기 복수 개의 모듈의 예측 신뢰 정도에 따른 신뢰도를 산출하는 단계; 및
    상기 신뢰도에 따라 상기 복수 개의 모듈별로 가중치를 할당하는 단계;를 포함하는 것을 특징으로 하는 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차 구조 예측 방법.
  3. 제 2항에 있어서,
    상기 신뢰도는 다음의 3개 수학식에 의해 구하는 것을 특징으로 하는 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차 구조 예측 방법.
    Figure 112006021215539-pat00020
    Figure 112006021215539-pat00021
    Figure 112006021215539-pat00022
    여기서, Q3은 정확도,
    Figure 112006021215539-pat00023
    는 모듈 i 의 신뢰도, c 는 주기, i 는 임의의 모듈에 대한 주어진 아이디,
    Figure 112006021215539-pat00024
    는 주기 c 동안에 모듈 i 의 신뢰도에 대한 평균 신뢰도.
  4. 제 1항에 있어서
    상기 복수 개의 모듈의 각 모듈은, 단백질 이차 구조 예측 프로그램인 PSIPRED 1, PSIPRED 2, PSIPRED 3, JNET, PREDATOR, 및 PROF 중 하나에 의해 동작하는 것을 특징으로 하는 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차 구조 예측 방법.
KR1020040055685A 2004-07-16 2004-07-16 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차구조 예측 방법 KR100592086B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040055685A KR100592086B1 (ko) 2004-07-16 2004-07-16 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차구조 예측 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040055685A KR100592086B1 (ko) 2004-07-16 2004-07-16 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차구조 예측 방법

Publications (2)

Publication Number Publication Date
KR20060006584A KR20060006584A (ko) 2006-01-19
KR100592086B1 true KR100592086B1 (ko) 2006-06-21

Family

ID=37118253

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040055685A KR100592086B1 (ko) 2004-07-16 2004-07-16 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차구조 예측 방법

Country Status (1)

Country Link
KR (1) KR100592086B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372456B (zh) * 2016-08-26 2019-01-22 浙江工业大学 一种基于深度学习的蛋白质结构预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07206894A (ja) * 1994-01-14 1995-08-08 Advanced Technol Insuteiteyuuto Kk 蛋白質の立体構造の予測精度演算方法及び予測精度演算装置
JPH09159666A (ja) * 1995-12-08 1997-06-20 Fujitsu Ltd 蛋白質の二次構造予測方法及び装置
KR20040062985A (ko) * 2001-12-10 2004-07-09 후지쯔 가부시끼가이샤 단백질의 입체 구조 예측 장치 및 예측 방법
KR20050064644A (ko) * 2003-12-24 2005-06-29 한국전자통신연구원 미지 단백질의 구조를 예측하기 위한 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07206894A (ja) * 1994-01-14 1995-08-08 Advanced Technol Insuteiteyuuto Kk 蛋白質の立体構造の予測精度演算方法及び予測精度演算装置
JPH09159666A (ja) * 1995-12-08 1997-06-20 Fujitsu Ltd 蛋白質の二次構造予測方法及び装置
KR20040062985A (ko) * 2001-12-10 2004-07-09 후지쯔 가부시끼가이샤 단백질의 입체 구조 예측 장치 및 예측 방법
KR20050064644A (ko) * 2003-12-24 2005-06-29 한국전자통신연구원 미지 단백질의 구조를 예측하기 위한 방법 및 장치

Also Published As

Publication number Publication date
KR20060006584A (ko) 2006-01-19

Similar Documents

Publication Publication Date Title
JP2001236337A (ja) ニューラルネットワークによる予測装置
CN113326126A (zh) 任务处理方法、任务调度方法、装置及计算机设备
CN113031983B (zh) 一种基于深度强化学习的软件智能升级方法及装置
CN111881023B (zh) 一种基于多模型对比的软件老化预测方法及装置
CN114840375A (zh) 一种半导体存储产品的老化性能测试方法及系统
CN112801231B (zh) 用于业务对象分类的决策模型训练方法和装置
KR100592086B1 (ko) 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차구조 예측 방법
Balis et al. Execution management and efficient resource provisioning for flood decision support
CN114830137A (zh) 用于生成预测模型的方法和系统
US20230161653A1 (en) Method of managing system health
US20030026497A1 (en) Scalable expandable system and method for optimizing a random system of algorithms for image quality
CN113434267B (zh) 云计算工作流动态调度方法、装置、设备及存储介质
CN112733433A (zh) 装备测试性策略优化方法和装置
CN114930345A (zh) 在神经网络中确定任务兼容性的方法和系统
CN112463556B (zh) 一种卷可见的等待时间的预测方法、系统、设备以及介质
KR100818493B1 (ko) 방송시스템에서 발생되는 장애를 분석하고 예측하는 방법및 장치
CN114153431B (zh) 基于群体智能的大规模网络化软件自优化装置及方法
CN111563548B (zh) 一种基于强化学习的数据预处理方法、系统及相关设备
CN117809849B (zh) 一种认知功能障碍老人行走姿态的分析方法及系统
CN113313313B (zh) 一种面向城市感知的移动节点任务规划方法
CN116909887A (zh) 一种测试用例集生成方法、装置、设备及存储介质
Frank et al. Additive regression applied to a large-scale collaborative filtering problem
CN116862065A (zh) 基于贝塔分布的概率预测方法、系统、终端、介质及应用
CN116542355A (zh) 交易上链预测模型构建方法、装置、电子设备及存储介质
CN114418122A (zh) 机器学习模型的超参数配置方法、装置以及可读存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment
FPAY Annual fee payment
FPAY Annual fee payment

Payment date: 20160325

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20170327

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20180411

Year of fee payment: 13