KR101090892B1 - 약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법 - Google Patents

약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법 Download PDF

Info

Publication number
KR101090892B1
KR101090892B1 KR1020100085599A KR20100085599A KR101090892B1 KR 101090892 B1 KR101090892 B1 KR 101090892B1 KR 1020100085599 A KR1020100085599 A KR 1020100085599A KR 20100085599 A KR20100085599 A KR 20100085599A KR 101090892 B1 KR101090892 B1 KR 101090892B1
Authority
KR
South Korea
Prior art keywords
equation
accuracy
svm
compound
presenter
Prior art date
Application number
KR1020100085599A
Other languages
English (en)
Inventor
남기엽
강신문
손한길
오원석
노경태
Original Assignee
사단법인 분자설계연구소
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 사단법인 분자설계연구소 filed Critical 사단법인 분자설계연구소
Priority to KR1020100085599A priority Critical patent/KR101090892B1/ko
Application granted granted Critical
Publication of KR101090892B1 publication Critical patent/KR101090892B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은
(i) 2차 대사반응 효소 UDP-Glucuronyltransferase(UGT), Sulfotransferase(SULT), Acetyltransferase(NAT) 또는 Glutathione S-Transferase(GST)에 기질의 특성을 가지는 화합물의 구조 및 활성의 정보를 수집하는 단계;
(ii) 상기 화합물의 표현자를 계산하고, 2차 대사반응 효소에 대하여 기질 및 비활성 화합물로 분류하는 단계; 및
(iii) 유전자 알고리즘(GA, genetic algorithm) 방법에 의한 변수 최적화(Parameters optimization) 및 유전자 알고리즘(GA, genetic algorithm) 방법에 의한 특징 선택(Feature selection)을 하여 최종 표현자를 선택하되,
상기 유전자 알고리즘 방법에 의한 변수 최적화는 RBF(Radial Basis Function) 커널을 이용하여 SVM(Support Vector Machine)을 수행하고, 매개변수
Figure 112010056901938-pat00092
의 짝을 교차검증에 사용하여 교차검증의 정확도가 가장 큰 값을 선택하며, 여기서 상기 C는 SVM의 패널티 매개변수이고, γ는 커널 매개변수이고,
상기 유전자 알고리즘 방법에 의한 특징 선택은 아래 수학식 8의 적합도(fitness) 함수를 이용하여 적합도를 계산하고, 가장 높은 적합도를 최종값으로 선택하여 종료조건을 검사하는 단계를 포함하는,
약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법을 제공한다:
[수학식 8]
Figure 112010056901938-pat00093

상기 식에서,
Figure 112010056901938-pat00094
는 SVM 분류 정확도 가중치이고,
Figure 112010056901938-pat00095
는 선택된 특징(feature)의 수이고,
Figure 112010056901938-pat00096
는 특징 수의 가중치이고,
Figure 112010056901938-pat00097
는 5겹 교차 타당성.

Description

약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법{Method of providing information for predicting enzyme selectivity of metabolism phase Ⅱ reactions}
본 발명은 약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법에 관한 것이다.
약물의 ADME(흡수, 분포, 대사, 배설) 성질들을 미리 예측하는 것은 약물개발 기간을 줄고, 약물개발의 성공확률을 높이는 매우 중요한 기술이다.(van de Waterbeemd H, Gifford E (2003) Nat Rev Drug Discov 2:192; Fostel J. (2005) Expert Opin Drug Metab Toxicol 1:565) 약물의 ADME 성질 중 약물 대사는 대사안정성, 약물-약물 상호작용, 약물독성과 같은 것들을 포함하는 중요한 성질이다.(Li AP (2001) Drug Discov Today 6:357) 간세포에서의 약물의 대사는 1차, 2차, 3차 반응으로 나눌 수 있다(Zamek-Gliszczynski, M. J. et al., Integration of hepatic drug transporters and phase Ⅱ metabolizing enzymes: Mechanisms of hepatic excretion of sulfate, glucuronide, and glutathione metabolites. European Journal of Pharmaceutical Sciences 2006, 27 (5), 447-486) CYP450 효소에 의한 1차 대사(Phase I) 반응은 약물의 분자량 또는 용해도가 크게 변화하지 않지만, 2차 대사(Phase Ⅱ)반응은 컨쥬게이션(conjugation) 반응으로 잘 알려져 있으며, 컨쥬게이션된 대사체는 일반적으로 매우 큰 용해도를 가지며, 약리학적 활성이 없게 된다.(Loannides, C., Enzyme Systems that Metabolize Drugs and Other Xenobiotics. John Wiley & Sons Ltd.: 2002) 이러한 2차 대사반응을 통하여 약물은 세포 또는 체내 배출이 증진된다.
최근에는 ADME/T 관련 특성을 예측하기 위하여 통계학적 러닝방법인 SVM(support vector machine)이 사용되는데, SVM은 ADME/T 특성들을 정확하게 예측할 수 있으나(Li, Q. et al., hERG classification Model Based on a Combination of Support Vector Machine Method and GRIND Descriptors, Molecular Pharmaceutics, 2008, 5(1) 117-127), SVM 모델링에서 분류의 효율성 및 정확도에 결정적인 영향을 미치는 특징 선택(Feature selection) 및 변수 설정(parameters setting)에서 나타난 문제점이 여전히 해결해야 할 과제이다.
따라서, 특징 선택(Feature selection)을 위하여 ① GA(genetic algorithm)(Lucasius, C. B. et al., Chemometr. Intell. Lab. 19, 1-33(1993)), ② RFE (recursive feature eliminations)(Guyon, I. et al., Mach. Learn. 46, 389-422(2002)), ③ SA(simulated annealing) approach (Sutter, J. M. et al., Microchem. J. 47, 60-66(1993)) 등 몇 가지 방법이 제안된 바 있다. 그 중에서, 변수 최적화(Parameters optimization)를 위해서 특징선택에 사용되었던 GA 방법을 사용하여 계산시간을 단축하였다.
이에 본 발명자들은 새로운 GA-GA-SVM 알고리즘을 도입하여 약물의 2차 대사반응에 대한 효소 선택성 예측 모델에 대하여 예측의 정확도를 향상시킴으로써 본 발명을 완성하였다.
본 발명의 목적은 GA-GA-SVM 알고리즘을 이용하여 약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법을 제공하는 것이다.
또한, 본 발명의 다른 목적은 상기 GA-GA-SVM 알고리즘을 이용하여 약물의 대사평가에 관한 정보제공방법을 제공하는 것이다.
또한, 본 발명의 또 다른 목적은 상기 GA-GA-SVM 알고리즘을 이용하여 약물의 2차 대사반응의 효소 선택성 예측 시스템을 제공하는 것이다.
상기 목적을 해결하기 위하여, 본 발명은
(i) 2차 대사반응 효소 UDP-Glucuronyltransferase(UGT), Sulfotransferase(SULT), Acetyltransferase(NAT) 또는 Glutathione S-Transferase(GST)에 기질의 특성을 가지는 화합물의 구조 및 활성의 정보를 수집하는 단계;
(ii) 상기 화합물의 표현자를 계산하고, 2차 대사반응 효소에 대하여 기질 및 비활성 화합물로 분류하는 단계; 및
(iii) 유전자 알고리즘(GA, genetic algorithm) 방법에 의한 변수 최적화(Parameters optimization) 및 유전자 알고리즘(GA, genetic algorithm) 방법에 의한 특징 선택(Feature selection)을 하여 최종 표현자를 선택하되,
상기 유전자 알고리즘 방법에 의한 변수 최적화는 RBF(Radial Basis Function) 커널을 이용하여 SVM(Support Vector Machine)을 수행하고, 매개변수
Figure 112010056901938-pat00001
의 짝을 교차검증에 사용하여 교차검증의 정확도가 가장 큰 값을 선택하며, 여기서 상기 C는 SVM의 패널티 매개변수이고, γ는 커널 매개변수이고,
상기 유전자 알고리즘 방법에 의한 특징 선택은 아래 수학식 8의 적합도(fitness) 함수를 이용하여 적합도를 계산하고, 가장 높은 적합도를 최종값으로 선택하여 종료조건을 검사하는 단계를 포함하는,
약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법을 제공한다:
[수학식 8]
Figure 112010056901938-pat00002

상기 식에서,
Figure 112010056901938-pat00003
는 SVM 분류 정확도 가중치이고,
Figure 112010056901938-pat00004
는 선택된 특징(feature)의 수이고,
Figure 112010056901938-pat00005
는 특징 수의 가중치이고,
Figure 112010056901938-pat00006
는 5겹 교차 타당성.
바람직하게는, 상기 단계 (ii)에서 상기 2차 대상반응 효소에 대하여 기질은 +1, 비활성 화합물은 -1로 분류할 수 있다.
상기 단계 (ii) 이후와 단계 (iii) 이전에,
a) 90% 이상의 표준편차를 가지는 표현자;
b) 5% 이하의 표준편차를 가지는 표현자; 또는
c) 다른 표현자와의 연관계수가 90% 이상인 표현자를 제거하는 단계를 추가로 포함할 수 있다.
상기 단계 (iii)에서,
최종값으로 선택된 적합도가 종료조건을 만족하지 않으면, 교차와 돌연변이를 추가로 수행하여 종료조건을 만족할 때까지 반복할 수 있다.
상기 종료조건은 생성된 세대가 200번에 이르거나 적합도 값이 과거 10번의 세대 동안 증가하지 않는 경우로 설정할 수 있다.
상기 방법에 의해 약물의 2차 대사반응의 효소 선택성을 예측하고, 다음 수학식에 대입하여 활성 및 비활성 화합물의 예측 정확도, 민감도, 특이도, Kappa 및 MCC를 계산할 수 있다:
[수학식 9]
정확도 :
Figure 112010056901938-pat00007

[수학식 10]
민감도 :
Figure 112010056901938-pat00008

[수학식 11]
특이도 :
Figure 112010056901938-pat00009

[수학식 12]
Kappa :
Figure 112010056901938-pat00010
Figure 112010056901938-pat00011

[수학식 13]
MCC :
Figure 112010056901938-pat00012

상기 식에서,
A는 TP(True positive), B는 FN(False negative), C는 FP(False positive), D는 TN(True negative)이고,
예측 정확도는 적합도(fitness); 민감도는 활성 화합물의 예측 정확도; 특이도는 비활성 화합물의 예측 정확도; MCC (Matthews correlation coefficient)는 분류의 질을 측정하는 값; Kappa는 결과에 대한 일관성을 확인하는 값이다.
또한, 본 발명은 앙상블 모델에 의해 약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법을 제공한다.
또한, 본 발명은 상기 단계를 포함하는 약물의 대사 평가에 관한 정보제공방법을 제공한다.
또한, 본 발명의 다른 양태로서, 본 발명은
(i) 2차 대사반응 효소 UDP-Glucuronyltransferase(UGT), Sulfotransferase(SULT), Acetyltransferase(NAT) 또는 Glutathione S-Transferase(GST)에 기질의 특성을 가지는 화합물의 구조에 대한 표현자의 입력부;
(ii) 상기 화합물의 표현자를 계산하고, 2차 대사반응 효소에 대하여 기질 및 비활성 화합물로 분류하는 연산부; 및
(iii) 유전자 알고리즘(GA, genetic algorithm) 방법에 의한 변수 최적화(Parameters optimization) 및 유전자 알고리즘(GA, genetic algorithm) 방법에 의한 특징 선택(Feature selection)을 하여 최종 표현자를 선택하되,
상기 유전자 알고리즘 방법에 의한 변수 최적화는 RBF(Radial Basis Function) 커널을 이용하여 SVM(Support Vector Machine)을 수행하고, 매개변수
Figure 112010056901938-pat00013
의 짝을 교차검증에 사용하여 교차검증의 정확도가 가장 큰 값을 선택하며, 여기서 상기 C는 SVM의 패널티 매개변수이고, γ는 커널 매개변수이고,
상기 유전자 알고리즘 방법에 의한 특징 선택은 아래 수학식 8의 적합도(fitness) 함수를 이용하여 적합도를 계산하고, 가장 높은 적합도를 최종값으로 선택하여 종료조건을 검사하는 종결부를 포함하는,
약물의 2차 대사반응의 효소 선택성 예측 시스템을 제공한다:
[수학식 8]
Figure 112010056901938-pat00014

상기 식에서,
Figure 112010056901938-pat00015
는 SVM 분류 정확도 가중치이고,
Figure 112010056901938-pat00016
는 선택된 특징(feature)의 수이고,
Figure 112010056901938-pat00017
는 특징 수의 가중치이고,
Figure 112010056901938-pat00018
는 5겹 교차 타당성.
바람직하게는, 상기 (ii) 연산부에서 상기 2차 대사반응 효소에 대하여 기질은 +1, 비활성 화합물은 -1로 분류할 수 있다.
상기 시스템은
a) 90% 이상의 표준편차를 가지는 표현자;
b) 5% 이하의 표준편차를 가지는 표현자; 또는
c) 다른 표현자와의 연관계수가 90% 이상인 표현자를 제거하는 수단을 추가로 포함할 수 있다.
상기 (iii) 종결부에서,
최종값으로 선택된 적합도가 종료조건을 만족하지 않으면, 교차와 돌연변이를 추가로 수행하여 종료조건을 만족할 때까지 반복할 수 있다.
상기 종료조건은 생성된 세대가 200번에 이르거나 적합도 값이 과거 10번의 세대 동안 증가하지 않는 경우로 설정될 수 있다.
상기 시스템에 의해 약물의 2차 대사반응의 효소 선택성을 예측하고, 다음 수학식에 대입하여 활성 및 비활성 화합물의 예측 정확도, 민감도, 특이도, Kappa 및 MCC를 계산할 수 있다:
[수학식 9]
정확도 :
Figure 112010056901938-pat00019

[수학식 10]
민감도 :
Figure 112010056901938-pat00020

[수학식 11]
특이도 :
Figure 112010056901938-pat00021

[수학식 12]
Kappa :
Figure 112010056901938-pat00022
Figure 112010056901938-pat00023

[수학식 13]
MCC :
Figure 112010056901938-pat00024

상기 식에서,
A는 TP(True positive), B는 FN(False negative), C는 FP(False positive), D는 TN(True negative)이고,
예측 정확도는 적합도(fitness); 민감도는 활성 화합물의 예측 정확도; 특이도는 비활성 화합물의 예측 정확도; MCC (Matthews correlation coefficient)는 분류의 질을 측정하는 값; Kappa는 결과에 대한 일관성을 확인하는 값이다.
구체적으로, 본 발명에서 다루어진 2차 대사반응 효소는 아래 표와 같다.
2차 대사반응, 효소 및 작용기
Reaction Enzyme Functional Group
Glucuronidation(UGT) UDP-Glucuronyltransferase -OH,-COOH,-NH2,-SH
Sulfation (SULT) Sulfotransferase -NH2, -OH,-SO2NH2
Methylation Methyltransferase -OH,-NH2, -SH
Acetylation(NAT) Acetyltransferase -NH2, -OH,-SO2NH2
Glutathione conjugation(GST) Glutathione S-Transferase Epoxide, Organic Halide
본 발명의 GA-GA-SVM 모델은 종래의 SVM 방법과 비교하여 2차 대사 효소 UGT, SULT, NAT, GST 대사 예측의 정확도를 크게 향상시켰으며, 입력 특징(feature)에서도 적은 수를 사용할 수 있고, 데이터의 불균형을 개선시킬 수 있다. 따라서 본 발명의 GA-GA-SVM 모델은 약물의 2차 대사반응 평가와 밀접한 연관성이 있으므로, 신약개발에서의 화학합성 또는 임상실험 전에 나타나는 흡수, 분포, 대사, 배출 및 독성(ADME/T)의 문제점을 해결할 수 있다.
도 1은 SVM의 하이퍼평면에 의해 O 및 X는 두 집단을 최대 마진이 되도록 분류한 것으로서, (a)는 최적화된 하이퍼평면에 의한 완벽하게 선형적으로 분류할 수 있는 예제, (b)는 최적화된 하이퍼평면이 없으며, 선형적으로 완벽하게 분류되지 않는 예제를 나타낸 것이다.
도 2는 교차검증에서 사용되는 서브 샘플에 대한 예제를 나타낸 것이다.
도 3은 GA-GA-SVM 프로그램의 순서도를 나타낸 것이다.
이하, 본 발명을 하기의 실시예에 의해 상세히 설명한다. 단, 하기 실시예는 본 발명을 예시하는 것일 뿐, 본 발명의 내용이 하기 실시예에 의해 한정되는 것은 아니다.
실시예
실시예 1: GA - GA - SVM 예측모델 구축
1-1. SVM ( support vector machine ) 이론
SVM 이론은 다음과 같이 요약될 수 있다. SVM에서 각각의 개체(object)는 N차원 공간에서 한 점에 대응하는 N 정수의 벡터
Figure 112010056901938-pat00025
로 기술된다. 도 1에 나타낸 바와 같이, 활성그룹에 있는 개체들은 각각
Figure 112010056901938-pat00026
로 할당이 되고, 비활성그룹에 있는 개체들은
Figure 112010056901938-pat00027
로 할당된다. 선형의 경우 개체들은 하기와 같이 분류된다(도 1(a))
.
[수학식 1]
Figure 112010056901938-pat00028

[수학식 2]
Figure 112010056901938-pat00029

상기 식에서,
Figure 112010056901938-pat00030
는 하이퍼평면에 대한 노말 벡터이고,
Figure 112010056901938-pat00031
는 스칼라 값이다.
SVM은 최적화 문제의 해를 구하여 최대 마진을 가지는 최적의 분리 가능한 하이퍼 평면을 찾는다.
[수학식 3]
Figure 112010056901938-pat00032
상기 식에서
Figure 112010056901938-pat00033
는 마진(margin)이다.
또한, 라그랑쥐 승수 방법으로 해를 구할 수 있는 데, 분류결정함수는 하기와 같이 얻을 수 있다.
[수학식 4]
Figure 112010056901938-pat00034

상기 식은 하이퍼평면이 점들을 두 개의 그룹으로 정확히 분리할 수 없는 선형 비분리 경우로 확장될 수 있다.
한편, 도 1(b)의 경우 음이 아닌 변수
Figure 112010056901938-pat00035
를 소개할 수 있다.
[수학식 5]
Figure 112010056901938-pat00036

[수학식 6]
Figure 112010056901938-pat00037

이의 목적은 트레이닝 에러의 수를 최소화하는 하이퍼평면을 찾는 것으로 제약 위반(constraint violation)을 가능한 적게 유지시키는 것이다. 이에 의하여, 하기 수학식 7을 얻을 수 있다.
[수학식 7]
Figure 112010056901938-pat00038

상기 수학식 7은 SVM을 수행하기 위해 사용되는 특징(feature)들을 이용하여 각 화합물의 위상공간상의 좌표를 구하는 식이다. 여기서 구해진 좌표를 이용하여 하이퍼평면(hyperplane)을 구하고 이 하이퍼평면에서 각 화합물간의 거리를 이용하여 분류를 수행한다.
1-2. 교차 검증( Cross validation )
우선, 잘 알려지지 않은 하나 또는 여러 개의 매개 변수들을 가지는 모델과 그 모델에 적합한 데이터 세트가 있다고 가정한다.
이 피팅 과정은 그 모델 매개변수를 최적화하고, 그 모델이 트레이닝 데이터에 가능한 잘 맞도록 만든다. 만약 트레이닝 데이터로서 같은 집단에서 검증 데이터의 독립 샘플을 가져오면 그것은 일반적으로 트레이닝 데이터를 잘 맞춘 것처럼 검증 데이터를 잘 맞추지 못하는 데, 이런 현상을 '오버피팅'이라 하며, 트레이닝 데이터의 크기가 적거나 매개변수의 수가 많을 때 특히 잘 일어난다.
교차 검증은 명시적인 검증 세트가 가능하지 않을 때 가정의 검증 세트에 대해 모델의 정확도를 예측하는 방법이다. 순환평가 라고도 불리는 교차 검증은 독립된 데이터 세트를 일반화하는 통계학적 분석 결과를 평가하는 기술이다. 상기 방법은 주로 데이터의 예측을 목적으로 하는 모델에 사용되는데 예측모델이 얼마나 정확하게 수행되었는지를 평가한다. 교차 검증의 한 주기는 데이터의 샘플을 보완적인 서브 세트 여러 개로 나누고, 하나의 서브 세트(training set)에 대하여 분석을 수행하고, 다른 서브 세트 (validation set 또는 test set)에 대하여 분석을 평가한다. 일반화의 전체 평가에 대한 변수를 줄이기 위하여 교차 검증은 서로 다른 분할을 사용하여 여러 번의 주기로 수행이 되고 검증 결과는 모든 주기의 평균을 취한다.
교차 검증 이론은 Seymour Geisser에 의해 고안되었다 (Seymour Geisser, The Predictive Sample Reuse Method with Applications. Journal of the American Statistical Association, Vol. 70, No. 350(Jun., 1975)). 교차 검증은 샘플들이 위험하거나 비용이 많이 들고, 수집하기 어려운 데이터일 때 특히 유용하다. 교차검증을 위하여 일반적으로 많이 사용되는 것은 K겹 교차이며, K겹 교차 검증에서, 원본 샘플은 k 개의 서브샘플로 나누어진다. 상기 k 개의 서브 샘플들 중에서 하나의 서브샘플이 모델을 테스트하기 위한 검증 데이터로서 남는다. 이후, 잔여 k-1 개의 서브샘플들 트레이닝 데이터로 사용된다. 교차 검증은 k개의 샘플들이 정확히 한 번씩 검증 데이터로 사용될 때까지 k번 반복되고, 여기서 나온 결과들을 평균하여 단일 평가값을 산출한다. 이 방법의 장점은 모든 서브샘플들이 트레이닝과 검증을 위해 한 번씩 사용되고, 각각의 서브샘플들은 정확히 한번씩 검증 데이터로 이용된다는 것이다.
도 2에 나타낸 바와 같이, 5겹 교차검증은 데이터 서브샘플을 4등분하고, 3등분을 트레이닝에 사용하고, 잔여 1등분을 테스트 서브샘플로 사용하는 것으로서, 속도와 정확도 면에서 아주 좋은 결과를 보여주기 때문에 5겹 교차검증을 사용하여 각각의 예측모델을 선정하였다 (Hsu, C. W.; Chang, C.C.; Lin, C. J. A practical guide to support vector classification; Xue, Y. et al., Chem. Inf. Comput. Sci. 44, 1630-1638(2004)).
1-3. 변수최적화를 위한 GA( Gentic - algorithm )
GA는 가장 인기 있는 최적화 알고리즘으로 생물학적 체계에서 자연선택과 유전자의 다윈 진화론에 대한 직접적 유추에 기반을 두고 있다 (Davis, L. handbook of genetic algorithms. New York, Van Nostrand Reinhold (1991)). RBF(Radial Basis Function) 커널을 이용하여 SVM을 수행하기 위해서는 두 개의 매개변수
Figure 112010056901938-pat00039
가 필요하다. C는 SVM의 페널티(penalty) 매개변수이며,
Figure 112010056901938-pat00040
는 커널 매개변수이다. 변수최적화를 위한 GA에서는 기본적으로
Figure 112010056901938-pat00041
의 짝을 교차 검증에 사용하며, 교차 검증의 정확도가 가장 큰 값이 선택되는데,
Figure 112010056901938-pat00042
값이 알맞은 매개변수를 찾는 좋은 방법이었다(예를 들어 C = 2-5, 2-3,..., 215,
Figure 112010056901938-pat00043
= 2-15, 2-13 ,..., 23).
1-4. 특징선택을 위한 GA ( Genetic algorithm )
GA는 가장 인기 있는 최적화 알고리즘으로 생물학적 체계에서 자연선택과 유전자의 다윈 진화론에 대한 직접적 유추에 기반을 두고 있다 (Davis, L. handbook of genetic algorithms. New York, Van Nostrand Reinhold (1991)). GA는 데이터 마이닝과 최적화 같은 다양한 문제들에 성공적으로 적용 가능하다. 최근에는 SVM 모델링에서 특징 선택(feature selection)을 위해 사용되고 있다.
유전자 알고리즘(GA)은 통상적으로 염색체라고 부르는 유전자형으로 표현되는 개체들의 집단을 이용하여 동작된다. 각 개체의 염색체는 새로운 세대를 생성하기 위하여 돌연변이나 교차변이와 같은 연산들에 의해 조정된다. 개체의 질을 평가하기 위해 적합도(fitness) 함수를 사용하는데, 더 좋은 질을 가지는 개체들이 다음 세대에서 살아남거나 재생된다. 적합한 암호화 체계가 각각의 개체의 염색체를 암호화 하는데 필요하다. 보통 암호화 체계로 이진 문자열을 사용한다.
이때, 특징(0: 선택 안됨, 1: 선택)을 표현하는 각 비트를 가지는 이진 문자열을 염색체 표현에 사용한다. GA는 무작위로 생성된 이진 문자열의 개체군으로 적용된다. 각 문자열의 정확도는 다음과 같이 결정된다.
[수학식 8]
Figure 112010056901938-pat00044

상기 식에서,
Figure 112010056901938-pat00045
는 SVM 분류 정확도 가중치,
Figure 112010056901938-pat00046
는 선택된 특징(feature)의 수,
Figure 112010056901938-pat00047
는 특징 수의 가중치이다. 5겹 교차 타당성이
Figure 112010056901938-pat00048
에 사용되었다.
Figure 112010056901938-pat00049
Figure 112010056901938-pat00050
는 상대적인 중요도에 기반하여 조정될 수 있다.
룰렛 휠 선택 알고리즘이 자식을 생성하기 위한 교차변이를 위해 염색체를 선택하는데 사용되었다. 교차위치는 무작위로 만들어지고, 교차변이 비율은 적당히 조정될 수 있으며, 돌연변이는 허용되고, 그 비율 역시 적당히 조정될 수 있다.
실시예 2: 본 발명의 GA - GA - SVM 의 시스템 구조
GA-GA-SVM은 특징 선택 및 변수 최적화를 동시에 수행하는 데, 시스템 구조는 도 3에서 나타낸 바와 같다.
(1) 데이터 세트 수집 : 알려진 4가지 2차 대사 효소(UGT, SULT, NAT, GST)에 기질 특성을 가지는 화합물들에 대한 구조 및 활성의 정보를 수집한다.
(2) 표현자 계산과 클래스 라벨 할당 : PreADMET에는 1200여개 이상의 표현자(descriptor)를 계산가능하며, 여기에서 2차원 표현자 약 1000 여개만 선택하여 계산하였다 (http://preadmet.bmdrc.org 참조). PreADMET 2.0을 이용하여 1차원, 2차원 구조가 가지는 화합물의 표현자를 계산하고, 화합물들의 상대적인 활성값에 따라 두 개의 클래스로 구분한다. 트레이닝 셋에는 기질에 대하여 True/False로 각 화합물별로 표시가 되어 있으며, 2차 대사 효소(UGT, SULT, NAT, GST)에 대하여 기질이 True로 표시된 화합물들은 첫 번째 클래스로 분류하고, +1을 할당하고, 기질이 False로 표시된 화합물들은 두 번째 클래스로 분류하고, -1을 할당한다.
(3) 특징(Feature) 전처리 : 특징 전처리의 목적은 불필요한 표현자들을 제거하고, 표현자들간의 중복을 제거하는 것이다. 이때, 다음과 같은 표현자(descriptor)들이 제거된다.
a) 너무 많은 0 값을 갖는 표현자들 (> 90%);
b) 너무 작은 표준편차를 가지는 표현자들 (< 5%); 및
c) 다른 표현자들과 높은 연관성을 가지는 표현자들 (연관계수 > 90%)
(4) GA를 사용한 특징 선택 및 변수 최적화 : 우선 초기 개체군으로 표시하는 이진 문자열의 세트는 무작위로 100개의 개체가 생성된 다음, 각 개체에 대해 적합도(fitness) 함수가 계산된다. 상기 과정에서 변수 또한 GA 방법에 의해 최적화된다. 11개의 C 변수 및 10개의
Figure 112010056901938-pat00051
변수의 110개 조합을 GA방법에 의해 선택하여 적합도(fitness)를 계산하고, 이 중 가장 높은 적합도(fitness)를 최종값으로 선택하여 종료조건을 검사한다.
이때, 종료 조건을 만족하지 않으면 교차와 돌연변이가 새로운 개체군을 만들기 위하여 수행되며, 이 과정은 최종조건이 만족될 때까지 반복된다. 종료 조건은 생성된 세대가 200번에 이르거나 적합도 값이 과거 10번의 세대 동안 증가하지 않는 경우이다. 교차 비율은 0.8로 정해졌으며, 돌연변이 비율은 0.05이다. 프로그램 언어는 C# 및 NET 3.5 Framework을 사용하였고, svm은 libsvm을 사용하였다(Chang, C. C.; Lin, C. J. LIBSVM: A library for support vector machines (2001)).
본 발명이 속한 기술분야에서 통상의 지식을 가진 자는 도 3에 제시된 본 발명의 GA-GA-SVM 알고리즘을 용이하게 구현할 수 있으며, 본 발명의 기술적 사상을 변경하지 않고서 다른 구체적인 형태로 실시할 수 있다.
실시예 3: 앙상블 모델 ( Ensemble Method )
앙상블(Ensemble) 모델은 분류기의 세트를 만들고, 예측 결과에 가중치를 두어 분류하는 방법이다. 단일 GA-GA-SVM 모델이 하나의 트레이닝 세트와 하나의 테스트 세트를 이용하는 반면, 앙상블 모델은 여러 개의 트레이닝 세트와 여러 개의 테스트 세트를 이용한다. 따라서, 보다 많은 수의 데이터가 모델을 만드는데 참여함으로써 정확도를 더욱 높일 수 있는 것이다. 이에, 본 발명자들은 앙상블 모델을 도입하였다.
본 발명자들은 9개의 트레이닝 세트 및 9개의 테스트 세트를 만들고, 각각에 대해서 9개의 모델을 만들었다. 이때, 9개의 트레이닝 및 테스트 세트는 난수(random value)에 의해 임의로 선택된 데이터 세트이다. 후속하여, 각 9개의 모델에 대해 예측한 다음, 그 중에서 5개 이상이 활성을 나타내면 활성, 4개 이하가 활성을 나타내면 비활성으로 예측하도록 한다.
세트의 수는 9개에 한정하지 않고, 당업자가 필요에 따라 그 수를 증가시키거나 감소시킬 수 있다.
알려진 4가지 2차 대사 효소(UGT, SULT, NAT, GST) 데이터 세트의 기질 화합물들 수(표 2) 및 대사효소별 기질 화합물의 분류(표 3)는 다음과 같다.
본 모델의 데이터 세트 구성
데이터 GST NAT SULT UGT Total
기질의 수 104 210 130 598 1042
Figure 112010056901938-pat00052
Figure 112010056901938-pat00053
Figure 112010056901938-pat00054
Figure 112010056901938-pat00055
Figure 112010056901938-pat00056
Figure 112010056901938-pat00057
Figure 112010056901938-pat00058
Figure 112010056901938-pat00059
Figure 112010056901938-pat00060

여러 개의 트레이닝 세트, 특히 비활성 화합물이 모델을 만드는 데 더 많이 참여하여 결과적으로 비활성 데이터의 예측 정확도가 보다 증가된다. 또한, 활성 9개의 모델로 예측한 결과는 1개의 모델만을 사용하는 방법과 비교하여 예측 정확도가 보다 증가된다.
하기에서, 트레이닝 세트는 모델을 만드는 데 사용된 데이터 세트를 의미하고, 테스트 세트는 상기 트레이닝 세트를 검증하기 위한 데이터 세트를 의미한다. 또한, 예측의 정확도는 적합도(fitness)를 의미하며, 민감도는 활성의 예측 정확도, 및 특이도는 비활성의 예측 정확도를 의미한다. MCC (Matthews correlation coefficient)는 기계학습(machine learning)에 주로 사용되며 분류의 질을 측정하는 데 사용되며, MCC 값이 +1이면 완전한 예측(perfect prediction), 0이면 랜덤 예측(random prediction), -1이면 +1의 경우와 반대이다. 랜덤예측은 의미가 없는 값이라는 뜻이며, 보통 MCC 값이 0.4 이상의 경우에 신뢰할 수 있다고 판단한다. Kappa는 결과에 대한 일관성을 확인하는 값이며, 본 발명에서는 활성/비활성 각각의 정확도가 전체 정확도에 얼마나 잘 반영되었는지를 확인하는 값이다.
한편, 정확도, 민감도, 특이도, Kappa 및 MCC의 계산은 다음과 같다:
[수학식 9]
정확도 :
Figure 112010056901938-pat00061

[수학식 10]
민감도 :
Figure 112010056901938-pat00062

[수학식 11]
특이도 :
Figure 112010056901938-pat00063

[수학식 12]
Kappa :
Figure 112010056901938-pat00064
Figure 112010056901938-pat00065

[수학식 13]
MCC :
Figure 112010056901938-pat00066

상기 식에서, A는 TP(True positive), B는 FN(False negative), C는 FP(False positive), D는 TN(True negative)를 의미한다.
예측
실험
활성 비활성
활성 A(TP) B(FN)
비활성 C(FP) D(TN)
실시예 4: SVM 단일모델을 이용한 예측 시험
각 데이터를 트레이닝 셋 80%, 테스트 셋 20%로 나누어서 SVM 모델을 만들고 테스트 한 결과이다. 매개변수는 C 값을 1,
Figure 112010056901938-pat00067
값을 1/nx (nx는 SVM 에 사용된 표현자 수)로 하였다.
표 5는 단일 SVM 모델을 이용한 UGT 모델의 예측 정확도를 나타낸 것이다. 하기 표 5는 UGT 데이터 셋에서 트레이닝 셋 80%, 테스트 셋 20%로 나누어 예측 모델을 만든 후 테스트한 결과이다. 비활성에 비해 활성의 개수가 많기 때문에 활성의 예측 정확도가 다소 높게 나왔다. 민감도가 트레이닝 셋에서 97.5%, 테스트 셋에서 97.8%였으며 특이도는 트레이닝 셋에서 78.6%, 테스트 셋에서 76.2%였다.
결과 예측(Predicted)
활성 비활성 정확도 민감도 특이도 Kappa MCC
트레이닝 활성 536 14 0.910 0.975 0.786 0.910 0.799
비활성 61 224
테스트 활성 134 3 0.904 0.978 0.762 0.904 0.786
비활성 17 54
표 6은 단일 SVM 모델을 이용한 SULT 모델의 예측 정확도를 나타낸 것이다. 하기 표 6은 SULT 데이터 셋에서 트레이닝 셋 80%, 테스트 셋 20%로 나누어 예측 모델을 만든 후 테스트한 결과이다. 활성에 비해 비활성의 개수가 많기 때문에 비활성의 예측 정확도가 다소 높게 나왔다. 민감도가 트레이닝 셋에서 71.7%, 테스트 셋에서 69.2%였으며 특이도는 트레이닝 셋에서 99.3%, 테스트 셋에서 98.5%였다.
결과 예측(Predicted)
활성 비활성 정확도 민감도 특이도 Kappa MCC
트레이닝 활성 76 30 0.958 0.717 0.993 0.958 0.798
비활성 5 724
테스트 활성 18 8 0.948 0.692 0.985 0.948 0.747
비활성 3 179
표 7은 단일 SVM 모델을 이용한 NAT 모델의 예측 정확도를 나타낸 것이다. 하기 표 7은 NAT 데이터 셋에서 트레이닝 셋 80%, 테스트 셋 20%로 나누어 예측 모델을 만든 후 테스트한 결과이다. 활성에 비해 비활성의 개수가 많기 때문에 비활성의 예측 정확도가 다소 높게 나왔다. 민감도가 트레이닝 셋에서 84.4%, 테스트 셋에서 82%였으며 특이도는 트레이닝 셋에서 94.3%, 테스트 셋에서 93.8%였다.
결과 예측(Predicted)
활성 비활성 정확도 민감도 특이도 Kappa MCC
트레이닝 활성 143 26 0.943 0.844 0.968 0.943 0.820
비활성 22 644
테스트 활성 34 8 0.938 0.820 0.968 0.938 0.805
비활성 5 162
표 8은 단일 SVM 모델을 이용한 GST 모델의 예측 정확도를 나타낸 것이다. 하기 표 8은 GST 데이터 셋에서 트레이닝 셋 80%, 테스트 셋 20%로 나누어 예측 모델을 만든 후 테스트한 결과이다. 활성에 비해 비활성의 개수가 많기 때문에 비활성의 예측 정확도가 다소 높게 나왔다. 민감도가 트레이닝 셋에서 68.5%, 테스트 셋에서 67.2%였으며 특이도는 트레이닝 셋에서 96.8%, 테스트 셋에서 96.5%였다.
결과 예측(Predicted)
활성 비활성 정확도 민감도 특이도 Kappa MCC
트레이닝 활성 57 26 0.968 0.685 0.999 0.968 0.809
비활성 1 750
테스트 활성 14 7 0.965 0.672 0.998 0.965 0.791
비활성 0 188
실시예 5: GA - GA - SVM 앙상블 모델을 이용한 예측 시험
본 발명자들은 데이터의 불균형을 해결하기 위하여 샘플링 방법의 변화를 주면서 앙상블 모델을 도입하였다.
앙상블(Ensemble) 모델은 분류기의 세트를 만들고, 예측 결과에 가중치를 두어 분류하는 방법이다. 단일 GA-GA-SVM 모델이 하나의 트레이닝 세트와 하나의 테스트 세트를 이용하는 반면, 앙상블 모델은 여러 개의 트레이닝 세트와 여러 개의 테스트 세트를 이용한다. 따라서, 보다 많은 수의 데이터가 모델을 만드는데 참여 함으로써 정확도를 더욱 높일 수 있는 것이다. 따라서, 9개의 트레이닝 세트 및 9개의 테스트 세트를 만들고, 각각에 대해서 9개의 모델을 만들었다. 후속하여, 각 9개의 모델에 대해 예측한 다음, 그 중에서 5개 이상이 활성을 나타내면 활성, 4개 이하가 활성을 나타내면 비활성으로 예측하도록 하였다. 2차 대사 효소 UGT의 활성의 개수는 687, 비활성의 개수는 356이며, SULT의 활성의 개수는 132, 비활성의 개수는 911, NAT의 활성의 개수는 211, 비활성의 개수는 832, 그리고 GST의 활성의 개수는 104, 비활성의 개수는 939이다. 여러 개의 데이터 세트를 만드는데 보다 많이 참여한 경우에서 예측 정확도가 보다 높아졌다. 또한 9개의 모델로 예측한 결과는 1개의 모델만을 사용하는 방법과 비교하여 예측 정확도가 보다 높아졌다.
표 9는 GA-GA-SVM의 앙상블 모델을 이용한 UGT 모델의 예측 정확도를 나타낸 것이다. 표 9는 GST 데이터 셋에서 트레이닝 셋 80%, 테스트 셋 20%로 나누어 예측 모델을 만든 후 테스트한 결과이다. 비활성에 대한 예측정확도가 트레이닝 셋에서 78.6%에서 82.7%로 높아졌으며, 테스트 셋에서도 76.2%에서 80.6%로 높아졌다.
결과 예측(Predicted)
활성 비활성 정확도 민감도 특이도 Kappa MCC
트레이닝 활성 534 16 0.922 0.971 0.827 0.922 0.824
비활성 49 236
테스트 활성 133 4 0.915 0.972 0.806 0.915 0.809
비활성 14 57
표 10은 GA-GA-SVM의 앙상블 모델을 이용한 SULT 모델의 예측 정확도를 나타낸 것이다. 표 10은 SULT 데이터 셋에서 트레이닝 셋 80%, 테스트 셋 20%로 나누어 예측 모델을 만든 후 테스트한 결과이다. 활성에 대한 예측정확도가 트레이닝 셋에서 71.7%에서 76.2%로 높아졌으며, 테스트 셋에서도 69.2%에서 70.1%로 높아졌다.
결과 예측(Predicted)
활성 비활성 정확도 민감도 특이도 Kappa MCC
트레이닝 활성 81 25 0.967 0.762 0.997 0.967 0.843
비활성 2 727
테스트 활성 18 8 0.960 0.701 0.997 0.960 0.805
비활성 1 181
표 11은 GA-GA-SVM의 앙상블 모델을 이용한 NAT 모델의 예측 정확도를 나타낸 것이다. 표 11은 NAT 데이터 셋에서 트레이닝 셋 80%, 테스트 셋 20%로 나누어 예측 모델을 만든 후 테스트한 결과이다. 활성에 대한 예측정확도가 트레이닝 셋에서 84.4%에서 85.3%로 높아졌으며, 테스트 셋에서도 82%에서 83.1%로 높아졌다.
결과 예측(Predicted)
활성 비활성 정확도 민감도 특이도 Kappa MCC
트레이닝 활성 144 25 0.945 0.853 0.969 0.945 0.829
비활성 21 645
테스트 활성 35 7 0.941 0.831 0.969 0.941 0.813
비활성 5 161
표 12는 GA-GA-SVM의 앙상블 모델을 이용한 GST 모델의 예측 정확도를 나타낸 것이다. 표 12는 GST 데이터 셋에서 트레이닝 셋 80%, 테스트 셋 20%로 나누어 예측 모델을 만든 후 테스트한 결과이다. 활성에 대한 예측정확도가 트레이닝 셋에서 68.5%에서 79.9%로 높아졌으며, 테스트 셋에서도 67.2%에서 79.4%로 높아졌다.
결과 예측(Predicted)
활성 비활성 정확도 민감도 특이도 Kappa MCC
트레이닝 활성 66 17 0.980 0.799 1.000 0.980 0.884
비활성 0 751
테스트 활성 17 4 0.979 0.794 1.000 0.979 0.881
비활성 0 188
지금까지 예시적인 실시 태양을 참조하여 본 발명을 기술하여 왔지만, 본 발명의 속하는 기술 분야의 당업자는 본 발명의 범주를 벗어나지 않고서도 다양한 변화를 실시할 수 있으며 그의 요소들을 등가물로 대체할 수 있음을 알 수 있을 것이다. 또한, 본 발명의 본질적인 범주를 벗어나지 않고서도 많은 변형을 실시하여 특정 상황 및 재료를 본 발명의 교시내용에 채용할 수 있다. 따라서, 본 발명이 본 발명을 실시하는데 계획된 최상의 양식으로서 개시된 특정 실시 태양으로 국한되는 것이 아니며, 본 발명이 첨부된 특허청구의 범위에 속하는 모든 실시 태양을 포함하는 것으로 해석되어야 한다.

Claims (15)

  1. (i) 2차 대사반응 효소 UDP-Glucuronyltransferase(UGT), Sulfotransferase(SULT), Acetyltransferase(NAT) 또는 Glutathione S-Transferase(GST)에 기질의 특성을 가지는 화합물의 구조 및 활성의 정보를 수집하는 단계;
    (ii) 상기 화합물의 표현자를 계산하고, 2차 대사반응 효소에 대하여 기질 및 비활성 화합물로 분류하는 단계; 및
    (iii) 유전자 알고리즘(GA, genetic algorithm) 방법에 의한 변수 최적화(Parameters optimization) 및 유전자 알고리즘(GA, genetic algorithm) 방법에 의한 특징 선택(Feature selection)을 하여 최종 표현자를 선택하되,
    상기 유전자 알고리즘 방법에 의한 변수 최적화는 RBF(Radial Basis Function) 커널을 이용하여 SVM(Support Vector Machine)을 수행하고, 매개변수
    Figure 112010056901938-pat00068
    의 짝을 교차검증에 사용하여 교차검증의 정확도가 가장 큰 값을 선택하며, 여기서 상기 C는 SVM의 패널티 매개변수이고, γ는 커널 매개변수이고,
    상기 유전자 알고리즘 방법에 의한 특징 선택은 아래 수학식 8의 적합도(fitness) 함수를 이용하여 적합도를 계산하고, 가장 높은 적합도를 최종값으로 선택하여 종료조건을 검사하는 단계를 포함하는,
    약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법:

    [수학식 8]
    Figure 112010056901938-pat00069


    상기 식에서,
    Figure 112010056901938-pat00070
    는 SVM 분류 정확도 가중치이고,
    Figure 112010056901938-pat00071
    는 선택된 특징(feature)의 수이고,
    Figure 112010056901938-pat00072
    는 특징 수의 가중치이고,
    Figure 112010056901938-pat00073
    는 5겹 교차 타당성.
  2. 제1항에 있어서,
    상기 단계 (ii)에서 상기 2차 대사반응 효소에 대하여 기질은 +1, 비활성 화합물은 -1로 분류함을 특징으로 하는 방법.
  3. 제1항에 있어서,
    단계 (ii) 이후와 단계 (iii) 이전에,
    a) 90% 이상의 표준편차를 가지는 표현자;
    b) 5% 이하의 표준편차를 가지는 표현자; 또는
    c) 다른 표현자와의 연관계수가 90% 이상인 표현자를 제거하는 단계를 추가로 포함함을 특징으로 하는 방법.
  4. 제1항에 있어서,
    단계 (iii)에서,
    최종값으로 선택된 적합도가 종료조건을 만족하지 않으면, 교차와 돌연변이를 추가로 수행하여 종료조건을 만족할 때까지 반복함을 특징으로 하는 방법.
  5. 제1항에 있어서,
    상기 종료조건은 생성된 세대가 200번에 이르거나 적합도 값이 과거 10번의 세대 동안 증가하지 않는 경우임을 특징으로 하는 방법.
  6. 제1항에 있어서,
    다음 수학식에 대입하여 활성 및 비활성 화합물의 예측 정확도, 민감도, 특이도, Kappa 및 MCC를 계산함을 특징으로 하는 방법:

    [수학식 9]
    정확도 :
    Figure 112010056901938-pat00074


    [수학식 10]
    민감도 :
    Figure 112010056901938-pat00075


    [수학식 11]
    특이도 :
    Figure 112010056901938-pat00076


    [수학식 12]
    Kappa :
    Figure 112010056901938-pat00077

    Figure 112010056901938-pat00078


    [수학식 13]
    MCC :
    Figure 112010056901938-pat00079


    상기 식에서,
    A는 TP(True positive), B는 FN(False negative), C는 FP(False positive), D는 TN(True negative)이고,
    예측 정확도는 적합도(fitness); 민감도는 활성 화합물의 예측 정확도; 특이도는 비활성 화합물의 예측 정확도; MCC (Matthews correlation coefficient)는 분류의 질을 측정하는 값; Kappa는 결과에 대한 일관성을 확인하는 값이다.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    앙상블 모델에 의해 수행됨을 특징으로 하는 방법.
  8. 제1항 내지 제6항 중 어느 한 항의 방법에 의한 약물의 대사 평가에 관한 정보제공방법.
  9. 제7항의 방법에 의한 약물의 대사 평가에 관한 정보제공방법.
  10. (i) 2차 대사반응 효소 UDP-Glucuronyltransferase(UGT), Sulfotransferase(SULT), Acetyltransferase(NAT) 또는 Glutathione S-Transferase(GST)에 기질의 특성을 가지는 화합물의 구조에 대한 표현자의 입력부;
    (ii) 상기 화합물의 표현자를 계산하고, 2차 대사반응 효소에 대하여 기질 및 비활성 화합물로 분류하는 연산부; 및
    (iii) 유전자 알고리즘(GA, genetic algorithm) 방법에 의한 변수 최적화(Parameters optimization) 및 유전자 알고리즘(GA, genetic algorithm) 방법에 의한 특징 선택(Feature selection)을 하여 최종 표현자를 선택하되,
    상기 유전자 알고리즘 방법에 의한 변수 최적화는 RBF(Radial Basis Function) 커널을 이용하여 SVM(Support Vector Machine)을 수행하고, 매개변수
    Figure 112010056901938-pat00080
    의 짝을 교차검증에 사용하여 교차검증의 정확도가 가장 큰 값을 선택하며, 여기서 상기 C는 SVM의 패널티 매개변수이고, γ는 커널 매개변수이고,
    상기 유전자 알고리즘 방법에 의한 특징 선택은 아래 수학식 8의 적합도(fitness) 함수를 이용하여 적합도를 계산하고, 가장 높은 적합도를 최종값으로 선택하여 종료조건을 검사하는 종결부를 포함하는,
    약물의 2차 대사반응의 효소 선택성 예측 시스템:

    [수학식 8]
    Figure 112010056901938-pat00081


    상기 식에서,
    Figure 112010056901938-pat00082
    는 SVM 분류 정확도 가중치이고,
    Figure 112010056901938-pat00083
    는 선택된 특징(feature)의 수이고,
    Figure 112010056901938-pat00084
    는 특징 수의 가중치이고,
    Figure 112010056901938-pat00085
    는 5겹 교차 타당성.
  11. 제10항에 있어서,
    상기 (ii) 연산부에서 상기 2차 대사반응 효소에 대하여 기질은 +1, 비활성 화합물은 -1로 분류함을 특징으로 하는 시스템.
  12. 제10항에 있어서,
    a) 90% 이상의 표준편차를 가지는 표현자;
    b) 5% 이하의 표준편차를 가지는 표현자; 또는
    c) 다른 표현자와의 연관계수가 90% 이상인 표현자를 제거하는 수단을 추가로 포함함을 특징으로 하는 시스템.
  13. 제10항에 있어서,
    상기 (iii) 종결부에서,
    최종값으로 선택된 적합도가 종료조건을 만족하지 않으면, 교차와 돌연변이를 추가로 수행하여 종료조건을 만족할 때까지 반복함을 특징으로 하는 시스템.
  14. 제10항에 있어서,
    상기 종료조건은 생성된 세대가 200번에 이르거나 적합도 값이 과거 10번의 세대 동안 증가하지 않는 경우임을 특징으로 하는 시스템.
  15. 제10항에 있어서,
    다음 수학식에 대입하여 활성 및 비활성 화합물의 예측 정확도, 민감도, 특이도, Kappa 및 MCC를 계산함을 특징으로 하는 시스템:

    [수학식 9]
    정확도 :
    Figure 112010056901938-pat00086


    [수학식 10]
    민감도 :
    Figure 112010056901938-pat00087


    [수학식 11]
    특이도 :
    Figure 112010056901938-pat00088


    [수학식 12]
    Kappa :
    Figure 112010056901938-pat00089

    Figure 112010056901938-pat00090


    [수학식 13]
    MCC :
    Figure 112010056901938-pat00091


    상기 식에서,
    A는 TP(True positive), B는 FN(False negative), C는 FP(False positive), D는 TN(True negative)이고,
    예측 정확도는 적합도(fitness); 민감도는 활성 화합물의 예측 정확도; 특이도는 비활성 화합물의 예측 정확도; MCC (Matthews correlation coefficient)는 분류의 질을 측정하는 값; Kappa는 결과에 대한 일관성을 확인하는 값이다.
KR1020100085599A 2010-09-01 2010-09-01 약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법 KR101090892B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100085599A KR101090892B1 (ko) 2010-09-01 2010-09-01 약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100085599A KR101090892B1 (ko) 2010-09-01 2010-09-01 약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법

Publications (1)

Publication Number Publication Date
KR101090892B1 true KR101090892B1 (ko) 2011-12-13

Family

ID=45505811

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100085599A KR101090892B1 (ko) 2010-09-01 2010-09-01 약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법

Country Status (1)

Country Link
KR (1) KR101090892B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156859A (zh) * 2016-06-17 2016-11-23 江苏大学 一种惯容器力学输出预测方法
CN106897703A (zh) * 2017-02-27 2017-06-27 辽宁工程技术大学 基于aga‑pkf‑svm的遥感影像分类方法
CN109643394A (zh) * 2016-09-07 2019-04-16 罗伯特·博世有限公司 用于计算rbf模型的偏导数的模型计算单元和控制设备
WO2020071015A1 (ja) * 2018-10-02 2020-04-09 パナソニックIpマネジメント株式会社 音データ学習システム、音データ学習方法および音データ学習装置
KR20230091636A (ko) * 2021-12-16 2023-06-23 의료법인 성광의료재단 인공지능을 이용한 라디오믹스 기반의 골건강 상태 평가 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010044699A1 (en) 1999-08-05 2001-11-22 Ewing Todd J. A. Predicting metabolic stability of drug molecules
US20070016392A1 (en) 2004-03-31 2007-01-18 Fujitsu Limited Drug-metabolizing enzyme prediction apparatus

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010044699A1 (en) 1999-08-05 2001-11-22 Ewing Todd J. A. Predicting metabolic stability of drug molecules
US20070016392A1 (en) 2004-03-31 2007-01-18 Fujitsu Limited Drug-metabolizing enzyme prediction apparatus

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156859A (zh) * 2016-06-17 2016-11-23 江苏大学 一种惯容器力学输出预测方法
CN106156859B (zh) * 2016-06-17 2019-05-31 江苏大学 一种惯容器力学输出预测方法
CN109643394A (zh) * 2016-09-07 2019-04-16 罗伯特·博世有限公司 用于计算rbf模型的偏导数的模型计算单元和控制设备
CN109643394B (zh) * 2016-09-07 2023-07-25 罗伯特·博世有限公司 用于计算rbf模型的偏导数的模型计算单元和控制设备
CN106897703A (zh) * 2017-02-27 2017-06-27 辽宁工程技术大学 基于aga‑pkf‑svm的遥感影像分类方法
WO2020071015A1 (ja) * 2018-10-02 2020-04-09 パナソニックIpマネジメント株式会社 音データ学習システム、音データ学習方法および音データ学習装置
KR20230091636A (ko) * 2021-12-16 2023-06-23 의료법인 성광의료재단 인공지능을 이용한 라디오믹스 기반의 골건강 상태 평가 장치 및 방법
KR102656162B1 (ko) 2021-12-16 2024-04-11 의료법인 성광의료재단 인공지능을 이용한 라디오믹스 기반의 골건강 상태 평가 장치 및 방법

Similar Documents

Publication Publication Date Title
Cai et al. A unified framework for cross-population trait prediction by leveraging the genetic correlation of polygenic traits
Tibbs Cortes et al. Status and prospects of genome‐wide association studies in plants
Mahood et al. Machine learning: a powerful tool for gene function prediction in plants
Wen et al. Efficient integrative multi-SNP association analysis via deterministic approximation of posteriors
Caudai et al. AI applications in functional genomics
Zanghellini et al. Elementary flux modes in a nutshell: properties, calculation and applications
Mohamad et al. A modified binary particle swarm optimization for selecting the small subset of informative genes from gene expression data
CN108198621B (zh) 一种基于神经网络的数据库数据综合诊疗决策方法
CN104992079B (zh) 基于采样学习的蛋白质-配体绑定位点预测方法
KR101090892B1 (ko) 약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법
CN108335756B (zh) 鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
Zhang et al. Towards a better prediction of subcellular location of long non-coding RNA
CN110491443B (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
CN115762792A (zh) 一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法
Pittman et al. Bayesian analysis of binary prediction tree models for retrospectively sampled outcomes
Peres da Silva et al. TUGDA: task uncertainty guided domain adaptation for robust generalization of cancer drug response prediction from in vitro to in vivo settings
Cai et al. XMAP: Cross-population fine-mapping by leveraging genetic diversity and accounting for confounding bias
CN108320797B (zh) 一种鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
Wang et al. Learning discriminative and structural samples for rare cell types with deep generative model
Raza et al. iPro-TCN: Prediction of DNA Promoters Recognition and their Strength Using Temporal Convolutional Network
Santoni et al. An integrated approach (cluster analysis integration method) to combine expression data and protein–protein interaction networks in agrigenomics: application on arabidopsis thaliana
Lai et al. LSA-ac4C: A hybrid neural network incorporating double-layer LSTM and self-attention mechanism for the prediction of N4-acetylcytidine sites in human mRNA
CN106021992A (zh) 位置相关变体识别计算流水线
Wen Effective qtl discovery incorporating genomic annotations
CN113053461B (zh) 一种基于靶标的基因簇定向挖掘方法

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee