KR20080040481A - System, method and program for pharmacokinetic parameter prediction of peptide sequence by mathematical model - Google Patents
System, method and program for pharmacokinetic parameter prediction of peptide sequence by mathematical model Download PDFInfo
- Publication number
- KR20080040481A KR20080040481A KR1020060108504A KR20060108504A KR20080040481A KR 20080040481 A KR20080040481 A KR 20080040481A KR 1020060108504 A KR1020060108504 A KR 1020060108504A KR 20060108504 A KR20060108504 A KR 20060108504A KR 20080040481 A KR20080040481 A KR 20080040481A
- Authority
- KR
- South Korea
- Prior art keywords
- peptide sequence
- mathematical model
- small intestine
- peptide
- predicting
- Prior art date
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K7/00—Peptides having 5 to 20 amino acids in a fully defined sequence; Derivatives thereof
Landscapes
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biochemistry (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Medicinal Chemistry (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
Description
도 1은 본 발명에 따른 수학적 모델을 이용한 펩타이드 서열의 약동학적 성질 예측 시스템의 일실시예를 도시한 블록 구성도,1 is a block diagram showing an embodiment of a system for predicting pharmacokinetic properties of a peptide sequence using a mathematical model according to the present invention,
도 2는 본 발명 수학적 모델을 이용한 펩타이드 서열의 약동학적 성질 예측방법의 일실시예를 도시한 순서도,Figure 2 is a flow chart showing an embodiment of a method for predicting the pharmacokinetic properties of the peptide sequence using the mathematical model of the present invention,
도 3은 본 발명 수학적 모델을 이용한 펩타이드 서열의 약동학적 성질 예측방법의 일실시예를 도시한 순서도,Figure 3 is a flow chart showing one embodiment of a method for predicting the pharmacokinetic properties of the peptide sequence using the mathematical model of the present invention,
도 4는 본 발명에서 약동학적 성질 예측 모델을 재훈련하는 방법의 순서도이다.4 is a flowchart of a method for retraining a pharmacokinetic property prediction model in the present invention.
〈도면의 주요부분에 대한 부호의 설명〉<Explanation of symbols for main parts of drawing>
10 : 마이크로 컴퓨터 11 : 프로그램 기록매체10: microcomputer 11: program recording medium
12 : CPU 13 : 입출력부12: CPU 13: input / output unit
20 : 입력수단 30 : 출력수단20: input means 30: output means
본 발명은 수학적 모델을 이용하여 펩타이드 서열의 소장 통과 여부를 예측하는 시스템 및 방법과 그 프로그램을 저장한 기록매체에 관한 것이다.The present invention relates to a system and method for predicting whether a peptide sequence passes through the small intestine using a mathematical model, and a recording medium storing the program.
일반적으로 신약 또는 신물질을 개발함에 있어서, 구조와 활성간의 상관관계에 대한 정략적 모델을 만드는 것은 실험에 대한 비용을 줄이면서 활성을 미리 예측하는데 있어 매우 유용한 방법 중의 하나이다. In general, in developing new drugs or new substances, constructing a model of the correlation between structure and activity is one of the most useful methods for predicting activity while reducing the cost of experiments.
그러나 종래의 기술로는 이러한 방법을 이용하여 작은 유기 물질 화합물에 대해서 소장 통과 여부, 용해도, 독성과 같은 신약 개발에 있어 반드시 필요한 여러 가지 특성을 예측하는 프로그램이 있기는 하지만 현재까지 펩타이드 서열에 대해서는 이러한 특성을 미리 예측해 볼 수 있는 프로그램이 없었다.However, while there are programs that use these methods to predict various properties necessary for the development of new drugs such as small intestine passage, solubility, and toxicity for small organic compounds using these methods, to date the peptide sequence There was no program that could predict the characteristics in advance.
최근 신약을 개발함에 있어서, 펩타이드는 효능이 강력하고 독성 및 부작용이 거의 없으며 인체에 잔류하지 않는 것과 같은 장점으로 인해 새로운 신약을 개발하는데 있어 각광받는 연구물질중의 하나로서 시장의 비율이 점점 성장하고 있다. 하지만 대부분의 펩타이드 약물은 경구로 투여할 경우 체내 흡수율이 낮아지는 단점이 있다. 이와 같은 이유로 인해 경구 투여 약물 전달 물질이나 신약을 개발하는데에는 반드시 필요한 활성중의 하나인 펩타이드 서열의 소장 통과 여부에 대해서 예측할 수 있는 기술의 개발이 절실히 요구되고 있는 실정이다.In the recent development of new drugs, peptides are one of the most promising research materials for developing new drugs due to their strong efficacy, little toxicity and side effects, and non-existence in the human body. have. However, most peptide drugs have a disadvantage of lowering the absorption rate in the body when administered orally. For this reason, there is an urgent need for the development of a technique capable of predicting whether the small intestine passes through the peptide sequence, which is one of the activities necessary for oral drug delivery or new drug development.
본 발명은 상기한 실정을 감안하여 발명한 것으로서, 수학적 모델을 이용하여 펩타이드 서열의 소장 통과 여부를 예측하는 시스템 및 방법과 그 프로그램을 저장한 기록매체를 제공하여 펩타이드 서열의 소장 통과 여부를 예측하고 검증하는 모델을 제시하는데 그 목적이 있다.The present invention has been invented in view of the above circumstances, and provides a system and method for predicting whether the peptide sequence passes through the small intestine using a mathematical model and a recording medium storing the program to predict whether the peptide sequence passes through the small intestine. The goal is to present a valid model.
상기한 목적을 달성하기 위한 본 발명 수학적 모델을 이용한 펩타이드 서열의 약동학적 성질 예측 시스템은 프로그램 기록매체(11)와 CPU(12) 및 입출력부(13)로 이루어진 마이크로컴퓨터(10)와; 입력수단(12) 및; 출력수단(30)으로 이루어짐을 특징으로 한다.The pharmacokinetic properties prediction system of the peptide sequence using the mathematical model of the present invention for achieving the above object comprises a microcomputer (10) comprising a program recording medium (11), a CPU (12) and an input / output unit (13); Input means 12; Characterized in that the output means 30.
상기 프로그램 기록매체(11)는 사용자가 소장 통과 여부를 알고자 하는 펩타이드 서열을 입력하면 이를 아미노산 표현자로 변환하는 프로그램과, 훈련된 수학적 모델을 사용하여 소장 통과 여부를 예측하는 프로그램을 포함하고, 사용자가 실험기법으로 소장 통과 여부 활성값을 획득한 새로운 소장 통과 펩타이드 서열을 추가하면, 이를 원래의 소장 통과 펩타이드 집합에 추가한 다음 분류하는 프로그램과, 추가된 펩타이드에 표현자값과 활성값을 부여하는 프로그램과, 훈련용 펩타이드 집합을 이용하여 수학적 모델로 훈련하는 프로그램과, 검증용 펩타이드 집합에 대해 소장통과 여부를 예측할 수 있도록 하는 프로그램과, 훈련된 수학적 모델에 대해 검증하는 프로그램을 포함하는 것을 특징으로 한다.The
또한 상기한 목적을 달성하기 위한 본 발명 수학적 모델을 이용한 펩타이드 서열의 약동학적 성질을 예측하는 방법은 실험기법을 이용하여 소장을 통과하는 펩타이드 서열의 표본을 획득하는 단계와; 이들 서열을 근거로 소장을 통과하지 않는 펩타이드의 서열의 표본을 획득하는 단계와; 상기 획득한 표본 각각을 집합으로 저장한 후 이들을 일정한 비율이 되도록 임의로 추출하여 수학적 모델 훈련용 집합과 수학적 모델 검증용 집합으로 분류하는 단계와; 개별 펩타이드 서열에 표현자값과 활성값을 부여하는 단계와; 훈련용 펩타이드 집합과 수학적 모델을 이용하여 훈련하는 단계와; 훈련된 수학적 모델을 이용하여 검증용 펩타이드 집합에 대해 소장통과 여부를 예측하는 단계와; 훈련된 수학적 모델을 검증하는 단계로 이루어지는 것을 특징으로 한다.In addition, the method for predicting the pharmacokinetic properties of the peptide sequence using the mathematical model of the present invention for achieving the above object comprises the steps of obtaining a sample of the peptide sequence through the small intestine using an experimental technique; Obtaining a sample of a sequence of peptides that do not pass through the small intestine based on these sequences; Storing each of the obtained samples as a set and then randomly extracting them in a predetermined ratio to classify them into a mathematical model training set and a mathematical model verification set; Assigning a descriptor value and an activity value to the individual peptide sequence; Training using a training peptide set and a mathematical model; Predicting small intestine passage for the validation peptide set using a trained mathematical model; Verifying a trained mathematical model.
상기 수학적 모델은 회귀분석법, 기계학습법, 유전자 알고리즘을 이용한 다중 회귀분석법, 유전자 알고리즘을 이용한 편최소제곱법, 주성분 분석을 활용한 편최소제곱법, 주성분 분석을 활용한 다중 회귀분석법을 포함하는 정량적 구조-특성 상관관계 방법인 것을 특징으로 하는 수학적 모델 방법이며, 상기 기계학습법은 신경망, 데이터마이닝, 의사결정트리, 귀납논리, 사례기반 추론, 패턴 인식, 강화 학습, 베이지안 망, 은닉마코프 모델, 확률 문법 방법이고, 특히 신경망 기법인 것을 특징으로 한다.The mathematical model is a quantitative structure including regression analysis, machine learning, multiple regression analysis using genetic algorithm, partial least square method using genetic algorithm, partial least square method using principal component analysis, and multiple regression analysis using principal component analysis. A mathematical model method characterized in that it is a characteristic correlation method, and the machine learning method is a neural network, data mining, decision tree, inductive logic, case-based reasoning, pattern recognition, reinforcement learning, Bayesian network, hidden marker model, probability grammar Method, and in particular, a neural network technique.
상기 펩타이드 서열의 약동학적 성질은 소장 내 흡수이고, 상기 표현자값은 분자구조, 아미노산, 펩타이드를 정량적으로 나타낸 것으로, 바이너리 아미노산 표현자, VHSE 아미노산 표현자, Z3 아미노산 표현자, Z5 아미노산 표현자 중 적어도 어느 하나를 포함하는 것을 특징으로 한다.The pharmacokinetic property of the peptide sequence is absorption in the small intestine, and the presenter value quantitatively represents the molecular structure, amino acid, and peptide, and includes at least one of a binary amino acid presenter, a VHSE amino acid presenter, a Z3 amino acid presenter, and a Z5 amino acid presenter. It is characterized by including any one.
상기 기계학습 모델을 구축하기 위해 수집되는 데이터는 in vivo , ex vivo , in vitro 실험 중 적어도 어느 하나로부터 얻은 데이터이고, 특히 파지 디스플레이 실험 기법을 이용한 in vivo , ex vivo , in vitro 실험 중 적어도 어느 하나로부터 얻은 데이터인 것을 특징으로 한다. 상기 펩타이드 서열은 2 ~ 12개의 펩타이드, 더 바람직하게는 3 ~ 7개의 펩타이드로 이루어진 서열이며, 본 발명 수학적 모델을 이용한 펩타이드 서열의 약동학적 성질 예측방법을 적용하는 종은 포유류이며, 특히 사람을 대상으로 한다.The data collected to build the machine learning model is in vivo , ex vivo is, data obtained from at least any one of the in vitro experiments, especially in using the phage display technique experiment vivo , ex vivo , in It is characterized in that the data obtained from at least one of the in vitro experiments. The peptide sequence is a sequence consisting of 2 to 12 peptides, more preferably 3 to 7 peptides, and the species to which the method of predicting pharmacokinetic properties of the peptide sequence using the mathematical model of the present invention are mammals, particularly humans. It is done.
또한 본 발명 수학적 모델을 이용한 펩타이드 서열의 약동학적 성질 예측 프로그램을 저장한 기록매체는 실험 기법을 이용하여 소장을 통과하는 펩타이드 서열의 표본을 획득하는 프로세스와; 이들 서열을 근거로 소장을 통과하지 않는 펩타이드의 서열의 표본을 획득하는 프로세스와; 상기 획득한 표본 각각을 집합으로 저장한 후 이들을 일정한 비율이 되도록 임의로 추출하여 수학적 모델 훈련용 집합과 수학적 모델 검증용 집합으로 분류하는 프로세스와; 개별 펩타이드 서열에 표현자값과 활성값을 부여하는 프로세스와; 훈련용 펩타이드 집합과 수학적 모델을 이용하여 훈련하는 프로세스와; 훈련된 수학적 모델을 이용하여 검증용 펩타이드 집합에 대해 소장통과 여부를 예측하는 프로세서와; 훈련된 수학적 모델을 검증하는 프로세서를 포함하는 것을 특징으로 한다.In addition, the recording medium storing the program for predicting the pharmacokinetic properties of the peptide sequence using the mathematical model of the present invention includes the process of obtaining a sample of the peptide sequence through the small intestine using an experimental technique; Obtaining a sample of a sequence of peptides that do not pass through the small intestine based on these sequences; Storing each of the obtained samples as a set and then randomly extracting them in a predetermined ratio to classify them into a mathematical model training set and a mathematical model verification set; Assigning a descriptor value and an activity value to the individual peptide sequence; Training using training peptide sets and mathematical models; A processor for predicting whether the small intestine passes through the set of peptides for verification using a trained mathematical model; And a processor for verifying the trained mathematical model.
상기 본 발명의 목적과 특징 및 장점은 첨부 도면 및 다음의 상세한 설명을 참조함으로써 더욱 쉽게 이해될 수 있을 것이다.The objects, features and advantages of the present invention will be more readily understood by reference to the accompanying drawings and the following detailed description.
이하, 첨부도면을 참조하여 본 발명 수학적 모델을 이용한 펩타이드 서열의 약동학적 성질 예측 시스템 및 방법과 그 프로그램을 저장한 기록매체를 바람직한 실시예로서 상세하게 설명한다.Hereinafter, a system and method for predicting pharmacokinetic properties of a peptide sequence using the mathematical model of the present invention and a recording medium storing the program will be described in detail with reference to the accompanying drawings.
도 1은 본 발명에 따른 수학적 모델을 이용한 펩타이드 서열의 약동학적 성질 예측 시스템의 일실시예를 도시한 블록 구성도, 도 2는 본 발명 수학적 모델을 이용한 펩타이드 서열의 약동학적 성질 예측방법의 일실시예를 도시한 순서도로서, 도 2에 도시한 바와 같이 먼저 파지디스플레이 실험 기법으로 소장을 통과 하는 펩타이드 서열의 표본(수)을 수집한다(S1단계). 여기서 펩타이드 서열의 길이는 하나의 펩타이드에 있는 아미노산의 수를 의미하며, 펩타이드 서열 길이 3은 아미노산이 3개로 이루어진 펩타이드를 나타낸다. 수집한 펩타이드 서열의 수는 하기 표 1과 같다. 표 1에서 아미노산 3개로 이루어진 펩타이드 서열의 경우 파지디스플레이 실험 기법으로 얻은 소장을 통과 하는 펩타이드 서열의 수는 4252개이다.1 is a block diagram showing an embodiment of a system for predicting pharmacokinetic properties of a peptide sequence using a mathematical model according to the present invention, Figure 2 is an embodiment of a method for predicting pharmacokinetic properties of a peptide sequence using the mathematical model of the present invention As an example flow chart, as shown in FIG. 2, a sample (number) of peptide sequences passing through the small intestine is first collected by the phage display experiment technique (step S1). Here, the length of the peptide sequence means the number of amino acids in one peptide, and the peptide sequence length 3 indicates a peptide having three amino acids. The number of peptide sequences collected is shown in Table 1 below. In the case of the peptide sequence consisting of three amino acids in Table 1, the number of peptide sequences passing through the small intestine obtained by phage display experiment technique is 4252.
또한 상기 S1단계에서 사용된 파지디스플레이 펩타이드 라이브러리는 'ph.D.-C7CTM(New England BioLab.)'으로, 이는 M13 박테리오파지(bacteriophage)의 게놈(genome) 중에서 코트 단백질(coat protein)의 일정인 pⅢ를 생산하는 유전자 말단에 7개의 무작위 아미노산 서열(random amino acid sequence)의 펩타이드(peptide)가 발현되도록 인위적으로 유전자 서열을 삽입한 후, 대장균(E. coli)에 감염시켜 얻은 수억 종 이상의 서로 다른 펩타이드를 발현한 재조합 박테리오파지로 구성되어 있다. 한편, M13 파지에 도입되어 있는 7개의 무작위 아미노산 서열은 양쪽에 cysteine 잔기를 보유하도록 설계되어 펩타이드 발현시 자연적으로 이황화 결합(disulfide bond)을 형성함으로써 고리모양(loop shape)을 이루도록 하여 목적 단백질과 더욱 강한 결합을 유도할 수 있도록 되어 있다. 경구 파지디스플레이 기법은 1.2 X 1012 pfu의 파지 펩타이드 라이브러리(~1,000 copies of individual recombinant phage clone)를 절식(overnight)시킨 쥐에 경구 주입한 후, 1시간 뒤에 대표적인 내부 장기 조직(간, 폐, 콩팥, 지라)을 적출하여 소장 점막층을 통과한 뒤 혈류를 따라 각 장기에 분포한 파지를 회수하여 정량하는 순서로 이루어져 있다.In addition, the phage display peptide library used in step S1 is 'ph.D.-C7C TM (New England BioLab.)', Which is a constant of coat protein in the genome of M13 bacteriophage. More than hundreds of millions of different species obtained by infecting E. coli by artificially inserting gene sequences to express peptides of 7 random amino acid sequences at the ends of pIII-producing genes It consists of recombinant bacteriophage expressing peptides. On the other hand, the seven random amino acid sequences introduced into the M13 phage are designed to have cysteine residues on both sides to form a disulfide bond in the expression of the peptide, thereby forming a loop shape, thereby allowing the loop protein to form a loop shape. It is designed to induce strong bonding. The oral phage display technique was followed by oral injection of 1.2 X 1012 pfu of phage peptide library (~ 1,000 copies of individual recombinant phage clones) into mice overnight, and after 1 hour, representative internal organ tissues (liver, lung, kidney, And then pass through the mucous membrane of the small intestine, and collect and quantify the phages distributed in each organ along the bloodstream.
[표 1] 펩타이드 서열의 수TABLE 1 Number of Peptide Sequences
이와 더불어 임의의 아미노산을 선택하게 하는 프로그램을 이용하여 소장 통과 펩타이드 서열의 길이 3에 대한 3개의 아미노산을 뽑아낸 후 실험에서 획득한 소장 통과 펩타이드 집합과 비교하여 동일한 서열의 펩타이드가 없는 경우 소장 비통과 펩타이드 서열의 집합으로 분류한다(S2단계). 여기서 임의의 아미노산을 선택하게 하는 프로그램은 공지의 프로그램을 이용한다.In addition, using a program to select any amino acid, three amino acids of length 3 of the small intestine pass peptide sequence were extracted and compared to the small intestine pass peptide set obtained in the experiment. Classify into a set of sequences (step S2). The program for selecting any amino acid here uses a well-known program.
다음으로 기계학습 훈련을 위하여 펩타이드 서열의 집합을 분류한다(S3단계). 이 단계(S3단계)에는 소장을 통과하는 펩타이드 서열 집합의 수가 소장을 통과하지 않는 펩타이드 서열 집합의 수보다 양이 적기 때문에 두 집합간의 개체수를 동일하게 만드는 과정을 포함한다. 이 단계(S3단계)에서 펩타이드 서열 길이 3의 경우 소장 비통과 펩타이드를 표 1에서와 같이 4252개 획득하였다.Next, classify a set of peptide sequences for machine learning training (step S3). This step (step S3) includes a process of making the population equal between the two sets because the number of peptide sequence sets that pass through the small intestine is less than the number of peptide sequence sets that do not pass through the small intestine. In this step (step S3), in the case of peptide sequence length 3, 4252 small intestinal non-penetrating peptides were obtained as shown in Table 1.
이어 상기 소장 통과 펩타이드 집합에서 임의의 펩타이드 서열을 대략 80% 추출하고, 소장 비통과 펩타이드 집합에서 임의의 펩타이드 서열을 대략 80% 추출한 다음 이 둘을 모아서 기계학습 훈련용 펩타이드 집합으로 분류한다(S4단계).Subsequently, approximately 80% of the random peptide sequences are extracted from the small intestine-penetrating peptide set, approximately 80% of the random peptide sequences are extracted from the small intestine non-penetrating peptide set, and the two are collected and classified into a set of machine learning training peptides (step S4). ).
상기 S4단계와 마찬가지로 소장 통과 펩타이드 집합에서 대략 나머지 20%와 소장 비통과 펩타이드 집합에서의 나머지 20%를 모두 모아서 기계학습 검증용 펩타이드 집합으로 분류한다(S5단계).As in step S4, approximately 20% of the small intestine passing peptide set and the remaining 20% of the small intestine passing peptide set are collected and classified into a set of machine learning verification peptides (step S5).
그 결과 표 1에서와 같이 펩타이드 서열의 길이 3의 경우 기계학습용 펩타이드의 수는 6786개, 기계학습 검증용 펩타이드의 수는 1718개 이다.As a result, as shown in Table 1, in the case of length 3 of the peptide sequence, the number of machine learning peptides was 6786, and the number of machine learning verification peptides was 1718.
다음에는 기계학습법을 이용하여 상기 S4단계에서 획득한 기계학습 훈련용 집합으로 소장 통과 예측 모델을 훈련하고 획득하는 단계(S10단계)를 진행한다. 즉, 소장 통과 펩타이드 집합이 입력되는 순서를 임의로 변경하는 단계로서, 소장 통과 펩타이드 서열과 소장 비통과 펩타이드 서열이 동등한 비율로 번갈아 가면서 기계학습 훈련 과정에 입력값으로 들어갈 수 있도록 기계학습 훈련용 집합의 순서를 조정하여 기계학습 모델 훈련을 위한 입력값으로 입력한다(S11단계).Next, using the machine learning method, the step of training and acquiring the small intestine passage prediction model using the machine learning training set obtained in step S4 is performed (step S10). That is, a step of arbitrarily changing the order in which the small intestine passing peptide set is inputted, and the small intestine passing peptide sequence and the small intestine non-passing peptide sequence are alternated in equal proportions, so that the machine learning training set can be entered as an input value. The order is adjusted and input as an input value for training the machine learning model (step S11).
그 후에는 기계학습 훈련용 집합에 포함된 펩타이드 개별 서열을 아미노산 표현자값으로 변환한다(S12단계). 여기서 아미노산 표현자값은 바이너리 아미노산 표현자, VHSE 아미노산 표현자, Z3 아미노산 표현자, Z5 아미노산 표현자 중 적어도 어느 하나를 포함하여 사용하며, 아미노산에 대한 바이너리 아미노산 표현자는 하나의 아미노산에 대해서 19개의 "0"과 하나의 "1"로 구성된 20자리의 수로 표현하고, 20개의 아미노산 각각에 대해서는 "1"의 값이 위치하는 순서가 서로 다르도 록 설정한다. 펩타이드 서열 길이 3의 경우 60개의 표현자로 구성되며, 소장 통과 활성값의 경우 소장 통과 펩타이드는 0.9로, 소장 비통과 펩타이드는 0.1로 한다.Thereafter, individual peptide sequences included in the machine learning training set are converted into amino acid descriptor values (step S12). Wherein the amino acid presenter value includes at least one of a binary amino acid presenter, a VHSE amino acid presenter, a Z3 amino acid presenter, and a Z5 amino acid presenter, and the binary amino acid presenter for an amino acid is defined as 19 "0s for an amino acid. It is expressed by the number of 20 digits which consist of "and one" 1 ", and it sets so that the order in which the value of" 1 "may be located may differ from each other for 20 amino acids. In the case of peptide sequence length 3, it consists of 60 markers, and the small intestinal transit activity value is 0.9 for small intestinal transit peptide and 0.1 for small intestinal non-penetrating peptide.
이와 같이 기계학습 훈련용 집합에 포함된 펩타이드 개별 서열을 표현자값으로의 변환은 VHSE 아미노산 표현자를 사용하여서도 변환할 수 있으며, 이에 대해 정의된 값은 아래 표 3과 같다. VHSE 표현자는 하나의 아미노산에 대해서 8개의 표현자로 이루어져 있으며, 이들은 아미노산의 소수성(hydrophobicity), 전자기적(electronic), 입체적(steric) 특성을 나타내는 것으로 알려져 있으며, 펩타이드 서열 길이 3의 경우 24개의 입력값으로 구성된다.As such, conversion of individual peptide sequences included in the machine learning training set to the presenter value can be converted using the VHSE amino acid presenter, and the values defined therefor are shown in Table 3 below. VHSE descriptors consist of eight markers for an amino acid, which are known to represent the hydrophobicity, electronic and steric properties of the amino acids, and 24 inputs for peptide sequence length 3. It consists of.
[표 2] VHSE 아미노산 표현자TABLE 2 VHSE Amino Acid Descriptors
계속하여 기계학습 훈련용 펩타이드 집합에 대한 소장 통과 여부의 실험값과 펩타이드 서열에 대한 표현자값을 입력값으로 사용하여 기계학습 훈련을 실시한다(S13단계). 여기서 기계학습을 위한 방법으로는 신경망(Neural Network), 데이터 마이닝(Data Mining), 의사결정 트리(Decision Tree), 사례기반 추론(Case Based Reasoning), 패턴 인식(Pattern Recognition), 강화 학습(Reinforcement Learning)을 사용하며, 예컨대 피드 포워드 신경망을 사용할 경우는 기계학습 훈련용 펩타이드 집합을 사용하여 피드 포워드 신경망 학습 훈련을 실시하는데 기계학습법을 위한 피드 포워드 신경망의 구조는 입력층, 은닉층, 출력층으로 구성되고, 입력층은 입력노드로 구성되어 있으며, 입력 노드의 수는 펩타이드 서열 길이의 수에 표현자값이 갖는 성분의 수를 곱하여 결정되며, 하나의 입력 노드는 하나의 표현자값 성분인 실수 또는 정수이다. 은닉층은 하나로서 0 ~ 2 개의 은닉노드로 구성되며, 출력층은 출력노드로 구성되며 출력노드의 수는 하나이다. 펩타이드 서열 길이 3에 대해 20자리 바이너리 아미노산 표현자를 사용하는 경우 피드 포워드 신경망의 구조는 60개의 입력노드로 구성되고, 각 노드의 입력값은 상기 S12단계에서 만들어진 60개의 표현자값 "0" 또는 "1"이다. 모든 펩타이드 서열 길이에 대한 피드 포워드 신경망의 구조는 은닉층을 사용하지 않고 바로 하나의 출력노드가 있는 출력층으로 구성할 수도 있다.Subsequently, machine learning training is performed using the experimental value of whether the small intestine passes through the set of peptides for machine learning training and the expression value of the peptide sequence as input values (step S13). The methods for machine learning are Neural Network, Data Mining, Decision Tree, Case Based Reasoning, Pattern Recognition, Reinforcement Learning For example, in the case of using a feed forward neural network, feed forward neural network learning training is performed using a set of machine learning training peptides. The structure of the feed forward neural network for machine learning is composed of an input layer, a hidden layer, and an output layer. The input layer is composed of input nodes, and the number of input nodes is determined by multiplying the number of peptide sequence lengths by the number of components of the presenter value, and one input node is a real or integer value of one presenter value component. One hidden layer consists of 0 to 2 hidden nodes, and an output layer consists of output nodes, and the number of output nodes is one. In the case of using the 20-digit binary amino acid descriptor for the peptide sequence length 3, the structure of the feed forward neural network is composed of 60 input nodes, and the input values of each node are 60 expression values "0" or "1" created in step S12. "to be. The structure of the feedforward neural network for all peptide sequence lengths may consist of an output layer with just one output node without using a hidden layer.
다음에는 상기 S13 단계의 적절한 기계학습 훈련을 통하여 펩타이드 서열의 소장 통과 여부를 예측할 수 있는 소장 통과 예측 모델을 획득한다(S14단계).Next, a small intestine passage prediction model capable of predicting whether the peptide sequence passes through the small intestine is obtained through appropriate machine learning training in the step S13 (step S14).
이어 상기 S14단계에서 획득한 소장통과 예측 모델과 상기 S5단계에서 획득한 기계학습 검증용 집합을 이용하여 소장 통과 여부에 대한 예측값을 획득하고 실험값과 비교하여 소장 통과 예측 모델을 검증하고 평가한다(S20단계). 이 S20단계는 S21단계 ~ S24단계로 이루어지며, 즉, 먼저 기계학습 모델 검증을 위한 입력값 을 준비한다(S21단계). 이 S21단계에서는 상기 S5단계에서 획득한 기계학습 검증용 집합을 그대로 사용한다.Subsequently, the small intestine passage prediction model obtained in step S14 and the machine learning verification set obtained in step S5 are obtained, and the predicted small intestine passage prediction model is verified and evaluated by comparing with the experimental values (S20). step). This step S20 consists of steps S21 to S24, that is, first prepares input values for the machine learning model verification (step S21). In step S21, the machine learning verification set obtained in step S5 is used as it is.
계속하여 기계학습 검증용 집합에 포함된 펩타이드 개별 서열을 표현자값으로 변환한다(S22단계). 이때 표현자는 상기 S14단계에서 획득한 소장 통과 예측 모델이 S13단계의 훈련과정에서 사용한 표현자와 반드시 동일한 표현자를 사용한다.Subsequently, the individual peptide sequences included in the machine learning verification set are converted into the presenter values (step S22). In this case, the presenter uses the same presenter that the small intestine passage prediction model acquired in step S14 is identical to the presenter used in the training process of step S13.
이어 기계학습 검증용 펩타이드 집합으로 펩타이드 서열에 대한 아미노산 표현자값을 입력값으로 사용하고, 소장 통과 여부를 예측하기 위하여 상기 S14단계에서 획득한 소장 통과 예측 모델을 획득한다(S23단계).Subsequently, an amino acid descriptor value for the peptide sequence is used as an input value as a set of machine learning verification peptides, and a small intestine passage prediction model obtained in step S14 is obtained to predict whether the small intestine passes (step S23).
그 후 기계학습 검증용 집합을 이용하여 소장 통과 여부에 대한 예측값을 획득하고 이를 이용하여 상기 S23단계에서 획득한 소장 통과 예측 모델을 검증하고 그 결과를 하기 표 3에 나타냈다(S24단계).Then, using the machine learning verification set to obtain the predicted value for passing the small intestine using the small bowel prediction model obtained in step S23 and using the results are shown in Table 3 below (step S24).
상기 S22단계에서 표현자를 20자리 바이너리 아미노산 표현자로 사용하여 기계학습 모델을 훈련하여 상기 S24단계를 실행하고 그 결과를 하기 표 3에 나타냈다.In step S22, using the presenter as a 20-digit binary amino acid presenter, a machine learning model was trained to execute step S24, and the results are shown in Table 3 below.
[표 3] 소장 통과 예측 모델의 검증결과[Table 3] Validation results of the small intestine pass prediction model
표 3으로부터 알 수 있는 바와 같이 피드 포워드 신경망의 입력값 순서를 임의로 변경하여 검증을 5번 실시한 결과 펩타이드 서열 길이 3에 대한 반응자 작용 특성 점수가 훈련용 집합이 0.8885±0.0014, 검증용 집합이 0.8876±0.0056이었으며, 전체 집합을 5등분하여 4등분은 훈련용으로 실시하고 나머지 1등분을 검증용으로 사용하면서 훈련용 등분과 검증용 등분을 번갈아가며 교환하여 검증한 결과는 반응자 작용특성 점수가 펩타이드 서열 길이 3의 경우 훈련용 집합이 0.8894±0.0035, 검증용 집합이 0.8855±0.0152이었다.As can be seen from Table 3, the verification was performed five times by arbitrarily changing the order of input values of the feedforward neural network, and as a result, the responder action characteristic score for the peptide sequence length 3 was 0.8885 ± 0.0014 for the training set and 0.8876 ± for the validation set. It was 0.0056. The whole set was divided into 5 parts, 4 parts were used for training, and the remaining 1 part was used for verification, and the results were verified by exchanging training equal parts and verification parts alternately. In case of 3, the training set was 0.8894 ± 0.0035 and the verification set was 0.8855 ± 0.0152.
상기 S22단계에서 표현자를 VHSE 아미노산 표현자로 사용하여 기계학습 모델을 훈련하여 상기 S24단계를 실행하고 그 결과를 하기 표 4에 나타냈다.In step S22, using the presenter as a VHSE amino acid presenter to train the machine learning model to perform the step S24 and the results are shown in Table 4 below.
[표 4] 소장 통과 예측 모델의 검증결과[Table 4] Validation results of the small intestine passing prediction model
표 4으로부터 알 수 있는 바와 같이 피드 포워드 신경망의 입력값 순서를 임의로 변경하여 검증을 5번 실시한 결과 펩타이드 서열 길이 3에 대한 반응자 작용특성 점수가 훈련용 집합이 0.8371±0.0025, 검증용 집합이 0.8305±0.0121이었으며, 전체 집합을 5등분하여 4등분은 훈련용으로 실시하고 나머지 1등분을 검증용으로 사용하면서 훈련용 등분과 검증용 등분을 번갈아가며 교환하여 검증한 결과는 반응자 작용특성 점수가 펩타이드 서열 길이 3의 경우 훈련용 집합이 0.8358±0.0024, 검증용 집합이 0.8321±0.0098이었다.As can be seen from Table 4, the verification was performed five times by arbitrarily changing the order of input values of the feed forward neural network. 0.0121, and the whole set was divided into 5 parts, 4 parts were used for training, and the remaining 1 part was used for verification. In the case of 3, the training set was 0.8358 ± 0.0024 and the verification set was 0.8321 ± 0.0098.
다음에 상기 S24단계에서 실제 소장 통과 펩타이드 집합에 대해 소장 비통과 펩타이드를 동일한 수만큼 임의로 선별한 집합으로 대체하고 이를 이용하여 피드 포워드 신경망 모델을 훈련하였을 때 피드 포워드 신경망 모델이 소장 통과 펩타이드 서열과 소장 비통과 펩타이드 서열을 우연히 구별하는 것인지 또는 정확한 학습모델이 만들어지는 것인지를 검증하기 위하여 아미노산에 대해 바이너리 표현자를 사용한 실시예에서 5회 검증하고 그 결과를 하기 표 5에 나타냈다.Next, in step S24, when the small intestine passthrough peptide set is replaced with a randomly selected set of the small intestine passing peptides, and the feedforward neural network model is trained using the same, the feedforward neural network model is the small intestine passing peptide sequence and the small intestine. In order to verify whether the non-passing peptide sequences were accidentally distinguished or an accurate learning model was made, five times were verified in the example using a binary descriptor for amino acids and the results are shown in Table 5 below.
[표 5] 소장 통과 예측 모델의 검증결과[Table 5] Validation results of the small intestine pass prediction model
표 5으로부터 알 수 있는 바와 같이 펩타이드 서열 길이 3에 대한 반응자 작용특성 점수가 훈련용 집합이 0.5705±0.0024, 검증용 집합이 0.4935±0.0079로 낮은 점수이었다.As can be seen from Table 5, the responder functional characteristic score for the peptide sequence length 3 was low in the training set of 0.5705 ± 0.0024 and the validation set in 0.4935 ± 0.0079.
또한 상기 S24단계에서 VHSE 아미노산 표현자를 사용한 실시예에서 5회 검증을 실시하고 그 결과를 하기 표6에 나타냈다.In addition, the verification was performed five times in the example using the VHSE amino acid descriptor in the step S24 and the results are shown in Table 6 below.
[표 6] 소장 통과 예측 모델의 검증결과[Table 6] Validation results of the small intestine pass prediction model
표 6으로부터 알 수 있는 바와 같이 펩타이드 서열 길이 3에 대한 반응자 작용특성 점수가 훈련용 집합이 0.5523±0.0037, 검증용 집합이 0.5171±0.0142로 낮은 점수이었다. 이와 같이 두 가지 다른 표현자를 사용한 실시예를 통하여 거짓 소 장 통과 펩타이드를 입력값으로 사용하는 경우 기계 학습 모델이 만들어지지 않음을 의미하고, 펩타이드 서열에 대해 입력층, 은닉층, 출력층으로 구성된 피드 포워드 인공 신경망 모델이 실제 소장 통과 펩타이드 서열과 소장 비통과 펩타이드 서열을 구별하였음을 알 수 있다.As can be seen from Table 6, the responder functional characteristic score for the peptide sequence length 3 was low in the training set of 0.5523 ± 0.0037 and the validation set of 0.5171 ± 0.0142. In this embodiment using two different presenters, the use of a false small pass peptide as an input means that a machine learning model is not created, and a feedforward artificial composed of an input layer, a hidden layer, and an output layer for the peptide sequence. It can be seen that the neural network model distinguished the actual small intestinal pass-through peptide sequence from the small intestine pain-free peptide sequence.
도 3은 본 발명 기계학습법을 이용한 새로운 펩타이드 서열의 약동학적 성질 예측방법의 일실시예를 도시한 순서도로서, 먼저 입력수단(20)을 통해 약동학적 성질을 알고자 하는 펩타이드 서열을 입력하여 프로그램 기록매체(11)에 저장한다(S101단계). Figure 3 is a flow chart showing an embodiment of a method for predicting the pharmacokinetic properties of the new peptide sequence using the machine learning method of the present invention, first input the peptide sequence to know the pharmacokinetic properties through the input means 20 to record the program The medium 11 is stored in the medium 11 (step S101).
다음에 입력된 펩타이드 개별 서열을 도 2의 과정을 통하여 훈련된 예측 모델(S23단계)에서 요구하는 표현자값으로 변환한다(S102단계).Next, the individual peptide sequences inputted are converted into the expression values required by the trained prediction model (step S23) through the process of FIG. 2 (step S102).
그 후 훈련된 예측 모델(S23단계)로 구성된 약동학적 성질 예측 모델에 적용한다(S103단계).Thereafter, it is applied to the pharmacokinetic property prediction model composed of the trained prediction model (step S23).
약동학적 성질을 알고자 사용자가 입력한 새로운 펩타이드 서열의 소장 통과 여부를 출력한다(S104단계).In order to know the pharmacokinetic properties, whether the small intestine passes through the new peptide sequence input by the user is output (step S104).
도 4는 본 발명에 따른 약동학적 성질 예측 모델을 재훈련하는 방법을 나타낸 순서도로서, 우선 소장 통과 여부 활성값을 실험기법으로 획득한 새로운 소장 통과 펩타이드 서열 및 소장 비통과 펩타이드 서열을 입력수단(20)을 통해 프로그램 기록매체(11)에 저장한다(S201단계).4 is a flowchart illustrating a method for retraining a pharmacokinetic property prediction model according to the present invention. First, a means for inputting a new small intestine passing peptide sequence and a small intestine non-passing peptide sequence obtained by an experimental technique of small intestine passage activity (20) Stored in the
이어 상기한 도 2의 S3단계 ~ S5단계 및 S10단계, S20단계를 수행하여 기계학습 모델을 훈련한 다음 이를 검증하고 기존의 기계학습 모델과의 비교값을 자동 화 하여 실행한다(S210단계). 먼저 새로이 입력된 펩타이드 서열이 이미 지정되어 있는 서열과 동일한 것인지를 판명한 후 이들 서열을 활성값에 따라 소장 통과 펩타이드 집합과 소장 비통과 펩타이드 집합에 추가하여 저장한다(S211단계).Subsequently, the machine learning model is trained by performing the steps S3 to S5 and the steps S10 and S20 of FIG. First, it is determined whether the newly input peptide sequences are the same as the already designated sequences, and these sequences are added and stored in the small intestine passing peptide set and the small intestine passing peptide set according to the activity value (step S211).
다음에 기존에 저장되어 있는 펩타이드 서열에 새로이 입력된 펩타이드 서열을 추가하여 상기한 도 2의 S3단계의 기계학습 훈련을 위하여 펩타이드 서열 집합을 분류하고, S4단계의 기계학습 훈련용 펩타이드 집합을 획득하며, S5단계의 기계학습 검증용 펩타이드 집합을 획득하고, S10단계의 기계학습법을 이용하여 소장 통과 예측 모델을 훈련하여 획득하며, S20단계의 기계학습법을 이용하여 소장 통과 예측 모델을 검증한다(S212단계).Next, by adding the newly input peptide sequence to the previously stored peptide sequence to classify the peptide sequence set for the machine learning training of step S3 of FIG. 2, and obtains the peptide set for machine learning training of step S4 Obtain a set of peptides for verifying machine learning in step S5, train the small intestine passage prediction model using the machine learning method in step S10, and verify the small intestine passage prediction model using the machine learning method in step S20 (step S212). ).
그 후 기존에 저장되어 있는 소장 통과 예측 모델의 반응자 작용특성 점수와 상기 S212단계에서 획득한 소장 통과 예측 모델의 반응자 작용특성 점수를 비교한다(S213단계).Thereafter, the responder function characteristic score of the small intestine passage prediction model stored previously is compared with the responder function characteristic score of the small intestine passage prediction model obtained in step S212 (step S213).
이어 상기 S213단계에서 계산된 반응자 작용특성 점수를 사용자에게 출력하며 이를 근거로 사용자가 새로이 훈련된 소장 통과 예측 모델을 저장한다(S202단계). Subsequently, the responder action characteristic score calculated in step S213 is output to the user, and based on this, the newly trained small intestine passage prediction model is stored (step S202).
이와 같이 함으로써 사용자가 실험을 통해 새로 획득한 소장 통과 펩타이드 서열을 이용하여 수학적 모델 기반의 예측 모델을 재훈련하고 검증할 수 있다.This allows the user to retrain and validate mathematical models based predictive models using newly acquired small intestine peptide sequences through experiments.
지금까지 바람직한 실시예로서 본 발명을 설명하였지만 본 발명은 이에 한정되지 않고 발명의 요지를 이탈하지 않는 범위 내에서 다양하게 변형하여 실시할 수 있음은 물론이다.Although the present invention has been described as a preferred embodiment so far, the present invention is not limited thereto and can be variously modified and implemented within the scope not departing from the gist of the invention.
상기한 바와 같이 본 발명에 의하면, 펩타이드 약물의 경구 투여에 의한 약물 전달시 필요한 특성중의 하나인 펩타이드 서열의 소장 통과 여부를 항상 실험으로 확인하지 않고 프로그램을 저장한 기록매체를 이용하여 미리 예측함으로써 실험으로 소요되는 비용과 시간을 절감할 수 있는 각별한 장점이 있다. As described above, according to the present invention, it is possible to predict in advance by using a recording medium storing a program without always confirming whether the small intestine passes through the small intestine, which is one of the characteristics required for drug delivery by oral administration of a peptide drug. There is a special advantage that can reduce the cost and time required for the experiment.
Claims (16)
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060108504A KR100924328B1 (en) | 2006-11-03 | 2006-11-03 | System, method and program for pharmacokinetic parameter prediction of peptide sequence by mathematical model |
PCT/KR2007/002568 WO2008054052A1 (en) | 2006-11-03 | 2007-05-28 | System, method and program for pharmacokinetic parameter prediction of peptide sequence by mathematical model |
US12/513,279 US20100121791A1 (en) | 2006-11-03 | 2007-05-28 | System, method and program for pharmacokinetic parameter prediction of peptide sequence by mathematical model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060108504A KR100924328B1 (en) | 2006-11-03 | 2006-11-03 | System, method and program for pharmacokinetic parameter prediction of peptide sequence by mathematical model |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080040481A true KR20080040481A (en) | 2008-05-08 |
KR100924328B1 KR100924328B1 (en) | 2009-11-02 |
Family
ID=39648147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060108504A KR100924328B1 (en) | 2006-11-03 | 2006-11-03 | System, method and program for pharmacokinetic parameter prediction of peptide sequence by mathematical model |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100924328B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833971A (en) * | 2019-04-23 | 2020-10-27 | 上海云贵信息科技有限公司 | Pharmaceutical compound pharmacokinetic parameter prediction method based on logistic regression |
CN114187967A (en) * | 2021-12-28 | 2022-03-15 | 大连工业大学 | Amino acid sequence prediction method for activity of antihypertensive peptide |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4213158A1 (en) * | 2020-11-13 | 2023-07-19 | Ahead Biocomputing, Co. Ltd | Information processing device, information processing method, recording medium recording information processing program, and information processing system |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040055521A (en) * | 2002-12-21 | 2004-06-26 | 한국전자통신연구원 | System and method for predicting function of protein by domains and homology search |
KR20030036364A (en) * | 2003-03-14 | 2003-05-09 | 주식회사 넷플랫 | Structure for modular computer |
-
2006
- 2006-11-03 KR KR1020060108504A patent/KR100924328B1/en not_active IP Right Cessation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833971A (en) * | 2019-04-23 | 2020-10-27 | 上海云贵信息科技有限公司 | Pharmaceutical compound pharmacokinetic parameter prediction method based on logistic regression |
CN114187967A (en) * | 2021-12-28 | 2022-03-15 | 大连工业大学 | Amino acid sequence prediction method for activity of antihypertensive peptide |
Also Published As
Publication number | Publication date |
---|---|
KR100924328B1 (en) | 2009-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhavoronkov et al. | Deep biomarkers of aging and longevity: from research to applications | |
Venkatesh et al. | MHCAttnNet: predicting MHC-peptide bindings for MHC alleles classes I and II using an attention-based deep neural model | |
CN112599187B (en) | Method for predicting drug and target protein binding fraction based on double-flow neural network | |
CN111640512B (en) | Kidney substitution therapy starting strategy evaluation method and device and electronic equipment | |
Zu et al. | Single-cell analysis of chromatin accessibility in the adult mouse brain | |
KR100924328B1 (en) | System, method and program for pharmacokinetic parameter prediction of peptide sequence by mathematical model | |
Ghorbani et al. | Embedding for informative missingness: Deep learning with incomplete data | |
CN111724370A (en) | Multi-task non-reference image quality evaluation method and system based on uncertainty and probability | |
Nori et al. | De novo PROTAC design using graph-based deep generative models | |
Wong et al. | The New Answer to Drug Discovery: Quantum Machine Learning in Preclinical Drug Development | |
CN114005529A (en) | Recognition method of ncRNA with protein coding potential | |
Zhao et al. | A computational model for anti-cancer drug sensitivity prediction | |
Moghaddasi et al. | Comparing the efficiency of artificial neural network and gene expression programming in predicting coronary artery disease | |
CN112447304A (en) | Visual inspection method and device for judging development of infectious diseases | |
KR100856517B1 (en) | System, method and program for tissue target prediction of peptide sequence by mathematical model | |
CN115331728B (en) | Stable folding disulfide bond-rich polypeptide design method and electronic equipment thereof | |
Singh et al. | Algorithmic Music Generation for the stimulation of Musical Memory in Alzheimer’s | |
WO2008054052A1 (en) | System, method and program for pharmacokinetic parameter prediction of peptide sequence by mathematical model | |
CN113284553B (en) | Method for testing binding capacity of drug target for treating drug addiction | |
Hwang et al. | Construction of large-scale Bayesian networks by local to global search | |
KR100904220B1 (en) | System, method and program for M cell target prediction of peptide sequence by mathematical model | |
Wheelock et al. | Forecasting labels under distribution-shift for machine-guided sequence design | |
Ramachandran et al. | Deep learning for better variant calling for cancer diagnosis and treatment | |
NL2013120B1 (en) | A method for finding associated positions of bases of a read on a reference genome. | |
Ling et al. | Deep ensemble learning over the microbial phylogenetic tree (DeepEn-Phy) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |