KR20080086563A - 수학적 모델을 이용한 펩타이드 서열의 엠 세포 표적 예측시스템 및 방법과 그 프로그램을 저장한 기록매체 - Google Patents

수학적 모델을 이용한 펩타이드 서열의 엠 세포 표적 예측시스템 및 방법과 그 프로그램을 저장한 기록매체 Download PDF

Info

Publication number
KR20080086563A
KR20080086563A KR1020070008483A KR20070008483A KR20080086563A KR 20080086563 A KR20080086563 A KR 20080086563A KR 1020070008483 A KR1020070008483 A KR 1020070008483A KR 20070008483 A KR20070008483 A KR 20070008483A KR 20080086563 A KR20080086563 A KR 20080086563A
Authority
KR
South Korea
Prior art keywords
mathematical model
peptide sequence
peptide
cell
program
Prior art date
Application number
KR1020070008483A
Other languages
English (en)
Other versions
KR100904220B1 (ko
Inventor
정은경
김준형
김민경
이호경
정동현
최승훈
신재민
윤철희
강상기
김민국
최윤재
Original Assignee
주식회사 인실리코텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 인실리코텍 filed Critical 주식회사 인실리코텍
Priority to KR1020070008483A priority Critical patent/KR100904220B1/ko
Priority to PCT/KR2007/002568 priority patent/WO2008054052A1/en
Priority to US12/513,279 priority patent/US20100121791A1/en
Publication of KR20080086563A publication Critical patent/KR20080086563A/ko
Application granted granted Critical
Publication of KR100904220B1 publication Critical patent/KR100904220B1/ko

Links

Images

Classifications

    • G06F19/10
    • G06F19/12
    • G06F19/18

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)

Abstract

본 발명은 수학적 모델을 이용하여 펩타이드 서열의 M 세포 표적을 예측하는 시스템 및 방법과 그 프로그램을 저장한 기록매체에 관한 것이다.
본 발명은 실험기법을 이용하여 M 세포를 표적하는 펩타이드 서열의 표본을 획득하는 단계와; 이들 서열을 근거로 M 세포를 표적하지 않는 펩타이드 서열의 표본을 획득하는 단계와; 상기 획득한 표본 각각을 집합으로 저장한 후 이들을 일정한 비율이 되도록 임의로 추출하여 수학적 모델 훈련용 집합과 수학적 모델 검증용 집합으로 분류하는 단계와; 개별 펩타이드 서열에 표현자 값과 활성값을 부여하는 단계와; 훈련용 펩타이드 집합과 수학적 모델을 이용하여 훈련하는 단계와; 훈련된 수학적 모델을 이용하여 검증용 펩타이드 집합에 대해 M 세포 표적 여부를 예측하는 단계와; 훈련된 수학적 모델을 검증하는 단계로 이루어져 펩타이드의 M 세포 표적 여부를 항상 실험으로 확인하지 않고 프로그램을 저장한 기록매체를 이용하여 미리 예측함으로써 실험으로 소요되는 비용과 시간을 절감할 수 있는 각별한 장점이 있는 유용한 발명이다.
수학적 모델, 펩타이드 서열, 표현자, 활성값, M 세포 표적.

Description

수학적 모델을 이용한 펩타이드 서열의 엠 세포 표적 예측 시스템 및 방법과 그 프로그램을 저장한 기록매체{System, method and program for M cell target prediction of peptide sequence by mathematical model}
도 1은 본 발명에 따른 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측 시스템의 일실시예를 도시한 블록 구성도,
도 2는 본 발명 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법의 일실시예를 도시한 순서도,
도 3은 본 발명 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법의 일실시예를 도시한 순서도,
도 4는 본 발명에서 펩타이드 서열의 M 세포 표적 예측 모델을 재훈련하는 방법의 순서도이다.
〈도면의 주요부분에 대한 부호의 설명〉
10 : 마이크로 컴퓨터 11 : 프로그램 기록매체
12 : CPU 13 : 입출력부
20 : 입력수단 30 : 출력수단
본 발명은 수학적 모델을 이용하여 펩타이드 서열의 M 세포 표적 여부를 예측하는 시스템 및 방법과 그 프로그램을 저장한 기록매체에 관한 것이다.
일반적으로 외부로부터 체내로 병원성 물질이 감염되는 경로는 구강, 호흡 및 생식기도 그리고 피부로 나누어진다. 구강을 통해 소화기 내로 들어온 항원성 물질이 흡수되는 경로로는 페이어스 패치(Peyer's patch)의 낭포 조합 상피(follicle associated epithelium; FAE)에 존재하는 M 세포를 통한 수용체 매개 물질운송기전(receptor mediated endocytosis)과 융모세포(villi)를 구성하는 소장의 상피세포(enterocyte) 간의 밀착결합(tight junction) 사이로 유입되는 경로로 나누어 불 수 있다. 점막면역반응은 체면역반응(systemic immune response)과 달리 장관내로 운반된 거대분자(macromolecules), 미생물(microorganism)을 흡수하여 항원 특이적 면역 반응을 일으켜 최종적으로 소장의 상피세포(enterocyte)를 통과하여 분비형 IgA(secretory IgA)의 분비를 유도한다.
M 세포라는 특화된 세포는 장내에 존재하는 여러 항원을 특이적, 비특이적인 경로로 흡수하여 점막면역반응의 최종산물인 분비형 IgA를 소장의 상피세포를 통해 분비하는데 있어서 중추적인 기능을 담당한다.
콜레라, 장티푸스, 세균성 이질 등의 수인성 전염병과 같이 M 세포를 통과하여 소장의 점막 내로 유입되는 질병의 예방을 위한 백신의 투여에 있어 가장 효율적인 경로는 M 세포를 표적하는 경구투여방식(oral drug delivery)을 이용하여 점 막면역반응(mucosal immune response)을 유도하는 것으로 알려져 있다. 따라서 M 세포에서 특이적인 트랜스사이토시스(transcytosis)를 유도하는 작용기(ligand)를 확보할 수 있다면, 점막면역반응을 활성화시킬 수 있는 효율적인 경구용 백신 전달 시스템에 응용할 수 있다.
경구투여방식은 환자들의 거부감이 적고 숙련된 인력이나 주사기 등 별도의 기구가 필요하지 않기 때문에 투약의 편이성과 복약 순응도가 높다는 측면에서 가장 이상적인 방법이지만, 실용화에 있어서 몇 가지 문제점이 제시되고 있다. 첫째는 물질 크기 상의 제약으로, 단백질계 약물은 거대분자(macromolecule)로 이루어져 생체막 투과에 있어 제한을 가진다. 다음은 생체의 소화기관을 통과하면서 위를 포함한 소화기관에서 분비되는 각종 소화효소의 작용에 의해 활성을 잃게 된다. 이러한 요소를 극복하고 온전한 형태로 소장 내에 도달하더라도 외부물질을 선택적으로 받아들이는 장 상피세포층의 차단에 의해 약물이 체내로 흡수되어 제 기능을 발휘하는 것은 매우 어렵다. 그러므로 경구용 백신 전달 시스템의 상용화를 위해서는 백신의 낮은 흡수율과 소화관 통과 시의 불안정성, 낮은 장점막 투과성 등의 문제점 개선이 선행되어야 한다.
최근 신약 개발에 있어, 펩타이드는 효능이 강력하고 독성 및 부작용이 거의 없으며 인체에 잔류하지 않는 것과 같은 장점으로 인해 새로운 신약을 개발하는데 있어 각광받는 연구물질 중의 하나로서 시장의 비율이 점점 성장하고 있다.
이러한 펩타이드의 장점을 이용하여 M 세포를 표적하는 펩타이드를 선발해 이를 경구용 백신에 적용할 경우 기존의 단백질계 약물 및 백신이 가지고 있는 낮 은 운송효율을 개선할 수 있는 보다 효율적인 방법이 될 수 있다.
종래의 기술은 생체에 직접 펩타이드를 투여하여 M 세포를 표적하는 펩타이드를 찾아내는 방법에 주로 의존하기 때문에 시간적, 경제적 측면에서 상당히 소모적이라고 하는 단점이 있었다.
이러한 실험적인 방법의 단점을 보완하기 위한 방법으로서, 신약 또는 신물질 개발에 있어 구조와 활성간의 상관관계에 대한 정량적 모델을 만드는 것이 실험에 대한 비용을 줄이면서 활성을 미리 예측하는데 있어 매우 유용한 방법 중의 하나로 사용되었다. 그러나 현재까지 이러한 방법론을 적용하여 펩타이드의 M 세포 표적 여부를 미리 예측해 볼 수 있는 프로그램은 개발되어 있지 않다. 그러한 이유로 약물 전달 물질이나 신약 개발에 있어 약물의 효율성을 증대시킬 수 있는 활성 중의 하나인 펩타이드 서열의 M 세포 표적 여부를 예측할 수 있는 기술의 개발이 절실히 요구되고 있는 실정이다.
본 발명은 상기한 실정을 감안하여 발명한 것으로서, 수학적 모델을 이용하여 펩타이드 서열의 M 세포 표적 여부를 예측하는 시스템 및 방법과 그 프로그램을 저장한 기록매체를 제공하여 펩타이드 서열의 M 세포 표적 여부를 예측하고 검증하는 모델을 제시하는데 그 목적이 있다.
상기한 목적을 달성하기 위한 본 발명 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측 시스템은 프로그램 기록매체(11)와 CPU(12) 및 입출력부(13)로 이루어진 마이크로컴퓨터(10)와; 입력수단(12) 및; 출력수단(13)으로 이루어짐 을 특징으로 한다.
상기 프로그램 기록매체(11)는 사용자가 M 세포 표적 여부를 알고자 하는 펩타이드 서열을 입력하면 이를 아미노산 표현자로 변환하는 프로그램과, 훈련된 수학적 모델을 사용하여 M 세포 표적 여부를 예측하는 프로그램을 포함하고, 사용자가 실험기법으로 M 세포 표적 여부 활성값을 획득한 새로운 M 세포 표적 펩타이드 서열을 추가하면, 이를 원래의 M 세포 표적 펩타이드 집합에 추가한 다음 분류하는 프로그램과, 추가된 펩타이드에 표현자 값과 활성값을 부여하는 프로그램과, 훈련용 펩타이드 집합을 이용하여 수학적 모델로 훈련하는 프로그램과, 검증용 펩타이드 집합에 대해 M 세포 표적 여부를 예측할 수 있도록 하는 프로그램과, 훈련된 수학적 모델에 대해 검증하는 프로그램을 포함하는 것을 특징으로 한다.
또한 상기한 목적을 달성하기 위한 본 발명 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적을 예측하는 방법은 실험기법을 이용하여 M 세포를 표적하는 펩타이드 서열의 표본을 획득하는 단계와; 이들 서열을 근거로 M 세포를 표적하지 않는 펩타이드의 서열의 표본을 획득하는 단계와; 상기 획득한 표본 각각을 집합으로 저장한 후 이들을 일정한 비율이 되도록 임의로 추출하여 수학적 모델 훈련용 집합과 수학적 모델 검증용 집합으로 분류하는 단계와; 개별 펩타이드 서열에 표현자 값과 활성값을 부여하는 단계와; 훈련용 펩타이드 집합과 수학적 모델을 이용하여 훈련하는 단계와; 훈련된 수학적 모델을 이용하여 검증용 펩타이드 집합에 대해 M 세포 표적 여부를 예측하는 단계와; 훈련된 수학적 모델을 검증하는 단계로 이루어지는 것을 특징으로 한다.
상기 수학적 모델은 회귀분석법, 기계학습법, 유전자 알고리즘을 이용한 다중 회귀분석법, 유전자 알고리즘을 이용한 편최소제곱법, 주성분 분석을 활용한 편최소제곱법, 주성분 분석을 활용한 다중 회귀분석법을 포함하는 정량적 구조-특성 상관관계 방법인 것을 특징으로 하는 수학적 모델 방법이며, 상기 기계학습법은 신경망, 데이터마이닝, 의사결정트리, 귀납논리, 사례기반 추론, 패턴 인식, 강화 학습, 베이지안 망, 은닉마코프 모델, 확률 문법 방법이고, 특히 신경망 기법인 것을 특징으로 한다.
상기 표현자 값은 분자구조, 아미노산, 펩타이드를 정량적으로 나타낸 것으로, 바이너리 아미노산 표현자, VHSE 아미노산 표현자, Z3 아미노산 표현자, Z5 아미노산 표현자 중 적어도 어느 하나를 포함하는 것을 특징으로 한다.
상기 기계학습 모델을 구축하기 위해 수집되는 데이터는 in vivo , ex vivo , in vitro 실험 중 적어도 어느 하나로부터 얻은 데이터이고, 특히 파지 디스플레이 실험 기법을 이용한 in vivo , ex vivo , in vitro 실험 중 적어도 어느 하나로부터 얻은 데이터인 것을 특징으로 한다. 상기 펩타이드 서열은 2 ~ 12개의 펩타이드, 더 바람직하게는 3 ~ 7개의 펩타이드로 이루어진 서열이며, 본 발명 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법을 적용하는 종은 포유류이며, 특히 사람을 대상으로 한다.
또한 본 발명 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측 프로그램을 저장한 기록매체는 실험 기법을 이용하여 M 세포를 표적하는 펩타이드 서열의 표본을 획득하는 프로세스와; 이들 서열을 근거로 M 세포를 표적하지 않는 펩타 이드 서열의 표본을 획득하는 프로세스와; 상기 획득한 표본 각각을 집합으로 저장한 후 이들을 일정한 비율이 되도록 임의로 추출하여 수학적 모델 훈련용 집합과 수학적 모델 검증용 집합으로 분류하는 프로세스와; 개별 펩타이드 서열에 표현자 값과 활성값을 부여하는 프로세스와; 훈련용 펩타이드 집합과 수학적 모델을 이용하여 훈련하는 프로세스와; 훈련된 수학적 모델을 이용하여 검증용 펩타이드 집합에 대해 M 세포 표적 여부를 예측하는 프로세스와; 훈련된 수학적 모델을 검증하는 프로세스를 포함하는 것을 특징으로 한다.
상기 본 발명의 목적과 특징 및 장점은 첨부 도면 및 다음의 상세한 설명을 참조함으로써 더욱 쉽게 이해될 수 있을 것이다.
이하, 첨부도면을 참조하여 본 발명 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측 시스템 및 방법과 그 프로그램을 저장한 기록매체를 바람직한 실시예로서 상세하게 설명한다.
도 1은 본 발명에 따른 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측 시스템의 일실시예를 도시한 블록 구성도, 도 2는 본 발명 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법의 일실시예를 도시한 순서도로서, 도 2에 도시한 바와 같이 먼저 in vitro M 세포 모델과 파지디스플레이 실험 기법으로 M 세포 표적 펩타이드 서열의 표본(수)을 수집한다(S1단계). 여기서 펩타이드 서열의 길이는 하나의 펩타이드에 있는 아미노산의 수를 의미하며, 펩타이드 서열 길이 7은 아미노산이 7개로 이루어진 펩타이드를 나타낸다. 수집한 펩타이드 서열의 수 는 하기 표 1과 같다.
M 세포 표적 펩타이드 서열의 수
펩타이드 서열 길이 펩타이드 수(개)
M 세포 표적 M 세포 비표적 훈련용 검증용
3 1,225 1,225 1,930 520
4 980 980 1,568 392
5 735 735 1,174 296
6 490 490 782 198
7 245 245 396 94
또한 상기 S1단계에서 사용된 파지디스플레이 펩타이드 라이브러리는 'ph.D.-C7CTM(New England BioLab.)'으로, 이는 M13 박테리오파지(bacteriophage)의 게놈(genome) 중에서 코트 단백질(coat protein)의 일종인 pⅢ를 생산하는 유전자 말단에 7개의 무작위 아미노산 서열(random amino acid sequence)의 펩타이드(peptide)가 발현되도록 인위적으로 유전자 서열을 삽입한 후, 대장균(E. coli)에 감염시켜 얻은 수억 종 이상의 서로 다른 펩타이드를 발현한 재조합 박테리오파지로 구성되어 있다. 한편, M13 파지에 도입되어 있는 7개의 무작위 아미노산 서열은 양쪽에 cysteine 잔기를 보유하도록 설계되어 펩타이드 발현시 자연적으로 이황화 결합(disulfide bond)을 형성함으로써 고리모양(loop shape)을 이루도록 하여 목적 단백질과 더욱 강한 결합을 유도할 수 있도록 되어 있다.
파지디스플레이 기법은 1.0 X 1011 pfu의 파지 펩타이드 라이브러리(~1,000 copies of individual recombinant phage clone) 중 in vitro M 세포 모델을 대상으로 트랜스사이토시스 분석(transcytosis assay)을 실시하여 유의적으로 높은 트랜스사이토시스(transcytosis) 능력을 가진 펩타이드 서열을 선별하였다.
이와 더불어 임의의 아미노산을 선택하게 하는 프로그램을 이용하여 M 세포 표적 펩타이드 서열의 길이 7에 대한 7개의 아미노산을 뽑아낸 후 실험에서 획득한 M 세포 표적 펩타이드 집합과 비교하여 동일한 서열의 펩타이드가 없는 경우 M 세포 비표적 펩타이드 서열의 집합으로 분류한다(S2단계). 여기서 임의의 아미노산을 선택하게 하는 프로그램은 공지의 프로그램을 이용한다.
다음으로 기계학습 훈련을 위하여 펩타이드 서열의 집합을 분류한다(S3단계). 이 단계(S3단계)에는 M 세포 표적 펩타이드 서열 집합의 수가 M 세포 비표적 펩타이드 서열 집합의 수보다 양이 적기 때문에 두 집합간의 개체수를 동일하게 만드는 과정을 포함한다. 이 단계(S3단계)에서 펩타이드 서열 길이 7의 경우 M 세포 비표적 펩타이드를 표 1에서와 같이 245개 획득하였다.
이어 상기 M 세포 표적 펩타이드 집합에서 임의의 펩타이드 서열을 대략 80% 추출하고, M 세포 비표적 펩타이드 집합에서 임의의 펩타이드 서열을 대략 80% 추출한 다음 이 둘을 모아서 기계학습 훈련용 펩타이드 집합으로 분류한다(S4단계).
상기 S4단계와 마찬가지로 M 세포 표적 펩타이드 집합에서 대략 나머지 20%와 M 세포 비표적 펩타이드 집합에서의 나머지 20%를 모두 모아서 기계학습 검증용 펩타이드 집합으로 분류한다(S5단계).
그 결과 표 1에서와 같이 펩타이드 서열의 길이 7의 경우 기계학습 훈련용 펩타이드의 수는 396개, 기계학습 검증용 펩타이드의 수는 94개 이다.
다음에는 기계학습법을 이용하여 상기 S4단계에서 획득한 기계학습 훈련용 집합으로 M 세포 표적형 펩타이드 예측 모델을 훈련하고 획득하는 단계(S10단계)를 진행한다. 즉, M 세포 표적 펩타이드 집합이 입력되는 순서를 임의로 변경하는 단계로서, M 세포 표적 펩타이드 서열과 M 세포 비표적 펩타이드 서열이 동등한 비율로 번갈아 가면서 기계학습 훈련 과정에 입력값으로 들어갈 수 있도록 기계학습 훈련용 집합의 순서를 조정하여 기계학습 모델 훈련을 위한 입력값으로 입력한다(S11단계).
그 후에는 기계학습 훈련용 집합에 포함된 펩타이드 개별 서열을 아미노산 표현자 값으로 변환한다(S12단계). 여기서 아미노산 표현자 값은 바이너리 아미노산 표현자, VHSE 아미노산 표현자, Z3 아미노산 표현자, Z5 아미노산 표현자 중 적어도 어느 하나를 포함하여 사용하며, 아미노산에 대한 바이너리 아미노산 표현자는 하나의 아미노산에 대해서 19개의 "0"과 하나의 "1"로 구성된 20자리의 수로 표현하고, 20개의 아미노산 각각에 대해서는 "1"의 값이 위치하는 순서가 서로 다르도록 설정한다. 펩타이드 서열 길이 7의 경우 140개의 표현자로 구성되며, M 세포표적 활성값의 경우 M 세포 표적 펩타이드는 0.9로, M 세포 비표적 펩타이드는 0.1로 한다.
이와 같이 기계학습 훈련용 집합에 포함된 펩타이드 개별 서열을 표현자 값으로의 변환은 VHSE 아미노산 표현자를 사용하여서도 변환할 수 있으며, 이에 대해 정의된 값은 하기 표 2와 같다. VHSE 표현자는 하나의 아미노산에 대해서 8개의 표현자로 이루어져 있으며, 이들은 아미노산의 소수성(hydrophobicity), 전자기적(electronic), 입체적(steric) 특성을 나타내는 것으로 알려져 있으며, 펩타이드 서열길이 3의 경우 24개의 입력값으로 구성된다.
VHSE 아미노산 표현자
Amino Acids VHSE 1 VHSE 2 VHSE 3 VHSE 4 VHSE 5 VHSE 6 VHSE 7 VHSE 8
Ala A 0.15 -1.11 -1.35 -0.92 0.02 -0.91 0.36 -0.48
Arg R -1.47 1.45 1.24 1.27 1.55 1.47 1.30 0.83
Asn N -0.99 0.00 -0.37 0.69 -0.55 0.85 0.73 -0.80
Asp D -1.15 0.67 -0.41 -0.01 -2.68 1.31 0.03 0.56
Cys C 0.18 -1.67 -0.46 -0.21 0.00 1.20 -1.61 -0.19
Gln Q -0.96 0.12 0.18 0.16 0.09 0.42 -0.20 -0.41
Glu E -1.18 0.40 0.10 0.36 -2.16 -0.17 0.91 0.02
Gly G -0.20 -1.53 -2.63 2.28 -0.53 -1.18 2.01 -1.34
His H -0.43 -0.25 0.37 0.19 0.51 1.28 0.93 0.65
Ile I 1.27 -0.14 0.30 -1.80 0.30 -1.61 -0.16 -0.13
Leu L 1.36 0.07 0.26 -0.80 0.22 -1.37 0.08 -0.62
Lys K -1.17 0.70 0.70 0.80 1.64 0.67 1.63 0.13
Met M 1.01 -0.53 0.43 0.00 0.23 0.10 -0.86 -0.68
Phe F 1.52 0.61 0.96 -0.16 0.25 0.28 -1.33 -0.20
Pro P 0.22 -0.17 -0.50 0.05 -0.01 -1.34 -0.19 3.56
Ser S -0.67 -0.86 -1.07 -0.41 -0.32 0.27 -0.64 0.11
Thr T -0.34 -0.51 -0.55 -1.06 -0.06 -0.01 -0.79 0.39
Trp W 1.50 2.06 1.79 0.75 0.75 -0.13 -1.01 -0.85
Tyr Y 0.61 1.61 1.17 0.73 0.53 0.25 -0.96 -0.52
Val V 0.76 -0.92 -0.17 -1.91 0.22 -1.40 -0.24 -0.03
계속하여 기계학습 훈련용 펩타이드 집합에 대한 M 세포 표적 여부의 실험값과 펩타이드 서열에 대한 표현자 값을 입력값으로 사용하여 기계학습 훈련을 실시한다(S13단계). 여기서 기계학습을 위한 방법으로는 신경망(Neural Network), 데이터마이닝(Data Mining), 의사결정 트리(Decision Tree), 사례기반 추론(Case Based Reasoning), 패턴 인식(Pattern Recognition), 강화 학습(Reinforcement Learning)을 사용하며, 예컨대 피드 포워드 신경망을 사용할 경우는 기계학습 훈련용 펩타이드 집합을 사용하여 피드 포워드 신경망 학습 훈련을 실시하는데 기계학습법을 위한 피드 포워드 신경망의 구조는 입력층, 은닉층, 출력층으로 구성되고, 입력층은 입력노드로 구성되어 있으며, 입력 노드의 수는 펩타이드 서열 길이의 수에 표현자값이 갖는 성분의 수를 곱하여 결정되며, 하나의 입력 노드는 하나의 표현자값 성분인 실수 또는 정수이다. 은닉층은 하나로서 0 ~ 3 개의 은닉노드로 구성되며, 출력층은 출력노드로 구성되며 출력노드의 수는 하나이다. 펩타이드 서열 길이 7에 대해 20자리 바이너리 아미노산 표현자를 사용하는 경우 피드 포워드 신경망의 구조는 140개의 입력노드로 구성되고, 각 노드의 입력값은 상기 S12단계에서 만들어진 140개의 표현자값 "0" 또는 "1"이다. 모든 펩타이드 서열 길이에 대한 피드 포워드 신경망의 구조는 은닉층을 사용하지 않고 바로 하나의 출력노드가 있는 출력층으로 구성할 수도 있다.
다음에는 상기 S13 단계의 적절한 기계학습 훈련을 통하여 펩타이드 서열의 M 세포 표적 여부를 예측할 수 있는 M 세포 표적형 펩타이드 예측 모델을 획득한다(S14단계).
이어 상기 S14단계에서 획득한 M 세포 표적형 펩타이드 예측 모델과 상기 S5단계에서 획득한 기계학습 검증용 집합을 이용하여 펩타이드의 M 세포 표적 여부에 대한 예측값을 획득하고 실험값과 비교하여 M 세포 표적형 펩타이드 예측 모델을 검증하고 평가한다(S20단계). 이 S20단계는 S21단계 ~ S24단계로 이루어지며, 즉, 먼저 기계학습 모델 검증을 위한 입력값을 준비한다(S21단계). 이 S21단계에서는 상기 S5단계에서 획득한 기계학습 검증용 집합을 그대로 사용한다.
계속하여 기계학습 검증용 집합에 포함된 펩타이드 개별 서열을 표현자 값으로 변환한다(S22단계). 이때 표현자는 상기 S14단계에서 획득한 M 세포 표적형 펩타이드 예측 모델이 S13단계의 훈련과정에서 사용한 표현자와 반드시 동일한 표현자를 사용한다.
이어 기계학습 검증용 펩타이드 집합으로 펩타이드 서열에 대한 아미노산 표현자 값을 입력값으로 사용하고, M 세포 표적 여부를 예측하기 위하여 상기 S14단계에서 획득한 M 세포 표적형 펩타이드 예측 모델을 획득한다(S23단계).
그 후 기계학습 검증용 집합을 이용하여 M 세포 표적 여부에 대한 예측값을 획득하고 이를 이용하여 상기 S23단계에서 획득한 M 세포 표적형 펩타이드 예측 모델을 검증하고 그 결과를 하기 표 3에 나타냈다(S24단계).
상기 S22단계에서 표현자를 20자리 바이너리 아미노산 표현자로 사용하여 기계학습 모델을 훈련하여 상기 S24단계를 실행하고 그 결과를 하기 표 3에 나타냈다. 피드 포워드 신경망의 입력값 순서를 임의로 변경하여 검증을 3번 실시한 결과 펩타이드 길이 3에 대한 반응자 작용 특성 점수가 훈련용 집합이 0.8678 ±0.0062, 검증용 집합이 0.8609 ±0.0122이 되었다.
M 세포 표적 예측 모델의 검증결과
펩타이드 서열 길이 반응자 작용특성 점수(ROC score)
훈련용(80%) 검증용(20%)
3 0.8678 ±0.0062 0.8609 ±0.0122
4 0.7644 ±0.0025 0.7020 ±0.0155
5 0.7984 ±0.0110 0.7544 ±0.0172
6 0.8571 ±0.0048 0.7248 ±0.0132
7 0.9314 ±0,0101 0.6871 ±0.0064
상기 S22단계에서 표현자를 VHSE 아미노산 표현자로 사용하여 기계학습 모델을 훈련하여 상기 S24단계를 실행하고 그 결과를 하기 표 4에 나타냈다. 피드 포워드신경망의 입력값 순서를 임의로 변경하여 검증을 3번 실시한 결과 펩타이드 길이 3에 대한 반응자 작용 특성 점수가 훈련용 집합이 0.8177 ±0.0079, 검증용 집합이 0.7974 ±0.0187로 되었다.
M 세포 표적 예측 모델의 검증결과
펩타이드 서열 길이 반응자 작용특성 점수(ROC score)
훈련용(80%) 검증용(20%)
3 0.8177 ±0.0079 0.7974 ±0.0187
4 0.7309 ±0.0154 0.7064 ±0.0083
5 0.8067 ±0.0027 0.7449 ±0.0193
6 0.8067 ±0.0027 0.7433 ±0.0205
7 0.8536 ±0,0057 0.6710 ±0.0464
이와 같은 실시예를 통하여 펩타이드 서열에 대해 입력층, 은닉층, 출력층으로 구성된 피드 포워드 인공 신경망 모델이 실제 M 세포 표적 펩타이드와 M 세포 비표적 펩타이드를 구별하였음을 알 수 있다.
도 3은 본 발명 기계학습법을 이용한 새로운 펩타이드 서열의 M 세포 표적 예측방법의 일실시예를 도시한 순서도로서, 먼저 입력수단(20)을 통해 M 세포 표적을 알고자 하는 펩타이드 서열을 입력하여 프로그램 기록매체(11)에 저장한다(S101단계).
다음에 입력된 펩타이드 개별 서열을 도 2의 과정을 통하여 훈련된 예측 모델(S23단계)에서 요구하는 표현자 값으로 변환한다(S102단계).
그 후 훈련된 예측 모델(S23단계)로 구성된 M 세포 표적 예측 모델에 적용한다(S103단계).
M 세포 표적 여부를 알고자 사용자가 입력한 새로운 펩타이드 서열의 M 세포 표적 여부를 출력한다(S104단계).
도 4는 본 발명에 따른 M 세포 표적 예측 모델을 재훈련하는 방법을 나타낸 순서도로서, 우선 M 세포 표적 여부 활성값을 실험기법으로 획득한 새로운 특정 M 세포 표적 펩타이드 서열 및 M 세포 비표적 펩타이드 서열을 입력수단(20)을 통해 프로그램 기록매체(11)에 저장한다(S201단계).
이어 상기한 도 2의 S3단계 ~ S5단계 및 S10단계, S20단계를 수행하여 기계학습 모델을 훈련한 다음 이를 검증하고 기존의 기계학습 모델과의 비교값을 자동화 하여 실행한다(S210단계). 먼저 새로이 입력된 펩타이드 서열이 이미 지정되어 있는 서열과 동일한 것인지를 판명한 후 이들 서열을 활성값에 따라 M 세포 표적 펩타이드 집합과 M 세포 비표적 펩타이드 집합에 추가하여 저장한다(S211단계).
다음에 기존에 저장되어 있는 펩타이드 서열에 새로이 입력된 펩타이드 서열을 추가하여 상기한 도 2의 S3단계의 기계학습 훈련을 위하여 펩타이드 서열 집합을 분류하고, S4단계의 기계학습 훈련용 펩타이드 집합을 획득하며, S5단계의 기계학습 검증용 펩타이드 집합을 획득하고, S10단계의 기계학습법을 이용하여 M 세포 표적형 펩타이드 예측 모델을 훈련하여 획득하며, S20단계의 기계학습법을 이용하여 M 세포 표적형 펩타이드 예측 모델을 검증한다(S212단계).
그 후 기존에 저장되어 있는 M 세포 표적형 펩타이드 예측 모델의 반응자 작용특성 점수와 상기 S212단계에서 획득한 M 세포 표적형 펩타이드 예측 모델의 반응자 작용특성 점수를 비교한다(S213단계).
이어 상기 S213단계에서 계산된 반응자 작용특성 점수를 사용자에게 출력하며 이를 근거로 사용자가 새로이 훈련된 M 세포 표적형 펩타이드 예측 모델을 저장한다(S202단계).
이와 같이 함으로써 사용자가 실험을 통해 새로 획득한 M 세포 표적 펩타이드 서열을 이용하여 수학적 모델 기반의 예측 모델을 재훈련하고 검증할 수 있다.
지금까지 바람직한 실시예로서 본 발명을 설명하였지만 본 발명은 이에 한정되지 않고 발명의 요지를 이탈하지 않는 범위 내에서 다양하게 변형하여 실시할 수 있음은 물론이다.
상기한 바와 같이 본 발명에 의하면, 경구용 백신으로 이용하고자 하는 기존의 단백질계 약물 및 백신이 가지고 있는 낮은 운송효율을 개선하기 위한 M 세포 표적 물질로서의 펩타이드 서열에 대한 M 세포 표적 여부를 항상 실험으로 확인하지 않고 프로그램을 저장한 기록매체를 이용하여 미리 예측함으로써 실험으로 소요되는 비용과 시간을 절감할 수 있는 각별한 장점이 있다.

Claims (15)

  1. 프로그램 기록매체(11)와 CPU(12) 및 입출력부(13)로 이루어진 마이크로컴퓨터(10)와; 입력수단(12) 및; 출력수단(13)으로 이루어짐을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측 시스템.
  2. 제 1항에 있어서, 상기 프로그램 기록매체(11)가 사용자가 M 세포 표적 여부를 알고자 하는 펩타이드 서열을 입력하면 이를 아미노산 표현자로 변환하는 프로그램과, 훈련된 수학적 모델을 사용하여 M 세포 표적 여부를 예측하는 프로그램을 포함하고, 사용자가 실험기법으로 M 세포 표적 여부 활성값을 획득한 새로운 M 세포 표적 펩타이드 서열을 추가하면, 이를 원래의 M 세포 표적 펩타이드 집합에 추가한 다음 분류하는 프로그램과, 추가된 펩타이드에 표현자 값과 활성값을 부여하는 프로그램과, 훈련용 펩타이드 집합을 이용하여 수학적 모델로 훈련하는 프로그램과, 검증용 펩타이드 집합에 대해 M 세포 표적 여부를 예측할 수 있도록 하는 프로그램과, 훈련된 수학적 모델에 대해 검증하는 프로그램을 포함하는 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측 시스템.
  3. 실험기법을 이용하여 M 세포를 표적하는 펩타이드 서열의 표본을 획득하는 단계와; 이들 서열을 근거로 M 세포를 표적하지 않는 펩타이드의 서열의 표본을 획득하는 단계와; 상기 획득한 표본 각각을 집합으로 저장한 후 이들을 일정한 비율 이 되도록 임의로 추출하여 수학적 모델 훈련용 집합과 수학적 모델 검증용 집합으로 분류하는 단계와; 개별 펩타이드 서열에 표현자 값과 활성값을 부여하는 단계와; 훈련용 펩타이드 집합과 수학적 모델을 이용하여 훈련하는 단계와; 훈련된 수학적 모델을 이용하여 검증용 펩타이드 집합에 대해 M 세포 표적 여부를 예측하는 단계와; 훈련된 수학적 모델을 검증하는 단계로 이루어지는 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
  4. 제 3항에 있어서, 상기 수학적 모델은 회귀분석법, 기계학습법, 유전자 알고리즘을 이용한 다중 회귀분석법, 유전자 알고리즘을 이용한 편최소제곱법, 주성분 분석을 활용한 편최소제곱법, 주성분 분석을 활용한 다중 회귀분석법을 포함하는 정량적 구조-특성 상관관계 방법인 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
  5. 제 4항에 있어서, 상기 기계학습법은 신경망, 데이터마이닝, 의사결정트리, 귀납논리, 사례기반 추론, 패턴 인식, 강화학습, 베이지안 망, 은닉마코프 모델, 확률 문법 방법인 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
  6. 제 4항에 있어서, 상기 기계학습법은 신경망 기법인 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
  7. 제 3항에 있어서, 상기 표현자 값이 분자구조, 아미노산, 펩타이드를 정량적으로 나타낸 것임을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포표적 예측방법.
  8. 제 7항에 있어서, 상기 표현자 값이 바이너리 아미노산 표현자, VHSE 아미노산 표현자, Z3 아미노산 표현자, Z5 아미노산 표현자 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
  9. 제 3항에 있어서, 상기 수학적 모델을 구축하기 위해 수집되는 데이터가 in vivo, ex vivo , in vitro 실험 중 적어도 어느 하나로부터 얻은 데이터인 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
  10. 제 3항에 있어서, 상기 수학적 모델을 구축하기 위해 수집되는 데이터가 파지 디스플레이 실험 기법을 이용한 in vivo , ex vivo , in vitro 실험 중 적어도 어느 하나로부터 얻은 데이터인 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
  11. 제 3항에 있어서, 상기 펩타이드 서열이 2 ~ 12개의 펩타이드로 이루어진 서 열인 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
  12. 제 3항에 있어서, 상기 펩타이드 서열이 3 ~ 7개의 펩타이드로 이루어진 서
    열인 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
  13. 펩타이드 서열의 M 세포 표적 예측방법을 적용하는 종이 포유류인 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
  14. 펩타이드 서열의 M 세포 표적 예측방법을 적용하는 종이 사람인 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
  15. 실험 기법을 이용하여 M 세포를 표적하는 펩타이드 서열의 표본을 획득하는 프로세스와; 이들 서열을 근거로 M 세포를 표적하지 않는 펩타이드 서열의 표본을 획득하는 프로세스와; 상기 획득한 표본 각각을 집합으로 저장한 후 이들을 일정한 비율이 되도록 임의로 추출하여 수학적 모델 훈련용 집합과 수학적 모델 검증용 집합으로 분류하는 프로세스와; 개별 펩타이드 서열에 표현자 값과 활성값을 부여하는 프로세스와; 훈련용 펩타이드 집합과 수학적 모델을 이용하여 훈련하는 프로세스와; 훈련된 수학적 모델을 이용하여 검증용 펩타이드 집합에 대해 M 세포 표적 여부를 예측하는 프로세스와; 훈련된 수학적 모델을 검증하는 프로세스를 포함하는 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측 프로그램을 저장한 기록매체.
KR1020070008483A 2006-11-03 2007-01-26 수학적 모델을 이용한 펩타이드 서열의 엠 세포 표적 예측시스템 및 방법과 그 프로그램을 저장한 기록매체 KR100904220B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020070008483A KR100904220B1 (ko) 2007-01-26 2007-01-26 수학적 모델을 이용한 펩타이드 서열의 엠 세포 표적 예측시스템 및 방법과 그 프로그램을 저장한 기록매체
PCT/KR2007/002568 WO2008054052A1 (en) 2006-11-03 2007-05-28 System, method and program for pharmacokinetic parameter prediction of peptide sequence by mathematical model
US12/513,279 US20100121791A1 (en) 2006-11-03 2007-05-28 System, method and program for pharmacokinetic parameter prediction of peptide sequence by mathematical model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070008483A KR100904220B1 (ko) 2007-01-26 2007-01-26 수학적 모델을 이용한 펩타이드 서열의 엠 세포 표적 예측시스템 및 방법과 그 프로그램을 저장한 기록매체

Publications (2)

Publication Number Publication Date
KR20080086563A true KR20080086563A (ko) 2008-09-26
KR100904220B1 KR100904220B1 (ko) 2009-06-25

Family

ID=40025742

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070008483A KR100904220B1 (ko) 2006-11-03 2007-01-26 수학적 모델을 이용한 펩타이드 서열의 엠 세포 표적 예측시스템 및 방법과 그 프로그램을 저장한 기록매체

Country Status (1)

Country Link
KR (1) KR100904220B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210110226A (ko) * 2020-02-28 2021-09-07 주식회사 베르티스 펩타이드 특성 학습 기반 액체 크로마토그래프 질량 분석에서 펩타이드 생성이온의 스펙트럼 양상을 예측하는 시스템

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040055521A (ko) * 2002-12-21 2004-06-26 한국전자통신연구원 단백질의 기능을 예측하는 시스템 및 방법
KR20030036364A (ko) * 2003-03-14 2003-05-09 주식회사 넷플랫 모듈화 컴퓨터 구조
KR100546779B1 (ko) * 2003-12-24 2006-01-25 한국전자통신연구원 미지 단백질의 구조를 예측하기 위한 방법 및 장치
KR20060098657A (ko) * 2005-03-03 2006-09-19 한국과학기술연구원 생화학 경로의 모델링과 시뮬레이션 방법 및 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210110226A (ko) * 2020-02-28 2021-09-07 주식회사 베르티스 펩타이드 특성 학습 기반 액체 크로마토그래프 질량 분석에서 펩타이드 생성이온의 스펙트럼 양상을 예측하는 시스템

Also Published As

Publication number Publication date
KR100904220B1 (ko) 2009-06-25

Similar Documents

Publication Publication Date Title
Wang et al. Scalable live-attenuated SARS-CoV-2 vaccine candidate demonstrates preclinical safety and efficacy
Vanaja et al. Bacterial outer membrane vesicles mediate cytosolic localization of LPS and caspase-11 activation
Lo Vigilance or subversion? Constitutive and inducible M cells in mucosal tissues
Kraus et al. Intranasal delivery of SARS-CoV-2 spike protein is sufficient to cause olfactory damage, inflammation and olfactory dysfunction in zebrafish
CN106243219A (zh) 一种猪源性抗猪流行性腹泻病毒的单链抗体及其制备方法
Jiao et al. Rhubarb supplementation promotes intestinal mucosal innate immune homeostasis through modulating intestinal epithelial microbiota in goat kids
Leon et al. Host gene expression profiles in ferrets infected with genetically distinct henipavirus strains
CN114026645A (zh) 会聚抗体特异性序列模式的鉴定
KR100904220B1 (ko) 수학적 모델을 이용한 펩타이드 서열의 엠 세포 표적 예측시스템 및 방법과 그 프로그램을 저장한 기록매체
Sundar et al. An agent-based model to investigate microbial initiation of Alzheimer’s via the olfactory system
Keet et al. The year in food allergy
Hibbitts et al. In vitro and in vivo assessment of PEGylated PEI for anti-IL-8/CxCL-1 siRNA delivery to the lungs
Giese Introduction to molecular vaccinology
CN106008710A (zh) 一种猪源性抗产肠毒素大肠杆菌K88 FaeG蛋白的单链抗体及其制备方法
De Nardo et al. Contribution of astrocytes and macrophage migration inhibitory factor to immune-mediated canine encephalitis caused by the distemper virus
Kenngott et al. Identification of targeting peptides for mucosal delivery in sheep and mice
Davydova et al. The interleukine-17 cytokine family: role in development and progression of spondyloarthritis, current and potential therapeutic inhibitors
JP6665274B2 (ja) 標的分子に結合するポリペプチドの決定方法及び決定システム
Zhang et al. Impact of aging on distribution of IgA+ and IgG+ cells in aggregated lymphoid nodules area in abomasum of Bactrian camels (Camelus bactrianus)
Zahid et al. Cardiomyocyte-Targeting Peptide to Deliver Amiodarone
JPWO2021096980A5 (ko)
WO2008054052A1 (en) System, method and program for pharmacokinetic parameter prediction of peptide sequence by mathematical model
Vladyko et al. A Review on Xenobiotics: The Impact of SARS-CoV-2 on the Evolutionary Development of Human
Liu et al. Using Neural Networks to Identify Features Associated with HIV Nef Protein and Cancer
García-Magro et al. Microglia and inhibitory circuitry in the medullary dorsal horn: Laminar and time-dependent changes in a trigeminal model of neuropathic pain

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee