KR20070020215A - 치료학적 잠재성을 가진 어드헤신과 어드헤신계 단백질을동정하기 위한 연산 처리 방법 - Google Patents

치료학적 잠재성을 가진 어드헤신과 어드헤신계 단백질을동정하기 위한 연산 처리 방법 Download PDF

Info

Publication number
KR20070020215A
KR20070020215A KR1020067018206A KR20067018206A KR20070020215A KR 20070020215 A KR20070020215 A KR 20070020215A KR 1020067018206 A KR1020067018206 A KR 1020067018206A KR 20067018206 A KR20067018206 A KR 20067018206A KR 20070020215 A KR20070020215 A KR 20070020215A
Authority
KR
South Korea
Prior art keywords
adhesin
protein
proteins
layer
sequence
Prior art date
Application number
KR1020067018206A
Other languages
English (en)
Other versions
KR101178776B1 (ko
Inventor
가우라브 사크데바
카우살 쿠마르
프레티 제인
사미르 쿠마르 브라마차리
스리니바산 라마찬드란
Original Assignee
카운슬 오브 사이언티픽 앤드 인더스트리얼 리서치
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 카운슬 오브 사이언티픽 앤드 인더스트리얼 리서치 filed Critical 카운슬 오브 사이언티픽 앤드 인더스트리얼 리서치
Publication of KR20070020215A publication Critical patent/KR20070020215A/ko
Application granted granted Critical
Publication of KR101178776B1 publication Critical patent/KR101178776B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/195Assays involving biological materials from specific organisms or of a specific nature from bacteria
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S128/00Surgery
    • Y10S128/92Computer assisted medical diagnostics
    • Y10S128/925Neural network

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Urology & Nephrology (AREA)
  • Biomedical Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Hematology (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)

Abstract

본 발명은 신경 회로망 소프트웨어의 서열을 기초로한 특성들, (i) 아미노산 빈도, (ii) 다중체 빈도, (iii) 디펩티드 빈도, (iv) 전하 구성 및 (v) 소수성 구성을 연산처리하는 단계, 처리한 5가지의 특정 각각에 대한 인공 신경 회로망(ANN)를 훈련하는 단계, 및 어드헤신 및 어드헤신일 가능성(Pad)이 >0.51인 어드헤신계 단백질을 동정하는 방법을 포함하는, 어드헤신(adhesin)과 어드헤신계 단백질을 동정하기 위한 연산 방법, 상기 방법을 수행하기 위한 컴퓨터 시스템, 및 어드헤신과 어드헤신계 단백질을 코딩하는 유전자 및 단백질에 관한 것이다.
인공 신경 회로망, 단백질 동정

Description

치료학적 잠재성을 가진 어드헤신과 어드헤신계 단백질을 동정하기 위한 연산 처리 방법{COMPUTATIONAL METHOD FOR IDENTIFYING ADHESIN AND ADHESIN-LIKE PROTEINS OF THERAPEUTIC POTENTIAL}
본 발명은 어드헤신 및 어드헤신계 단백질의 동정 방법, 상기 방법을 수행하기 위한 컴퓨터 시스템, 및 어드헤신과 어드헤신계 단백질을 코딩하는 유전자 및 단백질에 관한 것이다.
게놈 서열분석 프로젝트로 다양한 유기체로부터 흥미로운 다수의 단백질 서열이 밝혀졌다. 인간 감염성 병원균에서 유래된 단백질의 완전한 세트에 대한 정보를 이용할 수 있다면 이를 제거하기 위한 새로운 분자적 접근법을 개발할 수 있을 것이다. 미생물 병원균에 의한 성공적인 집락화(colonization)와 이후의 질병 전파에 필수적인 단계는 숙주 세포에 부착하는 능력이다.
미생물 병원균은 성공적인 집락화를 위해 어드헤신(adhesin)이라고 알려진 숙주세포의 표면 수용체, 막 또는 세포외 기질에 대한 부착성을 매개하는 여러가지 단백질을 코딩하고 있다. 과거 수년간 숙주-병원체간의 일차 상호작용 형성에 대한 연구를 통해, 다양한 병원성 미생물에서 광범위한 다수의 어드헤신이 밝혀졌다. 최근에는, 어드헤신의 생합성에 대한 실질적인 정보를 이용할 수 있으며, 어드헤신 인자를 조절할 수 있다. 가장 잘 연구된 세균의 부착 기작들중 한가지는 필리(pili)나 핌브리어(fimbriae) 매개 부착이다. 또한, 수종의 어핌브리어 어드헤신(afimbrial adhesin)이 보고되었다. 또한, 표적 숙주의 수용체에 대해 한정적인 정보가 알려지고 있다(Finlay, B. B. and Falkow, S 1997).
새로운 백신의 개발 방법은 집락화 과정을 방지하기 위하여 어드헤신에 집중되고 있다(Wizemann, et al 1999). 그러나, 특정 어드헤신의 특이적인 기능을 밝히긴 어렵다. 따라서, 어드헤신이나 어드헤신계 단백질을 예측하고, 그것의 기능을 특정화함으로써, 숙주와 병원체간의 상호작용에 대한 분자적 기작을 해독하고, 뿐만 아니라 적합한 실험 모델 시스템에서 테스트 가능한 새로운 백신 제형의 개발을 도울 수 있을 것이다.
가장 연구가 잘된 세균의 부착성에 대한 기작들중 한가지는 필리나 또는 핌브리어에 의한 부착이다. 예를 들면, 대장균(E. coli)의 FimH 및 PapG 어드헤신이 있다(Maurer, L., Orndorff, P. (1987), Bock, K., et al. (1985)). 필리 그룹의 어드헤신의 다른 예로는, 슈도모나스 에어루지노사(Pseudomonas aertigitiosa), 네이세리아 종(Neisseria species), 모락셀라 종(Moraxella species), 장관병원성 대장균(E. coli) 및 비브리오 콜레아(Vibrio cholerae)의 타입 IV 필리가 있다(Sperandio V et al (1996)).
여러가지 어핌프리얼 어드헤신으로는, 헤모필러스 인플루엔자(Haemophilus influenzae)의 HMW 단백질(van Schilfgaarde 2000), 보르데텔라 퍼튜시스(Bordetella pertussis)의 필라멘트형의 헤마글루틴, 퍼탁 틴(pertactin)(Bassinet et al 2000), 헬리코박터 필로리의 BabA(Yu J et al 2002) 및 예르시니아 엔테로콜리티카(Yersinia enterocolitica)의 YadA 어드헤신(Neubauer et al 2000)이 있다. 다른 어드헤신의 타입으로는, 장관병원성 E. coli (EPEC)의 인티민 수용체 단백질(intimin receptor protein, Tir)이 있다(Ide T et al 2003). 그외 어드헤신 클래스로는, 클렙셀라 뉴모니아(Kleibsella pneumoniae)의 MrkD 단백질, 헤모필러스 인플루엔자의 Hia(St Geme et al 2000), 스트렙토코커스 뮤탄스(Streptococcus mutans)의 Ag I/II, 스트렙토코커스 고르도니(Streptococcus gordonii)의 SspA, SspB(Egland et al 2001), 스타필로코커스 아우레우스(Staplzylococcus aureus)의 FnbA, FnbB, 스트렙토코커스 피오게네스(Streptococcus pyogenes)의 SfbI, 단백질 F, 스트렙토코커스 뉴모니아의 PsaA(De et al 2003)가 있다.
백신으로 승인받은 어드헤신의 공지된 예로는, FHA 및 퍼탁틴을 포함하는 백일해의 원인균인 보르데텔라 퍼튜시스에 대한 무세포성 백일해 백신이 있다(Halperin, S et al 2003). FimH의 예방접종을 통한 병원성 대장균(E. coli)에 대한 방어 면역성은 평가중에 있으며(Langermann S et al 2000), 스트렙토코커스 뉴모니아의 PasA는 폐구균성 질환에 대해 가능성 있는 백신 후보물질로 평가받고 있다(Rapola, S et al 2003). BabA 어드헤신에 의한 면역화로, 헬리코박터 필로리에 대한 백신 개발 가능성이 입증된 상태이다(Prinz, C et al 2003). 합성 펩티드 서열인 항-어드헤신 백신 역시 슈도모나스 에어루지노사(Pseudomonas aeruginosa) 감염증에 대한 예방성에 대해 평가중에 있다.
통상적인 실험 방법으로 어드헤신과 어드헤신계 단백질을 스크리닝하는 작업은 어렵고, 많은 시간이 소요되고, 비용도 많이 드는 작업이다. 이의 대안으로서, 상동성 검색으로 용이하게 어드헤신을 동정할 수 있다. 그러나, 이러한 방법은 게놈 구성(Wolf et al 2001)과 대사 경로의 분석(Peregrin-Alvarez et al 2003, Rison et al 2002)에 유용한 것으로, 상동체가 기능적으로 특정화되지 않았거나, 서열 다양성이 높은 경우에는, 기능을 예측하기에는 다소 제한적이다. 이러한 방법을 토대로 단백질의 기능적 역할을 지정하는 것은, 예측한 단백질의 서열들의 약 60%에만 해당되었다(Fraser et al 2000). 따라서, 본 발명자들은 광범위한 계통 발생적 스펙트럼에 속하는 종들에서 어드헤신과 어드헤신계 단백질을 동정하기 위해, 인공 신경 회로망의 저력과 결부시킨 서열의 구성적 특징을 토대로한 비상동적 방법의 개발 가능성을 조사하였다.
20년 전에, 니시카와 등은 구성적 분석을 기초로 단백질을 여러가지 그룹으로 분류하고자 하는 초기 시도를 일부 수행한 바 있다(Nishikawa et al 1983). 기존의 정렬 방식으로 유의성 있는 유사 서열을 동정하는 실패하여, 최근들어, 단백질 서열을 분석하기 위한 목적으로 소프트웨어 프로프서치(PropSearch)가 개발되었다(Hobohm, U. and Sander, C 1995). 프로프서치는 새로운 서열과 데이타베이스의 서열간의 기능적 관련성이나 구조적 관련 가능성을 검출하기 위하여, 단백질 서열의 144가지의 구성적 특징들을 이용한다. 근래, 단백질의 구성적 특성들을 이용하여 세균에서의 분비 단백질을 예측하고, 인공 신경 회로망에서 훈련하여 플라스모듐 팔시파룸(Plasmodium falciparum)에서 에피코플라스트(apicoplast)으로 표적화 된 단백질을 추정하기 위한 소프트웨어를 개발해 오고 있다(Zuegge et al 2001).
Zuegge 등은 20가지의 아미노산의 구성적 특징을 이용하였다. 이들의 목적은 플라스모듐 팔시파룸에서 에피코플라스트로 표적화된 단백질의 특징들을 밝히는 것이다. 이러한 방법은 숙주-병원체간의 상호작용에 참여하는 어드헤신과 어드헤신계 단백질에 촛점을 맞춘 소프트웨어 SPAAN과는 대비된다.
Hobohm과 Sander는 아미노산의 등전위점 및 디펩티드 구성을 포함한 144가지의 구성적 특징들을 사용하여, BLAST와 FASTA와 같은 방법을 기초로한 다른 서열 정렬에 의한 분석법으로는 다루기 어려운 단백질의 추정의 기능적 역할을 가정하였다. Hobohm과 Sander는 SPAAN에서 다룬 어드헤신과 어드헤신계 단백질에 대해선 특별히 논의하지 않았다. 니시카와 등은 최초로 단백질들을 여러가지 기능 그룹으로 분류하고자 시도하였다. 이는 호기심에서 시작된 시도였지만 궁극적으로 세포외 단백질을 세포내 단백질과 구별하기 위한 소프트웨어 개발로 이어졌다. 이러한 작업 역시 SPAAN에서 다룬 어드헤신과 어드헤신계 단백질에 대해선 다루지 않았다.
따라서, 전술한 어느 연구 그룹들도 본 발명의 방법을 생각하지 못하였다. 본 발명의 방법은 새로운 단백질과 이의 유전자 서열을 제공한다.
어드헤신과 어드헤신계 단백질은 숙주-병원체간의 상호작용을 매개한다. 이는 미생물 병원체에 의한 숙주내 집락화에 첫 단계이다. 세계적으로 병원체에서 유래된 어드헤신 단백질을 포함하는 백신 제형의 제작에 집중적으로 시도하고 있다. 면역화가 이루어지면, 숙주는 병원체의 어드헤신에 대한 면역 시스템을 가지게 된다. 병원체와 실제 마주치게 되면, 감시 메카니즘이 이 어드헤신을 인지하고 항원-항체 결합으로 결합한 다음 보체 매개의 일련의 반응과 그외 관련 소거 메카니즘을 통해 병원체를 중화시킨다. 이러한 전략은 백일해에서 성공적으로 적용되고 있으며, 폐렴, 위궤양 및 요도관 감염증의 사례들에서 활발히 수행되고 있다.
발명의 목적
본 발명은 치료학적으로 잠재성을 지닌 어드헤신과 어드헤신계 단백질을 동정하기 위한 연산 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 여러가지 병원체에서 독특한 구성적 특징을 가진 단백질을 추정의 어드헤신으로서 스크리닝하는 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 예방학적 치료제로서 유용한 추정의 어드헤신 단백질을 코딩하는 유전자의 서열 용도를 제공하는 것을 목적으로 한다.
발명의 개요
본 발명은 소프트웨어 SPAAN의 5가지의 속성 모듈(attribute module), 즉 (i) 아미노산 빈도(amino acid frequency), (ii) 다중체 빈도(multiplet frequency), (iii) 디펩티드 빈도(dipeptide frequency), (iv) 전하 구성(charge composition) 및 (v) 소수성 구성(hydrophobic composition)을 이용하여 단백질의 서열을 토대로 특징들을 연산처리하는 단계, 처리한 5가지의 속성 각각에 대한 인공 신경 회로망을 훈련(training)하는 단계, 및 어드헤신과, 어드헤신일 확률(Pad)이 >0.51인 어드헤신계 단백질을 동정하는 단계를 포함하는 어드헤신 및 어드헤신계 단백질을 동정하기 위한 연산 방법, 상기 방법을 수행하기 위한 컴퓨터 시스템, 및 어드헤신과 어드헤신계 단백질을 코딩하는 유전자 및 단백질에 관한 것이다.
본 발명의 일예에서, 어드헤신 및 어드헤신계 단백질을 동정하기 위한 연산 방법은,
a. 신경 회로망 소프트웨어의 5가지 속성 모듈을 이용하여 단백질 서열의 서열 속성을 연산처리하는 단계로, 상기 속성은 소프트웨어의 (i) 아미노산 빈도, (ii) 다중체 빈도, (iii) 디펩티드 빈도, (iv) 전하 구성 및 (v) 소수성 구성인 단계,
b. 연산처리한 5가지 속성들 각각에 대해 인공 신경 회로망을 훈련하는 단계; 및
c. 어드헤신과, 어드헤신일 확률값(Pad)이 >0.51인 어드헤신계 단백질을 동정하는 단계를 포함한다.
본 발명에 따른 방법의 일예로, 단백질 서열은 병원체, 진핵생물 및 다세포성 유기체로부터 수득된다.
본 발명에 따른 방법의 일예로, 상기 단백질 서열은 대장균(E. coli ), 헤모필러스 인플루엔자(Haemophilus influenzae), 헬리코박터 필로리(Helicobacter pylori), 미코플라스마 뉴모니아(Mycoplasma pneumoniae), 미코박테리움 투베르쿨로시스(Mycobacterium tuberculosis), 리켓차 프로와제키(Rickettsiae prowazekii), 포르피로모나스 진저발리스(Porphyromonas gingivalis), 쉬겔라 플렉스네리(Shigella flexneri), 스트렙토코커스 뮤탄스(Streptococcus mutans), 스트렙토코커스 뉴모니아(Streptococcus pneumoniae), 네이세리아 메닌지티디스(Neisseria meningitides), 스트렙토코커스 피오게네스(Streptococcus pyogenes), 트레포네마 팔리듐(Treponema pallidum) 및 중증 급성 호흡기 증후군의 인간 코로나바이러스(Severe Acute Respiratory Syndrome associated human coronavirus, SARS)로 이루어진 군으로부터 선택된 병원체로부터 수득된다.
본 발명의 일예로, 상기 방법은 비-상동성 방법이다.
본 발명의 다른 예로, 상기 방법은 서열의 105가지 구성적 특징을 이용한 방법이다.
본 발명의 다른 예로, 상기 방법은 90% 이상의 민감성을 나타낸다.
본 발명의 다른 예로, 상기 방법은 100%의 특이성을 나타낸다.
본 발명의 다른 예로, 본 발명은 각각의 관련 유기체로부터 어드헤신을 동정하는 방법에 관한 것이다.
본 발명의 다른 예로, 본 발명은 입력층(input layer), 하나의 은닉층(hidden layer)과 출력층(output layer)을 포함하는, 다층의 순방향 토폴로지(multi-layer feed forward topology)를 가지는 신경 회로망에 관한 것이다.
본 발명의 다른 예로, 입력 층의 신경의 수는 각 속성에 대한 데이타 입력 점(point)의 수와 동일하다.
본 발명의 다른 예로 "Pad"는 5가지의 연산처리된 속성들에 대한 확률값들의 선형 가중 합(weighted linear sum)이다.
본 발명의 다른 예로, 각 연산처리한 회로망은 단백질 서열이 어드헤신일 확률값을 할당(assign)한다.
본 발명의 다른 예로, 본 발명에 따른 방법을 수행하기 위한 컴퓨터 시스템은 CPU(central processing unit), 디스플레이 및 사용자 인터페이스 장치(user interface device)를 포함하며, 상기 CPU는 인공 신경 회로망을 이용하여 여러가지 속성들을 기초로 확률을 제공하는 SPAAN 프로그램과, 상기 CPU에 의해 액세스(access)되는 기억 장치에 저장된 속성을 평가하는 프로그램을 실행하며, 상기 디스플레이 상에는, 사용자의 입력에 따라 상기 CPU가 실행하는 상기 프로그램들의 스크린이 표시되는 것을 특징으로 한다.
본 발명의 다른 예로, 본 발명은 서열번호 385 내지 658의 어드헤신 및 어드헤신계 단백질을 코딩하는 274개의 유전자의 세트에 관한 것이다.
본 발명의 다른 예로, 본 발명은 서열번호 659 내지 763의 어드헤신 및 어드헤신계 단백질을 코딩하는 가정의 105개의 유전자의 세트에 관한 것이다.
본 발명의 다른 예로, 본 발명은 서열번호 1 내지 279의 어드헤신 및 어드헤신계 단백질을 코딩하는 279개의 유전자의 세트에 관한 것이다.
본 발명의 다른 예로, 본 발명은 서열번호 280 내지 384의 어드헤신 및 어드헤신계 단백질을 코딩하는 가정의 105개의 유전자의 세트에 관한 것이다.
본 발명의 다른 예로, 본 발명은 또한 입력층, 은닉층 및 출력층이 이러한 기재 순서대로 연결되어 있는 연산처리 방법을 기초로하는 완전히 연결된 다층 순방향 인공 신경 회로망에 관한 것으로, 각 신경은 이진수(binary digit number)이며 어드헤신이나 어드헤신계 단백질을 동정하기 위해 후속 층의 각 신경과 연결되어 있으며, 그 프로그램은 a) FASTA 형식으로 단백질 서열을 입력하는 단계, b) 단백질 서열의 5가지 구성적 속성을 정량화하여 수치 입력 벡터(numerical input vector)의 합이 105인 속성들 각각에 대한 각각의 수치 입력 벡터를 구하기 위한 다중항(multiplet)에서, 상기 단계 a)의 서열을 A, C, D, H 및 M으로 명명한 5가지 모듈로 처리하는 단계로, 속성 A는 아미노산 조성이며, 속성 C는 전하 구성이며, 속성 D는 20개의 디펩티드(NG, RE, TN, NT, GT, TT, DE, ER, RR, RK, RI, AT, TS, IV, SG, GS, TG, GN, VI 및 HR)의 디펩티드 조성이며, 속성 H는 소수성 구성이며, 속성 M은 아미노산 빈도인 , 처리 단계, c) 시그널을 얻기 위해, 입력 신경 층에서 단계 b)에서 구한 수치 입력 벡터를 처리하는 단계로, 신경의 수는 각 속성에 대한 수치 입력 벡터의 수와 동일한, 처리 단계, d) 시냅스 가중 신호(synaptic weighted signal)을 구하기 위해 은닉층에서 단계 c)로부터 수득한 신호를 처리하는 단계로, 은닉층의 최적 신경의 수는 각 개별적인 회로망의 최적기에서 에러를 최소화하기 위한 실험을 통해 결정되는, 처리 단계, e) 각 회로망 모듈에 의해 단계 a)에서 입력한 각 단백질 서열이 어드헤신일 확률 값을 할당하기 위하여, 단계 d)의 시냅스 가중 신호를 출력층에 전달하는, 단계; f) 단백질 서열이 Pad 값으로 표시되는 어드헤신일 최종 확률을 연산하기 위해, 단계 e)의 개별적인 확률을 이용하는 단계로, Pad 값은 단계 e)에서의 개별적인 확률들의 가중 평균이고 예측 강도의 측정치인 관련 상관 비율(associated fraction of correlation)인, 단계를 포함한다.
본 발명의 다른 예로, 입력 신경 층은 105개의 구성적 특성에 해당되는 총 105개의 신경을 포함한다.
본 발명의 다른 예로, 은닉층은 아미노산 빈도에 대해 30개, 다중체 빈도에 대해 28개, 디펩티드 빈도에 대해 28개, 전하 구성에 대해 30개 및 소수성 구성에 대해 30개로 표시된 신경을 포함한다.
본 발명의 다른 예로, 출력층은 각 단백질 서열에 대한 확률 값으로서 출력값을 전달하기 위한 신경들을 포함한다.
신규한 어드헤신의 동정과 이들의 특정화는 숙주와 병원체간의 상호작용을 연구하고 새로운 백신 제형을 테스트하는데 중요하다. 본 발명자들은 단백질 서열의 105가지의 구성적 특징들을 이용하여 어드헤신 단백질을 동정할 수 있는 알고리즘 SPAAN(Software for Prediction of Adhesin and Adhesin-like proteins using Neural Networks)을 개발하기 위해 인공 신경 회로망을 사용하였다. SPAAN은 수종의 세균 종들과 균주들에서 매우 잘 특정화된 어드헤신을 정확하게 추정할 수 있었다. SPAAN은 훈련한 세트에 단백질을 포함하지 않는 테스트 데이타 세트에서 89%의 민감성과 100%의 특이성을 보였다. 상기 소프트웨어로 동정한 추정의 어드헤신은 잠재성있는 예방제로서 제공할 수 있다.
본 발명은 치료적 잠재력을 지닌 어드헤신과 어드헤신계 단백질을 동정하기 위한 새로운 연산처리 방법을 제공한다. 보다 상세하게는, 본 발명은 이러한 어드헤신에 대한 후보 유전자에 관한 것이다. 또한 본 발명은 예방적인 측면과 이들의 기능적 관련성에서의 후보 유전자와 이의 단백질 개발을 선도한다. 이러한 연산처리 방법에는 여러가지 서열 속성들의 계산과, 이후 여러가지 병원체에서 어드헤신 단백질 동정을 유도하는 분석을 수반한다. 따라서, 본 발명은 병원성 유기체에서 어드헤신 단백질의 동정에 유용하다. 여러가지 게놈으로부터 유래된 어드헤신 단백질은 표적화된 유전자 파괴, 마이크로어레이 및 프로테오믹스(proteomics)를 통한 기능적 특정화를 위한 후보물질을 구성한다. 또한, 이러한 단백질들은 예방제 개발에 있어서 추가적인 테스트를 위한 후보물질 세트를 구성한다. 또한, 어드헤신 후보 단백질을 코딩하는 유전자를 제공한다.
본 발명에 따른 방법은 이용한 원리 측면에서 신규하며, 힘들고 시간이 많이 소요되는 기존 방법에 비해 새로운 어드헤신을 동정하기 위한 신경 회로망의 저력을 제공한다. 본 발명에 따른 방법은 서열 정렬이 아닌 단백질들의 구성적 특징을 토대로 한다. 따라서, 이러한 방법은 광범위한 계통발생적 스펙트럼에 속하는 세균으로부터 어드헤신과 어드헤신계 단백질을 동정할 수 있다. 상기 방법에 의한 추정은 독립적인 분석 및 실험을 통해 용이하게 검증가능하다. 본 발명은 현재 전문 인력과 귀중한 시간 등의 필수요건 측면에서 많은 투자가 요구되는, 새로운 예방제 개발을 가속화시킬 수 있는 잠재력을 가지고 있다.
본 발명은 치료적 잠재성이 있는 어드헤신 후보 단백질을 동정하기 위한 연산처리 방법에 관한 것이다. 특히, 본 발명은 병원체의 다른 게놈들에서 어드헤신 단백질을 동정하기 위한 새로운 방법을 개시한다. 이러한 어드헤신 단백질은 예방제 개발에 이용할 수 있다.
따라서, 치료학적인 잠재성이 있는 어드헤신과 어드헤신계 단백질을 동정하기 위한 연산처리 방법은 5가지의 서열 속성들, 즉 아미노산 빈도, 다중체 빈도, 디펩티드 빈도, 전하 구성 및 소수성 구성들에 대해 1-5가지의 구성적 특징을 계산하는 단계 및 단백질의 어드헤신과 비-어드헤신 클래스를 구별하기 위한 특징들을 이용하여 인공 신경 회로망(ANN, Feed Forward Error Back Propagation)을 훈련시키는 단계를 포함한다. 이러한 연산처리 방법은, 쿼리(query) 단백질의 105가지의 구성적 속성을 정량화하는 단계 및 Pad 값(어드헤신일 확률)으로 이를 어드헤신 또는 비-어드헤신으로 정하는 단계를 포함한다. 본 발명은 병원성 유기체에서 어드헤신과 어드헤신계 단백의 동정에 유용하다. 새롭게 동정된 어드헤신과 어드헤신계 단백질들은 적합한 실험 모델 시스템에서 쉽게 테스트될 수 있는 새로운 예방제 개발을 위한 후보물질을 구성한다. 또한, 어드헤신 및 어드헤신계 후보 단백질을 코딩하는 유전자를 제공한다.
본 발명은 예방제로서 추가적으로 평가하기 위한 어드헤신 및 어드헤신계 후보 단백질과 이들의 코딩 유전자를 제공한다. 본 발명의 방법은 기능 도메인으로 분류된 서열 패턴 대신에 단백질 서열의 속성을 분석하는 것을 토대로한다. 이러한 방법은 서열 관련성에 대해선 거의 의존적이지 않으며, 따라서 관련성이 먼 유기체들로부터 어드헤신을 동정하는 잠재력을 제공한다. 본 발명은 인공 신경 회로망을 이용한 어드헤신 및 어드헤신계 단백질의 추정을 포함하는 연산처리 방법을 제공한다. 어드헤신으로 칭하는 단백질은 다양한 병원체에서 확률이 높은(Pad 0.51) 것으로 추정된 것으로 확인되었다. 일부 어드헤신 서열들은 항원성이거나 독성과 관련된 단백질과 동일하거나 상동인 것으로 확인되었다. 이러한 방법으로, 다양한 병원성 유기체에 의해 발생되는 질병을 없애기 위한 새로운 백신 제형의 개발시 추가적인 테스트하기 위한 단백질을 동정하여 최종 후보자로 올릴 수 있었다.
표 설명
표 1: SPAAN에 의한 출력 파일의 형식
표 2: 유기체 명칭, 접근 번호, 염기쌍 번호, 공개 일 및 총 단백질 수
표 3: SPAAM을 이용한 다양한 세균성 병원체로부터 매우 잘 특정화된 어드헤신의 추정
표 4: 몇종의 선별한 병원성 유기체의 게놈 스캔에서 SPAAN에 의한 추정 분석
표 5: 표 2에 나열된 게놈에서 SPAAN으로 추정한 새로운 추정 어드헤신의 GI 번호 및 유전자 식별번호(ID)
표 6: 표 2에 나열된 게놈에서 SPAAN으로 추정의 어드헤신으로 추정된 가정의 단백질의 GI 번호 및 유전자 식별번호(ID)
표 7: 세균에서 발견한 198개의 어드헤신 리스트
소프트웨어 프로그램은 C 언어로 작성되었고, 레드 햇 리눅스 8.0 운영 시스템(Red Hat Linux 8.0)에서 작동된다. 컴퓨터 프로그램은 FastA 포멧으로 입력 단백질 서열을 입수하고, 표 형식으로 결과(tabulated output)를 축력한다. 출력 표에는 5가지 모듈들의 각각에 대한 확률 값이 기재된 각 단백질 열, 5가지 모듈들의 가중 평균 확률(Pad)와 입력 서열 파일에서 개시된 단백질의 기능이 포함되어 있다. 이러한 소프트웨어를 SPAAN(A Software for Prediction of Adhesins and Adhesin-like proteins using Neural Networks)이라고 하며, 소프트웨어 저작권을 지불하였다. 이러한 소프트웨어는 다중 모듈을 가지지만, 이들 모듈들의 운용은 통합되고 자동화된다. 사용자는 단지 한가지 명령만 입력하면 된다.
AAcompo. c:
입력: Fasta 포맷의 단백질 서열 파일
출력: 단일 열에 각 단백질에 대한 20개 아미노산의 빈도를 나타낸 파일
charge. c:
입력: Fasta 포맷의 단백질 서열 파일
출력: 하전된 아미노산(R, K, E 및 D)의 빈도와 하전된 아미노산 위치의 모멘트(18차까지)
hdr. c:
입력: Fasta 포맷의 단백질 서열 파일
출력: 소수성과 5차까지의 위치 모멘트를 근거로 만든 5가지 그룹의 아미노산들의 빈도가 표시된 파일
multiplets. c:
입력: Fasta 포맷의 단백질 서열 파일
출력: 20개의 아미노간 각각의 다중체 비율(fractions of multiplet)이 표시된 파일
querydipep.c;
입력: Fasta 포맷의 단백질 서열 파일1.
디펩티드 분석에서 유의적인 디펩티드 리스트가 기재된 파일2.
출력: 입력 파일1.에서 각 단백질에 대한 입력 파일2.에 나열된 디펩티드의 빈도가 기재된 파일
train. c:
입력: 하기 사항이 기재된 파일
1. 입력 및 출력 매개변수의 수
2. 은닉층에서의 노드 수
3. 훈련(training), 검증 및 테스트 데이타 파일 수
4. 학습율(Learning rate), 모멘트 계수
5. 훈련을 위한 최대 사이클 수
출력: 출력은 다음과 같다.
1. 테스트 데이타 세트에 대한 훈련한 신경 회로망의 출력
2. 훈련된 신경 회로망에서 연결 가중치(weight connection) 값
3. 훈련에 대한 일부 기타 정보
recognize. c:
입력: 하기 사항이 기재된 파일
1. 입력 및 출력 매개변수의 수
2. 은닉층에서의 노드 수
3. 쿼리 입력 파일의 명칭
4. 훈련된 신경 회로망에 대한 연결 가중치(weight connection) 값을 포함하는 파일의 명칭
5. 출력 파일의 명칭
출력: 훈련된 신경 회로망에 의해 계산된 쿼리 입력값(query entries) 출력치
standard. c:
입력: Fasta 포맷의 단백질 서열 파일
출력: 서열내 제거된 부분이 줄로 표시된(ew line characters removed lying within a sequence) Fasta 포맷의 단백질 서열 파일
filter. c:
입력: Fasta 포맷의 단백질 서열 파일
출력: 20개의 기존 아미노산 이외의 다른 임의의 아미노산을 함유하며 길이가 짧은(< 50 아미노산) 것을 제외한 입력에서의 단백질 서열 파일
5가지 속성들:
아미노산 빈도
아미노산 빈도 fi = (i번째 아미노산의 수/1, i - 1...20, 1은 단백질의 길이이다.
다중체 빈도
다중체는 동질중합형 가닥(X)n으로 정의되며, X는 20가지 아미노산들중 어느 하나이고 n은 2보다 큰 정수이다. 모든 다중체를 확인한 후, 다중체내 아미노산의 빈도는 fi(m) = (다중체로 형성되는 i번째 아미노산의 수/1)로 연산처리된다.
디펩티드 빈도
디펩티드 빈도 (i, j) fij = (ij번째 디펩티드의 수)/(디펩티드의 총 수)이며, i, j는 1 내지 20이다.
단백질내 디펩티드 반복은 피브리노겐에 결합하는 스타필로코커스 아우레우스의 세포 표면에 존재하는 클럼핑 인자(clumping facto)의 기능적 발현에 중요한 것으로 확인되었다(Hartford et al 1999). 따라서, 본 발명자들은 디펩티드 빈도 모듈을 포함시켰다. 디펩티드의 총 수는 400이다. 신경 회로망의 최적 훈련을 위해, 연결 가중치의 총수에 대한 입력 벡터의 총수의 비는 과적합(over fitting)하지 않도록 약 2정도이어야 한다 (Andrea et at). 따라서, 본 발명자들은 t-테스트를 이용하여 어드헤신 데이타 세트(469개 단백질, 데이타베이스 구축 참조)에서 빈도가 비-어드헤신 데이타세트(703개의 단백질)의 빈도와 유의적으로 다른 펩티드를 동정하였다. t-테스트의 p-값 순으로 정렬하였을때 상위 20개의 디펩티드의 빈도를 신경 회로망에 입력하였다. 이들 디펩티드는 (단분자 IUPAC-IUB 코드를 이용하여) NG, RE, TN, NT, GT, TT, DE, ER, RR, RK, RI, AT, TS, IV, SG, GS, TG, GN, VI 및 HR이다. 2번째 층에 20개의 디펩티드와 28개의 신경에 대한 빈도 입력시, 총 연결 가중치는 588개이고, 이는 과접합하지 않아야한다는 기준을 만족시킨다.
전하 구성
하전된 아미노산(pH 7.2에서 측쇄가 이온화되는 것으로 생각되는 R, K, E 및 D)의 입력 빈도는 fc = (하전된 아미노산의 수)/1로 나타낸다. 나아가, 소정의 단백질 서열에서, 하전된 아미노산의 분포 특징 정보는 하전된 아미노산의 발생 위치 모메트를 연산처리하여 제공된다. 모멘트는 왜도(skewness)와 첨도(kurtosis, 피크의 날카로움(sharpness))와 같이 분포 패턴을 특정화하므로, 이를 이용하여 서열내 하전된 잔기의 분포 패턴을 나타내었다.
일정한 순서, 'i'의 모멘트를 계산하기 위한 일반식
Mr = 하전된 아미노산 위치의 r차 모멘트
Figure 112006064523145-PCT00001
상기 계산식에서,
Xm = 하전된 아미노산의 모든 위치의 평균
Xi = i번째 하전된 아미노산의 위치
N = 서열에서 하전된 아미노산의 수
2 내지 19차 모멘트를 이용하여 하전된 아미노산의 빈도와 단백질 길이와 더불어 총 20개의 입력값으로 구성된 ANN을 훈련하였다. 19차의 상한은 소규모의 어드헤신 및 비-어드헤신 데이타세트에서의 민감도 및 특이도 평가를 토대로 설정하였다. 19 보다 큰 차원의 모멘트는 성능 개선에 유용하지 않다.
소수성 구성
주어진 단백질 서열을 Brendel et al. (43)에 따른 아미노산의 소수성 수치로 디지칼 변환하였다. 아미노산의 5가지 군에 대한 수치는 (K, E, D, R의 경우 -8), (S, T, N, Q의 경우 -4), (P, H의 경우 -2), (A, G, Y, C, W의 경우 +1), (L, V, I, F, M의 경우 +2)이다.
아래 입력값은 그룹 각각에 대해 제공된다.
(a) fi = (i번 그룹의 수)/(단백질에서 총 수);i는 1 내지 5임
(b) mji = i번 그룹에서의 아미노산의 위치의 j차 모멘트; j는 2 내지 5임
단백질의 소수성 구성을 나타낸 총 25개의 입력값을 신경 회로망에 입력하였다. 모멘트를 이용하는 이론적 설명은 전하 구성 입력 부분에서 설명한 바와 동일하다.
소정의 단백질 서열의 총 105가지 구성적 특성을 모두 취하여, 이들의 어드헤신 특징들을 예측하였다.
소프트웨어 프로프서치는 신규 서열과 데이타베이스의 서열간의 구조적 또는 기능적 관련 가능성을 검사하기 위하여 단백질 서열에 대한 144개의 구성적 특성을 이용한다(Hobohm and Sander 1995). 이러한 방법은 하나 및 두 개의 아미노산 조성, 분자량, 등전위점(단백질 특성 검색 또는 프로프서치)와 같은 여러가지 구성적 특징들의 가중 합으로서 단백질 서열의 비유사성(또는 거리)을 정의한다. 또한, 단백질의 구성적 특정은 세균에서 분비성 단백질을 추정하고, 플라스모듐 팩시파럼에서 아피코플라스트로 표적화된 단백질을 추정하는데 사용되고 있다(Zuegge, et al. 2001). 사용한 방법은 통계적 방법, 기본적인 구성 분석(principal component analysis), 자가-조직성(self-organizing map) 맵 및 지도 신경 회로망(supervised neural network)이다. SPAAN에서, 5가지 모듈, 즉 아미노산 빈도, 다중성 빈도, 디펩티드 빈도, 전하 구성 및 소수성 구성에서 105가지의 구성적 특성을 사용하였다. SPAAN에서 사용한 총 105가지의 특성들중 아미노산 빈도에 대해선 20개, 다중성 빈도에 대해선 20개, 디펩디트 빈도에 대해선 20개(상위 20개의 유의적인 디펩티드를 t-테스트를 토대로 사용하였음), 전하 구성에 대해 20개(하전된 아미노산(R, K, E 및 D)의 빈도 및 2 내지 19차 모멘트), 및 소수성 구성에 대해선 25개(아미노산은 5가지 그룹으로 분류됨 (-8 for K, E, D, R), (-4 for S, T, N, Q), (-2 for P, H), (+1 for A, G, Y, C, W), (+2 for L, V, I, F, M))이다. 총 25 가지의 입력치는 다음으로 구성된다: 각 그룹의 빈도, 2 내지 5차의 각 그룹에서 아니노산의 위치 모멘트).
신경 회로망
순반향 오류 역전파 신경 회로망을 사용하였다. 프로그램은 Department of Computer Science, Colorado State University, Fort Collins, CO 80523, anderson@cs. colostate. edu의 Charles W. Anderson로부터 제공받았다.
신경 회로망 구조
사용한 신경 회로망은 다중층의 순방향 토폴로지이다. 이는 입력층, 하나의 은닉층과 출력층을 포함하고 있다. 이는, 각 신경 i가 다음번째 층의 각 유닛 j와 연결된 '완전히-연결된' 신경 회로망이다(도 1).
각 연결 가중치는 wij로 나타낸다. 입력층의 각 신경의 상태 Ii는 입력 데이타로부터 직접 할당되지만 은닉층의 신경 상태는 하기 시그모이드 함수(sigmoid function)에 의해 계산된다.
hj = 1/(1 + exp - (wjo + wijIi)),
상기 계산식에서, wjo는 바이어스 가중치(bias weight)이다.
연산한 출력값과 원하는 출력값간의 오차를 최소하하기 위해, 역전파 알고리즘을 사용하였다. 10000 사이클(epoch)을 반복 수행하였다. 이후, 오류가 최소화된 최상의 시기(epoch)를 동정하였다. 이 시점에서, 회로망은 훈련 세트에 주어진 입력에 대한 대락적인 표적 값을 만든다.
회로망은 선택적으로 각 속성에 대해 훈련된다. 따라서, 5개의 회로망을 제작하였다. 회로도(도 1)는 채택한 처리 절차를 도시한다. 입력 층에서의 신경의 수는 각 속성에 대한 데이타 입력 점의 수와 동일하다(예로, 아미노산 구성 속성의 20개의 입력 벡터에 대해 신경 20개). 은닉층의 신경의 최적 숫자는 각 회로망에 대한 최상의 시기에서 오류를 최소화하기 위한 실험을 통해 결정된다. 연결 가중치의 총수에서 상한은 기존에 제시된 바와 같이 과적합을 막기위해 입력 벡터의 총수의 절반으로 한다(Andrea et al).
개별적인 구성적 속성을 계산하기 위한 컴퓨터 프로그램은 C 언어로 작성되어 있으며, Red Hat 리눅스 버전 7.3 또는 8.0의 PC에서 운용된다. 회로망은 훈련 세트(raining set)에서 훈련시켜, 오류를 확인하고, 역전파를 통한 검증 세트(validate set)로 최적화하였다. 검증 세트는 훈련 세트와는 다르다. 잘 알려진 어드헤신의 수는 많지 않으므로, 본 발명자들은 예비 실행 평가를 위한 테스트 세트로서 '검증 세트'를 자체적으로 사용하였으며, 다음 장에서 설명한 가중 평균 확률(Pad 값)을 계산하여 관련성을 구하였다. 훈련 세트는 367종의 어드헤신과 580종의 비-어드헤신을 가지고 있다. 검증 세트는 102개의 어드헤신과 123개의 비-어드헤신을 가지고 있다. 어드헤신은 '1'을 할당하고, 비-어드헤신은 '0'을 할당하였다.
추정 과정중에, 회로망에 훈련 세트의 일부분이 아니었던 서열의 신규 데이타를 제공한다. 각 회로망은 주어진 서열이 어드헤신일 확률값을 할당한다. 최종 확률은 다음 장에 설명한 바와 같이 계산된다.
어드헤신일 확률, Pad
쿼리 단백질을 각 속성에 대해 훈련시킨 회로망을 통해 모듈로 처리된다. 따라서, 5가지의 확률 출력값이 얻어진다. 최종 예측은 5개의 모듈의 확률 값들의 가중 선형 합(weighted linear sum)인 아래 계산식으로 계산된다.
Figure 112006064523145-PCT00002
Pi = i 모듈에서의 확률,
fci = 훈련한 신경 회로망의 i 모듈의 상관성 정도(fraction of correlation of i module of the trained Neural Network)
상기에서, i = A(아미노산 빈도), C(전하 구성), D(디펩티드 빈도), H(소수성 구성) 또는 M(다중체 빈도)
상관성 정도 fci는, 예비 평가에서 사용한 테스트 세트상의 훈련시킨 회로망에 의해 정확하게 예측된(Pi , 어드헤신 > 0. 5 및 Pi ,비- 어드헤신 < 0.5) 총 엔트리 율(fraction of total entries)을 나타낸다(Charles Anderson).
신경 회로망
순방향 오류 역전파 신경 회로망을 사용하였다. 프로그램은 저자(Department of Computer Science, Colorado State University, Fort Collins, CO 80523, anderson@cs. colostate. edu의 Charles W. Anderson)의 동의하에 웹사이트에서 다운받았다.
통계 분석
모든 통계 과정은 마이크로소프트사의 엑셀(Microsoft Corporation Inc. USA)로 수행하였다.
서열 분석
상동성 분석은 CLUSTAL W(Thompson et al 1994), BLAST(Altschul et al 1990), CDD(conserved domain database) 검색(Marchler- Bauer et al 2002)으로 수행하였다.
미생물 병원체의 전체 게놈 서열은 진단제나 백신과 같은 임상 제품 개발에 새로운 기회를 제공한다. 본 발명은 기능적으로 예방제와 관련있는 후보 유전자 및 이로부터 코딩된 단백질 개발을 선도한다.
두 그룹, 즉 어드헤신 및 비-어드헤신의 단백질 서열은 기존 데이트베이스에서 다운받았다(National Centre for Biotechnology Information (NCBI), USA). 5가지의 서열 속성들, 즉 아미노산 구성, 다중체 구성, 디펩티드 구성, 전하 구성 및 소수성 구성하의 총 105가지 구성적 특성들을 C 언어로 작성된 컴퓨터 프로그램으로 계산하였다. 두가지 데이타베이스의 모든 단백질에 대한 속성들을 연산처리하였다. 서열을 기초로한 속성을 이후 이용하여 각 단백질 속성에 대해 인공 신경 회로망을 훈련시켰다. 어드헤신은 숫자 '1'로 할당하고, 비-어드헤신은 숫자 '0'으로 할당한다. 최종적으로, 각각의 훈련시킨 인공 신경망을 사용하여 병원체 감염에 대한 예방제 개발에 유용한 것으로 생각될 수 있는 잠재성이 있는 어드헤신을 동정하였다. 따라서, 본 발명은 치료적 잠재성이 있는 어드헤신 및 비-어드헤신계 단백질을 동정하는 연산 방법을 제공하며, 상기 방법은
1. 단백질 서열에 대해 공적으로 이용가능한 정보로부터 어드헤신 및 비-어드헤신 단백질의 두가지 종합적인 데이타-세트를 준비하는 단계;
2. 어드헤신 및 어드헤신계 단백질에 대해 신경 회로망(SPAAM)을 이용하여 특별히 개발한 소프트웨어를 이용함으로써, 공적으로 이용가능한 단백질 데이타 세트에서, 단백질 서열의 서열을 기초로한 속성들을 수치적으로 계산하는 단계;
3. 선택한 속성에 대한 인공 신경 회로망(ANN)을 훈련시키는 단계;
4. 어드헤신에 적합한 확률 값, "Pad"를 쿼리 단백질에 할당하여, SPAAN에 훈련한 인공 신경 회로망의 훈련을 보조하고 쿼리 단백질에서 어드헤신계 특성을 동정하는 단계;
5. 병원체의 게놈이 생화학적으로 특정화된 공지의 단백질 서열과 비교하여, 치료제로서 가능성이 있는 단백질 서열을 수치적으로 검증하는 단계를 포함한다.
본 발명의 예에서, 단백질 서열 데이타는 유기체들, 특히 대장균(E. coli), 헤모필러스 인플루엔자, 헬리코박터 필로리, 미코플라스마 뉴모니아, 미코박테리움 투베르쿨로시스, 리켓차 프로와제키, 포르피로모나스 진기발리스, 쉬겔라 플렉스네리, 스트렙토코커스 뮤탄스, 스트렙토코커스 뉴모니아, 네이세리아 메닌지티디스, 스트렙토코커스 피오게네스, 트레포네마 팔리듐, 급성 중중 호흡기 증후군의 코로나바이러스들로부터 취할 수 있으나, 이로 한정되는 것은 아니다.
본 발명의 다른 예는, 치료적 잠재성이 있는 단백질 동정에 사용된 여러가지 서열을 기초로한 속성으로는, 아미노산 구성, 전하 구성, 소수성 구성, 다중체 빈도 및 디펩티드 빈도를 포함한다.
일예로, 비-상동성 어드헤신 단백질 서열은 선택한 병원체에서 치료 제품의 공지 서열의 것과 비교할 수 있다.
본 발명의 예에서, 어드헤신 또는 어드헤신계 단백질의 서열은 본 발명의 방법으로 동정한 표 5 및 6에 기재된 서열 식별번호의 서열을 포함한다.
본 발명의 다른 예로, 컴퓨터 시스템은 CPU(central processing unit), 디스플레이 및 사용자 인터페이스 장치를 포함하며, 상기 CPU는 인공 신경 회로망을 이용하여 여러가지 속성들을 기초로 확률을 제공하는 SPAAN 프로그램과, 상기 CPU에 의해 액세스(access)되는 기억 장치에 저장된 속성을 평가하는 프로그램을 실행하며, 상기 디스플레이 상에는, 사용자의 입력에 따라 상기 CPU가 실행하는 상기 프로그램들의 스크린이 표시된다.
본 발명의 일예에서, 명칭, 균주, NCBI 데이타베이스의 접근 번호 및 그외 상세 사항들과 같은 유기체의 사항들은 표 2에 기재되어 있다.
도 1은 신경 회로망 구조이다.
도 2는 한정된 테스트 데이타 세트를 이용한 SPAAN 평가를 나타낸 것이다.
도 3(a)는 다양한 Pad 범위를 보인 다수 단백질들의 히스토그램 플롯이다. (b)는 어드헤신들에서의 짝진 서열 관계는 CLUSTAL W로 결정하였고, X축에 나타내었다. (c) 비-어드헤신의 플롯. 데이타는 명확한 정밀 검사에 대한 4 상한 포맷(quadrant format)으로 나타낸다.
본 발명은 예시하기 위한 하기 실시예를 들어 더욱 설명하지만, 어떠한 방식으로도 본 발명의 범위를 한정하는 것으로 해석되어서는 안된다.
실시예 1
SPAAN 운용:
프로그램의 목적은 단백질 서열의 여러가지 서열을 기초로 속성을 수치적으로 계산하기 위한 것이다.
프로그램 작업은 다음과 같다:
http : //www. ncbi. nim. nih. gov에서 수득한 인터넷으로 다운받은 FASTA 형식의 파일을 파일명 <유기체_명칭>.faa으로 저장하고, C 프로그램으로 표준 형식으로 변환한 다음 단백질 서열의 5가지 속성들을 계산하는 다른 C 프로그램에 입력 하였다(총 5개의 모듈들에서 총 105가지의 구성적 특성).
계산한 특성들을 입력치로 5개의 다른 신경 회로망에 입력하였다. 각 훈련된 회로망은 쿼리 단백질이 어드헤신일 확률값을 부여한다. 최종 확률(Pad)는 이들 5가지의 개별적인 확률들의 가중 평균로 계산된다. 가중치는 5개의 모듈 각각을 시험 운영하는 동안 정확한 예측과의 상관값으로부터 결정된다.
입력/출력 형식:
다운받은 파일과 그것의 형식:
<유기체_명칭>.faa: 주석과 단백질 서열을 저장한 파일
입력 파일 형식:
">gi.vertline."<주석>
예로, >gi.vertline.2314605.vertline.gb.vertlin.AAD08472.vertline.히스티딘 및 글루타민 다량 함유 단백질
Figure 112006064523145-PCT00003
>gi.vertline.3261822.vertline.gnl.vertline.PID.vertline.e328405 PE_PGRS
Figure 112006064523145-PCT00004
>gi. vertline....
표 1: SPAAN에 의해 제공된 출력 파일의 형식
<유기체_명칭>.out
SN PA PC PD PH PM Pad-값 단백질명
1 0.05683 0.290803 0.441338 0.50304 0.029503 0.260485 >gi.vertline.32454344.vertline.gb.verline.AAP82966.1. vertline.orfla 폴리단백질[SARS 코로나바이러스 홍콩 ZY-2003]
2 0.639235 0.166721 0.054583 0.935385 0.453498 0.462452 >gi.vertline.32454345.vertline.gb.verline.AAP82967.1. vertline.orfla 폴리단백질[SARS 코로나바이러스 홍콩 ZY-2003]
3 0.651111 0.911504 0.438696 0.543944 0.924044 0.690247 >gi.vertline.32454346.vertline.gb.verline.AAP82968.1. vertline.orfla 폴리단백질 [SARS 코로나바이러스 홍콩 ZY-2003]
4 0.464324 0.655003 0.179503 0.000870 0.241573 0.300970 >gi.vertline.32454347.vertline.gb.verline.AAP82969.1. vertline.orfl3a[SARS 코로나바이러스 홍콩 ZY-2003]
상기에서, PA, PC, PD, PH, PM은 5개의 신경 회로망의 출력치이다.
실시예 2: 유기체 및 서열 번호
표2: 유기체의 명칭, 접근 번호, 염기쌍 번호, 공개일 및 분석 단백질의 총 수
유기체명 접근번호 염기쌍 수 공개일 단백질 총수
대장균(E. coli) O157 H7 NC_002695 5498450 2001-03-07 5361
H.인플루엔자 Rd NC_000907 1830138 1996-09-30 1709
H.필로리(H. pylori)J99 NC_000921 1643831 2001-09-10 1491
M.뉴모니아(M. pneumoniae) NC_000912 816394 2001-04-02 689
M.투베르쿨로시스(M. tuberculosis) H37Rv NC_000962 4411529 2001-09-07 3927
R.프로와제키(R. prowazekii) 주 Madrid E NC_000963 1111523 2001-09-10 835
P.진기발리스(P. gingivalis) W83 NC_002950 2343476 2003-09-09 1909
S.플렉스네리(S. flexneri) 2a str. 2457T NC_004741 4599354 2003-04-23 4072
S.뮤탄스(S. mutans) UA159 NC_004350 2030921 2002-10-25 1960
S.뉴모니아(S. pneumoniae) R6 NC_003098 2038615 2001-09-06 2043
N.메닌지티디스(N. meningitidis) 혈청군 A 주 Z2491 NC_003116 2184406 2001-09-27 2065
S. 피오게네스(S. pyogenes) MGAS8232 NC_003485 1895017 2001-01-31 1845
T.팔리듐(T. pallidum) subsp. 팔리듐 str.Nichols NC_000919 1138011 2001-09-07 1036
중증 급성 호흡기증후군 관련 코로나바이러스 프랑크프루트1 AY291315 29727 2003-06-11 14
SARS 코로나바이러스HSR1 AY323977 19751 2003-10-15 14
SARS 코로나바이러스 ZJ01 AY297028 29715 2003-05-19 3
SARS 코로나바이러스 TW1 AY291451 29729 2003-05-14 11
SARS 코로나바이러스CUHK_Su10 AY282752 29736 2003-05-07 4
SARS 코로나바이러스 AY278741 29727 2003-08-12 12
SARS 코로나바이러스 NC_004718 29751 2003-09-09 29
SARS 코로나바이러스 Tor2 AY274119 29751 2003-05-16 15
SARS 코로나바이러스 GD01 AY278489 29757 2003-08-18 12
SARS 코로나바이러스 CUHK_W1 AY278554 29736 2003-07-31 11
SARS 코로나바이러스 BJ01 AY278488 29725 2003-05-01 11
실시예 3
다층의 순방향 신경 회로방 구조를 SPAAN에 실행하였다(도 1). FASTA 형식의 주어진 단백질 서열을 일차로 5가지의 모듈들 A, C, D, H 및 M로 처리하여, 구성적 속성들의 5가지 타입으로 정하였다. A: 아미노산 구성, C: 전하 구성, D: 20가지 디펩티드의 디펩티드 구성(NG, RE, TN, NT, GT, TT, DE, ER, RR, RK, RI, AT, TS, IV, SG, GS, TG, GN, VI, HR), H: 소수성 구성, M: 다중체에서의 아미노산 빈도. 나타낸 서열은 E. coli의 FimH 전구체(gi 5524634)의 일부분이다. 이후, 이들 수치 데이타는 입력층의 신경에 입력한다. 화살표의 방향은 데이타 흐름을 나타낸다. 입력층에서 선택된 신경의 갯수는 각 모듈의 수치 입력 벡터의 수와 동일하다. 회로망은 역전파를 통한 검증 세트에서 검출 오류를 최소화하여, 최적으로 훈련한다. 상세한 사항은 방법에 기재되어 있다. 각 회로망 모듈은 해당 속성을 기초로 어드헤신일 수 있는 단백질의 확률값을 할당한다. 어드헤신일 단백질 서열의 최종 확률은, 각각의 확률들의 가중 평균인 Pad 값이며, 예측성(strength of the prediction)의 측정치인 관련 상관 비율(associated fraction of correlation)이다.
실시예 4
SPAAN은, 훈련 세트의 일부가 아니었던 어드헤신 37종과 비-어드헤신 37종의 테스트 세트를 이용하여 수행하였다. 주어진 역치(threshold)(X 축) 이상의 Pad 값을 가지는 모든 단백질에 대한 매튜의 상관계수(Mcc, Y 축). 매튜의 상관계수는 아래 계산식으로 환산된다.
Figure 112006064523145-PCT00005
상기 계산식에서, TP = 진양성, TN = 진음성, FP = 위양성, FN = 위음성
여기에서, TP는 어드헤신이고, TN은 비-어드헤신이다. 일반적으로, 어드헤 신은 높은 Pad 값을 가지지만, 비-어드헤신은 낮은 Pad 값을 가진다. 따라서, 역치값 이상의 Pad 값을 가지는 공지의 어드헤신은 진양성이며, 반면에 역치 이하의 Pad 값을 가지는 공지 비-어드헤신은 진음성이다. 민감성, Sn은
Figure 112006064523145-PCT00006
이고, 특이성 Sp는
Figure 112006064523145-PCT00007
이다. 위음성은, 공지의 어드헤신이 선택한 역치값 이하의 Pad 값을 가지는 경우에 해당된다. 이와 유사하게, 선택한 역치 이상의 Pad 값을 가지는 공지의 비-어드헤신은 위양성으로 한다. 이론상의 2차(점선) 다차 곡선은 관찰된 곡선(선)과 일치하며, 카를-퍼슨(Karl-Pearson) 상관계수는 R2 = 0. 9799이었다. 이론적인 곡선의 최대값(일차 미분계수는 0이되고, 이차 미분계수는 음성임)을 참조예(세로 점선)으로 선별하여, 관찰된 곡선에서 최대값 Mcc = 0.94을 확인하였다. 해당 Pad 값 역치는 0.51이었다. 이 Pad 값 역치에서, Sn과 Sp는 각각 0.89 및 1.0이었다. Mcc는 이론적으로 얻을 수 있는 임계값인 1.0과 비교하였을때 어드헤신에 의한 가장 높은 Pad 값은 0.939였으므로, X 축으로 떨어지지 않는다는 것을 유념하여야 한다.
실시예 5. 다양한 세균성 병원체에서의 공지된 어드헤신의 SPAAN 평가
표 3. SPAAN을 이용한 다양한 세균성 병원체에서의 매우 특정화된 어드헤신의 추정
질병 어드헤신a 숙주 리간드 Pad b (범위)
대장균(E. coli) 설사 PapG(27) SfaS(5) α-D-gal(1-4) β-D-Gal-함유성 수용체 α-시알릴-β-2,3-β-갈락토스 0.84-0.76 0.94-0.94
FimH(63) D-만노사이드 0.96-0.23c
인티민(12) 숙주세포 수용체 Hp90의 티로신-인산화된 형태 0.95-0.78
PrsG(5) Gal(알파-4)Gal 0.86-0.85
타입분류가 어려운 헤모필루스 인플루엔자 인플루엔자 HMW1, HMW2 인간 상피세포 0.97
Hia(8) 인간 결막 세포 0.93-0.90
H.인플루엔자 세균성 수막염d HIfE(18) sialylyganglioside-GM1 0.85-0.73
K.뉴모니아 폐렴 MrkD 타입V 콜라겐 0.82
B.퍼투르시스(B. pertussis) 백일해 FHA 세포표면 글리코접합체상의 황이 결합된 당 0.85
Pertactin 인테그린스 0.43
Y.엔테로콜리티카 (Y.enterocolitica) 소장결장염 YadA(5) β1인테그린스 0.88-0.79
S. 뮤탄스 충치 SpaP(2) PAc 타액의 당단백질 타액의 당단백질 0.88, 0.870.88 0.88
스트렙토코커스 고르도니(Streptococcus gordonii) 구강 SspA(2) 타액의 당단백질 0.85, 0.84
CshA 파이브로넥틴 0.78
CshB 파이브로넥틴 0.63
ScaA 공동-응집 0.71
SspB(2) 타액의 당단백질 0.85, 0.84
스트렙토코커스 소르비누스(Streptococcus sobrinus) 충치 SpaA PAg(2) 타액의 당단백질 타액의 당단백질 0.89 0.89, 0.73
스트렙토코커스 피오게네스 성홍열 Protein F 파이브로넥틴 0.49
스트렙토코커스 뉴모니아 세균성 폐렴 PsaA(5) 인간 코인두 세포 0.82-0.78
CbpAe SpsA PbcA/PspC 테이코산(teichoic acid)의 포스포릴콜린 0.81-0.49
스트렙토코커스 파라산구이스(Streptococcus parasanguis) 판막 심내막염 FimAE 타액의 당단백질 피브린 0.76
스트렙토코커스 산구이스(Streptococcus sanguis) 충치 SsaB 타액의 당단백질 0.71
엔테로코커스 패칼리스 간 질환자에서의엠피마(empyma) EfaA 미확인 0.83
스타필로코커스 아우레우스 식중독 FnbA FnbB(3) 파이브로넥틴 파이브로넥틴 0.8 0.78, 0.77 0.69
헬리코박터 필로리 소화궤양 BabA(17) 디푸코실화된(difucosylated) 루이스b 혈액 그룹 항원 0.87-0.68
a: 여러 균주들에서의 서열 갯수와 분석한 관련 종들의 상동 갯수는 괄호에 기재한다.
b: 소수점 이하 둘째자리까지 반올림함.
c: 63개의 FimH 단백질들중, 54종의 E. coli에서, 6종의 시젤라 플렉시네리에서, 2종은 살모넬라 엔테리카에서, 1종은 살모넬라 티피무리움에서 유래된 것이다. 2종의 FimH 단백질을 제외하고는, 나머지들의 Pad 값은 0.51이다. 나머지 2개(gi numbers: 5524636, 1778448)는 E. coli에서 유래된 것이다. gi: 5524636 단백질은 FimH 전구체라고 기재되어 있지만, 그 과의 다른 일원보다 많이 짧다(129개 아미노산). gi: 1778448 단백질은 E. coli에 상동성을 가지는 살모넬라 티피무리움의 단백질이다.
d: 그외 질환으로는 유아와 어린이에서의 폐렴, 후두염, 골수염, 관절염(septic arthritis) 및 패혈증을 포함한다.
e: 어드헤신 CbpA는 또한 다른 명칭 SpsA, PbcA 및 PspC로 알려져 있다. 총 7가지 서열을 분석하였다. 1 PspC 서열을 제외하고는 나머지 모두의 Pad 값은 0.51이다.
실시예 6
Pad 0.51에서 비-어드헤신으로부터 어드헤신을 식별하는 SPAAN의 능력(도 3a).
실시예 7
SPAAN의 비-상동성 특징을 어드헤신 및 비-어드헤신 둘다에서 분석하였다(도 3b 및 3c).
도 3(a-c). SPAAN은 비-상동성을 기초로한 소프트웨어이다. 총 130종의 어드헤신과 130종의 비-어드헤신을 분석하여, SPAAN의 예측성능이 서열 관계에 의해 영향을 받을 수 있는지 여부를 분석하였다. (a) 다양한 Pad 값에서 다수 단백질들의 히스토그램 플롯이다. 불투명 막대는 어드헤신이고, 투명한 막대는 비-어드헤신이다. SPAAN이 어드헤신과 비-어드헤신을 두가지 별개의 결합성 그룹(cohesive group)으로 분리할 수 있음을 유념하여야 한다. (b) 어드헤신들중에서 짝지은 서열 관계를 CLUSTAL W로 결정하고, X 축에 나타내었다. 수치가 높을수록 유사한 쌍임을 나타낸다. 동일한 단백질 쌍에서 Pad 값에 대한 차이는 Y 축에 나타내었다. 도에서 각 점은 한쌍을 나타낸다. 화살표는 유사성이 높지만, △Pad가 높은 FimH 계열의 단백질 쌍들을 나타낸다: FimH 단백질들 중 하나(gi: 5524636)는 매우 낮은 Pad 값을 가지므로, 위음성 단백질의 모든 쌍들은 높은 △Pad 값을 보였다. 단백질(gi: 5524636)은 동일한 계열의 다른 일원에 비해 매우 길이가 짧다. (c) 비-어드헤신에 대한 도. 데이타는 명확한 조사를 위해, 4등분 형식으로 도면을 작성하였다. CLUSTAL W 수치가 < 20인 단백질 쌍들중에서, 대다수(어드헤신의 경우 82%, 비-어드헤신의 경우 86%)의 △Pad는 < 0.2이다. 이러한 결과는 SPAAN의 비-상동성 특징을 뒷받침한다.
실시예 8
SPANN에 의한 병원체의 게놈 스캔으로, 매우 잘 알려져 있는 어드헤신과, 새로운 어드헤신 및 어드헤신계 단백질을 동정하였다.
표 4. 소수의 선별한 병원성 유기체의 게놈 스캔에서 SPAAN으로 실시한 예측 분석a
단백질 클래스 E. coli O157:H7 미코박테리움 SARS 관련 코로나바이러스(11개 주)
Pad 0.51를 가진 단백질의 총수 575 435 5
공지 어드헤신 17b - -
어드헤신 유사 특성을 가진 추정의 단백질 92c 105j -
어드헤신 유사 특성을 가진 가정의 단백질 22d - -
세포외(extracytoplasmic) 또는 표면에 위치할 것으로 추정되는 단백질 190e 191k 5m
파지 단백질 30f - -
기타 13g 6l -
가정의 단백질 157h 86h -
잘못된 예측 54i 47i -
a: SPAAN은 일반적으로 훈련가능하다. 본원에서 선택한 3종의 병원체는 현재 고강도 조사가 진행중인 병원체이다. 미코박테리움 투베르쿨로시스는 개발도상국가에서 매우 중요한 균이다.
b: 핌브리아 어드헤신, AidA-I, 감마 인티민(intimin), 쿨를린(curlin), 전위된 인티민 수용체(translocated intimin receptor), 추정의 어드헤신, 및 수송체, Iha, 프리필린 펩티다제 의존적 단백질 C(prepilin peptidase dependent protein C).
c: 이들 단백질은 추정되는 기능을 가진 단백질로 기재되어 있다. 이들 서열은 CDD(Conserved domain database, NCBI)와 BLAST 검색으로 분석하였다. 어드헤신 유사 도메인이 이들 단백질들에서 발견되었다.
d: 이들 단백질은 '가정의'로 기재하였다. 이들 서열은 CDD(Conserved domain database, NCBI)와 BLAST 검색으로 분석하였다. 어드헤신 유사 도메인이 이들 단백질들에서 발견되었다.
e: 이들 단백질들은 외막, 세포외, 수송체, 표면, 유출, 플라젤라, 세포막 단백질(periplasmic lipoprotein) 및 '가정의'로 기재된 단백질이며, BLAST와 CDD 검색으로 본원에 나열된 시능과의 유사성이 관찰되지 않았다.
f: 파지 단백질은 아래 기능적 역할을 가진다- 테일 파이버(tail fiber), 헤드 장식(head decoration), DNA 주입, 꼬리, 주캡시드, 숙주 특이성, 엔도라이신(endolysin)
g : SPAAN으로 추정하였으나 본원에 나열한 클래스로 쉽게 분류되지 않는 단백질은 총괄적으로 '기타'로 구분하였다. 그러나, 이들 단백질들중 일부는 숙주-병원체간의 상호작용에 참여하는 것으로 알려져 있다. 기재된 기능적 역할은 타입III 분비, 항생제 내성, 열 충격, 산 충격, 구조, 텔루르 내성, 터미나제, Hcp-like, Sec-의존적 트랜슬로카제(independent translocase), 특정화되지 않은 핵단백질, HicB-like.
h : 이들 단백질은 가정으로 기재되어 있다. 이들 단백질을 BLAST와 CDD로 재분석하였으나, 이들 단백질의 어떠한 기능도 동정하지 못하였다.
i : 이들 단백질은 세포내에서 틀림없이 이루어질 것으로 추정되는 기능적 역할이 기재되어 있다. 따라서, 이들 단백질은 어드헤신이나 또는 어드헤신계 단백질로서 기능할 가능성은 희박할 수 있다. 이에, 이들 단백질 세트는 SPAAN에서 어드헤신이나 어드헤신계로 잘못 추정된 것이다.
j: 이들 단백질은 PE_PGRS, PE 단백질이다. 일부 보고서(예, Brennan et al.)들에서, PE_PGRS 단백질이 세포 표면에 위치할 수 있으며, 숙주-병원체간의 상호작용을 보조할 수 있을 것으로 시사하고 있다.
k : 지단백질(lpp, lpq, lpr), PPE, 외막, 표면, 수송체, 분비, 세포막, 세포외, ESAT-6, 펩티도글리칸 결합, 유출, mpt(세포외 도메인 함유) 및 '가정의'로 기재된 단백질이며, BLAST와 CDD 검색으로 본원에 나열된 시능과의 유사성이 관찰되지 않았다.
l: 이들 단백질은 다음의 기능을 한다- 글루타레독신계 티오클래스퍼라제(glutaredoxin-like thioltransferase), 몰리브데이트 흡수에 관ㄴ여하는 것으로 추정, ATP 합성효소 체인, 설포트래스터라제(sulphotransferase), S.에리트라 로단스계 단백질(erythraea rhodanese-like protein) M296121SERCYSA_5, 미확인된 기능.
m: 이들 단백질은 항원성을 가지는 스파이크 당단백질이며, nsp2, nsp5, nsp6 및 nsp7이다.
표 5: 표 2에 기재된 게놈에서 SPAAN으로 추정한 신규 어드헤신
(총 수 = 279)
단백질 GI 유전자 ID 단백질 명
E. coli 0157:H7
13360742 912619 헴어글루티닌/헤몰리신-관련 단백질
13362986 914770 추정의 수송 시스템의 ATP 결합 성분
13361114 913228 추정의 꼬리(tail) 섬유 단백질
13364757 913676 마이너 핌브리아 서브유닛/D-만노스 특이 어드헤신
13362687 915687 추정의 핌브리아계 단백질
13360856 912599 AidA-I 어드헤신계 단백질
13364140 915374 추정의 핌브리아 단백질
13359793 914435 추정의 인베이신(invasin)
13364768 913650 추정의 인베이신
13364034 915471 감마 인티민
13362703 915668 추정의 DNA 수송 단백질 전구체
13364141 915376 추정의 핌브리아 단백질
13359819 914463 AidA-I 어드헤신계 단백질
13360480 917768 추정의 핌브리아계 단백질
13362692 915681 추정의 핌브리아계 단백질
13362585 916824 추정의 수송 시스템의 ATP 결합 성분
13359881 914526 추정의 플라젤린 구조 단백질
13361579 917311 추정의 타입 I 핌브리아 단백질 전구체
13360880 913991 쿠를린 메이저(curlin major) 서브유닛 CsgA
13364036 915465 전좌된 인티민 수용체 Tir
13360740 912615 추정의 메이저 필린(pilin) 단백질
13361582 917317 수송 시스템의 추정의 ATP 결합 성분과 어드헤신 단백질
13364754 913683 타입1 핌브리아의 방출 및 조립 외막 단백질
13360484 917767 살모넬라 FimH 단백질의 상동체
13364751 913688 메이저 타입1 서브유닛 핌브린
13359597 913742 추정의 핌브리아 단백질
13362550 916787 수송 시스템의 추정의 ATP 결합 성분
13359595 913739 추정의 핌브리아 단백질
13359599 913748 아마 핌브리아 조립에 관여하는 외막 포린(porin) 단백질
13363900 915704 추정의 핌브리아 단백질 전구체
13361575 917307 추정의 핌브리아계 단백질
13364756 913678 핌브리아 형태
13363496 916142 추정의 절단된 핌브리아 단백질
13359601 913761 추정의 핌브리아계 단백질
13364145 915368 추정의 타입1 핌브리아 단백질
13363902 915708 추정의 외막 안내(usher) 단백질 전구체
13361576 917309 추정의 외막 단백질
13361013 913353 추정의 메이저 꼬리(tail) 서브유닛
13364755 913682 핌브리아 형태
13360738 912793 추정의 외막 안내 단백질
13363928 915608 알파-아밀라아제
13363495 916144 추정의 외막 단백질
13362383 916617 추정의 타입1 핌브리아 단백질
13364373 914972 외막 비타민 B12 수용체 단백질 BtuB
13360879 912479 마이너 쿠를린 서브유닛 전구체 CsgB
13360739 912756 추정의 샤페론 단백질
13361574 917314 추정의 핌브리아계 단백질
13361127 913212 외막 프로테아제 전구체
13363210 916442 추정의 지단백질
13361104 913238 메이저 꼬리(tail)단백질
13361709 917446 추정의 메이저 꼬리(tail) 서브유닛
13359725 914366 외막 포어 단백질 PhoE
13360875 913765 쿠를리(curli) 생산 어셈블리/수송 성분 CsgF
13362170 913927 추정의 외막 단백질
13361473 917203 추정의 BigB 유사 단백질
13364025 915286 EspF 단백질
13360081 916982 페릭 엔테로박틴(엔테로켈린), 콜리신 B 및 D용 외막 수용체
13362977 914779 가정의 지단백질
13360351 917632 외막 단백질 X
13360696 914208 추정의 외막 전구체
13361456 917206 추정의 외막 단백질
13361626 917374 추정의 숙주 외막 단백질 전구체
13361698 917449 추정의 외막 단백질
13362186 913421 추정의 외막 단백질 전구체
13362697 915676 장쇄 지방산 수송 단백질 FadL
13360918 914188 플라젤라 후크(hook) 단백질 FlgE
13360737 912506 추정의 외막 단백질
13360342 917629 철 수송을 위한 추정의 외막 수용체
13363396 916248 외막 채널 TolC
13361958 912705 무레인(murein) 합성 전효소의 형성에 있어서 추정 의 스캐폴딩(scaffolding) 단백질
13359921 914566 뉴클레오사이드-특이 채널-형성 단백질 TSX
13360944 913890 철 흡수를 위한 외막 수용체
13359998 914644 추정의 외막 수송 단백질
13363390 916251 추정의 페리크롬 철(ferrichrome iron) 수용체 전구체
13364227 915153 외막 포스폴리파아제A
13361982 912846 추정의 외막 단백질
13360129 917032 마이너 지단백질
13361817 912692 추정의 외막 단백질
13360233 917507 멤브레인 스패닝(spanning) 단백질 TolA
13362837 915218 추정의 외막 지단백질
13362328 912985 추정의 콜라닉산(colanic acid) 생합성 글리코실 트랜스퍼라제
헤모필루스 인플루엔자 Rd
16272254 949521 프레필린(prepilin) 펩티다제 의존적 단백질 D
16272928 950762 면역글로빈 A1 프로테아제
16272129 951072 지단백질
16273251 950616 헤모글로빈 결합 단백질
30995429 950130 혼탁(opacity) 단백질
16272854 949634 보호 표면 항원 D15
16272283 950648 혼탁 관련 단백질
16272604 949701 헤모글로빈 결합 단백질
헬리코박터 필로리 J99
4155101 889167 추정의 액포형성(vacuolating) 세포독소(VacA) 파라로그(paralog)
4154798 890022 추정의 액포형성 세포독소(VacA) 파라로그
4155426 890036 추정의 액포형성 세포독소(VacA) 파라로그
4155390 890075 액포형성 세포독소
4155400 890058 외막 단백질-어드헤신
4155681 889718 추정의 외막 단백질
4155420 890042 외막 단백질/포린
4155775 889799 외막 단백질-어드헤신
4155419 890044 외막 단백질/포린
4154526 889066 추정의 외막 단백질
4154724 889419 추정의 외막 단백질
4155862 890404 추정의 외막 단백질
4156048 889958 추정의 IRON(III) 디사이트레이트 수송 단백질
4154510 889297 추정의 외막 단백질
4155432 889515 추정의 외막 단백질
4155623 889671 추정의 외막 단백질
4155700 889739 추정의 외막 기능
4154740 889426 외막 단백질/포린
4155692 889743 추정의 외막 단백질
4155594 889648 추정의 외막 단백질
4155680 889719 추정의 외막 단백질
4155217 890243 추정의 외막 단백질
4155958 889905 추정의 외막 단백질
4155201 890259 추정의 외막 단백질
4155013 889232 cag 섬 단백질
4154974 889032 추정의 외막 단백질
4155214 890244 추정의 외막 단백질
4154973 889042 외막 단백질
4155344 890115 추정의 외막 단백질
4155099 889160 플라젤린 A
4155023 888978 cag 섬 단백질
4155035 889201 cag 섬 단백질, 세포독소 관련 면역 우성 항원
4155289 890164 뉴라미닐락토오스-결합성 헤마글루티닌 전구체
미코플라스마 뉴모니아
13507881 877207 세포접착에 관여(involved in cytadherence)
1350780 877268 ADP1_MUCPN 어드헤신 P1
13508228 877211 종 특이 지단백질
13508181 877124 종 특이 지단백질
13508179 877071 몰리큐트(mollicute) 특이 지단백질, MG307 상동, M. 제니탈리움 유래
13508178 877118 몰리큐트 특이 지단백질, MG307 상동, M. 제니탈리움 유래
13508176 876797 몰리큐트 특이 지단백질, MG307 상동, M. 제니탈리움 유래
13508175 876848 몰리큐트 특이 지단백질, MG307 상동, M. 제니탈리움 유래
13508106 876953 세포부착에 관여
13508340 877112 포스페이트 결합 단백질 Psts과 유사
미코박테리움 투베르쿨로시스 H37 Rv
15607496 886491 PPE
15607445 886592 PPE
15610644 888270 PE_PGRS
15608588 886605 PE_PGRS
15609627 887941 PE_PGRS
15610643 888256 PE_PGRS
15607718 887725 PE_PGRS
15609054 885362 PPE
15610486 888113 PPE
15610483 888120 PPE
15610479 888033 PPE
15609771 888573 PE_PGRS
15610648 888306 PE_PGRS
15610481 888114 PE_PGRS
15608117 885264 PE_PGRS
15607973 885391 PE_PGRS
15608231 885258 PE_PGRS
15608906 885429 PE_PGRS
15608891 885544 PPE
15609990 888171 PE_PGRS
15609055 885506 PPE
15608227 887094 PE_PGRS
15610524 888151 PE_PGRS
15609490 886003 PPE
15607886 888664 PE_PGRS
15609624 887909 PE_PGRS
15607420 886621 PE_PGRS
15608897 885325 PE_PGRS(wag22)
15608590 886595 PE_PGRS
15609728 887992 PE_PGRS
15608012 885742 PE_PGRS
15608534 886745 PE_PGRS
15608940 885730 PE_PGRS
15607887 888662 PE_PGRS
15609235 888312 PE_PGRS
15610694 887822 PPE
15609533 885517 PE_PGRS
15610480 PE_PGRS
리케치아 프로와제키 주 Madrid E
15604316 883411 세포 표면 항원(sca3)
15604546 883694 세포 표면 항원(sca5)
포르피로모나스 진기발리스 W83
34541453 2551934 헤마글루티닌 단백질 HagA
34540040 2551409 지단백질, 추정
34540364 2552375 세포박 프로테아제, 추정
34541613 2552074 헤마글루티닌 단백질 HagE
34540183 2551891 인터날린-관련 단백질
시겔라 플렉스네리 2a str. 2457T
30065424 1080663 마이너 핌브리아 서브유닛, D-만노스 특이 어드헤신
30062726 1077662 추정의 부착 및 침투 담백질
30063758 1078834 추정의 핌브리아계 단백질
30065431 1080671 메이저 타입1 서브유닛 핌브린(필린)
30063366 1078379 플라젤라 단백질 FliD
30064308 1079668 외막 플루핑(fluffing) 단백질
30062613 1077555 플라젤라 후크 단백질 FlgE
30061954 1076843 가정의 보존적 지단백질
30065173 1080393 추정의 리파제
30065425 1080664 마이너 핌브리아 서브유닛, 폴리펩티드 전구체
30064485 1079637 추정의 핌브리아 단백질
30062615 1077558 플라젤라 기저 소체 L-고리 단백질 FlgH
30064307 1079452 외막 플루핑(fluffing) 단백질
30065601 1080859 추정의 당단백질/수용체
30062118 1077025 추정의 핌브리아계 단백질
30064099 1079223 지단백질
30062616 1077559 플라젤라 기저 소체 P-고리 단백질 FlgI
30063546 1078596 추정의 핌브리아계 단백질
30062940 1077910 추정의 외막 단백질
30065426 1080665 마이너 핌브리아 서브유닛, 전구체 폴리펩티드
30062779 1077721 추정의 외막 단백질
30064194 1079329 추정의 지단백질
30063365 1078378 플라젤린
30062298 1077222 외막 단백질 X
30064968 1080175 추정의 메이저 핌브리아 서브유닛
30061858 1076740 외막 포어 단백질 E(E, Ic, NmpAB)
30062178 1080410 마이너 지단백질
30062479 1077412 추정의 핌브리아계 단백질
30062565 1077506 마이너 쿠를린 전구체
30063880 1078972 추정의 외막 지단백질
30064531 1079686 세포막 단백질
30065033 1080243 추정의 수용체 단백질
스트렙토코커스 뮤탄스 UA159
24378550 1029610 추정의 분비성 항원 GbpB/SagA; 추정의 펩티도글리칸 하이드롤라제
24379087 1028055 세포 표면 항원 SpaP
24380463 1029310 추정의 막 단백질
24379075 1028046 페니실린 결합 단백질 2b
24378955 1027967 페니실린 결합 단백질 1a; 막 카르복시펩티다제
24379801 1028662 글루칸 결합 단백질 C, GbpC
24379528 1029536 가상 단백질; 아마 세포벽 단백질, WapE
24379231 1028158 추정의 글루칸 결합 단백질 D; BglB 유사 단백질
24380488 1029325 가정의 보존적 단백질; 트랜스박 단백질일 가능성
24380291 1029139 추정의 아미노산 결합 단백질
24379432 1028247 추정의 페니실린 결합 단백질, 클래스 C; fmt 유사 단백질
24380047 1028904 추정의 ABC 수송체, 분지 쇄 아미노산 결합 단백질
24378698 1029755 추정의 ABC 수송체, 금속 결합 지단백질; 표면 어드헤신 전구체; 타액 결합 단백질; 지단백질 수용체 LraI(LraI family)
24378708 1029768 추정의 수송 단백질
24379427 1028331 세포벽 조합 단백질 전구체 WapA
24379272 1028196 추정의 아미노산 수송체, 아미노산 결합 단백질
24379641 1028511 추정의 ABC 수송체, 아미노산 결합 단백질
스트렙토코커스 뉴모니아 R6
15902395 934801 콜린 결합 단백질
15902381 934810 콜린 결합 단백질 F
15902165 932894 표면 단백질 pspA 전구체
15904047 934859 콜린 결합 단백질 D
15904036 933487 콜린 결합 단백질 A
15903986 933069 콜린 결합 단백질
15903796 933669 오토리신(N-acetylmuramoyl-L-alanine amidase)
네이세리아 메닌지티디스 Z2491
15794121 907145 추정의 막 단백질
15794144 907168 추정의 표면 피브릴 단백질
15793284 906275 절단된 필린
15793460 906456 IgA-특이적 세린 엔도펩티다제
15793282 906273 핌브리아 단백질 전구체(필린)
15793337 906332 어드헤신
15793253 906243 추정의 지단백질
15794356 907848 추정의 지단백질
15793684 906699 추정의 막 단백질
15793290 906281 절단된 필린
15793283 906274 절단된 필린
15793475 906471 헤모글로빈-헵토글로빈-이용 단백질
15793406 906401 포린, 메이저 외막 단백질 P.I
15794985 907333 어드헤신 MafA2
15794344 907836 추정의 지단백질
15794622 908118 가상 외막 단백질
15793599 906604 필러스-관련 단백질
15793763 906779 추정의 세포막간 공간(periplasmic) 결합 단백질
스트렙토코커스 피오게네스 MGAS8232
19745214 995235 추정의 분비성 단백질
19746570 994224 추정의 페니실린-결합 단백질 1a
19745593 994771 추정의 42 kDa 단백질
19745813 993958 추정의 어드헤신 단백질
19745225 994839 추정의 콜린 결합 단백질
19745828 995250 스트렙토리신 S 관련 단백질
19746229 995021 추정의 메이저 꼬리(tail) 단백질
19746909 994105 추정의 라미닌(laminin) 부착
19745560 995061 추정의 세포를 세포 막(envelope) 프로테아제
트레포네마 팔리듐 subsp. 팔리듐 str. Nichols
15639714 2611034 플라젤라 후크 단백질(flgE)
15639609 2611657 tpr 단백질 J(tprJ)
15639111 2610909 tpr 단백질 C(tprC)
15639125 2610968 tpr 단백질 D(tprD)
SARS 코로나바이러스
31581505 스파이크 단백질 S [SARS 코로나바이러스 프랑크푸 르트1]
32187357 스파이크 단백질 S [SARS 코로나바이러스 HSR1]
32187342 스파이크 당단백질 [SARS 코로나바이러스 ZJ01]
30698329 추정의 스파이크 당단백질 S [SARS 코로나바이러스 TW1]
30421454 추정의 스파이크 당단백질 [SARS 코로나바이러스 CUHK-Su10]
30027620 S 단백질 [SARS 코로나바이러스 어바니]
29836496 1489668 E2 당단백질 전구체, 추정의 스파이크 당단백질 [SARS 코로나바이러스]
30795145 스파이크 당단백질 [SARS 코로나바이러스 Tor2]
31416295 스파이크 당단백질 S [SARS 코로나바이러스 GD01]
30023954 추정의 E2 당단백질 전구체 [SARS 코로나바이러스 CUHK-W1]
30275669 스파이크 당단백질 S [SARS 코로나바이러스 BJ01]
29837498 3C 유사 프로테아제 nsp5-pp1a/pp1ab(3CL-PRO) [SARS 코로나바이러스]
29837501 추정의 nsp8-pp1a/pp1ab [SARS 코로나바이러스]
29838503 추정의 nsp10-pp1a/pp1ab; 이미 생장 인자계 단백질로 알려져 있음 [SARS 코로나바이러스]
29837502 추정의 nsp9-pp1a/pp1ab [SARS 코로나바이러스]
표 6: 표 2에 기재된 게놈에서 SPAAN으로 추정한 가정의 단백질들
(총 수 = 105)
단백질 GI 유전자 ID
E. coli 0157:H7
13363955 915578
13360000 914929
13362244 912369
13359999 914888
13361583 917316
13361172 913156
13361131 913207
13359780 914422
13360571 912499
13362197 912893
13362260 912399
13360947 913505
13361464 917196
13361635 917367
13362421 916655
13361463 917195
헤모필루스 인플루엔자 Rd
16272115 951058
30995442 950581
헬리코박터 파일로리 J99
4155526 889586
4155712 889748
4155632 889684
4156035 889468
4155499
미코플라스마 뉴모니아
13507870 877230
13508239 877245
13508109 876868
13508025 877084
13507838 876784
13507883 877183
13507871 877239
13507944 877056
13508241 876750
13507942 877055
13507840 877387
13507867 877242
13508201 877044
13507941 876985
13508114 877397
미코박테리움 투베르쿨로시스 H37Rv
15611014 886198
15610173 887320
15609513 885515
15608094 885411
15610958 886155
15607528 886436
15607678 887473
15609587 885760
15610708 887227
15609526 885246
15911033 886225
15969028 885094
15607730 887771
15609121 885813
15608255 885951
15608409 887039
15609124 885815
15607734 887797
리케치아 프로와제키 주 madrid E
15604649 883964
15604322 883472
15604659 883996
15604417 883217
포르피로모나스 진기발리스 W83
34540233 2551594
시겔라 플렉스네리 2a str. 2457T
30062687 1077638
30062956 1080449
30063681 1078754
30065435 1080675
30063891 1078983
30063211 1078195
30065233 1080463
30064387 1079531
30062638 1077590
30065236 1080466
30061839 1076721
스트렙토코커스 뮤탄스 UA159
24378864 1029452
24380475 1029319
24380237 1029088
24379203 1028139
24380480 1029320
24379275 1029489
24379291 1028216
24379295 1028215
24379804 1028663
24379162 1029417
24378987 1029363
24379179 1028118
24379166 1028107
24378827 1029444
24380216 1029067
스트렙토코커스 뉴모니아 R6
15902140 932867
15903446 934616
15903916 934001
15903848 933609
15902832 934332
15902372 934804
15902152 932889
네이세리아 메닌지티디스 Z2491
15793668 906680
15794714 997603
스트렙토코커스 피오게네스 MGAS8232
19747011 993608
19747024 994165
19747012 994373
19746396 995057
19746651 993824
19745883 995045
19745912 994077
트레포네마 팔리듐 subsp. 팔리듐 str. Nichols
15639844 2611061
15639720 2611059
표7
Papg(E.coli)
12837502
7407210
7407207
7407205
147096
4240529
7407203
42308
7443327
78746
18265934
26111419
26250987
26109826
26249418
13506767
42301
78745
129622
147092
13506906
7407209
147080
281926
7407199
147100
78744
SfaS(E.coli)
477910
264035
42959
134449
96425
FimH(E.coli)
26251208
26111640
5524634
29422425
5524630
29422435
29422415
10946257
29422419
11120564
29422457
11120562
29422459
5524632
29422455
29422453
29422451
29422449
29422447
29422445
29422443
29422437
29422433
29422431
29422429
29422427
29422423
29422421
29422417
729494
1361011
1790775
3599571
29422441
12620398
29422439
5524628
1787779
1742472
1742463
15801636
25321294
12515169
11120566
24051859
24112911
13360484
15800801
15830279
25392018
25500156
12514120
1787173
16128908
16501811
16759519
24051219
24112354
30040724
30062478
6650093
5524636
1778448
17384659
4388530
1389879
15723931
4323336
4323338
4323340
4323342
4323344
4323346
4323348
4689314
PrsG(E.coli)
42523
42529
7443328
7443329
1172645
HMW1(무타입 H. 인플루엔자)
282097
HMW2(무타입 H. 인플루엔자)
5929966
Hia(무타입 H. 인플루엔자)
25359682
25359489
25359709
25359628
25359414
25359389
21536216
25359445
HifE(H. 인플루엔자)
13506868
13506870
13506872
13506874
13506876
3688787
3688790
3688793
2126301
1170264
1170265
533127
535169
3025668
3025670
3025672
3025674
642038
MrkD(K. 뉴모니아)
127307
FHA(B.페르투시스)
17154501
Pertactin(B.페르투시스)
33571840
YadA(Y.엔테로콜리티카)
10955604
4324391
28372996
23630568
32470319
SpaP(S.뮤탄스)
26007028
47267
PAc(S.뮤탄스)
129552
SspA(스트렙토코커스 고르도니)
25990270
1100971
CshA(스트렙토코커스 고르도니)
457707
CshB(스트렙토코커스 고르도니)
18389220
ScaA(스트렙토코커스 고르도니)
310633
ScaB(스트렙토코커스 고르도니)
25055226
3220006
SpaA(스트렙토코커스 소브리누스)
546643
PAg(스트렙토코커스 소브리누스)
217036
47561
단백질 F(스트렙토코커스 피오게네스)
19224134
PsaA(스트렙토코커스 뉴모니아)
18252614
7920456
7920458
7920460
7920462
CbpAe/SpsA/PbcA/PspC(스트렙토코커스 뉴모니아)
14718654
2425109
2576331
2576333
3153898
9845483
19548141
FimA(스트렙토코커스 파라산구이스)
97883
SsaB(스트렙토코커스 산구이스)
97882
EfaA(엔테로코커스 패칼리스)
493017
FnbA(스타필로코커스 아우레우스)
120457
FnbB(스타필로코커스 아우레우스)
581562
21205592
13702452
BabA(헬리코박터 파일로리)
13309962
13309964
13309966
13309968
13309970
13309972
13309974
13309976
13309978
13309980
13309982
13309984
13309986
13309988
13309990
13309992
13309994
효과:
1. 본 발명은 약물 발견 및 예방제에 매우 중요한 추정의 어드헤신을 발견하는 것을 보조한다.
2. 본 발명은 쿼리 단백질의 상동성은 다른 단백질과 독립적이므로, 고유한 단백질의 접착 특성을 예측하는데 유용하다.
3. 본 발명은 이용하기 간편하다. 출력치를 계산하기 위해, 단지 입력치로 아미노산 서열만 필요할 뿐이다. 접착 특성에 대한 정보를 얻기 위해, 그외 정보가 필요하진 않다.
참조문헌
1. Andrea, T. A., Kalayeh, H. (1991) Applications of neural networks in quantitative structure-activity relationships of dihydrofolate reductase inhibitors. J. Med. Chem. 34, 2824-2836.
2. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. (1990) Basic local alignment search tool. J Mol Biol. 215 (3), 403-410.
3. Bassinet L, Gueirard P, Maitre B, Housset B, Goujon P, Guiso N. (2000) Role of adhesins and toxins in invasion of human tracheal epithelial cells by Bordetella pertussis. Infect Immun. 68 (4), 1934-1941.
4. Bock, K., et al. (1985). Specificity of binding of a strain of uropathogenic Escherichia coli to Gal alpha 1-4Gal-containing glycosphingolipids. J. Biol. Chem. 260, 8545-8551.
5. Brendel, V., Bucher, P., Nourbakhsh, I. R., Edwin Blaisdell, B., and Karlin, S. (1992) Methods and algorithms for statistical analysis of protein sequences. Proc. Natl. Acad. Sci. USA 89, 2002-2006.
6. Brennan, M. J., Delogu, G., Chen, Y., Bardarov, S., Kriakov, J., Alavi, M., Jacobs, W. R., (2001).
7. Evidence that Mycobacterial PEPGRS proteins are cell surface constituents that influence interactions with other cells. Infect. Immun, 69, 7326-7333.
8. De BK, Woolfitt AR, Barr JR, Daneshvar MI, Sampson JS, Ades EW, Carlone GM. (2003) Analysis of recombinant acylated pneumococcal surface adhesin A of Streptococcus pneumoniae by mass spectrometry. Arch Biochem Biophys. 15, 419 (2), 147-157.
9. Egland PG, Du LD, Kolenbrander PE (2001) Identification of independent Streptococcus gordonii SspA and SspB functions in coaggregation with Actinomyces naeslundii. Infect Immun. 69 (12), 7512-7516
10. Finlay, B. B. and Falkow, S. (1997) Common themes in microbial pathogenicity revisited. Microbiol. Mol. Biol. Rev. 61,136-169,
11. Fraser, C. M., Eisen, J., Fleischmann, R. D., Ketchum, K. A., Peterson, S. (2000) Comparative genomics and understanding of microbial biology. Emerg. Infect. Dis. 6, 505-6512
12. Halperin, S. A., Scheifele, D., Mills, E., Guasparini, R., Humphreys, G., Barreto, L., Smith, B. (2003) Nature, evolution, and appraisal of adverse events and antibody response associated with the fifth consecutive dose of a five- component acellular pertussis-based combination vaccine. Vaccine 21, 2298- 2306.
13. Hartford O, McDevitt D, Foster TJ. (1999) Matrix-binding proteins of Staphylococcus aureus: functional analysis of mutant and hybrid molecules. Microbiology. 145 (Pt 9), 2497-2505.
14. Hobohm, U. and Sander, C. (1995) A sequence property approach to searching protein databases. J. Mol. Biol. 251, 390-399.
15. Ide T, Michgehl S, Knappstein S, Heusipp G, Schmidt MA. (2003) Differential modulation by Ca2+ of type III secretion of diffusely adhering enteropathogenic Escherichia coli. Infect Immun. 71 (4), 1725-1732.
16. Langermann S et al. (2000) Vaccination with FimH adhesin protects cynomolgus monkeys from colonization and infection by uropathogenic Escherichia coli. J. Infect. Dis. 181, 774-778.
17. Lowe A. M., Lambert, P. A., Smith, A. W. (1995) Cloning of an Enterococcus faecalis endocarditis antigen: homology with adhesins from some oral streptococci. Infect Immun. 63, 703-706.
18. Maurer, L., Orndorff, P. (1987). Identification and characterization of genes determining receptor binding and pilus length of Escherichia coli type 1 pili. J. Bacteriol. 169,640-645
19. Marchler-Bauer A, Panchenko AR, Shoemaker BA, Thiessen PA, Geer LY, Bryant SH. (2002) CDD: a database of conserved domain alignments with links to domain three-dimensional structure. Nucleic Acids Res. 1, 30 (1), 281-283.
20. Neubauer H, Hensel A, Aleksic S, Meyer H. (2000) Evaluation of a Yersinia adhesion gene (yadA) specific PCR for the identification of enteropathogenic Yersinia enterocolitica. Int J Food Microbiol. 15, 57 (3), 225-227.
21. Nishikawa, K., Kubota, Y. and Ooi, T. (1983) Classification of proteins into groups based on amino acid composition and other characters. II. grouping into four types. J. Biochem. 94, 997-1007.
22. Peregrin-Alvarez, J. M., Tsoka, S., Ouzounis, C. A. (2003) The phylogenetic extent of metabolic enzymes and pathways. Genome Res. 13, 422-427.
23. Prinz, C., Hafsi, N. Voland, P. (2003) Helicobacter pylori virulence factors and the host immune response: implications for therapeutic vaccination. Trends in Microbiol. 11, 134-138.
24. Rapola, S., Jantti, V., Eerola, M., Helena Makela, P., Kayhty, H., Kilpi, T. (2003) Anti-PsaA and the risk of pneumococcal AOM and carriage. Vaccine 21, 3608-3613.
25. Rison. S. C., Teichmann S. A., Thornton J. M. (2002) Homology, pathway distance and chromosomal localization of the small molecule metabolism enzymes in Escherichia coli. J. Mol. Biol. 318, 911-932
26. Sperandio V, Bailey C, Giron JA, DiRita VJ, Silveira WD, Vettore AL, Kaper JB. (1996) Cloning and characterization of the gene encoding the OmpU outer membrane protein of Vibrio cholerae. Infect Immun. 64 (12), 5406-5409.
27. St Geme JW 3rd, Cutter D. (2000) The Haemophilus influenzae Hia adhesin is an autotransporter protein that remains uncleaved at the C terminus and fully cell associated. J Bacteriol. 182 (21), 6005-6013.
28. Thompson, J. D., Higgins, D. G., Gibson, T. J. (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22, 4673-4680
29. Van Schilfgaarde M, van Ulsen P, Eijk P, Brand M, Stam M, Kouame J, van Alphen L, Dankert J. (2000) Characterization of adherence of nontypeable Haemophilus influenzae to human epithelial cells. Infect Immun. 68 (8), 4658- 4665.
30. Wizemann, T. M., Adamou, J. E., Langermann, S. (1999). Adhesins as targets for vaccine development. Emerg. Infect. Dis. 5, 395-403,
31. Wolf, Y. I., Rogozin, I. B., Kondrashov, A. S., and Koonin, E. V. (2001) Genome alignment, evolution of prokaryotic genome organization and prediction of gene function using genomic context. Genome Res. 11, 356-372
32. Yu J, Leung WK, Go MY, Chan MC, To KF, Ng EK, Chan FK, Ling TK, Chung SC, Sung JJ. (2002) Relationship between Helicobacter pylori babA2 status with gastric epithelial cell turnover and premalignant gastric lesions. Gut. 51 (4), 480-484.
33. Zuegge, J., Ralph, S., Schmuker, M., McFadden, G. I., Schneider, G. (2001) Deciphering apicoplast targeting signals-feature extraction from nuclear- encoded precursors of Plasmodium falciparum apicoplast proteins. Gene 280, 19-26.
Figure 112006064523145-PCT00008
Figure 112006064523145-PCT00009
Figure 112006064523145-PCT00010
Figure 112006064523145-PCT00011
Figure 112006064523145-PCT00012
Figure 112006064523145-PCT00013
Figure 112006064523145-PCT00014
Figure 112006064523145-PCT00015
Figure 112006064523145-PCT00016
Figure 112006064523145-PCT00018
Figure 112006064523145-PCT00019
Figure 112006064523145-PCT00020
Figure 112006064523145-PCT00021
Figure 112006064523145-PCT00022
Figure 112006064523145-PCT00023
Figure 112006064523145-PCT00024
Figure 112006064523145-PCT00025
Figure 112006064523145-PCT00026
Figure 112006064523145-PCT00027
Figure 112006064523145-PCT00028
Figure 112006064523145-PCT00029
Figure 112006064523145-PCT00030
Figure 112006064523145-PCT00031
Figure 112006064523145-PCT00032
Figure 112006064523145-PCT00033
Figure 112006064523145-PCT00034
Figure 112006064523145-PCT00035
Figure 112006064523145-PCT00036
Figure 112006064523145-PCT00037
Figure 112006064523145-PCT00038
Figure 112006064523145-PCT00039
Figure 112006064523145-PCT00040
Figure 112006064523145-PCT00041
Figure 112006064523145-PCT00042
Figure 112006064523145-PCT00043
Figure 112006064523145-PCT00044
Figure 112006064523145-PCT00045
Figure 112006064523145-PCT00046
Figure 112006064523145-PCT00047
Figure 112006064523145-PCT00048
Figure 112006064523145-PCT00049
Figure 112006064523145-PCT00050
Figure 112006064523145-PCT00051
Figure 112006064523145-PCT00052
Figure 112006064523145-PCT00053
Figure 112006064523145-PCT00054
Figure 112006064523145-PCT00055
Figure 112006064523145-PCT00056
Figure 112006064523145-PCT00057
Figure 112006064523145-PCT00058
Figure 112006064523145-PCT00059
Figure 112006064523145-PCT00060
Figure 112006064523145-PCT00061
Figure 112006064523145-PCT00062
Figure 112006064523145-PCT00063
Figure 112006064523145-PCT00064
Figure 112006064523145-PCT00065
Figure 112006064523145-PCT00066
Figure 112006064523145-PCT00067
Figure 112006064523145-PCT00068
Figure 112006064523145-PCT00069
Figure 112006064523145-PCT00070
Figure 112006064523145-PCT00071
Figure 112006064523145-PCT00072
Figure 112006064523145-PCT00073
Figure 112006064523145-PCT00074
Figure 112006064523145-PCT00075
Figure 112006064523145-PCT00076
Figure 112006064523145-PCT00077
Figure 112006064523145-PCT00078
Figure 112006064523145-PCT00079
Figure 112006064523145-PCT00080
Figure 112006064523145-PCT00081
Figure 112006064523145-PCT00082
Figure 112006064523145-PCT00083
Figure 112006064523145-PCT00084
Figure 112006064523145-PCT00085
Figure 112006064523145-PCT00086
Figure 112006064523145-PCT00087
Figure 112006064523145-PCT00088
Figure 112006064523145-PCT00089
Figure 112006064523145-PCT00090
Figure 112006064523145-PCT00091
Figure 112006064523145-PCT00092
Figure 112006064523145-PCT00093
Figure 112006064523145-PCT00094
Figure 112006064523145-PCT00095
Figure 112006064523145-PCT00096
Figure 112006064523145-PCT00097
Figure 112006064523145-PCT00098
Figure 112006064523145-PCT00099
Figure 112006064523145-PCT00100
Figure 112006064523145-PCT00101
Figure 112006064523145-PCT00102
Figure 112006064523145-PCT00103
Figure 112006064523145-PCT00104
Figure 112006064523145-PCT00105
Figure 112006064523145-PCT00106
Figure 112006064523145-PCT00107
Figure 112006064523145-PCT00108
Figure 112006064523145-PCT00109
Figure 112006064523145-PCT00110
Figure 112006064523145-PCT00111
Figure 112006064523145-PCT00112
Figure 112006064523145-PCT00113
Figure 112006064523145-PCT00114
Figure 112006064523145-PCT00115
Figure 112006064523145-PCT00116
Figure 112006064523145-PCT00117
Figure 112006064523145-PCT00118
Figure 112006064523145-PCT00119
Figure 112006064523145-PCT00120
Figure 112006064523145-PCT00121
Figure 112006064523145-PCT00122
Figure 112006064523145-PCT00123
Figure 112006064523145-PCT00124
Figure 112006064523145-PCT00125
Figure 112006064523145-PCT00126
Figure 112006064523145-PCT00127
Figure 112006064523145-PCT00128
Figure 112006064523145-PCT00129
Figure 112006064523145-PCT00130
Figure 112006064523145-PCT00131
Figure 112006064523145-PCT00132
Figure 112006064523145-PCT00133
Figure 112006064523145-PCT00134
Figure 112006064523145-PCT00135
Figure 112006064523145-PCT00136
Figure 112006064523145-PCT00137
Figure 112006064523145-PCT00138
Figure 112006064523145-PCT00139
Figure 112006064523145-PCT00140
Figure 112006064523145-PCT00141
Figure 112006064523145-PCT00142
Figure 112006064523145-PCT00143
Figure 112006064523145-PCT00144
Figure 112006064523145-PCT00145
Figure 112006064523145-PCT00146
Figure 112006064523145-PCT00147
Figure 112006064523145-PCT00148
Figure 112006064523145-PCT00149
Figure 112006064523145-PCT00150
Figure 112006064523145-PCT00151
Figure 112006064523145-PCT00152
Figure 112006064523145-PCT00153
Figure 112006064523145-PCT00154
Figure 112006064523145-PCT00155
Figure 112006064523145-PCT00156
Figure 112006064523145-PCT00157
Figure 112006064523145-PCT00158
Figure 112006064523145-PCT00159
Figure 112006064523145-PCT00160
Figure 112006064523145-PCT00161
Figure 112006064523145-PCT00162
Figure 112006064523145-PCT00163
Figure 112006064523145-PCT00164
Figure 112006064523145-PCT00165
Figure 112006064523145-PCT00166
Figure 112006064523145-PCT00167
Figure 112006064523145-PCT00168
Figure 112006064523145-PCT00169
Figure 112006064523145-PCT00170
Figure 112006064523145-PCT00171
Figure 112006064523145-PCT00172
Figure 112006064523145-PCT00173
Figure 112006064523145-PCT00174
Figure 112006064523145-PCT00175
Figure 112006064523145-PCT00176
Figure 112006064523145-PCT00177
Figure 112006064523145-PCT00178
Figure 112006064523145-PCT00179
Figure 112006064523145-PCT00180
Figure 112006064523145-PCT00181
Figure 112006064523145-PCT00182
Figure 112006064523145-PCT00183
Figure 112006064523145-PCT00184
Figure 112006064523145-PCT00185
Figure 112006064523145-PCT00186
Figure 112006064523145-PCT00187
Figure 112006064523145-PCT00188
Figure 112006064523145-PCT00189
Figure 112006064523145-PCT00190
Figure 112006064523145-PCT00191
Figure 112006064523145-PCT00192
Figure 112006064523145-PCT00193
Figure 112006064523145-PCT00194
Figure 112006064523145-PCT00195
Figure 112006064523145-PCT00196
Figure 112006064523145-PCT00197
Figure 112006064523145-PCT00198
Figure 112006064523145-PCT00199
Figure 112006064523145-PCT00200
Figure 112006064523145-PCT00201
Figure 112006064523145-PCT00202
Figure 112006064523145-PCT00203
Figure 112006064523145-PCT00204
Figure 112006064523145-PCT00205
Figure 112006064523145-PCT00206
Figure 112006064523145-PCT00207
Figure 112006064523145-PCT00208
Figure 112006064523145-PCT00209
Figure 112006064523145-PCT00210
Figure 112006064523145-PCT00211
Figure 112006064523145-PCT00212
Figure 112006064523145-PCT00213
Figure 112006064523145-PCT00214
Figure 112006064523145-PCT00215
Figure 112006064523145-PCT00216
Figure 112006064523145-PCT00217
Figure 112006064523145-PCT00218
Figure 112006064523145-PCT00219
Figure 112006064523145-PCT00220
Figure 112006064523145-PCT00221
Figure 112006064523145-PCT00222
Figure 112006064523145-PCT00223
Figure 112006064523145-PCT00224
Figure 112006064523145-PCT00225
Figure 112006064523145-PCT00226
Figure 112006064523145-PCT00227
Figure 112006064523145-PCT00228
Figure 112006064523145-PCT00229
Figure 112006064523145-PCT00230
Figure 112006064523145-PCT00231
Figure 112006064523145-PCT00232
Figure 112006064523145-PCT00233
Figure 112006064523145-PCT00234
Figure 112006064523145-PCT00235
Figure 112006064523145-PCT00236
Figure 112006064523145-PCT00237
Figure 112006064523145-PCT00238
Figure 112006064523145-PCT00239
Figure 112006064523145-PCT00240
Figure 112006064523145-PCT00241
Figure 112006064523145-PCT00242
Figure 112006064523145-PCT00243
Figure 112006064523145-PCT00244
Figure 112006064523145-PCT00245
Figure 112006064523145-PCT00246
Figure 112006064523145-PCT00247
Figure 112006064523145-PCT00248
Figure 112006064523145-PCT00249
Figure 112006064523145-PCT00250
Figure 112006064523145-PCT00251
Figure 112006064523145-PCT00252
Figure 112006064523145-PCT00253
Figure 112006064523145-PCT00254
Figure 112006064523145-PCT00255
Figure 112006064523145-PCT00256
Figure 112006064523145-PCT00257
Figure 112006064523145-PCT00258
Figure 112006064523145-PCT00259
Figure 112006064523145-PCT00260
Figure 112006064523145-PCT00261
Figure 112006064523145-PCT00262
Figure 112006064523145-PCT00263
Figure 112006064523145-PCT00264
Figure 112006064523145-PCT00265
Figure 112006064523145-PCT00266
Figure 112006064523145-PCT00267
Figure 112006064523145-PCT00268
Figure 112006064523145-PCT00269
Figure 112006064523145-PCT00270
Figure 112006064523145-PCT00271
Figure 112006064523145-PCT00272
Figure 112006064523145-PCT00273
Figure 112006064523145-PCT00274
Figure 112006064523145-PCT00275
Figure 112006064523145-PCT00276
Figure 112006064523145-PCT00277
Figure 112006064523145-PCT00278
Figure 112006064523145-PCT00279
Figure 112006064523145-PCT00280
Figure 112006064523145-PCT00281
Figure 112006064523145-PCT00282
Figure 112006064523145-PCT00283
Figure 112006064523145-PCT00284
Figure 112006064523145-PCT00285
Figure 112006064523145-PCT00286
Figure 112006064523145-PCT00287
Figure 112006064523145-PCT00288
Figure 112006064523145-PCT00289
Figure 112006064523145-PCT00290
Figure 112006064523145-PCT00291
Figure 112006064523145-PCT00292
Figure 112006064523145-PCT00293
Figure 112006064523145-PCT00294
Figure 112006064523145-PCT00295
Figure 112006064523145-PCT00296
Figure 112006064523145-PCT00297
Figure 112006064523145-PCT00298
Figure 112006064523145-PCT00299
Figure 112006064523145-PCT00300
Figure 112006064523145-PCT00301
Figure 112006064523145-PCT00302
Figure 112006064523145-PCT00303
Figure 112006064523145-PCT00304
Figure 112006064523145-PCT00305
Figure 112006064523145-PCT00306
Figure 112006064523145-PCT00307
Figure 112006064523145-PCT00308
Figure 112006064523145-PCT00309
Figure 112006064523145-PCT00310
Figure 112006064523145-PCT00311
Figure 112006064523145-PCT00312
Figure 112006064523145-PCT00313
Figure 112006064523145-PCT00314
Figure 112006064523145-PCT00315
Figure 112006064523145-PCT00316
Figure 112006064523145-PCT00317
Figure 112006064523145-PCT00318
Figure 112006064523145-PCT00319
Figure 112006064523145-PCT00320
Figure 112006064523145-PCT00321
Figure 112006064523145-PCT00322
Figure 112006064523145-PCT00323
Figure 112006064523145-PCT00324
Figure 112006064523145-PCT00325
Figure 112006064523145-PCT00326
Figure 112006064523145-PCT00327
Figure 112006064523145-PCT00328
Figure 112006064523145-PCT00329
Figure 112006064523145-PCT00330
Figure 112006064523145-PCT00331
Figure 112006064523145-PCT00332
Figure 112006064523145-PCT00333
Figure 112006064523145-PCT00334
Figure 112006064523145-PCT00335
Figure 112006064523145-PCT00336
Figure 112006064523145-PCT00337
Figure 112006064523145-PCT00338
Figure 112006064523145-PCT00339
Figure 112006064523145-PCT00340
Figure 112006064523145-PCT00341
Figure 112006064523145-PCT00342
Figure 112006064523145-PCT00343
Figure 112006064523145-PCT00344
Figure 112006064523145-PCT00345
Figure 112006064523145-PCT00346
Figure 112006064523145-PCT00347
Figure 112006064523145-PCT00348

Claims (21)

  1. 어드헤신 및 어드헤신계 단백질을 동정하기 위한 연산 방법으로서,
    a. 신경 회로망 소프트웨어(neural network software)의 5가지 속성 모듈(attribute module)을 이용하여 단백질 서열의 서열 속성을 연산처리하는 단계로서, 상기 속성은 (i) 아미노산 빈도(amino acid frequency), (ii) 다중체 빈도(multiplet frequency), (iii) 디펩티드 빈도(dipeptide frequency), (iv) 전하 구성(charge composition) 및 (v) 소수성 구성(hydrophobic composition)인 연산처리 단계,
    b. 연산처리한 5가지 속성들 각각에 대한 인공 신경 회로망을 훈련하는(training) 단계; 및
    c. 어드헤신(adhesin)과, 어드헤신일 확률 값(Pad)이 >0.51인 어드헤신계 단백질을 동정하는 단계;
    를 포함하는 연산 방법.
  2. 제 1항에 있어서, 상기 단백질 서열은 병원체, 진핵생물 또는 다세포 유기체로부터 수득된 것을 특징으로 하는 연산 방법.
  3. 제 1항에 있어서, 상기 단백질 서열은 대장균(E. coli), 헤모필러스 인플루엔자(Haemophilus influenzae), 헬리코박터 필로리(Helicobacter pylori), 미코플라 스마 뉴모니아(Mycoplasma pneumoniae), 미코박테리움 투베르쿨로시스(Mycobacterium tuberculosis), 리켓차 프로와제키(Rickettsiae prowazekii), 포르피로모나스 진저발리스(Porphyromonas gingivalis), 쉬겔라 플렉스네리(Shigella flexneri), 스트렙토코커스 뮤탄스(Streptococcus mutans), 스트렙토코커스 뉴모니아(Streptococcus pneumoniae), 네이세리아 메닌지티디스(Neisseria meningitides), 스트렙토코커스 피오게네스(Streptococcus pyogenes), 트레포네마 팔리듐(Treponema pallidum) 및 중증 급성 호흡기 증후군의 인간 코로나바이러스(Severe Acute Respiratory Syndrome associated human coronavirus, SARS)로 이루어진 군으로부터 선택된 병원체로부터 수득된 것을 특징으로 하는 연산 방법.
  4. 제 1항에 있어서, 상기 방법은 비-상동성 방법인 것을 특징으로 하는 연산 방법.
  5. 제 1항에 있어서, 상기 방법은 상기 서열의 105가지의 구성적 특성을 이용하는 것을 특징으로 하는 연산 방법.
  6. 제 1항에 있어서, 상기 방법의 민감성(sensitivity)은 90% 이상인 것을 특징으로 하는 연산 방법.
  7. 제 1항에 있어서, 상기 방법의 특이성(specificity)은 100% 이상인 것을 특 징으로 하는 연산 방법.
  8. 제 1항에 있어서, 상기 방법은 관련성이 먼 유기체에서의 어드헤신 동정에 이용되는 것을 특징으로 하는 연산 방법.
  9. 제 1항에 있어서, 상기 신경 회로망은 입력층(input layer), 하나의 은닉층(hidden layer)과 출력층(output layer)으로 구성된 다층의 순방향 토폴로지(multi-layer feed forward topology)를 가지는 것을 특징으로 하는 연산 방법.
  10. 제 9항에 있어서, 상기 입력층의 신경의 수는 각 속성에 대한 데이타 입력 점 (input data point)의 수와 동일한 것을 특징으로 하는 연산 방법.
  11. 제 1항에 있어서, 상기 "Pad"는 5가지의 연산된 속성들에 대한 확률 값들의 선형 가중 합(weighted linear sum)인 것을 특징으로 하는 연산 방법.
  12. 제 1항에 있어서, 각각의 훈련된 회로망은 상기 단백질 서열에 대해 어드헤신일 확률 값을 할당(assign)하는 것을 특징으로 하는 연산 방법.
  13. 제 1항의 방법을 수행하기 위한 컴퓨터 시스템으로서,
    CPU(central processing unit), 디스플레이 및 사용자 인터페이스 장치를 포 함하며,
    상기 CPU는 인공 신경 회로망을 이용하여 여러가지 속성들을 기초로 확률을 제공하는 SPAAN 프로그램과, 상기 CPU에 의해 액세스(access)되는 기억 장치에 저장된 속성을 평가하는 프로그램을 실행하며;
    상기 디스플레이 상에는, 사용자의 입력에 따라 상기 CPU가 실행하는 상기 프로그램들의 스크린이 표시되는 것을 특징으로 하는, 컴퓨터 시스템.
  14. 서열번호 385 내지 658을 가지며, 어드헤신 및 어드헤신계 단백질을 코딩하는 274개의 유전자의 세트.
  15. 서열번호 659 내지 763을 가지며, 어드헤신 및 어드헤신계 단백질을 코딩하는 105개의 가정(hypothetical)의 유전자의 세트.
  16. 서열번호 1 내지 279을 가지며, 어드헤신 및 어드헤신계 단백질을 코딩하는 279개의 유전자의 세트.
  17. 서열번호 280 내지 384을 가지며, 어드헤신 및 어드헤신계 단백질을 코딩하는 105개의 가정의 유전자의 세트.
  18. 제 1항에 따른 연산 처리 방법을 기초로한, 완전히 연결된 다층 순방향 인공 신경 회로망으로서,
    상기 회로망은 입력층, 은닉층 및 출력층이 이러한 기재 순서대로 연결되어 있고,
    상기 각 신경은 이진수(binary digit number)이며 어드헤신이나 어드헤신계 단백질을 동정하기 위해 후속 층의 각 신경과 연결되어 있으며,
    그 프로그램은
    a) FASTA 형식으로 단백질 서열을 입력하는 단계;
    b) 단백질 서열의 5가지 구성적 속성을 정량화하여 수치 입력 벡터(numerical input vector)의 합이 105인 속성들 각각에 대한 각각의 수치 입력 벡터를 구하기 위한 다중항(multiplet)에서, 상기 단계 a)의 서열을 A, C, D, H 및 M으로 명명한 5가지 모듈로 처리하는 단계로, 속성 A는 아미노산 조성이며, 속성 C는 전하 구성이며, 속성 D는 20개의 디펩티드(NG, RE, TN, NT, GT, TT, DE, ER, RR, RK, RI, AT, TS, IV, SG, GS, TG, GN, VI 및 HR)의 디펩티드 조성이며, 속성 H는 소수성 구성이며, 속성 M은 아미노산 빈도인, 처리 단계;
    c) 시그널을 얻기 위해, 입력 신경 층에서 단계 b)에서 구한 수치 입력 벡터를 처리하는 단계로, 신경의 수는 각 속성에 대한 수치 입력 벡터의 수와 동일한, 처리 단계;
    d) 시냅스 가중 신호(synaptic weighted signal)을 구하기 위해 은닉층에서 단계 c)로부터 수득한 신호를 처리하는 단계로, 은닉층의 최적 신경의 수는 각 개별적인 회로망의 최적기에서 에러를 최소화하기 위한 실험을 통해 결정되는, 처리 단계;
    e) 각 회로망 모듈에 의해 단계 a)에서 입력한 각 단백질 서열이 어드헤신일 확률 값을 할당하기 위하여, 단계 d)의 시냅스 가중 신호를 출력층에 전달하는 단계; 및
    f) 단백질 서열이 Pad 값으로 표시되는 어드헤신일 최종 확률을 연산하기 위해, 단계 e)의 개별적인 확률을 이용하는 단계로, Pad 값은 단계 e)에서의 개별적인 확률들의 가중 평균이고 예측 강도의 측정치인 관련 상관 비율(associated fraction of correlation)인, 단계를 포함하는 프로그램 단계인, 다층 순방향 인공 신경 회로망.
  19. 제 18항에 있어서, 상기 입력층의 신경은 105가지의 구성적 특성에 상응하는 총 105개의 신경을 포함하는 것을 특징으로 하는 다층 순방향 인공 신경 회로망.
  20. 제 18항에 있어서, 상기 은닉층은 아미노산 빈도에 대해 30개, 다중체 빈도에 대해 28개, 디펩티드 빈도에 대해 28개, 전하 구성에 대해 30개 및 소수성 구성에 대해 30개로 표시된 신경을 포함하는 것을 특징으로 하는 다층 순방향 인공 신경 회로망.
  21. 제 18항에 있어서, 상기 출력층은 각 단백질 서열에 대한 확률 값으로서 출 력치를 전달하기 위한 신경들을 포함하는 것을 특징으로 하는 다층 순방향 인공 신경 회로망.
KR1020067018206A 2004-02-06 2005-02-07 치료학적 잠재성을 가진 어드헤신 및 어드헤신계 단백질을 동정하기 위한 컴퓨터 장치 KR101178776B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
IN173/DEL/2004 2004-02-06
IN173DE2004 2004-02-06
US58922704P 2004-07-20 2004-07-20
US60/589,227 2004-07-20
PCT/IN2005/000037 WO2005076010A2 (en) 2004-02-06 2005-02-07 Computational method for identifying adhesin and adhesin-like proteins of therapeutic potential

Publications (2)

Publication Number Publication Date
KR20070020215A true KR20070020215A (ko) 2007-02-20
KR101178776B1 KR101178776B1 (ko) 2012-09-07

Family

ID=34839947

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067018206A KR101178776B1 (ko) 2004-02-06 2005-02-07 치료학적 잠재성을 가진 어드헤신 및 어드헤신계 단백질을 동정하기 위한 컴퓨터 장치

Country Status (6)

Country Link
US (1) US7424370B2 (ko)
EP (1) EP1721283B1 (ko)
JP (1) JP2007520718A (ko)
KR (1) KR101178776B1 (ko)
IL (1) IL177308A0 (ko)
WO (1) WO2005076010A2 (ko)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPO652897A0 (en) 1997-04-30 1997-05-29 University Of Melbourne, The Synthetic peptide constructs for the diagnosis and treatment of periodontitis
US8129500B2 (en) 1997-12-10 2012-03-06 Csl Limited Porphyromonas gingivalis polypeptides and nucleotides
MXPA03003690A (es) 2000-10-27 2004-05-05 Chiron Spa Acidos nucleicos y proteinas de los grupos a y b de estreptococos.
US20040126811A1 (en) * 2002-02-21 2004-07-01 Thomas Boren Helicobacter pylori sialic acid binding adhesin, saba and saba-gene
AU2003260102A1 (en) * 2002-08-26 2004-03-11 Chiron Corporation Conserved and specific streptococcal genomes
AT412678B (de) * 2002-09-30 2005-05-25 Gerhard Dr Kranner Verfahren zur rechnergestützten erstellung von prognosen für operative systeme sowie system zur erstellung von prognosen für operative systeme
ES2505695T3 (es) * 2003-07-31 2014-10-10 Novartis Vaccines And Diagnostics, Inc. Composiciones inmunógenas para Streptococcus pyogenes
US8945589B2 (en) * 2003-09-15 2015-02-03 Novartis Vaccines And Diagnostics, Srl Immunogenic compositions for Streptococcus agalactiae
EP1619246A1 (en) * 2004-07-23 2006-01-25 Université de la Méditerranée, Aix-Marseille II RNA dependent RNA polymerases from coronavirus and their use in molecular biology and drug screening
JP2008508320A (ja) 2004-07-29 2008-03-21 カイロン コーポレイション Streptococcusagalactiaeのようなグラム陽性細菌に対する免疫原性組成物
WO2006042027A2 (en) * 2004-10-08 2006-04-20 Novartis Vaccines And Diagnostics Inc. Immunogenic and therapeutic compositions for streptococcus pyogenes
HUE027400T2 (en) * 2005-02-18 2016-10-28 Glaxosmithkline Biologicals Sa Proteins and nucleic acids from meningitis / sepsis with Escherichia coli
ES2683846T3 (es) * 2006-01-20 2018-09-28 Cell Signaling Technology, Inc. ROS quinasa mutante y de translocación en el carcinoma pulmonar no microcítico humano
US8383799B2 (en) 2006-01-20 2013-02-26 Cell Signaling Technology, Inc. Translocation and mutant ROS kinase in human non-small cell lung carcinoma
EP2441469A1 (en) 2006-03-14 2012-04-18 Oregon Health and Science University Methods for producing an immune response to tuberculosis
US20100015168A1 (en) * 2006-06-09 2010-01-21 Novartis Ag Immunogenic compositions for streptococcus agalactiae
EP2038297A4 (en) * 2006-06-27 2010-03-03 Oral Health Australia Pty Ltd PORPHYROMONAS GINGIVALIS POLYPEPTIDES SUITABLE FOR PREVENTION OF PERIODONTITIS
JP2008063285A (ja) * 2006-09-08 2008-03-21 Univ Nagoya 高親和性ペプチドの設計法及び調製法、並びに高親和性ペプチド
GB0618127D0 (en) * 2006-09-14 2006-10-25 Isis Innovation Biomarker
EP2094297A2 (en) * 2006-10-30 2009-09-02 Novartis AG Immunogenic and therapeutic compositions for streptococcus pyogenes
US8241611B2 (en) 2007-07-12 2012-08-14 Oral Health Austrailia Pty. Ltd. Biofilm treatment
EP2604692A1 (en) * 2007-07-12 2013-06-19 Oral Health Australia Pty Ltd Immunology treatment for biofilms
CN101969992B (zh) 2007-09-12 2014-10-01 诺华股份有限公司 Gas57突变型抗原和gas57抗体
NZ586430A (en) 2007-12-21 2012-09-28 Novartis Ag Mutant forms of streptolysin o (slo)
EP2108656A1 (en) * 2008-03-19 2009-10-14 Beninati, Concetta Antigenic protein fragments of streptococcus pneumoniae
AU2009259959A1 (en) 2008-06-20 2009-12-23 Wyeth Llc Compositions and methods of use of ORF1358 from beta-hemolytic streptococcal strains
SG10201505149WA (en) * 2008-07-25 2015-07-30 Glaxosmithkline Biolog Sa Novel compositions and methods
EP2315834B1 (en) 2008-07-25 2018-06-13 GlaxoSmithKline Biologicals S.A. The tuberculosis rv2386c protein, compositions and uses thereof
CA2735171C (en) 2008-08-29 2023-10-03 Oral Health Australia Pty Ltd Prevention, treatment and diagnosis of p.gingivalis infection
MX2011004755A (es) 2008-11-05 2011-10-10 Wyeth Llc Composicion inmunogenica multicomponente para la prevencion de enfermedad estreptococica beta-hemolitica (bhs).
US9119802B2 (en) * 2009-05-06 2015-09-01 Cornell University E. coli LpfA antigen for prevention and treatment of infectious diseases
US8140041B2 (en) * 2009-08-27 2012-03-20 Mediatek Inc. Tunable capacitive device with linearization technique employed therein
GB0917647D0 (en) 2009-10-08 2009-11-25 Glaxosmithkline Biolog Sa Expression system
WO2011063283A2 (en) 2009-11-20 2011-05-26 Oregon Health & Science University Methods for detecting a mycobacterium tuberculosis infection
WO2012059592A1 (en) * 2010-11-05 2012-05-10 Institut National De La Sante Et De La Recherche Medicale (Inserm) Compounds for delivering a therapeutic or imaging agent to the brain
WO2013153359A1 (en) 2012-04-10 2013-10-17 Oxford Nanopore Technologies Limited Mutant lysenin pores
RU2483114C1 (ru) * 2012-04-27 2013-05-27 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Ульяновский государственный университет" СПОСОБ ВЫЯВЛЕНИЯ ГЕНОВ, ДЕТЕРМИНИРУЮЩИХ АДГЕЗИНЫ, ГЕМОЛИЗИНЫ, МАННОЗА-РЕЗИСТЕНТНЫЕ ГЕМАГГЛЮТИНИНЫ У ГЕНИТАЛЬНЫХ ШТАММОВ Escherichia coli
AU2013295242C1 (en) 2012-07-27 2018-08-09 Institut National De La Sante Et De La Recherche Medicale CD147 as receptor for pilus-mediated adhesion of meningococci to vascular endothelia
US10287330B2 (en) 2012-12-27 2019-05-14 Glaxosmithkline Biologicals S.A. Methods and compositions relating to CRM197
CN103209417B (zh) * 2013-03-05 2016-01-20 北京邮电大学 基于神经网络的频谱占用状态的预测方法以及装置
GB201313477D0 (en) 2013-07-29 2013-09-11 Univ Leuven Kath Nanopore biosensors for detection of proteins and nucleic acids
CN111534504A (zh) 2014-01-22 2020-08-14 牛津纳米孔技术公司 将一个或多个多核苷酸结合蛋白连接到靶多核苷酸的方法
WO2015130832A1 (en) 2014-02-25 2015-09-03 The Regents Of The University Of California Agents for enhancement of production of biofuel precursors in microalgae
CN103834668B (zh) * 2014-03-17 2016-08-17 英诺特(唐山)生物技术有限公司 一种重组肺炎支原体蛋白及其应用
US10167503B2 (en) 2014-05-02 2019-01-01 Oxford Nanopore Technologies Ltd. Mutant pores
EP3262061B1 (en) * 2015-02-27 2023-07-12 Fundació Centre de Regulació Genòmica Peptides for facilitating secretion and uses thereof
CN108779170A (zh) 2016-03-02 2018-11-09 牛津纳米孔技术公司 突变孔
WO2017174990A1 (en) 2016-04-06 2017-10-12 Oxford Nanopore Technologies Limited Mutant pore
TWI598360B (zh) * 2016-12-19 2017-09-11 義守大學 Fsbm重組蛋白及其用途
AU2018294660B2 (en) * 2017-06-30 2022-05-19 Oxford Nanopore Technologies Plc Novel protein pores
EP3581201A1 (en) * 2018-06-15 2019-12-18 GlaxoSmithKline Biologicals S.A. Escherichia coli o157:h7 proteins and uses thereof
CN113554145B (zh) * 2020-04-26 2024-03-29 伊姆西Ip控股有限责任公司 确定神经网络的输出的方法、电子设备和计算机程序产品
CN117143223B (zh) * 2022-08-23 2024-03-08 山西锦波生物医药股份有限公司 一种生物合成人体结构性材料的制备方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2548496A1 (en) * 2003-12-05 2005-06-23 Council Of Scientific And Industrial Research A computer based versatile method for identifying protein coding dna sequences useful as drug targets

Also Published As

Publication number Publication date
EP1721283B1 (en) 2022-11-30
WO2005076010A3 (en) 2006-04-27
IL177308A0 (en) 2006-12-10
EP1721283A2 (en) 2006-11-15
JP2007520718A (ja) 2007-07-26
US7424370B2 (en) 2008-09-09
US20050288866A1 (en) 2005-12-29
KR101178776B1 (ko) 2012-09-07
WO2005076010A2 (en) 2005-08-18

Similar Documents

Publication Publication Date Title
KR101178776B1 (ko) 치료학적 잠재성을 가진 어드헤신 및 어드헤신계 단백질을 동정하기 위한 컴퓨터 장치
Fouts et al. What makes a bacterial species pathogenic?: comparative genomic analysis of the genus Leptospira
Hassan et al. Pangenome and immuno-proteomics analysis of Acinetobacter baumannii strains revealed the core peptide vaccine targets
Seib et al. The key role of genomics in modern vaccine and drug design for emerging infectious diseases
He et al. Vaxign: the first web-based vaccine design program for reverse vaccinology and applications for vaccine development
Chen et al. Genomic characterization of the Yersinia genus
Moschioni et al. Streptococcus pneumoniae contains 3 rlrA pilus variants that are clonally related
Jaiswal et al. Jenner-predict server: prediction of protein vaccine candidates (PVCs) in bacteria based on host-pathogen interactions
Deshpande et al. Sequencing and validation of the genome of a Campylobacter concisus reveals intra-species diversity
Hurtado et al. Pan-genomic approach shows insight of genetic divergence and pathogenic-adaptation of Pasteurella multocida
Cash Investigating pathogen biology at the level of the proteome
Zhu et al. Immunoproteomic analysis of human serological antibody responses to vaccination with whole-cell pertussis vaccine (WCV)
Klimentova et al. Cross-species proteomic comparison of outer membrane vesicles and membranes of Francisella tularensis subsp. tularensis versus subsp. holarctica
Abdollahi et al. An in silico structural and physicochemical characterization of TonB-dependent copper receptor in A. baumannii
Naz et al. Reverse vaccinology and drug target identification through pan-genomics
Gazi et al. Functional prediction of hypothetical proteins from Shigella flexneri and validation of the predicted models by using ROC curve analysis
E-komon et al. Predicting the outer membrane proteome of Pasteurella multocida based on consensus prediction enhanced by results integration and manual confirmation
Sousa et al. Postgenomic approaches and bioinformatics tools to advance the development of vaccines against bacteria of the Burkholderia cepacia complex
He Omics‐based systems vaccinology for vaccine target identification
Martin-Garcia et al. Purification and biophysical characterization of the CapA membrane protein FTT0807 from Francisella tularensis
Taş et al. Determination of B-and T-cell epitopes for Helicobacter pylori cagPAI: An in silico approach
Jagusztyn-Krynicka et al. Proteomic technology in the design of new effective antibacterial vaccines
Khan et al. Functional annotation of putative conserved proteins from Borrelia burgdorferi to find potential drug targets
Manoharan-Basil et al. Evidence of horizontal gene transfer within porB in 19 018 whole-genome Neisseria spp. isolates: a global phylogenetic analysis
Ahmed In Silico Characterization of Essential Hypothetical Proteins from Francisella tularensis Schu S4 Strain.

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150527

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160428

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180816

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190807

Year of fee payment: 8