KR20240018606A - 단백질의 기공 형성 능력을 예측하기 위한 심층 학습 모델 - Google Patents

단백질의 기공 형성 능력을 예측하기 위한 심층 학습 모델 Download PDF

Info

Publication number
KR20240018606A
KR20240018606A KR1020247000514A KR20247000514A KR20240018606A KR 20240018606 A KR20240018606 A KR 20240018606A KR 1020247000514 A KR1020247000514 A KR 1020247000514A KR 20247000514 A KR20247000514 A KR 20247000514A KR 20240018606 A KR20240018606 A KR 20240018606A
Authority
KR
South Korea
Prior art keywords
proteins
array
pore
amino acid
processors
Prior art date
Application number
KR1020247000514A
Other languages
English (en)
Inventor
테주 제이콥
시어도어 칸
Original Assignee
바스프 아그리컬쳐럴 솔루션즈 시드 유에스 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 바스프 아그리컬쳐럴 솔루션즈 시드 유에스 엘엘씨 filed Critical 바스프 아그리컬쳐럴 솔루션즈 시드 유에스 엘엘씨
Publication of KR20240018606A publication Critical patent/KR20240018606A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Chemical & Material Sciences (AREA)
  • Biochemistry (AREA)
  • Peptides Or Proteins (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Image Analysis (AREA)

Abstract

하기는 일반적으로 기공-형성 단백질을 식별하는 것에 관한 것이다. 일부 실시예에서, 하나 이상의 프로세서는 제1 복수의 단백질을 번호로 인코딩하는 단계로 훈련 데이터 세트를 구축하고, 훈련 데이터세트를 사용하여 심층 학습 알고리즘을 훈련시키며, 제2 복수의 단백질을 번호로 인코딩하고, 심층 학습 알고리즘을 통해, 인코딩된 제2 복수의 단백질의 단백질을 잠재적으로 기공-형성 또는 잠재적으로 비-기공-형성으로 식별한다.

Description

단백질의 기공 형성 능력을 예측하기 위한 심층 학습 모델
관련 출원
본 출원은 2021년 6월 10일자로 출원된 미국 가 출원 제63/209375호의 이익을 주장하며, 이는 그의 전체 내용이 본원에서 참고로 포함된다.
본 발명은 분자 생물학 분야 및 계산 예측 분자 모델의 생성에 관한 것이다.
기공-형성 단백질은 살충제에 종종 사용된다. 특히, 기공-형성 단백질을 섭취하는 곤충은 그의 내장 세포막에서 기공을 발생시킬 것이며, 이는 곤충의 사망을 야기할 것이다.
이와 관련하여, 새로운 기공-형성 단백질을 식별하기 위해 다양한 기법이 개발되어 왔다. 그러나, 현재 기법은, 1) 단백질을 따라 짧은 거리 내에 있는 아미노산 사이에서만 의존성을 식별하고/하거나 2) 이미 알려진 기공-형성 단백질과 상당히 유사한 기공-형성 단백질만을 식별하기 때문에 주요 단점을 갖는다.
본원에 설명된 시스템 및 방법은 이러한 문제 등을 해결한다.
이 요약은 아래 발명을 실시하기 위한 구체적인 내용에서 추가적으로 설명되는 단순화된 형태로 개념의 선택을 도입하기 위해 제공된다. 이 요약은 청구된 주제의 주요 특징 또는 필수적인 특징을 식별하도록 의도되지 않고, 청구된 주제의 범위를 제한하는 데 사용되도록 의도되지도 않는다.
일 양태에서, 컴퓨터 구현 방법이 제공될 수 있다. 방법은, 하나 이상의 프로세서를 통해, 제1 복수의 단백질을 번호로 인코딩하는 단계로 훈련 데이터세트를 구축하는 단계, 하나 이상의 프로세서를 통해, 훈련 데이터세트를 사용하여 심층 학습 알고리즘을 훈련시키는 단계, 하나 이상의 프로세서를 통해, 제2 복수의 단백질을 번호로 인코딩하는 단계, 및 하나 이상의 프로세서 및 훈련된 심층 학습 알고리즘을 통해, 인코딩된 제2 복수의 단백질의 단백질을 잠재적으로 기공-형성 또는 잠재적으로 비-기공-형성으로 식별하는 단계를 포함할 수 있다.
다른 양태에서, 컴퓨터 시스템이 제공될 수 있다. 컴퓨터 시스템은, 제1 복수의 단백질을 번호로 인코딩하는 단계로 훈련 데이터세트를 구축하고, 훈련 데이터세트를 사용하여 심층 학습 알고리즘을 훈련시키며, 제2 복수의 단백질을 번호로 인코딩하고, 심층 학습 알고리즘을 통해, 인코딩된 제2 복수의 단백질의 단백질을 잠재적으로 기공-형성 또는 잠재적으로 비-기공-형성으로 식별하도록 구성된 하나 이상의 프로세서를 포함할 수 있다.
또 다른 양태에서, 다른 컴퓨터 시스템이 제공될 수 있다. 컴퓨터 시스템은 하나 이상의 프로세서, 및 하나 이상의 프로세서에 결합된 하나 이상의 메모리를 포함할 수 있다. 하나 이상의 메모리는, 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서가 제1 복수의 단백질을 번호로 인코딩하는 단계로 훈련 데이터세트를 구축하고, 훈련 데이터세트를 사용하여 심층 학습 알고리즘을 훈련시키며, 제2 복수의 단백질을 번호로 인코딩하고, 심층 학습 알고리즘을 통해, 인코딩된 제2 복수의 단백질의 단백질을 잠재적으로 기공-형성 또는 잠재적으로 비-기공-형성으로 식별하게 하는 그 안에 저장된 컴퓨터 실행가능 명령어를 포함할 수 있다.
도 1은 기공-형성 단백질을 결정하고/하거나 살충제를 구축하기 위한 예시적인 시스템을 도시한다.
도 2는 본원에 설명된 시스템 및 방법에 따른 심층 학습 모델의 예시적인 윤곽을 예시한다.
도 3은 상이한 인코딩 방법에 대한 예시적인 정확도 및 손실 곡선을 예시한다.
도 4는 조합된 원-핫 인코딩 및 아미노산 특징 인코딩 방법에 대한 예시적인 변화율(ROC) 곡선을 예시한다.
도 5는 조합된 인코딩 방법의 예시적인 수신기 동작 특성 곡선을 예시한다.
도 6은 예시적인 방법의 흐름도를 예시한다.
이점은 예시로서 도시되고 설명된 바람직한 실시예의 다음의 설명으로부터 당업자에게 더욱 명백해질 것이다. 이해되는 바와 같이, 본 실시예는 다른 및 상이한 실시예가 가능할 수 있고, 이들의 상세사항은 다양한 측면에서 수정될 수 있다. 따라서, 도면 및 설명은 본질적으로 예시적이며 제한적이지 않은 것으로 간주되어야 한다.
본원에 설명된 실시예는 잠재적으로 기공-형성 단백질을 식별하고 살충제를 구축하기 위한 기법에 관한 것이다.
도입
기공-형성 단백질은 세포 원형질막에 도관을 형성하며, 세포내 및 세포외 용질이 세포 경계를 가로질러 누출되게 한다. 아미노산 배열 및 기공-형성 단백질의 3-차원 구조는 극히 다양하지만, 이들은 수용성 단량체가 합쳐져서 기공을 형성하기 위해 세포막에 삽입되는 올리고머성 예비-기공 구조를 형성하는 공통 작용 모드를 공유한다[세포막 손상 단백질 독소의 기공-형성 모티프에서의 배열 다양성. Mondal AK, Verma P, Lata K, Singh M, Chatterjee S, Chattopadhyay K. s.l.: 세포막생물학 저널, 2020]. 병원성 박테리아로부터 기원하는 많은 기공 형성제는 농업 해충에 대해 독성인 것으로 잘 기록되어 있다[포자-형성 곤충병원성 박테리아로부터의 단백질 독소의 구조, 다양성, 및 발생.de Maagd R. A., Bravo A., Berry C., Crickmore N., Schnepf H. E. 2003, Annual Review of Genetics] [바실러스 투린지엔시스균 독성: 이들의 살생물성 활성의 개요. Palma, L.,
Figure pct00001
D., Berry, C., Murillo, J., andCaballero, P. 2014, Toxins, pp. 3296-3325]. 이들은 일단 섭취되면 해충의 내장 세포막에 기공을 형성함으로써 동작하며, 해충의 사망을 야기한다.
이와 관련하여, 경구 활성 기공 형성제는 유전자이식 작물을 포함하는 농업용 용도를 위한 여러 살충 제품에서의 주요 성분이다. 이 출원을 위해 매우 다양한 기공-형성 단백질 계열이 2가지 이유에서 필요하다. 첫째, 임의의 주어진 기공 형성제는 전형적으로 적은 수의 해충 종에 대해 활성일 뿐이다[Cry 살충 단백질에 대한 특이성 결정요인: 이들의 작용 모드로부터의 통찰. N., jurat-Fuentes J. l. and Crickor. s.l.: J Invertebr Pathol, 2017]. 그 결과, 공통 해충으로부터 작물을 보호하기 위해 하나 초과의 계열로부터의 단백질이 필요할 수 있다. 둘째, 특정 단백질의 광범위한 사용은 그 단백질에 저항력이 있는 해충의 발생으로 이어질 수 있다[인시목 해충의 Cry 독소 저항의 메커니즘의 개요. Peterson B., Bezuidenhout C.C, van Berg J. 2, s.l: J Econ Entomol, 2017, vol. 110] [Vol. 110] [Bt 작물에 대한 곤충 저항: 처음 10억 에이커로부터의 교훈. Tabashnik, B.,
Figure pct00002
Y. s.l.: Nat Biotechnol, 2013, Vol. 31] [Bt 작물을 위한 해충 저항성 관리에서 인시목에 대한 피라미드형 특성의 적용. Storer N. P., Thompson G. D., Head G. P. 3, s.l: GM Crops Food, 2012, vol. 3]. 따라서, 더 넓은 범위의 해충을 제어하고 해충의 저항의 발달을 지연시킬 새로운 제품으로 이어서 개발될 수 있는 새로운 기공 형성제를 식별할 긴급한 필요가 있다. 새로운 작용 모드를 갖는 기공 형성제는 저항을 극복하고, 하나의 제품에서 다수의 작용 모드를 조합하는 것은 저항의 개발을 지연시킬 수 있다. 새로운 기공 형성제는 전통적인 방법으로 찾기 어려우며, 이는 박테리아 배양물을 해충에 공급하는 단계, 또는 알려진 기공 형성제의 상동체를 검색하는 단계를 포함한다[유전체학 및 계산 생물학에 의한 새로운 박테리아 독소의 발견. Doxey, A. C., Mansfield, M. J., Montecucco, C. 2018, Toxicon]. 현대의 게놈 배열 방법은 기능이 알려지지 않은 유전자의 방대한 미개발 자원을 생성하였다[유심히 보면 보이는 것: 진핵생물의 단백질체에서 아직 발견되지 않은 것은 무엇인가? Wood V., lock A., harris M. A., rutherford K.,
Figure pct00003
and Ohy s. G. s.l.: Open Biol., 2019] [Open Biol., 2019] [문헌 프로파일링을 사용하여 기능 카테고리에 대한 원핵 유전자의 자동 할당. Torrieri, R., Silva de Oliveira, F., Oliveira, G., and Coimbra, R. s.l.: Plos One, 2012] [알려지지 않은 '단백질 및 고아' 효소: 엔지니어링 부품의 누락된 절반, 및 이를 찾는 방법. Hanson, A., Pribat, A., Waller, J., and
Figure pct00004
V. 1, s.l.: The Biochemical journal, 2009, Vol. 425]. 기공-형성 활성에 대해 이들의 작은 분획 이상을 시험하는 것이 실험적으로 가능하지 않기 때문에, 이들 단백질이 시험되어야 하는 우선순위화를 위해 계산 방법이 필요하다.
새로운 기공-형성 단백질을 검출하기 위한 현재의 계산 방법론은 배열 상동성-기반 접근법에 의존한다. 전체 단백질 및 알려진 기공-형성 단백질로부터의 단백질 도메인의 배열은 기능성이 알려지지 않은 단백질과 비교되고, 알려진 독소와 유사한 것은 추가적인 시험을 위해 최종후보로 선정된다. 기본 로컬 정렬 검색 도구(BLAST)[기본 로컬 정렬 검색 도구. Altschul S. F., gish W., miller W., myers E. W., lipman D. J. 1990, j Mol Biol., pp. 403-410] 및 은닉 마르코프 모델(HMM)] [프로파일 은닉 마르코프 모델. Eddy, s. R. 9, 1998, bioinformatics, vol. 14, pp. 755―763]는 배열 상동성 비교를 위해 가장 널리 사용되는 도구이다. 그러나, 이러한 방법은 1) 단백질 배열을 따라 짧은 거리 내에 있는 아미노산 사이의 의존성만을 식별하고, 2) 이미 존재하는 기공 형성제와 상당히 유사한 배열만을 식별한다. 진정으로 새로운 기공 형성제는 이러한 방법이 이들을 식별하지 않을 것이다라고 알려진 기공 형성제와 충분히 상이할 수 있다.
본원에 설명된 시스템 및 방법은 알려진 또는 잠재적으로 새로운 독소에 대한 3-차원 구조 데이터의 부재 하에서 잠재적인 새로운 기공-형성 독소를 검출하는 데 있어서 배열 상동성을 넘어서 이동할 수 있게 한다. 대체로 말하면, 심층 학습 모델은 단백질과 관련된 다양한 태스크에 사용되어 왔다[ DeepGO: 심층 온톨로지-인식 분류기를 사용한 배열 및 상호작용으로부터의 단백질 기능 예측. Kulmanov M, khan MA, hoehndorf R, wren J. 2018, bioinformatics, pp. 660-668] [상동성 전이를 넘어서: 단백질의 자동화된 주석를 위한 심층 학습. Nauman, m., ur Rehman, h., politano, g. et al. 2019, j Grid Computing, pp. 225-237] [DeepSF: 단백질 배열을 접힘에 맵핑하기 위한 심층 콘볼루션 신경망. Hou J, adhikari B, cheng J. 2018, bioinformatics, pp. 1295-1303] [DEEPred: 다중 태스크 피드-포워드 심층 신경망을 이용한 자동화된 단백질 기능 예측. Sureyya Rifaioglu, A.,
Figure pct00005
Jesus Martin, M. et al. 2019, Nature Scientific Reports] [심층 학습에 의한 DNA- 및 RNA-결합 단백질의 배열 특이성 예측. Alipanahi, B., Delong, A., Weirauch, M. et al. 2015, Nature Biotechnology, pp. 831―838].
일부 실시예는 HMM들과 같은 전통적인 배열 매칭 방법에서 수행되는 바와 같이 이웃하는 아미노산 사이의 의존성만을 캡처하지 않도록 심층 학습을 활용하지만, 또한 단백질 배열을 따라 더 멀리 떨어진 아미노산 사이의 의존성을 활용한다. 물리적 및 화학적 특성의 관점에서 아미노산을 인코딩하는 단계로, 일부 실시예는 기공을 형성하는 단백질의 기본 특성을 캡쳐하며, 현재 인식되지 않는 유사성에 기초하여 새로운 기공 형성제를 식별하게 한다.
기공-형성 단백질은 광범위하게 이들의 세포막 스패닝 요소의 2차 구조에 기초하여 알파 및 베타 카테고리로 분류될 수 있다[기공-형성 단백질 독소: 구조부터 기능까지. Parker, M. W., and Feil, S. C. 2005, progress in Biophysics and Molecular Biology, pp. 91-142] [기공-형성 독소: 유행타지 않는 오래된 것. Peraro, M. D. and van der Goot, F. G. 2016, Nature Reviews]. 예를 들어, 알파 기공-형성 단백질은 알파 나선 2차 구조를 포함할 수 있고, 베타 기공-형성 단백질은 베타 배럴 2차 구조를 포함할 수 있다. 살충 알파 기공 형성제의 예는 다수의 Cry 단백질 계열 구성원 및 Vip3 단백질 계열 구성원을 포함하며, 살충 베타 기공 형성제의 예는 Mtx 및 독소(10) 단백질 계열 구성원을 포함한다[바실러스 투린지엔시스 및 다른 박테리아 유래 살충 단백질에 대한 구조-기반 명명법. Crickmore, N., Berry, C., Panneerselvam, S., Mishra, R., Connor, T., and Bonning, B. s.l.: Journal of Invetebrate Pathology, 2020] [기공-형성 단백질 독소: 구조부터 기능까지. Parker, M. W., and Feil, S. C. 2005, Progress in Biophysics and Molecular Biology, pp. 91-142].
일부 실시예는, 이들이 알파 또는 베타 기공-형성 단백질인지 여부에 관계없이, 기공-형성 단백질을 비-기공-형성 단백질로부터 구별한다. 일부 실시예는 공개된 알파 및 베타 기공-형성 단백질의 배열의 데이터를 심층 학습 모델에 대한 훈련 세트의 일부로서 사용한다[예를 들어, uniprot. Uniprot. [온라인] https://www.uniprot.org/]. 일부 구현예는 훈련 세트에서 단백질을 위한 일련의 인코딩 방법을 사용하고, 비-기공 형성 단백질로부터 기공 형성을 구별하는 데 있어서 이들의 정확도를 평가한다. 일부 실시예는 또한 이러한 인코딩 방법의 정밀도 및 재현 특성을 평가한다. 또한, 훈련 세트의 일부가 아닌 기공 형성제를 검출하려고 시도할 때 BLAST 및 HMM 모델에 비교가 이루어질 수 있다.
실험적인 예
인프라구조
도 1은 예시적인 시스템(100)을 도시한다. 이를 참조하면, 컴퓨팅 장치(150)(예를 들어, 컴퓨터, 태블릿, 서버 팜 등)가 기지국(110)을 통해 컴퓨터 네트워크(120)에 연결될 수 있다. 컴퓨터 네트워크(120)는 본원에 설명된 다양한 장치 및 서버 사이에서 컴퓨터 데이터 패킷을 송신하도록 동작가능한 패킷 기반 네트워크를 포함할 수 있다. 예를 들어, 컴퓨터 네트워크(120)는 이더넷 기반 네트워크, 개인 네트워크, 근거리 네트워크(LAN), 및/또는 예를 들어 인터넷과 같은 광역 네트워크 (WAN) 중 임의의 하나 이상으로 구성될 수 있다.
도 1을 추가적으로 참조하면, 컴퓨팅 장치(150)는 컴퓨터 네트워크(120)에 연결되어 있다. 당업계에서 이해되는 바와 같이, 컴퓨팅 장치(들)는 프로세서(들) 및 메모리를 포함한다. 도 1의 예에서, 컴퓨팅 장치(150)는 프로세서(들)(160)(아래에서 설명되는 바와 같이 심층 학습 모델(170)을 포함하는) 및 메모리(190)를 포함한다. 당업계에서 이해되는 바와 같이, 프로세서(160)는 단일 프로세서 또는 프로세서의 그룹일 수 있다. 또한, 심층 학습 모델(170)은 단일 프로세서 또는 프로세서의 그룹 상에서 구현될 수 있다.
도 1의 예는 또한 데이터베이스(110)를 예시한다. 일부 실시예에서, 데이터베이스(110)는 기공-형성 단백질 데이터의 데이터베이스를 포함한다. 도 1의 예가 데이터베이스(110)를 컴퓨팅 장치(150)와 별개로 예시하지만, 일부 구현예에서, 데이터베이스(110)는 컴퓨팅 장치(150)(예를 들어, 메모리(190)의 일부, 또는 메모리(190)와는 별개인)의 일부이다.
도 1의 예에서 추가적으로 예시된 것은 공장(130)(예를 들어, 살충제 공장)이다. 일부 실시예에서, 컴퓨팅 장치(150)는 기공-형성 단백질을 식별하고, 공장(130)은 기공 형성 단백질 또는 기공-형성 단백질을 포함하는 살충제를 제조한다. 일부 실시예에서, 컴퓨팅 장치(150)는 기공-형성 단백질을 포함하는 전체 살충제 제조법을 결정한다. 다른 실시예에서, 컴퓨팅 장치(150)는 기공-형성 단백질만을 결정하고, 완전한 살충제 제조법은 공장(130)에 의해(예를 들어, 공장(130)의 컴퓨터, 서버 등에 의해) 결정된다.
모델
심층 학습 모델의 윤곽의 일례는 도 2에 도시된 바와 같다. 인코딩된 단백질 배열(205)은 다수의 콘볼루션 층(210, 220) 및 풀링 층(215, 225)을 통과한다. 이어서 드롭아웃 층(230)이 이어지고, 이후에 완전히 연결된 층(235)을 통해 출력으로 통과된다. 일부 실시예에서, 네트워크의 하이퍼파라미터는 베이지안 최적화에 의해 선택된다.
일부 실시예에서, 인코딩된 단백질 배열(210)은 치수 1 × 100의 25개의 필터를 갖는 제1 콘볼루션 층(210) 및 치수 1 × 50을 갖는 콘볼루션 층 필터의 세트를 갖는 제2 콘볼루션 층(220)에 공급된다. 일부 실시예에서, 정류된 선형 유닛(ReLU)이 활성화 함수로서 사용되었다. 일부 구현예에서, 평균 제곱 오류는 손실 함수로서 사용된 측정 기준이었다. 일부 구현예에서, 풀링 층은 5의 풀 크기를 가졌고, 드롭아웃 층은 0.25의 인자를 가졌다.
데이터
임의의 데이터 공급원(예를 들어, 데이터베이스(110))이 알파 및 베타 기공-형성 단백질에 사용될 수 있다. 알파 기공 형성제 하에서, 일부 실시예는 살충 결정 단백질, 악티노포린, 헤몰리신, 콜리신, 및 페리프린올리신을 포함한다. 베타 기공 형성제 하에서, 일부 실시예는 류코시딘, 알파-헤몰리신, 페리프린올리신, 에어로리신, 헤모리신, 및 사이토리신을 포함한다. 일부 실시예는 아미노산의 제1 미리 결정된 길이(예를 들어, 50)보다 짧고/짧거나 제2 미리 결정된 길이(예를 들어, 2000)보다 더 긴 모든 아미노산 배열을 초기에 제거하는 것으로 시작한다. 일부 실시예는 데이터 세트에서 단편 및 전체 단백질 둘 모두를 포함한다. 일부 구현예는 알파 및 베타 기공-형성 계열 둘 모두에 속하는 대략 3000개의 단백질을 획득한다. 모델(170)을 오버피팅하는 것을 피하기 위해, 일부 실시예는 훈련 전에, 아미노산 배열을 70% 동일성으로 클러스터링한다. 일부 실시예는 훈련 전에 모든 배열이 동일한 길이임을 보장하기 위해 제로 패딩을 사용한다. 이 단계는 또한 결국 수백만 개의 단백질로 시험할 때 모델(170)을 비실용적으로 렌더링할 다수의 배열 정렬을 피할 수 있게 한다(예를 들어, 3000개의 단백질에 대한 위치 특정 배점 행렬(PSSM)을 생성하기 위해, 이는 1주일 이상 걸릴 것이다).
모델(170)이 만날 수 있는 가능한 단백질 구조의 관점에서 가능한 한 많은 다양성을 다루는 것이 유리하다. 일부 실시예는 PISCES 서버로부터 선별된 단백질 데이터 은행(PDB) 데이터 세트를 사용한다[ PISCES: 단백질 배열 선별 서버. Wang, G., and Dunbrack, Jr. R. L. 2003, Bioinformatics, pp. 1589-1591]. 일부 구현예에서, 데이터 세트 배열은 1.8 Å 해상도보다 더 양호하게 20 퍼센트 미만의 배열 동일성을 가졌다. 일부 실시예에서, 길이는 다시 한번 50-2000 아미노산 범위 내에 있도록 제한되었다. 일부 구현예는 0.01의 E-값을 갖는 BLASTP 결과에 기초하여 양성 훈련 세트 내의 것과 유사한 배열을 제거했다. 최종 목록은 대략 5000개의 배열을 가졌다.
다양한 인코딩 방식의 비교
단백질 배열은 전형적으로 문자로 표시된 아미노산으로 이루어진다. 계산 알고리즘이 이들을 이해하기 위해서, 이들은 번호로 표현될 필요가 있다. 미리 결정된 번호에 의한 단백질 서열을 따른 문자의 표현은 동작한다. 예를 들어 모든 아미노산은 고유한 번호로 표현될 수 있다. 또는, 이들은 그 위치의 아미노산을 나타내는 1 및 나머지는 모두 0으로.원-핫 인코딩될 수 있으며, 단백질 배열을 따른 모든 위치는 지표 어레이로 표현된다. 문헌에서, 사용된 방법은, 예를 들어, 3개(트라이그램) 세트로 아미노산의 조합을 고유한 숫자로 표현한 것이다[DeepGO: 심층 온톨로지-인식 분류기를 사용한 배열 및 상호작용으로부터 단백질 기능의 예측. Kulmanov M, khan MA, hoehndorf R, wren J. 2018, bioinformatics, pp. 660-668]. 위치 특정 배점 행렬(PSSM)은 단백질 배열에 대한 번호 표현을 획득하기 위해 사용된 다른 방법이다[단백질 2차 구조 예측을 위한 심층 지도형 및 콘볼루션 일반 확률론적 네트워크. Zhou, J., and Troyanskaya, O. s.l.: Proceedings of the 31st International Conference on International Conference on Machine Learning, 2014]
일부 실시예는 결국 모델(170)을 수백만 개의 시험 단백질로 시험할 수 있게 하는 인코딩 방법에 의한 단백질 배열을 나타낸다. 따라서, 이들 실시예는 PSSM과 같은 기존의 단백질 데이터베이스와의 비교를 필요로 하는 방법을 배제한다. 일부 실시예는 또한, 모델(170)을 이미 알려진 단백질을 향해 편향시키는 것을 피하기 위해 알려진 기공 형성제로부터의 도메인 정보 활용을 배제한다. 원-핫 인코딩은 아미노산 배열을 번호로 신속하게 변환할 수 있게 할 것이지만, 이는 모든 아미노산을 동일하게 처리하여 더 큰 차원 공간을 필요로 한다.
이와 관련하여, 특정 이점은 가능한 한 낮은 차원의 공간에서 이들의 특성을 캡처하는 아미노산을 나타내는 기법을 찾음으로써 달성될 수 있다. 하나의 알려진 기법[단백질 배열 측정 기준 문제 해결. Atchley, W. R., Zhao, J., Fernandes, A.D., and Druke, T. 2005, Proceedings of the National Academy of Sciences, pp. 6395-6400]은 선택된 54개 아미노산 속성을 분석하고 5개의 아미노산 특징으로 감소시켰다. 캡쳐된 각각의 아미노산에 대응한 5개의 번호는 다음과 같다:
Figure pct00006
접근성, 극성, 및 소수성
2차 구조에 대한 성향
분자량 크기
코돈 구성
정전기 전하
이들 5개의 아미노산 특징 중 임의의 것을 따른 유사한 번호는 대응하는 특성 공간에서 유사성을 나타냈다. 하기 표 1은 이 아미노산 특징 기법을 사용한 인코딩의 하나의 예시적인 구현을 도시한다(예를 들어, 5개의 아미노산 특징은 표 1에서 5개의 인자로서 예시되었다).
[표 1]
Figure pct00011
아미노산 특성을 캡처하는 것 외에도, 이 표현은 특징 공간이 비교적 낮은 차원이므로 매력적이다. 예를 들어, 일부 실시예에서, 원-핫 인코딩은 28-차원 어레이(제로 패딩에 사용된 모든 아미노산 더하기 문자)를 사용하는 아미노산을 나타내는 반면, 아미노산 특징 기법은 5-차원 어레이를 사용하여 동일한 아미노산을 인코딩한다. 더 작은 특징 공간은 모델의 훈련 시간 및 메모리 요건을 훨씬 더 관리가능하게 만들지만, 정확도 및 손실 측정 기준으로 균형을 맞추는 것도 유리하다. 따라서, 일부 실시예는 원-핫 인코딩(예를 들어, 28차원 특징 공간), 아미노산 특징 인코딩(예를 들어, 5-차원 특징 공간) 뿐만 아니라 원-핫 인코딩 및 아미노산 특징 인코딩(예를 들어, 33차원 특징 공간)이 조합된 방법을 사용한다.
결과
상이한 인코딩 방법에 대한 예시적인 정확도 및 손실 곡선이 도 3에 도시되어 있다. 관찰될 수 있는 바와 같이, 모델의 훈련 동안 정확도 및 손실 곡선이 수렴했다. 훈련이 끝날 무렵 대략적으로 90%에 도달하는 정확도 값 및 대략적으로 5%에 도달하는 손실 값이 관찰되었다. 원-핫 및 조합된 인코딩 방법은 정확도 및 손실 곡선 둘 모두의 관점에서 아미노산 특징 인코딩보다 더 양호하였다. 조합된 인코딩 방법은 초기에 원-핫 인코딩에 유사했지만, 훈련의 끝 무렵에는 원-핫 인코딩보다 더 양호한 성능을 제공하기 시작했다. 데이터 세트는 훈련 및 검증 목적을 위해 80:20으로 분할되었다.
원-핫 인코딩 및 아미노산 특징 인코딩이 조합된 방법에 대한 변화율(ROC) 곡선의 예가 도 4에 도시되어 있다. 곡선 및 곡선 아래 면적(AOC) 값으로부터 알 수 있는 바와 같이, 모델은 그것이 훈련된 데이터 세트에서 거의 이상적인 성능을 제공한다.
도 5는 조합된 인코딩 방법의 예시적인 수신기 동작 특성 곡선을 예시한다. 이와 관련하여, 도 5는 음성, 알파, 및 베타 기공 형성제뿐만 아니라 평균 ROC 곡선에 대한 곡선을 예시한다.
하나의 목표는 모델(170)이 훈련 동안 이전에 보이지 않았던 새로운 기공 형성제를 BLAST 및 HMM과 같은 표준 방법보다 더 잘 포착할 수 있는지 평가하는 것이었다. 이를 위해, 시험은 모델(170)의 훈련 동안 포함되지 않았던 3개의 알려진 기공 형성제 계열 Vip3, mACPF, 및 독소(10)에 대해 수행되었다. BLAST 및 HMM에 대한 모델의 성능 비교는 표 2에 요약되어 있다.
표 2: BLAST, HMM 및 개시된 모델(예를 들어, 모델(170))을 관심있는 3개의 단백질 계열과 비교하는 표. 각각의 방법에 대응하는 컬럼은 각각의 카테고리에 속하는 단백질이 얼마나 많이 대응하는 방법에 의해 포착되었는가를 보여준다. 표는 개시된 모델이 전통적인 배열 상동성 접근법에 의해 누락된 기공 형성제를 검출하도록 관리됨을 보여준다.
[표 2]
Figure pct00012
이 시험을 위해 Vip3, MACPF, 독소(10) 단백질의 배열 데이터는 박테리아 살충 단백질 리소스 센터[BPPRC. [온라인] https://www.bpprc.org/.]로부터 가져왔다. 사용된 시험 단백질의 목록은 108개의 Vip3들, 5개의 MACPF들, 및 30개의 독소(10) 계열 단백질을 가졌다. 3개의 단백질 계열로 실행된 시험을 위해, 훈련 세트에 3개의 계열의 상동체는 존재하지 않았다 ― 즉, Vip3들 또는 퍼포린 또는 독소(10)들이 없다. BLAST를 평가하기 위해, 훈련 세트로부터 BLAST 데이터베이스를 제조하고, 시험 단백질과 비교했다. 사용된 E-값은 0.01이었다. MACPF에 대한 단일 히트는 훈련 세트에서 티올-활성화된 세포용해소의 존재로 인한 것이었다. HMM을 평가하기 위해, HMM은 훈련 세트의 각 단백질 카테고리에 대해 PFAM 데이터베이스에서 다운로드되었으며[Pfam 데이터베이스. [온라인] http://pfam.xfam.org], 이들 중 어떤 것이 테스트 목록에서 단백질을 포착할 수 있는지를 결정하기 위해 평가되었다. 다운로드된 HMM은 에어로리신, 류코시딘, 아네모네_사이토톡스, 콜리신, 엔도톡신_c, 엔도톡신_h, 헤몰리신_n, 및 hlye(헤몰리신 E)를 포함했다. 고려된 HMM 중 어느 것도 시험 카테고리로부터 어떤 단백질도 포착할 수 없었다, 즉, HMM은 새로운 단백질을 포착하는 데 적합하지 않다. 개시된 심층 학습 모델(170)에 대해, 훈련 후 모델은 이들 단백질의 목록으로 시험했고, 이들 중 얼마나 많이 모델에 의해 기공 형성제로서 포착되는지를 알기 위해 확인되었다. 표에 요약한 바와 같이, 모델(170)은 전통적인 배열 상동성 기반 접근법이 실패한 경우에도 훈련되지 않은 기공 형성제를 감지하도록 관리되었다. 다시 한번, 조합된 인코딩 방법은 원-핫 인코딩 및 아미노산 특징 5-인자 인코딩 방법을 능가했다.
예시적인 실시예
도 6은 예시적인 방법의 흐름도를 예시한다. 이를 참조하면, 블록(610)에서, 제1 복수의 단백질을 번호로 인코딩하는 단계로 구축된 데이터 세트를 훈련하는 단계. 인코딩은 본원에 설명된 임의의 기법 또는 임의의 적합한 기법에 의해 수행될 수 있다.
블록(620)에서, 심층 학습 알고리즘 또는 모델(170)은 훈련 데이터세트를 사용하여 훈련된다. 블록(630)에서, 제2 복수의 단백질이 인코딩된다. 제1 복수의 단백질의 인코딩과 마찬가지로, 제2 복수의 단백질에 대한 인코딩은 본원에 설명된 임의의 기법 또는 임의의 적합한 기법에 의해 수행될 수 있다. 블록(640)에서, 심층 학습 알고리즘 또는 모델(170)을 통해, 인코딩된 제2 복수의 단백질의 단백질은 잠재적으로 기공-형성 또는 잠재적으로 비-기공-형성 중 어느 하나로서 식별된다.
도 6의 블록은 반드시 이들이 제시되는 순서로 수행될 필요는 없다는 것이 이해되어야 한다(예를 들어, 블록은 임의의 순서로 수행될 수 있다). 또한, 도 6의 예에 제시된 것에 더하여 추가적인 블록이 수행될 수 있다. 또한 추가적으로, 도 6의 블록 모두가 수행되어야 하는 것은 아니다(예를 들어, 블록은 일부 실시예에서 선택적일 수 있다).
양태
양태 1. 컴퓨터 구현 방법으로서,
하나 이상의 프로세서를 통해, 제1 복수의 단백질을 번호로 인코딩하는 단계로 훈련 데이터 세트를 구축하는 단계,
하나 이상의 프로세서를 통해, 훈련 데이터세트를 사용하여 심층 학습 알고리즘을 훈련시키는 단계,
하나 이상의 프로세서를 통해, 제2 복수의 단백질을 번호로 인코딩하는 단계, 및
하나 이상의 프로세서 및 훈련된 심층 학습 알고리즘을 통해, 인코딩된 제2 복수의 단백질의 단백질을 잠재적으로 기공-형성 또는 잠재적으로 비-기공-형성 중 어느 하나로서 식별하는 단계를 포함하는, 컴퓨터 구현 방법.
양태 2. 양태 1에 있어서, 제1 복수의 단백질은 아미노산의 배열을 포함하는 단백질을 포함하고, 제1 복수의 단백질을 번호로 인코딩하는 단계는,
아미노산의 배열 내의 각각의 아미노산을 지표 어레이로서 나타내는 단계를 포함하며, 지표 어레이는 지표 어레이의 단일 요소를 (i) 1과 동일하게 하고, 요소의 나머지를 0과 동일하게 하거나, 또는 (ii) 0과 동일하게 하고, 요소의 나머지를 1과 동일하게 하는 단계에 의해 아미노산의 유형을 나타내는, 컴퓨터 구현 방법.
양태 3. 양태 1 또는 양태 2에 있어서, 제1 복수의 단백질은 아미노산의 배열을 포함하는 단백질을 포함하고, 제1 복수의 단백질을 번호로 인코딩하는 단계는,
아미노산의 배열 내의 각각의 아미노산을 어레이로서 나타내는 단계를 포함하고, 어레이의 요소는 아미노산 특징에 대응하는, 컴퓨터 구현 방법.
양태 4. 양태 1 내지 양태 3 중 어느 하나의 양태에 있어서, 제1 복수의 단백질은 아미노산의 배열을 포함하는 단백질을 포함하고, 제1 복수의 단백질을 번호로 인코딩하는 단계는,
아미노산의 배열 내의 각각의 아미노산을 어레이로서 나타내는 단계를 포함하고, 어레이의 요소는 아미노산 특징에 대응하고, 아미노산 속성은
(i) 접근성, 극성, 및 소수성,
(ii) 2차 구조체에 대한 경향,
(iii) 분자 크기,
(iv) 코돈 조성물, 또는
(v) 정전기 전하를 포함하는, 컴퓨터 구현 방법.
양태 5. 양태 1 내지 양태 4 중 어느 하나의 양태에 있어서, 제1 복수의 단백질은 아미노산의 배열을 포함하는 단백질을 포함하고, 제1 복수의 단백질을 번호로 인코딩하는 단계는,
아미노산의 배열 내의 각각의 아미노산을 어레이로서 나타내는 단계를 포함하고, 어레이의 요소는 아미노산 특징에 대응하고, 아미노산 속성은
(i) 접근성, 극성, 및 소수성,
(ii) 2차 구조체에 대한 경향,
(iii) 분자 크기,
(iv) 코돈 조성물, 및
(v) 정전기 전하를 포함하는, 컴퓨터 구현 방법.
양태 6. 양태 1 내지 양태 5 중 어느 하나의 양태에 있어서, 제1 복수의 단백질은 아미노산의 배열을 포함하는 단백질을 포함하고, 제1 복수의 단백질을 번호로 인코딩하는 단계는,
아미노산의 배열 내의 각각의 아미노산을 조합된 어레이로서 나타내는 단계를 포함하고, 조합된 어레이는
제1 어레이의 단일 요소를 (i) 1과 동일하게 하고, 요소의 나머지를 0과 동일하게 하거나, 또는 (ii) 0과 동일하게 하고, 요소의 나머지를 1과 동일하게 하는 단계에 의해 아미노산의 유형을 나타내는 제1 어레이, 및
아미노산 특징에 대응하는 제2 어레이의 요소를 갖는 제2 어레이를 조합하는 단계에 의해 형성되는, 컴퓨터 구현 방법.
양태 7. 양태 1 내지 양태 6 중 어느 하나의 양태에 있어서, 심층 학습 알고리즘은 콘볼루션 신경망을 포함하는, 컴퓨터 구현 방법.
양태 8. 양태 1 내지 양태 7 중 어느 하나의 양태에 있어서, 심층 학습 알고리즘은 콘볼루션 신경망(CNN)을 포함하고, CNN은
적어도 하나의 콘볼루션 층,
적어도 하나의 평균 풀링 층, 및
공간 드롭아웃 층을 포함하는, 컴퓨터 구현 방법.
양태 9. 양태 1 내지 8 중 어느 하나의 양태에 있어서, 인코딩된 제2 복수의 단백질의 단백질을 식별하는 단계는 단백질을 (i) 알파 기공-형성 단백질, (ii) 베타 기공 형성 단백질, 또는 (iii) 알파 기공-형성 단백질도 아니고 베타 기공-형성 단백질도 아닌 것으로 식별하는 단계를 포함하고, 알파 기공-형성 단백질은 알파 나선 구조를 갖고, 베타 기공 형성 단백질은 베타 배럴 구조를 갖는, 컴퓨터 구현 방법.
양태 10. 양태 1 내지 9 중 어느 하나의 양태에 있어서,
하나 이상의 프로세서를 통해, 잠재적으로 기공-형성인 것으로 식별된 복수의 단백질의 단백질에 기초하여 살충제 제조법을 결정하는 단계, 및
결정된 살충제 제조법에 기초하여 살충제를 제조하는 단계를 추가적으로 포함하는, 컴퓨터 구현 방법.
양태 11. 하나 이상의 프로세서를 포함하는 컴퓨터 시스템으로서, 하나 이상의 프로세서는:
제1 복수의 단백질을 번호로 인코딩하는 단계로 훈련 데이터 세트를 구축하고,
훈련 데이터세트를 사용하여 심층 학습 알고리즘을 훈련시키며,
제2 복수의 단백질을 번호로 인코딩하고,
심층 학습 알고리즘을 통해, 인코딩된 제2 복수의 단백질의 단백질을 잠재적으로 기공-형성 또는 잠재적으로 비-기공-형성 중 어느 하나로서 식별하도록 구성된, 컴퓨터 시스템.
양태 12. 양태 11에 있어서, 제1 복수의 단백질은 아미노산의 배열을 포함하는 단백질을 포함하고, 하나 이상의 프로세서는,
아미노산의 배열 내의 각각의 아미노산을 지표 어레이로서 나타내는 단계에 의해 제1 복수의 단백질을 번호로 인코딩하도록 추가적으로 구성되고, 지표 어레이는 지표 어레이의 단일 요소를 (i) 1과 동일하게 하고, 요소의 나머지를 0과 동일하게 하거나, 또는 (ii) 0과 동일하게 하고, 요소의 나머지를 1과 동일하게 하는 단계에 의해 아미노산의 유형을 나타내는, 컴퓨터 시스템.
양태 13. 양태 11 또는 양태 12에 있어서, 제1 복수의 단백질은 아미노산의 배열을 포함하는 단백질을 포함하고, 하나 이상의 프로세서는,
아미노산의 배열 내의 각각의 아미노산을 어레이로서 나타내는 단계에 의해 제1 복수의 단백질을 번호로 인코딩하도록 추가적으로 구성되고, 어레이의 요소는 아미노산 특징에 대응하는, 컴퓨터 시스템.
양태 14. 양태 11 내지 양태 13 중 어느 하나의 양태에 있어서, 심층 학습 알고리즘은 콘볼루션 신경망(CNN)을 포함하고, CNN은
적어도 하나의 콘볼루션 층,
적어도 하나의 평균 풀링 층, 및
공간 드롭아웃 층을 포함하는, 컴퓨터 시스템.
양태 15. 양태 11 내지 양태 14 중 어느 한 양태에 있어서, 하나 이상의 프로세서는,
잠재적으로 기공-형성인 것으로 식별된 복수의 단백질의 단백질에 기초하여 살충제 제조법을 결정하도록 추가적으로 구성되고,
컴퓨터 시스템은 살충제 제조법에 기초하여 살충제를 제조하도록 구성된 제조 장비를 추가적으로 포함하는, 컴퓨터 시스템.
양태 16. 컴퓨터 시스템으로서:
하나 이상의 프로세서, 및
하나 이상의 프로세서에 결합된 하나 이상의 메모리로서,
하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서가,
제1 복수의 단백질을 번호로 인코딩하는 단계로 훈련 데이터 세트를 구축하고,
훈련 데이터세트를 사용하여 심층 학습 알고리즘을 훈련시키며,
제2 복수의 단백질을 번호로 인코딩하고,
심층 학습 알고리즘을 통해, 인코딩된 제2 복수의 단백질의 단백질을 잠재적으로 기공-형성 또는 잠재적으로 비-기공-형성 중 어느 하나로서 식별하도록 하는 그 안에 저장된 컴퓨터 실행가능 명령어를 포함하는 하나 이상의 메모리를 포함하는, 컴퓨터 시스템.
양태 17. 양태 16에 있어서, 제1 복수의 단백질은 아미노산의 배열을 포함하는 단백질을 포함하고, 컴퓨터 실행가능 명령어는 추가적으로, 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서가,
아미노산의 배열 내의 각각의 아미노산을 지표 어레이로서 나타내는 단계에 의해 제1 복수의 단백질을 번호로 인코딩하도록 하고, 지표 어레이는 지표 어레이의 단일 요소를 (i) 1과 동일하게 하고, 요소의 나머지를 0과 동일하게 하거나, 또는 (ii) 0과 동일하게 하고, 요소의 나머지를 1과 동일하게 하는 단계에 의해 아미노산의 유형을 나타내는, 컴퓨터 시스템.
양태 18. 양태 16 또는 양태 17에 있어서, 제1 복수의 단백질은 아미노산의 배열을 포함하는 단백질을 포함하고, 컴퓨터 실행가능 명령어는 추가적으로, 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서가,
아미노산의 배열 내의 각각의 아미노산을 어레이로서 표현하는 단계에 의해 제1 복수의 단백질을 번호로 인코딩하도록 하고, 어레이의 요소는 아미노산 특징에 대응하는, 컴퓨터 시스템.
양태 19. 양태 16 내지 양태 18 중 어느 하나의 양태에 있어서, 심층 학습 알고리즘은 콘볼루션 신경망(CNN)을 포함하고, CNN은
적어도 하나의 콘볼루션 층,
적어도 하나의 평균 풀링 층, 및
공간 드롭아웃 층을 포함하는, 컴퓨터 시스템.
양태 20. 양태 16 내지 양태 19 중 어느 하나에 있어서, 컴퓨터 실행가능 명령어는 추가적으로, 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서가,
잠재적으로 기공-형성인 것으로 식별된 복수의 단백질의 단백질에 기초하여 살충제 제조법을 결정하도록 하고,
컴퓨터 시스템은 살충제 제조법에 기초하여 살충제를 제조하도록 구성된 제조 장비를 추가적으로 포함하는, 컴퓨터 시스템.
기타 사항
추가적으로, 특정 실시예는 로직 또는 다수의 루틴, 서브루틴, 애플리케이션, 또는 명령어를 포함하는 것으로 본원에서 설명된다. 이들은 소프트웨어(비일시적, 유형의 기계 판독가능 매체 상에 구현된 코드) 또는 하드웨어를 구성할 수 있다. 하드웨어에서, 루틴 등은, 특정 동작을 수행할 수 있는 유형의 유닛이고 특정 방식으로 구성 또는 배열될 수 있다. 예시적인 실시예에서, 하나 이상의 컴퓨터 시스템(예를 들어, 독립형, 클라이언트 또는 서버 컴퓨터 시스템) 또는 컴퓨터 시스템의 하나 이상의 하드웨어 모듈(예를 들어, 프로세서 또는 프로세서의 그룹)은 본원에 설명된 바와 같이 특정 동작을 수행하도록 동작하는 하드웨어 모듈로서 소프트웨어(예를 들어, 애플리케이션 또는 애플리케이션 부분)에 의해 구성될 수 있다.
다양한 실시예에서, 하드웨어 모듈은 기계적으로 또는 전자적으로 구현될 수 있다. 예를 들어, 하드웨어 모듈은 특정 동작을 수행하기 위해(예를 들어, 필드 프로그래밍가능 게이트 어레이(FPGA) 또는 애플리케이션 특정 집적 회로(ASIC)와 같은, 특수-목적 프로세서로서) 영구적으로 구성된 전용 회로 또는 로직을 포함할 수 있다. 하드웨어 모듈은 또한 특정의 동작을 수행하기 위해 소프트웨어에 의해 일시적으로 구성되는 프로그래밍가능 로직 또는 회로(예를 들어, 범용 프로세서 또는 다른 프로그래밍가능 프로세서 내에 포함된)를 포함할 수 있다. 전용 및 영구적으로 구성된 회로에서, 또는 일시적으로 구성된 회로(예를 들어, 소프트웨어에 의해 구성된)에서, 하드웨어 모듈을 기계적으로 구현하는 결정은 비용 및 시간 고려사항에 의해 결정될 수 있다는 것이 이해될 것이다.
따라서, 용어 "하드웨어 모듈"은, 물리적으로 구성되거나, 영구적으로 구성되거나(예를 들어, 하드웨어에 내장된), 또는 특정 방식으로 동작하거나 본원에 설명된 특정 동작을 수행하도록 일시적으로 구성된(예를 들어, 프로그래밍된) 엔티티와 같은 유형의 엔티티를 포함하는 것으로 이해되어야 한다. 하드웨어 모듈이 일시적으로 구성된(예를 들어, 프로그래밍된) 실시예를 고려하면, 하드웨어 모듈 각각은 특정 시간의 어떤 한 인스턴스에서 구성되거나 인스턴스화될 필요가 없다. 예를 들어, 하드웨어 모듈이 소프트웨어를 사용하여 구성된 범용 프로세서를 포함하는 경우, 범용 프로세서는 상이한 시간에 각자의 상이한 하드웨어 모듈로서 구성될 수 있다. 따라서, 소프트웨어는, 예를 들어, 하나의 시점에 특정 하드웨어 모듈을 구성하고 상이한 시점에 상이한 하드웨어 모듈을 구성하도록 프로세서를 구성할 수 있다.
하드웨어 모듈은 다른 하드웨어 모듈에 정보를 제공하고 다른 하드웨어 모듈로부터 정보를 수신할 수 있다. 따라서, 설명된 하드웨어 모듈은 통신 가능하게 결합된 것으로 간주될 수 있다. 이러한 하드웨어 모듈 중 다수가 동시에 존재하는 경우, 통신은 하드웨어 모듈을 연결하는 신호 송신(예를 들어, 적절한 회로 및 버스를 통해)을 통해 달성될 수 있다. 다수의 하드웨어 모듈이 상이한 시간에서 구성되거나 인스턴스화되는 실시예에서, 이러한 하드웨어 모듈 사이의 통신은, 예를 들어, 다수의 하드웨어 모듈이 액세스하는 메모리 구조에서의 정보의 저장 및 검색을 통해 달성될 수 있다. 예를 들어, 하나의 하드웨어 모듈은 동작을 수행하고 그 동작의 출력을 그것이 통신 가능하게 결합된 메모리 장치 내에 저장할 수 있다. 이어서, 추가적인 하드웨어 모듈이, 나중에, 저장된 출력을 검색하고 처리하기 위해 메모리 장치에 액세스할 수 있다. 하드웨어 모듈은 또한 입력 또는 출력 장치와의 통신을 개시할 수 있고, 자원(예를 들어, 정보의 집합) 상에서 동작할 수 있다.
본원에 설명된 예시적인 방법의 다양한 동작은 적어도 부분적으로, 관련 동작을 수행하도록 일시적으로 구성되거나(예를 들어, 소프트웨어에 의해) 영구적으로 구성된 하나 이상의 프로세서에 의해, 수행될 수 있다. 일시적으로 구성되든 영구적으로 구성되든, 이러한 프로세서는 하나 이상의 동작 또는 기능을 수행하도록 동작하는 프로세서 구현 모듈을 구성할 수 있다. 본원에서 지칭되는 모듈은, 일부 예시적인 실시예에서, 프로세서 구현 모듈을 포함할 수 있다.
유사하게, 본원에 설명된 방법 또는 루틴은 적어도 부분적으로 프로세서 구현일 수 있다. 예를 들어, 방법의 동작 중 적어도 일부는 하나 이상의 프로세서 또는 프로세서 구현 하드웨어 모듈에 의해 수행될 수 있다. 특정 동작의 성능은 하나 이상의 프로세서 중에 분산되어, 단일 기계 내에 존재할 뿐만 아니라, 다수의 기계에 걸쳐 배치될 수 있다. 일부 예시적인 실시예에서, 프로세서 또는 프로세서들은 단일 위치(예를 들어, 홈 환경, 사무실 환경 내에 또는 서버 팜으로서)에 배치될 수 있는 반면, 다른 실시예에서 프로세서는 다수의 지리적 위치에 걸쳐 분산될 수 있다.

Claims (20)

  1. 컴퓨터 구현 방법으로서,
    a) 하나 이상의 프로세서를 통해, 제1 복수의 단백질을 번호로 인코딩하는 단계로 훈련 데이터 세트를 구축하는 단계,
    b) 상기 하나 이상의 프로세서를 통해, 상기 훈련 데이터세트를 사용하여 심층 학습 알고리즘을 훈련시키는 단계,
    c) 상기 하나 이상의 프로세서를 통해, 제2 복수의 단백질을 번호로 인코딩하는 단계, 및
    d) 상기 하나 이상의 프로세서 및 상기 훈련된 심층 학습 알고리즘을 통해, 상기 인코딩된 제2 복수의 단백질의 단백질을 잠재적으로 기공-형성 또는 잠재적으로 비-기공-형성 중 어느 하나로서 식별하는 단계를 포함하는, 컴퓨터 구현 방법.
  2. 제1항에 있어서, 상기 제1 복수의 단백질은 아미노산의 배열을 포함하는 단백질을 포함하고, 상기 제1 복수의 단백질을 번호로 인코딩하는 상기 단계는 상기 아미노산의 배열 내의 각각의 아미노산을 지표 어레이로서 나타내는 단계를 포함하며, 상기 지표 어레이는 상기 지표 어레이의 단일 요소를 (i) 1과 동일하게 하고, 상기 요소의 나머지를 0과 동일하게 하거나, 또는 (ii) 0과 동일하게 하고, 상기 요소의 나머지를 1과 동일하게 하는 단계에 의해 아미노산의 유형을 나타내는, 컴퓨터 구현 방법.
  3. 제1항에 있어서, 상기 제1 복수의 단백질은 아미노산의 배열을 포함하는 단백질을 포함하고, 상기 제1 복수의 단백질을 번호로 인코딩하는 상기 단계는 상기 아미노산의 배열 내의 각각의 아미노산을 어레이로서 나타내는 단계를 포함하며, 상기 어레이의 요소는 아미노산 특징에 대응하는, 컴퓨터 구현 방법.
  4. 제1항에 있어서, 상기 제1 복수의 단백질은 아미노산의 배열을 포함하는 단백질을 포함하고, 상기 제1 복수의 단백질을 번호로 인코딩하는 상기 단계는 상기 아미노산의 배열 내의 각각의 아미노산을 어레이로서 나타내는 단계를 포함하며, 상기 어레이의 요소는 아미노산 특징에 대응하고, 상기 아미노산 속성은
    (i) 접근성, 극성, 및 소수성,
    (ii) 2차 구조체에 대한 경향,
    (iii) 분자 크기,
    (iv) 코돈 조성물, 또는
    (v) 정전기 전하를 포함하는, 컴퓨터 구현 방법.
  5. 제1항에 있어서, 상기 제1 복수의 단백질은 아미노산의 배열을 포함하는 단백질을 포함하고, 상기 제1 복수의 단백질을 번호로 인코딩하는 상기 단계는 상기 아미노산의 배열 내의 각각의 아미노산을 어레이로서 나타내는 단계를 포함하며, 상기 어레이의 요소는 아미노산 특징에 대응하고, 상기 아미노산 속성은
    (i) 접근성, 극성, 및 소수성,
    (ii) 2차 구조체에 대한 경향,
    (iii) 분자 크기,
    (iv) 코돈 조성물, 및
    (v) 정전기 전하를 포함하는, 컴퓨터 구현 방법.
  6. 제1항에 있어서, 상기 제1 복수의 단백질은 아미노산의 배열을 포함하는 단백질을 포함하고, 상기 제1 복수의 단백질을 번호로 인코딩하는 상기 단계는 상기 아미노산의 배열 내의 각각의 아미노산을 조합된 어레이로서 나타내는 단계를 포함하며, 상기 조합된 어레이는 제1 어레이의 단일 요소를 (i) 1과 동일하게 하고, 상기 요소의 상기 나머지를 0과 동일하게 하거나, 또는 (ii) 0과 동일하고, 상기 요소의 나머지를 1과 동일하게 하는 단계에 의해 아미노산의 유형을 나타내는 상기 제1 어레이 및 아미노산 특징에 대응하는 제2 어레이의 요소를 갖는 상기 제2 어레이를 조합하는 단계에 의해 형성되는, 컴퓨터 구현 방법.
  7. 제1항에 있어서, 상기 심층 학습 알고리즘은 콘볼루션 신경망을 포함하는, 컴퓨터 구현 방법.
  8. 제1항에 있어서, 상기 심층 학습 알고리즘은 콘볼루션 신경망(CNN)을 포함하고, 상기 CNN은 적어도 하나의 콘볼루션 층; 적어도 하나의 평균 풀링 층, 및 공간 드롭아웃 층을 포함하는, 컴퓨터 구현 방법.
  9. 제1항에 있어서, 상기 인코딩된 제2 복수의 단백질의 상기 단백질을 식별하는 단계는 단백질을 (i) 알파 기공-형성 단백질, (ii) 베타 기공 형성 단백질, 또는 (iii) 알파 기공-형성 단백질도 아니고 베타 기공-형성 단백질도 아닌 것으로 식별하는 단계를 추가적으로 포함하고, 상기 알파 기공-형성 단백질은 알파 나선 구조를 갖고, 상기 베타 기공 형성 단백질은 베타 배럴 구조를 갖는, 컴퓨터 구현 방법.
  10. 제1항에 있어서, 상기 하나 이상의 프로세서를 통해, 잠재적으로 기공 형성되는 것으로 식별된 상기 복수의 단백질의 단백질에 기초하여 살충제 제조법을 결정하는 단계, 및 상기 결정된 살충제 제조법에 기초하여 살충제를 제조하는 단계를 추가적으로 포함하는, 컴퓨터 구현 방법.
  11. 하나 이상의 프로세서를 포함하는 컴퓨터 시스템으로서, 상기 하나 이상의 프로세서는 제1 복수의 단백질을 번호로 인코딩하는 단계로 훈련 데이터 세트를 구축하고, 훈련 데이터세트를 사용하여 심층 학습 알고리즘을 훈련시키며, 제2 복수의 단백질을 번호로 인코딩하고, 상기 심층 학습 알고리즘을 통해, 상기 인코딩된 제2 복수의 단백질의 단백질을 잠재적으로 기공-형성 또는 잠재적으로 비-기공-형성으로 식별하도록 구성된, 컴퓨터 시스템.
  12. 제11항에 있어서, 상기 제1 복수의 단백질은 아미노산의 배열을 포함하는 단백질을 포함하고, 상기 하나 이상의 프로세서는 상기 아미노산의 배열 내의 각각의 아미노산을 지표 어레이로서 나타내는 단계에 의해 상기 제1 복수의 단백질을 번호로 인코딩하도록 추가적으로 구성되며, 상기 지표 어레이는 상기 지표 어레이의 단일 요소를 (i) 1과 동일하게 하고, 상기 요소의 나머지를 0과 동일하게 하거나, 또는 (ii) 0과 동일하게 하고, 상기 요소의 나머지를 1과 동일하게 하는 단계에 의해 아미노산의 유형을 나타내는, 컴퓨터 시스템.
  13. 제11항에 있어서, 상기 제1 복수의 단백질은 아미노산의 배열을 포함하는 단백질을 포함하고, 상기 하나 이상의 프로세서는 상기 아미노산의 배열 내의 각각의 아미노산을 어레이로서 나타내는 단계에 의해 상기 제1 복수의 단백질을 번호로 인코딩하도록 추가적으로 구성되며, 상기 어레이의 요소는 아미노산 특징에 상응하는, 컴퓨터 시스템.
  14. 제11항에 있어서, 상기 심층 학습 알고리즘은 콘볼루션 신경망(CNN)을 포함하고, 상기 CNN은 적어도 하나의 콘볼루션 층, 적어도 하나의 평균 풀링 층, 및 공간 드롭아웃 층을 포함하는, 컴퓨터 시스템.
  15. 제11항에 있어서, 상기 하나 이상의 프로세서는 잠재적으로 기공-형성인 것으로 식별된 상기 복수의 단백질의 단백질에 기초하여 살충제 제조법을 결정하도록 추가적으로 구성되고, 상기 컴퓨터 시스템은 상기 살충제 제조법에 기초하여 살충제를 제조하도록 구성된 제조 장비를 추가적으로 포함하는, 컴퓨터 시스템.
  16. 컴퓨터 시스템으로서, 하나 이상의 프로세서, 및 상기 하나 이상의 프로세서에 결합된 하나 이상의 메모리를 포함하며, 상기 하나 이상의 메모리는, 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서가 제1 복수의 단백질을 번호로 인코딩하는 단계로 훈련 데이터세트를 구축하고, 훈련 데이터세트를 사용하여 심층 학습 알고리즘을 훈련시키며, 제2 복수의 단백질을 번호로 인코딩하고, 상기 심층 학습 알고리즘을 통해, 상기 인코딩된 제2 복수의 단백질의 단백질을 잠재적으로 기공-형성 또는 잠재적으로 비-기공-형성으로 식별하도록 하는 그 안에 저장된 컴퓨터 실행가능 명령어를 포함하는, 컴퓨터 시스템.
  17. 제16항에 있어서, 상기 제1 복수의 단백질은 아미노산의 배열을 포함하는 단백질을 포함하고, 상기 컴퓨터 실행가능 명령어는 추가적으로, 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서가 상기 아미노산의 배열 내의 각각의 아미노산을 지표 어레이로서 나타내는 단계에 의해 상기 제1 복수의 단백질을 번호로 인코딩하도록 하고, 상기 지표 어레이는 상기 지표 어레이의 단일 요소를 (i) 1과 동일하게 하고, 상기 요소의 나머지를 0과 동일하게 하거나, 또는 (ii) 0과 동일하게 하고, 상기 요소의 나머지를 1과 동일하게 하는 단계에 의해 아미노산의 유형을 나타내는, 컴퓨터 시스템.
  18. 제16항에 있어서, 상기 제1 복수의 단백질은 아미노산의 배열을 포함하는 단백질을 포함하고, 상기 컴퓨터 실행가능 명령어는 추가적으로, 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서가 상기 아미노산의 배열 내의 각각의 아미노산을 지표 어레이로서 나타내는 단계에 의해 상기 제1 복수의 단백질을 번호로 인코딩하도록 하고, 상기 어레이의 요소는 아미노산 특징에 대응하는, 컴퓨터 시스템.
  19. 제16항에 있어서, 상기 심층 학습 알고리즘은 콘볼루션 신경망(CNN)을 포함하고, 상기 CNN은 적어도 하나의 콘볼루션 층, 적어도 하나의 평균 풀링 층, 및 공간 드롭아웃 층을 포함하는, 컴퓨터 시스템.
  20. 제16항에 있어서, 상기 컴퓨터 실행가능 명령어는 추가적으로, 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서가 잠재적으로 기공-형성인 것으로 식별된 상기 복수의 단백질의 단백질에 기초하여 살충제 제조법을 결정하도록 하고, 상기 컴퓨터 시스템은 상기 살충제 제조법에 기초하여 살충제를 제조하도록 구성된 제조 장비를 추가적으로 포함하는, 컴퓨터 시스템.
KR1020247000514A 2021-06-10 2022-06-09 단백질의 기공 형성 능력을 예측하기 위한 심층 학습 모델 KR20240018606A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163209375P 2021-06-10 2021-06-10
US63/209,375 2021-06-10
PCT/US2022/032815 WO2022261309A1 (en) 2021-06-10 2022-06-09 Deep learning model for predicting a protein's ability to form pores

Publications (1)

Publication Number Publication Date
KR20240018606A true KR20240018606A (ko) 2024-02-13

Family

ID=84425579

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020247000514A KR20240018606A (ko) 2021-06-10 2022-06-09 단백질의 기공 형성 능력을 예측하기 위한 심층 학습 모델

Country Status (7)

Country Link
EP (1) EP4352733A1 (ko)
KR (1) KR20240018606A (ko)
CN (1) CN117480560A (ko)
AU (1) AU2022289876A1 (ko)
BR (1) BR112023025480A2 (ko)
CA (1) CA3221873A1 (ko)
WO (1) WO2022261309A1 (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11573239B2 (en) * 2017-07-17 2023-02-07 Bioinformatics Solutions Inc. Methods and systems for de novo peptide sequencing using deep learning
JP7492524B2 (ja) * 2019-02-11 2024-05-29 フラッグシップ・パイオニアリング・イノベーションズ・ブイアイ,エルエルシー 機械学習支援ポリペプチド解析
WO2020210591A1 (en) * 2019-04-11 2020-10-15 Google Llc Predicting biological functions of proteins using dilated convolutional neural networks

Also Published As

Publication number Publication date
CN117480560A (zh) 2024-01-30
AU2022289876A1 (en) 2023-12-21
EP4352733A1 (en) 2024-04-17
CA3221873A1 (en) 2022-12-15
WO2022261309A1 (en) 2022-12-15
BR112023025480A2 (pt) 2024-02-27

Similar Documents

Publication Publication Date Title
Babu et al. Global landscape of cell envelope protein complexes in Escherichia coli
Zhu et al. Predicting the subcellular localization of mycobacterial proteins by incorporating the optimal tripeptides into the general form of pseudo amino acid composition
Fjell et al. AMPer: a database and an automated discovery tool for antimicrobial peptides
Bock et al. Whole-proteome interaction mining
Rashid et al. Support Vector Machine-based method for predicting subcellular localization of mycobacterial proteins using evolutionary information and motifs
Xue et al. DeepT3: deep convolutional neural networks accurately identify Gram-negative bacterial type III secreted effectors using the N-terminal sequence
Zhang et al. Examining phylogenetic relationships of Erwinia and Pantoea species using whole genome sequence data
CN118140234A (zh) 通过机器学习和数据库挖掘结合目标功能的经验测试识别和开发天然来源食品成分的系统
Megrian et al. Ancient origin and constrained evolution of the division and cell wall gene cluster in Bacteria
Hui et al. T3SEpp: an integrated prediction pipeline for bacterial type III secreted effectors
Yang et al. Effective identification of Gram-negative bacterial type III secreted effectors using position-specific residue conservation profiles
de Oliveira et al. A multiobjective approach to the genetic code adaptability problem
Dupont et al. Genomic data quality impacts automated detection of lateral gene transfer in fungi
Hobbs et al. Computational approach to predict species-specific type III secretion system (T3SS) effectors using single and multiple genomes
Saïdi et al. Bacterial outer membrane polysaccharide export (OPX) proteins occupy three structural classes with selective β-barrel porin requirements for polymer secretion
KR20240018606A (ko) 단백질의 기공 형성 능력을 예측하기 위한 심층 학습 모델
Shikov et al. The distribution of several genomic virulence determinants does not corroborate the established serotyping classification of Bacillus thuringiensis
Hou et al. DeepMicrobeFinder sorts metagenomes into prokaryotes, eukaryotes and viruses, with marine applications
Palaniappan et al. Predicting" essential" genes across microbial genomes: A machine learning approach
Ranković et al. Genome analysis of two Pseudomonas syringae pv. aptata strains with different virulence capacity isolated from sugar beet: features of successful pathogenicity in the phyllosphere microbiome
Veltri A computational and statistical framework for screening novel antimicrobial peptides
CN112185466B (zh) 直接利用蛋白质多序列联配信息构建蛋白质结构的方法
Francisco et al. Accuracy and efficiency of algorithms for the demarcation of bacterial ecotypes from DNA sequence data
WO2016106089A1 (en) Methods for classifying organisms based on dna or protein sequences
Jacob et al. A deep learning model to detect novel pore-forming proteins