KR102115483B1 - Computer readable media recording program of consructing potential aptamers bining to target protein using deep neural network and process of constructing potential aptamers - Google Patents

Computer readable media recording program of consructing potential aptamers bining to target protein using deep neural network and process of constructing potential aptamers Download PDF

Info

Publication number
KR102115483B1
KR102115483B1 KR1020180093129A KR20180093129A KR102115483B1 KR 102115483 B1 KR102115483 B1 KR 102115483B1 KR 1020180093129 A KR1020180093129 A KR 1020180093129A KR 20180093129 A KR20180093129 A KR 20180093129A KR 102115483 B1 KR102115483 B1 KR 102115483B1
Authority
KR
South Korea
Prior art keywords
sequence
target protein
aptamer
binding
protein molecule
Prior art date
Application number
KR1020180093129A
Other languages
Korean (ko)
Other versions
KR20200019294A (en
Inventor
한경숙
임진호
박병규
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020180093129A priority Critical patent/KR102115483B1/en
Publication of KR20200019294A publication Critical patent/KR20200019294A/en
Application granted granted Critical
Publication of KR102115483B1 publication Critical patent/KR102115483B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 순환 신경망을 이용한 학습 모델을 통하여 표적 단백질 분자와 결합하는 후보 압타머 서열을 생성, 평가, 검증하는 프로그램을 기록한 컴퓨터로 판독할 수 있는 기록 매체 및 이를 이용하여 표적 단백질 분자와 결합하는 후보 압타머 서열을 생성, 평가, 검증하는 방법에 관한 것이다. 본 발명에 따른 프로그램을 이용하여, 특정 표적 단백질과 결합하는 후보 압타머 서열의 pool이 감소되고, 신속하고 효율적으로 최종 압타머를 선별할 수 있다. The present invention is a computer-readable recording medium that records a program for generating, evaluating, and verifying a candidate aptamer sequence that binds a target protein molecule through a learning model using a circulating neural network, and a candidate that binds to a target protein molecule using the computer-readable recording medium A method for generating, evaluating, and verifying aptamer sequences. Using the program according to the invention, the pool of candidate aptamer sequences that bind to a specific target protein is reduced, and the final aptamer can be selected quickly and efficiently.

Description

심층 신경망을 이용하여 표적 단백질과 결합하는 후보 압타머를 생성하는 프로그램을 기록한 컴퓨터로 판독할 수 있는 기록 매체 및 후보 압타머를 생성하는 방법{COMPUTER READABLE MEDIA RECORDING PROGRAM OF CONSRUCTING POTENTIAL APTAMERS BINING TO TARGET PROTEIN USING DEEP NEURAL NETWORK AND PROCESS OF CONSTRUCTING POTENTIAL APTAMERS} COMPUTER READABLE MEDIA RECORDING PROGRAM OF CONSRUCTING POTENTIAL APTAMERS BINING TO TARGET PROTEIN USING How to create a computer-readable recording medium and a candidate aptamer that records a program that generates a candidate aptamer that binds a target protein using a deep neural network DEEP NEURAL NETWORK AND PROCESS OF CONSTRUCTING POTENTIAL APTAMERS}

본 특허출원은 대한민국 정부 과학기술정보통신부의 “이공분야 개인기초연구”연구사업의 일환으로서 “단백질과 핵산의 상호작용 예측 모델 개발”(주관기관: 인하대학교; 과제고유번호: 2015R1A1A3A04001243) 과제와, "바이오 빅데이터의 수학적 모델링을 통한 암 유전자 발굴과 개인별 유전자 네트워크 추론"(주관기관: 인하대학교; 과제고유번호: 2017R1E1A1A03069921) 과제의 수행 결과물에 관한 것이다. This patent application is part of the “Personal Basic Research in Science and Technology” research project of the Ministry of Science and Technology of the Ministry of Science and Technology of the Republic of Korea. "The discovery of cancer genes and the inference of individual genetic networks through mathematical modeling of bio-big data" (Organization: Inha University; Assignment No .: 2017R1E1A1A03069921) This is about the outcome of the task.

본 발명은 표적 물질과 결합하는 분자를 생성하는 프로그램을 기록한 매체에 관한 것으로, 더욱 상세하게는 심층 신경망을 활용한 학습 과정을 통하여 표적 단백질과 결합하는 후보 압타머를 생성, 구축하기 위한 프로그램을 기록한 컴퓨터로 판독할 수 있는 기록 매체와, 이를 이용하여 표적 단백질과 결합하는 후보 압타머를 생성, 구축하는 방법에 관한 것이다. The present invention relates to a medium recording a program for generating a molecule that binds to a target substance, and more specifically, to record a program for generating and constructing a candidate aptamer binding to a target protein through a learning process using a deep neural network. It relates to a computer-readable recording medium and a method for generating and constructing a candidate aptamer binding to a target protein using the recording medium.

생물학적 메커니즘과 관련한 분자에 대한 이해가 깊어지면서, 생물학적 분자들 사이의 상호작용에 대한 관심이 높아지고 있다. 이러한 생물학적 분자들 중에서 압타머가 최근 주목을 받고 있다. 압타머(aptamer)는 자체로 안정적인 3차원 구조를 가지면서 표적 분자에 대하여 높은 친화성(affinity)과 특이성(specificity)을 가지면서 결합할 수 있는 특징을 가지는 단일가닥 핵산(single stranded nucleic acid)이다. 표적 분자와 결합하는 압타머는 단일클론항체(monoclonal antibody)와 유사하지만, 단일클론항체에 비하여 다음과 같은 장점을 가지고 있다. As the understanding of molecules related to biological mechanisms is deepened, interest in interactions between biological molecules is increasing. Of these biological molecules, aptamers have recently received attention. An aptamer is a single-stranded nucleic acid that has a stable three-dimensional structure and a binding characteristic with high affinity and specificity for a target molecule. . The aptamer binding to the target molecule is similar to a monoclonal antibody, but has the following advantages over a monoclonal antibody.

항체는 대략 150 kDa의 큰 분자 구조를 가지고 있어서 제조 및 변형이 어렵지만, 통상적으로 100개 이하의 염기 서열로 이루어지는 압타머는 작은 분자 구조를 가지고 있기 때문에 변형이 용이하다. 압타머는 항체에 비하여 안정성이 매우 우수하기 때문에, 실온에서 운반 및/또는 보관이 가능하고 멸균 후에도 그 기능을 유지할 수 있다. 뿐만 아니라, 압타머는 변성(denaturation)이 일어나더라도 짧은 시간에 재생(regeneration)이 가능하기 때문에, 장시간 또는 반복 사용이 요구되는 진단용 소재로서 쉽게 응용될 수 있다. Antibodies have a large molecular structure of approximately 150 kDa, making them difficult to manufacture and modify, but aptamers, which typically consist of 100 or fewer base sequences, have a small molecular structure, making them easy to modify. Since the aptamer has excellent stability compared to the antibody, it can be transported and / or stored at room temperature and maintain its function even after sterilization. In addition, since the aptamer can be regenerated in a short time even if denaturation occurs, it can be easily applied as a diagnostic material requiring long or repeated use.

더욱이, 항체는 동물이나 세포를 이용하여 제조하기 때문에 많은 시간과 비용이 요구되며, 제조되는 시기나 방법에 따라 기능성이 달라질 가능성이 있다(batch to batch variation). 하지만, 압타머는 화학적 합성방법을 이용하여 제조되기 때문에 단시간에 적은 비용으로 제조될 수 있으며, batch to batch variation이 거의 없고, 고순도의 정제 과정이 매우 용이하다. 또한, 항체나 다른 의약용 단백질의 경우에는 빈번하게 생체내 면역거부반응이 일어나지만, 압타머는 이러한 생체내 면역거부반응이 거의 일어나지 않는 것으로 알려져 있어 치료용 소재의 개발에 있어 장점이 있다. 뿐만 아니라, 항체를 만들기 어려운 독소(toxin), 복잡한 단백질 복합체 또는 당-단백질 복합체에 대해서도 압타머를 제조할 수 있으며, 새로운 표적 물질에 대한 결합 물질로의 변형이 용이하여(flexibility) 신규한 압타머 발굴에 활발하게 이용될 수 있다. Moreover, since antibodies are produced using animals or cells, a lot of time and cost are required, and there is a possibility that the functionality varies depending on the time and method of production (batch to batch variation). However, since the aptamer is manufactured using a chemical synthesis method, it can be manufactured in a short time and at a low cost, there is little batch to batch variation, and a high purity purification process is very easy. In addition, in the case of an antibody or other pharmaceutical protein, an immune rejection reaction in vivo frequently occurs, but the aptamer is known to have little reaction in vivo, and thus has an advantage in the development of a therapeutic material. In addition, aptamers can be prepared for toxins, complex protein complexes, or sugar-protein complexes that are difficult to make antibodies, and new aptamers are easily converted to binding substances for new target substances (flexibility). It can be actively used for excavation.

새로운 압타머를 선별하는 것과 관련해서, 1990년데 콜로라도 대학의 Larry Gold 연구팀에 의해 개발된 발굴 기술인 SELEX(Systematic Evolution of Ligands by EXponential enrichment)라는 기법이 기본적으로 활용되고 있다. SELEX를 통해 새로운 압타머를 발굴하는 과정을 살펴보면, 1) DNA 합성 및 시험관 전사(in vitro transcription, RNA인 경우)을 이용하여 다양한 형태의 핵산 라이브러리(>105)을 제조하고, 2) 핵산 구조체 라이브러리 내의 핵산 구조체들(압타머 후보 분자들)에 대하여 원하는 표적 분자와 결합할 수 있는 핵산 구조체만을 선별(screening)하는 과정을 거친다. 선별 과정은 예를 들어, 친화 크로마토그래프(Affinity chromatography)와 같은 방법을 통해 표적 분자와 결합하지 않은 핵산 구조체를 제거(washing)하고 표적 분자에 결합하는 것만을 선택적으로 얻는다. 마지막으로 표적 분자로부터 핵산 구조체를 분리(elution)하고, 분리된 핵산을 PCR(중합효소연쇄반응, polymerase chain reaction) 등의 방법으로 증폭시킨다. 이어서, 증폭된 핵산 구조체만을 이용한 선별 및 분리 과정을 5 내지 15회 반복하여, 매우 우수한 결합력과 특이성을 보이는 압타머를 발굴할 수 있다. When it comes to screening new aptamers, a technique called Systematic Evolution of Ligands by EXponential enrichment (SELEX), an excavation technique developed by Larry Gold's research team at the University of Colorado in 1990, is being used by default. Looking at the process of discovering new aptamers through SELEX, 1) various nucleic acid libraries (> 10 5 ) are prepared using DNA synthesis and in vitro transcription ( in the case of RNA), and 2) nucleic acid constructs. For the nucleic acid structures (aptamer candidate molecules) in the library, only a nucleic acid structure capable of binding to a desired target molecule is screened. The screening process selectively obtains only washing and washing a nucleic acid construct that is not bound to a target molecule through a method such as affinity chromatography. Finally, the nucleic acid structure is separated from the target molecule, and the isolated nucleic acid is amplified by PCR (polymerase chain reaction) or the like. Subsequently, the selection and separation process using only the amplified nucleic acid construct can be repeated 5 to 15 times to discover aptamers showing very good binding and specificity.

그런데, 압타머 후보 분자를 선별하기 위하여 통상적으로 1015 이상의 핵산 라이브러리를 제조하기 때문에, 최종적으로 표적 분자에 결합하는 압타머를 선별할 때 많은 시간, 노동 및 비용이 요구된다. 압타머를 선별할 때의 문제점과 관련해서, 미국특허 제9,315,804호에서는 적합도 함수를 고려하여 후보 압타머로부터, 표적 물질에 대한 적어도 하나의 압타머를 식별하는 방법을 제안하고 있다. 하지만, 상기 미국특허에서도 여전히 초기 압타머 후보 물질의 풀(pool)이 대량으로 존재하기 때문에, 표적 물질과 강하게 결합하는 압타머를 선별할 때 적지 않은 시간과 노동이 투입되어야 한다. However, since 10 15 or more nucleic acid libraries are usually prepared to select aptamer candidate molecules, a lot of time, labor, and cost are required when finally selecting aptamers that bind to target molecules. With regard to the problem of selecting an aptamer, U.S. Patent No. 9,315,804 proposes a method of identifying at least one aptamer for a target substance from a candidate aptamer by considering a fitness function. However, in the U.S. patent, since a large pool of candidate aptamer candidates is still present, a considerable amount of time and labor must be input when selecting an aptamer that strongly binds a target substance.

본 발명은 전술한 종래 기술의 문제점을 해소하기 위하여 제안된 것으로, 본 발명의 목적은 신속하고 효율적인 방법으로 표적 물질과 결합하는 잠재적인 후보 압타머를 생성, 구축하기 위한 프로그램을 기록한 컴퓨터로 판독할 수 있는 기록 매체 및 표적 물질과 결합하는 잠재적인 후보 압타머를 생성, 구축하는 방법을 제공하고자 하는 것이다. The present invention has been proposed to solve the problems of the prior art described above, and the object of the present invention is to read a computer that records a program for generating and constructing a potential candidate aptamer that binds to a target substance in a fast and efficient manner. It is intended to provide a method for generating and constructing a potential candidate aptamer that binds to a recording medium and a target material.

전술한 목적을 가지는 본 발명의 일 측면에 따르면, 본 발명은 순환 신경망(Recurrent Neural Network; RNN) 알고리즘을 이용한 학습 모델을 통하여 표적 단백질 분자와 결합하는 모티프(motif)를 포함하는 후보 압타머 서열을 생성하는 서열 생성 수단; 상기 서열 생성 수단에서 사용된 상기 학습 모델을 손실(loss)과 교집합-합집합(Intersection to union, IU) 비율의 지표로 평가하여, 상기 서열 생성 수단에서 생성된 후보 압타머 서열 중에서, 최소 손실 값 및 최대 교집합-합집합 비율 중에서 적어도 어느 하나를 가지는 학습 모델에 의해 생성된 후보 압타머 서열을 선별하는 서열 선택 수단; 및 상기 서열 선택 수단에 의해 선별된 상기 후보 압타머 서열의 상기 표적 단백질 분자에 대한 결합 친화도(affinity)와 결합 특이도(binding specificity)를 연산하는 서열 결합 평가 수단을 포함하고, 상기 서열 선택 수단에서 평가 지표인 손실은 생성된 핵산 서열의 음의 로그 우도(negative log-likelihood)의 평균값이고, 상기 교집합-합집합 비율은 [{학습된 서열} 교집합 {생성된 서열}] / [{학습된 서열} 합집합 {생성된 서열}]로 정의되는 표적 단백질 분자와 결합하는 후보 압타머를 생성하는 프로그램을 기록한 컴퓨터로 판독할 수 있는 기록 매체를 제공한다. According to an aspect of the present invention having the above object, the present invention provides a candidate aptamer sequence including a motif that binds a target protein molecule through a learning model using a Recurrent Neural Network (RNN) algorithm. Generating sequence generating means; The learning model used in the sequence generating means is evaluated as an index of the ratio of loss and intersection to IU, and among the candidate aptamer sequences generated by the sequence generating means, the minimum loss value and Sequence selection means for selecting candidate aptamer sequences generated by a learning model having at least one of the maximum intersection-to-union ratio; And sequence binding evaluation means for calculating binding affinity and binding specificity of the candidate aptamer sequence selected by the sequence selection means to the target protein molecule, and the sequence selection means The loss that is an evaluation index in is the average value of the negative log-likelihood of the generated nucleic acid sequence, and the intersection-union ratio is [{trained sequence} intersection {generated sequence}] / [{learned sequence } A computer readable recording medium recording a program that generates a candidate aptamer that binds a target protein molecule defined by the union {generated sequence}] is provided.

필요한 경우, 상기 서열 결합 평가 수단에 의해 연산된 상기 후보 압타머 서열을, 상기 표적 단백질 분자와 결합하는 것으로 알려진 다른 압타머 서열과 비교하는 서열 비교 수단을 더욱 포함할 수 있다. If necessary, it may further include a sequence comparison means for comparing the candidate aptamer sequence calculated by the sequence binding evaluation means with other aptamer sequences known to bind the target protein molecule.

예를 들어, 상기 순환 신경망 알고리즘은 장기-단기 기억(long short-term memory; LSTM) 신경망 알고리즘을 포함할 수 있다. For example, the cyclic neural network algorithm may include a long short-term memory (LSTM) neural network algorithm.

또한, 상기 서열 결합 평가 수단은 딥바인드(DeepBind) 모델 또는 디퍼바인드(DeeperBind) 모델을 이용하여 상기 후보 압타머 서열의 표적 단백질 분자에 대한 결합 친화도와 특이도를 연산할 수 있다. In addition, the sequence binding evaluation means can calculate the binding affinity and specificity of the candidate aptamer sequence to the target protein molecule by using a DeepBind model or a DeperBind model.

일례로, 상기 서열 비교 수단을 통하여 비교되는 다른 압타머 서열은, 셀렉스(Systematic Evolution of Ligands by EXponential Enrichment, SELEX), 클립(Cross-linking Immunoprecipitation, CLIP) 및 이들의 조합으로 구성되는 군에서 선택되는 분석 방법을 통하여 상기 표적 단백질 분자와 결합하는 것으로 확인된 압타머 서열을 포함할 수 있다. In one example, other aptamer sequences compared through the sequence comparison means are selected from the group consisting of Systematic Evolution of Ligands by EXponential Enrichment (SELEX), clips (Cross-linking Immunoprecipitation, CLIP), and combinations thereof. It may include an aptamer sequence confirmed to bind to the target protein molecule through the analysis method.

본 발명의 다른 측면에 따르면, 본 발명은 컴퓨터에 의해 실현되는 프로그램을 이용하여 표적 단백질 분자와 결합하는 후보 압타머를 생성하는 방법으로서, 서열 생성 수단에 의하여, 순환 신경망(Recurrent Neural Network; RNN) 알고리즘을 이용한 학습 모델을 통하여 표적 단백질 분자와 결합하는 모티프(motif)를 포함하는 후보 압타머 서열을 생성하는 단계; 서열 선택 수단에 의하여, 상기 서열 생성 수단에서 사용된 상기 학습 모델을 손실(loss)과 교집합-합집합 비율의 지표로 평가하여, 상기 서열 생성 수단에서 생성된 후보 압타머 서열 중에서, 최소 손실 값 및 최대 교집합-합집합 비율 중에서 적어도 어느 하나를 가지는 학습 모델에 의해 생성된 후보 압타머 서열을 선별하는 단계; 및 서열 결합 평가 수단에 의하여, 상기 서열 선택 수단에 의해 선별된 상기 후보 압타머 서열의 상기 표적 단백질 분자에 대한 결합 친화도(affinity)와 결합 특이도(binding specificity)를 연산하는 단계를 포함하고, 상기 서열 선택 수단에서 평가 지표인 손실은 생성된 핵산 서열의 음의 로그 우도(negative log-likelihood)의 평균이고, 상기 교집합-합집합 비율은 [{학습된 서열} 교집합 {생성된 서열}] / [{학습된 서열} 합집합 {생성된 서열}]로 정의되는 표적 단백질 분자와 결합하는 후보 압타머를 생성하는 방법을 제공한다. According to another aspect of the present invention, the present invention is a method for generating a candidate aptamer that binds to a target protein molecule using a computer-implemented program, by sequence generating means, a Recurrent Neural Network (RNN) Generating a candidate aptamer sequence including a motif binding to a target protein molecule through a learning model using an algorithm; By the sequence selection means, the learning model used in the sequence generation means is evaluated as an index of loss and intersection-union ratio, and among the candidate aptamer sequences generated by the sequence generation means, the minimum loss value and the maximum Selecting a candidate aptamer sequence generated by a learning model having at least one of a cross-set ratio; And calculating, by the sequence binding evaluation means, binding affinity and binding specificity of the candidate aptamer sequence selected by the sequence selection means to the target protein molecule, The loss, which is an evaluation index in the sequence selection means, is the average of the negative log-likelihood of the generated nucleic acid sequence, and the intersection-union ratio is [{trained sequence} intersection {generated sequence}] / [ It provides a method for generating a candidate aptamer that binds a target protein molecule defined by {learned sequence} union {generated sequence}].

본 발명의 프로그램 및 방법에 따르면, 심층 신경망을 활용하여 특정 표적 분자와 결합할 가능성이 매우 높은 압타머를 생성, 구축할 수 있다. 표적 분자와 결합할 가능성이 높은 잠재적인 압타머 후보 물질만으로 초기 pool을 형성하고, 이와 같이 감소된 pool 내의 핵산 라이브러리에서 출발하여 신속하고 효율적으로 최종 압타머를 선별할 수 있다. According to the program and method of the present invention, it is possible to generate and construct an aptamer having a very high probability of binding to a specific target molecule using a deep neural network. It is possible to form an initial pool with only potential aptamer candidates that are likely to bind the target molecule, and quickly and efficiently select the final aptamer starting from the nucleic acid library in the reduced pool.

특정 표적 분자와 결합할 가능성이 높은 잠재적 압타머 후보 물질만으로 최종 압타머를 신속하고 효율적으로 선별할 수 있기 때문에, 신약 표적 단백질에 대한 압타머와 경쟁적으로 결합할 수 있는 신약 후보 물질을 선별하여 새로운 신약 후보 물질의 개발, 압타머를 바이오마커(biomarker)로 활용하는 진단 시약이나 마이크로어레이(microarray)의 개발, 오염원 등과 같은 환경 유해물질 또는 식품 유해물질 등의 농도를 측정하기 위하여 압타머 또는 압타머-표적 분자의 결합 여부에 따른 신호를 검출하는 바이오 센서 등을 개발할 때 본 발명이 활용될 수 있을 것으로 기대된다. Since only the final aptamer candidate that is likely to bind to a specific target molecule can quickly and efficiently select the final aptamer, a new drug candidate capable of competing with the aptamer for a new drug target protein can be selected. Development of new drug candidates, development of diagnostic reagents or microarrays that utilize aptamers as biomarkers, aptamers or aptamers to measure concentrations of environmentally hazardous substances or food hazardous substances such as pollutants -It is expected that the present invention can be utilized when developing a biosensor that detects a signal depending on whether a target molecule is bound or not.

도 1은 본 발명의 예시적인 실시형태에 따라, 순환 신경망을 활용하여 표적 단백질 분자와 결합하는 압타머를 구축, 생성하는 프로그램이 탑재된 컴퓨터와, 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체의 구성을 개략적으로 도시한 도면이다.
도 2는 본 발명의 예시적인 실시형태에 따라, 순환 신경망을 활용하여 표적 단백질 분자와 결합하는 압타머를 구축, 생성하는 방법을 개략적으로 도시한 플로 차트이다.
도 3은 본 발명의 예시적인 실시예에 따라, 표적 단백질 분자와 결합하는 후보 압타머 서열을 생성하기 위한 순환 신경망의 일례로서 LSTM(Long Short-Term Memory)의 구조를 개략적으로 나타낸 도면이다. 예측과 표적의 차이인 손실(loss)가 은닉 레이어(hidden layer)를 업데이트하기 위해 사용되는 것을 보여주다.
도 4는 본 발명의 예시적인 실시예에 따라, 후보 압타머 서열을 생성하기 위한 학습 모델을 평가하기 위해 계산한 교집합-합집합(intersection to union, IU) 비율(A)과, 손실 변화(B)를 나타낸 그래프이다. (B)에서 x는 최저 손실을 기록한 세대(시점)을 나타낸다.
도 5는 본 발명의 예시적인 실시예에 따라 9개의 표적 단백질에 대한 DeepBind 모델에 의해 연산된 임의 서열의 DeepBind 스코어를 나타낸 그래프이다. BHLHES23은 basic helix-loop-helix family member e23 유전자에서 발현되는 Class E basic helix-loop-helix protein 23을 나타낸다. DRGX는 Dorsal Root Ganglia Homeobox 유전자에서 발현되는 단백질을 나타낸다. FOXP3은 forkhead box P3 단백질을 나타낸다. GCM1은 Glial Cells Missing Homolog 1 단백질을 나타낸다. MTF1은 Metal-Responsive Transcription factor 1 단백질을 나타낸다. OLIG1은 Oligodendrocyte transcription factor 1 단백질을 나타낸다. RXRB는 Retinoid X receptor beta 단백질을 나타낸다. SOX2는 SRY(Sex Determining Region Y)-BOX 2 단백질을 나타낸다. TEAD4는 TEA(transcriptional enhancer factor) domain transcription factor 4 단백질을 나타낸다.
도 6은 본 발명의 예시적인 실시예에 따라, 표적 단백질(p)에 대한 생성된 후보 압타머 서열(s)의 결합 친화도(binding affinity)를 계산(computing)하기 위한 절차를 보여준다. 표적 단백질(p)에 대한 DeepBind 모델(m)을 사용하여 무작위 생성된 핵산 서열 200,000개의 DeepBind 스코어를 계산하여 경험적 누적 분포 함수를 구한다. 이 함수는 불연속적이지만, 많은 수의 데이터 포인트가 많아서 연속적으로 보인다. 이때, 표적 단백질(p)에 대하여 생성된 후보 압타머 서열(s)의 결합 친화되는 미리 구해진 경험적 누적 분포 함수에서 Scorem(s)의 누적 확률 값이다.
도 7은 본 발명의 예시적인 실시예에 따라, 표적 단백질에 대하여 생성된 압타머 서열과, 임의 서열의 결합 친화도를 연산한 결과를 보여주는 그래프이다.
도 8은 본 발명의 예시적인 실시예에 따라, 표적 단백질인 NFATC1의 결합 서열로서 생성된 100개의 DNA 서열에서 보존된 서열 모티프(sequence motif; A), Homer 문헌에 의해 공지된 NFATC1 결합 DNA 모티프 서열(B), JASPAR에서 공지된 NFATC1 결합 DNA 모티프(C), NFATC1과 DNA가 결합한 complex의 구조를 나타낸 도면이다.
도 9는 본 발명의 예시적인 실시예에 따라, 표적 단백질인 NFKB1의 결합 서열로서 생성된 100개의 DNA 서열에서 보존된 서열 모티프(sequence motif; A), Homer 문헌에 의해 공지된 NFKB1 결합 DNA 모티프 서열(B), JASPAR에서 공지된 NFKB1 결합 DNA 모티프(C), NFKB과 DNA가 결합한 complex의 구조를 나타낸 도면이다.
도 10은 본 발명의 예시적인 실시예에 따라, 공지된 NFATC1 결합 압타머에 대하여 생성된 DNA 서열의 정렬(alignment)를 보여주는 히트맵(heatmap) 및 각각의 서열에 대한 누적 결합 특이도 스코어(상부)와, NFKB1 결합 압타머에 대하여 생성된 DNA 서열의 정렬을 보여주는 히트맵 및 각각의 서열에 대한 누적 결합 특이도 스코어(하부)를 보여주는 도면이다. 정렬된 서열의 누적 결합 특이도 스코어가 표시되어 있다. 히트맵에서 높은 누적 결합 특이도를 가지는 위치는 황색으로, 낮은 결합 특이도를 가지는 위치는 청색으로 표시되어 있다.
도 11은 본 발명의 예시적인 실시예에 따라, 공지된 MBNL1 결합 압타머에 대하여 생성된 RNA 서열의 정렬을 보여주는 히트맵과 누적 결합 특이도 스코어(A)와, 공지된 MBLN1 결합 압타머의 2차 구조(B)를 보여주는 도면이다. YGCY 모티프(Y는 피리딘인 사이토신(C)이나 우라실(U)을 나타낸다)가 적색으로 표시된다.
1 is a configuration of a computer equipped with a program for constructing and generating an aptamer binding to a target protein molecule by utilizing a circulatory neural network and a computer-readable recording medium according to an exemplary embodiment of the present invention. It is a diagram schematically showing.
FIG. 2 is a flow chart schematically showing a method of constructing and generating an aptamer binding to a target protein molecule using a circulatory neural network, according to an exemplary embodiment of the present invention.
3 is a diagram schematically showing the structure of a Long Short-Term Memory (LSTM) as an example of a circulating neural network for generating a candidate aptamer sequence that binds a target protein molecule, according to an exemplary embodiment of the present invention. It shows that the difference between prediction and target loss is used to update the hidden layer.
4 is an intersection to union (IU) ratio (A) and loss change (B) calculated to evaluate a learning model for generating a candidate aptamer sequence, according to an exemplary embodiment of the present invention. It is a graph showing. In (B), x represents the generation (time point) with the lowest loss.
5 is a graph showing the DeepBind score of any sequence calculated by the DeepBind model for 9 target proteins according to an exemplary embodiment of the present invention. BHLHES23 represents Class E basic helix-loop-helix protein 23 expressed in the basic helix-loop-helix family member e23 gene. DRGX represents a protein expressed in the Dorsal Root Ganglia Homeobox gene. FOXP3 represents the forkhead box P3 protein. GCM1 represents the Glial Cells Missing Homolog 1 protein. MTF1 stands for Metal-Responsive Transcription factor 1 protein. OLIG1 represents the Oligodendrocyte transcription factor 1 protein. RXRB stands for Retinoid X receptor beta protein. SOX2 represents SRY (Sex Determining Region Y) -BOX 2 protein. TEAD4 represents the transcriptional enhancer factor (TEA) domain transcription factor 4 protein.
6 shows a procedure for calculating the binding affinity of the resulting candidate aptamer sequence (s) for the target protein (p), according to an exemplary embodiment of the present invention. The DeepBind score of 200,000 randomly generated nucleic acid sequences is calculated using the DeepBind model (m) for the target protein (p) to obtain an empirical cumulative distribution function. This function is discontinuous, but it seems to be continuous because of the large number of data points. In this case, it is a cumulative probability value of Score m (s) in a pre-determined empirical cumulative distribution function in which binding affinity of the candidate aptamer sequence (s) generated with respect to the target protein (p) is obtained.
7 is a graph showing a result of calculating the binding affinity of an aptamer sequence and an arbitrary sequence generated for a target protein according to an exemplary embodiment of the present invention.
8 is a sequence motif (A) conserved in 100 DNA sequences generated as a binding sequence of target protein NFATC1, according to an exemplary embodiment of the present invention, NFATC1 binding DNA motif sequence known by Homer literature (B), a diagram showing the structure of the NFATC1 binding DNA motif (C), a complex of NFATC1 and DNA, known from JASPAR.
9 is a sequence motif (A) conserved in 100 DNA sequences generated as a binding sequence of a target protein, NFKB1, according to an exemplary embodiment of the present invention, an NFKB1 binding DNA motif sequence known by Homer literature (B), a diagram showing the structure of the NFKB1 binding DNA motif (C), a complex of NFKB and DNA, known from JASPAR.
FIG. 10 is a heatmap showing the alignment of the DNA sequence generated for a known NFATC1 binding aptamer, according to an exemplary embodiment of the present invention, and a cumulative binding specificity score for each sequence (top) ), A heatmap showing alignment of the DNA sequence generated for the NFKB1 binding aptamer and a cumulative binding specificity score (bottom) for each sequence. The cumulative binding specificity scores of the aligned sequences are shown. In the heat map, positions with high cumulative binding specificity are shown in yellow, and positions with low binding specificity are shown in blue.
FIG. 11 is a heatmap showing the alignment of the RNA sequence generated for a known MBNL1 binding aptamer, cumulative binding specificity score (A), and 2 of a known MBLN1 binding aptamer, according to an exemplary embodiment of the present invention. It is a figure showing the car structure B. The YGCY motif (Y represents pyridine cytosine (C) or uracil (U)) is shown in red.

이하, 필요한 경우에 첨부하는 도면을 참조하면서 본 발명을 설명한다. Hereinafter, the present invention will be described with reference to the accompanying drawings, if necessary.

다양한 세포 과정에서 핵산 분자와 단백질 분자 사이의 상호작용은 필수적이다. 최근 대용량 데이터 처리 기술(high-throughput technology)에 의하여 단백질 분자와 핵산 분자 사이의 상호작용에 대한 많은 데이터가 생성되어, 특정 서열에서 결합 부위(binding sites)를 예측하거나 또는 이들 서열 사이의 상호작용을 결정하기 위하여, 컴퓨터 모델을 이용한 방법을 개발할 필요가 있다. 본 발명에 따르면 표적 단백질 분자와 결합하는 후보 압타머 서열(aptamer sequences)을 생성, 선별, 평가 및/또는 검증할 수 있도록 인공 신경망의 하나인 순환 신경망(Recurrent Neural Network; RNN) 학습 모델을 이용하는데, 이에 대해서 설명한다. Interaction between nucleic acid molecules and protein molecules is essential in various cellular processes. Recently, a large amount of data on the interaction between protein molecules and nucleic acid molecules has been generated by high-throughput technology to predict binding sites in specific sequences or to interact between these sequences. In order to make a decision, it is necessary to develop a method using a computer model. According to the present invention, a recurrent neural network (RNN) learning model, which is one of artificial neural networks, is used to generate, select, evaluate, and / or verify candidate aptamer sequences that bind target protein molecules. , This will be described.

도 1은 발명의 예시적인 실시형태에 따라, 순환 신경망을 활용하여 표적 단백질 분자와 결합하는 압타머를 구축, 생성하는 프로그램이 탑재된 컴퓨터와, 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체의 구성을 개략적으로 도시한 도면이고, 도 2는 본 발명의 예시적인 실시형태에 따라, 순환 신경망을 활용하여 표적 단백질 분자와 결합하는 압타머를 구축, 생성하는 방법을 개략적으로 도시한 플로 차트이다.1 is a diagram showing a configuration of a computer equipped with a program for constructing and generating an aptamer binding to a target protein molecule by utilizing a circulatory neural network and a computer-readable recording medium according to an exemplary embodiment of the present invention. 2 is a flowchart schematically showing a method of constructing and generating an aptamer that binds to a target protein molecule by utilizing a circulatory neural network, according to an exemplary embodiment of the present invention.

도 1에 나타내 바와 같이, 표적 단백질 분자와 결합하는 후보 압타머 서열을 생성하는 프로그램(210)이 기록된 매체(200)는 적절한 컴퓨터(100)에 탑재될 수 있다. 컴퓨터(100)는 최소한의 데이터 처리(data processing) 능력을 가지는 데이터 처리 장치이다. As shown in FIG. 1, a medium 200 in which a program 210 for generating a candidate aptamer sequence that binds a target protein molecule is recorded may be mounted on an appropriate computer 100. The computer 100 is a data processing device with minimal data processing capability.

예를 들어, 컴퓨터(100)는 데스크톱, 노트북과 같은 컴퓨터 단말기이고/이거나, 스마트폰, 태블릿 PC, PDA 등과 같은 모바일 단말기일 수 있다. 필요한 경우, 컴퓨터(100)는 인터넷이나, 3G, LTE 및/또는 5G 등과 같은 데이터 통신망과 연결될 수 있다. 예를 들어, 컴퓨터(100)는 서버(도시하지 않음)와 통신망을 통하여 연결될 수도 있고, 서버에 로컬(local) 형태로 연결될 수도 있지만, 본 발명에 따른 컴퓨터가 반드시 통신망에 연결되는 것은 아니다. For example, the computer 100 may be a computer terminal such as a desktop or a laptop, and / or may be a mobile terminal such as a smartphone, a tablet PC, or a PDA. If necessary, the computer 100 may be connected to the Internet or a data communication network such as 3G, LTE and / or 5G. For example, the computer 100 may be connected to a server (not shown) through a communication network, or may be connected to the server in a local form, but the computer according to the present invention is not necessarily connected to the communication network.

컴퓨터(100)는 다양한 하드웨어(110 내지 140 및 160)와 이러한 하드웨어를 실행시키기 위한 구동/응용 프로그램(150)과 같은 소프트웨어인 다양한 컴포넌트를 포함할 수 있다.The computer 100 may include various components that are software such as various hardware 110 to 140 and 160 and a driving / application program 150 for executing the hardware.

예시적인 실시형태에서, 컴퓨터(100)는 키보드, 마우스 및/또는 터치 패널과 같이 데이터 또는 정보, 예를 들어 응용 프로그램의 일종인 후보 압타머를 생성하는 프로그램을 이용하여 적절한 후보 압타머를 훈련, 학습하기 위한 초기 입력 값을 작성할 수 있는 입력부(110)를 갖는다. 컴퓨터(100)는 또한 입력 또는 다운로드 된 데이터 또는 정보를 인쇄하기 위한 프린터와 같은 출력부(120)와, 이들 데이터를 화면으로 표시하기 위한 모니터와 같은 디스플레이(130)를 포함한다. 아울러, 컴퓨터(100)는 다양한 데이터 및 정보(예를 들어, 표적 단백질 분자의 아미노산 서열이나 3차원 구조 데이터; 생성된 후보 압타머 서열; 공지된 종래의 압타머 서열 등)를 저장하고 있는 RAM, ROM, 하드디스크 등과 같은 메모리(140)를 가지고 있으며, 컴퓨터(100)에서의 다양한 구현 작업을 위하여 구동/응용 프로그램(150)을 탑재하고 있다. In an exemplary embodiment, the computer 100 trains a suitable candidate aptamer using a program that generates candidate aptamers, such as a keyboard, mouse, and / or touch panel, such as data or information, for example, an application. It has an input unit 110 capable of creating initial input values for learning. The computer 100 also includes an output 120 such as a printer for printing input or downloaded data or information, and a display 130 such as a monitor for displaying these data on a screen. In addition, the computer 100 is RAM that stores various data and information (eg, amino acid sequence or three-dimensional structure data of a target protein molecule; generated candidate aptamer sequence; known conventional aptamer sequence, etc.), It has a memory 140 such as a ROM, hard disk, etc., and is equipped with a driving / application program 150 for various implementation tasks in the computer 100.

컴퓨터(100)에서 구현되는 구동/응용 프로그램(150)의 예로서 WINDOWS 등과 같은 구동 소프트웨어는 물론이고, 문서, 이미지, 영상 데이터 등의 콘텐츠를 작성, 편집할 수 있는 콘텐츠 편집 소프트웨어, 인터넷과 같은 통신망에서의 데이터나 정보를 검색하기 위한 브라우저, 인공 신경망을 이용한 훈련, 학습 모델을 구축하기 위한 소프트웨어 등을 들 수 있다. 하지만, 그 외에도 다양한 구동/응용 프로그램이 컴퓨터(100)에 탑재될 수 있을 것이다. As an example of the driving / application program 150 implemented in the computer 100, as well as driving software such as WINDOWS, content editing software capable of creating and editing content such as documents, images, and video data, and a communication network such as the Internet And browsers for retrieving data and information from, training using artificial neural networks, and software for building learning models. However, in addition, various driving / application programs may be installed in the computer 100.

또한, 컴퓨터(100)는 이들 하드웨어와 소프트웨어의 작업을 적절히 제어할 수 있도록 CPU와 같은 제어부(160)를 포함한다. 특히 컴퓨터(100) 중의 메모리(140)와 제어부(160)는 기록 매체(200)에 기록된 프로그램(210) 명령에 따른 일련의 작업을 실현한다는 점에서, 일종의 프로그램 실행부를 구성한다. In addition, the computer 100 includes a control unit 160 such as a CPU so as to properly control the operation of these hardware and software. In particular, the memory 140 and the control unit 160 in the computer 100 constitute a kind of program execution unit in that it realizes a series of operations according to the program 210 instructions recorded on the recording medium 200.

한편, 컴퓨터(100)가 판독할 수 있도록 컴퓨터(100)에 탑재될 수 있는 기록 매체(200)는 본 발명에 따라 표적 단백질 분자와 결합하는 후보 압타머 서열을 생성, 선택, 검증하는 프로그램(210)이 기록된다. 후술하는 바와 같이, 본 발명에 따른 프로그램(210)을 사용하여 표적 단백질 분자와 결합하는 후보 압타머 서열을 효율적으로 생성할 수 있다. 예를 들어, 본 발명에 따라 컴퓨터로 판독 가능한 기록 매체(200)는 표적 단백질 분자와 결합하는 후보 압타머 서열을 생성, 선별, 평가 및 검증하기 위한 일련의 프로그램 명령은 물론이고, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합한 것을 포함할 수 있다. On the other hand, the recording medium 200 that can be mounted on the computer 100 so that the computer 100 can read the program according to the present invention generates, selects, and verifies a candidate aptamer sequence that binds a target protein molecule (210) ) Is recorded. As described below, a candidate aptamer sequence that binds to a target protein molecule can be efficiently generated using the program 210 according to the present invention. For example, in accordance with the present invention, the computer-readable recording medium 200 is a data file, data, as well as a series of program instructions for generating, selecting, evaluating and verifying a candidate aptamer sequence that binds a target protein molecule. It may include a structure or the like alone or in combination.

본 발명에 따라 후보 단백질 서열과 결합하는 후보 압타머 서열을 생성하는 프로그램(210) 명령이 기록된 컴퓨터로 판독 가능한 기록 매체(200)의 예는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터(100)가 판독할 수 있는 기록 매체(200)의 예로는 자기 테이프, 하드 디스크, 플로피 디스크와 같은 자기 기록 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬(floptical) 디스크와 같은 자기-광 기록 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장, 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. An example of a computer readable recording medium 200 in which a program 210 instruction for generating a candidate aptamer sequence that binds a candidate protein sequence according to the present invention is recorded is stored in all kinds of data that can be read by a computer system. Includes a recording device. Examples of the recording medium 200 that the computer 100 can read include magnetic tapes, hard disks, magnetic recording media such as floppy disks, optical recording media such as CD-ROMs, DVDs, and floptical disks. Magnetic-optical recording media and hardware devices specially configured to store and execute program instructions such as ROM, RAM, flash memory, and the like are included.

또한, 캐리어 웨이브(예를 들어, 인터넷을 통해 전송)의 형태로 구현되는 것도 포함되는데, 이러한 기록 매체(200)는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 이러한 컴퓨터(100)가 판독 가능한 기록 매체(200)는 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터(100)가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 한편, 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 아래에서 예시적으로 기술하고 있는, 본 발명을 구현하기 위한 기능적인 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야에서 통상의 프로그래머들에 의해 용이하게 추론될 수 있을 것이다. Also included is implemented in the form of a carrier wave (for example, transmitted over the Internet). Such a recording medium 200 is an optical or metal wire including a carrier wave that transmits a signal specifying a program command, data structure, or the like. It may also be a transmission medium such as a waveguide. The recording medium 200 readable by the computer 100 is distributed in a computer system connected through a communication network so that the code readable by the computer 100 can be stored and executed in a distributed manner. On the other hand, examples of program instructions include not only machine language codes made by a compiler, but also high-level language codes that can be executed by a computer using an interpreter. Functional programs, codes and code segments for implementing the present invention, which are exemplarily described below, can be easily deduced by programmers skilled in the art to which the present invention pertains.

기록 매체(200)에 기록된 표적 단백질 분자와 결합하는 후보 압타머를 생성하는 프로그램(이하, 압타머 생성 프로그램이라고 약칭한다, 210)은 적절한 학습, 훈련 모델을 통하여 후보 압타머 서열을 생성하는 서열 생성 수단(220)과, 생성된 후보 압타머 서열 중에서 가장 적절한 것으로 평가되는 후보 압타머 서열을 선별하는 서열 선택 수단(230)과, 선별된 후보 압타머 서열의 표적 단백질 분자에 대한 결합 친화도(binding affinity)와 특이도(specificity)를 연산하는 서열 결합 평가 수단(240)을 포함하고, 필요한 경우에 최종적으로 선별된 후보 압타머 서열을, 표적 단백질과 결합하는 공지의 다른 압타머 서열과 비교하는 서열 비교 수단(250)을 더욱 포함한다. A program for generating a candidate aptamer that binds a target protein molecule recorded on the recording medium 200 (hereinafter abbreviated as an aptamer generation program, 210) is a sequence that generates a candidate aptamer sequence through an appropriate learning and training model. Generation means 220, sequence selection means 230 for selecting candidate aptamer sequences that are evaluated to be most suitable among the generated candidate aptamer sequences, and binding affinity of the selected candidate aptamer sequence to target protein molecules ( It includes a sequence binding evaluation means 240 for calculating binding affinity and specificity, and, if necessary, compares the finally selected candidate aptamer sequence with other known aptamer sequences that bind the target protein. It further comprises a sequence comparison means (250).

서열 생성 수단(220)은 순환 신경망(Recurrent Neural Network; RNN) 알고리즘을 이용하는 학습 및/또는 훈련 모델을 통하여 표적 단백질 분자와 결합하는 모티프(motif)를 포함하는 후보 압타머 서열을 생성한다. The sequence generating means 220 generates a candidate aptamer sequence containing a motif that binds a target protein molecule through a learning and / or training model using a Recurrent Neural Network (RNN) algorithm.

RNN은 시계열 데이터나 텍스트 데이터와 같은 순차적인 데이터의 특성을 학습할 수 있는 인공신경망(artificial neural network; ANN)이나. RNN은 신경망 속 셀의 현재 출력 결과가 이전의 계산 결과에 영향을 받는 모델이다. 이전 계산 결과에 대한 메모리 정보를 가지고 있어 순차적인 데이터를 학습하는데 장점을 가지고 있다. RNN은 은닉 레이어에 기억을 저장하고 있어, 이를 출력 레이어로 보낸다. 시간 t에서의 출력 레이어의 값(yt), 은닉 레이어의 값(ht)은 시간 t에서의 입력 레이어의 값(xt)과 비선형함수를 이용하여 다음과 같이 표현될 수 있다. RNN is an artificial neural network (ANN) that can learn the characteristics of sequential data such as time series data or text data. RNN is a model in which the current output result of a cell in a neural network is affected by the previous calculation result. It has the advantage of learning sequential data because it has memory information for the previous calculation result. RNN stores the memory in the hidden layer, and sends it to the output layer. The value of the output layer at time t (y t ) and the value of the hidden layer (h t ) can be expressed as follows using the value of the input layer at time t (x t ) and a nonlinear function.

Figure 112018078886369-pat00001
Figure 112018078886369-pat00001

시간 t에서의 은닉 레이어 값(ht)은 시간 t에서의 입력 값(xt)와 계수행렬(Wxh), 시간 t-1에서의 은닉 레이어의 값(ht-1)과 계수행령(Whh)의 활성함수(비선형함수로서, 하이퍼볼릭탄젠트 또는 로지스틱 시그모이드 함수)를 통해 압축된다. 현재 상태인 시간 t에서 은닉 레이어의 값(ht)는 직전 시점 은닉 레이어의 값(ht-1)을 받아 업데이트(갱신)되고, 현재 상태의 출력 레이어의 값(yt)은 현재 상태 은닉 레이어의 값(ht)을 전달받아 갱신된다. The value of the hidden layer at time t (h t ) is the input value at time t (x t ) and the coefficient matrix (W xh ), the value of the hidden layer at time t-1 (h t-1 ) and the counting command ( W hh ) (nonlinear function, hyperbolic tangent or logistic sigmoid function). At the current time t, the value of the hidden layer (h t ) is updated (updated) by receiving the value of the previous hidden layer (h t-1 ), and the value of the current output layer (y t ) is hidden by the current state It is updated by receiving the layer value (h t ).

이와 같이, RNN 알고리즘은 현재 시점의 입력 값과 이전 시점의 입력 값을 처리한 결과를 함께 고려하여 현재 시점의 출력 값을 계산한다. 모든 시점에서 RNN은 파라미터(parameter)를 공유하여 그 과정에서 연속적인 신호의 정적인(stationary) 특징을 학습할 수 있다. 데이터를 처리할 때 은닉 레이어(h)에 정보가 저장되기 때문에, RNN은 기억하는 능력을 가질 수 있다. 이 정보는 나중 시점에서 다시 이용되는데, 은닉 레이어의 저장 공간은 제한되어 있기 때문에 적당한 범위까지만 저장을 한다. 따라서 정보의 입력 시점과 사용 시점이 멀리 떨어져 있을 때, 손실(loss)의 기울기가 역전파되지 않으면서, 계산된 손실의 기울기가 0에 가까워져 모델이 학습되지 않는 기울기 소실 문제(Vanishing Gradient Problem)가 발생하는 한계가 있다. As such, the RNN algorithm calculates the output value of the current time by considering the input value of the current time and the result of processing the input value of the previous time together. At any point in time, the RNN can share parameters to learn the stationary characteristics of a continuous signal in the process. Since information is stored in the hidden layer h when processing data, the RNN may have the ability to remember. This information will be used again at a later point in time. Since the storage space of the hidden layer is limited, it is stored only to the proper extent. Therefore, when the input time and the time of use are far apart, the slope of the loss is not reverse propagated, and the calculated slope of the loss approaches 0, resulting in a vanishing gradient problem in which the model is not trained. There are limitations that arise.

따라서 하나의 예시적인 실시형태에서, 기울기 소실 문제를 해결할 수 있는 심층 신경망 모델을 채택하는 것이 바람직할 수 있다. RNN 모델이 가지는 기울기 소실 문제를 해결하기 위한 대안적인 방법은 게이팅 메커니즘(gating mechanism)을 이용하는 장기 단기 기억(long short-term memory; LSTM) 신경망 모델이나 회로형 순환 유닛(Gated Recurrent Units; GRU) 모델을 채택할 수 있다. Therefore, in one exemplary embodiment, it may be desirable to adopt a deep neural network model that can solve the problem of slope loss. An alternative method to solve the slope loss problem of the RNN model is a long short-term memory (LSTM) neural network model using a gating mechanism or a Gated Recurrent Units (GRU) model. Can be adopted.

예를 들어, LSTM은 각각의 LSTM 블록이 메모리처럼 동작하도록 구성하여 각 시점마다 모델이 어떤 정보를 저장하고 기억할지를 결정한다. 한편, GRU는 LSTM과 동일한 게이팅 메커니즘을 사용하지만, 파라이터를 줄여서 리셋 게이트와 업데이트 게이트로 구성되어 있으며, 두 게이트의 상호작용을 통해 학습한다. For example, the LSTM configures each LSTM block to act like a memory to determine what information the model stores and stores at each point in time. On the other hand, the GRU uses the same gating mechanism as the LSTM, but consists of a reset gate and an update gate with reduced parameters, and learns through the interaction of the two gates.

예시적인 실시형태에서, LSTM 신경망 모델은 단일 레이어로 이루어진 RNN과 달리 여러 개의 레이어로 구성될 수 있다. LSTM 신경망 모델에서 출력 값은 다음 식을 이용하여 연산될 수 있다. In an exemplary embodiment, the LSTM neural network model may be composed of multiple layers, unlike RNNs composed of a single layer. In the LSTM neural network model, the output value can be calculated using the following equation.

Figure 112018078886369-pat00002
Figure 112018078886369-pat00002

(위 식에서 ⊙는 요소별 곱셈을 의미하는 Hadamard product 연산자임)(In the above equation, ⊙ is the Hadamard product operator, which means multiplication by element)

LSTM은 첫 번째로 현재 시점의 입력 값(xt) 이전 시점의 은닉 값(ht-1)을 이용하여 현재 기억하고 있는 정보(Ct-1) 중에서 어떤 정보를 기억하고 버릴지 판단한다. 이는 forget gate라고 불리는 첫 번째 수식에 의해 결정된다. ft의 형태는 0과 1 사이의 값으로, 각각의 값은 해당 위치에 있는 Ct-1의 정보를 "완전히 잊어라" 혹은 "완전히 유지해라"라는 의미를 갖는다. The LSTM first determines which information to store and discard among currently stored information (C t-1 ) by using the input value (x t ) of the current time and the hidden value (h t-1 ) of the time before. This is determined by the first formula called forget gate. The form of f t is a value between 0 and 1, and each value means "forget completely" or "keep completely" the information of C t-1 at the corresponding position.

입력 게이트는 현재 입력(xt)에서 어떤 것을 기억하고 버릴지 판단한다. 현재 입력(xt)은 2번째 수식에 의하여 it로 변형되고, 5번째 수식을 이용하여 현재 정보(Ct)를 업데이트한다. 3번째 수식의 ot는 어떤 것을 내보낼지 결정하는 출력 게이트이고, 여섯 번째 수식에서 현재 정보(Ct)와 함께 현재 출력(ht)을 계산한다. The input gate determines what to remember and discard at the current input (x t ). The current input (x t ) is transformed to i t by the second expression, and the current information (C t ) is updated using the fifth expression. In the third equation, o t is an output gate that determines what to export, and in the sixth equation, the current output (h t ) is calculated along with the current information (C t ).

예시적인 실시형태에 따라, 서열 생성 수단(220)이 LSTM 알고리즘을 선택할 때, 기울기 소실의 문제가 없어서 보다 효율적으로 표적 단백질 분자와 결합하는 후보 압타머 서열을 생성할 수 있다. 하나의 예시적인 실시형태에서, 후보 압타머 서열은 10 내지 50개의 뉴클레오타이드를 가지도록 설계될 수 있다. According to an exemplary embodiment, when the sequence generating means 220 selects the LSTM algorithm, there is no problem of loss of slope, and thus a candidate aptamer sequence that binds to the target protein molecule can be generated more efficiently. In one exemplary embodiment, the candidate aptamer sequence can be designed to have 10 to 50 nucleotides.

서열 선택 수단(230)은 서열 생성 수단(220)에서 사용된 학습 모델에 의해 생성된 후보 압타머 서열 중에서 적절한 후보 압타머 서열을 선별한다. 하나의 예시적인 실시형태에서, 서열 선택 수단(230)은 서열 생성 수단(220)에서 후보 압타머 서열을 생성하기 위해 사용된 학습 모델을 손실(loss) 및/또는 교집합-합집합 비율이라는 평가 지표를 사용할 수 있다. 손실은 서열 생성 수단(220)에 의해 예측, 생성된 후보 압타머 서열의 음의 로그 우도(negative log-likelihood)의 평균값이고, 교집합-합집합 비율은 [{학습된 서열} ∩ {생성된 서열}] /[{학습된 서열}∪{생성된 서열}]로 정의될 수 있다. The sequence selecting means 230 selects an appropriate candidate aptamer sequence from the candidate aptamer sequences generated by the learning model used in the sequence generating means 220. In one exemplary embodiment, the sequence selection means 230 determines the learning model used to generate the candidate aptamer sequence in the sequence generation means 220 as an evaluation index called loss and / or intersection-union ratio. Can be used. The loss is the average value of the negative log-likelihood of the candidate aptamer sequence predicted and generated by the sequence generating means 220, and the intersection-union ratio is [{trained sequence} ∩ {generated sequence} ] / [{Learned sequence} ∪ {generated sequence}].

하나의 예시적인 실시형태에서, 서열 선택 수단(230)은 최소 손실 값 및 최대 교집합-합집합 비율 중에서 적어도 어느 하나를 가지는 학습 모델에 의해 생성된 후보 압타머 서열을 선별할 수 있다. 일례로, 서열 선택 수단(230)은 손실이 최소인 학습 모델을 선택하고, 선택된 학습 모델에 의하여 생성된 후보 압타머 서열을 선택할 수 있다. 교집합-합집합 비율이 높은 학습 모델은 중복 서열이 많아질 수 있다. In one exemplary embodiment, the sequence selection means 230 can select candidate aptamer sequences generated by a learning model having at least one of a minimum loss value and a maximum intersection-union ratio. In one example, the sequence selection means 230 may select a learning model with minimal loss, and select a candidate aptamer sequence generated by the selected learning model. A learning model with a high intersection-to-union ratio may have many overlapping sequences.

서열 결합 평가 수단(250)은 서열 선택 수단(230)에 의하여 선택된 후보 압타머 서열, 예를 들어 최소 손실을 가지는 학습 모델에 의해 생성된 후보 압타머 서열의 표적 단백질 분자에 대한 결합 친화도(binding affinity)와 결합 특이도(binding specificity)를 연산하고, 결합 친화도 및/또는 결합 특이도가 높은 후보 압타머 서열을 최종적으로 선택할 수 있다. The sequence binding evaluation means 250 binds the binding affinity of the candidate aptamer sequence selected by the sequence selection means 230 to the target protein molecule of the candidate aptamer sequence generated by a learning model with minimal loss. affinity) and binding specificity are calculated, and a candidate aptamer sequence with high binding affinity and / or binding specificity can be finally selected.

하나의 예시적인 실시형태에서, 서열 결합 평가 수단(240)은 딥바인드(DeepBind) 모델 또는 디퍼바인드(DeeperBind) 모델을 이용하여 표적 단백질 분자에 대한 후보 압타머 서열의 결합 친화도(binding affinity)와 결합 특이도(binding specificity)를 연산할 수 있다. 하자만, 그 외에도 기계 학습(machine learning) 분야에서 사용되는 다른 분류 모델 또는 분류 알고리즘이 서열 결합 평가 수단(240)에서 사용될 수 있다. In one exemplary embodiment, the sequence binding evaluation means 240 uses a DeepBind model or a DeepBind model to bind the binding affinity of the candidate aptamer sequence to the target protein molecule. Binding specificity can be calculated. However, in addition, other classification models or classification algorithms used in the field of machine learning may be used in the sequence binding evaluation means 240.

예를 들어 딥바인드 모델은 단백질과 핵산 사이의 상호작용을 예측하기 위하여 적용되는 신경망 네트워크의 하나이다. 구체적으로, 딥바인드는 대용량 데이터 실험 기술로부터 얻어진 방대한 양의 데이터에서 훈련된 합성곱 신경망(Convolutional Neural Network; CNN)의 하나이다. 핵산 서열 중의 단백질 결합 부위를 예측하는 것과 관련하여, 딥바인드는 수백 개의 상이한 예측 모델을 포함하고 있는데, 각각의 예측 모델은 다른 표적 단백질 분자에 대한 모델이다. 딥바인드는 출력 값으로서, 입력된 핵산 서열에서 단백질 결합 부위는 제시하지 않고, 입력된 핵산 서열의 예측 결합 스코어(predictive binding score)를 제공한다. For example, the deep bind model is one of neural network networks applied to predict the interaction between proteins and nucleic acids. Specifically, deep bind is one of a convolutional neural network (CNN) trained on a vast amount of data obtained from a large-scale data experiment technique. With regard to predicting protein binding sites in nucleic acid sequences, deepbinds contain hundreds of different predictive models, each predictive model being a model for a different target protein molecule. Deep bind provides an predictive binding score of the input nucleic acid sequence without providing a protein binding site in the input nucleic acid sequence as an output value.

한편, 디퍼바인드 모델은 예를 들어, LSTM 합성곱 신경망을 사용하여 핵산 서열의 단백질-결합 특이도를 예측할 수 있다. 딥바인드와 비교해서 보다 복잡하고 깊은 레이어를 채택하여, 디퍼바인드 모델은 딥바인드 모델에 비하여 보다 양호한 성능을 보여줄 수 있다. 딥바인드 모델 및 디퍼바인드 모델은 생성 모델이 아니라 분류 모델(classification model)이다. On the other hand, the debinding model can predict protein-binding specificity of nucleic acid sequences using, for example, an LSTM convolutional neural network. By adopting more complex and deep layers compared to deep bind, the deperbind model can show better performance than the deep bind model. The deep-bound model and the de-bind model are not classification models, but classification models.

필요한 경우, 후보 압타머를 생성하는 프로그램(210)은 서열 결합 평가 수단(250)에 의해 표적 단백질 분자와의 결합 친화도 및/또는 결합 특이도가 높은 것으로 연산된 후보 압타머 서열을, 표적 단백질 분자와 결합하는 것으로 알려진 다른 압타머 서열과 비교하는 서열 비교 수단(240)을 더욱 포함할 수 있다. 하나의 예시적인 실시형태에서, 서열 비교 수단(240)에 의해 비교되는 다른 압타머 서열은 셀렉스(Systematic Evolution of Ligands by EXponential Enrichment, SELEX)와 같은 시험관 실험(in vitro experiments), 클립(Cross-linking Immunoprecipitation, CLIP)과 같은 생체내 실험(in vivo experiments) 및 이들의 조합으로 구성되는 군에서 선택되는 분석 방법을 통하여 표적 단백질 분자와 결합하는 것으로 알려진 압타머 서열일 수 있다. 표적 단백질 분자와 결합하는 것으로 알려진 다른 압타머 서열은 통신망을 통하여 제공받을 수 있으며, 이들 다른 압타머 서열은 프로그램(210) 내에 저장되거나, 또는 메모리(140)에 저장될 수 있다. 저장된 다른 압타머 서열은 서열 비교 수단(240)에 의하여 추출되어 생성된 후보 압타머 서열과 비교될 수 있다. If necessary, the program 210 for generating a candidate aptamer is a target protein that is calculated by the sequence binding evaluation means 250 to have a high binding affinity and / or binding specificity with a target protein molecule, and a target protein. It may further include sequence comparison means 240 for comparing with other aptamer sequences known to bind molecules. In one exemplary embodiment, other aptamer sequences compared by sequence comparison means 240 are in vitro experiments, clips (Cross-linking) such as Systematic Evolution of Ligands by EXponential Enrichment (SELEX). It may be an aptamer sequence known to bind to a target protein molecule through an analytical method selected from the group consisting of in vivo experiments such as immunoprecipitation (CLIP) and combinations thereof. Other aptamer sequences known to bind the target protein molecule can be provided via a communication network, and these other aptamer sequences can be stored in the program 210 or in memory 140. Other stored aptamer sequences can be compared with candidate aptamer sequences generated and extracted by sequence comparison means 240.

예를 들어, 셀렉스(SELEX)는 1) 핵산 라이브러리 제조, 2) 친화 크로마토그래피 등을 이용하여 표적 단백질 분자와 결합하는 핵산 구조체 선별, 3) 핵산 구조체를 분리, 증폭하는 과정을 반복하여 표적 단백질 분자와 결합하는 압타머일 수 있다. For example, SELEX uses 1) nucleic acid library preparation, 2) selection of a nucleic acid construct that binds to a target protein molecule using affinity chromatography, etc. 3) repeating the process of separating and amplifying a nucleic acid construct to target protein molecules It may be an aptamer that combines with.

그 외에도 일반적인 셀렉스를 개량, 변형한 다른 방법을 통하여 표적 단백질 분자와 결합하는 것으로 확인된 압타머 서열일 수 있다. 일례로, 셀렉스를 개량, 변형한 다른 방법은 1) 핵산 분해효소에 의해 분해되지 않는 L-올리고-뉴클레오타이드를 이용하는 거울상 압타머(Spiegelmer) 방법, 2) 고순도의 단백질 정제 과정 없이 세포 표면에 존재하는 단백질과 결합하는 cell-to-Aptamer 방식으로 특이적 압타머를 발굴하는 Cell SELEX, 3) 모세관 전기영동을 이용하는 capillary electrophoresis SELEX (CE-SELEX), 4) counter-SELEX, 5) Toggle SELEX 등을 포함할 수 있다. 그 외에도, SELEX를 통해 얻어진 초기의 압타머를 안정적이고 강력한 압타머로 개량하기 위하여, 1) RNA 압타머의 Ribose 2'-OH를 2'-F 나 2'-NH2, 2'-O-methyl group으로 치환하거나, 압타머를 polyethylene glycol(PEG)과 같은 고분자나 diacylglycerol 혹은 cholesterol을 접합시키는 post-SELEX 과정이 수행될 수도 있다. In addition, it may be an aptamer sequence that has been confirmed to bind to a target protein molecule through other methods of modifying and modifying a general celex. For example, another method of modifying and modifying Cellex is 1) a mirror image spiegelmer method using L-oligo-nucleotides that are not degraded by a nucleic acid degrading enzyme, 2) present on the cell surface without a high-purity protein purification process Cell SELEX that discovers specific aptamers by cell-to-Aptamer that binds proteins, 3) capillary electrophoresis SELEX (CE-SELEX) using capillary electrophoresis, 4) counter-SELEX, 5) Toggle SELEX, etc. can do. In addition, in order to improve the initial aptamer obtained through SELEX to a stable and powerful aptamer, 1) Ribose 2'-OH of RNA aptamer 2'-F or 2'-NH 2 , 2'-O-methyl The group may be substituted or a post-SELEX process in which aptamer is conjugated to a polymer such as polyethylene glycol (PEG) or diacylglycerol or cholesterol may be performed.

한편, 다른 압타머 서열을 발굴하기 위한 생체내 실험인 CLIP 방법은 특별히 제한되는 것은 아니지만, 1) RNA-단백질의 결합 부위를 확인하기 위하여 UV-가교(UV cross-linking)과 면역침전(Immunoprecipitation)을 결합하는 CLIP-seq(CLIP sequencing; HITS(high-throughput sequenceing)-CLIP), 2) 세포의 RNA 결합 단백질이나 microRNA를 함유하는 ribonucleoprotein complex를 확인하는데 사용되는 PAR-CLIP(photoactivatable ribonucloside-enhanced cross-linking and Immunoprecipitation), 3) 단백질과 RNA 분자를 공유 결합하기 위하여 UV 광을 이용하는 iCLIP(individual nucleotide-resolution cross-linking and Immunoprecipitation), 4) RNA 양을 감소시키고 면역침전 된 RNA의 방사선 표지를 생략하는 sCLIP(simple CLIP) 등을 들 수 있다. On the other hand, the CLIP method, which is an in vivo experiment for discovering other aptamer sequences, is not particularly limited, but 1) UV cross-linking and immunoprecipitation to identify the binding site of the RNA-protein. CLIP-seq (CLIP sequencing; HITS (high-throughput sequencing) -CLIP), 2) PAR-CLIP (photoactivatable ribonucloside-enhanced cross-enhanced) used to identify the cell's RNA binding protein or ribonucleoprotein complex containing microRNA linking and Immunoprecipitation (3), iCLIP (individual nucleotide-resolution cross-linking and Immunoprecipitation) using UV light to covalently bind proteins and RNA molecules, 4) reducing the amount of RNA and omitting radiolabeling of immunoprecipitated RNA and simple CLIP (sCLIP).

한편, 본 발명은 전술한 프로그램(210)을 이용하여 표적 단백질 분자와 결합하는 후보 압타머를 생성하는 방법에 관한 것이다. 도 2는 본 발명의 예시적인 실시형태에 따라 표적 단백질 분자와 결합하는 후보 압타머를 생성하는 방법을 개략적으로 도시한 플로 차트이다. 도 2에 나타낸 바와 같이, 컴퓨터에서 실현되는 프로그램을 이용하여 표적 단백질 분자와 결합하는 후보 압타머를 생성하는 방법은, 압타머 서열을 학습하여 표적 단백질 분자와 결합하는 후보 압타머 서열을 생성하는 단계(S210 단계)와, 생성된 압타머 서열을 선택하는 단계(S220 단계)와, 압타머 서열을 평가하는 단계(S230 단계)를 포함하고, 선택적으로 평가된 압타머 서열을 기존의 다른 압타머 서열과 비교하는 단계(S240 단계)를 포함할 수 있다. Meanwhile, the present invention relates to a method of generating a candidate aptamer that binds to a target protein molecule using the above-described program 210. 2 is a flow chart schematically showing a method for generating a candidate aptamer that binds a target protein molecule according to an exemplary embodiment of the present invention. As shown in FIG. 2, a method of generating a candidate aptamer that binds to a target protein molecule using a computer-implemented program includes: learning a aptamer sequence to generate a candidate aptamer sequence that binds a target protein molecule (Step S210), the step of selecting the generated aptamer sequence (step S220), and the step of evaluating the aptamer sequence (step S230), and optionally evaluating the selected aptamer sequence of other existing aptamer sequences. It may include a step of comparing with (step S240).

후보 압타머 서열을 생성하는 단계(S210 단계)는 서열 생성 수단(220, 도 1 참조)에 의해 수행될 수 있는데, 순환 신경망(RNN) 알고리즘을 이용한 학습 모델을 통하여 표적 단백질 분자와 결합하는 모티프(motif)를 포함하는 후보 압타머 서열을 생성한다. 바람직한 실시형태에서, 후보 압타머 서열을 생성하는 단계(S210 단계)에서 장기-단기 기억(long short-term memory; LSTM) 신경망 알고리즘을 채택할 수 있다. The step of generating a candidate aptamer sequence (step S210) may be performed by a sequence generating means 220 (refer to FIG. 1), a motif binding to a target protein molecule through a learning model using a cyclic neural network (RNN) algorithm ( motif). In a preferred embodiment, a long short-term memory (LSTM) neural network algorithm may be employed in the step of generating a candidate aptamer sequence (step S210).

후보 압타머 서열을 선택하는 단계(S220 단계)는 서열 선택 수단(230, 도 1 참조)에 의해 수행될 수 있다. 일례로, 후보 압타머 서열을 선택하는 단계(S220 단계)는 후보 압타머 서열을 생성하는 단계(S210 단계)에서 서열 생성 수단(220, 도 1 참조)에 의해 사용된 학습 모델을 손실(손실은 생성된 핵산 서열의 음의 로그 우도(negative log-likelihood)의 평균)과 교집합-합집합 비율([{학습된 서열} 교집합 {생성된 서열}] / [{학습된 서열} 합집합 {생성된 서열}])을 평가 지표로 사용할 수 있다. 후보 압타머 서열을 선택하는 단계(S220 단계)를 통하여 후보 압타머 서열을 생성하는 단계(S210 단계)에서 생성된 후보 압타머 서열 중에서 최소 손실 값 및/또는 최대 교집합-합집합 비율을 가지는 학습 모델에 의해 생성된 후보 압타머 서열이 선택될 수 있다. The step of selecting a candidate aptamer sequence (step S220) may be performed by sequence selection means 230 (see FIG. 1). In one example, the step of selecting the candidate aptamer sequence (step S220) loses the learning model used by the sequence generating means 220 (see FIG. 1) in the step of generating the candidate aptamer sequence (step S210) (loss is Average of negative log-likelihood of generated nucleic acid sequence and intersection-set ratio ([{trained sequence} intersection {generated sequence}] / [{trained sequence} union {generated sequence} ]) Can be used as an evaluation index. Selecting a candidate aptamer sequence (step S220) to a learning model having a minimum loss value and / or a maximum intersection- union ratio among candidate aptamer sequences generated in a step (step S210) of generating a candidate aptamer sequence The candidate aptamer sequence produced by can be selected.

후보 압타머 서열을 평가하는 단계(S230 단계)는 서열 결합 평가 수단(240, 도 1 참조)에 의해 수행될 수 있다. 후보 압타머 서열을 평가하는 단계(S230 단계)에서 후보 압타머 서열을 선택하는 단계(S220 단계)에서 선택된 후보 압타머 서열의 표적 단백질 분자에 대한 결합 친화도 및/또는 결합 특이도를 연산하고, 최대의 결합 친화도 및/또는 최대의 결합 특이도를 가지는 후보 압타머 서열이 최종적으로 선택될 수 있다. The step of evaluating the candidate aptamer sequence (step S230) may be performed by the sequence binding evaluation means 240 (see FIG. 1). Computing the binding affinity and / or binding specificity of the candidate aptamer sequence selected in the step (S220 step) of evaluating the candidate aptamer sequence in the step (S220 step) of selecting the candidate aptamer sequence to the target protein molecule, Candidate aptamer sequences with maximum binding affinity and / or maximum binding specificity can be finally selected.

필요한 경우, 후보 압타머 서열을 평가하는 단계(S230 단계)에서 표적 단백질 분자에 대한 후보 압타머 서열의 결합 친화도 및/또는 결합 특이도를 연산하기 위하여 딥바인드(DeepBind) 모델 또는 디퍼바인드(DeeperBind) 모델이 채택될 수 있다. If necessary, in the step of evaluating the candidate aptamer sequence (step S230), a DeepBind model or DeepBind to calculate the binding affinity and / or binding specificity of the candidate aptamer sequence to the target protein molecule ) Models can be adopted.

한편, 후보 압타머 서열을 비교하는 단계(S240 단계)는 평가된 후보 압타머 서열을 표적 단백질 분자와 결합하는 것으로 알려진 다른 압타머 서열과 비교한다. 후보 압타머 서열을 비교하는 단계(S240 단계)는 서열 비교 수단(250, 도 1 참조)에 의해 수행될 수 있다. 예를 들어, 후보 압타머 서열을 비교하는 단계(S240 단계)에서 비교되는 다른 압타머 서열은 셀렉스(SELEX), 클립(CLIP) 및 이들의 조합으로 구성되는 군에서 선택되는 분석 방법을 통하여 표적 단백질 분자와 결합하는 것으로 알려진 압타머 서열일 수 있다. On the other hand, the step of comparing the candidate aptamer sequence (step S240) compares the evaluated candidate aptamer sequence with other aptamer sequences known to bind the target protein molecule. The step of comparing the candidate aptamer sequence (step S240) may be performed by sequence comparison means 250 (see FIG. 1). For example, the other aptamer sequence compared in the step of comparing the candidate aptamer sequence (step S240) is a target protein through an analytical method selected from the group consisting of SELEX, clip (CLIP), and combinations thereof. It may be an aptamer sequence known to bind a molecule.

이하, 예시적인 실시형태를 통하여 본 발명을 설명하지만, 본 발명이 하기 실시예에 기재된 기술사상으로 한정되지 않는다. Hereinafter, the present invention will be described through exemplary embodiments, but the present invention is not limited to the technical idea described in the following examples.

실시예 1: 후보 압타머 서열 생성Example 1: Generating candidate aptamer sequences

RNN 모델을 개량한 LSTM 신경망 모델을 이용하여 표적 단백질 분자와 결합하는 후보 압타머 서열을 생성하였다. 텍스트 데이터에 대한 LSTM 신경망인 char-rnn(https://github.com/karpathy/char-rnn)을 사용하였다. 문자 서열이 주어지면, LSTM 신경망 모델은 한 번에 서열의 한 문자를 판독하고, 2개 레이어의 LSTM 유닛을 통하여 출력 값으로서 해당 서열에서 다음 문자를 예측한다. 상기 모델의 파라미터는 예측 서열과 표적 서열 사이의 차이로부터 연산되는 손실(loss)과 역전파 알고리즘을 통하여 갱신되었다. 본 실시예에서 사용한 128개의 은닉 뉴런을 가지는 LSTM 2개 레이어로 구성된 표적 단백질 분자와 결합하는 후보 압타머 서열을 생성하기 위한 모델을 도 3에 개략적으로 나타낸다. A candidate aptamer sequence that binds to the target protein molecule was generated using the LSTM neural network model with an improved RNN model. The LSTM neural network for text data, char-rnn ( https://github.com/karpathy/char-rnn ), was used. Given a character sequence, the LSTM neural network model reads one character of the sequence at a time and predicts the next character in the sequence as the output value through the LSTM units of the two layers. The parameters of the model were updated through a loss and back propagation algorithm calculated from the difference between the predicted sequence and the target sequence. A model for generating a candidate aptamer sequence binding to a target protein molecule composed of two LSTM layers having 128 hidden neurons used in this example is schematically shown in FIG. 3.

서열 생성 모델은 하기 식 (1)과 같은 방식으로 훈련되었다. xt는 입력 서열에서 t-번째 뉴클레오타이드(염기)를 나타내는 벡터이다. 입력 서열의 xt는 핵산 염기인 A(아데닌), C(사이토신), G(구아닌) 또는 T(티민)/U(우라실)을 나타내는 범주형 데이터이기 때문에, xt 중에서 하나의 요소(element)는 1이고, 나머지 요소들은 0이다. yt는 하기 식 (1)로 정의되는 t번째 뉴클레오타이드(nt)의 클래스 표시자(class indicator)이다. LSTM 모델을 사용하여 입력 벡터 xt에 대한 zt를 계산한다. 소프트맥스(softmax) 함수는 zt를 0과 1 사이의 값을 가지면서 그 합이 1인 벡터가 되도록 변경하고, softmaxj는 softmax 출력 값의 j-번째 요소이다. 여기서 손실은 예측된 핵산 서열의 음의 로그 우도(negative log-likelihood)의 평균이다. The sequence generation model was trained in the following manner (1). x t is a vector representing the t-th nucleotide (base) in the input sequence. Since x t of the input sequence is categorical data representing the nucleic acid bases A (adenine), C (cytosine), G (guanine) or T (thymine) / U (uracil), one element of x t ) Is 1, and the remaining elements are 0. y t is a class indicator of the t-th nucleotide (n t ) defined by the following formula (1). Calculate z t for the input vector x t using the LSTM model. The softmax function changes z t to have a value between 0 and 1, so that the sum is a vector, and softmax j is the j-th element of the softmax output value. The loss here is the average of the negative log-likelihood of the predicted nucleic acid sequence.

Figure 112018078886369-pat00003
Figure 112018078886369-pat00003

서열을 생성할 때, 본 실시예의 모델은 0.25로 채워진 벡터인 첫 입력 값 x1으로서 다항 분포(multinomial distribution)를 사용하고, 서열의 다항 분포인 softmax(zt)를 계산한다. 하나의 뉴클레오타이드 서열이 해당 다항 분포인 softmax(zt)에서 샘플링되고, 샘플링 된 뉴클레오타이드 서열의 벡터 표현(vector representation)은 해당 모델에서 x2로 다시 입력된다. 이 과정은 서열의 길이가 미리 결정된 길이에 도달할 때까지 반복된다. When generating a sequence, the model of this example uses a multinomial distribution as the first input value x 1 , a vector filled with 0.25, and calculates the polynomial distribution of the sequence, softmax (z t ). One nucleotide sequence is sampled from the corresponding polynomial distribution, softmax (z t ), and the vector representation of the sampled nucleotide sequence is re-entered as x 2 in the model. This process is repeated until the length of the sequence reaches a predetermined length.

단백질-결합 DNA 서열과 관련하여, 본 실시예의 모델은 단백질에 대한 결합 서열로서 HT-SELEX 실험에 의해 얻어진 DNA 서열 세트에서 훈련되었다. 본 모델을 훈련할 때 사용된 DNA 서열은 20개의 뉴클레오타이드를 가지고 있기 때문에, 본 모델에 의해 생성된 핵산 서열의 길이 역시 20개의 뉴클레오타이드로 설정되었다. With respect to protein-binding DNA sequences, the model of this example was trained on a set of DNA sequences obtained by HT-SELEX experiments as binding sequences for proteins. Since the DNA sequence used when training this model had 20 nucleotides, the length of the nucleic acid sequence produced by this model was also set to 20 nucleotides.

실시예 2: 모델 평가 및 후보 압타머 서열 선택Example 2: Model evaluation and candidate aptamer sequence selection

실시예 1에서 학습된 모델에 대하여 상기 식 (1)에서 정의된 손실(loss)과 하기 식 (2)에서 정의된 교집합-합집합 비율(intersection to union ratio; IU ratio)의 두 가지 지표를 사용하여 학습 결과를 평가하였다. For the model trained in Example 1, two indices of loss defined in equation (1) and intersection to union ratio (IU ratio) defined in equation (2) are used. The learning results were evaluated.

Figure 112018078886369-pat00004
Figure 112018078886369-pat00004

도 4는 실시예 1에서 표적 단백질 분자로 선정한 NFATC1(Nuclear factor of activated T-cells, cytoplasmic 1)과 NFKB1(Nuclear factor of NF-kappa-B p105 subunit)에 결합하는 DNA 서열을 최초 50 세대 동안 학습하는 동안에 실시예 1에서 학습된 모델의 IU ratio와 손실 값을 보여주는 그래프이다. NFATC1 및 NFKB1 모두에 대하여, 모델이 더 오래 학습할수록 IU ratio가 모두 증가하였다(도 4의 (A) 참조). IU ratio와 달리, 모델이 학습할수록 특정 시점 이후에 손실은 감소하는 경향을 보였지만, 감소하는 경향은 일정하지 않았다. NFATC1에 대한 모델의 손실은 20 세대까지 약간의 반등을 제외하면 일반적으로 손실이 감소하는 경향을 보였으며, 19 세대에서 최저 손실 0.95에 도달한 후에 약간 증가하였다. 반면, NFKB1에 대한 모델의 손실은 5 세대까지 크게 등락하다가 그 이후로는 대략 1.05로 수렴하였다(도 4의 (B) 참조). FIG. 4 shows the DNA sequence binding to NFATC1 (Nuclear factor of activated T-cells, cytoplasmic 1) and NFKB1 (Nuclear factor of NF-kappa-B p105 subunit) selected as the target protein molecule in Example 1 during the first 50 generations. It is a graph showing the IU ratio and the loss value of the model trained in Example 1 during the process. For both NFATC1 and NFKB1, the longer the model was trained, the higher the IU ratio was (see FIG. 4 (A)). Unlike the IU ratio, as the model trained, the loss tended to decrease after a certain time point, but the tendency to decrease was not constant. The loss of the model for NFATC1 generally showed a tendency to decrease, with a slight rebound up to the 20th generation, and slightly increased after reaching the lowest loss of 0.95 in the 19th generation. On the other hand, the loss of the model for NFKB1 fluctuated significantly up to 5 generations, and thereafter converged to approximately 1.05 (see FIG. 4 (B)).

최대 IU ratio를 갖는 모델은 많은 중복 서열(redundant sequence)을 생성하였다. NFKB1 및 NFATC1에 대한 모델에 의해 생성된 서열 중에서 각각 25%, 33%는 중복 서열이었다. 따라서, 본 실시예에서 최대 IU ratio를 가지는 모델이 아니란 최소 손실 값을 가지는 서열 생성 학습 모델을 선택하여, 학습 데이터 세트와 유사하지만 완전히 동일하지는 않은 다양한 서열을 구축, 선별하였다. The model with the maximum IU ratio produced many redundant sequences. Of the sequences generated by the models for NFKB1 and NFATC1, 25% and 33%, respectively, were duplicate sequences. Accordingly, in this example, a sequence generation learning model having a minimum loss value, not a model having a maximum IU ratio, was selected, and various sequences similar to, but not completely identical to, a learning data set were constructed and selected.

실시예 3: 후보 압타머 서열의 결합 친화도 및 특이도 연산Example 3: Calculation of binding affinity and specificity of candidate aptamer sequences

표적 단백질 분자에 대하여 실시예 2에서 선별된 모델에 의해 생성된 핵산 서열의 결합 친화도(binding affinity)와 특이도(specificity)를 평가하기 위하여, 딥바인드(DeepBind) 모델의 예측 결합 스코어(predictive binding score; 이하 DeepBind 스코어)를 사용하였다. 도 5는 9개의 DeepBind 모델에서 임의로 생성된 서열의 DeepBind 스코어를 보여준다. 도 5에 나타낸 바와 같이, DeepBind 스코어의 분포가 각각 서로 다르기 때문에, 다른 DeepBind 모델에서 DeepBind 스코어를 직접 비교할 수 없다. Predictive binding score of the DeepBind model in order to evaluate the binding affinity and specificity of the nucleic acid sequence generated by the model selected in Example 2 for the target protein molecule score; hereafter, DeepBind score) was used. 5 shows DeepBind scores of sequences randomly generated from nine DeepBind models. As shown in FIG. 5, since the distribution of DeepBind scores is different from each other, it is not possible to directly compare DeepBind scores in different DeepBind models.

DeepBind 스코어를 직접 비교할 수 있도록, 본 실시예에서 하기 식 (3)에 의하여 표적 단백질(p)의 DeepBind 모델(m)에서 생성된 핵산 서열(s)의 DeepBind 스코어의 누적확률분포(누적확률밀도함수, 누적분포함수, cumulative probability density function, cumulative distribution function, cdf)에 의해, 표적 단백질 분자(p)에 대하여 생성된 후보 압타머 핵산 서열(s)의 결합 친화도(binding affinity, AF)를 정의하였다. 각각의 DeepBind 모델에 대한 DeepBind 스코어의 누적확률분포를 얻기 위해서, 20개의 뉴클레오타이드로 이루어진 20만개의 무작위 DNA 서열에 대하여 DeepBind 모델을 실행하여 DeepBind 스코어의 배경 분포(background distribution)을 얻었다. 무작위 DNA 서열의 DeepBind 스코어로부터 해당 스코어의 경험적 누적 분포 함수(empirical cumulative distribution function, Fm)를 유도하였다. 경험적 누적 분포 함수는 각각의 데이터 포인트 사이에서 1/n씩 뛰는 계단 함수(step function)인데, 본 실시예에서 n=200,000이다. 다시 말하면, 경험적 누적 분포 함수의 값은 입력된 DeepBind 스코어보다 작거나 같은 DeepBind 스코어의 일부이기 때문에, 그 값은 항상 [0, 1]의 범위에 있다. 하기 식 (3)에서 Scorem(s)는 DeepBind 모델(m)에 의해 연산된 핵산 서열(s)의 스코어를 나타낸다. 한편, 도 6은 결합 친화도를 연산하는 과정을 개략적으로 나타낸 그래프이다. In order to directly compare the DeepBind score, the cumulative probability distribution of the DeepBind score (cumulative probability density function) of the nucleic acid sequence (s) generated in the DeepBind model (m) of the target protein (p) by Equation (3) below , Binding affinity (AF) of the candidate aptamer nucleic acid sequence (s) generated for the target protein molecule (p) was defined by cumulative probability density function, cumulative distribution function (cdf). . In order to obtain a cumulative probability distribution of DeepBind scores for each DeepBind model, a DeepBind model was executed on 200,000 random DNA sequences consisting of 20 nucleotides to obtain a background distribution of DeepBind scores. The empirical cumulative distribution function (F m ) of the score was derived from the DeepBind score of the random DNA sequence. The empirical cumulative distribution function is a step function that jumps 1 / n between each data point, where n = 200,000 in this embodiment. In other words, since the value of the empirical cumulative distribution function is part of the DeepBind score less than or equal to the entered DeepBind score, the value is always in the range of [0, 1]. In the following formula (3), Score m (s) represents the score of the nucleic acid sequence (s) calculated by the DeepBind model (m). Meanwhile, FIG. 6 is a graph schematically showing a process of calculating a binding affinity.

Figure 112018078886369-pat00005
Figure 112018078886369-pat00005

하기 표 1은 테스트에서 AUC(Area under an ROC curve) 값과 함께, 일부 표적 단백질 분자에 대한 DeepBind 모델을 훈련하고 테스트하기 위해 사용된 일부 양성 데이터를 나타낸다. 표 1에서 TEAD4는 TEA(transcriptional enhancer factor) domain transcription factor 4 단백질, NFATC1은 nuclear factor of activated T-cells, cytoplasmic 1 단백질, DRGX는 Dorsal Root Ganglia Homeobox 단백질, GCM1은 Glial Cells Missing Homolog 1 단백질, NFKB1은 nuclear factor of NF-kappa-B p105 subunit 단백질, OLIG1은 Oligodendrocyte transcription factor 1 단백질, RXRB는 Retinoid X receptor beta 단백질, SOX2는 SRY(Sex Determining Region Y)-BOX 2 단백질, BHLHES23은 basic helix-loop-helix family member e23 유전자에서 발현되는 Class E basic helix-loop-helix protein 23, MTF1은 Metal-Responsive Transcription factor 1 단백질, FOXP3은 forkhead box P3 단백질, MBNL1은 Muscleblind-like protein 1 단백질을 나타낸다. 표 1의 Type에서 TF는 transcription factor를 의미하고, RBP는 RNA binding protein을 의미한다. Family에서 TEA는 transcription enhance factor, Rel은 Rel homology domain을 가지는 family, GCM은 GCM 모티프를 가지는 family, bHLH는 basic helix-loop-helix 모티프를 가지는 family, C2H2 ZF는 cys2Hi2-like fold group zinc finger 모티프를 가지는 family, Znf는 zinc finger 모티프를 가지는 family를 의미한다. Experiment에서 ChIP-seq는 chromatin Immunoprecipitation -sequencing을 의미한다. Table 1 below shows some positive data used to train and test the DeepBind model for some target protein molecules, along with area under an ROC curve (AUC) values in the test. In Table 1, TEAD4 is a transcriptional enhancer factor (TEA) domain transcription factor 4 protein, NFATC1 is a nuclear factor of activated T-cells, cytoplasmic 1 protein, DRGX is a Dorsal Root Ganglia Homeobox protein, GCM1 is a Glial Cells Missing Homolog 1 protein, NFKB1 is nuclear factor of NF-kappa-B p105 subunit protein, OLIG1 is Oligodendrocyte transcription factor 1 protein, RXRB is Retinoid X receptor beta protein, SOX2 is SRY (Sex Determining Region Y) -BOX 2 protein, BHLHES23 is basic helix-loop-helix Class E basic helix-loop-helix protein 23 expressed in the family member e23 gene, MTF1 represents a metal-responsive transcription factor 1 protein, FOXP3 represents a forkhead box P3 protein, and MBNL1 represents a muscleblind-like protein 1 protein. In the type of Table 1, TF means transcription factor, and RBP means RNA binding protein. In the family, TEA is a transcription enhancer, Rel is a family with a Rel homology domain, GCM is a family with a GCM motif, bHLH is a family with a basic helix-loop-helix motif, C2H2 ZF is a cys2Hi2-like fold group zinc finger motif Branch family, Znf refers to the family with zinc finger motif. In experiment, ChIP-seq means chromatin immunoprecipitation -sequencing.

표 1에 나타낸 바와 같이, 다른 DeepBind 모델마다 매우 다른 AUC 값을 보여주는데, FOXP3 단백질에 대해서는 0.499부터 TEAD4 단백질에 대해서는 0.990을 갖는다. 테스트에서 0.499의 AUC 값은 무작위 추측에 가깝다. As shown in Table 1, different DeepBind models show very different AUC values, ranging from 0.499 for FOXP3 protein to 0.990 for TEAD4 protein. In the test, the AUC value of 0.499 is close to random guessing.

Figure 112018078886369-pat00006
Figure 112018078886369-pat00006

한편, 표 2는 표 1에서 선택된 표적 단백질 분자의 DeepBind 모델의 AUC 값과, 각각의 표적 단백질에 결합하는, 선택된 후보 압타머 서열과 무작위 서열에서 AF의 중앙값을 각각 나타낸다. 일부 DeepBind 모델에서 AF의 이상값(outliers)으로 인하여 평균을 크게 왜곡하기 때문에, 중앙값을 사용하여 비교하였다. 전체적으로, 실시예 1에서 생성되어 실시예 2에서 선택된 후보 압타머 서열은 무작위 서열에 비하여 높은 AF 값을 가지고 있다. On the other hand, Table 2 shows the AUC value of the DeepBind model of the target protein molecule selected in Table 1, and the median value of AF in the selected candidate aptamer sequence and random sequence that bind to each target protein, respectively. In some DeepBind models, the mean is largely distorted due to AF outliers, so the median was used for comparison. Overall, the candidate aptamer sequence generated in Example 1 and selected in Example 2 has a higher AF value compared to the random sequence.

Figure 112018078886369-pat00007
Figure 112018078886369-pat00007

실시예 1에서 생성되어, 실시예 2에서 선별된 후보 압타머 서열과, 무작위 서열의 중앙값 사이의 차이는 일반적으로 표적 단백질의 DeepBind 모델의 AUC 값에 비례한다. 예를 들어, DRGX, GCM1, OLIG1 및 RXRB에 각각 결합하는 생성된 후보 압타머 서열의 AF는 무작위 서열의 AF 분포에 비하여 높게 위치한다(도 7 참조). 무작위 서열의 AF 분포는 0을 중심으로 매우 유사하게 분포하였다. 중앙값 사이의 차이가 매우 작은 경우, 낮은 AUC를 갖는 DeepBind 모델이 생성된 후보 압타머 서열에 대하여 더 높은 DeepBind 스코어를 줄 수 없기 때문이다. SOX2 단백질에 결합하는 생성된 후보 압타머 서열에서 AF 중앙값은 무작위 서열에서 AF 중앙값보다 낮았다. SOX2 생성 모델이 SOX2 DeepBind 모델에 의해 높은 스코어를 받을 서열 특성을 충분히 학습하지 못했다고 추측된다. The difference between the candidate aptamer sequence selected in Example 2 and the median value of the random sequence generated in Example 1 is generally proportional to the AUC value of the DeepBind model of the target protein. For example, the AF of the resulting candidate aptamer sequence that binds DRGX, GCM1, OLIG1 and RXRB, respectively, is located higher than the AF distribution of the random sequence (see Figure 7). The AF distribution of random sequences was distributed very similarly around zero. This is because when the difference between medians is very small, a DeepBind model with a low AUC cannot give a higher DeepBind score for the candidate aptamer sequence generated. The median AF in the resulting candidate aptamer sequence binding to the SOX2 protein was lower than the median AF in the random sequence. It is assumed that the SOX2 generation model has not sufficiently learned the sequence properties that will receive high scores by the SOX2 DeepBind model.

한편, 본 실시예에서 하기 식 (4)에 의하여 표적 단백질(p)에 대한 후보 압타머 핵산 서열(s)의 결합 특이도(binding specificity, SP)를 정의하였다. 식 (4)에서, M은 식 (3)의 m과 같은 유형의 실험에서 얻은 데이터에 대하여 학습한 모든 서열 생성 모델의 집합이다. 각각의 모델의 신뢰도를 반영하기 위하여 식 (3)에서 정의된 결합 친화도(AF)에 AUC 값을 곱하여 가중 처리하였다. AUC 값을 사용할 수 없는 경우, AF에 AUC 값의 가중치를 적용하지 않았다(즉, 모든 모델 m에 대하여 AUCm = 1). Meanwhile, in this example, the binding specificity (SP) of the candidate aptamer nucleic acid sequence (s) for the target protein (p) was defined by the following formula (4). In equation (4), M is a set of all sequence generation models that have been trained on data obtained from experiments of the same type as m in equation (3). In order to reflect the reliability of each model, the binding affinity (AF) defined in equation (3) was multiplied by AUC value. If AUC values were not available, AF was not weighted with AUC values (i.e., AUC m = 1 for all model m).

Figure 112018078886369-pat00008
Figure 112018078886369-pat00008

한편, 생성된 후보 압타머 서열과 무작위 서열의 결합 특이도를 연산하였을 때, 무작위 서열의 결합 특이도(SP) 중앙값은 모든 표적 단백질 분자에 대해서 0에 가깝게 분포하였다. 반면, 실시예 1에서 생성되고, 실시예 2에서 선별된 후보 압타머 서열에서 SP 중앙값은 SOX2를 제외하고는 모두 양수였다. On the other hand, when calculating the binding specificity of the generated candidate aptamer sequence and the random sequence, the median binding specificity (SP) of the random sequence was distributed close to 0 for all target protein molecules. On the other hand, in the candidate aptamer sequences produced in Example 1 and selected in Example 2, the median SP was positive except for SOX2.

실시예 4: 단백질 분자 결합 압타머 서열 모티프Example 4: Protein molecule binding aptamer sequence motif

실시예 1 내지 3을 통해 확인된 모델에 의해 생성된 NFATC1 단백질에 결합하는 후보 압타머 DNA 서열 군 중에서, 높은 결합 특이도를 가지는 상위 100개의 후보 압타머 서열을 선택하고, Clustal Omega를 사용하여 정렬시켰다. 도 8의 (A)에 나타낸 바와 같이, 100개의 선택된 후보 압타머 서열에서 보존된 서열 모티프(sequence motif)가 관찰되었다. 생성된 후보 압타머 서열에서 발견된 모티프는 또한 PDB(Protein Data Bank)에서 단백질-DNA complex, Homer 및 JASPAR 데이터베이스에서 알려진 모티프에 의해서도 뒷받침된다. Among the group of candidate aptamer DNA sequences that bind to the NFATC1 protein produced by the models identified through Examples 1 to 3, the top 100 candidate aptamer sequences with high binding specificity were selected and aligned using Clustal Omega Ordered. As shown in FIG. 8 (A), a sequence motif conserved in 100 selected candidate aptamer sequences was observed. The motifs found in the resulting candidate aptamer sequences are also supported by motifs known from the Protein-DNA complex, Homer and JASPAR databases at Protein Data Bank (PDB).

비슷한 방법으로 NFKB1에서 높은 결합 특이도를 가지는 상위 100개 후보 압타머 DNA 서열에서도 보존된 서열 모티프를 관찰할 수 있었다(도 9 참조). In a similar way, a conserved sequence motif could be observed in the top 100 candidate aptamer DNA sequences with high binding specificity in NFKB1 (see FIG. 9).

실시예 5: 알려진 압타머 서열과 비교Example 5: Comparison with known aptamer sequences

알려진 압타머 서열에 대하여, 실시예 1 내지 4의 모델에서 생성된 후보 압타머 서열을 비교하기 위하여, 높은 결합 특이도를 가지는 100개의 후보 압타머 DNA 서열을 선택하였다. 실시예 4에서 확인된 NFATC1과 NFKB1에 대하여 알려진 압타머 서열을 각각 EMBOSS needleman을 사용하여 정렬시켰다. To compare candidate aptamer sequences generated in the models of Examples 1 to 4 against known aptamer sequences, 100 candidate aptamer DNA sequences with high binding specificity were selected. The aptamer sequences known for NFATC1 and NFKB1 identified in Example 4 were aligned using an EMBOSS needleman, respectively.

도 10에서, 꺾은선 그래프는 정렬된 각각의 위치에서 정렬된 서열의 누적 결합 특이도를 나타낸다. 히트맵에서 결합 특이도가 높은 위치를 황색으로, 결합 특이도가 낮은 위치를 청색으로 표시하였다. NFATC1 압타머에 대한 후보 압타머 서열의 2개의 정렬에서 누적 결합 특이도는 유사한 패턴을 보여주었다. In FIG. 10, the line graph shows the cumulative binding specificity of the sequence aligned at each aligned position. In the heat map, positions with high binding specificity are shown in yellow, and positions with low binding specificity are shown in blue. The cumulative binding specificity in the two alignments of the candidate aptamer sequence for NFATC1 aptamer showed a similar pattern.

NAFTC1 압타머에 대하여 생성된 후보 DNA 압타머 서열의 첫 번째 정렬에서 결합 특이도가 가장 많이 누적된 영역은 40-mer 영역(5`-GGGAGAGCGGAAGCGUGCUGGGCC-N40-CAUAACCCAGAGGUCGAUGGAUCCCCCC-3`) 직후에 관찰되었으나, 두 번째 정렬에서 가장 높은 누적 결합 특이도는 40-mer 부근에서 발견되었다. 이러한 결과는 본 발명에서 적용된 모델을 사용하여 표적 단백질에 결합하는 후보 압타머 서열을 용이하게 생성, 선별할 수 있다는 것을 의미한다. 정렬에서, 압타머를 선택하였을 때 무작위 라이브러리(random library)의 프라이머 부위(primer site)인 압타머의 5' 말단에서, 가장 높은 스코어가 관찰되었다.In the first alignment of the candidate DNA aptamer sequence generated for the NAFTC1 aptamer, the region with the most accumulated binding specificity was observed immediately after the 40-mer region (5`-GGGAGAGCGGAAGCGUGCUGGGCC-N40-CAUAACCCAGAGGUCGAUGGAUCCCCCC-3`), but the two The highest cumulative binding specificity in the second alignment was found around 40-mer. These results indicate that a candidate aptamer sequence that binds to a target protein can be easily generated and selected using the model applied in the present invention. In alignment, the highest score was observed at the 5 'end of the aptamer, the primer site of the random library, when aptamers were selected.

실시예 6: 알려진 압타머 서열과 비교Example 6: Comparison with known aptamer sequences

실시예 1 내지 5에서 확인된 것과 동일한 절차를 반복하여, 표적 단백질과 결합하는 후보 RNA 압타머 서열을 생성, 선별하였다. 실시예 1 내지 5에서와 마찬가지로 CLIP-seq. 실험으로 확인된 CLIPdb의 MBNL1 단백질에 결합하는 후보 RNA 압타머 서열을 학습, 생성하였다. By repeating the same procedure as in Examples 1 to 5, candidate RNA aptamer sequences binding to the target protein were generated and selected. CLIP-seq. As in Examples 1-5. Candidate RNA aptamer sequences that bind to the MBNL1 protein of CLIPdb confirmed by experiments were learned and generated.

높은 결합 특이도를 가지는 상위 100개 RNA 서열을 선택하고, 알려진 MBNL1 결합 압타머에 정렬시켰다. 알려진 압타머는, 2개의 constant 영역(5`-GGGAAUGGAUCCACAUCUACGAAUUC-N32-AAGACUCGAUACGUGACGAACCU-3`)이 인접하게 위치하는 32-mer MBNL1-결합 영역을 포함하고 있다. The top 100 RNA sequences with high binding specificity were selected and aligned to known MBNL1 binding aptamers. Known aptamers include a 32-mer MBNL1-binding region in which two constant regions (5`-GGGAAUGGAUCCACAUCUACGAAUUC-N32-AAGACUCGAUACGUGACGAACCU-3`) are contiguous.

도 11에 도시한 두 가지 정렬에서, 결합 특이도가 가장 높은 누적 스코어는 32-mer MBNL1 결합 영역 내에서 관찰되었다. MRNL1 결합 RNA는 그 결합 영역에 YGCY(Y는 피리미딘 염기인 사이토신(C) 또는 우라실(U)을 나타냄) 모티프를 가지는 것으로 알려져 있다. 도 11에 도시한 첫 번째 정렬의 32-mer 영역에서 3회(30-33, 41-44, 47-50), 두 번째 정렬의 32-mer 영역에서 2회(32-35, 50-53)에서 결합 모티프가 관찰되었다. 표적 단백질 분자에 결합하는 후보 RNA 압타머 서열의 생성과 관련한 모델은 생체내 실험(in vivo experiment), 예를 들어, CLIP-seq 로부터 얻어진 데이터를 사용하여 학습되었지만, SELEX와 같은 시험관 실험(in vitro experiments)에서 발견된 것과 유사한 결합 특성을 가지는 후보 RNA 압타머 서열을 생성하였다. In the two alignments shown in Figure 11, the cumulative score with the highest binding specificity was observed within the 32-mer MBNL1 binding region. MRNL1 binding RNA is known to have a YGCY motif (Y represents a pyrimidine base, cytosine (C) or uracil (U)) in its binding region. 11 times in the 32-mer region of the first alignment (30-33, 41-44, 47-50), twice in the 32-mer region of the second alignment (32-35, 50-53) In the binding motif was observed. Models relating to the generation of candidate RNA aptamer sequences that bind to target protein molecules have been trained using data obtained from in vivo experiments, e.g., CLIP-seq, but in vitro experiments such as SELEX ( in vitro experiments) to generate candidate RNA aptamer sequences with binding properties similar to those found.

상기에서는 본 발명의 예시적인 실시형태 및 실시예에 기초하여 본 발명을 설명하였으나, 본 발명이 상기 실시형태 및 실시예에 기재된 기술사상으로 한정되는 것은 아니다. 오히려 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 전술한 실시형태 및 실시예를 토대로 다양한 변형과 변경을 용이하게 추고할 수 있다. 하지만, 이러한 변형과 변경은 모두 본 발명의 권리범위에 속한다는 점은, 첨부하는 청구범위에서 분명하다. In the above, the present invention has been described based on exemplary embodiments and examples of the present invention, but the present invention is not limited to the technical ideas described in the above embodiments and examples. Rather, those skilled in the art to which the present invention pertains can easily suggest various modifications and changes based on the above-described embodiments and examples. However, it is clear from the appended claims that all such modifications and variations fall within the scope of the present invention.

100: 컴퓨터 110: 입력부
120: 출력부 130: 디스플레이
140: 메모리 150: 구동/응용 프로그램
160: 제어부
200: 기록 매체
210: 압타머 생성 프로그램
220: 서열 생성 수단 230: 서열 선택 수단
240; 서열 결합 평가 수단 250: 서열 비교 수단
100: computer 110: input
120: output unit 130: display
140: memory 150: drive / application
160: control unit
200: recording medium
210: aptamer generation program
220: means for generating a sequence 230: means for selecting a sequence
240; Sequence binding evaluation means 250: Sequence comparison means

Claims (10)

순환 신경망(Recurrent Neural Network; RNN) 알고리즘을 이용한 학습 모델을 통하여 표적 단백질 분자와 결합하는 모티프(motif)를 포함하는 후보 압타머 서열을 생성하는 서열 생성 수단;
상기 서열 생성 수단에서 사용된 상기 학습 모델을 손실(loss)과 교집합-합집합 비율의 지표로 평가하여, 상기 서열 생성 수단에서 생성된 후보 압타머 서열 중에서, 최소 손실 값 및 최대 교집합-합집합 비율 중에서 적어도 어느 하나를 가지는 학습 모델에 의해 생성된 후보 압타머 서열을 선별하는 서열 선택 수단; 및
상기 서열 선택 수단에 의해 선별된 상기 후보 압타머 서열의 상기 표적 단백질 분자에 대한 결합 친화도(affinity)와 결합 특이도(binding specificity)를 연산하는 서열 결합 평가 수단을 포함하고,
상기 서열 선택 수단에서 평가 지표인 손실은 생성된 핵산 서열의 음의 로그 우도(negative log-likelihood)의 평균값이고, 상기 교집합-합집합 비율은 [{학습된 서열} 교집합 {생성된 서열}] / [{학습된 서열} 합집합 {생성된 서열}]로 정의되는 표적 단백질 분자와 결합하는 후보 압타머를 생성하는 프로그램을 기록한 컴퓨터로 판독할 수 있는 기록 매체.
A sequence generating means for generating a candidate aptamer sequence including a motif binding to a target protein molecule through a learning model using a Recurrent Neural Network (RNN) algorithm;
The learning model used in the sequence generating means is evaluated as an index of loss and intersection-set ratio, and among candidate aptamer sequences generated in the sequence generating means, at least among minimum loss value and maximum intersection-set ratio Sequence selection means for selecting candidate aptamer sequences generated by a learning model having any one; And
And sequence binding evaluation means for calculating the binding affinity and binding specificity of the candidate aptamer sequence selected by the sequence selection means to the target protein molecule,
The loss, which is an evaluation index in the sequence selection means, is the average value of the negative log-likelihood of the generated nucleic acid sequence, and the intersection-union ratio is [{trained sequence} intersection {generated sequence}] / [ A computer-readable recording medium recording a program that generates a candidate aptamer that binds a target protein molecule defined by {learned sequence} union {generated sequence}].
제 1항에 있어서,
상기 서열 결합 평가 수단에 의해 연산된 상기 후보 압타머 서열을, 상기 표적 단백질 분자와 결합하는 것으로 알려진 다른 압타머 서열과 비교하는 서열 비교 수단을 더욱 포함하는 표적 단백질 분자와 결합하는 후보 압타머를 생성하는 프로그램을 기록한 컴퓨터로 판독할 수 있는 기록 매체.
According to claim 1,
Generating a candidate aptamer that binds the target protein molecule further comprising sequence comparison means for comparing the candidate aptamer sequence calculated by the sequence binding evaluation means to other aptamer sequences known to bind the target protein molecule A computer-readable recording medium that records a program to be played.
제 1항에 있어서, 상기 순환 신경망 알고리즘은 장기-단기 기억(long short-term memory; LSTM) 신경망 알고리즘을 포함하는 표적 단백질 분자와 결합하는 후보 압타머를 생성하는 프로그램을 기록한 컴퓨터로 판독할 수 있는 기록 매체. The computer-readable program of claim 1, wherein the cyclic neural network algorithm generates a candidate aptamer that binds a target protein molecule comprising a long short-term memory (LSTM) neural network algorithm. Recording media. 제 1항에 있어서, 상기 서열 결합 평가 수단은 딥바인드(DeepBind) 모델 또는 디퍼바인드(DeeperBind) 모델을 이용하여 상기 후보 압타머 서열의 표적 단백질 분자에 대한 결합 친화도와 특이도를 연산하는 표적 단백질 분자와 결합하는 후보 압타머를 생성하는 프로그램을 기록한 컴퓨터로 판독할 수 있는 기록 매체. The target protein molecule according to claim 1, wherein the sequence binding evaluation means calculates binding affinity and specificity of the candidate aptamer sequence to the target protein molecule using a DeepBind model or a DeperBind model. A computer-readable recording medium that records a program that generates a candidate aptamer that combines with. 제 2항에 있어서, 상기 서열 비교 수단을 통하여 비교되는 다른 압타머 서열은, 셀렉스(Systematic Evolution of Ligands by EXponential Enrichment, SELEX), 클립(Cross-linking Immunoprecipitation, CLIP) 및 이들의 조합으로 구성되는 군에서 선택되는 분석 방법을 통하여 상기 표적 단백질 분자와 결합하는 것으로 확인된 압타머 서열을 포함하는 표적 단백질 분자와 결합하는 후보 압타머를 생성하는 프로그램을 기록한 컴퓨터로 판독할 수 있는 기록 매체. The method of claim 2, wherein the other aptamer sequence to be compared through the sequence comparison means is composed of a Cellex (Systematic Evolution of Ligands by EXponential Enrichment, SELEX), a clip (Cross-linking Immunoprecipitation, CLIP) and combinations thereof. A computer-readable recording medium recording a program for generating a candidate aptamer binding to a target protein molecule comprising an aptamer sequence identified as binding to the target protein molecule through an analysis method selected from. 컴퓨터에 의해 실현되는 프로그램을 이용하여 표적 단백질 분자와 결합하는 후보 압타머를 생성하는 방법으로서,
서열 생성 수단에 의하여, 순환 신경망(Recurrent Neural Network; RNN) 알고리즘을 이용한 학습 모델을 통하여 표적 단백질 분자와 결합하는 모티프(motif)를 포함하는 후보 압타머 서열을 생성하는 단계;
서열 선택 수단에 의하여, 상기 서열 생성 수단에서 사용된 상기 학습 모델을 손실(loss)과 교집합-합집합 비율의 지표로 평가하여, 상기 서열 생성 수단에서 생성된 후보 압타머 서열 중에서, 최소 손실 값 및 최대 교집합-합집합 비율 중에서 적어도 어느 하나를 가지는 학습 모델에 의해 생성된 후보 압타머 서열을 선별하는 단계; 및
서열 결합 평가 수단에 의하여, 상기 서열 선택 수단에 의해 선별된 상기 후보 압타머 서열의 상기 표적 단백질 분자에 대한 결합 친화도(affinity)와 결합 특이도(binding specificity)를 연산하는 단계를 포함하고,
상기 서열 선택 수단에서 평가 지표인 손실은 생성된 핵산 서열의 음의 로그 우도(negative log-likelihood)의 평균이고, 상기 교집합-합집합 비율은 [{학습된 서열} 교집합 {생성된 서열}] / [{학습된 서열} 합집합 {생성된 서열}]로 정의되는 표적 단백질 분자와 결합하는 후보 압타머를 생성하는 방법.
A method for generating a candidate aptamer that binds to a target protein molecule using a computer-implemented program,
Generating a candidate aptamer sequence including a motif binding to a target protein molecule through a learning model using a recurrent neural network (RNN) algorithm by sequence generation means;
By the sequence selection means, the learning model used in the sequence generation means is evaluated as an index of loss and intersection-union ratio, and among the candidate aptamer sequences generated by the sequence generation means, the minimum loss value and the maximum Selecting a candidate aptamer sequence generated by a learning model having at least one of a cross-set ratio; And
Calculating, by sequence binding evaluation means, binding affinity and binding specificity of the candidate aptamer sequence selected by the sequence selection means to the target protein molecule,
The loss, which is an evaluation index in the sequence selection means, is the average of the negative log-likelihood of the generated nucleic acid sequence, and the intersection-union ratio is [{trained sequence} intersection {generated sequence}] / [ A method of generating a candidate aptamer that binds a target protein molecule defined by {learned sequence} union {generated sequence}].
제 6항에 있어서,
서열 비교 수단에 의하여, 상기 서열 결합 평가 수단에 의해 연산된 상기 후보 압타머 서열을, 상기 표적 단백질 분자와 결합하는 것으로 알려진 다른 압타머 서열과 비교하는 단계를 더욱 포함하는 표적 단백질 분자와 결합하는 후보 압타머를 생성하는 방법.
The method of claim 6,
A candidate for binding with a target protein molecule further comprising comparing, by sequence comparison means, the candidate aptamer sequence calculated by the sequence binding evaluation means with another aptamer sequence known to bind the target protein molecule How to create aptamers.
제 6항에 있어서, 상기 순환 신경망 알고리즘은 장기-단기 기억(long short-term memory; LSTM) 신경망 알고리즘을 포함하는 표적 단백질 분자와 결합하는 후보 압타머를 생성하는 방법. 7. The method of claim 6, wherein the cyclic neural network algorithm generates a candidate aptamer that binds a target protein molecule comprising a long short-term memory (LSTM) neural network algorithm. 제 6항에 있어서, 상기 서열 결합 평가 수단은 딥바인드(DeepBind) 모델 또는 디퍼바인드(DeeperBind) 모델을 이용하여 상기 후보 압타머 서열의 표적 단백질 분자에 대한 결합 친화도와 특이도를 연산하는 표적 단백질 분자와 결합하는 후보 압타머를 생성하는 방법. The target protein molecule of claim 6, wherein the means for evaluating sequence binding uses a DeepBind model or a DeperBind model to calculate the binding affinity and specificity of the candidate aptamer sequence to the target protein molecule. How to generate a candidate aptamer to combine with. 제 7항에 있어서, 상기 서열 비교 수단을 통하여 비교되는 다른 압타머 서열은, 셀렉스(Systematic Evolution of Ligands by EXponential Enrichment, SELEX), 클립(Cross-linking Immunoprecipitation, CLIP) 및 이들의 조합으로 구성되는 군에서 선택되는 분석 방법을 통하여 상기 표적 단백질 분자와 결합하는 것으로 확인된 압타머 서열을 포함하는 표적 단백질 분자와 결합하는 후보 압타머를 생성하는 방법.

The method according to claim 7, wherein the other aptamer sequence to be compared through the sequence comparison means, is composed of a Systematic Evolution of Ligands by EXponential Enrichment (SELEX), a clip (Cross-linking Immunoprecipitation, CLIP) A method for generating a candidate aptamer binding to a target protein molecule comprising an aptamer sequence identified as binding to the target protein molecule through an analysis method selected from.

KR1020180093129A 2018-08-09 2018-08-09 Computer readable media recording program of consructing potential aptamers bining to target protein using deep neural network and process of constructing potential aptamers KR102115483B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180093129A KR102115483B1 (en) 2018-08-09 2018-08-09 Computer readable media recording program of consructing potential aptamers bining to target protein using deep neural network and process of constructing potential aptamers

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180093129A KR102115483B1 (en) 2018-08-09 2018-08-09 Computer readable media recording program of consructing potential aptamers bining to target protein using deep neural network and process of constructing potential aptamers

Publications (2)

Publication Number Publication Date
KR20200019294A KR20200019294A (en) 2020-02-24
KR102115483B1 true KR102115483B1 (en) 2020-05-26

Family

ID=69637153

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180093129A KR102115483B1 (en) 2018-08-09 2018-08-09 Computer readable media recording program of consructing potential aptamers bining to target protein using deep neural network and process of constructing potential aptamers

Country Status (1)

Country Link
KR (1) KR102115483B1 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102470870B1 (en) * 2020-06-26 2022-11-25 제노플랜코리아 주식회사 Method and apparatus for predicting diagnostic result in real-time pcr
KR102576033B1 (en) * 2020-07-17 2023-09-11 주식회사 아론티어 Protein-ligand binding affinity prediction using ensemble of 3d convolutional neural network and system therefor
CN112185458B (en) * 2020-10-23 2024-04-26 深圳晶泰科技有限公司 Method for predicting binding free energy of protein and ligand molecule based on convolutional neural network
CN113011796B (en) * 2021-05-06 2024-02-02 北京工商大学 Edible oil safety early warning method based on' analytic hierarchy process-neural network
WO2023033322A1 (en) * 2021-09-02 2023-03-09 (주)에이아이클라우드 System for discovering treatment agent candidate material, and method therefor

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180144248A1 (en) 2016-11-18 2018-05-24 Salesforce.Com, Inc. SENTINEL LONG SHORT-TERM MEMORY (Sn-LSTM)

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180144248A1 (en) 2016-11-18 2018-05-24 Salesforce.Com, Inc. SENTINEL LONG SHORT-TERM MEMORY (Sn-LSTM)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
https://doi.org/10.1101/328633.(2018.5.22)

Also Published As

Publication number Publication date
KR20200019294A (en) 2020-02-24

Similar Documents

Publication Publication Date Title
KR102115483B1 (en) Computer readable media recording program of consructing potential aptamers bining to target protein using deep neural network and process of constructing potential aptamers
Bashir et al. Machine learning guided aptamer refinement and discovery
Grønning et al. DeepCLIP: predicting the effect of mutations on protein–RNA binding with deep learning
Brody et al. High-content affinity-based proteomics: unlocking protein biomarker discovery
Hoon et al. Aptamer selection by high-throughput sequencing and informatic analysis
US20230089824A1 (en) Machine learning (ml) modeling by dna computing
Van Peer et al. miSTAR: miRNA target prediction through modeling quantitative and qualitative miRNA binding site information in a stacked model structure
Stoltenburg et al. Refining the results of a classical SELEX experiment by expanding the sequence data set of an aptamer pool selected for protein A
Choi et al. Predicting protein-binding regions in RNA using nucleotide profiles and compositions
Le et al. How to develop and prove high-efficiency selection of ligands from oligonucleotide libraries: a universal framework for aptamers and DNA-encoded small-molecule ligands
KR102171681B1 (en) Computer readable media recording program of consructing potential rna aptamers bining to target protein using machine learning algorithms and process of constructing potential rna aptamers
US20230101523A1 (en) End-to-end aptamer development system
Lim et al. Integrative deep learning for identifying differentially expressed (DE) biomarkers
Mahmood et al. Neural Network-Based Prediction of Potential Ribonucleic Acid Aptamers to Target Protein
US20220267762A1 (en) Closed loop continuous aptamer development system
Zhang et al. Neural architecture search for joint optimization of predictive power and biological knowledge
JP2023526188A (en) Biopharmaceutical engineering via aptamer mimetic discovery
Gautam et al. Anticipating response function in gene regulatory networks
US20220380753A1 (en) Experiment and machine-learning techniques to identify and generate high affinity binders
US20220383981A1 (en) Experiment and machine-learning techniques to identify and generate high affinity binders
Kwak et al. Proformer: a hybrid macaron transformer model predicts expression values from promoter sequences
US20240086423A1 (en) Hierarchical graph clustering to ensemble, denoise, and sample from selex datasets
US20230106669A1 (en) Binding affinity prediction using neural networks
Førrisdal Deciphering Transcriptional Regulation using Deep Neural Networks
Machanick et al. Challenges with modelling transcription factor binding

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant