KR100889940B1 - Method to predict protein secondary structure using NMR spectroscopy - Google Patents

Method to predict protein secondary structure using NMR spectroscopy Download PDF

Info

Publication number
KR100889940B1
KR100889940B1 KR1020070045261A KR20070045261A KR100889940B1 KR 100889940 B1 KR100889940 B1 KR 100889940B1 KR 1020070045261 A KR1020070045261 A KR 1020070045261A KR 20070045261 A KR20070045261 A KR 20070045261A KR 100889940 B1 KR100889940 B1 KR 100889940B1
Authority
KR
South Korea
Prior art keywords
secondary structure
database
file
protein
bmrb
Prior art date
Application number
KR1020070045261A
Other languages
Korean (ko)
Other versions
KR20080099559A (en
Inventor
이원태
이웅희
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020070045261A priority Critical patent/KR100889940B1/en
Publication of KR20080099559A publication Critical patent/KR20080099559A/en
Application granted granted Critical
Publication of KR100889940B1 publication Critical patent/KR100889940B1/en

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N24/00Investigating or analyzing materials by the use of nuclear magnetic resonance, electron paramagnetic resonance or other spin effects
    • G01N24/08Investigating or analyzing materials by the use of nuclear magnetic resonance, electron paramagnetic resonance or other spin effects by using nuclear magnetic resonance

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • High Energy & Nuclear Physics (AREA)
  • Pathology (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medicinal Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 핵자기분광학을 이용한 단백질 2차 구조 예측 방법에 관한 것이다.The present invention relates to a method for predicting protein secondary structure using nuclear magnetic spectroscopy.

즉, 본 발명은 단백질 2차구조 예측의 정확성을 높이기 위해 별도의 데이터베이스를 구축함과 함께 이 데이터베이스를 이용한 단백질 2차구조 예측 프로그램인 GetSBY 프로그램을 구축하여, 기존의 예측 방법에 비하여 단백질 2차구조에 대한 정확하고도 월등한 예측 능력, 수화도나 이면각 예측, 그리고 많은 옵션, 편의성, 빠른 속도 등의 장점을 제공함과 함께 단백질의 3차구조 결정에도 많이 사용될 수 있으며, 방대한 단백질과 NMR 자료들의 라이브러리화를 통해 NMR 정보와 단백질 구조와의 관계를 완전하게 규명하는데 일조할 수 있도록 한 핵자기분광학을 이용한 단백질 2차 구조 예측 방법을 제공하고자 한 것이다.That is, the present invention builds a separate database in order to increase the accuracy of protein secondary structure prediction, and builds a GetSBY program, which is a protein secondary structure prediction program using this database, and compares the protein secondary structure with the conventional prediction method. It can be used to determine the tertiary structure of proteins, with the advantages of accurate and superior prediction ability, hydration or dihedral prediction, and many options, conveniences, and speeds, and library of extensive protein and NMR data. The aim of the present invention is to provide a method for predicting protein secondary structure using nuclear magnetic spectroscopy, which can help to clarify the relationship between NMR information and protein structure.

핵자기분광학, 단백질, 2차 구조, GetSBY 프로그램, YDB 데이터베이스, 단백질 데이터베이스 뱅크, 바이오 마그네틱 리저넌스 뱅크 Nuclear Magnetic Spectroscopy, Proteins, Secondary Structure, GetSBY Program, YDB Database, Protein Database Bank, Bio Magnetic Retention Bank

Description

핵자기분광학을 이용한 단백질 2차 구조 예측 방법{Method to predict protein secondary structure using NMR spectroscopy}Method to predict protein secondary structure using NMR spectroscopy

도 1은 본 발명에 따른 YDB데이터베이스를 구축하는 방법을 설명하는 순서도, 1 is a flow chart illustrating a method for building a YDB database according to the present invention;

도 2는 본 발명에 따른 GetSBY 프로그램의 기본 인터페이스를 보여주는 캡쳐 화면,2 is a capture screen showing the basic interface of the GetSBY program according to the present invention;

도 3은 본 발명에 따른 GetSBY 프로그램의 계산 결과 화면,3 is a calculation result screen of the GetSBY program according to the present invention;

도 4는 본 발명에 따른 GetSBY 프로그램의 동작을 설명하는 순서도,4 is a flowchart illustrating the operation of the GetSBY program according to the present invention;

도 5는 단백질 2차 구조 판별을 위한 라만찬드란 플롯(Ramachandran plot)을 보여주는 개략도.5 is a schematic diagram showing a Ramachandran plot for protein secondary structure determination.

본 발명은 핵자기분광학을 이용한 단백질 2차 구조 예측 방법에 관한 것으로서, 더욱 상세하게는 단백질의 구조와 NMR 실험값들을 연계시킨 데이터베이스인 YDB를 통계 처리한 레퍼런스(Reference)와 NMR 실험을 통한 화학적 이동(chemical shift) 값을 이용하여 특별한 매칭 시스템을 통해 단백질의 2차 구조를 정확히 예측할 수 있도록 한 핵자기분광학을 이용한 단백질 2차 구조 예측 방법에 관한 것이다.The present invention relates to a method for predicting protein secondary structure using nuclear magnetic spectroscopy, and more specifically, reference (YDB), which is a database linking protein structure and NMR experimental values, and chemical movement through NMR experiment ( The present invention relates to a method for predicting protein secondary structure using nuclear magnetic spectroscopy to accurately predict the secondary structure of a protein through a special matching system using a chemical shift value.

인체를 구성하는 단백질의 기능은 단백질의 구조와 밀접한 관계가 있으며, 그렇기 때문에 단백질의 기능을 규명하기 위해 단백질의 구조를 결정하려는 많은 노력을 하고 있다. The function of the proteins that make up the human body is closely related to the structure of the protein, and thus, many efforts have been made to determine the structure of the protein to determine the function of the protein.

단백질의 구조는 1,2,3,4차 구조로 크게 나뉠 수 있다.The structure of proteins can be largely divided into 1, 2, 3, and 4 structures.

1차구조는 단백질의 아미노산 염기서열을 말하며, 20가지 아미노산으로 예를들어, MVSTAGIKLMN......... 과 같이 이루어지게 된다.The primary structure refers to the amino acid sequence of a protein, and is composed of 20 amino acids, for example, MVSTAGIKLMN .........

2차구조는 아미노산 염기들끼리 수소결합을 통해 일련의 형태를 갖추게 된 것을 말하는데, 특히 나선형(Alpha Helix)이나 평면(Beta Sheet)을 이루는 모습을 나타나게 되고, 3차구조를 예측하기 위해서 2차구조의 예측이 선행되어야 하는데, 현재 가장 많이 쓰이는 방법으로는 PSI-PRED와 Talos 프로그램을 이용한 방법을 들 수 있다.Secondary structure refers to the formation of a series of amino acid bases through hydrogen bonding, especially in the form of spiral helix or beta sheet, and secondary structure to predict tertiary structure. Prediction should be preceded by PSI-PRED and Talos program.

상기 PSI-PRED와 같은 경우는 sequence(1차구조)의 입력만으로 2차구조를 예측하고, 상기 Talos의 경우는 단백질의 펩타이드 본즈(peptide bonds)의 백본 원자(backbone atom)인 C, CA, CB N, H 들의 화학적 이동(chemical shift)들과 시퀀스(sequence)를 같이 입력 받는다.In the case of PSI-PRED, the secondary structure is predicted only by input of a sequence (primary structure), and in the case of Talos, C, CA, CB, which are backbone atoms of peptide bonds of proteins The chemical shifts and sequences of N and H are input together.

상기 PSI-PRED는 PSI-BLAST(http://www.ncbi.nlm.nih.gov/blast/ 참조)에서 나온 결과를 이중 피드-포워드 뉴트럴 네트워크(two feed-forward neural network) 방식으로 접근한다고 알려져있다.The PSI-PRED is known to approach the results from PSI-BLAST (see http://www.ncbi.nlm.nih.gov/blast/) in a two feed-forward neural network. have.

그리고 Talos의 경우는 78개의 단백질의 구조정보와 그 단백질들의 백본 원자(backbone atom) 들의 화학적 이동(chemical shift) 정보를 참고하여 입력된 정보와 비교하여 PHI, PSI dihedral angle의 가용 범위를 주게 되며, 이 경우 PHI, PSI dihedral angle의 정보를 토대로 하여 라만찬드란 플롯(Ramachandran plot)에서 PHI, PSI angle과 나올 수 있는 2차구조의 범위를 맵핑하여 2차구조를 예측한다.In the case of Talos, the available range of PHI and PSI dihedral angle is compared with the inputted information by referring to the structural information of 78 proteins and the chemical shift information of backbone atoms of the proteins. In this case, the secondary structure is predicted by mapping the PHI and PSI angles with the range of secondary structures that can be derived from the Ramachandran plot based on the PHI and PSI dihedral angle information.

NMR 실험을 통해 단백질의 구조를 결정하는 과정에서 2차구조는 Talos를 가장 많이 이용하여 확정(confirm)하고, PSI-PRED의 경우는 2차구조를 알고자 하는 시퀀스(sequence)의 앞, 뒤 시퀀스(sequence)를 포함해서 그 빈도를 웨이트 매트릭스(weight matrix)로 만들어 놓은 데이터파일에서 측정하여 2차구조를 결정한다.In the process of determining the structure of protein through NMR experiment, the secondary structure is confirmed using Talos most frequently, and in the case of PSI-PRED, the sequence before and after the sequence to know the secondary structure The secondary structure is determined by measuring the frequency, including the sequence, in a data file that is made up of a weight matrix.

이러한 방법들은 많이 쓰이고 또 나름대로 좋은 결과를 보이므로 많은 논문에서 참조되고 있지만, 이들도 문제점을 안고 있는데 상기 PSI-PRED와 같은 경우는 시퀀스(sequence)만 입력하면 된다는 간편성은 있지만 2차구조 예측의 확률이 상대적으로 떨어지고, 상기 Talos와 같은 경우는 전체 시퀀스(sequence)에 대한 구조를 예측하는 것이 아니라 참조 데이터베이스(reference database)가 작기 때문에(78개의 단백질), 전체 시퀀스(sequence)에서 특정 영역에 대해서만 예측을 해주며, 예측을 해주는 부분도 "GOOD"과 "NEW"로 나뉠 수 있는데 "GOOD"으로 표시된 시퀀스(sequence)에 대해서는 꽤 높은 정확성을 보이지만 "NEW"라고 나타난 부분에 대 해서는 예측의 신뢰도가 낮고, 그리고 화학적 이동(chemical shift)이 주어지지 않는 부분에 대해서는 2차구조 예측 자체가 되지 않는다. These methods are used in many papers because they are often used and have good results, but they also have problems. In the case of PSI-PRED, the probability of second-order prediction is simple, although it is simple to input only a sequence. Is relatively low, and the case of Talos is not predicting the structure of the entire sequence, but rather the reference database is small (78 proteins), thus predicting only a specific region in the whole sequence. The prediction part can also be divided into "GOOD" and "NEW", which shows quite high accuracy for the sequence marked "GOOD", but the prediction reliability is low for the part marked "NEW". And, for parts where no chemical shift is given, secondary structure prediction itself is not.

또 실시간으로 단백질 구조 파일과 화학적 이동(chemical shift) 파일들을 일일이 뒤지면서 비슷한 시퀀스 패턴(sequence pattern)을 찾기 때문에(예를들어, 연속된 3개의 시퀀스(sequence)에 대해 찾는다.) 시스템 사양에 따라 다르지만 100개 정도 시퀀스(sequence)의 단백질에 대해 2차구조 예측을 한다고 할 때 서버급 컴퓨터에서도 30분 정도를 소비한다.Also, in real-time, protein structure files and chemical shift files are searched for similar sequence patterns (for example, for three consecutive sequences) according to system specifications. It's different, but it's about 30 minutes on a server-class computer to make a second-order prediction for about 100 sequences of proteins.

또한, 입력 파일도 Talos의 경우는 Talos 입력 포맷을 지원하기 때문에 그 포맷으로 변환을 해야하는 불편함도 가지고 있다.In addition, Talos also supports Talos input format, which is inconvenient to convert the input file.

본 발명은 상기와 같은 문제점들을 해결하고자 연구 개발된 결과로서, 단백질 2차구조 예측의 정확성을 높이기 위해 별도의 데이터베이스(이하, YDB(Yonsei Database Bank)데이터베이스라 칭함)를 구축함과 함께 이 데이터베이스를 이용한 단백질 2차구조 예측 프로그램(이하, GetSBY(Get Secondary structure By YDB)프로그램이라 칭함)를 구축하여, 기존의 예측 방법에 비하여 단백질 2차구조에 대한 정확하고도 월등한 예측 능력, 수화도나 이면각 예측, 그리고 많은 옵션, 편의성, 빠른 속도 등의 장점을 제공함과 함께 단백질의 3차구조 결정에도 많이 사용될 수 있으며, 방대한 단백질과 NMR 자료들의 라이브러리화를 통해 NMR 정보와 단백질 구조와의 관계를 완전하게 규명하는데 일조할 수 있도록 한 핵자기분광학을 이용한 단 백질 2차 구조 예측 방법을 제공하는데 그 목적이 있다.The present invention is a result of research and development to solve the above problems, and to build a separate database (hereinafter referred to as YDB (Yonsei Database Bank) database) to improve the accuracy of protein secondary structure prediction using this database By constructing a protein secondary structure prediction program (hereinafter referred to as GetSBY (Get Secondary structure By YDB) program), it is more accurate and superior prediction ability, hydration degree or dihedral prediction of protein secondary structure than the conventional prediction method. In addition, it provides many options, conveniences, and speeds, and can be used for the determination of tertiary structure of proteins.It is also possible to fully understand the relationship between NMR information and protein structure through the library of vast protein and NMR data. To provide a method for predicting protein secondary structure using nuclear magnetic spectroscopy to help Never.

상기한 목적을 달성하기 위한 본 발명은: 단백질의 좌표정보를 가지고 있는 단백질 데이터베이스 뱅크(Protein Database Bank(PDB))의 PDB 파일들과, 단백질 원자(atom)들의 NMR 실험에 의한 화학적 이동(chemical shift)정보들을 가지고 있는 바이오 마그네틱 리저넌스 뱅크(Bio Magnetic Resonance Bank(BMRB))의 화학적 이동(chemical shift)데이터들을 기반으로 만든 관계형 데이터베이스인 YDB 데이터베이스의 구축하는 단계; 및 상기 YDB 데이터베이스를 기반으로 단백질 2차구조를 예측하도록 NMR 실험을 마친 단백질에 대해 6가지 백본 원자(backbone atom) 들의 지정(assignment) 만으로 2차 구조를 예측할 수 있는 GetSBY 프로그램의 구축 단계와; 상기 GetSBY 프로그램의 구동과 함께 상기 YDB 데이터베이스를 처리한 2차구조, 이면각, 수화도 데이터베이스 인덱스파일을 읽어서, 메모리에 적재되어 검색의 빠른 처리속도를 갖도록 한 단계와; 상기 GetSBY 프로그램이 BMRB의 Star 파일 포맷과 Sparky의 shifts 파일 포맷으로 입력을 받아서, 2차구조 예측을 하고자 하는 단백질의 NMR 백본 화학적 이동(NMR backbone chemical shift)들을 지정(assign)한 데이터가 들어있는 BMRB star 또는 Sparky assignment table 파일 경로를 주고 원하는 옵션을 선택한 단백질 2차 구조를 예측하기 위한 계산 단계; 를 포함하는 것을 특징으로 하는 핵자기분광학을 이용한 단백질 2차 구조 예측 방법을 제공한다.The present invention for achieving the above object: a chemical shift by the NMR experiment of the PDB files and protein atoms of the Protein Database Bank (PDB) that contains the coordinate information of the protein (chemical atoms) Constructing a YDB database, which is a relational database based on chemical shift data of a Bio Magnetic Resonance Bank (BMRB) having information; And a step of constructing a GetSBY program for predicting a secondary structure only by assignment of six backbone atoms to a protein that has been subjected to NMR experiments to predict a protein secondary structure based on the YDB database; Reading a secondary structure, a back angle, and a sign language database index file which processes the YDB database with the operation of the GetSBY program so as to be loaded into a memory to have a fast processing speed of a search; The GetSBY program receives inputs in BMRB's Star file format and Sparky's shifts file format, and includes a BMRB containing data indicating NMR backbone chemical shifts of proteins to be predicted for secondary structure. a calculation step for predicting the protein secondary structure of the star or Sparky assignment table file path and selecting the desired option; It provides a protein secondary structure prediction method using nuclear magnetic spectroscopy, characterized in that it comprises a.

이하, 본 발명의 바람직한 실시예를 첨부도면을 참조로 상세하게 설명하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

먼저, 본 발명의 설명에 따른 이해를 도우면서 내용을 명확히 하기 위해 이하에 사용하는 주요한 용어를 정의하기로 한다.First, main terms used below will be defined in order to clarify the contents while helping the understanding according to the description of the present invention.

1. YDB 데이터베이스1. YDB database

단백질의 좌표정보를 가지고 있는 단백질 데이터베이스 뱅크(Protein Database Bank(PDB))의 PDB 파일들과, 단백질 원자(atom)들의 NMR 실험에 의한 화학적 이동(chemical shift)정보들을 가지고 있는 바이오 마그네틱 리저넌스 뱅크(Bio Magnetic Resonance Bank(BMRB))의 화학적 이동(chemical shift)데이터들을 기반으로 만든 관계형 데이터베이스이다.PDB files in the Protein Database Bank (PDB) containing the coordinates of the protein, and biomagnetic retention banks containing chemical shift information by NMR experiments of protein atoms. Bio Magnetic Resonance Bank (BMRB)) is a relational database based on chemical shift data.

2. GetSBY 프로그램2. GetSBY Program

마이크로 윈도우 호환 프로그램으로서, 위의 YDB 데이터베이스를 기반으로 본 발명에 따른 단백질 2차구조를 예측하는 프로그램이다.As a micro window compatible program, it is a program for predicting the protein secondary structure according to the present invention based on the above YDB database.

3. 단백질 데이터베이스 뱅크(Protein Database Bank(PDB))3. Protein Database Bank (PDB)

단백질의 좌표정보를 가지고 있는 PDB 파일들을 포함하는 데이터베이스이며, 이하 PDB로 칭하기로 함.A database containing PDB files containing protein coordinate information, hereinafter referred to as PDB.

4. 바이오 마그네틱 리저넌스 뱅크(Bio Magnetic Resonance Bank(BMRB))4. Bio Magnetic Resonance Bank (BMRB)

단백질 원자(atom)들의 NMR 실험에 의한 화학적 이동(chemical shift)정보들을 가지고 있는 데이터베이스이며, 이하 BMRB로 칭하기로 함.A database containing chemical shift information by NMR experiments of protein atoms, hereinafter referred to as BMRB.

먼저, 상기 YDB데이터베이스를 구축하는 방법을 첨부한 도 1의 순서도를 참조로 설명하기로 한다.First, the method of constructing the YDB database will be described with reference to the flowchart of FIG. 1.

YDB 데이터베이스를 만들기 위해서는 YDB_Maker 라는 일련의 프로그램을 사용하게 되며, 이 프로그램에서 하는 역할을 말하자면 다음과 같다.To create a YDB database, a series of programs called YDB_Maker are used. The roles of this program are as follows.

첫 번째로 BMRB(Bio Magnetic Resonance Bank)의 ftp site에서 제공하고 있는 dbmatch.csv 파일을 가져 온다(S101).First, import the dbmatch.csv file provided by the ftp site of the BMRB (Bio Magnetic Resonance Bank) (S101).

상기 dbmatch.csv 파일은 4개의 필드로 이루어져 있는데, 첫 번째 필드는 BMRB파일이 어떤 종류의 단백질 구조 데이터베이스와 연결이 되어 있는가에 대해 나와 있고, 두 번째 필드는 그 데이터베이스에서의 Entry ID, 세 번째 필드는 실제로 직접 실험한 결과인가 아니면 추측 정보인가를 Y/N로 표시하고, 네 번째 필드는 BMRB에서의 Entry ID를 나타낸다.The dbmatch.csv file consists of four fields. The first field shows what kind of protein structure database the BMRB file is linked to, and the second field contains the entry ID and the third field. Indicates whether the result is a direct experiment or speculative information in Y / N, and the fourth field indicates Entry ID in the BMRB.

상기 dbmatch.csv 파일은 실제로 실험한 정보가 아니라도 같은 단백질에 대한 구조가 있을 경우에는 그 단백질에 대한 화학적 이동(chemical shift)을 그대로 매칭(matching)시켜 놓은 것으로서, 이런 부분들은 YDB 데이터베이스를 구축하면서 정제(purifying)할 때 정리가 되는 부분들이다.The dbmatch.csv file matches the chemical shift of the protein when there is a structure for the same protein, even if the information is not actually tested. These are the parts that are cleaned up when purifying.

이렇게 dbmatch.csv 파일을 다운로드 받아놓고, 이 파일을 TMatchParse class로 파싱(parsing)한다(S102).In this way, the dbmatch.csv file is downloaded and parsed into the TMatchParse class (S102).

상기 TMatchParse는 dbmatch.csv 파일을 파싱하여 상기 PDB 데이터베이스의 entry id를 입력하면 BMRB의 entry id를 반환하고, 상기 BMRB의 entry id를 입력하면 PDB의 entry id를 반환하여 어떤 파일끼리 매칭이 되는지를 알려주는 클래스이다.The TMatchParse parses a dbmatch.csv file and returns an entry id of a BMRB when an entry id of the PDB database is input, and returns an entry id of a PDB when an entry id of the BMRB is input to indicate which files are matched. Is a class.

이와 같이, 상기 dbmatch.csv 파일을 통해서 어떤 PDB 파일과 BMRB 파일이 사용되게 되는지를 알 수 있게 된다.As such, it is possible to know which PDB file and BMRB file are used through the dbmatch.csv file.

다음으로, 루프를 돌면서 PDB 파일과 BMRB의 STAR 파일의 존재여부를 확인하고 HTTP 프로토콜로 다운로드를 한다(S103 및 S104).Next, while checking the existence of the PDB file and the STAR file of the BMRB while looping and downloading through the HTTP protocol (S103 and S104).

이렇게 모든 필요 파일들을 다운로드를 하면, 이제 실제로 PDB 파일과 BMRB 파일을 매칭하여 데이터베이스에 들어갈 정보를 SQL 문으로 만드는 작업을 하게 된다.Once you have downloaded all the necessary files, you will actually match the PDB file with the BMRB file and create a SQL statement that will contain the information you want to enter into the database.

상기 PDB파일과 BMRB파일을 각각 파싱하는 클래스로 TPdbParse와 TStarParse가 있는데, 상기 TPdbParse의 가장 주된 역할은 PDB파일에서 보여주는 단백질의 시퀀스와 각각의 시퀀스에 있는 원자들의 좌표를 알아오는 것이고, 그리고 각 시퀀스에 대해 빈 리스트를 생성해서 그 곳에 화학적 이동(chemical shift) 정보를 넣을 수 있는 상태로 만들어준다.TPdbParse and TStarParse are the classes for parsing the PDB file and the BMRB file, respectively. The main role of the TPdbParse is to obtain the sequence of proteins shown in the PDB file and the coordinates of the atoms in each sequence. Creates an empty list for each of them and puts the chemical shift information there.

또한, 상기 TStarParse는 BMRB의 STAR 파일 안의 화학적 이동(chemical shift) 정보를 읽어내는 것이 주된 역할이며, STAR 파일 안에는 특정 시퀀스의 원자의 화학적 이동(chemical shift) 정보가 들어 있고, 하나의 STAR 파일 안에는 PDB 파일의 모든 시퀀스의 모든 원자의 화학적 이동(chemical shift) 정보가 다 들어가 있을 수도 있고 아닐 수도 있으며, 일부분의 시퀀스에 대해서만 들어있을 수도 있고 일부분의 원자에 대해서만 들어있을 수도 있다.In addition, the TStarParse is the main role of reading the chemical shift (chemical shift) information in the BMRB STAR file, the STAR file contains the chemical shift information of the atoms of a particular sequence, one STAR file in the PDB It may or may not contain chemical shift information for every atom in every sequence in the file, it may contain just a portion of a sequence, or just some atoms.

그리고 시퀀스의 목록도 PDB와 다를 수도 있고, 또한 인덱스가 다르기 때문에 이것들에 일반적인 매칭이 그리 쉬운 것은 아니다.And because the list of sequences can be different from the PDB, and the indexes are different, the general matching of these is not so easy.

따라서, 여러 BMRB 파일이 하나의 PDB에 매칭될 수도 있고 하나의 BMRB 파일 이 여러 PDB를 커버할 수도 있으며, 그렇기 때문에 이 기능을 하는 클래스를 따로 구현하였는데 그것이 TPdb2Bmrb 이다(S105).Therefore, several BMRB files may be matched to one PDB, and one BMRB file may cover several PDBs. Therefore, a class that implements this function is implemented separately, which is TPdb2Bmrb (S105).

상기 TPdb2Bmrb 클래스는 TPdbParse와 TStarParse의 인스턴스를 입력 받아 이것들을 매칭시켜주는 역할을 하는 클래스로 TPdbParse의 시퀀스(Sequence) 구조체 안의 빈 리스트에 화학적 이동(chemical shift) 정보들을 입력하여 하나의 시퀀스의 여러 원자(atom) 들에 화학적 이동(chemical shift) 정보들을 입력시켜준다.The TPdb2Bmrb class receives instances of TPdbParse and TStarParse and matches them.The TPdb2Bmrb class inputs chemical shift information to an empty list in the sequence structure of TPdbParse to input several atoms of a sequence. Enter chemical shift information into the atoms.

이때, 상기 PDB 파일과 STAR 파일 간의 인덱스를 맞추기 위한 특별한 알고리즘이 쓰이게 되는데, PDB에 나타난 시퀀스를 10개 연속으로 가져오고 STAR에 나타난 시퀀스를 10개 연속으로 가져와서 맞는지를 확인하면서 맞게 되는 경우에 대해 입력하도록 한다.In this case, a special algorithm for matching the index between the PDB file and the STAR file is used. The case where a sequence is shown in PDB is obtained in ten consecutive sequences and the sequence in STAR is obtained in ten consecutive sequences is checked for correctness. Enter it.

이렇게 화학적 이동(Chemical shift) 정보를 TPdbParse에 입력하고 나면 우선 일차적으로 파일(File) 데이터베이스를 만들게 된다(S106).After the chemical shift information is entered into TPdbParse, a file database is first created (S106).

상기 파일(File) 데이터베이스 들은 다음과 같은 정보를 가질 수 있도록 설계된다.The file databases are designed to have the following information.

단백질 구조정보(좌표, 원자간 거리, 이면각), 그리고 화학적 이동(Chemical Shift), 2차구조, 수화도, SCOP FOLD 분류 등의 정보들을 모두 각각의 레코드로 입력해두고, 또한 시퀀스 정보, 2차구조 패턴 정보 들도 저장해 두어서 커다란 풀(pool)을 형성하게 된다.Protein structure information (coordinates, interatomic distance, dihedral angle), chemical shift, secondary structure, degree of hydration, SCOP FOLD classification, etc. are all entered into each record, and sequence information, 2 Vehicle structure pattern information is also stored to form a large pool.

이후, 상기 파일 데이터베이스를 사용하여 SQL 파일을 생성한 다음, 해당 SQL 서버에 업로드한다(S107 및 S108).Thereafter, a SQL file is generated using the file database, and then uploaded to a corresponding SQL server (S107 and S108).

이에 따라, 사용자는 어떠한 조건의 입력으로 그 조건에 해당하는 단백질 구 조 자료 및 화학적 이동(chemical shift)정보를 얻을 수 있게 된다.Accordingly, the user can obtain the protein structure data and chemical shift information corresponding to the condition by inputting the condition.

이와 같이 구축된 YDB 데이터베이스의 테이블 구조는 표 1 내지 6에 나타낸 바와 같이, 5가지 종류로 나누어진다. The table structure of the YDB database thus constructed is divided into five types, as shown in Tables 1 to 6.

Figure 112007034593601-pat00001
Figure 112007034593601-pat00001

Figure 112007034593601-pat00002
Figure 112007034593601-pat00002

Figure 112007034593601-pat00003
Figure 112007034593601-pat00003

Figure 112007034593601-pat00004
Figure 112007034593601-pat00004

Figure 112007034593601-pat00005
Figure 112007034593601-pat00005

Figure 112007034593601-pat00006
Figure 112007034593601-pat00006

사용자는 필요에 따라 상기 5가지 종류의 테이블에 억세스하여 원하는 데이터를 얻고 새로운 경향성을 찾을 수 있으며, _X, _cs_X 테이블은 20개이고 _XX는 400개, 나머지는 각각 1개의 테이블이며, YDB 데이터베이스는 총 443개의 테이블로 이루어진다.Users can access the above five kinds of tables to get the desired data and find new trends as needed. There are 20 _X and _cs_X tables, 400 _XX and 1 table each, and the YDB database has a total of 443. It consists of two tables.

일반적으로 단백질 연구에 사용되고 있는 데이터베이스들과 크게 YDB 데이터베이스가 차별되는 점은 바로 관계형 데이터베이스로 구축되어 있다는 점이다.In general, the YDB database is distinguished from the databases used for protein research. It is built as a relational database.

관계형 데이터베이스로 구축되어 있다는 것은 실시간으로 데이터베이스에 접근하여 원하는 다양한 조건을 질의하여 데이터를 얻어내고 처리할 수 있다는 것을 말한다. Being built as a relational database means that you can access the database in real time and query and query for various conditions to obtain and process the data.

예를 들어, SCOP FOLD 상으로 모든 베타 프로테인(All beta protein)의 종류 중에서 2차구조가 스트랜드(Strand)로 결정된 페닐알라닌(Phenylalanin)의 카본 알파(carbon Alpha)의 화학적 이동(chemical shift)의 평균값과 표준편차값을 얻고 싶다면 간단한 다음의 예시1과 같은 쿼리문으로 얻을 수 있다.For example, the average value of chemical shift of carbon alpha of Phenylalanin whose secondary structure is determined as strand among all beta protein types on SCOP FOLD. If you want to get the standard deviation value, you can get a simple query like the following example 1.

Figure 112007034593601-pat00007
Figure 112007034593601-pat00007

만약, 원하는 데이터를 얻고자 하는데 YDB 데이터베이스와 같은 관계형 데이터베이스가 없다고 한다면, 일일이 SCOP에 분류되어 있는 단백질들을 확인하여 그 중 모든 베타 프로테인(All beta protein)으로 된 것 중에서 BMRB에 화학적 이동(Chemical shift)dl 등록되어 있는 단백질들을 추려내고, 또 그 중에서 페닐알라인(Phenylalanine)의 카본 알파(Carbon Alpha) 값들을 일일이 엑셀에 입력하여 처리해야할 것이이지만, 이런 끝도 보이지 않는 작업으로 얻을 수 있는 데이터를 본 발명에 따른 YDB 데이터베이스는 일초도 되지 않는 시간에 얻을 수 있게 해준다.If you want to get the data you want, but there is no relational database like the YDB database, then check the proteins classified in SCOP and chemical shift to BMRB among all beta proteins among them. dl registered proteins, and among them, the carbon alpha values of Phenylalanine should be inputted to Excel and processed, but the data obtained by this invisible operation can be obtained. The YDB database can be obtained in less than a second.

이에, 본 발명에 따른 YDB 데이터베이스는 시간 지연 과정(time consuming process)를 간편하고 신속하게, 또한 프로그램 가능하게(programmable) 만들어주기 때문에, 이것을 기반으로 단백질 구조 연구 과정에서 매우 유용하게 쓰일 것이다.Accordingly, the YDB database according to the present invention makes the time consuming process simple, fast, and programmable, and thus will be very useful in the protein structure research process based thereon.

또한, 관계형 데이터베이스로 구축한다는 장점에 편승해서 YDB 데이터베이스는 다른 데이터베이스들과 더 차별된 장점도 갖고 있다.In addition to the advantages of building as a relational database, the YDB database has other advantages.

즉, 본 발명의 YDB 데이터베이스는 시퀀스 데이터베이스(sequence database)와 프래그먼트 데이터베이스(fragment database), 등급화 데이터베이스(classification database)를 모두 제공한다는 점에서 다른 데이터베이스에 비해 강력한 연구도구로 사용될 수 있다고 말할 수 있다.In other words, it can be said that the YDB database of the present invention can be used as a powerful research tool compared to other databases in that it provides both a sequence database, a fragment database, and a classification database.

기존의 PDB나 BMRB, SCOP 등 데이터베이스들을 접근하여 얻을 수 있는 데이터는 한정되어 있고 이들의 데이터베이스들 간의 연계를 사용자가 직접 데이터베이스를 제공하는 사이트(site)를 가서 확인하는 방법 밖에 없었다.The data that can be obtained by accessing existing databases such as PDB, BMRB, and SCOP is limited, and the only way to check the linkage between these databases is to go to the site where the user directly provides the database.

하지만, 본 발명의 YDB 데이터베이스는 원하는 데이터베이스간의 연계성을 훨씬 향상시킴에 따라, 다른 데이터베이스를 각각 일일이 찾아보고 확인하고 해야 하는 수작업을 모두 제거하고 단 한 줄의 질의어만으로 빠른 속도로 원하는 데이터를 얻을 수 있다.However, as the YDB database of the present invention significantly improves the connectivity between the desired databases, it is possible to obtain the desired data at high speed with only one line of query, eliminating all the manual work of searching and checking each other database individually. .

또한, 본 발명의 YDB 데이터베이스는 여러 팩터(factor) 끼리의 연관관계를 연구할 수 있는 데이터베이스로서, 굳이 구조 조건에서 화학적 이동(chemical shift)를 얻는 것 뿐만 아니라 반대로 화학적 이동(chemical shift) 범위에서 구조를 얻을 수도 있다.In addition, the YDB database of the present invention is a database that can study the relationship between several factors, not only to obtain the chemical shift (chemical shift) under the structural conditions, but also to the structure within the chemical shift (chemical shift) range You can also get

즉, 상술한 바와 같이 화학적 이동(chemical shift)를 얻어낸 <예시1> 과 정 반대로, <예시2>와 같이 화학적 이동(chemical shift)에서 구조정보를 얻을 수 있는 것이다.In other words, the structure information can be obtained from the chemical shift as shown in Example 2, in contrast to the Example 1 obtained from the chemical shift as described above.

Figure 112007034593601-pat00008
Figure 112007034593601-pat00008

위의 예시2에서 화학적 이동(chemical shift)에서 구조의 정보를 역으로 추적했을 때, 두 단백질에서 둘다 2차구조의 끄트머리에 존재한다는 공통점을 얻을 수 있으며, 이와 같은 경우는 얻은 데이터셋이 적기 때문에 단정 지을 수는 없지만 위와 같은 방법을 통해 화학적 이동(chemical shift)에서 구조로의 역추적이 YDB 데이터베이스에서는 가능하다는 것을 보여주는 좋은 예이다.In Example 2 above, we trace back the structure information at the chemical shift, and we have the commonality that both proteins are present at the end of the secondary structure. This is not a good idea, but it is a good example to show that a traceback from chemical shift to structure is possible with the YDB database.

한편, 본 발명의 YDB 데이터베이스 구축에는 여러 nmr 실험에 대한 조건이 각각 다르고, 또 초기 NMR 실험 결과 및 단백질 구조에서 오류의 소지가 있다는 사실에 대해 처리하기 위해 여러 정제방법을 택하였는 바, 그로 인해 서로 다른 성격을 갖는 6가지 데이터베이스의 종류를 갖게 되며, 6가지 데이터베이스는 다음의 표 7과 같다.Meanwhile, in the construction of the YDB database of the present invention, various purification methods were selected to deal with the fact that the conditions for the various nmr experiments were different, and that there was a possibility of error in the results of the initial NMR experiment and the protein structure. There will be six types of databases with different characteristics, and the six databases are shown in Table 7 below.

Figure 112007034593601-pat00009
Figure 112007034593601-pat00009

상기와 같이, YDB 데이터베이스의 화학적 이동(chemical shift)에서 구조로의 역추적을 가능하게 한다는 장점을 이용하여, GetSBY 프로그램이 구축되어진다.As above, the GetSBY program is built with the advantage of enabling backtracking from the chemical shift of the YDB database to the structure.

상기 GetSBY 프로그램은 nmr 실험을 마친 단백질에 대해 6가지 백본 원자(backbone atom) 들의 지정(assignment) 만으로 2차구조를 매우 정확하게 예측할 수 있다.The GetSBY program can predict the secondary structure very accurately with the assignment of six backbone atoms to the protein after nmr experiment.

또한, 상기 YDB 데이터베이스의 6가지 데이터베이스(표 6 참조)를 적용시켜서 상황에 맞는 최적의 2차구조를 예측할 수도 있으며, 본 발명의 GetSBY 프로그램을 구동시키기 위해서는 YDB 데이터베이스에 포함된 6가지 데이터베이스(표 6참조)를 처리한 정보가 필요하고, 각각의 데이터베이스에 대해 2차구조, 수화도, 이면각에 대한 평균과 표준편차를 구한 데이터를 준비한 것의 수는 총 18개가 되며, 이 들은 다음과 같은 형식을 갖게 된다.In addition, it is possible to predict the optimal secondary structure according to the situation by applying the six databases (see Table 6) of the YDB database, in order to run the GetSBY program of the present invention six databases included in the YDB database (Table 6 18 data sets are obtained for each database, and the average and standard deviation of the secondary structure, the degree of hydration, and the dihedral angle for each database. Will have

Figure 112007034593601-pat00010
Figure 112007034593601-pat00010

위에 나타낸 3가지 종류의 파일 모두 비슷한 형식을 취하고 있으며, 아미노산 종류, 원자 종류, 인덱스, 평균, 표준편차 순으로 이루어져 있다. All three types of files listed above have a similar format, followed by amino acid type, atomic type, index, mean, and standard deviation.

상기 인덱스의 경우 2차구조의 경우는 그대로 H, E, T, G, C B 로 이루어져 있고, 나머지의 경우는 1부터 10까지의 숫자로 이루어져 있다.In the case of the index, the secondary structure is composed of H, E, T, G, and C B, and the remainder is composed of numbers from 1 to 10.

위의 2차구조에서 H는 Alpha Helix, E는 Beta Strand, T는 Turn, G는 310 Helix, C는 Random Coil, B는 Bridge를 뜻한다.In the above secondary structure, H stands for Alpha Helix, E stands for Beta Strand, T stands for Turn, G stands for 310 Helix, C stands for Random Coil, and B stands for Bridge.

일반적인 2차구조 예측 프로그램에서는 Helix류, Strand류를 제외하고는 모두 Coil 처리를 하는데 이것을 본 발명의 GetSBY 프로그램에서도 따른다.In the general secondary structure prediction program, all coils are processed except for helix and strands, which is also followed by the GetSBY program of the present invention.

상기 수화도의 경우는 1은 0%에서 10%까지, 2는 10%에서 20%까지, 이렇게 10까지 대표값으로 나타내고, 이면각은 PHI와 PSI를 각각 9×9의 사이즈로 나누어주며, PHI, PSI는 둘다 -180도에서 +180도의 범위를 가지게 되며, 이것을 GetSBY 프로그램에서는 1에서 81의 대표값으로 나타낸 것이며, 예를 들어, 1은 PHI와 PSI 모두 -180에서 -140의 범위를 가지게 된다. In the case of the degree of hydration, 1 is represented by 0% to 10%, 2 is represented by 10% to 20%, and as a representative value up to 10, and the dihedral angle divides PHI and PSI into sizes of 9 × 9, respectively, and PHI Both PSIs range from -180 to +180 degrees, which is represented by a representative value of 1 to 81 in the GetSBY program. For example, 1 ranges from -180 to -140 for both PHI and PSI. .

본 발명에 따른 GetSBY 프로그램은 입력파일로 2가지 종류의 파일을 입력 받는 바, BMRB의 Star 파일 포맷과 Sparky의 shifts 파일 포맷으로 입력을 받는다.The GetSBY program according to the present invention receives two types of files as input files, and receives them in the BMRB Star file format and the Sparky shifts file format.

위의 두 가지 파일 포맷은 매우 유용한데, 이 두 파일은 일반적인 nmr 백본 지정(nmr backbone assignment) 과정에서 나오는 파일이라는 점에서 작업 중에 바로 적용시킬 수 있다는 장점을 갖고 있다고 할 수 있다.The above two file formats are very useful, and they have the advantage that they can be applied immediately during the work because they are files that occur during normal nmr backbone assignment.

상기 GetSBY 프로그램은 Microsoft Windows 호환 프로그램으로 일반 데스크탑 환경에서 쉽게 사용할 수 있도록 디자인되어 있으며, 첨부한 도 2는 GetSBY 프로그램의 기본 인터페이스를 보여주고 있다.The GetSBY program is a Microsoft Windows compatible program and is designed to be easily used in a general desktop environment. The attached FIG. 2 shows a basic interface of the GetSBY program.

입력 파일(Input file)란에 입력 파일을 설정해 놓고, 계산(Calculate) 버튼을 누르면 1차적으로 2차구조, 수화도 및 이면각을 예측하고, 포스트 과정(Post Process)버튼을 눌러주면 1차적으로 예측한 결과를 스무딩(Smoothing) 하게 된다.Set the input file in the Input file field and press the Calculate button to firstly predict the secondary structure, the degree of hydration and back angle, and press the Post Process button. It will smooth the predicted result.

상기 스무딩(Smoothing)이란 일종의 인공지능의 역할을 하는 것으로 단백질 구조에서 Helix와 같은 경우는 4개 이상이 되어야 Helix를 이루게 된다든지, 예측의 정확도가 낮을 경우 2차적으로 YDB 데이터베이스에 실시간으로 접속하여 가장 많은 빈도를 선택하여 2차구조를 다시 결정하는 기능이다.Smoothing is a kind of artificial intelligence. In the protein structure, helix should be 4 or more in the case of Helix, or when the accuracy of prediction is low, the secondary is connected to the YDB database in real time. This function is to re-determine the secondary structure by selecting a large number of frequencies.

이렇게 예측된 결과는 세이브(Save) 버튼을 눌러 csv 파일 포맷으로 저장할 수 있고, 또한 Rama. plot 버튼을 클릭하면 x축을 PHI angle, y축을 PSI angle로 놓은 그래프에 어떤 레지듀(residue)가 어느 영역에 설정되었는지, 수화도는 어떻게 나오는지 등을 볼 수 있으며, 그 결과의 화면은 첨부한 도 3에 도시된 바와 같다.This predicted result can be saved in csv file format by pressing Save button, and also Rama. If you click the plot button, you can see which residue is set in which area and how the degree of hydration is displayed on the graph with the PHI angle on the x-axis and the PSI angle on the y-axis. As shown in 3.

여기서, 본 발명에 따른 GetSBY 프로그램의 예측 알고리즘은 2차구조, 수화도, 이면각에 대해 모두 같은 방식으로 적용되는 바, 이 GetSBY 프로그램의 동작 을 첨부한 도 4의 순서도를 참조로 살펴보면 다음과 같다.Here, the prediction algorithm of the GetSBY program according to the present invention is applied in the same manner to the secondary structure, the degree of sign language, and the backside angle. Referring to the flowchart of FIG. 4 to which the operation of the GetSBY program is attached, it is as follows. .

가장 먼저 GetSBY 프로그램를 실행하면, YDB 데이터베이스를 처리한 2차구조, 이면각, 수화도 데이터베이스 인덱스파일을 읽는다.The first time you run the GetSBY program, it reads the secondary structure, backside angle, and sign language database index file that processed the YDB database.

이것 들은 메모리에 적재되어 검색이 되어 빠른 처리속도를 갖게 된다.These are loaded into memory and searched for faster processing speeds.

그리고, 2차구조 예측을 하고자 하는 단백질의 NMR 백본 화학적 이동(NMR backbone chemical shift)들을 지정(assign)한 데이터가 들어있는 BMRB star 또는 Sparky assignment table 파일의 경로를 주고 원하는 옵션을 선택한 다음 계산(calculate) 버튼을 눌러서 2차구조를 예측한다.Then, give the path of the BMRB star or Sparky assignment table file containing the data assigned to the NMR backbone chemical shifts of the protein to be predicted for secondary structure, select the desired option, and then calculate Press the () button to predict the secondary structure.

이때, 선택할 수 있는 옵션은 6가지 데이터베이스 종류와 점수를 계산할 때 표준 편차(Standard Deviation)을 이용할 것인가 아니면 그냥 평균과의 차이만을 사용할 것인가이며, 6가지 종류의 백본 원자(Backbone atom) 들의 화학적 이동(chemical shift) 값들은 다른 값의 분포로 나타나기 때문에 그 각각의 차이를 표준 편차(standard deviation)로 나누게 되면 그 차이의 정도에 대한 기준을 세울 수 있을 것이다.In this case, the options to choose are whether to use the standard deviation or only the difference between the means when calculating the six database types and scores, and the chemical movement of the six types of backbone atoms ( Because chemical shift values are represented by a distribution of different values, dividing each difference by a standard deviation will set the standard for the degree of that difference.

이에, 이러한 옵션을 선택하고 2차구조를 예측시키면 다음과 같은 과정을 거치게 된다.Therefore, if this option is selected and the secondary structure is predicted, the following process is performed.

1) 입력 파일을 읽어 들인다.1) Read the input file.

이때, 화학적 이동(chemical shift) 정보를 저장하기 위한 리스트를 생성하는 바, 이 리스트에 시퀀스(sequence)를 나타내는 PEAKDATA란 구조체를 넣고 그 구조체안에 pAtomList라는 리스트를 생성하여 화학적 이동(chemical shift) 데이터를 갖는 ATOMDATA라는 구조체를 넣어두도록 한다.At this time, a list for storing chemical shift information is generated. A PEAKDATA structure representing a sequence is put in the list, and a list called pAtomList is created in the structure to convert chemical shift data. Let's put a structure called ATOMDATA.

상기 PEAKDATA에는 어떤 amino acid 종류인지 기술되어 있고 ATOMDATA에는 원자종류와 화학적 이동(chemical shift) 값들이 들어가게 되며, PEAKDATA와 ATOMDATA 구조체는 다음과 같다.The amino acid type is described in PEAKDATA, and ATOMDATA contains atomic type and chemical shift values, and PEAKDATA and ATOMDATA structures are as follows.

Figure 112007034593601-pat00011
Figure 112007034593601-pat00011

2) PEAKDATA를 넣고 있는 리스트의 PEAKDATA 수 만큼 루프를 돌면서 PEAKDATA 안의 ATOMDATA 들을 받아서 스코어를 계산한다.2) Calculate the score by looping the number of PEAKDATA in the list containing PEAKDATA, taking ATOMDATA in PEAKDATA.

이때, 스코어를 계산하는 방식은 표준편차를 적용하느냐 하지 않느냐에 따라 약간 차이가 있다.At this time, the method of calculating the score is slightly different depending on whether or not to apply the standard deviation.

기본적으로 하나의 시퀀스(Sequence)에 대해 스코어를 계산할 때 6가지 핵종을 테스트해서 합산하게 되는데 그 6가지 핵종의 각각의 점수는 아래와 같이 나타낼 수 있다.Basically, when calculating scores for a sequence, six nuclides are tested and summed. The scores of each of the six nuclides can be expressed as follows.

스코어(score) = absolute value(observed c.s. - 각 option 별 c.s. 평균) / 표준편차Score = absolute value (observed c.s.- c.s.average for each option) / standard deviation

여기서, observed c.s.(chemical shift)는 측정된 화학적 이동(chemical shift)을 뜻하는 것이고, 그것과 레퍼런스 파일에서의 평균 화학적 이동(chemical shift)과의 차이를 표준편차로 나눈 값을 6가지 핵종에 대해 각각 구해서 합산하는 것이다.Here, observed cs (chemical shift) refers to the measured chemical shift, and the difference between it and the average chemical shift in the reference file divided by the standard deviation for the six nuclides. Each is obtained and summed.

물론, 스코어(score)는 적을수록 그 옵션(option)과 가깝다는 의미가 되는 것이며, 이 옵션(option) 이란 그 아미노산 시퀀스(amino acid sequence)에서 YDB데이터베이스에 나타난 2차 구조별 평균값을 말한다.Of course, the smaller the score means that the closer to the option (option), the option (option) refers to the average value of the secondary structure shown in the YDB database in the amino acid sequence (amino acid sequence).

이것과 똑같은 방식으로 수화도와 이면각도 구할 수 있다.In the same way, you can get the sign and back angle.

3) 이렇게 H, E, C 3가지 구조에 대해 가장 적은 스코어(score)를 나타낸 것을 선택하게 되는데 이때 신뢰도를 구할 수 있다.3) In this way, the lowest score for the three structures H, E, and C is selected. At this time, the reliability can be obtained.

신뢰도라는 것은 다른 구조에 비해 선택된 구조의 스코어(score)가 작게 나왔다는 것을 뜻하는 것이므로 신뢰도는 다음과 같이 나타낼 수 있다.Since reliability means that the score of the selected structure is smaller than that of other structures, the reliability can be expressed as follows.

신뢰도 = 두 번째로 낮은 점수 / (첫 번째 낮은 점수 + 두 번째 낮은 점수) * 100Reliability = 2nd lowest score / (1st low score + 2nd low score) * 100

상기 신뢰도는 첫 번째로 낮은 점수가 두 번째로 낮은 점수에 비해 많이 작아지면 질수록 100에 가까워지게 되고, 이에 신뢰도가 크다는 것은 그만큼 상대적으로 맞을 확률이 높다는 것이다.The reliability is closer to 100 as the first lower score becomes much smaller than the second lowest score, and the greater the reliability, the higher the probability of being relatively right.

4) 스무싱(Smoothing)을 위해 그 과정(Process) 버튼을 클릭하면 나타날 수 없는 구조 상태, 신뢰도가 매우 낮거나 화학적 이동(chemical shift)이 아예 주어지지 않은 경우에 대한 처리를 한다. 4) Click on the Process button for smoothing. This process handles structural states that cannot be displayed, very low reliability, or no chemical shift.

우선 2차구조의 경우 헤릭스(Helix)나 스크랜드(Strand)는 어느 정도 연결되어 나타나는 성격을 갖고 있고, 그렇기 때문에 하나씩 나타나는 경우는 주변을 보고 확인하여 처리할 필요가 있다.First, in the case of the secondary structure, Helix or Strand has a characteristic of being connected to some extent. Therefore, if one appears, it is necessary to look around and confirm it.

처음은 앞으로 두 개의 시퀀스(sequence)와 현재 자신, 그리고 뒤에 이어진 두 개의 시퀀스(sequence)에서 나타난 2차구조의 형태별 수를 세어 가장 많이 나타난 2차 구조를 현재 자신의 2차 구조로 선택하여 주며, 이렇게 하면 별스럽게 튀는 2차 구조를 일차적으로 잡아 줄 수가 있다.First, the number of secondary structures shown in the next two sequences, the present self, and the subsequent two sequences is selected, and the second most frequently appeared secondary structure is selected as its own secondary structure. This will give you a first look at the bouncing secondary structure.

그리고, 두 번째로는 앞 뒤의 2차 구조가 헤릭스(Helix)나 스크랜드(Strand)로 판별이 되고 현재 자신의 2차 구조와 다르다고 할 때, 그리고 앞뒤의 2차구조의 신뢰도가 90% 이상일 때 자신의 2차구조도 앞 뒤의 2차 구조를 따라가도록 하여 연결성을 갖도록 한다.Secondly, when the front and back secondary structures are identified as Helix or Strand and are different from their current secondary structure, the reliability of the front and back secondary structures is 90%. In this case, the secondary structure of oneself should follow the secondary structure before and after to have connectivity.

5) 마지막으로 신뢰도가 50.5%로 나타나거나 화학적 이동(chemical shift)이 주어지지 않은 경우, 현재 선택한 2차 구조에 대해 믿을 수가 없으므로 이 방법보다는 빈도에 의한 선택을 하도록 한다.5) Finally, if the confidence level is 50.5% or no chemical shift is given, it is not reliable for the currently selected secondary structure.

이는 현재 자신, 그리고 바로 앞과 뒤, 이렇게 3개의 시퀀스(sequence)의 나열을 _XX 형태의 테이블들을 검색하여 가장 많이 나오는 2차구조를 선택하도록 하는 것이며, 이 방법으로 화학적 이동(chemical shift)이 없는 경우에 대해서도 가장 가능성이 높은 2차 구조를 선택할 수 있다.This allows you to search the tables of type _XX for yourself and immediately before and after the sequence of three sequences so that you can select the second most popular secondary structure, in which there is no chemical shift. The most likely secondary structure can also be chosen for the case.

기본적으로 프롤린(Proline)은 2차 구조의 손상(breakage)을 유도하므로 ㅍ프롤린이 나타나는 경우는 바로 앞의 시퀀스(sequence)와 자신은 무조건 랜덤 ㅋ코코일(random coil)로 처리하도록 한다.Basically, proline induces breakage of the secondary structure, so if proline appears, the sequence and the previous one must be treated as a random random coil.

여기서, 본 발명의 실험예로서, YDB 데이터베이스를 처리하여 만든 데이터베이스 파일을 가지고 GetSBY 프로그램에서 2차 구조를 예측한 것이 과연 얼마나 효율이 좋을지에 대해 테스트하기 위해 YDB데이터베이스에서 참조하지 않은 PDB 들을 SCOP FOLD 별로 몇 개씩 추려서 얼마나 예측을 잘하는지와 효율적인지를 테스트 해보았다.Here, as an experimental example of the present invention, to test how efficient it is to predict the secondary structure in the GetSBY program with a database file created by processing the YDB database, the PDBs not referenced in the YDB database are SCOP FOLD-specific. We tested a few of them to see how good they were and how effective they were.

비교 대상은 2차 구조 예측에 가장 많이 쓰이는 PSI-PRED와 Talos 프로그램을 사용하였으며, 이 둘은 GetSBY 프로그램과 다른 방식으로 구조를 예측하지만 단백질 구조 예측 및 결정 분야에서 가장 널리 쓰이는 툴이다.For comparison, we used PSI-PRED and Talos programs, which are the most commonly used for secondary structure prediction. They are different from GetSBY program, but they are the most widely used tools for protein structure prediction and determination.

본 발명의 GetSBY 프로그램은 BMRB star 파일을 직접 입력 받을 수 있으므로 PDB와 그에 해당하는 star 파일을 BMRB site에서 다운로드 받아서 직접 구동시켰고, 그리고 비교를 위하여 사용한 상기 PSI-PRED는 2.5 버전이었고, 상기 Talos는 2003.027.13.05 버전이었으며, 테스트를 위해 사용된 단백질의 목록은 다음의 표 8과 같다.Since the GetSBY program of the present invention can directly receive the BMRB star file, the PDB and the corresponding star file are directly downloaded from the BMRB site and run directly, and the PSI-PRED used for comparison was 2.5 version, and the Talos 2003.027 The version was .13.05, and the list of proteins used for testing is shown in Table 8 below.

Figure 112007034593601-pat00012
Figure 112007034593601-pat00012

위의 표 8의 목록에 대해 GetSBY, PSI-PRED, Talos 프로그램을 각각 실행하는데 Talos의 경우는 실제로는 토션각(Torsion Angle)을 주고 그 결과 또한 모든 시퀀스(sequence)에 대해 주는 것이 아니기 때문에 그 결과 중 NEW와 GOOD으로 나타난 결과에 대해 도 5에 도시된 바와 같이 라만찬드란 플롯(Ramachandran plot)에 매칭시켜 2차 구조를 판별했다.Run the GetSBY, PSI-PRED, and Talos programs for the list in Table 8 above, but in the case of Talos, the torsion angle is actually given, and the result is not given for every sequence. Among the results shown in NEW and GOOD, the secondary structure was determined by matching the Ramachandran plot as shown in FIG. 5.

도 3에 나타낸 것과 같이, 2차 구조에 따라 나타나는 Phi와 Psi angle의 범위는 정해져 있다.As shown in FIG. 3, the range of Phi and Psi angle which appear according to a secondary structure is determined.

그렇기 때문에 Talos로 2차구조를 결정하는 것이 가능한 것이고, Talos의 2차 구조는 다음 조건으로 결정했다.Therefore, it is possible to determine the secondary structure with Talos, and the secondary structure of Talos was determined under the following conditions.

알파 헤릭스(Alpha Helix)를 결정하는 조건은 Phi가 -180에서 -40 사이이면서 Psi가 -80에서 -30 일 경우나 Phi가 40에서 60 사이이면서 Psi가 20에서 100 사이일 경우이다.The conditions for determining Alpha Helix are when Phi is between -180 and -40 and Psi is between -80 and -30, or Phi is between 40 and 60 and Psi is between 20 and 100.

또한, 베타 시트(Beta Sheet)를 결정하는 조건은 Phi가 -180에서 -40 사이이고 Psi가 20에서 180 또는 -180에서 -165 사이일 경우이다. 나머지 경우에 대해서는 랜덤 코일(Random Coil)로 결정했다.Further, the condition for determining the beta sheet is when Phi is between -180 and -40 and Psi is between 20 and 180 or between -180 and -165. For the rest of the cases, a random coil was determined.

한편, 상기 PSI-PRED는 PSI-PRED 공식 웹사이트인 http://bioinf.cs.ucl.ac.uk/psipred/ 에서 최신 버전인 2.5 버전을 다운로드 받아서 설치하여 사용했다.On the other hand, the PSI-PRED was used to download and install the latest version 2.5 version from the PSI-PRED official website http://bioinf.cs.ucl.ac.uk/psipred/.

GetSBY, PSI-PRED, Talos 프로그램에 대한 결과는 다음의 표 9 내지 표 13에 나타낸 바와 같다.Results for the GetSBY, PSI-PRED, and Talos programs are shown in Tables 9 to 13 below.

Figure 112007034593601-pat00013
Figure 112007034593601-pat00013

Figure 112007034593601-pat00014
Figure 112007034593601-pat00014

Figure 112007034593601-pat00015
Figure 112007034593601-pat00015

Figure 112007034593601-pat00016
Figure 112007034593601-pat00016

Figure 112007034593601-pat00017
Figure 112007034593601-pat00017

표 9 내지 표 13에서, PDB의 ID 옆에 _v 가 붙은 경우는 사용한 데이터베이스가 유효(validation) 처리가 된 데이터베이스를 사용하고 있다는 뜻이다.In Tables 9 to 13, if _v is added next to the ID of the PDB, it means that the database used is using a database that has been validated.

그리고, 필드명의 G는 ydb_genuine, P는 ydb_purified, R은 ydb_refdb 를 뜻하며, N이 붙은 것은 표준편차(Standard Deviation)로 나누는 과정이 생략된 것이고, S가 붙은 것은 표준편차(Standard Deviation)로 나눈 것을 이용한 것이다.In addition, G denotes ydb_genuine, P denotes ydb_purified, and R denotes ydb_refdb, and a case where N is attached is omitted to divide the standard deviation, and a case denoted by S is divided by standard deviation. will be.

또한, PP는 PSI-PRED의 결과이고 Talos는 Talos를 구동하여 얻은 결과를 나타낸다.In addition, PP is the result of PSI-PRED and Talos is the result obtained by driving Talos.

각 컬럼에 나온 값들은 전체 시퀀스(sequence)에 대해 나타난 2차 구조 예측 적중률을 나타낸 것으로 1을 100% 확률이라고 봤을 때의 비율이다.The values in each column represent the secondary structure predicted hit rates for the entire sequence, assuming that 1 is a 100% probability.

2차 구조 예측을 놓고 봤을 때 PSI-PRED나 Talos의 결과에 비해 전체적으로 GetSBY 프로그램을 사용한 방법이 좋은 결과를 나타내고 있다는 것을 확인할 수 있다.Looking at the secondary structure predictions, it can be seen that the overall method using the GetSBY program shows better results than the results of PSI-PRED or Talos.

주로, 유효(validation) 처리된 경우는 화학적 이동(chemical shift)이 외곽 5% 를 포함시키지 않은 경우 평균적으로 구조적인 정보는 평균에서 벗어나야 특이성이 드러나기 때문에 2차 구조 결정에는 좋지 않은 결과를 나타낸 것으로 보이고, 또한 ydb_purified에서 유효(validation)까지 적용시키면 너무 많은 데이터가 제거되어지기 때문으로 보인다. In the case of validation, when the chemical shift does not include the outer 5%, on average, structural information appears to be unfavorable for secondary structure determination, because the specificity of the information is out of the average. In addition, it seems that too much data is removed by applying validation from ydb_purified.

일반적으로 2차 구조를 예측하는데 있어서는 ydb_refdb나 ydb_purified를 이용하여 표준편차(standard deviation)를 적용시켜서 얻고, 수화도의 경우는 ydb_genuine에 표준편차(standard deviation)를 적용, 또 이면각 예측에는 ydb_refdb에 표준편차(standard deviation)를 적용시키는 것이 적절한 것으로 나타나고 있다.In general, the prediction of the secondary structure is obtained by applying a standard deviation using ydb_refdb or ydb_purified, and in the case of hydration, a standard deviation is applied to ydb_genuine. Applying standard deviation has been shown to be appropriate.

물론, 그 외의 데이터베이스를 선정해도 대체적으로 다른 방법보다 좋은 결과를 나타내고 있고, 또 여러 데이터베이스를 가지고 예측하여 대체적인 경향과 신뢰도를 보고 결과를 예측할 수도 있을 것이다.Of course, selecting a different database generally yields better results than other methods, and predicting results by looking at alternative trends and reliability by predicting with multiple databases.

이상에서 본 바와 같이, 핵자기분광학을 이용한 단백질 2차 구조 예측 방법에 의하면, GetSBY 프로그램은 단백질과 NMR 실험 결과를 특별한 방식으로 저장된 YDB라는 데이터베이스의 재해석 및 처리를 통해 빠른 속도로 기존에 알려진 방식보다 정확하게 2차 구조를 예측하고 더불어 수화도와 이면각을 제공할 수 있다.As described above, according to the method of predicting protein secondary structure using nuclear magnetic spectroscopy, the GetSBY program is a method known in the past by reinterpreting and processing a database called YDB, which stores protein and NMR test results in a special way. It can more accurately predict secondary structure and provide hydration and dihedral angles.

기존의 Talos와 같은 경우는 화학적 이동(Chemical Shift)만에 의존하여 갖고 있는 78개의 제한된 단백질 데이터베이스 안에서 HA를 제외한 5개의 백본 원자(Backbone atom)의 화학적 이동(chemical shift)값과 3개의 연속된 시퀀스(sequence)를 가지고 토션각(torsion angle)의 범위를 얻는 바, 토션 각(torsion angle)의 범위는 일정하지 않고, 또 라만찬드란 플롯(ramachandran plot)의 매칭도 정확하게 된다는 보장도 없기 때문에 3가지 방법 중 가장 낮은 2차 구조 예측 적중률을 보여준다.In the case of conventional Talos, the chemical shift values and five consecutive sequences of five backbone atoms, except for HA, within 78 limited protein databases that depend only on chemical shifts. The range of torsion angles is obtained with the sequence, and the range of torsion angles is not constant, and there is no guarantee that the matching of the ramachandran plot is accurate. It shows the lowest secondary structure prediction hit rate among the methods.

또한, Talos는 속도가 매우 느리고 레퍼런스 데이터베이스 상에서 찾을 수 없는 화학적 이동(chemical shift)과 구조에 대해서는 예측을 하지 못한다는 단점이 있고, 그에 비해 PSI-PRED는 적은 CPU 점유율로 PSI-BLAST에 의한 결과는 재처리한 웨이트 매트릭스(weight matrix)를 이용하여 2차 구조를 시퀀스(sequence) 만으로 빈도 예측한다.In addition, Talos is very slow and does not predict chemical shifts and structures that cannot be found in the reference database. On the other hand, PSI-PRED is less CPU occupied. The reprocessed weight matrix is used to predict the frequency of the secondary structure in sequence only.

하지만, 시퀀스(sequence)만을 입력을 받는다는 것에 장점과 또 그에 비해 좋은 예측 결과를 주지만 역시 단지 시퀀스(sequence)만을 입력한다는 한계로 인해 본 발명의 GetSBY 프로그램에 비해 상대적으로 낮은 예측 적중률을 보인다. However, due to the advantage of receiving only sequence and giving a good prediction result, it also shows a relatively low predictive hit rate compared to the GetSBY program of the present invention due to the limitation of only inputting the sequence.

본 발명의 GetSBY 프로그램은 빠른 속도와 정확성, 그리고 여러 데이터베이 스 재처리 결과를 사용하고 여러 가지 옵션(사용할 backbone atom 선정), 토션 각(torsion angle), 그리고 다른 툴에서 예측하지 못하는 친수성(hydrophobicity)에 대한 결과를 주는 장점을 갖고 있다.The GetSBY program of the present invention uses fast speed and accuracy, and results from multiple database reprocessing, and various options (choose backbone atom to use), torsion angle, and hydrophobicity that are not predicted by other tools. It has the advantage of giving results.

단백질의 2차 구조 영역을 정확하게 예측한다는 것은 곧 그 결정된 2차 구조들의 공간상의 배열로 3차 구조를 예측할 수 있다는 것을 말하며, 3차 구조의 예측은 곧 단백질의 기능의 예측과도 같은 말이 된다. Accurate prediction of the secondary structure region of a protein means that the tertiary structure can be predicted by the spatial arrangement of the determined secondary structures, and the prediction of the tertiary structure is equivalent to the prediction of the function of the protein.

그렇기 때문에 정확한 2차 구조의 예측은 과거부터 지금까지 많은 과학자들이 노력해 온 중요한 과제이고, 3차 구조는 결국 2차 구조와 아미노산끼리의 이면각, 그리고 아미노산들의 외부 노출 정도(수화도)를 파악하면 예측할 수 있는 것이기 때문에 그 근간이 되는 2차 구조의 정확한 예측이 필요한 것이며, 이러한 점을 감안하면, 현재까지 널리 알려진 2차 구조 예측 도구들과 비교해서 본 발명의 GetSBY 프로그램은 월등한 예측 능력과 수화도나 이면각 예측, 그리고 많은 옵션, 편의성, 빠른 속도 등 많은 장점을 가지고 있는 도구로 앞으로 단백질의 3차 구조 결정을 하는 과정에서 많이 사용될 수 있을 것이다.Therefore, the accurate prediction of secondary structure is an important task that many scientists have been working on in the past, and the tertiary structure is, after all, knowing the secondary structure, backside angle between amino acids, and the degree of external exposure of amino acids (hydration degree). Because it is predictable, it is necessary to accurately predict the underlying secondary structure. In view of this, the GetSBY program of the present invention has superior prediction capability and sign language compared to the secondary structure prediction tools known to date. It is a tool that has many advantages such as degree or dihedral prediction, and many options, conveniences, and speeds.

또한, GetSBY 프로그램을 가능하게 한 YDB데이터베이스 역시 방대한 단백질과 NMR 자료들의 라이브러리화를 통해 NMR 정보와 단백질 구조와의 관계를 완전하게 규명하고 결국은 단백질 구조의 비밀을 푸는데 큰 역할을 할 수 있다.In addition, the YDB database, which enables the GetSBY program, can also play a huge role in fully clarifying the relationship between NMR information and protein structure and eventually uncovering protein structure secrets through extensive library of protein and NMR data.

Claims (10)

단백질의 좌표정보를 가지고 있는 단백질 데이터베이스 뱅크(Protein Database Bank(PDB))의 PDB 파일들과, 단백질 원자(atom)들의 NMR 실험에 의한 화학적 이동(chemical shift)정보들을 가지고 있는 바이오 마그네틱 리저넌스 뱅크(Bio Magnetic Resonance Bank(BMRB))의 화학적 이동(chemical shift)데이터들을 기반으로 만든 관계형 데이터베이스인 YDB 데이터베이스의 구축하는 단계; 및 PDB files in the Protein Database Bank (PDB) containing the coordinates of the protein, and biomagnetic retention banks containing chemical shift information by NMR experiments of protein atoms. Constructing a YDB database, which is a relational database based on chemical shift data of a Bio Magnetic Resonance Bank (BMRB); And 상기 YDB 데이터베이스를 기반으로 단백질 2차구조를 예측하도록 NMR 실험을 마친 단백질에 대해 6가지 백본 원자(backbone atom) 들의 지정(assignment) 만으로 2차 구조를 예측할 수 있는 GetSBY 프로그램의 구축 단계와;A step of constructing a GetSBY program for predicting a secondary structure only by assignment of six backbone atoms to the NMR-tested protein to predict the protein secondary structure based on the YDB database; 상기 GetSBY 프로그램의 구동과 함께 상기 YDB 데이터베이스를 처리한 2차구조, 이면각, 수화도 데이터베이스 인덱스파일을 읽어서, 메모리에 적재되어 검색의 빠른 처리속도를 갖도록 한 단계와; Reading a secondary structure, a back angle, and a sign language database index file which processes the YDB database with the operation of the GetSBY program so as to be loaded into a memory to have a fast processing speed of a search; 상기 GetSBY 프로그램이 BMRB의 Star 파일 포맷과 Sparky의 shifts 파일 포맷으로 입력을 받아서, 2차구조 예측을 하고자 하는 단백질의 NMR 백본 화학적 이동(NMR backbone chemical shift)들을 지정(assign)한 데이터가 들어있는 BMRB star 또는 Sparky assignment table 파일 경로를 주고 원하는 옵션을 선택한 단백질 2차 구조를 예측하기 위한 계산 단계를 포함하는 것을 특징으로 하는 핵자기분광학을 이용한 단백질 2차 구조 예측 방법.The GetSBY program receives inputs in BMRB's Star file format and Sparky's shifts file format, and includes a BMRB containing data indicating NMR backbone chemical shifts of proteins to be predicted for secondary structure. A method for predicting protein secondary structure using nuclear magnetic spectroscopy, comprising calculating a step for predicting a protein secondary structure in which a star or Sparky assignment table file path is selected and a desired option is selected. 청구항 1에 있어서, 상기 계산 단계에서, 원하는 옵션은 상기 YDB 데이터베이스의 6가지 데이터베이스를 적용시켜서, 6가지 데이터베이스 종류와 점수를 계산할 때 표준 편차(Standard Deviation)을 이용할 것인가 아니면 그냥 평균과의 차이만을 사용할 것인가중 선택된 하나인 것을 특징으로 하는 핵자기분광학을 이용한 단백질 2차 구조 예측 방법.The method of claim 1, wherein in the calculating step, the desired option is to apply six databases of the YDB database, so that standard deviations or only differences from the mean are used when calculating the six database types and scores. Method for predicting protein secondary structure using nuclear magnetic spectroscopy, characterized in that the selected one. 청구항 1에 있어서, 상기 YDB 데이터베이스를 구축은:The method of claim 1, wherein building the YDB database is: BMRB(Bio Magnetic Resonance Bank)의 ftp site에서 제공하고 있는 dbmatch.csv 파일을 가져 오는 단계와;Importing a dbmatch.csv file provided at an ftp site of a BMRB (Bio Magnetic Resonance Bank); 상기 dbmatch.csv 파일을 다운로드 받아놓고, 이 파일을 PDB파일에서 보여주는 단백질의 시퀀스와 각각의 시퀀스에 있는 원자들의 좌표를 알아오는 것이고, 그리고 각 시퀀스에 대해 빈 리스트를 생성해서 그 곳에 화학적 이동(chemical shift) 정보를 넣을 수 있는 상태로 만들어주는 TMatchParse class로 파싱(parsing)하는 단계와;Download the dbmatch.csv file, find the sequence of proteins in the PDB file and the coordinates of the atoms in each sequence, and create an empty list for each sequence parsing with a TMatchParse class that makes the information available for shift; 루프를 돌면서 PDB 파일과 BMRB의 STAR 파일의 존재여부를 확인하고 HTTP 프로토콜로 다운로드하여, 실제로 PDB 파일과 BMRB 파일을 매칭하여 데이터베이스에 들어갈 정보를 SQL 문으로 만드는 단계와;Checking the existence of the PDB file and the BMRB STAR file in a loop and downloading them by the HTTP protocol, and actually matching the PDB file and the BMRB file to make SQL information into a database; 여러 BMRB 파일이 하나의 PDB에 매칭될 수도 있고 하나의 BMRB 파일이 여러 PDB를 커버할 수도 있는 TPdb2Bmrb 클래스를 따로 구현하는 단계와;Separately implementing a TPdb2Bmrb class in which several BMRB files may match a single PDB and one BMRB file may cover several PDBs; 화학적 이동(Chemical shift) 정보를 TPdbParse에 입력하고 나면 일차적으로 파일(File) 데이터베이스가 만들어지는 단계와;Inputting chemical shift information into TPdbParse to create a file database firstly; 상기 파일 데이터베이스를 사용하여 SQL 파일을 생성한 다음, 해당 SQL 서버에 업로드하는 단계;Generating an SQL file using the file database and uploading the SQL file to a corresponding SQL server; 를 포함하여 이루어지는 것을 특징으로 하는 핵자기분광학을 이용한 단백질 2차 구조 예측 방법.Protein secondary structure prediction method using nuclear magnetic spectroscopy, characterized in that comprises a. 청구항 3에 있어서, 상기 TMatchParse는 dbmatch.csv 파일을 파싱하여 상기 PDB 데이터베이스의 entry id를 입력하면 BMRB의 entry id를 반환하고, 상기 BMRB의 entry id를 입력하면 PDB의 entry id를 반환하여 어떤 파일끼리 매칭이 되는지를 알려주는 클래스인 것을 특징으로 하는 핵자기분광학을 이용한 단백질 2차 구조 예측 방법.The method of claim 3, wherein the TMatchParse parses a dbmatch.csv file and returns an entry id of a BMRB when the entry id of the PDB database is input. Protein secondary structure prediction method using nuclear magnetic spectroscopy, characterized in that the class that tells the match. 청구항 3에 있어서, 상기 PDB 파일과 STAR 파일 간의 인덱스를 맞추기 위한 특별한 알고리즘이 쓰이게 되는데, PDB에 나타난 시퀀스를 10개 연속으로 가져오고 STAR에 나타난 시퀀스를 10개 연속으로 가져와서 맞는지를 확인하면서 맞게 되는 경우에 대해 입력하도록 한 것을 특징으로 하는 핵자기분광학을 이용한 단백질 2차 구조 예측 방법.The method of claim 3, wherein a special algorithm for matching the index between the PDB file and the STAR file is used, wherein the sequence shown in the PDB is taken in ten consecutive sequences, and the sequence shown in the STAR is taken in ten consecutive sequences to be checked for correctness. Method for predicting protein secondary structure using nuclear magnetic spectroscopy, characterized in that the input to the case. 청구항 3에 있어서, 상기 파일(File) 데이터베이스들은 단백질 구조정보(좌표, 원자간 거리, 이면각), 그리고 화학적 이동(Chemical Shift), 2차구조, 수화도, SCOP FOLD 분류 등의 정보들을 모두 각각의 레코드로 입력해두고, 시퀀스 정보, 2차구조 패턴 정보들도 저장해 두어서 커다란 풀(pool)을 형성하며 이루어진 것을 특징으로 하는 핵자기분광학을 이용한 단백질 2차 구조 예측 방법.The method of claim 3, wherein the file database is a protein structure information (coordinates, interatomic distance, back angle), and chemical shift (secondary structure), hydration degree, SCOP FOLD classification, etc. A method of predicting protein secondary structure using nuclear magnetic spectroscopy, which is performed by inputting a record of and storing sequence information and secondary structure pattern information to form a large pool. 청구항 1에 있어서, 상기 GetSBY 프로그램의 구동은:The method of claim 1, wherein the driving of the GetSBY program is: BMRB의 Star 파일 포맷과 Sparky의 shifts 파일 포맷으로 입력을 받아서, 화학적 이동(chemical shift) 정보를 저장하기 위한 리스트를 생성하는 단계와;Generating a list for storing chemical shift information by receiving an input in a BMRB Star file format and a Sparky shifts file format; 상기 PEAKDATA를 넣고 있는 리스트의 PEAKDATA 수 만큼 루프를 돌면서 PEAKDATA 안의 ATOMDATA 들을 받아서 스코어를 계산하는 단계와;Calculating a score by receiving ATOMDATA in PEAKDATA by looping the number of PEAKDATA of the list containing the PEAKDATA; H, E, C 3가지 구조에 대해 가장 적은 스코어(score)를 나타낸 것을 선택하여 신뢰도를 구하는 단계와;Determining reliability by selecting the least score for the three structures H, E, and C; 단백질의 나타날 수 없는 구조 상태, 신뢰도가 매우 낮거나 화학적 이동(chemical shift)이 아예 주어지지 않은 경우에 대한 처리를 하는 스무싱(Smoothing) 단계와;A smoothing step of processing the unrepresented structural state of the protein, a case where the reliability is very low or when no chemical shift is given at all; 최종 결과를 csv 포맷으로 저장하는 단계;Storing the final result in csv format; 를 포함하는 것을 특징으로 하는 핵자기분광학을 이용한 단백질 2차 구조 예측 방법.Protein secondary structure prediction method using nuclear magnetic spectroscopy, characterized in that it comprises a. 청구항 7에 있어서, 상기 리스트에 시퀀스(sequence)를 나타내는 PEAKDATA란 구조체를 넣고 그 구조체 안에 pAtomList라는 리스트를 생성하여 화학적 이동(chemical shift) 데이터를 갖는 ATOMDATA라는 구조체를 넣어두도록 한 것을 특징으로 하는 핵자기분광학을 이용한 단백질 2차 구조 예측 방법.The nuclear magnetic field of claim 7, wherein a PEAKDATA structure representing a sequence is put in the list, and a list called pAtomList is generated in the structure to contain a structure called ATOMDATA having chemical shift data. Protein secondary structure prediction method using spectroscopy. 청구항 7에 있어서, 상기 6가지 핵종의 각각의 스코어는 아래 식The method of claim 7, wherein each score of the six nuclides is [스코어(score) = absolute value(observed c.s. - 각 option 별 c.s. 평균) / 표준편차 ] 여기서, observed c.s.(chemical shift)는 측정된 화학적 이동(chemical shift)임.[Score = absolute value (observed c.s.-c.s. average for each option) / standard deviation] where the observed c.s. (chemical shift) is the measured chemical shift. 으로 구해지는 것을 특징으로 하는 핵자기분광학을 이용한 단백질 2차 구조 예측 방법.Protein secondary structure prediction method using nuclear magnetic spectroscopy, characterized in that obtained. 청구항 7에 있어서, 상기 신뢰도는 아래 식The method of claim 7, wherein the reliability is [신뢰도 = 두 번째로 낮은 점수 / (첫 번째 낮은 점수 + 두 번째 낮은 점수) * 100][Reliability = 2nd Low Score / (1st Low Score + 2nd Low Score) * 100] 으로 구해지는 것을 특징으로 하는 핵자기분광학을 이용한 단백질 2차 구조 예측 방법.Protein secondary structure prediction method using nuclear magnetic spectroscopy, characterized in that obtained.
KR1020070045261A 2007-05-10 2007-05-10 Method to predict protein secondary structure using NMR spectroscopy KR100889940B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070045261A KR100889940B1 (en) 2007-05-10 2007-05-10 Method to predict protein secondary structure using NMR spectroscopy

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070045261A KR100889940B1 (en) 2007-05-10 2007-05-10 Method to predict protein secondary structure using NMR spectroscopy

Publications (2)

Publication Number Publication Date
KR20080099559A KR20080099559A (en) 2008-11-13
KR100889940B1 true KR100889940B1 (en) 2009-03-20

Family

ID=40286509

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070045261A KR100889940B1 (en) 2007-05-10 2007-05-10 Method to predict protein secondary structure using NMR spectroscopy

Country Status (1)

Country Link
KR (1) KR100889940B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102186852B1 (en) * 2018-06-21 2020-12-04 연세대학교 산학협력단 A method for simulating molecular structure
CN110853704B (en) * 2019-11-11 2020-11-06 腾讯科技(深圳)有限公司 Protein data acquisition method, protein data acquisition device, computer equipment and storage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010016314A1 (en) 1998-10-29 2001-08-23 Stephen Anderson Linking gene sequence to gene function by three dimesional (3d) protein structure determination
US20050004766A1 (en) 1999-11-10 2005-01-06 Kalyanaraman Ramnarayan Use of computationally derived protein structures of genetic polymorphisms in pharmacogenomics for drug design and clinical applications
US20050182746A1 (en) 2003-11-26 2005-08-18 Potts Steven J. Integrated database management of protein and ligand structures
US7231328B2 (en) 2001-02-06 2007-06-12 The Penn State Research Foundation Apparatus and method for designing proteins and protein libraries

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010016314A1 (en) 1998-10-29 2001-08-23 Stephen Anderson Linking gene sequence to gene function by three dimesional (3d) protein structure determination
US20050004766A1 (en) 1999-11-10 2005-01-06 Kalyanaraman Ramnarayan Use of computationally derived protein structures of genetic polymorphisms in pharmacogenomics for drug design and clinical applications
US7231328B2 (en) 2001-02-06 2007-06-12 The Penn State Research Foundation Apparatus and method for designing proteins and protein libraries
US20050182746A1 (en) 2003-11-26 2005-08-18 Potts Steven J. Integrated database management of protein and ligand structures

Also Published As

Publication number Publication date
KR20080099559A (en) 2008-11-13

Similar Documents

Publication Publication Date Title
Warr Representation of chemical structures
Johnson Using NMRView to visualize and analyze the NMR spectra of macromolecules
Helgstrand et al. Ansig for Windows: an interactive computer program for semiautomatic assignment of protein NMR spectra
US20040158567A1 (en) Constraint driven schema association
CN109300501B (en) Protein three-dimensional structure prediction method and prediction cloud platform constructed by using same
Esquivel-Rodriguez et al. Pairwise and multimeric protein–protein docking using the LZerD program suite
Gronwald et al. CAMRA: chemical shift based computer aided protein NMR assignments
Pinheiro et al. Fitting nonlinear mixed-effects models
EP1455281B1 (en) Apparatus for predicting stereostructure of protein and prediction method
KR100889940B1 (en) Method to predict protein secondary structure using NMR spectroscopy
CN117409922A (en) Evidence-based method for clinical aid decision making
JPS6250931A (en) Using system for parameter table
CN115577694B (en) Intelligent recommendation method for standard writing
An et al. A novel fold recognition method using composite predicted secondary structures
Zupan et al. Expert system for solving problems in carbon-13 nuclear magnetic resonance spectroscopy
WO2003038672A1 (en) Screening method, screening system and screening program
JP5108642B2 (en) Use case scenario creation support system, use case scenario creation support method, and use case scenario creation support program
JP2001229171A (en) Article retrieval system
KR20090087836A (en) System for select main patent and method thereof
Padrta et al. Program MULDER–A tool for extracting torsion angles from NMR data
JP2001229182A (en) Method and device for electronic map retrieval and recording medium with recorded electronic map retrieving program
Russell et al. Protein fold recognition from secondary structure assignments
CN116955415B (en) Design hierarchy based data search system
Inhester Mining of Interaction Geometries in Collections of Protein Structures
KR102614401B1 (en) Biological sequence information handling

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130308

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140311

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150417

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20160202

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170313

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee