KR20050064644A - Method and apparatus for predicting structure of unknown protein - Google Patents

Method and apparatus for predicting structure of unknown protein Download PDF

Info

Publication number
KR20050064644A
KR20050064644A KR1020030096215A KR20030096215A KR20050064644A KR 20050064644 A KR20050064644 A KR 20050064644A KR 1020030096215 A KR1020030096215 A KR 1020030096215A KR 20030096215 A KR20030096215 A KR 20030096215A KR 20050064644 A KR20050064644 A KR 20050064644A
Authority
KR
South Korea
Prior art keywords
protein
amino acid
unknown protein
predicting
composition ratio
Prior art date
Application number
KR1020030096215A
Other languages
Korean (ko)
Other versions
KR100546779B1 (en
Inventor
허미영
김홍기
김형래
최진성
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020030096215A priority Critical patent/KR100546779B1/en
Publication of KR20050064644A publication Critical patent/KR20050064644A/en
Application granted granted Critical
Publication of KR100546779B1 publication Critical patent/KR100546779B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Abstract

본 발명은 유전자의 기능적 최종 산물인 단백질의 고유한 기능을 규명하려고 할 때 연구자가 단백질의 아미노산 서열정보만을 가지고 있는 경우 단백질의 기능과 밀접한 관련이 있는 3차원 구조를 예측하는 방법에 관한 것으로, 기지 단백질들의 서열정보가 저장된 데이터베이스에 기초하여 미지 단백질의 서열정보와 비교하여 서열의 유사성 정도에 따라 주형 단백질 후보를 결정한 다음, 기지 단백질들의 특성정보가 저장된 데이터베이스에 기초하여 미지 단백질이 어떠한 특성의 그룹에 속하는 지를 판별하여, 미지 단백질의 구조를 예측한다.The present invention relates to a method for predicting a three-dimensional structure that is closely related to the function of a protein when a researcher has only amino acid sequence information of a protein when trying to identify a unique function of a protein, which is a functional end product of a gene. The template protein candidates are determined according to the degree of similarity of the sequences by comparing them with the sequence information of the unknown proteins based on the database in which the sequence information of the proteins is stored, and then the unknown proteins are assigned to a group of characteristics based on the database in which the characteristic information of the known proteins is stored. By determining whether they belong, to predict the structure of the unknown protein.

Description

미지 단백질의 구조를 예측하기 위한 방법 및 장치{Method and apparatus for predicting structure of unknown protein}Method and apparatus for predicting structure of unknown protein

본 발명은 유전자의 기능적 최종 산물인 단백질의 고유한 기능을 규명하려고 할 때 연구자가 단백질의 아미노산 서열정보만을 가지고 있는 경우 단백질의 기능과 밀접한 관련이 있는 3차원 구조를 예측하는 방법에 관한 것이다. The present invention relates to a method for predicting a three-dimensional structure that is closely related to the function of a protein when a researcher has only amino acid sequence information of a protein when trying to identify a unique function of a protein, which is a functional end product of a gene.

종래의 단백질 구조 예측 프로그램 중에서 많은 프로그램들이 미지의 단백질 구조를 예측하는데 필요한 주형 구조를 찾아낼 때 서열 정렬을 이용한다. 데이터베이스에 있는 이미 구조가 밝혀진 단백질의 서열들과 목표 단백질의 서열을 정렬하여 서열 유사성이 최소 30% 이상인 단백질들 중에서 유사도가 높은 단백질을 주형으로 하여 구조를 예측하는 방법이 상동성 모델링이다. 이와 같은 기술에 대해서는, 예컨대 한국 특허공개공보 2002-92377, 미국 특허공보 6,512,981 등에 개시되어 있다. 서열 유사성이 30 % 미만인 경우 쓰레딩 방법 또는 이론적 기법을 사용하게 되는데, 이런 종류의 프로그램들도 기본적으로 서열 정렬 결과 값을 이용한다. Many of the conventional protein structure prediction programs use sequence alignment to find the template structures needed to predict unknown protein structures. Homology modeling is a method of aligning sequences of a protein whose target structure is already found in a database with a sequence of a target protein to predict a structure using a protein having a high similarity as a template among proteins having a sequence similarity of at least 30% or more. Such a technique is disclosed in, for example, Korean Patent Publication No. 2002-92377, US Patent Publication No. 6,512,981, and the like. If the sequence similarity is less than 30%, threading methods or theoretical techniques are used. These kinds of programs also basically use sequence alignment values.

그러나, 세포막에 결합되어 있거나 세포의 이중 지질막에 박혀있는 생체막 단백질의 경우 X선 결정법 또는 핵자기 공명법과 같은 실험적 방법을 통해 구조를 예측하고자 할 때 결정이 잘 형성되지 않아 결정 형성을 위한 적절한 실험조건을 찾아내기 힘들어 그 구조를 밝히기가 매우 어렵다.However, in the case of biofilm proteins bound to cell membranes or embedded in double lipid membranes of cells, crystals do not form well when predicting the structure by experimental methods such as X-ray crystallography or nuclear magnetic resonance method. It is very hard to find the structure, so it is very difficult to identify the structure.

본 발명이 이루고자 하는 기술적 과제는 구조가 밝혀지지 않은 새로운 단백질의 구조를 예측하고자 할 때 시간과 비용이 많이 드는 실험적 방법 대신 좀더 효율적으로 단백질의 구조를 얻기 위해, IT 기술을 이용하여 라이브러리에 있는 다량의 후보 구조들 중에 최적의 주형 구조를 찾아내어 구조 예측에 소요되는 시간을 단축하기 위한 단백질 구조 예측 방법 및 그 장치를 제공하는 것이다.The technical problem to be solved by the present invention is to use a large amount of information in the library by using IT technology to more efficiently obtain the structure of the protein instead of time and costly experimental methods when trying to predict the structure of the unknown protein. The present invention provides a method and apparatus for predicting protein structure to find an optimal template structure among candidate structures and to shorten the time required for structure prediction.

본 발명이 이루고자 하는 다른 기술적 과제는 단백질 구조를 예측하는데 사용되는 특성정보 데이터베이스의 데이터 구조를 제공하는 것이다.Another technical problem to be achieved by the present invention is to provide a data structure of a feature database used to predict protein structure.

상기의 기술적 과제를 이루기 위한 본 발명에 따른 미지 단백질의 구조 예측 방법은, 아미노산 서열을 알고 있는 미지 단백질의 구조를 예측하기 위한 방법에 있어서, (a) 기지 단백질들의 서열정보가 저장된 데이터베이스에 기초하여, 상기 미지 단백질의 서열정보와 비교하여, 서열의 유사성 정도에 따라 주형 단백질 후보를 결정하는 단계; (b) 기지 단백질들의 특성정보가 저장된 데이터베이스에 기초하여 상기 미지 단백질이 어떠한 특성의 그룹에 속하는 지를 판별하는 단계; 및 (c) 상기 (a) 및 (b) 단계의 결과에 기초하여 상기 미지 단백질의 구조를 예측하는 단계를 포함한다.According to an aspect of the present invention, there is provided a method for predicting the structure of an unknown protein, the method for predicting the structure of an unknown protein having an amino acid sequence, the method comprising: (a) based on a database storing sequence information of known proteins; Comparing the sequence information of the unknown protein to determine a template protein candidate according to the degree of similarity of the sequence; (b) determining which group of properties the unknown protein belongs to based on a database storing the property information of known proteins; And (c) predicting the structure of the unknown protein based on the results of steps (a) and (b).

상기 (b) 단계는 기지의 각 단백질에 대한 전체 아미노산 조성비, 특성별 아미노산 조성비 및 소수성값 중 적어도 하나에 기초하여 단백질들을 기능별 또는 구조별로 유사한 특성을 갖는 그룹으로 구분하여 데이터베이스를 형성한 다음, 상기 미지 단백질의 아미노산 조성비 및 소수성값에 근거하여 상기 그룹들 중 어디에 속하는지 결정하는 것이 바람직하다.The step (b) is to form a database by dividing the proteins into groups having similar characteristics by function or structure based on at least one of the total amino acid composition ratio, amino acid composition ratio by characteristic, and hydrophobicity value for each known protein. It is desirable to determine which of the groups is based on the amino acid composition ratio and the hydrophobicity value of the unknown protein.

상기의 기술적 과제를 이루기 위한 본 발명에 따른 미지 단백질의 구조 예측 장치는, 아미노산 서열을 알고 있는 미지 단백질의 구조를 예측하기 위한 장치에 있어서, 기지 단백질들의 서열정보가 저장된 서열정보 데이터베이스; 기지 단백질들의 특성정보가 저장된 특성정보 데이터베이스; 상기 서열정보 데이터베이스에 기초하여 상기 미지 단백질의 서열정보와 비교하는 서열정보 비교부; 상기 특성정보 데이터베이스에 기초하여 상기 미지 단백질의 특성과 비교하는 특성정보 비교부; 및 상기 서열정보 비교부 및 상기 특성정보 비교부의 결과에 기초하여 상기 미지 단백질의 구조를 예측하는 단백질구조 예측부를 포함한다.According to an aspect of the present invention, there is provided an apparatus for predicting a structure of an unknown protein, comprising: a sequence information database storing sequence information of known proteins; A characteristic information database storing characteristic information of known proteins; A sequence information comparing unit comparing the sequence information of the unknown protein based on the sequence information database; A characteristic information comparing unit comparing with the characteristic of the unknown protein based on the characteristic information database; And a protein structure predicting unit predicting the structure of the unknown protein based on the sequence information comparing unit and the property information comparing unit.

상기 특성정보 데이터베이스에는 기지의 각 단백질에 대한 전체 아미노산 조성비, 특성별 아미노산 조성비 및 소수성값 중 적어도 하나의 특성에 대하여 단백질들을 기능별 또는 구조별로 유사한 특성을 갖는 그룹으로 구분하여 저장되는 것이 바람직하다.Preferably, the characteristic information database stores the proteins in groups having similar characteristics for each function or structure for at least one of the total amino acid composition ratio, the amino acid composition ratio for each characteristic, and the hydrophobicity value for each known protein.

상기의 다른 기술적 과제를 이루기 위한 본 발명에 따른 미지 단백질의 구조 예측을 위한 특성정보 데이터베이스의 데이터구조는, 기지의 각 단백질에 대한 전체 아미노산 조성비, 특성별 아미노산 조성비 및 소수성값에 기초하여 단백질들을 기능별 또는 구조별로 유사한 특성을 갖는 그룹으로 구분하여 형성하되, 상기 전체 아미노산 조성비는 복수 종류의 아미노산이 각각 어떤 비율로 포함되어 있는지를 나타내고, 상기 특성별 아미노산 조성비는 아미노산 화학 구조의 특성에 따라 소수성, 극성, 산성, 염기성 특성으로 그룹화하여 구분하고 기지 단백질을 구성하는 아미노산들이 각 그룹에 속한 개수를 나타내고, 상기 소수성값은 아미노산 서열에 대한 소수성 값의 합으로 표시되는 것이 바람직하다.The data structure of the characteristic information database for predicting the structure of the unknown protein according to the present invention for achieving the above another technical problem, the protein by functional based on the total amino acid composition ratio, amino acid composition ratio by characteristic and hydrophobicity value for each known protein Or formed into groups having similar characteristics for each structure, wherein the total amino acid composition ratio indicates a plurality of kinds of amino acids in which ratio, and the amino acid composition ratio for each characteristic is hydrophobic and polar depending on the characteristics of the amino acid chemical structure. It is preferable that the amino acid constituting the known protein is divided into groups classified by acidic and basic characteristics, and the number of amino acids belonging to each group is represented, and the hydrophobicity value is expressed as the sum of hydrophobicity values with respect to the amino acid sequence.

이하에서, 도면을 참조하여 본 발명의 실시예에 대하여 상세히 설명하기로 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른, 미지 단백질의 구조를 예측하는 방법을 설명을 하는 흐름도이다. 본 발명은 아미노산 서열만 밝혀진 단백질에 대한 기능을 명확히 규명하기 위하여 단백질의 삼차원 구조를 예측하고자 할 때 생체분자 모델링 방법 중 하나인 쓰레딩 방법을 사용하여 아미노산 서열만을 가지고 단백질의 기능과 관련이 깊은 삼차원 구조를 예측하여 간접적인 방법으로 단백질의 기능을 연구하고자 할 때 사용할 수 있는 방법이다.1 is a flowchart illustrating a method for predicting the structure of an unknown protein according to an embodiment of the present invention. The present invention uses a threading method, which is one of the biomolecular modeling methods, to predict the three-dimensional structure of a protein in order to clarify the function of a protein whose amino acid sequence is known. It is a method that can be used when you want to study the function of protein in an indirect way by predicting.

단백질의 삼차원 구조를 예측하고자 하는 목표 단백질의 아미노산 서열정보를 획득한다(11). 구조가 밝혀진 기지 단백질에 대한 서열 및 구조 정보를 모아 놓은 데이터베이스에 기초하여 목표단백질과 서열 정렬하여 서로 전체적인 서열을 비교하게 되면(12), 이들 아미노산 서열들 사이의 유사성 정도에 따라 이를 수치로 표현하고, 각 기지 단백질과의 유사성 정도에 대한 수치값에 기초하여 연구자가 미리 정해놓은 임계치에 따라 필터링하여 일차적으로 주형 단백질 후보들을 선정한다(13).The amino acid sequence information of the target protein to predict the three-dimensional structure of the protein is obtained (11). Based on a database of sequences and structural information on known proteins, the sequences are aligned with the target protein to compare their overall sequences (12), which are expressed numerically according to the degree of similarity between these amino acid sequences. Based on the numerical value of the degree of similarity with each known protein, the candidate protein candidates are first selected by filtering according to a predetermined threshold by the researcher (13).

한편, 본 발명에서는 구조와 기능이 밝혀진 기지 단백질들을 기능별 및/또는 구조의 특성별로 그룹으로 나누어 저장한 데이터베이스가 마련되어 있다. 즉, 단백질 구조 데이터베이스의 단백질 아미노산 서열 각각에 대해서 20 종류의 아미노산이 각각 어떤 비율로 포함되어 있는지를 나타내는 전체 아미노산 조성비와, 아미노산 화학 구조의 특성에 따라 소수성, 극성, 산성, 염기성 등 크게 4가지 특성으로 그룹화하여 구분하고 기지 단백질을 구성하는 아미노산들이 각 그룹에 속한 개수를 나타내는 특성별 아미노산 조성비와, 아미노산 서열에 대한 소수성 값의 합으로 표시되는 단백질의 소수성 특성값을 기준으로 기지 단백질들을 특성별로 그룹화하여 데이터베이스에 저장해 둔다.On the other hand, the present invention provides a database that stores the known proteins known in structure and function divided into groups by function and / or characteristics of the structure. That is, according to the total amino acid composition ratio indicating the ratio of 20 kinds of amino acids to each of the protein amino acid sequences of the protein structure database, and four characteristics such as hydrophobicity, polarity, acidity and basicity according to the characteristics of the amino acid chemical structure Group the known proteins by their characteristics based on the amino acid composition ratio of each characteristic representing the number of amino acids constituting the known protein belonging to each group and the hydrophobic characteristic value of the protein expressed as the sum of the hydrophobicity values of the amino acid sequences. Save it in the database.

여기서, 소수성은 아미노산 고유의 성질로서 물분자와 친하지 않아 이로부터 최대한 멀어지려고 하는 아미노산 분자의 성질 때문에 단백질의 구조 접힘 과정이 일어날 때 일부 아미노산들이 단백질 내부로 들어가려고 하는 성질을 말하며, 20가지 아미노산은 각각 고유한 소수성 값을 가지며, 단백질의 소수성 특성값은 단백질을 구성하는 아미노산들의 소수성 값의 합으로 표시될 수 있다.Here, hydrophobicity refers to a property of amino acids that are not intimate with water molecules, and that the amino acid molecules try to move away from them due to the nature of the amino acid molecules. Each has a unique hydrophobicity value, and the hydrophobic property value of the protein may be expressed as the sum of the hydrophobicity values of the amino acids constituting the protein.

전체 아미노산 조성비, 특성별 아미노산 조성비 및 소수성 특성 정보를 그룹화하여 구분해 둔 데이터베이스에 기초하여, 미지의 단백질의 특성정보와 비교하여(14), 미지 단백질이 데이터베이스에서 어느 그룹에 속하는지를 파악할 수 있다(15). 그럼으로써 이 단백질의 기능 또는 구조의 특성을 파악하는데 도움이 될 것이다. Based on the database grouping the total amino acid composition ratio, the amino acid composition ratio by characteristic, and the hydrophobic characteristic information by grouping them, it is possible to determine which group the unknown protein belongs to in the database (14). 15). This will help to characterize the function or structure of the protein.

그리고, 단계 13에서 서열 정렬 결과로 얻은 주형 단백질 후보와 단계 15에서 단백질 특성정보를 그룹화한 데이터베이스의 데이터들과의 비교 분석 결과로 얻은 정보를 종합적으로 비교한 후 그 결과에 따라 단백질 주형 구조를 선택하게 된다(16). In addition, after comparing the information obtained as a result of the comparative analysis with the template protein candidate obtained as a result of the sequence alignment in step 13 and the data of the database grouping the protein characteristic information in step 15, the protein template structure is selected according to the result. (16).

한편, 목표 단백질의 서열을 주형 후보 각각에 서열-구조 정렬한 후 각각의 구조에 대한 에너지를 계산(17)한 다음 에너지 값이 일정한 범위에 포함되는지를 확인한다(18). 단백질 구조에서 가장 안정적인 구조가 가장 낮은 에너지를 가지게 되므로, 구조 예측할 때 후보 구조들에 대한 다양한 에너지를 계산한 후 그 에너지 값을 모두 합하여 값이 가장 작은 구조를 주형구조로 예측하는 것이 바람직하다(19).Meanwhile, the sequence of the target protein is sequence-structured to each of the template candidates, and then the energy for each structure is calculated (17), and then the energy value is included in a certain range (18). Since the most stable structure in a protein structure has the lowest energy, it is desirable to calculate various energies for candidate structures, and then add the energy values to predict the structure with the smallest value as the template structure. ).

도 2는 본 발명의 일 실시예에 따른, 미지 단백질의 구조를 예측하기 위한 장치의 블록도이다.2 is a block diagram of an apparatus for predicting the structure of an unknown protein, according to an embodiment of the invention.

서열정보 데이터베이스(22)에는 기지 단백질들의 서열정보가 저장되며, 특성정보 데이터베이스(24)에는 기지 단백질들의 특성정보가 저장된다. 도 3은 단백질의 특성정보 데이터베이스(24)의 데이터 구조를 도시한 것으로, 기지의 각 단백질에 대한 전체 아미노산 조성비, 특성별 아미노산 조성비 및 소수성값에 기초하여 단백질들을 기능별(31) 또는 구조별(33)로 유사한 특성을 갖는 그룹으로 구분하여 형성한다. 전체 아미노산 조성비(311, 331)는 복수 종류의 아미노산이 각각 어떤 비율로 포함되어 있는지를 나타내고, 특성별 아미노산 조성비(312, 332)는 아미노산 화학 구조의 특성에 따라 소수성, 극성, 산성, 염기성 특성으로 그룹화하여 구분하고 기지 단백질을 구성하는 아미노산들이 각 그룹에 속한 개수를 나타내고, 소수성 특성(313, 333)은 아미노산 서열에 대한 소수성 값의 합으로 표시되는 것이다.The sequence information database 22 stores sequence information of known proteins, and the characteristic information database 24 stores characteristic information of known proteins. FIG. 3 shows the data structure of the protein information database 24. The proteins are classified by function (31) or by structure (33) based on the total amino acid composition ratio, amino acid composition ratio and hydrophobicity value for each known protein. ) To form groups with similar characteristics. The total amino acid composition ratios 311 and 331 represent ratios of plural types of amino acids, respectively, and the amino acid composition ratios 312 and 332 for each characteristic are hydrophobic, polar, acidic, and basic characteristics depending on the amino acid chemical structure. The number of amino acids constituting the known protein by grouping indicates the number belonging to each group, and the hydrophobicity characteristics 313 and 333 are expressed as the sum of the hydrophobicity values for the amino acid sequence.

서열정보 비교부(21)은 상기 서열정보 데이터베이스(22)에 기초하여 미지 단백질의 아미노산 서열정보와 비교하고, 특성정보 비교부(23)는 특성정보 데이터베이스(24)에 기초하여 미지 단백질의 특성과 비교한다. 단백질구조 예측부(26)는 서열정보 비교부(21) 및 특성정보 비교부(23)의 결과에 기초하여 미지 단백질의 구조를 예측한다. 또한, 미지 단백질의 주형 후보의 구조에 대한 에너지를 계산하는 에너지 계산부(25)를 더 포함하여, 단백질구조 예측부(26)에 단백질 구조를 예측하는데 사용될 수 있다.The sequence information comparing unit 21 compares the amino acid sequence information of the unknown protein based on the sequence information database 22, and the characteristic information comparing unit 23 compares the characteristics of the unknown protein with the characteristic information database 24. Compare. The protein structure predicting unit 26 predicts the structure of the unknown protein based on the results of the sequence information comparing unit 21 and the characteristic information comparing unit 23. The apparatus may further include an energy calculator 25 that calculates energy for the structure of the template candidate of the unknown protein, and may be used to predict the protein structure in the protein structure predictor 26.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.The invention can also be embodied as computer readable code on a computer readable recording medium. The computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like, which are also implemented in the form of a carrier wave (for example, transmission over the Internet). It also includes. The computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.

이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.The best embodiments have been disclosed in the drawings and specification above. Although specific terms have been used herein, they are used only for the purpose of describing the present invention and are not used to limit the scope of the present invention as defined in the meaning or claims. Therefore, those skilled in the art will understand that various modifications and equivalent other embodiments are possible from this. Therefore, the true technical protection scope of the present invention will be defined by the technical spirit of the appended claims.

상술한 바와 같이, 본 발명의 실시예에 의하면, 미지의 단백질에 대해 구조가 밝혀진 다른 단백질의 서열정보가 저장된 데이터베이스에 기초하여 서열정렬을 거친 다음 단백질 그룹별로 전체 아미노산 조성비, 특성별 조성비, 소수성 값을 나타내는 데이터베이스와 비교하여, 에너지 계산한 후 미지 단백질에 대한 최종 주형 구조를 예측한다. 따라서, 본 발명은 구조 라이브러리에 있는 단백질 폴드들의 서열정보만을 가지고 그들과 서열정렬한 후 아미노산 조성과 소수성 특성으로 다시 구조를 고르기 때문에, 특히 소수성 특성을 가지는 막 단백질 그룹의 구조를 예측하고자 할 때 유용한 도구로서 작용할 것이다.As described above, according to an embodiment of the present invention, the sequence is based on a database storing sequence information of another protein whose structure is unknown for an unknown protein, and then the total amino acid composition ratio, composition ratio, and hydrophobicity value for each protein group. The final template structure for the unknown protein is predicted after energy calculations, compared to a database representing Therefore, the present invention is particularly useful when predicting the structure of a group of membrane proteins having hydrophobic properties since the sequence is sorted only with the sequence information of the protein folds in the structural library and then reselected by amino acid composition and hydrophobic properties. Will act as a tool.

본 발명은 IT 기술을 이용하여 생체분자인 단백질의 삼차원 구조 예측 과정 중에서 목표 단백질의 주형 구조를 선정하는 단계에서 그 효과를 높이기 위해 고안된 것으로, 데이터베이스에 있는 단백질의 서열 정보를 바탕으로 아미노산 전체 조성비, 아미노산 특성별 조성비 및 소수성 특성을 계산하여 적당한 주형을 좀더 효율적으로 찾아낼 수 있으며, 기존의 X선 결정법 또는 핵자기 공명법 등의 실험적 방법에 의해 분자의 구조를 예측하는 경우와 비교하여 많은 시간과 비용을 절약할 수 있다.The present invention is designed to enhance the effect of selecting the template structure of the target protein in the process of predicting the three-dimensional structure of the biomolecule protein using IT technology, the total amino acid composition ratio, based on the sequence information of the protein in the database, By calculating the composition ratio and hydrophobicity characteristics of each amino acid characteristic, it is possible to find a suitable template more efficiently, and compared to the case of predicting the structure of molecules by experimental methods such as X-ray crystallography or nuclear magnetic resonance method. You can save money.

본 발명은 단백질 구조 예측시 주형 구조 또는 최적의 구조를 결정하고자 할 때 단백질 고유의 아미노산 조성비와 아미노산 특유의 특성에 따른 특성별 조성비 그리고 20가지 아미노산마다 각기 다른 소수성 값을 이용하는 방법에 관한 것으로서, 이러한 방법은 특히 세포막에 결합되어 있거나 세포의 이중 지질막에 박혀있는 생체막 단백질의 경우 전체 단백질 중 많은 분포를 차지하고 있음에도 불구하고 X선 결정법 또는 핵자기 공명법과 같은 실험적 방법을 통해 구조를 예측하고자 할 때 결정을 잘 형성하지 않아 결정 형성을 위한 적절한 실험조건을 찾아내기 힘들어 구조를 밝히기가 매우 어려운데, 이들 단백질들은 세포질내에 존재하는 단백질과 비교하여 소수성이 높으므로 이러한 성질을 단백질 구조 예측시에 이용하는 것은 매우 효율성이 높을 것으로 예상된다.The present invention relates to a method of using a unique amino acid composition ratio, a composition ratio for each characteristic according to amino acid-specific characteristics, and different hydrophobicity values for each 20 amino acids when determining a template structure or an optimal structure when predicting protein structure. The method is particularly useful for predicting structures through experimental methods such as X-ray crystallography or nuclear magnetic resonance, despite the fact that biofilm proteins that are bound to the cell membrane or embedded in the cell's double lipid membrane occupy a large proportion of the total protein. It is difficult to reveal the structure because it is difficult to find suitable experimental conditions for crystal formation because these proteins have high hydrophobicity compared to the proteins present in the cytoplasm. High It is expected.

도 1은 본 발명의 일 실시예에 따른, 미지 단백질의 구조를 예측하는 방법을 설명을 하는 흐름도이다. 1 is a flowchart illustrating a method for predicting the structure of an unknown protein according to an embodiment of the present invention.

도 2는 본 발명의 일 실시예에 따른, 미지 단백질의 구조를 예측하기 위한 장치의 블록도이다.2 is a block diagram of an apparatus for predicting the structure of an unknown protein, according to an embodiment of the invention.

도 3은 단백질의 특성정보 데이터베이스(24)의 데이터 구조를 도시한 것이다.3 shows the data structure of the protein information database 24.

Claims (11)

아미노산 서열을 알고 있는 미지 단백질의 구조를 예측하기 위한 방법에 있어서,In the method for predicting the structure of an unknown protein having an amino acid sequence, (a) 기지 단백질들의 서열정보가 저장된 데이터베이스에 기초하여, 상기 미지 단백질의 서열정보와 비교하여, 서열의 유사성 정도에 따라 주형 단백질 후보를 결정하는 단계;(a) determining a template protein candidate based on a degree of similarity of the sequence, based on a database storing sequence information of known proteins, compared to sequence information of the unknown protein; (b) 기지 단백질들의 특성정보가 저장된 데이터베이스에 기초하여 상기 미지 단백질이 어떠한 특성의 그룹에 속하는 지를 판별하는 단계; 및(b) determining which group of properties the unknown protein belongs to based on a database storing the property information of known proteins; And (c) 상기 (a) 및 (b) 단계의 결과에 기초하여 상기 미지 단백질의 구조를 예측하는 단계를 포함하는 것을 특징으로 하는 미지 단백질의 구조 예측 방법.(c) predicting the structure of the unknown protein based on the results of steps (a) and (b). 제1항에 있어서, 상기 (b) 단계는 The method of claim 1, wherein step (b) 기지의 각 단백질에 대한 전체 아미노산 조성비, 특성별 아미노산 조성비 및 소수성값 중 적어도 하나에 기초하여 단백질들을 기능별 또는 구조별로 유사한 특성을 갖는 그룹으로 구분하여 데이터베이스를 형성한 다음, 상기 미지 단백질의 아미노산 조성비 및 소수성값에 근거하여 상기 그룹들 중 어디에 속하는지 결정하는 것을 특징으로 하는 미지 단백질의 구조 예측 방법.Based on at least one of the total amino acid composition ratio, amino acid composition ratio and hydrophobicity value for each known protein, the proteins are divided into groups having similar characteristics by function or structure, and then a database is formed. The method of predicting the structure of an unknown protein, characterized in that it determines which of the groups based on the hydrophobicity value. 제2항에 있어서, The method of claim 2, 상기 전체 아미노산 조성비는 복수 종류의 아미노산이 각각 어떤 비율로 포함되어 있는지를 나타내는 것을 특징으로 하는 미지 단백질의 구조 예측 방법.The total amino acid composition ratio indicates the ratio of each of a plurality of kinds of amino acids contained in the structure predicting method of the unknown protein. 제2항에 있어서, The method of claim 2, 상기 특성별 아미노산 조성비는 아미노산 화학 구조의 특성에 따라 소수성, 극성, 산성, 염기성 특성으로 그룹화하여 구분하고 기지 단백질을 구성하는 아미노산들이 각 그룹에 속한 개수를 나타내는 것을 특징으로 하는 미지 단백질의 구조 예측 방법.The amino acid composition ratio of each characteristic is classified into hydrophobic, polar, acidic and basic characteristics according to the characteristics of the amino acid chemical structure, and the structure of the unknown protein is characterized in that the number of amino acids constituting the known protein belongs to each group. . 제2항에 있어서, The method of claim 2, 상기 소수성값은 아미노산 서열에 대한 소수성 값의 합으로 표시되는 것을 특징으로 하는 미지 단백질의 구조 예측 방법.The hydrophobic value is represented by the sum of the hydrophobicity value with respect to the amino acid sequence structure prediction method of the unknown protein. 제1항에 있어서, 상기 (c) 단계는 The method of claim 1, wherein step (c) 상기 미지 단백질의 주형 후보의 구조에 대한 에너지를 계산하여 최종 후보를 선택하는 단계를 더 포함하는 것을 특징으로 하는 미지 단백질의 구조 예측 방법.The method of predicting the structure of the unknown protein further comprises the step of selecting the final candidate by calculating the energy of the structure of the template candidate of the unknown protein. 아미노산 서열을 알고 있는 미지 단백질의 구조를 예측하기 위한 장치에 있어서,In the apparatus for predicting the structure of an unknown protein having an amino acid sequence, 기지 단백질들의 서열정보가 저장된 서열정보 데이터베이스;A sequence information database storing sequence information of known proteins; 기지 단백질들의 특성정보가 저장된 특성정보 데이터베이스;A characteristic information database storing characteristic information of known proteins; 상기 서열정보 데이터베이스에 기초하여 상기 미지 단백질의 서열정보와 비교하는 서열정보 비교부;A sequence information comparing unit comparing the sequence information of the unknown protein based on the sequence information database; 상기 특성정보 데이터베이스에 기초하여 상기 미지 단백질의 특성과 비교하는 특성정보 비교부; 및A characteristic information comparing unit comparing with the characteristic of the unknown protein based on the characteristic information database; And 상기 서열정보 비교부 및 상기 특성정보 비교부의 결과에 기초하여 상기 미지 단백질의 구조를 예측하는 단백질구조 예측부를 포함하는 것을 특징으로 하는 미지 단백질의 구조 예측 장치.And a protein structure predicting unit predicting the structure of the unknown protein based on the sequence information comparing unit and the characteristic information comparing unit. 제7항에 있어서, 상기 특성정보 데이터베이스에는 The method of claim 7, wherein the feature information database 기지의 각 단백질에 대한 전체 아미노산 조성비, 특성별 아미노산 조성비 및 소수성값 중 적어도 하나의 특성에 대하여 단백질들을 기능별 또는 구조별로 유사한 특성을 갖는 그룹으로 구분하여 저장되는 것을 특징으로 하는 미지 단백질의 구조 예측 장치.An apparatus for predicting a structure of an unknown protein, characterized in that the proteins are divided into groups having similar characteristics for each function or structure for at least one of the total amino acid composition ratio, amino acid composition ratio, and hydrophobicity value for each known protein. . 제7항에 있어서,The method of claim 7, wherein 상기 미지 단백질의 주형 후보의 구조에 대한 에너지를 계산하는 에너지 계산부를 더 포함하는 것을 특징으로 하는 미지 단백질의 구조 예측 장치.The apparatus for predicting the structure of an unknown protein further comprises an energy calculator for calculating an energy for the structure of the template candidate of the unknown protein. 기지 단백질들의 특성정보가 저장된 특성정보 데이터베이스의 데이터 구조에 있어서,In the data structure of the characteristic information database in which the characteristic information of known proteins is stored, 기지의 각 단백질에 대한 전체 아미노산 조성비, 특성별 아미노산 조성비 및 소수성값에 기초하여 단백질들을 기능별 또는 구조별로 유사한 특성을 갖는 그룹으로 구분하여 형성하되,Based on the total amino acid composition ratio, amino acid composition ratio and hydrophobicity value for each known protein, proteins are formed by dividing the proteins into groups having similar characteristics by function or structure. 상기 전체 아미노산 조성비는 복수 종류의 아미노산이 각각 어떤 비율로 포함되어 있는지를 나타내고,The said total amino acid composition ratio shows what ratio each contains a plurality of types of amino acids, 상기 특성별 아미노산 조성비는 아미노산 화학 구조의 특성에 따라 소수성, 극성, 산성, 염기성 특성으로 그룹화하여 구분하고 기지 단백질을 구성하는 아미노산들이 각 그룹에 속한 개수를 나타내고, The amino acid composition ratio of each characteristic is classified into hydrophobic, polar, acidic and basic characteristics according to the characteristics of the amino acid chemical structure, and represents the number of amino acids constituting the matrix protein belonging to each group, 상기 소수성값은 아미노산 서열에 대한 소수성 값의 합으로 표시되는 것을 특징으로 하는 미지 단백질의 구조 예측을 위한 특성정보 데이터베이스의 데이터구조.Wherein said hydrophobicity value is expressed as a sum of hydrophobicity values with respect to an amino acid sequence. 제1-6항 중 어느 한 청구항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium having recorded thereon a program for executing the method of claim 1 on a computer.
KR1020030096215A 2003-12-24 2003-12-24 Method and apparatus for predicting structure of unknown protein KR100546779B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030096215A KR100546779B1 (en) 2003-12-24 2003-12-24 Method and apparatus for predicting structure of unknown protein

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030096215A KR100546779B1 (en) 2003-12-24 2003-12-24 Method and apparatus for predicting structure of unknown protein

Publications (2)

Publication Number Publication Date
KR20050064644A true KR20050064644A (en) 2005-06-29
KR100546779B1 KR100546779B1 (en) 2006-01-25

Family

ID=37256219

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030096215A KR100546779B1 (en) 2003-12-24 2003-12-24 Method and apparatus for predicting structure of unknown protein

Country Status (1)

Country Link
KR (1) KR100546779B1 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100592086B1 (en) * 2004-07-16 2006-06-21 아주대학교산학협력단 Protein Secondary Structure Prediction Method Using Adaptive Weight Voting Algorithm
KR100734880B1 (en) * 2005-12-08 2007-07-03 한국전자통신연구원 Apparatus and method for Protein Active Site search
WO2008007821A1 (en) * 2006-07-12 2008-01-17 Korea Basic Science Institute A method for reconstructing protein database and a method for identifying proteins by using the same method
KR100799541B1 (en) * 2006-12-04 2008-01-31 한국전자통신연구원 Apparatus and method for unknown protein feature prediction
KR100904220B1 (en) * 2007-01-26 2009-06-25 주식회사 인실리코텍 System, method and program for M cell target prediction of peptide sequence by mathematical model
WO2022145803A1 (en) * 2020-12-30 2022-07-07 (주) 팜캐드 Apparatus and method for predicting omega parameters used for protein structure prediction using artificial intelligence (ai)
WO2023085562A1 (en) * 2021-11-11 2023-05-19 주식회사 아토믹스 Molecular structure sampling method and device for machine learning

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102622760B1 (en) 2023-05-10 2024-01-10 충남대학교산학협력단 Method for analysis of protein binding site similarity based on topological water molecule network

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100592086B1 (en) * 2004-07-16 2006-06-21 아주대학교산학협력단 Protein Secondary Structure Prediction Method Using Adaptive Weight Voting Algorithm
KR100734880B1 (en) * 2005-12-08 2007-07-03 한국전자통신연구원 Apparatus and method for Protein Active Site search
US7734425B2 (en) 2005-12-08 2010-06-08 Electronics And Telecommunications Research Institute Apparatus and method for searching protein active site
WO2008007821A1 (en) * 2006-07-12 2008-01-17 Korea Basic Science Institute A method for reconstructing protein database and a method for identifying proteins by using the same method
US8296300B2 (en) 2006-07-12 2012-10-23 Korea Basic Science Institute Method for reconstructing protein database and a method for screening proteins by using the same method
KR100799541B1 (en) * 2006-12-04 2008-01-31 한국전자통신연구원 Apparatus and method for unknown protein feature prediction
KR100904220B1 (en) * 2007-01-26 2009-06-25 주식회사 인실리코텍 System, method and program for M cell target prediction of peptide sequence by mathematical model
WO2022145803A1 (en) * 2020-12-30 2022-07-07 (주) 팜캐드 Apparatus and method for predicting omega parameters used for protein structure prediction using artificial intelligence (ai)
WO2023085562A1 (en) * 2021-11-11 2023-05-19 주식회사 아토믹스 Molecular structure sampling method and device for machine learning

Also Published As

Publication number Publication date
KR100546779B1 (en) 2006-01-25

Similar Documents

Publication Publication Date Title
CN111210871B (en) Protein-protein interaction prediction method based on deep forests
Saito et al. Construction of reliable protein–protein interaction networks with a new interaction generality measure
Liu et al. Unsupervised embedding of single-cell Hi-C data
CN110827921B (en) Single cell clustering method and device, electronic equipment and storage medium
Zhang et al. Identification of DNA–protein binding sites by bootstrap multiple convolutional neural networks on sequence information
Wan et al. Meta-prediction of phosphorylation sites with weighted voting and restricted grid search parameter selection
KR100546779B1 (en) Method and apparatus for predicting structure of unknown protein
US20020072887A1 (en) Interaction fingerprint annotations from protein structure models
CN116596933B (en) Base cluster detection method and device, gene sequencer and storage medium
CN113257357A (en) Method for predicting protein residue contact map
CN114758721B (en) Deep learning-based transcription factor binding site positioning method
Hayashida et al. A simple method for inferring strengths of protein-protein interactions
CN114627964B (en) Prediction enhancer based on multi-core learning and intensity classification method and classification equipment thereof
US20220336057A1 (en) Efficient voxelization for deep learning
US20100304983A1 (en) Method for protein structure determination, gene identification, mutational analysis, and protein design
Wang et al. Explore the hidden treasure in protein–protein interaction networks—An iterative model for predicting protein functions
CA3215462A1 (en) Deep convolutional neural networks to predict variant pathogenicity using three-dimensional (3d) protein structures
WO2022221593A1 (en) Efficient voxelization for deep learning
CN103488913A (en) A computational method for mapping peptides to proteins using sequencing data
CN114717294A (en) Method for analyzing autotrophic microbial community and carbon sequestration pathway of offshore sediments
Smith et al. Estimating error rates for single molecule protein sequencing experiments
CA2415584A1 (en) Protein threading by linear programming
CN110245157B (en) Data difference analysis method and system based on probability density estimation
Chang et al. Identification of transcription factor binding sites using GA and PSO
CN114512188B (en) DNA binding protein recognition method based on improved protein sequence position specificity matrix

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20091231

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee