KR102676313B1 - Method and apparatus for screening gene - Google Patents

Method and apparatus for screening gene Download PDF

Info

Publication number
KR102676313B1
KR102676313B1 KR1020200024171A KR20200024171A KR102676313B1 KR 102676313 B1 KR102676313 B1 KR 102676313B1 KR 1020200024171 A KR1020200024171 A KR 1020200024171A KR 20200024171 A KR20200024171 A KR 20200024171A KR 102676313 B1 KR102676313 B1 KR 102676313B1
Authority
KR
South Korea
Prior art keywords
gene
genes
specific gene
expression level
subject
Prior art date
Application number
KR1020200024171A
Other languages
Korean (ko)
Other versions
KR20210109207A (en
Inventor
정기홍
홍우종
김유진
찬드란 아닐 쿠마르 날리니
Original Assignee
경희대학교 산학협력단
Filing date
Publication date
Application filed by 경희대학교 산학협력단 filed Critical 경희대학교 산학협력단
Priority to KR1020200024171A priority Critical patent/KR102676313B1/en
Priority to PCT/KR2021/001350 priority patent/WO2021172780A1/en
Priority to CN202180017891.XA priority patent/CN115280419A/en
Publication of KR20210109207A publication Critical patent/KR20210109207A/en
Application granted granted Critical
Publication of KR102676313B1 publication Critical patent/KR102676313B1/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Abstract

본 개시의 일 실시예에 따르면, 대상체의 유전자들에 대한 단백질 서열을 기초로 계통학적 수형도 및 유전자의 발현량 데이터를 획득하고, 쿼리로 입력된 특정 유전자가 계통학적 수형도에서 동일 도메인을 공유하는 유전자들에 포함됨에 따라, 특정 유전자와 계통학적 수형도 내의 유전자들 각각 간의 발현 패턴을 비교하여, 상관 관계를 결정하고, 특정 유전자에 대해 결정된 상관 관계를 기초로, 대상체의 유전자들 중 특정 유전자와 중복되는 기능을 갖는 타겟 유전자를 결정하며, 결정된 타겟 유전자에 관한 정보를 제공하는 유전자 선별 방법이 개시된다. According to an embodiment of the present disclosure, a phylogenetic tree and expression level data of genes are obtained based on the protein sequences of the genes of the subject, and a specific gene entered as a query is a gene sharing the same domain in the phylogenetic tree. As it is included in the gene, the expression pattern between the specific gene and each of the genes in the phylogenetic tree is compared, a correlation is determined, and based on the correlation determined for the specific gene, overlapping with a specific gene among the genes of the subject A gene selection method for determining a target gene having a function and providing information regarding the determined target gene is disclosed.

Description

유전자 선별 방법 및 장치 {METHOD AND APPARATUS FOR SCREENING GENE}Gene screening method and device {METHOD AND APPARATUS FOR SCREENING GENE}

개시된 실시예는 유전체 서열 데이터와 다양한 전사체에 대한 차세대 염기서열 분석으로 축적된 데이터를 이용하여 작물의 진화과정에서 발생한 유전체 중복에 의한 유전자 간의 기능 중복성을 예측하여 유용 유전자를 선별하는 방법 및 장치에 관한 것이다. The disclosed embodiment is a method and device for selecting useful genes by predicting functional redundancy between genes due to genome duplication that occurred during the evolution of crops using genome sequence data and data accumulated through next-generation sequencing of various transcripts. It's about.

유전자 가위를 이용하여 목표 유전자를 정확하게 표적으로 삼는 유전체 편집기술이 등장하여 다양한 분야에서 적용되는 중이다. 다만, 식물의 경우 대부분 진화과정에서 유전체 수준의 복제가 광범위하게 발생하였기에, 유사한 서열의 유전자 간의 기능 중복성이 높게 나타남에 따라, 목표 유전자 만을 정확하게 표적하는 유전자 편집 기술을 적용할 경우, 표현형의 확인에 어려움이 있을 수 있다.Genome editing technology that accurately targets target genes using genetic scissors has emerged and is being applied in various fields. However, in the case of plants, extensive duplication at the genome level occurred during most of the evolution process, resulting in high functional redundancy between genes of similar sequence. Therefore, when gene editing technology that accurately targets only target genes is applied, it is difficult to confirm the phenotype. There may be difficulties.

이에 따라, 식물과 같이 유사한 서열의 유전자 간의 기능 중복성이 높게 나타나는 대상체에 대하여, 유전자를 효과적으로 선별해낼 수 있는 방법이 필요한 실정이다.Accordingly, there is a need for a method that can effectively select genes for subjects with high functional redundancy between genes of similar sequence, such as plants.

Stefano Berri 외, "Characterization of WRKY co-regulatory networks in rice and Arabidopsis", BMC Plant Biology, 9:120. (2009.09.22.) Stefano Berri et al., “Characterization of WRKY co-regulatory networks in rice and Arabidopsis”, BMC Plant Biology, 9:120. (2009.09.22.)

개시된 실시예는 유사한 서열의 유전자 간의 기능 중복성이 높게 나타나는 대상체에 대하여, 유전자를 선별하는 방법 및 장치를 제공하기 위한 것이다. The disclosed embodiments are intended to provide a method and device for selecting genes for subjects showing high functional redundancy between genes of similar sequences.

일 실시예에 따른 유전자 선별 방법은, 대상체의 유전자들에 대한 단백질 서열을 기초로 계통학적 수형도 및 유전자의 발현량 데이터를 획득하는 단계; 쿼리로 입력된 특정 유전자가 계통학적 수형도에서 동일 도메인을 공유하는 유전자들에 포함됨에 따라, 특정 유전자와 상기 계통학적 수형도 내의 유전자들 각각 간의 발현 패턴을 비교하여, 상관 관계를 결정하는 단계; 특정 유전자에 대해 결정된 상관 관계를 기초로, 대상체의 유전자들 중 특정 유전자와 중복되는 기능을 갖는 타겟 유전자를 결정하는 단계; 및 결정된 타겟 유전자에 관한 정보를 제공하는 단계를 포함할 수 있다. A gene selection method according to one embodiment includes obtaining a phylogenetic tree and gene expression level data based on protein sequences for genes of a subject; As a specific gene entered as a query is included in genes sharing the same domain in the phylogenetic tree, comparing expression patterns between the specific gene and each of the genes in the phylogenetic tree to determine a correlation; Based on the correlation determined for a specific gene, determining a target gene having a function overlapping with a specific gene among the genes of the subject; And it may include providing information about the determined target gene.

일 실시예에 따른 유전자 선별 방법에 있어서, 획득하는 단계는, 대상체의 유전자의 대표 단백질 서열에 주석달기(annotation)를 수행하는 단계; 주석 달기의 수행 결과를 기초로, Pfam 도메인에서 복수의 FASTA 파일을 생성하는 단계; 및 생성된 복수의 FASTA 파일의 서열 정렬을 통해 상기 계통학적 수형도를 획득하는 단계를 포함할 수 있다.In the gene selection method according to one embodiment, the obtaining step includes performing annotation on a representative protein sequence of a gene of a subject; Generating a plurality of FASTA files in the Pfam domain based on the annotation results; And it may include obtaining the phylogenetic tree through sequence alignment of the plurality of generated FASTA files.

일 실시예에 따른 유전자 선별 방법에 있어서, 획득하는 단계는, 대상체의 조직들에 대한 전사체 서열 분석 데이터를 대상체의 유전체에 정렬함으로써, 조직별 유전자의 발현량 정보를 생성하는 단계; 및 생성된 조직별 유전자의 발현량 정보에 정규화를 수행하여, 유전자 발현값을 포함하는 유전자 데이터를 획득하는 단계를 포함할 수 있다. In the gene selection method according to one embodiment, the obtaining step includes generating expression level information of genes for each tissue by aligning transcriptome sequence analysis data for tissues of the subject with the genome of the subject; And it may include the step of performing normalization on the generated expression level information of genes for each tissue, and obtaining gene data including gene expression values.

일 실시예에 따른 유전자 선별 방법에 있어서, 상관 관계를 결정하는 단계는, 특정 유전자의 발현 패턴과 계통학적 수형도 내의 유전자의 발현 패턴간의 PCC (Pearson Correlation Coefficient) 값을 결정하는 단계를 포함할 수 있다. In the gene selection method according to one embodiment, the step of determining the correlation may include determining a PCC (Pearson Correlation Coefficient) value between the expression pattern of a specific gene and the expression pattern of the gene in the phylogenetic tree. .

일 실시예에 따른 유전자 선별 방법에 있어서, 타겟 유전자를 결정하는 단계는, PCC 값이 임계값 이상인 적어도 하나의 유전자를 타겟 유전자로 결정하는 단계를 포함할 수 있다. In the gene selection method according to one embodiment, the step of determining the target gene may include determining at least one gene whose PCC value is greater than or equal to a threshold value as the target gene.

일 실시예에 따른 유전자 선별 방법에 있어서, 임계값은, 쿼리로 특정 유전자가 입력되기 이전에 산출된, 다른 입력 유전자 각각에 대한 상관 관계에 산출 결과를 기초로 결정될 수 있다. In the gene selection method according to one embodiment, the threshold may be determined based on the correlation results for each of the other input genes calculated before a specific gene is input as a query.

일 실시예에 따른 유전자를 선별하는 동작을 수행하도록 하는 프로그램이 저장된 기록매체를 포함하는 컴퓨터 프로그램 제품은, 대상체의 유전자들에 대한 단백질 서열을 기초로 계통학적 수형도 및 유전자의 발현량 데이터를 획득하는 동작; 쿼리로 입력된 특정 유전자가 계통학적 수형도에서 동일 도메인을 공유하는 유전자들에 포함됨에 따라, 특정 유전자와 계통학적 수형도 내의 유전자들 각각 간의 발현 패턴을 비교하여, 상관 관계를 결정하는 동작; 및 특정 유전자에 대해 결정된 상관 관계를 기초로, 대상체의 유전자들 중 특정 유전자와 중복되는 기능을 갖는타겟 유전자를 결정하는 동작; 및 결정된 타겟 유전자에 관한 정보를 제공하는 동작을 포함할 수 있다. A computer program product including a recording medium storing a program for performing a gene selection operation according to an embodiment is a computer program product that obtains a phylogenetic tree and gene expression level data based on the protein sequence of the genes of the subject. movement; As a specific gene entered as a query is included in genes sharing the same domain in the phylogenetic tree, comparing expression patterns between the specific gene and each of the genes in the phylogenetic tree to determine a correlation; and determining a target gene having a function overlapping with a specific gene among the genes of the subject, based on the correlation determined for the specific gene; And it may include an operation of providing information about the determined target gene.

일 실시예에 따른 유전자 선별 장치는, 메모리; 입력부; 디스플레이; 및 메모리에 연결된 적어도 하나의 프로세서를 포함하고, 적어도 하나의 프로세서는,A genetic selection device according to one embodiment includes: memory; input unit; display; and at least one processor coupled to the memory, wherein the at least one processor includes:

대상체의 유전자들에 대한 단백질 서열을 기초로 계통학적 수형도 및 유전자의 발현량 데이터를 획득하고, 입력부를 통해 쿼리로 입력된 특정 유전자가 계통학적 수형도에서 동일 도메인을 공유하는 유전자들에 포함됨에 따라, 특정 유전자와 계통학적 수형도 내의 유전자들 각각 간의 발현 패턴을 비교하여, 상관 관계를 결정하며, 특정 유전자에 대해 결정된 상관 관계를 기초로, 대상체의 유전자들 중 특정 유전자와 중복되는 기능을 갖는 타겟 유전자를 결정하고, 결정된 상관 관계에 관한 정보 및 타겟 유전자에 관한 정보를 표시하도록 디스플레이를 제어할 수 있다. A phylogenetic tree and gene expression level data are obtained based on the protein sequences of the genes of the subject, and as the specific gene entered as a query through the input unit is included in the genes sharing the same domain in the phylogenetic tree, The expression pattern between a specific gene and each of the genes in the phylogenetic tree is compared to determine the correlation, and based on the correlation determined for the specific gene, a target gene that has an overlapping function with a specific gene among the genes of the subject is selected. The display can be controlled to display information about the determined correlation and information about the target gene.

일 실시예에 따른 유전자 선별 방법은 유전체와 전사체에 대한 차세대 염기 서열분석 결과를 기초로, 유사한 기능을 갖는 유전자를 효과적으로 선별할 수 있으며, 선별 결과를 시각화하여 제공하는 UI(user interface)를 통해 유전자 선별에 있어 사용자들의 편의를 제공할 수 있다. 특히, 일 실시예에 따른 유전자 선별 기술은 대량으로 생산 및 축적되고 있는 작물 모델인 벼의 게놈 서열 정보와 전사체 정보를 활용하여 기능 중복성을 보다 정확하게 예측할 수 있고, 이를 통하여 유전자 편집을 위한 단일 혹은 다중 표적 유전자를 선정하고, 관련된 농업형질 연구를 획기적으로 촉진할 수 있다.The gene selection method according to one embodiment can effectively select genes with similar functions based on the results of next-generation sequencing of the genome and transcriptome, and provides a visualization of the selection results through a UI (user interface). It can provide convenience to users in genetic selection. In particular, the gene selection technology according to one embodiment can more accurately predict functional redundancy by utilizing the genome sequence information and transcriptome information of rice, a crop model that is produced and accumulated in large quantities, and through this, single or Multiple target genes can be selected and research on related agricultural traits can be dramatically promoted.

도 1은 일 실시예에 따른 유전자 선별 방법을 설명하기 위한 흐름도이다.
도 2는 일 실시예에 따른 유전자 선별 방법을 보다 구체적으로 설명하기 위한 흐름도이다.
도 3은 일 실시예에 따른 유전자 선별을 위해 제공되는 UI(300)를 설명하기 위한 도면이다.
도 4는 일 실시예에 따라 쿼리로 입력된 특정 유전자에 대해 유전자 선별 방법을 적용한 결과 획득한 계통학적 히트맵을 도시한 도면이다.
도 5는 일 실시예에 따른 유전자 선별 장치(500)를 설명하기 위한 블록도이다.
1 is a flowchart illustrating a gene selection method according to an embodiment.
Figure 2 is a flowchart to explain in more detail a gene selection method according to an embodiment.
FIG. 3 is a diagram illustrating a UI 300 provided for genetic selection according to an embodiment.
Figure 4 is a diagram showing a phylogenetic heatmap obtained as a result of applying a gene selection method to a specific gene entered as a query according to one embodiment.
Figure 5 is a block diagram for explaining a genetic selection device 500 according to an embodiment.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다. The terms used in this specification will be briefly explained, and the present invention will be described in detail.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 해당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다. The terms used in the present invention are general terms that are currently widely used as much as possible while considering the functions in the present invention, but this may vary depending on the intention or precedent of a technician working in the field, the emergence of new technology, etc. In addition, in certain cases, there are terms arbitrarily selected by the applicant, and in this case, the meaning will be described in detail in the description of the relevant invention. Therefore, the terms used in the present invention should be defined based on the meaning of the term and the overall content of the present invention, rather than simply the name of the term.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.When it is said that a part "includes" a certain element throughout the specification, this means that, unless specifically stated to the contrary, it does not exclude other elements but may further include other elements. In addition, terms such as "... unit" and "module" used in the specification refer to a unit that processes at least one function or operation, which may be implemented as hardware or software, or as a combination of hardware and software. .

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.Hereinafter, the present invention will be described in detail with reference to the attached drawings.

도 1은 일 실시예에 따른 유전자 선별 방법을 설명하기 위한 흐름도이다. 본 개시에 따른 유전자 선별 방법은 다양한 대상체에 적용될 수 있으나, 본 실시예에서는 벼를 대상체의 일 예로, 설명하도록 한다. 1 is a flowchart illustrating a gene selection method according to an embodiment. The gene selection method according to the present disclosure can be applied to various subjects, but in this embodiment, rice is used as an example of the subject.

단계 S110에서, 유전자 선별 장치는 대상체의 유전자들에 대한 단백질 서열을 기초로 계통학적 수형도 및 유전자의 발현량 데이터를 획득할 수 있다. In step S110, the gene selection device may obtain a phylogenetic tree and gene expression level data based on the protein sequences of the target's genes.

일 실시예에 따른 유전자 선별 장치는 Pfam 데이터베이스에서 제공하는 유전자군의 단백질 도메인 정보를 활용하여 게놈상에서 유사한 유전자가 있는지 판별한 후, 벼의 대표적인 유전체 서열정보인 Rice Genome Annotation Project의 MSU7 버전의 단백질 서열을 이용하여 계통학적 수형도를 작성할 수 있다. The gene selection device according to one embodiment uses the protein domain information of the gene group provided by the Pfam database to determine whether there is a similar gene in the genome, and then selects the protein sequence of the MSU7 version of the Rice Genome Annotation Project, which is representative genome sequence information of rice. You can create a phylogenetic tree using .

또한, 유전자 선별 장치는 벼의 조직들에 대한 전사체 서열분석 데이터를 MSU7 버전 벼 유전체에 정렬함으로써 각 조직별로 유전자의 발현량 정보를 생성할 수 있다. 유전자 선별 장치는 생성된 조직별 유전자의 발현량 정보를 정규화할 수 있다. Additionally, the genetic selection device By aligning transcriptome sequencing data for rice tissues with the MSU7 version of the rice genome, gene expression level information can be generated for each tissue. The gene selection device can normalize the expression level information of the generated genes for each tissue.

유전자 선별 장치는, 쿼리로 입력받은 벼 유전자에 맞게 계통학적 수형도와 정규화된 조직별 유전자의 발현량 정보를 조합할 수 있다. 일 실시예에 따른 유전자 선별 장치는 쿼리로 특정 유전자에 대한 식별 정보를 수신할 수 있다. 예를 들어, 유전자 선별 장치는 유전자 편집에 활용하고자 하는 벼 유전자에 대한 식별 정보로서 LOCUS ID를 획득할 수 있다. 이 때, LOCUS ID는 도 3에서 후술할 UI 상의 유전자 식별 정보 입력 항목 상에 사용자가 입력된 값을 기초로 획득될 수 있다. 다만, 이는 일 예일 뿐, 유전자 선별 장치가 쿼리로 특정 유전자에 대한 식별 정보를 수신하는 방법이 전술한 예에 한정되는 것은 아니다. The gene selection device can combine the phylogenetic tree and normalized gene expression level information for each tissue according to the rice gene input as a query. A genetic selection device according to one embodiment may receive identification information about a specific gene through a query. For example, a gene selection device can obtain a LOCUS ID as identification information for a rice gene to be used for gene editing. At this time, the LOCUS ID can be obtained based on the value entered by the user on the genetic identification information input item on the UI, which will be described later in FIG. 3. However, this is only an example, and the method by which the genetic selection device receives identification information about a specific gene through a query is not limited to the above-described example.

한편, 계통학적 수형도와 유전자의 발현량 정보의 조합에는 Python 언어와 ETE toolkit가 이용될 수 있다. Meanwhile, the Python language and ETE toolkit can be used to combine the phylogenetic tree and gene expression level information.

단계 S120에서, 유전자 선별 장치는 쿼리로 입력된 특정 유전자가 계통학적 수형도에서 동일 도메인을 공유하는 유전자들에 포함됨에 따라, 특정 유전자와 계통학적 수형도 내의 유전자들 각각 간의 발현 패턴을 비교하여 상관 관계를 결정할 수 있다. In step S120, the gene selection device determines a correlation by comparing the expression pattern between the specific gene and each of the genes in the phylogenetic tree, as the specific gene entered as a query is included in genes sharing the same domain in the phylogenetic tree. You can decide.

일 실시예에 따른 유전자 선별 장치는 계통학적 수형도를 기반으로 특정 유전자와 동일 도메인을 공유하는 유전자들 식별할 수 있다. 유전자 선별 장치는 식별된 유전자들 각각과 특정 유전자 간의 발현값의 패턴을 비교하여 상관 계수를 획득할 수 있다. 이 때, 상관 계수로는 PCC (Pearson Correlation Coefficient) 값이 이용될 수 있다. A gene selection device according to an embodiment can identify genes that share the same domain as a specific gene based on a phylogenetic tree. The gene selection device can obtain a correlation coefficient by comparing the pattern of expression values between each of the identified genes and a specific gene. At this time, the PCC (Pearson Correlation Coefficient) value may be used as the correlation coefficient.

단계 S130에서, 유전자 선별 장치는 특정 유전자에 대해 결정된 상관 관계를 기초로 대상체의 유전자들 중 타겟 유전자를 결정할 수 있다.In step S130, the gene selection device may determine a target gene among the genes of the subject based on the correlation determined for the specific gene.

유전자 선별 장치는 전술한 단계 S120에서 결정된 상관값들 중, 그 값이 임계값 이상인 적어도 하나의 유전자를 타겟 유전자로 결정할 수 있다. 이 때, 임계값은 쿼리로 특정 유전자가 입력되기 이전에 산출된, 다른 입력 유전자 각각에 대한 상관 관계에 대한 정보를 기초로 결정될 수 있다. 다만, 이는 일 예일 뿐, 다른 예에 따라, 임계값은 사용자 입력에 따라 결정될 수도 있다. The gene selection device may determine at least one gene whose value is greater than or equal to a threshold among the correlation values determined in step S120 described above as the target gene. At this time, the threshold may be determined based on information about the correlation for each of the other input genes, which is calculated before a specific gene is input as a query. However, this is only an example, and according to another example, the threshold may be determined according to user input.

단계 S140에서, 유전자 선별 장치는 결정된 타겟 유전자에 관한 정보를 제공할 수 있다. In step S140, the gene selection device may provide information regarding the determined target gene.

일 실시예에 따른 유전자 선별 장치는 타겟 유전자의 식별 정보 및 타겟 유전자와 쿼리로 입력된 특정 유전자 간의 상관값을 UI상에 표시할 수 있다. 또한, 유전자 선별 장치는 상관값이 임계 범위 내의 유전자들을 각각의 상관값과 함께 UI 상에 표시할 수도 있다. The gene selection device according to one embodiment may display identification information of the target gene and a correlation value between the target gene and a specific gene entered as a query on the UI. Additionally, the gene selection device may display genes whose correlation values are within a critical range on the UI along with their respective correlation values.

도 2는 일 실시예에 따른 유전자 선별 방법을 보다 구체적으로 설명하기 위한 흐름도이다. Figure 2 is a flowchart to explain in more detail a gene selection method according to an embodiment.

도 2를 참조하면, 일 실시예에 따라 유전자 선별을 위해 계통학적 데이터 처리 과정(210) 및 전사체 데이터 처리 과정(220)이 수행될 수 있다. 이하에서는 계통학적 데이터 처리 과정(210) 및 전사체 데이터 처리 과정(220)에 대해 구체적으로 설명하도록 한다. Referring to FIG. 2, according to one embodiment, a phylogenetic data processing process 210 and a transcriptome data processing process 220 may be performed for gene selection. Hereinafter, the phylogenetic data processing process 210 and the transcriptome data processing process 220 will be described in detail.

우선, 유전자 선별 장치는 대상체의 유전자 데이터로서, MSU7 버전의 유전자들에 대한 단백질 서열을 Pfam 데이터 베이스에서 획득할 수 있다. 유전자 선별 장치는 계통학적 데이터 처리 과정(210) 중 212 단계에서, 획득한 단백질 서열들 중 대표 단백질 서열들에 대해 재주석 달기(re-annotation)를 수행할 수 있다. 유전자 선별 장치는 재주석 달기를 수행한 이후, 214단계에서, 모든 Pfam 도메인들 각각에 대해 FASTA 파일을 생성할 수 있다. 유전자 선별 장치는 216단계에서, 생성된 FASTA 파일들의 복수의 서열들을 정렬하고, 218 단계에서, 정렬된 복수의 서열들을 기초로 계통학적 수형도를 획득할 수 있다. 일 예로, 유전자 선별 장치는 근사 최대 우도 트리 (approximate maximum likelihood tree)를 여러 번 부트스트래핑(bootstrapping)하여 계통학적 수형도를 획득할 수 있다. 예를 들어, MSU7 유전자 55801개에 대한 단백질서열에 대하여 근사 최대 우도 트리 (approximate maximum likelihood tree)를 생성하는 부트스트래핑을 100회 적용한 결과, PFAM 도메인기준으로 3965개의 계통학적 수형도를 획득할 수 있다. First, the genetic selection device is the subject's genetic data, and can obtain protein sequences for MSU7 version genes from the Pfam database. The genetic selection device may perform re-annotation on representative protein sequences among the obtained protein sequences in step 212 of the phylogenetic data processing process 210. After performing re-annotation, the gene selection device may generate a FASTA file for each of all Pfam domains in step 214. The genetic selection device may align a plurality of sequences of the generated FASTA files in step 216, and obtain a phylogenetic tree based on the plurality of aligned sequences in step 218. As an example, a genetic selection device may obtain a phylogenetic tree by bootstrapping an approximate maximum likelihood tree several times. For example, as a result of applying bootstrapping to generate an approximate maximum likelihood tree 100 times on the protein sequences of 55,801 MSU7 genes, 3,965 phylogenetic trees could be obtained based on the PFAM domain.

또한, 유전자 선별 장치는 전사체 데이터 처리 과정(220) 중 222 단계에서, MSU7 버전의 유전자들에 대한 조직별 RNA 서열 데이터를 통합할 수 있다. 유전자 선별 장치는 224 단계에서, 통합된 RNA 서열 데이터에 퀄리티 컨트롤을 수행하고, 이를 MSU7 벼 표준 게놈에 매핑할 수 있다. 226 단계에서, 유전자 선별 장치는 RNA 서열 데이터를 MSU7 벼 표준 게놈에 매핑한 결과로부터 발현값을 산출하고, 228 단계에서, 산출된 발현값을 정규화할 수 있다. Additionally, the gene selection device may integrate tissue-specific RNA sequence data for MSU7 version genes in step 222 of the transcriptome data processing process 220. In step 224, the genetic selection device can perform quality control on the integrated RNA sequence data and map it to the MSU7 rice standard genome. In step 226, the gene selection device may calculate an expression value from the result of mapping the RNA sequence data to the MSU7 rice standard genome, and in step 228, the calculated expression value may be normalized.

유전자 선별 장치는 계통학적 수형도와 정규화된 발현값을 조합하여, 쿼리로 입력받은 특정 유전자와 중복된 기능을 갖는 유전자를 선별하기 위한 리던던시 디지타이징 과정(redundancy digitizing process, 230)을 수행할 수 있다. 구체적으로, 유전자 선별 장치는 232 단계에서, 계통학적 데이터 처리 과정(210)에서 생성된 3965개의 계통학적 수형도에서 동일 도메인을 공유하는 유전자들로 구성된 계통학적 히트맵을 생성할 수 있다. 또한, 유전자 선별 장치는 234 단계에서, 생성된 히트맵에서 쿼리로 입력받은 특정 유전자 자체와 특정 유전자의 시스터 노드들을 선별할 수 있다. 236 단계에서, 유전자 선별 장치는 전체 시스터 노드들에 대한 PCC 값을 계산할 수 있다. The gene selection device can perform a redundancy digitizing process (230) by combining the phylogenetic tree and normalized expression values to select genes with overlapping functions with specific genes input as queries. Specifically, in step 232, the gene selection device may generate a phylogenetic heatmap composed of genes sharing the same domain from 3965 phylogenetic trees generated in the phylogenetic data processing process 210. Additionally, in step 234, the gene selection device may select the specific gene itself and the sister nodes of the specific gene input as a query from the generated heatmap. In step 236, the genetic selection device can calculate the PCC value for all sister nodes.

유전자 선별 장치는 시스터 노드들 각각에 대한 PCC 값들과 임계값을 비교하여, 쿼리로 입력받은 특정 유전자와 중복되는 기능을 갖는 유전자를 선별할 수 있다. 유전자 선별 장치는 시스터 노드들 각각에 대한 PCC 값들과 선별된 유전자들에 대한 정보를 UI 상에 표시할 수 있다. 이에 대해서는 도 3을 참조하여 보다 구체적으로 후술하도록 한다. The gene selection device can compare the PCC values and threshold values for each of the sister nodes to select genes that have overlapping functions with a specific gene input as a query. The gene selection device can display PCC values for each sister node and information about the selected genes on the UI. This will be described in more detail later with reference to FIG. 3.

일 실시예에 따른 유전자 선별 방법은 전술한 일련의 과정을 웹 도구를 통하여 사용자에게 제공할 수 있다. 또한, 유전자 선별 장치는 쿼리로 입력된 특정 유전자와 유사한 유전자 군이 없는 경우, 유전자 군이 있으나 독립적인 계통을 가진 경우, 유전자 군이 있고 같은 계통수에 속하나 독립적인 발현패턴을 가지고 있는 경우는 이를 단일 유전자 편집의 표적으로 결정하고, 유사한 유전자 군이 있으며 같은 계통수에서 유사한 발현패턴을 가지는 유전자에 대하여는 이들을 동시에 유전자 편집의 표적으로 결정할 수도 있다. 이를 통해 일 실시예에 따른 유전자 선별 방법은 기능의 유사성을 고려하지 않아 유전자를 선별하는데 어려움이 있었던 기존의 유전자 편집 연구와 달리, 작물의 표현형 획득을 용이하게 할 수 있다. The genetic selection method according to one embodiment can provide the above-described series of processes to users through a web tool. In addition, the gene selection device determines whether there is no gene group similar to a specific gene entered as a query, when there is a gene group but has an independent lineage, or when there is a gene group and it belongs to the same phylogenetic tree but has an independent expression pattern, it is classified into a single gene group. They may be determined as targets for gene editing, and for genes that exist in similar gene groups and have similar expression patterns in the same phylogenetic tree, these may be determined as targets for gene editing at the same time. Through this, the gene selection method according to one embodiment can facilitate the acquisition of crop phenotypes, unlike existing gene editing research that had difficulty selecting genes because it did not consider similarity of function.

도 3은 일 실시예에 따른 유전자 선별을 위해 제공되는 UI(300)를 설명하기 위한 도면이다. FIG. 3 is a diagram illustrating a UI 300 provided for genetic selection according to an embodiment.

일 실시예에 따른 유전자 선별을 위해 제공되는 UI (300)에는 계통학적 히트맵 또는 유전자 선별을 위한 데이터 셋을 제공하는 하이퍼링크 정보(310)가 제공될 수 있다. 또한, UI (300) 상에는 계통학적 히트맵을 해석할 수 있는 설명 정보(320)가 포함될 수 있으며, 예를 들어, 기능적 유사도를 나타내는 컬러 맵의 값에 관한 정보가 포함될 수 있다. The UI 300 provided for gene selection according to one embodiment may be provided with hyperlink information 310 providing a phylogenetic heatmap or a data set for gene selection. Additionally, the UI 300 may include explanatory information 320 for interpreting the phylogenetic heatmap, for example, information regarding the value of a color map indicating functional similarity.

또한, UI (300) 상에는 쿼리로 입력하고자 하는 유전자의 식별 정보를 입력할 수 있도록 검색 박스(330)가 표시될 수 있다. 사용자는 검색 박스(330)에 관심을 갖는 특정 유전자의 식별 정보를 입력하고, 제출 버튼을 클릭함으로써, 특정 유전자와 중복되는 기능을 갖는 유전자들의 선별을 요청할 수 있다. Additionally, a search box 330 may be displayed on the UI 300 so that identification information of a gene to be entered as a query can be entered. The user can request selection of genes with overlapping functions with the specific gene by entering identification information of a specific gene of interest in the search box 330 and clicking the submit button.

사용자의 유전자 선별 요청에 따라, UI (300) 상에는 전체 계통학적 히트맵이 제공되는 제 1 패널(340) 및 기능이 유사한 유전자들의 계통학적 히트맵이 제공되는 제 2 패널(350)이 표시될 수 있다. 계통학적 히트맵에서 쿼리로 입력된 특정 유전자와의 발현값의 유사도를 나타내는 PCC 값이 표시될 수 있으며, 유사도를 직관적으로 식별할 수 있도록 PCC 값을 특정 구간 별로 다른 색상을 이용하여 표시할 수 있다. Depending on the user's request for gene selection, the first panel 340, which provides an entire phylogenetic heatmap, and the second panel 350, which provides a phylogenetic heatmap of genes with similar functions, may be displayed on the UI 300. there is. In a phylogenetic heatmap, a PCC value indicating the similarity of the expression value with a specific gene entered as a query can be displayed, and the PCC value can be displayed in different colors for each specific section so that the similarity can be intuitively identified. .

도 4는 일 실시예에 따라 쿼리로 입력된 특정 유전자에 대해 유전자 선별 방법을 적용한 결과 획득한 계통학적 히트맵을 도시한 도면이다. Figure 4 is a diagram showing a phylogenetic heatmap obtained as a result of applying a gene selection method to a specific gene entered as a query according to one embodiment.

도 4를 참조하면, 유전자 선별 장치는 쿼리로 입력된 특정 유전자에 대해 유전자 선별을 수행한 결과, 유사한 유전자 군이 없는 경우 (no Pfam information), 유사한 유전자 군이 있으나 독립적인 발현패턴을 가진 경우 (functional dominant), 유사한 유전자 군이 있으나 독립적인 분화되는 경우(unique clade)의 유전자들을 단일 유전자 편집의 표적으로 결정할 수 있다. Referring to Figure 4, the gene selection device performs gene selection on a specific gene entered as a query. As a result, if there is no similar gene group (no Pfam information), if there is a similar gene group but has an independent expression pattern ( functional dominant), genes in a similar gene group but independently differentiated (unique clade) can be determined as targets for single gene editing.

또한, 유전자 선별 장치는 유사한 유전자 군이 존재하며, 동일한 계통수에서 유사한 발현패턴을 가지는 유전자들(functional redundant)을 모두 유전자 편집의 표적으로 결정할 수 있다. 이 때, 유사한 발현패턴을 가지는 유전자들을 결정하는 기준으로는 PCC 값이 이용되고, PCC 값이 1에 가까울수록 발현 특성이 유사한 것에 해당하고, 0에 가까울수록 발현 특성의 유사성이 없는 것에 해당한다. In addition, the gene selection device can determine that similar gene groups exist and that all genes (functional redundants) with similar expression patterns in the same phylogenetic tree are targets for gene editing. At this time, the PCC value is used as a standard for determining genes with similar expression patterns. A PCC value closer to 1 corresponds to similar expression characteristics, and a closer value to 0 corresponds to no similarity in expression characteristics.

한편, PCC 값과 기 설정된 임계값을 비교하여, 유전자 편집의 표적으로 결정할 것이지 여부를 판단할 수 있다. 예를 들어, 임계값이 0.7인 경우, 동일한 계통수에서 PCC 값이 0.7 이상인 유전자들은 기능적 중복성이 있는 것으로 판단하여 유전자 편집의 표적으로 결정될 수 있다. 이 때 임계값은 실험적으로 획득된 데이터에 기초하여 기 설정될 수 있다. 예를 들어, 임계값은 쿼리로 특정 유전자가 입력되기 이전에 산출된, 다른 입력 유전자 각각에 대한 상관 관계에 산출 결과를 기초로 결정될 수 있다. 다른 예에 따라, 임계값은 사용자 입력에 따라 결정될 수도 있다. Meanwhile, by comparing the PCC value and a preset threshold, it is possible to determine whether to determine whether to be a target for gene editing. For example, if the threshold is 0.7, genes with a PCC value of 0.7 or more in the same phylogenetic tree are judged to have functional redundancy and can be determined as targets for gene editing. At this time, the threshold may be preset based on experimentally acquired data. For example, the threshold may be determined based on the correlation results for each of the other input genes calculated before a specific gene is input as a query. According to another example, the threshold may be determined based on user input.

일 실시예에 따른 유전자 선별 방법은 웹 상에서 UI를 통해 사용자에게 제공됨으로써, 사용자는 클릭 몇 번으로, 사용자가 원하는 특정 유전자와 중복되는 기능을 갖는 유전자에 대한 정보를 용이하게 제공받을 수 있다. The gene selection method according to one embodiment is provided to the user through a UI on the web, so that the user can easily receive information about genes that have overlapping functions with a specific gene desired by the user with just a few clicks.

도 5는 일 실시예에 따른 유전자 선별 장치(500)를 설명하기 위한 블록도이다. Figure 5 is a block diagram for explaining a genetic selection device 500 according to an embodiment.

도 5를 참조하면, 유전자 선별 장치(500)는 입력부(510), 디스플레이(520), 프로세서(530) 및 메모리(540)를 포함할 수 있다. 상기 실시 예들에서 제안한 유전자 선별 방법에 따라, 프로세서(530)가 동작할 수 있다. 다만, 일 실시예에 따른 유전자 선별 장치(500)의 구성 요소가 전술한 예에 한정되는 것은 아니다. 다른 실시예에 따라, 유전자 선별 장치(500)는 전술한 구성 요소들 보다 더 많은 구성 요소를 포함하거나 더 적은 구성 요소를 포함할 수도 있다. Referring to FIG. 5 , the genetic selection device 500 may include an input unit 510, a display 520, a processor 530, and a memory 540. The processor 530 may operate according to the gene selection method proposed in the above embodiments. However, the components of the genetic selection device 500 according to one embodiment are not limited to the above-described examples. According to another embodiment, the genetic selection device 500 may include more or fewer components than the above-mentioned components.

입력부(510)는 쿼리로 입력되는 특정 유전자에 대한 정보를 획득할 수 있다. 입력부(510)는 예를 들어, 사용자가 특정 유전자에 관한 식별 정보를 입력하기 위한 입력 수단이 될 수 있다. 또한, 입력부(510)는 특정 유전자와 중복되는 기능을 갖는 유전자의 선별을 요청하기 위해, 웹 상에서 제공되는 UI의 각 기능들을 트리거링하는 사용자 입력을 수신할 수도 있다. The input unit 510 may obtain information about a specific gene input as a query. For example, the input unit 510 may be an input means for a user to input identification information about a specific gene. Additionally, the input unit 510 may receive a user input that triggers each function of the UI provided on the web in order to request selection of a gene having a function overlapping with a specific gene.

디스플레이(520)는 유전자 선별 기능을 실행하기 위한 UI를 표시할 수 있다. 예를 들어, 디스플레이 (520)에는 도 3을 참조하여 전술한 UI가 표시될 수 있다. 또한, 디스플레이(520)는 유전자 선별 결과로서, 특정 유전자와 중복되는 기능을 갖는 유전자가 존재하는지 여부 및 중복되는 기능을 갖는 유전자가 존재할 경우 이에 대한 식별 정보 및 상관 값을 표시할 수 있다. The display 520 may display a UI for executing a genetic selection function. For example, the UI described above with reference to FIG. 3 may be displayed on the display 520. Additionally, as a result of gene selection, the display 520 may display whether a gene with an overlapping function with a specific gene exists and, if a gene with an overlapping function exists, identification information and a correlation value for the gene.

프로세서(530)는 대상체의 유전자들에 대한 단백질 서열을 기초로 계통학적 수형도 및 유전자의 발현량 데이터를 획득할 수 있다. 예를 들어, 프로세서(530)는 대상체의 유전자의 대표 단백질 서열에 주석달기(annotation)를 수행하고, 주석 달기의 수행 결과를 기초로, Pfam 도메인에서 복수의 FASTA 파일을 생성할 수 있다. 프로세서(530)는 생성된 복수의 FASTA 파일의 서열 정렬을 통해 계통학적 수형도를 획득할 수 있다. The processor 530 may obtain a phylogenetic tree and gene expression level data based on the protein sequences of the genes of the subject. For example, the processor 530 may annotate a representative protein sequence of a gene of a subject and generate a plurality of FASTA files in the Pfam domain based on the annotation results. The processor 530 may obtain a phylogenetic tree through sequence alignment of the plurality of generated FASTA files.

또한, 프로세서(530)는 대상체의 조직들에 대한 전사체 서열 분석 데이터를 대상체의 유전체에 정렬함으로써, 조직별 유전자의 발현량 정보를 생성할 수 있다. 프로세서(530)는 생성된 조직별 유전자의 발현량 정보에 정규화를 수행하여, 유전자 발현값을 포함하는 유전자 데이터를 획득할 수 있다. Additionally, the processor 530 may generate expression level information of genes for each tissue by aligning the transcriptome sequence analysis data for the tissues of the object with the genome of the object. The processor 530 can obtain gene data including gene expression values by performing normalization on the generated expression level information of genes for each tissue.

프로세서(530)는 쿼리로 입력된 특정 유전자가 계통학적 수형도에서 동일 도메인을 공유하는 유전자들에 포함됨에 따라, 특정 유전자와 계통학적 수형도 내의 유전자들 각각 간의 발현 패턴을 비교하여, 상관 관계를 결정할 수 있다. As the specific gene entered as a query is included in the genes sharing the same domain in the phylogenetic tree, the processor 530 can determine a correlation by comparing the expression pattern between the specific gene and each of the genes in the phylogenetic tree. there is.

프로세서 (530)는 특정 유전자에 대해 결정된 상관 관계를 기초로, 대상체의 유전자들 중 타겟 유전자를 결정할 수 있다. 프로세서 (530)는 결정된 타겟 유전자에 관하 정보를 제공할 수 있다. The processor 530 may determine a target gene among the genes of the subject based on the correlation determined for the specific gene. Processor 530 may provide information regarding the determined target gene.

메모리(540)는 프로세서(530)가 특정 유전자와 중복된 기능을 갖는 타겟 유전자가 존재하는지 여부를 판단하는데 필요한 정보를 저장할 수 있다. 예를 들어, 메모리(540)는 대상체의 유전자들에 대한 단백질 서열을 기초로 획득된 계통학적 수형도 및 유전자의 발현량 데이터를 저장할 수 있다. The memory 540 may store information necessary for the processor 530 to determine whether a target gene having a function overlapping with a specific gene exists. For example, the memory 540 may store gene expression level data and a phylogenetic tree obtained based on protein sequences for genes of the subject.

본 발명에 따른 장치는 프로세서, 프로그램 데이터를 저장하고 실행하는 메모리, 디스크 드라이브와 같은 영구 저장부(permanent storage), 외부 장치와 통신하는 통신 포트, 터치 패널, 키(key), 버튼 등과 같은 사용자 인터페이스 장치 등을 포함할 수 있다. 소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 상기 프로세서상에서 실행 가능한 컴퓨터가 읽을 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체 상에 저장될 수 있다. 여기서 컴퓨터가 읽을 수 있는 기록 매체로 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다. The device according to the present invention includes a processor, memory for storing and executing program data, permanent storage such as a disk drive, a communication port for communicating with an external device, and a user interface such as a touch panel, keys, buttons, etc. It may include devices, etc. Methods implemented as software modules or algorithms may be stored on a computer-readable recording medium as computer-readable codes or program instructions executable on the processor. Here, computer-readable recording media include magnetic storage media (e.g., ROM (read-only memory), RAM (random-access memory), floppy disk, hard disk, etc.) and optical read media (e.g., CD-ROM). ), DVD (Digital Versatile Disc), etc. The computer-readable recording medium is distributed among networked computer systems, so that computer-readable code can be stored and executed in a distributed manner. The media may be readable by a computer, stored in memory, and executed by a processor.

본 발명에서 인용하는 공개 문헌, 특허 출원, 특허 등을 포함하는 모든 문헌들은 각 인용 문헌이 개별적으로 및 구체적으로 병합하여 나타내는 것 또는 본 발명에서 전체적으로 병합하여 나타낸 것과 동일하게 본 발명에 병합될 수 있다.All documents, including published documents, patent applications, patents, etc., cited in the present invention may be incorporated into the present invention in the same manner as if each cited document was individually and specifically incorporated or as if it were incorporated in the present invention as a whole. .

본 발명의 이해를 위하여, 도면에 도시된 바람직한 실시 예들에서 참조 부호를 기재하였으며, 본 발명의 실시 예들을 설명하기 위하여 특정 용어들을 사용하였으나, 특정 용어에 의해 본 발명이 한정되는 것은 아니며, 본 발명은 당업자에 있어서 통상적으로 생각할 수 있는 모든 구성 요소들을 포함할 수 있다. For understanding of the present invention, reference numerals are used in the preferred embodiments shown in the drawings, and specific terms are used to describe the embodiments of the present invention. However, the present invention is not limited by the specific terms, and the present invention May include all components commonly conceived by those skilled in the art.

본 발명은 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 발명은 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩업 테이블(look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 본 발명에의 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 본 발명은 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 발명은 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. "매커니즘", "요소", "수단", "구성"과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.The invention may be represented by functional block configurations and various processing steps. These functional blocks may be implemented in various numbers of hardware or/and software configurations that execute specific functions. For example, the present invention provides integrated circuit components, such as memory, processing, logic, look-up tables, etc., that can execute various functions under the control of one or more microprocessors or other control devices. can be hired. Similar to the fact that the components of the invention can be implemented as software programming or software elements, the invention also includes various algorithms implemented as combinations of data structures, processes, routines or other programming constructs, including C, C++, , may be implemented in a programming or scripting language such as Java, assembler, etc. Functional aspects may be implemented as algorithms running on one or more processors. Additionally, the present invention can employ conventional technologies for electronic environment settings, signal processing, and/or data processing. Terms such as “mechanism,” “element,” “means,” and “configuration” may be used broadly and are not limited to mechanical and physical configurations. The term may include the meaning of a series of software routines in connection with a processor, etc.

본 발명에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, "필수적인", "중요하게" 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.The specific implementations described in the present invention are examples and do not limit the scope of the present invention in any way. For the sake of brevity of the specification, descriptions of conventional electronic components, control systems, software, and other functional aspects of the systems may be omitted. In addition, the connections or connection members of lines between components shown in the drawings exemplify functional connections and/or physical or circuit connections, and in actual devices, various functional connections or physical connections may be replaced or added. Can be represented as connections, or circuit connections. Additionally, if there is no specific mention such as “essential,” “important,” etc., it may not be a necessary component for the application of the present invention.

본 발명의 명세서(특히 특허청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 마지막으로, 본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.In the specification (particularly in the claims) of the present invention, the use of the term “above” and similar referential terms may refer to both the singular and the plural. In addition, when a range is described in the present invention, it includes the invention to which individual values within the range are applied (unless there is a statement to the contrary), and each individual value constituting the range is described in the detailed description of the invention. It's the same. Finally, unless there is an explicit order or statement to the contrary regarding the steps constituting the method according to the invention, the steps may be performed in any suitable order. The present invention is not necessarily limited by the order of description of the above steps. The use of any examples or illustrative terms (e.g., etc.) in the present invention is merely to describe the present invention in detail, and unless limited by the claims, the scope of the present invention is limited by the examples or illustrative terms. It doesn't work. Additionally, those skilled in the art will recognize that various modifications, combinations and changes may be made depending on design conditions and factors within the scope of the appended claims or their equivalents.

Claims (13)

유전자 선별 방법에 있어서,
대상체의 유전자들에 대한 단백질 서열을 기초로 계통학적 수형도 및 유전자의 발현량 데이터를 획득하는 단계;
상기 계통학적 수형도에서 동일 도메인을 공유하는 유전자들로 구성된 계통학적 히트맵을 생성하는 단계;
쿼리로 입력된 특정 유전자 및 상기 특정 유전자의 시스터 노드들을 상기 계통학적 히트맵에서 선별하는 단계;
상기 획득된 발현량 데이터에 기반하여 상기 특정 유전자의 유전자 발현 패턴을, 상기 시스터 노드들 각각의 유전자 발현 패턴과 비교하여, 상기 시스터 노드들 각각의 PCC (Pearson Correlation Coefficient) 값을 결정하는 단계;
상기 특정 유전자에 대해 결정된, 상기 시스터 노드들 각각의 PCC 값을 기초로 상기 시스터 노드들 중 상기 특정 유전자와 중복되는 기능을 갖는 타겟 유전자를 결정하는 단계; 및
상기 결정된 타겟 유전자에 관한 정보를 제공하는 단계를 포함하고,
상기 획득하는 단계는,
상기 대상체의 유전자의 대표 단백질 서열에 주석달기(annotation)를 수행하는 단계;
상기 주석 달기의 수행 결과를 기초로, 모든 Pfam 도메인들 각각에 대해 복수의 FASTA 파일을 생성하는 단계; 및
상기 생성된 복수의 FASTA 파일의 서열 정렬을 통해 상기 계통학적 수형도를 획득하는 단계를 포함하고,
상기 시스터 노드들 중 상기 타겟 유전자로 결정되는 시스터 노드의 PCC 값은 임계값 이상인 것을 특징으로 하고,
상기 임계값은,
상기 쿼리로 특정 유전자가 입력되기 이전에, 실험적으로 획득된 데이터에 기초하여 미리 설정되는, 방법.
In the genetic selection method,
Obtaining a phylogenetic tree and gene expression level data based on the protein sequences of the genes of the subject;
generating a phylogenetic heatmap composed of genes sharing the same domain in the phylogenetic tree;
Selecting a specific gene entered as a query and sister nodes of the specific gene from the phylogenetic heatmap;
Comparing the gene expression pattern of the specific gene with the gene expression pattern of each of the sister nodes based on the obtained expression level data, and determining a Pearson Correlation Coefficient (PCC) value of each of the sister nodes;
determining a target gene having a function overlapping with the specific gene among the sister nodes based on the PCC value of each of the sister nodes determined for the specific gene; and
Comprising the step of providing information about the determined target gene,
The obtaining step is,
Annotating a representative protein sequence of a gene of the subject;
Generating a plurality of FASTA files for each of all Pfam domains based on the annotation results; and
Comprising the step of obtaining the phylogenetic tree through sequence alignment of the plurality of generated FASTA files,
Among the sister nodes, the PCC value of the sister node determined by the target gene is greater than or equal to a threshold value,
The threshold is,
A method that is preset based on experimentally acquired data before a specific gene is entered into the query.
삭제delete 제 1항에 있어서, 상기 획득하는 단계는,
상기 대상체의 조직들에 대한 전사체 서열 분석 데이터를 상기 대상체의 유전체에 정렬함으로써, 조직별 유전자의 발현량 정보를 생성하는 단계; 및
상기 생성된 조직별 유전자의 발현량 정보에 정규화를 수행하여, 유전자 발현값을 포함하는 상기 유전자의 발현량 데이터를 획득하는 단계를 포함하는, 방법.
The method of claim 1, wherein the obtaining step includes:
Aligning transcriptome sequence analysis data for tissues of the subject with the genome of the subject, thereby generating expression level information of genes for each tissue; and
A method comprising the step of performing normalization on the generated expression level information of genes for each tissue, and obtaining expression level data of the genes including gene expression values.
삭제delete 삭제delete 삭제delete 대상체의 유전자들에 대한 단백질 서열을 기초로 계통학적 수형도 및 유전자의 발현량 데이터를 획득하는 동작;
상기 계통학적 수형도에서 동일 도메인을 공유하는 유전자들로 구성된 계통학적 히트맵을 생성하는 동작;
쿼리로 입력된 특정 유전자 및 상기 특정 유전자의 시스터 노드들을 상기 계통학적 히트맵에서 선별하는 동작;
상기 획득된 발현량 데이터에 기반하여 상기 특정 유전자의 유전자 발현 패턴을, 상기 시스터 노드들 각각의 유전자 발현 패턴과 비교하여, 상기 시스터 노드들 각각의 PCC (Pearson Correlation Coefficient) 값을 결정하는 동작;
상기 특정 유전자에 대해 결정된, 상기 시스터 노드들 각각의 PCC 값을 기초로 상기 시스터 노드들 중 상기 특정 유전자와 중복되는 기능을 갖는 타겟 유전자를 결정하는 동작; 및
상기 결정된 타겟 유전자에 관한 정보를 제공하는 동작을 컴퓨터에서 실행하는 프로그램이 저장된 것을 특징으로 하고,
상기 획득하는 동작은,
상기 대상체의 유전자의 대표 단백질 서열에 주석달기(annotation)를 수행하는 동작;
상기 주석 달기의 수행 결과를 기초로, 모든 Pfam 도메인들 각각에 대해 복수의 FASTA 파일을 생성하는 동작; 및
상기 생성된 복수의 FASTA 파일의 서열 정렬을 통해 상기 계통학적 수형도를 획득하는 동작을 포함하고,
상기 시스터 노드들 중 상기 타겟 유전자로 결정되는 시스터 노드의 PCC 값은 임계값 이상인 것을 특징으로 하고,
상기 임계값은,
상기 쿼리로 특정 유전자가 입력되기 이전에, 실험적으로 획득된 데이터에 기초하여 미리 설정되는, 컴퓨터 판독가능 기록매체.
Obtaining a phylogenetic tree and gene expression level data based on the protein sequences of the genes of the subject;
An operation of generating a phylogenetic heatmap composed of genes sharing the same domain in the phylogenetic tree;
An operation of selecting a specific gene input as a query and sister nodes of the specific gene from the phylogenetic heatmap;
Comparing the gene expression pattern of the specific gene with the gene expression pattern of each of the sister nodes based on the obtained expression level data, and determining a Pearson Correlation Coefficient (PCC) value of each of the sister nodes;
An operation of determining a target gene having a function overlapping with the specific gene among the sister nodes based on the PCC value of each of the sister nodes determined for the specific gene; and
Characterized by storing a program that executes an operation on a computer to provide information about the determined target gene,
The acquisition operation is,
An operation of annotating a representative protein sequence of a gene of the subject;
An operation of generating a plurality of FASTA files for each of all Pfam domains based on the annotation result; and
Comprising an operation of obtaining the phylogenetic tree through sequence alignment of the plurality of generated FASTA files,
Among the sister nodes, the PCC value of the sister node determined by the target gene is greater than or equal to a threshold value,
The threshold is,
A computer-readable recording medium that is preset based on experimentally acquired data before a specific gene is input through the query.
삭제delete 제 7항에 있어서, 상기 획득하는 동작은,
상기 대상체의 조직들에 대한 전사체 서열 분석 데이터를 상기 대상체의 유전체에 정렬함으로써, 조직별 유전자의 발현량 정보를 생성하는 동작; 및
상기 생성된 조직별 유전자의 발현량 정보에 정규화를 수행하여, 유전자 발현값을 포함하는 상기 유전자의 발현량 데이터를 획득하는 동작을 포함하는, 컴퓨터 판독가능 기록매체.
The method of claim 7, wherein the acquiring operation includes:
An operation of generating expression level information of genes for each tissue by aligning transcriptome sequence analysis data for the tissues of the subject with the genome of the subject; and
A computer-readable recording medium comprising the operation of performing normalization on the generated expression level information of genes for each tissue, and obtaining expression level data of the genes including gene expression values.
삭제delete 삭제delete 삭제delete 삭제delete
KR1020200024171A 2020-02-27 2020-02-27 Method and apparatus for screening gene KR102676313B1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200024171A KR102676313B1 (en) 2020-02-27 Method and apparatus for screening gene
PCT/KR2021/001350 WO2021172780A1 (en) 2020-02-27 2021-02-02 Method and device for selecting gene
CN202180017891.XA CN115280419A (en) 2020-02-27 2021-02-02 Gene selection method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200024171A KR102676313B1 (en) 2020-02-27 Method and apparatus for screening gene

Publications (2)

Publication Number Publication Date
KR20210109207A KR20210109207A (en) 2021-09-06
KR102676313B1 true KR102676313B1 (en) 2024-06-17

Family

ID=

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
F. Mao 외, "pDAWG: An Integrated Database for Plant Cell Wall Genes", BioEnergy Research, 2:209-216. (2009.10.13.)*
J. Huerta-Cepas 외, "eggNOG 4.5: a hierarchical orthology framework with improved functional annotations (후략)", Nucleic Acids Research, 44(D1):D286-D293. (2015.11.17.)
M. Das 외, "Expression Pattern Similarities Support the Prediction of Orthologs Retaining Common Functions after Gene Duplication Events", Plant Physiology, 171(4):2343-2357. (2016.06.14.)
R. V. Patel 외, "BAR expressolog identification: expression profile similarity ranking of homologous genes in plant species", The Plant Journal, 71(6):1038-1050. (2012.05.19.)*
S. Berri 외, "Characterization of WRKY co-regulatory networks in rice and Arabidopsis", BMC Plant Biology, 9:120. (2009.09.22.)*

Similar Documents

Publication Publication Date Title
Steenwyk et al. ClipKIT: a multiple sequence alignment trimming software for accurate phylogenomic inference
Bağcı et al. DIAMOND+ MEGAN: fast and easy taxonomic and functional analysis of short and long microbiome sequences
Seppey et al. BUSCO: assessing genome assembly and annotation completeness
Uberbacher et al. [16] Discovering and understanding genes in human DNA sequence using GRAIL
Kwon et al. oPOSSUM-3: advanced analysis of regulatory motif over-representation across genes or ChIP-Seq datasets
Moore et al. Online period estimation and determination of rhythmicity in circadian data, using the BioDare data infrastructure
Dumbrell et al. Microbial community analysis by single-amplicon high-throughput next generation sequencing: data analysis–from raw output to ecology
Arendsee et al. phylostratr: A framework for phylostratigraphy
JP2007052766A (en) Pathway display method, information processing device, and pathway display program
KR102345994B1 (en) Method and apparatus for screening gene related with disease in next generation sequence analysis
Rubel et al. Integrating data clustering and visualization for the analysis of 3d gene expression data
Fierro et al. Meta analysis of gene expression data within and across species
KR102676313B1 (en) Method and apparatus for screening gene
JP2007011996A (en) Analysis method for expression information and system therefor
JP3532911B2 (en) Gene data display method and recording medium
JP5469882B2 (en) Species identification method and system
Liao et al. EAT-Rice: A predictive model for flanking gene expression of T-DNA insertion activation-tagged rice mutants by machine learning approaches
US7315785B1 (en) Method and system for displaying dendrogram
KR20210109207A (en) Method and apparatus for screening gene
Schon et al. Bookend: precise transcript reconstruction with end-guided assembly
KR20150076293A (en) Method and apparatus for annotating variation informaton
Staut et al. MINI-EX version 2: cell-type-specific gene regulatory network inference using an integrative single-cell transcriptomics approach
JP6623040B2 (en) Butt processing device, butt processing method and butt processing program
US20240112756A1 (en) Method for analyzing genetic elements and surroundings
EP4022646A1 (en) A prioritization and scoring method