KR20230039167A - Discovery method for therapeutic target gene based on membrane protein and analysis apparatus - Google Patents

Discovery method for therapeutic target gene based on membrane protein and analysis apparatus Download PDF

Info

Publication number
KR20230039167A
KR20230039167A KR1020210122136A KR20210122136A KR20230039167A KR 20230039167 A KR20230039167 A KR 20230039167A KR 1020210122136 A KR1020210122136 A KR 1020210122136A KR 20210122136 A KR20210122136 A KR 20210122136A KR 20230039167 A KR20230039167 A KR 20230039167A
Authority
KR
South Korea
Prior art keywords
gene
coverage
tumor
genes
final
Prior art date
Application number
KR1020210122136A
Other languages
Korean (ko)
Inventor
최정균
안도현
기창석
조은해
Original Assignee
한국과학기술원
주식회사 지씨지놈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원, 주식회사 지씨지놈 filed Critical 한국과학기술원
Priority to KR1020210122136A priority Critical patent/KR20230039167A/en
Priority to PCT/KR2022/012873 priority patent/WO2023043086A1/en
Publication of KR20230039167A publication Critical patent/KR20230039167A/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Biochemistry (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

The method for discovering a therapeutic target gene by using membrane protein information comprises steps in which an analysis apparatus: receives information about tumor cell-specific membrane protein encoding genes for target tumors, and dependent genes of the tumor cells; obtains genomic data analysis information about a sample; generates combination gene sets that can be formed from the membrane protein genes and the dependent genes; identifies candidate combination gene sets expressed in tumor cells of the sample from among the combination gene sets; and discovers a final therapeutic target gene from among candidate combination gene sets on the basis of normal cell coverage and tumor cell coverage for each of the candidate combination gene sets. Therefore, an effective therapeutic target gene may be discovered.

Description

막 단백질 정보를 이용한 치료 타깃 유전자 발굴 방법 및 분석장치{DISCOVERY METHOD FOR THERAPEUTIC TARGET GENE BASED ON MEMBRANE PROTEIN AND ANALYSIS APPARATUS}Method and analysis device for discovering therapeutic target gene using membrane protein information

이하 설명하는 기술은 종양 치료를 위한 타깃 유전자를 발굴하는 기법에 관한 것이다.The technique described below relates to a technique for discovering a target gene for tumor treatment.

종양 의존성(cancer dependency)은 종양세포 증식과 생존에 필수적인 특정 유전자에 종양세포들이 의존하는 현상 혹은 이 개념에 해당하는 유전자 자체를 의미한다. 종양 의존성 유전자는 그 발현이 억제되면 종양조직의 성장은 저하되고 결과적으로 종양세포의 사멸을 유도할 수 있다. 따라서, 종양 의존성 유전자는 종양 치료를 위한 치료 타깃으로 사용될 수 있다.Tumor dependency refers to a phenomenon in which tumor cells depend on a specific gene essential for tumor cell proliferation and survival, or a gene corresponding to this concept. When the expression of a tumor-dependent gene is suppressed, the growth of tumor tissue is reduced, and as a result, the death of tumor cells can be induced. Thus, tumor-dependent genes can be used as therapeutic targets for tumor treatment.

한국공개특허 제10-2018-0092395호Korean Patent Publication No. 10-2018-0092395

종양 치료를 위한 치료 타깃 유전자 발굴에서 중요한 이슈는 종양 세포만을 표적으로 해야 한다는 것이다. 치로 타깃이 정상 세포까지 영향을 주는 경우 치료 행위 자체가 환자에게 큰 부작용을 유발할 수 있기 때문이다.An important issue in discovering therapeutic target genes for tumor treatment is that only tumor cells should be targeted. This is because if the chiro target affects normal cells, the treatment itself can cause great side effects to the patient.

이하 설명하는 기술은 막 단백질 정보를 이용하여 종양 세포에 대한 효과적인 치료 타깃 유전자를 발굴하는 기법을 제공하고자 한다.The technology described below aims to provide a technique for discovering effective therapeutic target genes for tumor cells using membrane protein information.

막 단백질 정보를 이용한 치료 타깃 유전자 발굴 방법은 분석장치가 타깃 종양에 대한 종양 세포의 특이적 막 단백질 코딩 유전자들 및 상기 종양 세포의 의존성 유전자들에 대한 정보를 입력받는 단계, 상기 분석장치가 샘플의 유전체 데이터 분석 정보를 획득하는 단계, 상기 분석장치가 상기 막 단백질 유전자들 및 상기 의존성 유전자들이 구성가능한 조합 유전자 세트들을 생성하는 단계, 상기 분석장치가 상기 조합 유전자 세트들 중 상기 샘플의 종양 세포에서 발현하는 후보 조합 유전자 세트들을 식별하는 단계 및 상기 분석장치가 상기 후보 조합 유전자 세트들 각각에 대한 정상 세포 커버리지 및 종양 세포 커버리지를 기준으로 후보 조합 유전자 세트들 중 최종 치료 타깃 유전자를 발굴하는 단계를 포함한다.A method of discovering a target gene for treatment using membrane protein information includes the step of receiving, by an analysis device, information on specific membrane protein-encoding genes of tumor cells for a target tumor and dependent genes of the tumor cells; Acquiring genome data analysis information, generating, by the analysis device, combinatorial gene sets in which the membrane protein genes and the dependent genes are configurable, the analysis device expressing expression in the tumor cells of the sample among the combinatorial gene sets identifying candidate combinatorial gene sets, and the analysis device discovering a final therapeutic target gene from among the candidate combinatorial gene sets based on normal cell coverage and tumor cell coverage for each of the candidate combinatorial gene sets. .

치료 타깃 유전자 발굴하는 분석 장치는 샘플의 유전체 데이터를 입력받는 입력장치, 타깃 종양에 대한 종양 세포의 특이적 막 단백질 코딩 유전자들 및 상기 종양 세포의 의존성 유전자들에 대한 정보를 저장하는 저장장치 및 상기 유전체 데이터를 처리하여 상기 샘플에 대한 세포의 유형 정보 및 세포별 유전자 발현 정보를 생성하고, 상기 막 단백질 유전자들 및 상기 의존성 유전자들이 구성가능한 조합 유전자 세트들을 생성하고, 상기 조합 유전자 세트들 중 상기 샘플의 종양 세포에서 발현하는 후보 조합 유전자 세트들을 식별하고, 상기 후보 조합 유전자 세트들 중 정상 세포 커버리지 및 종양 세포 커버리지를 기준으로 최종 치료 타깃 유전자를 발굴하는 연산장치를 포함한다. An analysis device for discovering a target gene for treatment includes an input device for receiving genomic data of a sample, a storage device for storing information on specific membrane protein-encoding genes of tumor cells for a target tumor and dependent genes of the tumor cells, and the above Genome data is processed to generate cell type information and cell-specific gene expression information for the sample, combinatorial gene sets in which the membrane protein genes and the dependent genes are configurable are generated, and among the combined gene sets, the sample and an arithmetic unit for identifying candidate combinatorial gene sets expressed in tumor cells of the candidate combinatorial gene set and discovering a final treatment target gene based on normal cell coverage and tumor cell coverage among the candidate combinatorial gene sets.

이하 설명하는 기술은 종양 세포 특이적인 막 단백질 정보를 이용하여 정상 세포에 대한 영향을 최소화하면서 종양 세포를 타깃할 수 있는 효과적인 타깃 유전자를 발굴할 수 있다.The technology described below can discover an effective target gene capable of targeting tumor cells while minimizing the effect on normal cells by using tumor cell-specific membrane protein information.

도 1은 유전자의 발현량과 종양 세포의 의존성의 상관관계 분석 결과이다.
도 2는 종양 세포에서 유전자들의 발현 이질성과 의존성의 상관관계를 나타내는 그래프이다.
도 3은 mpEAD 유전자 조합 후보에 대한 유전자 의존성 정도를 나타내는 그래프의 예이다.
도 4는 TM4SF4_KRT8 유전자 조합에 대한 세포 유형별 커버리지를 나타낸 결과이다.
도 5는 최종 후보로 선별한 mpEAD 조합 유전자들에 대한 세포 유형별 커버리지를 나타낸 결과이다.
도 6은 간암에 대하여 ASGR1을 막 단백질로 가지고 있으면서 KRT8 또는 ATP5MC1을 발현하는 세포에 대한 커버리지를 나타내는 결과이다.
도 7은 췌장암에 대하여 MSLN을 막 단백질로 가지고 있으면서 KLF5 또는 ERBB3을 발현하는 세포에 대한 커버리지를 나타내는 결과이다.
도 8은 치료 타깃 유전자를 발굴하는 시스템에 대한 예이다.
도 9는 치료 타깃 유전자를 찾는 과정에 대한 예이다.
도 10은 치료 타깃 유전자를 발굴하는 분석 장치에 대한 예이다.
1 is a result of correlation analysis between the expression level of a gene and the dependence of tumor cells.
2 is a graph showing the correlation between expression heterogeneity and dependence of genes in tumor cells.
3 is an example of a graph showing the degree of gene dependence for mpEAD gene combination candidates.
4 is a result showing the coverage by cell type for the TM4SF4_KRT8 gene combination.
5 is a result showing coverage by cell type for mpEAD combinatorial genes selected as final candidates.
6 is a result showing the coverage of cells expressing KRT8 or ATP5MC1 while having ASGR1 as a membrane protein for liver cancer.
7 is a result showing coverage of cells expressing KLF5 or ERBB3 while having MSLN as a membrane protein for pancreatic cancer.
8 is an example of a system for discovering a target gene for treatment.
9 is an example of a process of finding a target gene for treatment.
10 is an example of an analysis device for discovering a target gene for treatment.

이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.Since the technology to be described below can have various changes and various embodiments, specific embodiments will be illustrated in the drawings and described in detail. However, this is not intended to limit the technology described below to specific embodiments, and it should be understood to include all modifications, equivalents, or substitutes included in the spirit and scope of the technology described below.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.Terms such as first, second, A, B, etc. may be used to describe various elements, but the elements are not limited by the above terms, and are merely used to distinguish one element from another. used only as For example, without departing from the scope of the technology described below, a first element may be referred to as a second element, and similarly, the second element may be referred to as a first element. The terms and/or include any combination of a plurality of related recited items or any of a plurality of related recited items.

본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설명된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.In terms used in this specification, singular expressions should be understood to include plural expressions unless clearly interpreted differently in context, and terms such as “comprising” refer to the described features, numbers, steps, operations, and components. , parts or combinations thereof, but it should be understood that it does not exclude the possibility of the presence or addition of one or more other features or numbers, step-action components, parts or combinations thereof.

도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.Prior to a detailed description of the drawings, it is to be clarified that the classification of components in the present specification is merely a classification for each main function in charge of each component. That is, two or more components to be described below may be combined into one component, or one component may be divided into two or more for each more subdivided function. In addition, each component to be described below may additionally perform some or all of the functions of other components in addition to its main function, and some of the main functions of each component may be performed by other components. Of course, it may be dedicated and performed by .

또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.In addition, in performing a method or method of operation, each process constituting the method may occur in a different order from the specified order unless a specific order is clearly described in context. That is, each process may occur in the same order as specified, may be performed substantially simultaneously, or may be performed in the reverse order.

이하 설명하는 기술은 샘플(조직)의 세포에서의 유전자 발현 데이터를 기준으로 종양 치료의 타깃 유전자를 선별하는 기법이다. 먼저, 연구자가 사용한 데이터 및 타깃 유전자를 선별하는 과정에 대하여 설명한다.The technique described below is a technique for selecting a target gene for tumor treatment based on gene expression data in cells of a sample (tissue). First, the data used by the researcher and the process of selecting the target gene will be described.

디맵 포탈(depmap portal)은 MIT의 Broad Institute 및 하버드(Harvard)에서 체계적으로 유전학 및 약리학적 종양 의존성을 확인하기 위해 만든 데이터베이스이다. 디맵 포탈은 다양한 종양 세포 라인들에 대한 기능 손실 스크린(loss-of-function screens)을 진행한 대규모 실험 데이터를 포함한다. 연구자는 이 실험 데이터 중 789개의 종양 세포 라인들에 대한 기능 손실 스크린 데이터를 사용하였다. 이 데이터는 간, 췌장, 대장 및 폐 등 28개의 다양한 종양에서 유래된 종양 세포 라인들을 포함하고 있다.The depmap portal is a database created by MIT's Broad Institute and Harvard to systematically identify genetic and pharmacological tumor dependencies. The Dmap portal contains large-scale experimental data from loss-of-function screens for various tumor cell lines. The investigators used loss-of-function screen data for 789 tumor cell lines in this experimental data. The data included tumor cell lines derived from 28 different tumors, including liver, pancreas, colon and lung.

연구자는 디맵 포탈에서 가져온 데이터에 포함된 18,121개의 유전자를 대상으로 발현량과 의존성의 상관관계를 분석하였다. 도 1은 유전자의 발현량과 종양 세포의 의존성의 상관관계 분석 결과이다. 도 1의 그래프에서 가로축은 상관관계 R값이고, 세로축은 p값의 로그 형태 값이다. 1,234개의 유전자(p<0.05)가 통계적으로 유의미하게 발현량이 높아질수록 의존성 값의 음의 절댓값이 커지는 음의 상관관계를 보였다. 의존성 값의 음의 절댓값이 커질수록 해당 유전자가 종양 세포의 증식에 중요하다는 것을 의미한다.The researcher analyzed the correlation between expression level and dependence for 18,121 genes included in the data imported from the Dmap portal. 1 is a result of correlation analysis between the expression level of a gene and the dependence of tumor cells. In the graph of FIG. 1, the horizontal axis is the correlation R value, and the vertical axis is the logarithmic value of the p value. 1,234 genes (p<0.05) showed a statistically significant negative correlation in which the absolute value of the dependence value increased as the expression level increased. The larger the negative absolute value of the dependence value, the more important the corresponding gene is for the proliferation of tumor cells.

연구자는 이와 같이 발현량이 높아짐에 따라 해당 유전자에 종양세포가 더욱 의존하는 정도가 커지는 유전자들 중 통계적으로 유의미한 1,234개의 유전자를 EAD(Expression-Associated Dependency) 유전자라고 명명하였다. 이와 같은 연구 결과 가장 강한 음의 상관관계를 보이는 유전자는 KLF5 유전자였다.The researcher named 1,234 statistically significant genes as EAD (Expression-Associated Dependency) genes among the genes for which the degree of dependence of tumor cells on the gene increases as the expression level increases. As a result of this study, the gene showing the strongest negative correlation was the KLF5 gene.

발현 이질성(expression heterogeneity)은 유전자의 발현 값이 여러 세포에 걸쳐 얼마나 균일하게 발현하는 가를 수치화한 값이다. 발현 이질성은 수치가 낮을수록 많은 세포들이 해당 유전자를 비슷한 정도로 발현하는 것을 의미한다.Expression heterogeneity is a value that quantifies how uniformly the expression value of a gene is expressed across multiple cells. Expression heterogeneity means that the lower the number, the more cells express the corresponding gene to a similar degree.

도 2는 종양 세포에서 유전자들의 발현 이질성과 의존성의 상관관계를 나타내는 그래프이다. 도 2에서 가로축은 발현 이질성의 값이고, 세로축은 의존성(fitness effect)의 값이다. 도 2(A)는 간암의 단일 세포 RNA 시퀀싱 데이터와 유전자 의존성 데이터를 이용하여 15,000여 개의 유전자를 대상으로 유전자들의 발현 이질성과 의존성의 상관관계를 나타낸 결과이다. 도 2(B)는 췌장암의 단일 세포 RNA 시퀀싱 데이터와 유전자 의존성 데이터를 이용하여 15,000여 개의 유전자를 대상으로 유전자들의 발현 이질성과 의존성의 상관관계를 나타낸 결과이다. 도 2에서 하나의 점은 하나의 유전자를 나타내며, 유전자의 발현 이질성이 낮을수록 종속성의 정도가 올라가는 양상을 보인다. 이는 종양조직이 특정 유전자에 의존하는 정도가 커질수록 많은 종양세포들이 해당 유전자를 균일하게 발현하는 것으로 해석할 수 있다.2 is a graph showing the correlation between expression heterogeneity and dependence of genes in tumor cells. In FIG. 2, the horizontal axis is the value of expression heterogeneity, and the vertical axis is the value of the fitness effect. 2(A) shows the correlation between expression heterogeneity and dependence of genes targeting 15,000 genes using single cell RNA sequencing data and gene dependence data of liver cancer. 2(B) shows the correlation between expression heterogeneity and dependence of genes targeting 15,000 genes using single cell RNA sequencing data and gene dependence data of pancreatic cancer. In FIG. 2, one dot represents one gene, and the degree of dependency increases as the expression heterogeneity of the gene decreases. This can be interpreted as the fact that as the degree of dependence of tumor tissue on a specific gene increases, many tumor cells uniformly express the corresponding gene.

발현 이질성 분석과 EAD 개념을 합해보면, 종양조직 전체에서 높게 발현하고 있는 EAD 유전자는 종양조직이 해당 유전자에 의존하는 정도 역시 비례하여 높아진다. 이와 같이 종양조직에 대해 의존성이 큰 유전자의 경우, 발현 이질성은 낮고 종양조직에 포함된 여러 종양 세포들이 균일하게 해당 유전자를 발현하는 경향성을 가진다. 따라서 특정 종양조직 혹은 종양 세포 라인이 EAD 유전자들을 높게 발현하고 있다면, 종양 세포들이 해당 유전자에 크게 의존하면서 증식함과 동시에 해당 유전자를 높고 균일하게 발현하는 상황을 기대할 수 있다. 유전차 치료 관점에서 볼 때 종양조직이 높게 발현하고 있는 EAD 유전자는 감소 조절(down regulation) 대상의 치료 타깃으로 삼을 수 있다. 해당 EAD 유전자는 대부분의 종양 세포들에서 높고 균일하게 발현하고 있을 확률이 크기 때문에 해당 유전자에 대한 감소 조절은 종양 조직의 증식을 억제하거나 사멸을 유도할 수 있을 것이다. 이하 종양 치료를 위하여 조절 대상이 되는 EAD 유전자를 치료 타깃 유전자(therapeutic target genes) 또는 타깃 EAD 유전자라고 명명한다.Combining expression heterogeneity analysis and the EAD concept, EAD genes that are highly expressed in the entire tumor tissue also increase in proportion to the degree to which the tumor tissue depends on the corresponding gene. As such, in the case of a gene highly dependent on tumor tissue, expression heterogeneity is low, and various tumor cells included in tumor tissue tend to express the corresponding gene uniformly. Therefore, if a specific tumor tissue or tumor cell line highly expresses EAD genes, a situation in which the tumor cells proliferate highly dependent on the corresponding gene and at the same time express the corresponding gene highly and uniformly can be expected. From the perspective of genetic difference treatment, the EAD gene, which is highly expressed in tumor tissue, can be targeted for down regulation. Since the corresponding EAD gene is highly likely to be highly and uniformly expressed in most tumor cells, downregulation of the corresponding gene may inhibit tumor tissue proliferation or induce apoptosis. Hereinafter, EAD genes to be regulated for tumor treatment are referred to as therapeutic target genes or target EAD genes.

연구자는 위 개념에 따라 관심 있는 종양조직이 높게 발현하고 있는 EAD 유전자들을 찾고자 하였다. 이를 위해 연구자는 공개된 단일 세포 RNA 서열(scRNA-seq) 데이터 세트를 사용하였다. 해당 데이터 세트는 간암과 췌장암에 대해 각각 15명과 16명의 환자 정보로 구성된다. 해당 데이터 세트는 간암과 췌장암에 대하여 각각 일정한 필터링 기준을 통과한 34,723개, 33,583개의 단일 세포에 대한 유전자 발현 정보를 포함한다.According to the above concept, the researcher tried to find EAD genes highly expressed in the tumor tissue of interest. To this end, the researchers used a published single cell RNA sequence (scRNA-seq) data set. The dataset consists of information from 15 and 16 patients, respectively, for liver cancer and pancreatic cancer. The data set includes gene expression information for 34,723 and 33,583 single cells that passed certain filtering criteria for liver cancer and pancreatic cancer, respectively.

scRNA-seq 데이터는 정상 세포들(non-malignant cells)을 제외하고 순수한 악성 세포들(malignant cells)을 대상으로만 타깃 EAD 유전자를 찾을 수 있다. 또한 scRNA-seq 데이터는 세포 타입별로 얼마나 많은 비율의 세포들이 해당 EAD 타깃을 발현하였는지 정량적으로 확인할 수 있다는 장점이 있다.scRNA-seq data can find target EAD genes only for pure malignant cells, excluding normal cells (non-malignant cells). In addition, scRNA-seq data has the advantage of being able to quantitatively confirm how many cells by cell type expressed the corresponding EAD target.

연구자는 먼저 FASTQ 형태의 scRNA-seq 로 데이터를 가공하여 카운트 매트릭스(count matrix)를 만든 후, 유전자 발현 프로파일을 이용하여 품질 관리(quality control), 클러스터링 분석(clustering analysis), 세포 유형 주석(cell type annotation) 및 이수성 예측(aneuploid prediction)을 순서대로 진행하였다.Researchers first process data with scRNA-seq in the form of FASTQ to create a count matrix, and then use gene expression profiles to perform quality control, clustering analysis, and cell type annotation. annotation) and aneuploid prediction were performed in order.

연구자는 이러한 절차를 통해 종양 조직에서 상피 세포(epithelial cells)로 주석된 세포들 중 이수성 세포들만 선별할 수 있었고, 이 세포들을 악성 세포(malignant cells)라고 분류하였다. 그 외의 세포들은 정상 세포라고 분류하였다.Through this procedure, the researcher was able to select only aneuploid cells among the cells annotated as epithelial cells in the tumor tissue, and classified these cells as malignant cells. Other cells were classified as normal cells.

두 분류의 세포 그룹에서 특정 EAD 유전자를 발현하는 세포의 비율은 카운트 매트릭스를 통해 계산할 수 있다. 연구자가 찾고자 목표하는 EAD 유전자는 정상 세포는 적게 타깃하면서 악성 세포를 많이 타깃할 수 있는 유전자이다. 그룹별 발현 비율(coverage)을 기준으로 목표하는 EAD 유전자를 선별할 수 있다.The proportion of cells expressing a specific EAD gene in the two cell groups can be calculated through a count matrix. The EAD gene that researchers are looking for is a gene that can target many malignant cells while targeting few normal cells. A target EAD gene can be selected based on the coverage of each group.

그러나, 이와 같은 방식을 통해 문제는 위와 같은 방식을 통해 치료 타깃 유전자를 찾을 경우, 종양 커버리지뿐만 아니라 정상 세포 커버리지도 동시에 높은 타깃 유전자가 다수 발생할 수 있다. 즉, 해당 타깃 유전자에 대한 조절은 종양 세포뿐만 아니라 정상 세포에도 영향을 주어 원하지 않는 부작용을 가져올 수 있다. 이와 같은 작용을 오프-종양 효과(off-tumor effect)라고 한다.However, the problem with this method is that when a treatment target gene is found through the above method, a large number of target genes with high normal cell coverage as well as tumor coverage may occur. That is, regulation of the target gene may affect not only tumor cells but also normal cells, resulting in unwanted side effects. This action is called the off-tumor effect.

연구자는 정상 커버리지를 획기적으로 낮추면서도 높은 종양 커버리지를 유지하는 타깃 EAD 유전자를 찾기 위하여 막 단백질(membrane protein)과 EAD를 조합하여 치료 타깃 유전자를 검출하였다. In order to find a target EAD gene that dramatically lowers normal coverage while maintaining high tumor coverage, the researcher detected a target gene for treatment by combining membrane protein and EAD.

이하 설명하는 과정은 컴퓨터 장치를 사용한 in silico 과정에 해당한다. 물론, in vitro 실험 과정으로 획득한 데이터 세트를 이용하여 동일한 과정으로 타깃 EAD 유전자를 도출할 수도 있다. The process described below corresponds to an in silico process using a computer device. Of course, the target EAD gene may be derived in the same process using a data set obtained through an in vitro experiment process.

연구자는 종양 세포에 특이적으로 발현하는 막 단백질을 기준으로 정상 세포를 필터링하여 제거하고, 남은 종양 세포에서 EAD 유전자를 찾는 방식을 사용하였다. 이 과정은 순차적으로 진행될 수도 있고, 동시에 진행될 수도 있다.The researcher used a method of filtering out normal cells based on membrane proteins specifically expressed in tumor cells and searching for the EAD gene in the remaining tumor cells. This process may be performed sequentially or concurrently.

연구자는 앞서 언급한 1,234개의 EAD 유전자들에 2,802개의 막 단백질(surfaceome) 유전자를 조합하여 mpEAD 조합 유전자 목록을 만들었다. 연구자는 이 중에서 종양 커버리지가 60% 이상으로 높으면서 정상 커버리지는 10% 이하로 낮은 최적의 mpEAD 조합 유전자들을 간암 및 췌장암에 대하여 각각 81개, 627개 선별하였다. 아래 표 1은 간암에 대한 mpEAD 조합 유전자들 중 일부의 예이고, 아래 표 2는 췌장암에 대한 mpEAD 조합 유전자들 중 일부의 예이다.The researcher combined the 1,234 EAD genes mentioned above with 2,802 surfaceome genes to create a mpEAD combination gene list. Among them, the researcher selected 81 and 627 optimal mpEAD combination genes for liver cancer and pancreatic cancer, respectively, with tumor coverage as high as 60% and normal coverage as low as 10% or less. Table 1 below shows some examples of mpEAD combination genes for liver cancer, and Table 2 below shows some examples of mpEAD combination genes for pancreatic cancer.

Figure pat00001
Figure pat00001

Figure pat00002
Figure pat00002

표 1 및 표 2는 간암과 췌장암에서 선별된 mpEAD 조합 유전자 중 정상 세포 커버리지가 가장 낮은 20개에 대한 예이다. mpEAD 조합 유전자는 왼쪽이 막 단백질에 속한 유전자이고, 오른쪽이 EAD 유전자에 속한 유전자이다.Tables 1 and 2 are examples of 20 genes with the lowest normal cell coverage among mpEAD combination genes selected from liver cancer and pancreatic cancer. The mpEAD combination gene is a gene belonging to a membrane protein on the left, and a gene belonging to an EAD gene on the right.

간암의 경우, TM4SF4_CFHR1 조합이 0.42%로 두 번째로 낮은 정상 커버리지를 보였다. TM4SF4_CFHR1 조합의 종양 커버리지는 약 76%이다. 따라서, 해당 유전자 조합을 치료 타깃으로 한다면 오프 종양 효과가 최소화된 효과적인 타깃이 될 수 있다. For liver cancer, the TM4SF4_CFHR1 combination showed the second lowest normal coverage at 0.42%. Tumor coverage of the TM4SF4_CFHR1 combination is about 76%. Therefore, if the gene combination is used as a therapeutic target, it can be an effective target with minimized off-tumor effects.

연구자는 위 20개의 조합을 포함하여 간암 및 췌장암 각각에서 발굴한 모든 81개, 627개의 mpEAD 조합 유전자들을 대상으로 논문 등으로 공개된 정보를 참고하여 실제 임상에서 효과적으로 쓰일 가능성이 높은 조합을 2개씩 선별하였다. 아래 표 3은 최종적으로 선택한 mpEAD 조합 유전자들이다. 간암의 경우 ASGR1_KRT8 및 ASGR1_ATP5MC1을 선별하였고, 췌장암의 경우 MSLN_KLF5 및 MSLN_ERBB3를 선별하였다.Including the above 20 combinations, the researcher selects two combinations that are highly likely to be used effectively in actual clinical practice by referring to information published in papers, etc. did Table 3 below shows the finally selected mpEAD combination genes. For liver cancer, ASGR1_KRT8 and ASGR1_ATP5MC1 were selected, and for pancreatic cancer, MSLN_KLF5 and MSLN_ERBB3 were selected.

Figure pat00003
Figure pat00003

mpEAD 조합 발굴 파이프라인을 통해 찾아낸 조합들 중 임상에서 쓰일 수 있는 조합을 선별하기 위하여, 연구자는 먼저 EAD 유전자들의 의존성 점수(dependency score)를 확인하였다. 이를 위해, 연구자는 앞서 언급한 디맵 데이터에 포함된 789개의 종양 셀 라인을 대상으로 최종 조합 후보에 포함된 EAD 유전자들의 의존성 점수를 확인하였다. In order to select a combination that can be used clinically among the combinations found through the mpEAD combination discovery pipeline, the researcher first confirmed the dependency score of the EAD genes. To this end, the researcher confirmed the dependency scores of the EAD genes included in the final combination candidate for 789 tumor cell lines included in the aforementioned DMAP data.

도 3은 mpEAD 유전자 조합 후보에 대한 유전자 의존성 정도를 나타내는 그래프의 예이다. 도 3(A)는 간암(HCC)의 mpEAD 유전자 조합에 대한 유전자 의존성 정도를 나타내고, 도 3(B)는 췌장암(PDAC)의 mpEAD 유전자 조합에 대한 유전자 의존성 정도를 나타낸다. 도 3에서 붉은색 점은 해당 암을 나타내며, 검은색 점은 다른 암을 나타낸다.3 is an example of a graph showing the degree of gene dependence for mpEAD gene combination candidates. FIG. 3(A) shows the degree of gene dependence of liver cancer (HCC) on the mpEAD gene combination, and FIG. 3 (B) shows the degree of gene dependence of pancreatic cancer (PDAC) on the mpEAD gene combination. In FIG. 3 , red dots represent corresponding cancers, and black dots represent other cancers.

도 3에서 y축은 유전자 효과(gene effect) 값은 의존성 정도를 나타내며, 값이 0일 경우 유전자가 해당 종양 세포 라인들에서 필수적이지 않다는 것을 나타낸다. 또한, 유전자 효과 값이 0보다 낮을수록 해당 유전자가 해당 종양 세로 라인들에서 필수적이라는 의미이다. 도 3을 살펴보면, 최종 조합 후보에 속한 mpEAD 조합 유전자들이 많은 종류의 종양 셀 라인들에서 필수적이라는 것을 알 수 있다. 또한, 도 3을 살펴보면, 목표하는 종양의 세포 라인들(간암 또는 췌장암)에서도 전체 분포와 유사한 양상을 보이는 것을 확인할 수 있다.In FIG. 3 , the y-axis indicates the degree of dependence of the gene effect value, and a value of 0 indicates that the gene is not essential in the corresponding tumor cell lines. In addition, a gene effect value lower than 0 means that the corresponding gene is essential in the corresponding tumor vertical lines. Referring to FIG. 3 , it can be seen that the mpEAD combination genes belonging to the final combination candidates are essential in many types of tumor cell lines. In addition, referring to FIG. 3 , it can be seen that cell lines (liver cancer or pancreatic cancer) of the target tumor show a pattern similar to the overall distribution.

다음으로는 연구자는 최종 후보에 포함된 막 유전자들을 대상으로 문헌 조사를 통해 암 종과 해당 유전자들 간의 연관성을 검토하였다. 종래 연구 결과에 따르면 ASGR1은 간 조직에서만 특이적으로 발현되는 유전자로서 항암 약물들의 타깃 전달을 위한 매개체로 주목받아왔다. 또한, MSLN는 대부분의 췌장암에서 발현되는 것으로 보고된 바 있으며 정상 조직에서는 발현하지 않는다고 알려졌다.Next, the researcher examined the association between cancer types and the corresponding genes through a literature search targeting the membrane genes included in the final candidates. According to the results of previous studies, ASGR1 is a gene specifically expressed only in liver tissue and has attracted attention as a mediator for the target delivery of anticancer drugs. In addition, MSLN has been reported to be expressed in most pancreatic cancers and is not expressed in normal tissues.

마지막으로 연구자는 정상 세포를 세포 유형별로 나누어 각각의 정상 세포 유형에 대한 타깃 커버리지를 확인하였다. 이는 전체 정상 세포 커버리지는 낮음에도 특정 세포 유형에 대한 커버리지는 위험 수준으로 높은 경우가 발생할 수 있기 때문이다. Finally, the researcher divided the normal cells by cell type and confirmed the target coverage for each normal cell type. This is because coverage for a specific cell type may be dangerously high even though total normal cell coverage is low.

예를 들어, 간암에서 발굴된 mpEAD 조합 유전자들 중 하나인 TM4SF4_KRT8는 종양 커버리지는 79.93% 높고, 정상 커버리지는 3.19%로 낮았다. For example, TM4SF4_KRT8, one of the mpEAD combination genes discovered in liver cancer, had high tumor coverage of 79.93% and low normal coverage of 3.19%.

도 4는 TM4SF4_KRT8 유전자 조합에 대한 세포 유형별 커버리지를 나타낸 결과이다. TM4SF4_KRT8는 세포 유형별 정상 커버리지 분석에서 약성 종양 세포들보다 상피 세포에 대한 커버리지가 더 높았다. 즉, TM4SF4_KRT8는 전체 정상 세포와 악성 종양 세포를 대상으로 분석하면 유효한 mpEAD 조합 유전자 후보이지만, 개별 세포 유형별로 커버리지를 살펴보면 부적합한 타깃이라고 할 수 있다. TM4SF4_KRT8를 대상으로 유전자 발현을 조절하면 종양 세포보다 상피 세포에 더 큰 영향을 미칠 가능성이 높기 때문이다.4 is a result showing the coverage by cell type for the TM4SF4_KRT8 gene combination. TM4SF4_KRT8 showed higher coverage of epithelial cells than weak tumor cells in normal coverage analysis by cell type. In other words, TM4SF4_KRT8 is an effective mpEAD combination gene candidate when analyzed for all normal cells and malignant tumor cells, but it can be said to be an inappropriate target when examining coverage by individual cell type. This is because regulating gene expression by targeting TM4SF4_KRT8 is likely to have a greater effect on epithelial cells than on tumor cells.

세포 유형별 커버리지를 분석하면서 mpEAD 조합 유전자 후보를 필터링하기 위한 기준이 필요하다. 다양한 기준이 사용될 수 있다. 예컨대, (1) mpEAD 조합 유전자 후보가 종양 커버리지는 제1 임계값 이상이면서, 모든 정상 개별 세포의 커버리지가 제2 임계값 이하인 경우 최종 후보 조합 유전자(치료 타깃 유전자)로 선별할 수 있다. (2) 또는, mpEAD 조합 유전자 후보가 종양 커버리지는 제1 임계값 이상이면서, 모든 개별 정상 세포 커버리지가 종양 커버리지보다 낮은 경우 최종 후보 조합 유전자로 선별할 수 있다. (3) 또는, mpEAD 조합 유전자 후보가 종양 커버리지는 제1 임계값 이상이면서, 모든 개별 정상 세포 커버리지가 종양 커버리지보다 일정 값 이상 낮은 경우 최종 후보 조합 유전자로 선별할 수 있다. (4) 또는, mpEAD 조합 유전자 후보가 종양 커버리지는 제1 임계값 이상이면서, 커버리지가 높은 상위 몇 개의 정상 세포들의 평균 커버리지가 종양 커버리지보다 일정 값 이상 낮은 경우 최종 후보 조합 유전자로 선별할 수 있다. Criteria are needed to filter mpEAD combinatorial gene candidates while analyzing coverage by cell type. A variety of criteria may be used. For example, (1) when the tumor coverage of the mpEAD combinatorial gene candidate is greater than the first threshold value and the coverage of all normal individual cells is less than the second threshold value, the final candidate combinatorial gene (treatment target gene) may be selected. (2) Alternatively, when the tumor coverage of the mpEAD combinatorial gene candidate is equal to or greater than the first threshold and the coverage of all individual normal cells is lower than the tumor coverage, the final candidate combinatorial gene may be selected. (3) Alternatively, when the tumor coverage of the mpEAD combinatorial gene candidate is equal to or greater than the first threshold and the tumor coverage of all individual normal cells is lower than the tumor coverage by a predetermined value or more, the final candidate combinatorial gene may be selected. (4) Alternatively, when the tumor coverage of the mpEAD combinatorial gene candidate is equal to or greater than the first threshold, and the average coverage of the top few normal cells with high coverage is lower than the tumor coverage by a predetermined value or more, it can be selected as the final candidate combinatorial gene.

도 5는 최종 후보로 선별한 mpEAD 조합 유전자들에 대한 세포 유형별 커버리지를 나타낸 결과이다. 도 5를 살펴보면 (i) 간암(HCC)에 대한 ASGR1_KRT8 및 ASGR1_ATP5MC1과 (ii) 췌장암(PDAC)에 대한 MSLN_KLF5 및 MSLN_ERBB3가 모두 종양 세포들 제외한 다른 정상 세포들에서는 충분히 낮은 커버리지를 갖는 것을 알 수 있다. 따라서, 연구자가 최종 선별한 상기 mpEAD 조합 유전자들은 오프 종양 효과를 최소화하면서 다수의 종양 세포를 표적할 수 있는 유전자라고 할 수 있다.5 is a result showing coverage by cell type for mpEAD combinatorial genes selected as final candidates. 5, it can be seen that (i) ASGR1_KRT8 and ASGR1_ATP5MC1 for liver cancer (HCC) and (ii) MSLN_KLF5 and MSLN_ERBB3 for pancreatic cancer (PDAC) have sufficiently low coverage in normal cells other than tumor cells. Therefore, the mpEAD combination genes finally selected by the researcher can be said to be genes capable of targeting multiple tumor cells while minimizing the off-tumor effect.

한편, 간암과 췌장암 각각에서 선별한 2개의 mpEAD 조합 유전자들은 모두 동일한 막 단백질을 갖는다. 따라서, 해당 막 단백질을 갖는 세포들 중에서 2 개의 EAD 유전자들 중 하나라도 갖는 세포를 표적한다면 더욱 향상된 종양 커버리지를 가질 것으로 예상된다.Meanwhile, the two mpEAD combination genes selected from each of liver cancer and pancreatic cancer have the same membrane protein. Therefore, targeting cells having at least one of the two EAD genes among cells having the corresponding membrane protein is expected to have more improved tumor coverage.

도 6은 간암에 대하여 ASGR1을 막 단백질로 가지고 있으면서 KRT8 또는 ATP5MC1을 발현하는 세포에 대한 커버리지를 나타내는 결과이다. 도 7은 췌장암에 대하여 MSLN을 막 단백질로 가지고 있으면서 KLF5 또는 ERBB3을 발현하는 세포에 대한 커버리지를 나타내는 결과이다. 도 6을 살펴보면 기존 조합 대비 종양 세포 커버리지가 약 7% 상승하고, 정상 세포 커버리지는 약2.7%를 나타났다. 도 7을 살펴보면 기존 조합 대비 종양 세포 커버리지가 약 7% 상승하고, 정상 세포 커버리지는 췌장암에서 약2% 로 나타났다. 따라서, 이와 같이 최종 선별한 mpEAD 조합 유전자들 중 막단백질이 갖는 조합 유전자들에 대해서는 EAD 유전자들 중 어느 하나를 갖는 세포를 표적하는 방식도 유전자 치료 효과가 클 것으로 기대된다.6 is a result showing the coverage of cells expressing KRT8 or ATP5MC1 while having ASGR1 as a membrane protein for liver cancer. 7 is a result showing coverage of cells expressing KLF5 or ERBB3 while having MSLN as a membrane protein for pancreatic cancer. Referring to FIG. 6, the tumor cell coverage increased by about 7% compared to the existing combination, and the normal cell coverage was about 2.7%. Referring to FIG. 7, the tumor cell coverage increased by about 7% compared to the existing combination, and the normal cell coverage was about 2% in pancreatic cancer. Therefore, for the combination genes possessed by membrane proteins among the finally selected mpEAD combination genes, a method of targeting cells having any one of the EAD genes is expected to have a great gene therapy effect.

전술한 연구 결과를 기반으로 유전 치료 타깃이 될 유전자를 찾는 과정을 정리하여 설명한다. 이하 과정은 분석 장치가 수행한다고 설명한다. 분석 장치는 데이터 처리가 가능한 컴퓨터 장치에 해당한다. 예컨대, 분석 장치는 PC, 네트워크상의 서버, 스마트 기기, 전용 프로그램이 임베딩된 칩셋 등으로 구현될 수 있다.Based on the above-mentioned research results, the process of finding genes to be targeted for genetic therapy will be summarized and explained. The process described below is performed by the analysis device. The analysis device corresponds to a computer device capable of processing data. For example, the analysis device may be implemented as a PC, a server on a network, a smart device, a chipset in which a dedicated program is embedded, and the like.

필요한 데이터 세트는 샘플 조식의 세포에서의 유전자 발현 데이터이다. 한편, 분석 장치는 유전자 발현 데이터가 아닌 종양 세포의 단백질을 스크리닝한 데이터로 종양 특이적인 막 단백질을 식별할 수도 있다. 다만, 이하 분석 장치는 유전자 발현 데이터를 이용하여 종양 특이적 막 단백질을 갖는 세포를 식별한다고 가정한다.The required data set is gene expression data in the cells of the sample composition. Meanwhile, the analysis device may identify tumor-specific membrane proteins based on data obtained by screening tumor cell proteins rather than gene expression data. However, it is assumed that the following analysis device identifies cells having tumor-specific membrane proteins using gene expression data.

도 8은 치료 타깃 유전자를 발굴하는 시스템(100)에 대한 예이다. 도 8에서 분석장치(130, 140, 150)가 치료 타깃 유전자를 발굴한다. 도 8에서 분석장치는 서버(130) 및 컴퓨터 단말(140, 150) 형태로 도시하였다. 8 is an example of a system 100 for discovering a target gene for treatment. In FIG. 8 , analysis devices 130 , 140 , and 150 discover therapeutic target genes. In FIG. 8, the analysis device is shown in the form of a server 130 and computer terminals 140 and 150.

치료 타깃 유전자를 발굴하는 시스템(100)은 타깃 암종에 대한 치료 타깃 유전자를 발굴한다. 타깃 암종은 간암, 폐암, 췌장암, 유방암 등 다양한 암 중 어느 하나일 수 있다. The system 100 for discovering a therapeutic target gene discovers a therapeutic target gene for a target carcinoma. The target carcinoma may be any one of various cancers such as liver cancer, lung cancer, pancreatic cancer, and breast cancer.

유전체 분석장치(110)는 타깃 암종 질환을 갖는 환자의 샘플을 분석하여 유전자 데이터를 생성한다. 유전자 데이터는 유전자의 발현량을 알 수 있는 데이터이다. 유전자 데이터는 DNA 또는 RNA 서열에 대한 데이터일 수 있다. 유전체 분석장치(110)는 특정 환자 또는 특정 질환을 갖는 환자군에 대한 유전자 데이터를 생성할 수 있다. 특정 환자에 대한 데이터인 경우, 분석장치(130, 140, 150)는 개인 맞춤형 치료를 위한 타깃 유전자를 발굴할 수 있다.The genome analysis device 110 generates genetic data by analyzing a sample of a patient having a target carcinoma disease. Gene data is data that can know the expression level of a gene. Genetic data may be data on DNA or RNA sequences. The genome analysis device 110 may generate genetic data for a specific patient or patient group having a specific disease. In the case of data for a specific patient, the analysis devices 130, 140, and 150 may discover target genes for personalized treatment.

유전자 데이터베이스(120)는 타깃 암종에 대하여 종양 특이적 막 단백질 정보 및 EAD 유전자 정보를 보유한다. 종양 특이적 막 단백질 정보는 해당 단백질을 코딩하는 유전자의 정보를 포함한다. EAD 유전자는 전술한 바와 같이 유전자의 발현량이 커질수록 타깃 암종에 대하여 의존성이 높아지는 유전자를 의미한다.The gene database 120 holds tumor-specific membrane protein information and EAD gene information for a target carcinoma. Tumor-specific membrane protein information includes information of a gene encoding the protein. As described above, the EAD gene refers to a gene whose dependence on a target carcinoma increases as the expression level of the gene increases.

서버(130)는 유전체 분석장치(110)로부터 샘플에 대한 유전자 데이터를 수신한다. 서버(130)는 타깃 암종에 대한 종류도 수신한다. 서버(130)는 타깃 암종의 종류를 쿼리하여 유전자 DB(120)로부터 타깃 암종에 대한 막 단백질 정보 및 EAD 유전자 정보를 수신한다. 서버(130)는 유전자 DB(120)로부터 수신한 막 단백질 정보(코딩 유전자) 및 EAD 유전자 정보를 기준으로 샘플에서 치료 타깃이 되는 유전자를 발굴한다. 사용자(10)는 사용자 단말(PC, 스마트폰 등)을 통해 서버(130)에 접속하여, 서버(130)가 수행한 분석 결과를 확인할 수 있다. The server 130 receives genetic data for a sample from the genome analysis device 110 . The server 130 also receives the type of target cancer type. The server 130 queries the type of target carcinoma and receives membrane protein information and EAD gene information for the target carcinoma from the gene DB 120 . The server 130 discovers a gene that is a target for treatment in a sample based on membrane protein information (coding gene) and EAD gene information received from the gene DB 120 . The user 10 may access the server 130 through a user terminal (PC, smart phone, etc.) and check the analysis result performed by the server 130.

컴퓨터 단말(140)은 유전체 분석장치(110)로부터 샘플에 대한 유전자 데이터를 수신한다. 컴퓨터 단말(140)은 타깃 암종에 대한 종류도 입력받는다. 컴퓨터 단말(140)은 타깃 암종의 종류를 쿼리하여 유전자 DB(120)로부터 타깃 암종에 대한 막 단백질 정보 및 EAD 유전자 정보를 수신한다. 컴퓨터 단말(140)은 유전자 DB(120)로부터 수신한 막 단백질 정보(코딩 유전자) 및 EAD 유전자 정보를 기준으로 샘플에서 치료 타깃이 되는 유전자를 발굴한다. 사용자(20)는 자신이 사용하는 컴퓨터 단말(140)을 통해 분석 결과를 확인할 수 있다. The computer terminal 140 receives genetic data for a sample from the genome analysis device 110 . The computer terminal 140 also receives a type of target cancer type. The computer terminal 140 queries the type of target carcinoma and receives membrane protein information and EAD gene information for the target carcinoma from the gene DB 120 . The computer terminal 140 discovers a target gene for treatment in a sample based on membrane protein information (coding gene) and EAD gene information received from the gene DB 120 . The user 20 may check the analysis result through the computer terminal 140 used by the user 20 .

컴퓨터 단말(150)은 유전체 분석장치(110)가 생성한 샘플에 대한 유전자 데이터가 저장된 매체(예컨대, USB, SD 카드 등)를 통해 유전자 데이터를 입력받는다. 컴퓨터 단말(150)은 타깃 암종에 대한 종류도 입력받는다. 컴퓨터 단말(150)은 타깃 암종의 종류를 쿼리하여 유전자 DB(120)로부터 타깃 암종에 대한 막 단백질 정보 및 EAD 유전자 정보를 수신한다. 컴퓨터 단말(150)은 유전자 DB(120)로부터 수신한 막 단백질 정보(코딩 유전자) 및 EAD 유전자 정보를 기준으로 샘플에서 치료 타깃이 되는 유전자를 발굴한다. 사용자(30)는 자신이 사용하는 컴퓨터 단말(150)을 통해 분석 결과를 확인할 수 있다. The computer terminal 150 receives genetic data through a medium (eg, USB, SD card, etc.) in which the genetic data for the sample generated by the genome analysis device 110 is stored. The computer terminal 150 also receives the type of target cancer type. The computer terminal 150 queries the type of target carcinoma and receives membrane protein information and EAD gene information for the target carcinoma from the gene DB 120 . The computer terminal 150 discovers a target gene for treatment in a sample based on membrane protein information (coding gene) and EAD gene information received from the gene DB 120 . The user 30 may check the analysis result through the computer terminal 150 used by the user 30 .

도 9는 치료 타깃 유전자를 찾는 과정(200)에 대한 예이다.9 is an example of a process 200 for finding a target gene for treatment.

분석장치는 타깃 암종에 대한 종양 특이적 막 단백질 코딩 유전자 및 EAD 유전자 정보를 획득한다(210). 분석장치는 다수의 암종에 대한 정보를 획득할 수도 있다. 분석장치는 네트워크로 연결된 DB로부터 종양 특이적 막 단백질 코딩 유전자 및 EAD 유전자 정보를 수신할 수 있다. 또한, 분석장치는 물리적으로 연결된 저장매체로부터 종양 특이적 막 단백질 코딩 유전자 및 EAD 유전자 정보를 수신할 수 있다.The analyzer acquires tumor-specific membrane protein coding gene and EAD gene information for the target carcinoma (210). The analysis device may obtain information on multiple types of carcinoma. The analysis device may receive tumor-specific membrane protein coding gene and EAD gene information from a network connected DB. In addition, the analysis device may receive tumor-specific membrane protein coding gene and EAD gene information from a physically connected storage medium.

분석장치는 샘플의 유전체 데이터를 획득하고 일정한 전처리 과정을 수행한다(220). 분석장치는 샘플의 유전체 로데이터(FASTQ)를 입력받아 자체 프로그램을 이용하여 유전체 서열 시퀀싱 및 발현량에 대한 데이터를 생성할 수도 있다. 분석장치는 세포들에 대한 세포 유형 주석(정상 세포 또는 악성 세포), 세포들에 대한 카운트 매트릭스 생성, 각 세포들에서의 유전자 발현 정보 등을 생성할 수 있다.The analysis device acquires the genome data of the sample and performs a predetermined pre-processing process (220). The analysis device may receive genome raw data (FASTQ) of the sample and generate data on genome sequence sequencing and expression level using its own program. The analyzer may generate cell type annotation (normal cells or malignant cells) for cells, count matrix generation for cells, gene expression information in each cell, and the like.

분석장치는 전술한 mpEAD 조합 유전자 목록을 생성할 수 있다(230). mpEAD 조합 유전자 목록은 (i) 종양 세포 특이적인 막 단백질 (코딩 유전자) 및 (ii) EAD 유전자가 하나의 세트인 유전자 세트들로 구성된다. mpEAD 조합 유전자 목록은 종양 특이적 막 단백질 코딩 유전자들과 EAD 유전자들의 가능한 모든 조합을 포함한다.The analyzer may generate the above-described mpEAD combinatorial gene list (230). The mpEAD combinatorial gene list consists of gene sets in which (i) tumor cell-specific membrane proteins (coding genes) and (ii) EAD genes are one set. The mpEAD combinatorial gene list includes all possible combinations of tumor-specific membrane protein coding genes and EAD genes.

분석장치는 mpEAD 조합 유전자 목록에 있는 유전자 세트 각각에 대하여 샘플에서 발현하는지 확인한다(240). 분석장치는 샘플에서 발현한 mpEAD 조합 유전자 세트(들)에 대하여 정상 세포 커버리지 및 종양 세포 커버러지를 기준으로 후보 조합 유전자(들)를 선별한다(250). 분석 장치는 발현이 확인된 mpEAD 조합 유전자들 중에서 전체 종양 세포들의 커버리지가 제1 임계값 이상 높고, 동시에 정상 세포들의 커버리지가 제2 임계값보다 낮은 유전자를 최종적인 후보 조합 유전자로 선별할 수도 있다. 제1 임계값 및 제2 임계값은 실험적인 결과에 따라 사전에 설정될 수 있다. 나아가 샘플에서 분석된 결과를 기준으로 임계값이 일정하게 조절될 수도 있다. 참고로, 연구자는 제1 임계값=60%, 제2 임계값=10%로 설정하여 실험을 하였다. 이와 같은 방식을 이용하면, 분석 장치는 특정 EAD 유전자가 발현하는 정상 세포를 필터링(filtering out)하게 된다. The analyzer identifies expression in the sample for each set of genes in the mpEAD combinatorial gene list (240). The analysis device selects candidate combinatorial gene(s) based on normal cell coverage and tumor cell coverage with respect to the mpEAD combinatorial gene set(s) expressed in the sample (250). The analysis device may select, as a final candidate combination gene, a gene whose coverage of all tumor cells is higher than the first threshold value and at the same time, the coverage of normal cells is lower than the second threshold value, among the mpEAD combination genes whose expression has been confirmed. The first threshold value and the second threshold value may be set in advance according to experimental results. Furthermore, the threshold value may be constantly adjusted based on the result analyzed in the sample. For reference, the researcher conducted the experiment by setting the first threshold value = 60% and the second threshold value = 10%. Using this method, the analysis device filters out normal cells expressing a specific EAD gene.

나아가, 분석장치는 후보 조합 유전자들 각각을 대상으로 세포 유형별 커버리지를 확인할 수 있다(260). 전술한 바와 같이 후보 조합 유전자는 특정 유형의 정상 세포에서 종양 세포보다 커버리지가 높을 수도 있다. 이와 같은 경우를 제거하기 위하여 분석장치는 세포 유형별 커버리지를 기준으로 최종적인 치료 타깃 유전자를 선변할 수 있다(270). 분석장치는 개별 정상 세포에 대한 커버리지가 종양 세포에 대한 커버리지보다 낮을 경우, 후보 조합 유전자를 치료 타깃 유전자로 선별할 수 있다. 치료 타깃 유전자를 선별하기 위한 구체적인 기준은 다양할 수 있다. 예컨대, (1) mpEAD 조합 유전자 후보가 종양 커버리지는 제1 임계값 이상이면서, 모든 정상 개별 세포의 커버리지가 제2 임계값 이하인 경우 최종 치료 타깃 유전자로 선별할 수 있다. (2) 또는, mpEAD 조합 유전자 후보가 종양 커버리지는 제1 임계값 이상이면서, 모든 개별 정상 세포 커버리지가 종양 커버리지보다 낮은 경우 최종 치료 타깃 유전자로 선별할 수 있다. (3) 또는, mpEAD 조합 유전자 후보가 종양 커버리지는 제1 임계값 이상이면서, 모든 개별 정상 세포 커버리지가 종양 커버리지보다 일정 값 이상 낮은 경우 최종 치료 타깃 유전자로 선별할 수 있다. (4) 또는, mpEAD 조합 유전자 후보가 종양 커버리지는 제1 임계값 이상이면서, 커버리지가 높은 상위 몇 개의 정상 세포들의 평균 커버리지가 종양 커버리지보다 일정 값 이상 낮은 경우 최종 치료 타깃 유전자로 선별할 수 있다. Furthermore, the analysis device may check coverage by cell type for each of the candidate combinatorial genes (260). As discussed above, candidate combinatorial genes may have higher coverage in certain types of normal cells than in tumor cells. In order to eliminate such a case, the analysis device may select a final treatment target gene based on coverage for each cell type (270). When the coverage for individual normal cells is lower than the coverage for tumor cells, the analysis device may select a candidate combination gene as a treatment target gene. Specific criteria for selecting a therapeutic target gene may vary. For example, (1) when the tumor coverage of the mpEAD combination gene candidate is equal to or greater than the first threshold value and the coverage of all normal individual cells is equal to or less than the second threshold value, the gene candidate may be selected as the final treatment target gene. (2) Alternatively, when the tumor coverage of the mpEAD combinatorial gene candidate is equal to or greater than the first threshold and the coverage of all individual normal cells is lower than the tumor coverage, the candidate may be selected as the final treatment target gene. (3) Alternatively, when the tumor coverage of the mpEAD combinatorial gene candidate is equal to or higher than the first threshold value and the coverage of all individual normal cells is lower than the tumor coverage by a predetermined value or more, it may be selected as the final treatment target gene. (4) Alternatively, when the tumor coverage of the mpEAD combinatorial gene candidate is higher than the first threshold and the average coverage of the top few normal cells with high coverage is lower than the tumor coverage by a certain value or more, it can be selected as the final treatment target gene.

도 10은 치료 타깃 유전자를 발굴하는 분석 장치(300)에 대한 예이다. 분석장치(300)는 도 1의 분석 장치(130, 140 또는 150)에 해당하는 장치이다. 분석장치(300)는 물리적으로 다양한 형태로 구현될 수 있다. 예컨대, 분석장치(300)는 PC, 스마트 기기, 네트워크상의 서버, 데이터 처리 전용 칩셋 등의 형태를 가질 수 있다.10 is an example of an analysis device 300 for discovering a target gene for treatment. The analysis device 300 is a device corresponding to the analysis device 130 , 140 or 150 of FIG. 1 . The analysis device 300 may be physically implemented in various forms. For example, the analysis device 300 may have a form of a PC, a smart device, a server on a network, or a chipset dedicated to data processing.

분석장치(300)는 저장장치(310), 메모리(320), 연산장치(330), 인터페이스 장치(340), 통신장치(350) 및 출력장치(360)를 포함할 수 있다.The analysis device 300 may include a storage device 310, a memory 320, an arithmetic device 330, an interface device 340, a communication device 350, and an output device 360.

저장장치(310)는 데이터 처리에 필요한 프로그램 내지 소스 코드 등을 저장할 수 있다. The storage device 310 may store programs or source codes necessary for data processing.

저장장치(310)는 특정 종양에 대한 종양 세포 특이적 막 단백질 정보(코딩 유전자) 및 EAD 유전자 정보를 보유할 수 있다.The storage device 310 may retain tumor cell-specific membrane protein information (coding gene) and EAD gene information for a specific tumor.

저장장치(310)는 샘플의 유전체 분석 데이터를 저장할 수 있다. 샘플의 유전체 분석 데이터는 유전자 발현 정보, 세포 유형, 세포별 발현 유전자 등을 포함할 수 있다.The storage device 310 may store genome analysis data of a sample. The genome analysis data of the sample may include gene expression information, cell type, gene expression for each cell, and the like.

저장장치(310)는 분석 결과인 치료 타깃 유전자 정보를 저장할 수 있다.The storage device 310 may store treatment target gene information as an analysis result.

메모리(320)는 분석장치(300)가 특정 종양에 대한 치료 타깃 유전자를 분석하는 과정에서 생성되는 데이터 및 정보 등을 저장할 수 있다.The memory 320 may store data and information generated in the course of the analysis device 300 analyzing a target gene for treatment of a specific tumor.

인터페이스 장치(340)는 외부로부터 일정한 명령 및 데이터를 입력받는 장치이다. The interface device 340 is a device that receives certain commands and data from the outside.

인터페이스 장치(340)는 특정 종양에 대한 종양 세포 특이적 막 단백질 정보(코딩 유전자) 및 EAD 유전자 정보를 입력받을 수 있다.The interface device 340 may receive tumor cell-specific membrane protein information (coding gene) and EAD gene information for a specific tumor.

인터페이스 장치(340)는 물리적으로 연결된 입력 장치 또는 외부 저장장치로부터 샘플(환자)의 유전자 데이터를 입력받을 수 있다. 인터페이스 장치(340)는 타깃 종양의 종류를 입력받을 수 있다.The interface device 340 may receive genetic data of a sample (patient) from a physically connected input device or an external storage device. The interface device 340 may receive an input of the type of target tumor.

통신장치(350)는 유선 또는 무선 네트워크를 통해 일정한 정보를 수신하고 전송하는 구성을 의미한다. The communication device 350 refers to a component that receives and transmits certain information through a wired or wireless network.

통신장치(350)는 외부 객체로부터 특정 종양에 대한 종양 세포 특이적 막 단백질 정보(코딩 유전자) 및 EAD 유전자 정보를 수신할 수 있다. The communication device 350 may receive tumor cell-specific membrane protein information (coding gene) and EAD gene information for a specific tumor from an external object.

통신장치(350)는 샘플(환자)의 유전자 데이터를 수신할 수 있다. 통신장치(350)는 타깃 종양의 종류를 수신할 수도 있다.The communication device 350 may receive genetic data of a sample (patient). The communication device 350 may receive the type of target tumor.

통신장치(350)는 샘플에 대한 분석 결과를 외부 객체로 송신할 수 있다. The communication device 350 may transmit an analysis result of the sample to an external object.

통신장치(350) 내지 인터페이스 장치(340)는 외부로부터 일정한 데이터 내지 명령을 전달받는 장치이다. 통신장치(350) 내지 인터페이스 장치(340)를 입출력 장치라고 할 수 있다. 또한, 정보 입력 가능만을 고려하면 통신장치(350) 내지 인터페이스 장치(340)를 입력장치라고 명명할 수도 있다.The communication device 350 or interface device 340 is a device that receives certain data or commands from the outside. The communication device 350 or interface device 340 may be referred to as an input/output device. In addition, considering only information input capability, the communication device 350 or the interface device 340 may be referred to as an input device.

출력장치(360)는 일정한 정보를 출력하는 장치이다. 출력장치(360)는 데이터 처리 과정에 필요한 인터페이스, 분석 결과 등을 출력할 수 있다.The output device 360 is a device that outputs certain information. The output device 360 may output interfaces and analysis results necessary for data processing.

연산 장치(330)가 수행하는 데이터 처리 및 분석 과정은 도 9에서 설명한 과정과 같다. The data processing and analysis process performed by the arithmetic device 330 is the same as the process described with reference to FIG. 9 .

연산 장치(330)는 샘플의 유전체 데이터를 처리할 수 있다. 연산 장치(330)는 전술한 바와 같이 세포 유형 주석(정상 세포 또는 악성 세포), 세포들에 대한 카운트 매트릭스 생성, 각 세포들에서의 유전자 발현 정보 등을 생성할 수 있다.The computing device 330 may process the genomic data of the sample. As described above, the computing device 330 may generate cell type annotation (normal cells or malignant cells), generation of a count matrix for cells, gene expression information in each cell, and the like.

연산 장치(330)는 타깃 암종에 대한 mpEAD 조합 유전자 목록을 생성할 수 있다.The computing device 330 may generate a mpEAD combinatorial gene list for a target carcinoma.

연산 장치(330)는 샘플에서 발현한 막 단백질과 EAD 유전자 존재 여부를 기준으로 후보 조합 유전자들을 선별할 수 있다.The computing device 330 may select candidate combinatorial genes based on the presence or absence of membrane proteins and EAD genes expressed in the sample.

연산 장치(330)는 후보 조합 유전자들 각각에 대한 정상 세포 커버리지 및 종양 세포 커버리지를 기준으로 최종 후보 조합 유전자(들)를 선별할 수 있다.The computing device 330 may select final candidate combinatorial gene(s) based on normal cell coverage and tumor cell coverage for each of the candidate combinatorial genes.

연산 장치(330)는 최종 후보 유합 유전자들 중 최종 후보 유합 유전자들 각각에 대한 세포 유형별 커버리지를 기준으로 최종적인 치료 타깃 유전자를 선별할 수 있다.The computing device 330 may select a final treatment target gene based on the coverage for each cell type of each of the final candidate fusion genes among the final candidate fusion genes.

연산 장치(330)는 데이터를 처리하고, 일정한 연산을 처리하는 프로세서, AP, 프로그램이 임베디드된 칩과 같은 장치일 수 있다.The arithmetic device 330 may be a device such as a processor, an AP, or a chip in which a program is embedded that processes data and performs certain arithmetic operations.

또한, 상술한 바와 같은 특정 종양에 대한 치료 타깃 유전자 발굴 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 일시적 또는 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.In addition, the above-described method for discovering a target gene for treatment of a specific tumor may be implemented as a program (or application) including an executable algorithm that may be executed on a computer. The program may be stored and provided in a temporary or non-transitory computer readable medium.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM (read-only memory), PROM (programmable read only memory), EPROM(Erasable PROM, EPROM) 또는 EEPROM(Electrically EPROM) 또는 플래시 메모리 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.A non-transitory readable medium is not a medium that stores data for a short moment, such as a register, cache, or memory, but a medium that stores data semi-permanently and can be read by a device. Specifically, the various applications or programs described above are CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM (read-only memory), PROM (programmable read only memory), EPROM (Erasable PROM, EPROM) Alternatively, it may be stored and provided in a non-transitory readable medium such as EEPROM (Electrically EPROM) or flash memory.

일시적 판독 가능 매체는 스태틱 램(Static RAM,SRAM), 다이내믹 램(Dynamic RAM,DRAM), 싱크로너스 디램 (Synchronous DRAM,SDRAM), 2배속 SDRAM(Double Data Rate SDRAM,DDR SDRAM), 증강형 SDRAM(Enhanced SDRAM,ESDRAM), 동기화 DRAM(Synclink DRAM,SLDRAM) 및 직접 램버스 램(Direct Rambus RAM,DRRAM) 과 같은 다양한 RAM을 의미한다.Temporary readable media include static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDR SDRAM), and enhanced SDRAM (Enhanced SDRAM). SDRAM, ESDRAM), Synchronous DRAM (Synclink DRAM, SLDRAM) and Direct Rambus RAM (DRRAM).

본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.This embodiment and the drawings accompanying this specification clearly represent only a part of the technical idea included in the foregoing technology, and those skilled in the art can easily understand it within the scope of the technical idea included in the specification and drawings of the above technology. It will be obvious that all variations and specific examples that can be inferred are included in the scope of the above-described technology.

Claims (9)

분석장치가 타깃 종양에 대한 종양 세포의 특이적 막 단백질 코딩 유전자들 및 상기 종양 세포의 의존성 유전자들에 대한 정보를 입력받는 단계;
상기 분석장치가 샘플의 유전체 데이터 분석 정보를 획득하는 단계;
상기 분석장치가 상기 막 단백질 유전자들 및 상기 의존성 유전자들이 구성가능한 조합 유전자 세트들을 생성하는 단계;
상기 분석장치가 상기 조합 유전자 세트들 중 상기 샘플의 종양 세포에서 발현하는 후보 조합 유전자 세트들을 식별하는 단계; 및
상기 분석장치가 상기 후보 조합 유전자 세트들 각각에 대한 정상 세포 커버리지 및 종양 세포 커버리지를 기준으로 후보 조합 유전자 세트들 중 최종 치료 타깃 유전자를 발굴하는 단계를 포함하되,
상기 의존성 유전자는 상기 종양 세포의 유전자들 중 유전자의 발현량과 의존성(dependency)이 임계값 이상의 상관성을 갖는 유전자인 막 단백질 정보를 이용한 치료 타깃 유전자 발굴 방법.
receiving, by an analysis device, information about specific membrane protein-encoding genes of tumor cells for a target tumor and dependent genes of the tumor cells;
obtaining, by the analysis device, genome data analysis information of the sample;
generating, by the analysis device, combinatorial gene sets in which the membrane protein genes and the dependent genes are configurable;
identifying, by the analysis device, candidate combinatorial gene sets expressed in tumor cells of the sample from among the combinatorial gene sets; and
Discovering, by the analysis device, a final treatment target gene among candidate combinatorial gene sets based on normal cell coverage and tumor cell coverage for each of the candidate combinatorial gene sets,
The dependent gene is a gene having a correlation between the expression level and dependency of a gene of a threshold value or higher among genes of the tumor cell, and the method of discovering a target gene for treatment using membrane protein information.
제1항에 있어서,
상기 유전체 데이터 분석 정보는 세포의 유형 정보 및 세포별 유전자 발현 정보를 포함하는 막 단백질 정보를 이용한 치료 타깃 유전자 발굴 방법.
According to claim 1,
The genome data analysis information is a method of discovering a therapeutic target gene using membrane protein information including cell type information and cell-specific gene expression information.
제1항에 있어서,
상기 분석장치는 상기 후보 조합 유전자 세트들 중 상기 종양 세포 커버리지가 제1 임계값 이상이면서, 상기 정상 세포 커버리지가 제2 임계값 미만인 세트를 최종 치료 타깃 유전자로 발굴하는 막 단백질 정보를 이용한 치료 타깃 유전자 발굴 방법.
According to claim 1,
The analysis device discovers, among the candidate combinatorial gene sets, a set in which the tumor cell coverage is greater than or equal to the first threshold and the normal cell coverage is less than the second threshold as the final treatment target gene. Treatment target gene using membrane protein information excavation method.
제1항에 있어서,
상기 최종 치료 타깃 유전자를 발굴하는 단계는
상기 분석장치가 상기 후보 조합 유전자 세트들 중 상기 종양 세포 커버리지가 제1 임계값 이상이면서, 상기 정상 세포 커버리지가 제2 임계값 미만인 세트를 최종 후보 조합 유전자 세트로 선택하는 단계; 및
상기 분석장치가 상기 최종 후보 조합 유전자 세트 중 세포 유형별 커버리지를 기준으로 상기 최종 치료 타깃 유전자를 발굴하는 단계를 포함하는 막 단백질 정보를 이용한 치료 타깃 유전자 발굴 방법.
According to claim 1,
The step of discovering the final therapeutic target gene is
selecting, by the analysis device, a set in which the tumor cell coverage is greater than or equal to a first threshold value and the normal cell coverage is less than a second threshold value among the candidate combinatorial gene sets as a final candidate combinatorial gene set; and
The method of discovering, by the analysis device, the final therapeutic target gene based on coverage for each cell type among the final candidate combinatorial gene set.
제4항에 있어서,
상기 분석장치가 상기 최종 후보 조합 유전자 세트 중 커버리지가 가장 높은 정상 세포에 대한 커버리지가 종양 세포에 대한 커버리지보다 기준값 이상 낮은 최종 후보 유전자 세트를 상기 최종 치료 타깃 유전자로 발굴하는 막 단백질 정보를 이용한 치료 타깃 유전자 발굴 방법.
According to claim 4,
A treatment target using membrane protein information in which the analyzer discovers, as the final treatment target gene, a final candidate gene set whose coverage for normal cells, which has the highest coverage among the set of final candidate combinatorial genes, is lower than the coverage for tumor cells by a reference value or more. Gene discovery method.
샘플의 유전체 데이터를 입력받는 입력장치;
타깃 종양에 대한 종양 세포의 특이적 막 단백질 코딩 유전자들 및 상기 종양 세포의 의존성 유전자들에 대한 정보를 저장하는 저장장치; 및
상기 유전체 데이터를 처리하여 상기 샘플에 대한 세포의 유형 정보 및 세포별 유전자 발현 정보를 생성하고, 상기 막 단백질 유전자들 및 상기 의존성 유전자들이 구성가능한 조합 유전자 세트들을 생성하고, 상기 조합 유전자 세트들 중 상기 샘플의 종양 세포에서 발현하는 후보 조합 유전자 세트들을 식별하고, 상기 후보 조합 유전자 세트들 중 정상 세포 커버리지 및 종양 세포 커버리지를 기준으로 최종 치료 타깃 유전자를 발굴하는 연산장치를 포함하되,
상기 의존성 유전자는 상기 종양 세포의 유전자들 중 유전자의 발현량과 의존성(dependency)이 임계값 이상의 상관성을 갖는 유전자인 치료 타깃 유전자 발굴하는 분석 장치.
an input device that receives the genome data of the sample;
a storage device for storing information about specific membrane protein coding genes of tumor cells for a target tumor and dependent genes of the tumor cells; and
The genomic data is processed to generate cell type information and cell-specific gene expression information for the sample, to generate combinatorial gene sets in which the membrane protein genes and the dependent genes are configurable, and among the combined gene sets A calculation device for identifying candidate combinatorial gene sets expressed in tumor cells of the sample and discovering a final treatment target gene based on normal cell coverage and tumor cell coverage among the candidate combinatorial gene sets,
The dependent gene is an analysis device for discovering a therapeutic target gene, wherein the expression level and dependency of the gene among the genes of the tumor cells have a correlation of a threshold value or higher.
제6항에 있어서.
상기 연산장치는 상기 후보 조합 유전자 세트들 중 상기 종양 세포 커버리지가 제1 임계값 이상이면서, 상기 정상 세포 커버리지가 제2 임계값 미만인 세트를 최종 치료 타깃 유전자로 발굴하는 치료 타깃 유전자 발굴하는 분석 장치.
According to claim 6.
Wherein the calculation device discovers, as a final treatment target gene, a set in which the tumor cell coverage is greater than or equal to a first threshold value and the normal cell coverage is less than a second threshold value among the candidate combinatorial gene sets.
제6항에 있어서.
상기 연산장치는 상기 후보 조합 유전자 세트들 중 상기 종양 세포 커버리지가 제1 임계값 이상이면서, 상기 정상 세포 커버리지가 제2 임계값 미만인 세트를 최종 후보 조합 유전자 세트로 선택하고, 상기 최종 후보 조합 유전자 세트 중 세포 유형별 커버리지를 기준으로 상기 최종 치료 타깃 유전자를 발굴하는 치료 타깃 유전자 발굴하는 분석 장치.
According to claim 6.
The computing device selects, as a final candidate combinatorial gene set, a set in which the tumor cell coverage is greater than or equal to a first threshold value and the normal cell coverage is less than a second threshold value among the candidate combinatorial gene sets, and the final candidate combinatorial gene set An analysis device for discovering a therapeutic target gene for discovering the final therapeutic target gene based on coverage for each cell type among the cells.
제8항에 있어서.
상기 연산장치는 상기 최종 후보 조합 유전자 세트 중 커버리지가 가장 높은 정상 세포에 대한 커버리지가 종양 세포에 대한 커버리지보다 기준값 이상 낮은 최종 후보 유전자 세트를 상기 최종 치료 타깃 유전자로 발굴하는 치료 타깃 유전자 발굴하는 분석 장치.

According to claim 8.
The calculation device is an analysis device for discovering, as the final treatment target gene, a final candidate gene set whose coverage for normal cells, which has the highest coverage among the set of final candidate combinatorial genes, is lower than the coverage for tumor cells by a reference value or more. .

KR1020210122136A 2021-09-14 2021-09-14 Discovery method for therapeutic target gene based on membrane protein and analysis apparatus KR20230039167A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210122136A KR20230039167A (en) 2021-09-14 2021-09-14 Discovery method for therapeutic target gene based on membrane protein and analysis apparatus
PCT/KR2022/012873 WO2023043086A1 (en) 2021-09-14 2022-08-29 Method for discovering therapeutic target gene by using membrane protein information, and analysis apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210122136A KR20230039167A (en) 2021-09-14 2021-09-14 Discovery method for therapeutic target gene based on membrane protein and analysis apparatus

Publications (1)

Publication Number Publication Date
KR20230039167A true KR20230039167A (en) 2023-03-21

Family

ID=85603117

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210122136A KR20230039167A (en) 2021-09-14 2021-09-14 Discovery method for therapeutic target gene based on membrane protein and analysis apparatus

Country Status (2)

Country Link
KR (1) KR20230039167A (en)
WO (1) WO2023043086A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758994A (en) * 2023-07-03 2023-09-15 杭州联川生物技术股份有限公司 Gene sets, methods, media and apparatus for distinguishing tumor cells from non-tumor cells

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180092395A (en) 2017-02-09 2018-08-20 사회복지법인 삼성생명공익재단 Method of identifying target gene for tumor-therapy

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102137029B1 (en) * 2018-06-19 2020-07-23 한양대학교 산학협력단 Sample data analysis method based on genomic module network from filtered data
KR102042242B1 (en) * 2018-06-29 2019-11-07 (주)인실리코젠 Target gene screening method and apparatus based multi-omics data and survival analysis
CA3109716A1 (en) * 2018-08-30 2020-03-05 Universite De Montreal Proteogenomic-based method for identifying tumor-specific antigens
KR102545113B1 (en) * 2019-07-10 2023-06-19 한국과학기술원 Identifying method for essential gene based on machine learning model and analysis apparatus

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180092395A (en) 2017-02-09 2018-08-20 사회복지법인 삼성생명공익재단 Method of identifying target gene for tumor-therapy

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758994A (en) * 2023-07-03 2023-09-15 杭州联川生物技术股份有限公司 Gene sets, methods, media and apparatus for distinguishing tumor cells from non-tumor cells
CN116758994B (en) * 2023-07-03 2024-02-27 杭州联川生物技术股份有限公司 Gene sets, methods, media and apparatus for distinguishing tumor cells from non-tumor cells

Also Published As

Publication number Publication date
WO2023043086A1 (en) 2023-03-23

Similar Documents

Publication Publication Date Title
Rahman et al. Alternative preprocessing of RNA-Sequencing data in The Cancer Genome Atlas leads to improved analysis results
Panwar et al. miRmine: a database of human miRNA expression profiles
Porta-Pardo et al. Comparison of algorithms for the detection of cancer drivers at subgene resolution
Kristensen et al. Principles and methods of integrative genomic analyses in cancer
Zhang et al. Mining heterogeneous causal effects for personalized cancer treatment
Brentani et al. Gene expression arrays in cancer research: methods and applications
Zuo et al. Incorporating prior biological knowledge for network-based differential gene expression analysis using differentially weighted graphical LASSO
Allahyar et al. FERAL: network-based classifier with application to breast cancer outcome prediction
Alcaraz et al. Efficient key pathway mining: combining networks and OMICS data
Roy et al. Network information improves cancer outcome prediction
Xia et al. Genetic determinants of the molecular portraits of epithelial cancers
Cheng et al. Benchmarking cell-type clustering methods for spatially resolved transcriptomics data
Chen et al. Histopathological images and multi-omics integration predict molecular characteristics and survival in lung adenocarcinoma
Rietman et al. Personalized anticancer therapy selection using molecular landscape topology and thermodynamics
Weitz et al. Transcriptome-wide prediction of prostate cancer gene expression from histopathology images using co-expression-based convolutional neural networks
KR20230039167A (en) Discovery method for therapeutic target gene based on membrane protein and analysis apparatus
Fonseca-Montaño et al. Cancer genomics
Sonpatki et al. Recursive consensus clustering for novel subtype discovery from transcriptome data
Bonneville et al. A hidden Markov model to identify combinatorial epigenetic regulation patterns for estrogen receptor α target genes
Wong et al. A multi-stage approach to clustering and imputation of gene expression profiles
Crawford et al. Widespread redundancy in-omics profiles of cancer mutation states
Ma et al. New techniques to identify the tissue of origin for cancer of unknown primary in the era of precision medicine: progress and challenges
Dayton et al. Classifying cancer genome aberrations by their mutually exclusive effects on transcription
Dankó et al. SplicingFactory—splicing diversity analysis for transcriptome data
Li et al. Alternative polyadenylation modification patterns reveal essential posttranscription regulatory mechanisms of tumorigenesis in multiple tumor types