WO2022124718A1 - 인공지능을 이용하여 도출된 미토콘드리아 리보좀 유전자 세트를 이용한 유방암 예후 예측방법 - Google Patents

인공지능을 이용하여 도출된 미토콘드리아 리보좀 유전자 세트를 이용한 유방암 예후 예측방법 Download PDF

Info

Publication number
WO2022124718A1
WO2022124718A1 PCT/KR2021/018307 KR2021018307W WO2022124718A1 WO 2022124718 A1 WO2022124718 A1 WO 2022124718A1 KR 2021018307 W KR2021018307 W KR 2021018307W WO 2022124718 A1 WO2022124718 A1 WO 2022124718A1
Authority
WO
WIPO (PCT)
Prior art keywords
prognosis
breast cancer
equation
gene
expression level
Prior art date
Application number
PCT/KR2021/018307
Other languages
English (en)
French (fr)
Inventor
김이랑
이용흔
심우광
구창대
조준희
Original Assignee
주식회사 온코크로스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 온코크로스 filed Critical 주식회사 온코크로스
Publication of WO2022124718A1 publication Critical patent/WO2022124718A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Definitions

  • the present invention relates to a marker for predicting the prognosis of breast cancer using a mitochondrial ribosome gene set derived using AI.
  • breast cancer Various factors such as female hormones, family history, past history, fertility, and dietary habits are being discussed as the cause of breast cancer. A cause is suggested, but much remains veiled. According to a survey by Statistics Korea in 2005, the incidence of breast cancer among Korean women has risen sharply in recent years, surpassing cervical cancer in 1998. In particular, in 2002, breast cancer (11.1%) was the most rapidly increasing cancer compared to 2001, and the number of times women are stimulated by female hormones in a period of vigorous physiological changes such as low fertility, short lactation, early menarche, and late menopause. The incidence of breast cancer is rapidly increasing due to increased sensitivity of mammary gland tissue due to the rapid increase in breast cancer, westernization of diet, and pollution of living environment.
  • X-ray mammography is a method of examining the breast with X-rays, and it is excellent in distinguishing whether a lump is benign or malignant, and it is a method to detect hidden lumps. It is the most effective method for diagnosing breast cancer.
  • mammography has a disadvantage in that the diagnosis rate is low for Korean women who have developed mammary glands such as young women or have small and fibrous breasts.
  • Ultrasonography is used as an alternative to mammography. Ultrasonography is effective in discriminating between soft lumps and hard lumps, but the ability to differentiate between malignant tumors and benign lumps is low.
  • genomic information which is the basis of cancer research, is generated using a genome chip such as a microarray.
  • a genome chip such as a microarray.
  • the technology that can obtain information on tens of thousands of genes at once is evolving day by day, and despite the disadvantage of high cost, microarray
  • the amount of related information is increasing explosively as research activities using From the mid-2000s, such genomic information has been collected and started as a database.
  • microarrays In the case of a general expression gene chip, tens of thousands of probes representing about 20,000 to 30,000 genes are planted, and a microarray that measures precise information such as SNPs may have more than a million probes. These microarrays have relatively simple and standardized experimental methods, and are very efficient by obtaining a large amount of information at once in a short time, but analyzing the results obtained is a key and difficult bottleneck. Comprehensive analysis of tens of thousands of genes, which cannot be compared with the existing analysis of a small number of genes, can extract useful information only when not only statistical analysis technology but also extensive knowledge about the genome are supported. In addition, high-performance computing equipment capable of storing and analyzing a large amount of information is required, and related computer technology is also essential.
  • An object of the present invention is to develop new diagnostic markers with improved specificity and sensitivity for predicting the prognosis of breast cancer through AI.
  • the present invention provides a marker for predicting the prognosis of breast cancer.
  • the present invention provides a composition for predicting the prognosis of breast cancer.
  • the present invention provides a kit for predicting the prognosis of breast cancer.
  • the present invention provides an information providing method for predicting the prognosis of breast cancer.
  • the present invention provides a breast cancer prognosis prediction method performed on an electronic device.
  • biomarkers related to the prognosis of breast cancer were derived through AI implemented using deep learning through learning and verification, and cutoff values for predicting these prognosis were derived, so it was used as a marker for predicting the prognosis of breast cancer.
  • cutoff values for predicting these prognosis were derived, so it was used as a marker for predicting the prognosis of breast cancer.
  • 1 is a schematic diagram showing a data preprocessing process for deep learning.
  • FIGS. 2A and 2B are diagrams illustrating a high-risk/low-risk group screening process and selection criteria according to the prognosis of breast cancer patients.
  • 3A and 3B are diagrams showing data for screening high-risk/low-risk groups according to the prognosis of breast cancer patients:
  • FIG. 4 is a diagram showing patient data for learning and validation to be used in the configuration of the finally selected model.
  • 5 is a schematic diagram showing the process of constructing a model using Python 3.7 and Scikit-learn 0.21.2.
  • FIG. 6 is a diagram showing the results of the mitochondrial ribosome gene set for the overall survival rate of breast cancer.
  • the term "subject” or “patient” means any single individual in need of treatment, including humans, apes, monkeys, cattle, dogs, guinea pigs, rabbits, chickens, insects, and the like. Also included in the subject are any subjects who participated in a clinical study trial without any clinical manifestations of any disease, or subjects who participated in epidemiological studies or subjects used as controls.
  • sample refers to a biological sample obtained from a subject or patient.
  • Sources of biological samples may include fresh, frozen and/or preserved organ or tissue samples or solid tissue from biopsies or aspirates; blood or any blood component; The cells may be at any point in the pregnancy or development of the subject.
  • the present invention relates to a marker for predicting the prognosis of breast cancer comprising one or more genes selected from the group consisting of MRPL42, MRPL15, MRPL22, MRPS33, MRPL20, MRPL17, MRPL40, DAP3, MRPL57 and MRPL24 genes.
  • the prognosis may be overall survival (OS) or disease-free survival (RFS), but preferably overall survival.
  • OS overall survival
  • RFS disease-free survival
  • the present invention relates to a composition for predicting the prognosis of breast cancer comprising an agent for measuring the expression level of the mRNA or protein of the marker for predicting the prognosis of breast cancer of the present invention.
  • the agent for measuring the mRNA expression level of the marker is a nucleic acid sequence of the marker, a nucleic acid sequence complementary to the nucleic acid sequence, a primer pair that specifically recognizes a fragment of the nucleic acid sequence and the complementary sequence, It may include a probe, or a primer pair and a probe, and the measurement thereof is a polymerase chain reaction, real-time RT-PCR (real-time RT-PCR), reverse transcription polymerase chain reaction, competitive polymerase chain reaction (Competitive RT-PCR). ), nuclease protection assay (RNase, S1 nuclease assay), in situ hybridization, nucleic acid microarray, Northern blot, or a method selected from the group consisting of a DNA chip.
  • the agent for measuring the expression level of the protein of the marker is an antibody, antibody fragment, aptamer, avidity multimer, or peptido that specifically recognizes the full-length protein or fragment thereof of the marker. It may include mimetics (peptidomimetics), and the measurement thereof is western blot, ELISA (enzyme linked immunosorbent assay), radioimmunoassay (RIA), radioimmunodiffusion, immunoelectrophoresis, tissue immunostaining, immunity Precipitation assay (Immunoprecipitation assay), complement fixation assay (Complement Fixation Assay), FACS, mass spectrometry, or a method selected from the group consisting of protein microarray may be performed.
  • mimetics peptidomimetics
  • the prognosis may be overall survival (OS) or disease-free survival (RFS), and the composition for predicting overall survival of breast cancer is MRPL42, MRPL15, MRPL22, MRPS33, MRPL20, MRPL17, An agent for measuring the mRNA expression level or protein expression level of one or more genes selected from the group consisting of MRPL40, DAP3, MRPL57 and MRPL24 genes may be included.
  • OS overall survival
  • RFS33 disease-free survival
  • MRPL20 MRPL17
  • An agent for measuring the mRNA expression level or protein expression level of one or more genes selected from the group consisting of MRPL40, DAP3, MRPL57 and MRPL24 genes may be included.
  • the proteins expressed in the MRPL42, MRPL15, MRPL22, MRPS33, MRPL20, MRPL17, MRPL40, DAP3, MRPL57 and MRPL24 genes may include the amino acid sequences shown in SEQ ID NOs: 1 to 10, respectively.
  • the term “detection” or “measurement” refers to quantifying the concentration of a detected or measured target.
  • primer is a nucleic acid sequence having a short free 3 hydroxyl group, which can form a complementary template and base pair, and serves as a starting point for template strand copying. It refers to a short nucleic acid sequence that functions.
  • the primers can initiate DNA synthesis in the presence of reagents for polymerization (ie, DNA polymerate or reverse transcriptase) and the four different nucleoside triphosphates in an appropriate buffer and temperature.
  • probe refers to a nucleic acid fragment such as RNA or DNA corresponding to several bases to several hundred bases as short as possible to achieve specific binding to mRNA, and is labeled to determine the presence or absence of a specific mRNA.
  • the probe may be manufactured in the form of an oligonucleotide probe, a single stranded DNA probe, a double stranded DNA probe, an RNA probe, or the like.
  • hybridization is performed using each probe complementary to the MRPL42, MRPL15, MRPL22, MRPS33, MRPL20, MRPL17, MRPL40, DAP3, MRPL57, and MRPL24 genes, and the degree of gene expression can be diagnosed based on whether hybridization occurs. have.
  • the selection of suitable probes and hybridization conditions may be modified based on those known in the art, and therefore, the present invention is not particularly limited thereto.
  • the primers or probes of the present invention can be chemically synthesized using the phosphoramidite solid support method, or other well-known methods.
  • Such nucleic acid sequences may also be modified using a number of means known in the art. Non-limiting examples of such modifications include methylation, encapsulation, substitution of one or more homologues of natural nucleotides, and modifications between nucleotides, such as uncharged linkages (eg, methyl phosphonates, phossotriesters, phosphoro amidates, carbamates, etc.) or charged linkages (eg phosphorothioates, phosphorodithioates, etc.).
  • uncharged linkages eg, methyl phosphonates, phossotriesters, phosphoro amidates, carbamates, etc.
  • charged linkages eg phosphorothioates, phosphorodithioates, etc.
  • suitable conditions for hybridizing a probe with a cDNA molecule can be determined in a series of processes by an optimization procedure. These procedures are carried out as a series of procedures by those skilled in the art to establish protocols for use in the laboratory. For example, conditions such as temperature, concentration of components, hybridization and washing times, buffer components and their pH and ionic strength depend on various factors such as probe length and GC amount and target nucleotide sequence. Detailed conditions for hybridization are described in Joseph Sambrook, et al., Molecular Cloning, A Laboratory Manual, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. (2001); and M.L.M. Anderson, NucleicAcidHybridization, Springer-Verlag New York Inc. N.Y. (1999).
  • high stringency among the stringent conditions is 0.5 M NaHPO4, 7% sodium dodecyl sulfate (SDS), 1 mM EDTA at 65° C., and 0.1 ⁇ SSC (standard saline citrate)/0.1% SDS at 68° C. It means washing under conditions.
  • high stringency conditions mean washing at 48° C. in 6 ⁇ SSC/0.05% sodium pyrophosphate.
  • Low stringency conditions mean washing at 42° C. in, for example, 0.2 ⁇ SSC/0.1% SDS.
  • an antibody refers to a specific protein molecule directed to an antigenic site as a term known in the art.
  • an antibody refers to an antibody that specifically binds to a protein expressed in the MRPL42, MRPL15, MRPL22, MRPS33, MRPL20, MRPL17, MRPL40, DAP3, MRPL57 and MRPL24 genes, which are markers of the present invention.
  • the antibody production method can be prepared using a well-known method. This also includes partial peptides that can be made from the protein.
  • the form of the antibody of the present invention is not particularly limited, and a part thereof is also included in the antibody of the present invention as long as it has a polyclonal antibody, a monoclonal antibody, or antigen-binding property, and all immunoglobulin antibodies are included. Furthermore, the antibody of the present invention includes a special antibody such as a humanized antibody.
  • the present invention relates to a kit for predicting the prognosis of breast cancer, comprising the composition of the present invention.
  • the kit may further include tools and/or reagents for collecting a biological sample from a subject or patient, as well as tools and/or reagents for preparing genomic DNA, cDNA, RNA or protein from the sample. have.
  • it may include PCR primers for amplifying a relevant region of genomic DNA.
  • the kit may include probes of genetic factors useful for pharmacogenomic profiling.
  • the labeled oligonucleotide can be easily identified during analysis.
  • the kit may further contain a labeling material such as a DNA polymerase and dNTPs (dGTP, dCTP, dATP and dTTP), a fluorescent material, and the like.
  • a labeling material such as a DNA polymerase and dNTPs (dGTP, dCTP, dATP and dTTP), a fluorescent material, and the like.
  • the present invention relates to a method for providing information for predicting the prognosis of breast cancer, comprising the step of confirming the expression level of the mRNA or protein of the marker for predicting the prognosis of breast cancer of the present invention in a sample isolated from a test subject.
  • the method may further include determining that the prognosis is good.
  • X represents the expression level of the gene
  • the prognosis may be overall survival or disease-free survival.
  • the present invention administers a candidate substance to breast cancer tissue or cells, and mRNA or protein of one or more genes selected from the group consisting of MRPL42, MRPL15, MRPL22, MRPS33, MRPL20, MRPL17, MRPL40, DAP3, MRPL57 and MRPL24 genes. It relates to a screening method of a substance for improving the overall survival rate of breast cancer, comprising the step of measuring the expression level of the.
  • a breast cancer prognosis prediction method comprising a; determining a breast cancer prognosis from the gene expression data of the tissue of the gastric cancer patient based on Equation 1;
  • an input unit for inputting gene expression data of a tissue of a breast cancer patient for inputting gene expression data of a tissue of a breast cancer patient
  • a gastric cancer prognosis diagnosis apparatus comprising a; processor for predicting the prognosis of a gastric cancer patient based on Equation 1.
  • connection or connection members of the lines between the components shown in the drawings illustratively represent functional connections and/or physical or circuit connections, and in an actual device, various functional connections, physical connections that are replaceable or additional may be referred to as connections, or circuit connections.
  • connection or circuit connections.
  • the original data (.CEL) of the expression profile of all the patients corresponding to each dataset produced on the same platform was SCAN After standardization through the .UPC (Single-channel array normalization (SCAN) and Universal exPression Codes (UPC)) method, the average of the probe values corresponding to each gene among the probe sets for each GPL is calculated, the minimum value is 1.0, the maximum value is 2.0 Expression values of individual genes were generated by further transformation into ranges.
  • SCAN single-channel array normalization
  • UPC Universal exPression Codes
  • An optimal model was derived and verified using the patient data for learning and verification selected in Example 2, Python 3.7, and Scikit-learn 0.21.2. After randomly classifying each of the training data and the verification data at a ratio of 1:5, a maximum of 10 genes were finally selected from the genes corresponding to each functional group based on the training data. Primarily, the variance was less than 0.005, and the ANOVA F was based on the order of precedence of the fractional values.
  • the patients of the training data were randomly divided into 5 equal parts (StratifiedKFold) and the optimal parameters were derived from the given parameter candidates through cross-validation. The built model was finally verified ( FIG. 5 ).
  • genes belonging to each functional group ribosome, mitochondrial ribosome, immune cell surface marker, spliceosome and tRNA synthetase with high reliability in predicting the prognosis of breast cancer were finally selected.
  • the types of mitochondrial ribosome genes with high significance for the overall survival (OS) of breast cancer are as follows, and when the expression amount of the following genes is the same as the following equation, it is possible to classify a low-risk group and a high-risk group Confirmed.
  • X represents the expression level of the gene

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Microbiology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Biochemistry (AREA)
  • Evolutionary Computation (AREA)
  • Oncology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 AI를 이용하여 도출한 유방암의 예후 예측용 마커에 관한 것으로, 본 발명에 따르면, 학습 및 검증을 통한 머신러닝을 이용하여 구현한 AI를 통해 유방암의 예후와 관련된 바이오 마커들을 도출하였으며, 이들의 예후 예측을 위한 컷오프 값을 도출하였으므로, 이를 유방암의 예후 예측용 마커로서 이용할 수 있다.

Description

인공지능을 이용하여 도출된 미토콘드리아 리보좀 유전자 세트를 이용한 유방암 예후 예측방법
본 발명은 AI를 이용하여 도출한 미토콘드리아 리보좀 유전자 세트를 이용한 유방암의 예후 예측용 마커에 관한 것이다.
현재 유방암의 발병 원인으로 여성 호르몬, 가족력, 과거력, 출산력, 식생활 습관 등의 다양한 인자들이 거론되고 있고, BRCA 같은 유전자 돌연변이가 유방암의 위험성을 현저히 높힌다고 알려져 있으며, 여러 다양한 연구들을 통해 유방암 특이적인 발명 원인이 제시되고 있으나, 여전히 많은 부분이 베일에 싸여있다. 2005년 통계청 조사에 의하면, 한국 여성의 유방암 발생은 최근 급격히 증가하여 1998년 자궁경부암을 추월한 이래 2001년 발생한 한국 여성암 환자의 16.1%를 차지하면서 유방암을 제치고 여성암 1위가 되었다. 특히, 2002년에는 2001년에 비해 유방암(11.1%)이 가장 급증한 암으로 나타나 저출산, 짧은 수유기간, 이른 초경, 늦은 폐경 등 생리적으로 왕성한 신체적 변화를 겪는 시기의 여성들에서는 여성호르몬의 자극을 받는 횟수의 급격한 증가로 인한 유선조직의 민감도 증가, 식생활의 서구화, 생활환경의 오염 등의 이유로 유방암 발생이 급격하게 증가하고 있다. 유방암의 발생빈도 및 유방암으로 인한 사망률의 증가는 현재의 서구화 실태로 보아 앞으로도 상당기간 지속될 것으로 예상된다. 유방암은 암세포의 성장으로 인한 주변 조직의 침범 또는 림프절 전이 등의 증상을 초래하는 것이 보통이지만, 대부분이 아무런 증상 없이도 자가검진으로 진단될 수 있다. 따라서, 유방암으로 인한 사망률을 줄이기 위해서는 유방암을 효과적으로 조기에 진단하는 것이 매우 중요하다(Tuli R. et al., Breast J., 12: 343-348, 2006).
유방암을 진단하기 위해서 여러 가지 방법이 복합적으로 사용되고 있는데, 현재까지는 유방암 환자의 70%가 자가진단에 의해서 내원하고 있다. 그러나, 이러한 자가진단 방법은 악성종양과 양성 혹을 구분하는 것이 매우 어렵다는 단점이 있다. 그 밖에, 유방암의 진단방법으로 X-선 유방촬영법, 초음파검사법, 세침흡입세포검사법, 자기공명촬영법 등이 있는데, 최종적으로는 조직검사를 통해 확인하는 것이 중요하다. X-선 유방촬영법은 X-선으로 유방을 찍어 검사하는 방법으로 혹이 양성인지 악성인지를 감별하는데 우수할 뿐만 아니라, 숨어 있는 혹을 발견하는 방법으로서 자가진단으로 혹이 만져지기 이전에 초기의 유방암을 진단하는데 가장 효과적인 방법이다. 그러나, 유방촬영법은 젊은 여성같이 유선이 많이 발달되어 있다거나 유방이 작고 섬유질이 많은 우리나라 여성에게서는 진단율이 떨어지는 단점이 있으며, 자주 찍으면 오히려 유방암이 유발될 수도 있다는 논란이 있다. 이러한 유방촬영법의 대안으로 초음파검사법이 사용되고 있는데, 초음파검사법은 물혹과 단단한 혹을 구별하는데 효과적이긴 하지만, 악성종양과 양성 혹을 감별하는 능력은 떨어진다.
인간 유전체정보가 활발하게 활용되면서 암연구는 유전체 수준에서 메카니즘을 밝히는 방향으로 나아가고 있다. 특히 마이크로어레이를 이용하여 수만 개의 유전자의 발현패턴이나 유전자 개수의 증가 혹은 감소에 대한 정보를 바탕으로 거시적인 관점에서 암세포의 특성을 규명할 수 있게 되었다. 이러한 유전체수준의 정보를 분석하는 것은 유기적이고 복잡한 생명현상을 이해하는데 매우 획기적인 방법으로, 앞으로 더욱더 활성화될 것이다. 특히 암과 같은 복합질병(complex disease)의 경우, 소수의 특정유전자에 대한 분석으로는 편협한 결과를 얻기 쉬우며, 암의 발생 및 발달에 대한 큰 행동패턴을 포착하는 것이 중요하기 때문에 유전체 정보 분석이 반드시 필요하다. 이처럼 암 연구에 기본이 되는 대부분의 유전체 정보는 마이크로어레이와 같은 유전체 칩을 이용하여 생성되는데, 수만 개의 유전자에 대한 정보를 한꺼번에 얻을 수 있는 기술은 날로 진화하고 있으며, 고비용의 단점에도 불구하고 마이크로어레이를 이용한 연구 활동이 활발하게 전개되면서 관련정보의 양도 폭발적으로 증가하고 있다. 2000년도 중반부터 이러한 유전체 정보가 수집되어 데이터베이스화되기 시작하였고, 이렇게 수집된 정보를 이용하여 2차 및 3차 분석을 수행하는 일은 생명현상 연구의 구심점이 되어가고 있다.
일반적인 발현(expression) 유전자 칩의 경우, 약 2만-3만개의 유전자를 나타내는 수만 개의 probe가 심어져 있고, SNP와 같은 정밀한 정보를 측정하는 마이크로어레이는 백만 개 이상의 probe를 가지고 있는 경우도 있다. 이러한 마이크로어레이는 실험법이 비교적 간단하고 표준화가 되어있으며, 대량의 정보를 짧은 시간에 한꺼번에 얻어 매우 효율적이나, 얻어진 결과를 분석하는 일이 핵심이자 어려운 병목지점이 되었다. 기존의 소수의 유전자를 분석하는 것과는 비교가 되지 않는 수만 개의 유전자에 대한 종합적 분석은, 통계적 분석기술뿐 만 아니라 유전체에 대한 해박한 지식이 뒷받침되어야 비로소 유용한 정보를 캐낼 수 있는 것이다. 뿐만 아니라 대량의 정보를 저장하고 분석을 수행할 수 있는 고성능 전산장비도 필요하며, 관련 전산기술 역시 필수이다. 전통적인 생물학적 연구범위와 실험방법에만 익숙한 연구자가 수행하기 어렵기 때문에, 유전체정보가 엄청난 속도로 증가하더라도 이를 유용하게 활용하지 못하고 있는 것이 국내의 현실이다. 북미나 유럽에 비해 부족한 자본과 연구기술력에 대한 국내 사정을 감안한다면, 공개된 유전체 정보를 적극 활용하는 것이야말로 생물정보학에서 선두 지휘해야 할 부분이다. 특히 암에 대한 연구는 가장 활발하게 유전체 분석을 도입해 왔으며, 관련 정보가 상당한 양으로 축적되어 있다.
본 발명에서는 유방암의 예후를 예측할 수 있는 특이성과 민감도가 향상된 새로운 진단 마커들을 AI를 통해 개발하는 것을 목적으로 한다.
상기 목적의 달성을 위해, 본 발명은 유방암의 예후 예측용 마커를 제공한다.
또한, 본 발명은 유방암의 예후 예측용 조성물을 제공한다.
또한, 본 발명은 유방암의 예후 예측용 키트를 제공한다.
또한, 본 발명은 유방암의 예후 예측을 위한 정보제공방법을 제공한다.
또한, 본 발명은 전자기기 상에서 수행되는 유방암 예후 예측 방법을 제공한다.
본 발명에 따르면, 학습 및 검증을 통한 딥러닝을 이용하여 구현한 AI를 통해 유방암의 예후와 관련된 바이오 마커들을 도출하였으며, 이들의 예후 예측을 위한 컷오프 값을 도출하였으므로, 이를 유방암의 예후 예측용 마커로서 이용할 수 있다.
도 1은 딥러닝을 위한 데이터 전처리 과정을 나타낸 모식도이다.
도 2a,b는 유방암 환자의 예후에 따른 고위험/저위험 군 선별 과정 및 선별 기준을 나타낸 도이다.
도 3a,b은 유방암 환자의 예후에 따라 고위험/저위험 군을 선별한 데이터를 나타낸 도이다:
OS: 전체생존율(Overall Survival); 및
RFS: 무병생존기간(Replase Free Survival).
도 4는 최종 선별한 모델 구성에 사용될 학습 및 검증용 환자 데이터를 나타낸 도이다.
도 5는 Python 3.7, Scikit-learn 0.21.2을 이용하여 모델을 구성하는 과정을 나타낸 모식도이다.
도 6은 유방암 전체 생존율에 대한 미토콘드리아 리보좀 유전자세트의 결과를 나타낸 도이다.
본 명세서에서 사용되는 용어(terminology)들은 본 발명의 바람직한 실시예를 적절히 표현하기 위해 사용된 용어들로서, 이는 사용자, 운용자의 의도 또는 본 발명이 속하는 분야의 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
달리 정의되지 않는 한, 본원에서 사용된 모든 기술적 및 과학적 용어는 본 발명이 속하는 분야의 당업자가 통상적으로 이해하는 것과 동일한 의미를 갖는다. 본원에 기술된 것들과 유사하거나 등가인 임의의 방법 및 재료가 본 발명을 테스트하기 위한 실행에서 사용될 수 있지만, 바람직한 재료 및 방법이 본원에서 기술된다.
본 발명에서 용어, "대상체" 또는 "환자"는 인간, 유인원, 원숭이, 소, 개, 기니아 피그, 토끼, 닭, 곤충 등을 포함하여 치료가 요구되는 임의의 단일 개체를 의미한다. 또한, 임의의 질병 임상 소견을 보이지 않는 임상 연구 시험에 참여한 임의의 대상 또는 역학 연구에 참여한 대상 또는 대조군으로 사용된 대상이 대상에 포함된다.
본 발명에서 용어, "시료(샘플)"는 대상 또는 환자로부터 얻은 생물학적 시료를 의미한다. 생물학적 시료의 공급원은 신선한, 동결된 및/또는 보존된 장기 또는 조직 샘플 또는 생검 또는 흡인물로부터의 고형 조직; 혈액 또는 임의의 혈액 구성분; 대상의 임신 또는 발생의 임의의 시점의 세포일 수 있다.
본 명세서 전반을 통하여, 천연적으로 존재하는 아미노산에 대한 통상의 1문자 및 3문자 코드가 사용될 뿐만 아니라 Aib(α-아미노이소부티르산), Sar(N-methylglycine) 등과 같은 다른 아미노산에 대해 일반적으로 허용되는 3문자 코드가 사용된다. 또한 본 발명에서 약어로 언급된 아미노산은 하기와 같이 IUPAC-IUB 명명법에 따라 기재되었다:
알라닌: A, 아르기닌: R, 아스파라긴: N, 아스파르트산: D, 시스테인: C, 글루탐산: E, 글루타민: Q, 글리신: G, 히스티딘: H, 이소류신: I, 류신: L, 리신: K, 메티오닌: M, 페닐알라닌: F, 프롤린: P, 세린: S, 트레오닌: T, 트립토판: W, 티로신: Y 및 발린: V.
일 측면에서, 본 발명은 MRPL42, MRPL15, MRPL22, MRPS33, MRPL20, MRPL17, MRPL40, DAP3, MRPL57 및 MRPL24 유전자로 이루어진 군으로부터 선택되는 하나 이상의 유전자를 포함하는 유방암의 예후 예측용 마커에 관한 것이다.
일 구현예에서, 예후는 전체생존율(Overall Survival, OS) 또는 무병생존기간(Replase Free Survival, RFS)일 수 있으나, 바람직하게는 전체생존율일 수 있다.
일 측면에서, 본 발명은 본 발명의 유방암의 예후 예측용 마커의 mRNA 또는 단백질의 발현 수준을 측정하는 제제를 포함하는 유방암의 예후 예측용 조성물에 관한 것이다.
일 구현예에서, 마커의 mRNA의 발현 수준을 측정하는 제제는 상기 마커의 핵산서열, 상기 핵산서열에 상보적인 핵산서열, 상기 핵산서열 및 상보적인 서열의 단편을 특이적으로 인식하는 프라미어 쌍, 프로브, 또는 프라이머 쌍 및 프로브를 포함할 수 있으며, 이의 측정은 중합효소연쇄반응, 실시간 RT-PCR (Real-time RT-PCR), 역전사 중합효소연쇄반응, 경쟁적 중합효소연쇄반응(Competitive RT-PCR), Nuclease 보호 분석(RNase, S1 nuclease assay), in situ 교잡법, 핵산 마이크로어레이, 노던블랏 또는 DNA 칩으로 이루어진 군으로부터 선택되는 방법으로 수행될 수 있다.
일 구현예에서, 마커의 단백질의 발현 수준을 측정하는 제제는 상기 마커의 단백질 전장 또는 그 단편을 특이적으로 인식하는 항체, 항체단편, 앱타머(aptamer), 아비머(avidity multimer) 또는 펩티도모방체(peptidomimetics)를 포함할 수 있으며, 이의 측정은 웨스턴블랏, ELISA(enzyme linked immunosorbent assay), 방사선면역분석(RIA: Radioimmunoassay), 방사면역확산법(radioimmunodiffusion), 면역 전기영동, 조직면역염색, 면역침전 분석법(Immunoprecipitation assay), 보체 고정 분석법(Complement Fixation Assay), FACS, 질량분석 또는 단백질 마이크로어레이로 이루어진 군으로부터 선택되는 방법으로 수행될 수 있다.
일 구현예에서, 예후는 전체생존율(Overall Survival, OS) 또는 무병생존기간(Replase Free Survival, RFS)일 수 있으며, 유방암의 전체생존율 예측용 조성물은 MRPL42, MRPL15, MRPL22, MRPS33, MRPL20, MRPL17, MRPL40, DAP3, MRPL57 및 MRPL24 유전자로 이루어진 군으로부터 선택되는 하나 이상의 유전자의 mRNA의 발현 수준 또는 단백질의 발현 수준을 측정하는 제제를 포함할 수 있다.
일 구현예에서, 상기 MRPL42, MRPL15, MRPL22, MRPS33, MRPL20, MRPL17, MRPL40, DAP3, MRPL57 및 MRPL24 유전자에서 발현된 단백질은 각각 서열번호 1 내지 10으로 표시되는 아미노산 서열을 포함할 수 있다.
본 발명에서 사용된 용어 "검출" 또는 "측정"은 검출 또는 측정된 대상의 농도를 정량하는 것을 의미한다.
본 발명에서 용어, "프라이머"는 짧은 자유 3말단 수산화기 (free 3 hydroxyl group)를 가지는 핵산 서열로 상보적인 템플레이트(template)와 염기쌍 (base pair)를 형성할 수 있고 템플레이트 가닥 복사를 위한 시작 지점으로 기능을 하는 짧은 핵산 서열을 의미한다. 프라이머는 적절한 완충용액 및 온도에서 중합반응 (즉, DNA 폴리머레이트 또는 역전사효소)을 위한 시약 및 상이한 4가지 뉴클레오사이드 트리포스페이트의 존재하에서 DNA 합성이 개시할 수 있다.
본 발명에서 용어, "프로브"란 mRNA와 특이적 결합을 이룰 수 있는 짧게는 수 염기 내지 길게는 수백 염기에 해당하는 RNA 또는 DNA 등의 핵산 단편을 의미하며 라벨링 되어 있어서 특정 mRNA의 존재 유무를 확인할 수 있다. 프로브는 올리고 뉴클레오타이드(oligonucleotide) 프로브, 단쇄 DNA(single stranded DNA) 프로브, 이중쇄 DNA(double stranded DNA) 프로브, RNA 프로브 등의 형태로 제작될 수 있다. 본 발명에서는 상기 MRPL42, MRPL15, MRPL22, MRPS33, MRPL20, MRPL17, MRPL40, DAP3, MRPL57 및 MRPL24 유전자와 상보적인 각각의 프로브를 이용하여 혼성화를 실시하여, 혼성화 여부를 통해 상기 유전자 발현 정도를 진단할 수 있다. 적당한 프로브의 선택 및 혼성화 조건은 통상의 기술분야에 공지된 것을 기초로 변형할 수 있으므로 본 발명에서는 이에 대해 특별히 한정하지 않는다.
본 발명의 프라이머 또는 프로브는 포스포르아미다이트 고체 지지체 방법, 또는 기타 널리 공지된 방법을 사용하여 화학적으로 합성할 수 있다. 이러한 핵산 서열은 또한 당해 분야에 공지된 많은 수단을 이용하여 변형시킬 수 있다. 이러한 변형의 비-제한적인 예로는 메틸화, 캡화, 천연 뉴클레오타이드 하나 이상의 동족체로의 치환및 뉴클레오타이드 간의 변형, 예를 들면, 하전되지 않은 연결체 (예: 메틸 포스포네이트, 포스소트리에스테르, 포스포로아미데이트, 카바메이트 등) 또는 하전된 연결체 (예: 포스포로티오에이트, 포스포로디티오에이트 등)로의 변형이 있다.
본 발명에서, 프로브를 cDNA 분자와 혼성화시키는 적합한 조건은 최적화 절차에 의하여 일련의 과정으로 결정될 수 있다. 이런 절차는 연구실에서 사용을 위한 프로토콜을 수립하기 위하여 당업자에 의하여 일련의 과정으로 실시된다. 예를 들어, 온도, 성분의 농도, 혼성화 및 세척 시간, 완충액 성분 및 이들의 pH 및 이온세기 등의 조건은 프로브의 길이 및 GC 양 및 타깃 뉴클레오타이드 서열 등의 다양한 인자에 의존한다. 혼성화를 위한 상세한 조건은 Joseph Sambrook, et al., Molecular Cloning, A Laboratory Manual, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y.(2001); 및 M.L.M. Anderson, NucleicAcidHybridization, Springer-Verlag New York Inc. N.Y.(1999)에서 확인할 수 있다. 예를 들어, 상기 엄격조건 중에서 고 엄격조건은 0.5 M NaHPO4, 7% SDS(sodium dodecyl sulfate),1mM EDTA에서 65℃ 조건으로 혼성화하고, 0.1 x SSC(standard saline citrate)/0.1% SDS에서 68℃ 조건으로 세척하는 것을 의미한다. 또는, 고 엄격조건은 6 x SSC/0.05% 소듐 파이로포스페이트에서 48℃ 조건으로 세척하는 것을 의미한다. 저 엄격조건은 예를 들어, 0.2 x SSC/0.1% SDS에서 42℃ 조건으로 세척하는 것을 의미한다.
본 발명에서 용어, "항체"란 당해 분야에서 공지된 용어로서 항원성 부위에 대해서 지시되는 특이적인 단백질 분자를 의미한다. 본 발명의 목적상, 항체는 본 발명의 마커인 MRPL42, MRPL15, MRPL22, MRPS33, MRPL20, MRPL17, MRPL40, DAP3, MRPL57 및 MRPL24 유전자에서 발현되는 단백질에 대해 특이적으로 결합하는 항체를 의미하며, 상기 항체의 제조방법은 널리 공지된 방법을 사용하여 제조할 수 있다. 여기에는 상기 단백질에서 만들어질 수 있는 부분 펩티드도 포함된다. 본발명의 항체의 형태는 특별히 제한되지 않으며 폴리클로날 항체, 모노클로날 항체 또는 항원 결합성을 갖는 것이면 그것의 일부도 본 발명의 항체에 포함되고 모든 면역 글로불린 항체가 포함된다. 나아가, 본 발명의 항체에는 인간화 항체 등의 특수 항체도 포함된다.
일 측면에서, 본 발명은 본 발명의 조성물을 포함하는, 유방암의 예후 예측용 키트에 관한 것이다.
일 구현예에서, 상기 키트는 대상체 또는 환자로부터 생체 시료를 수집하기 위한 도구 및/또는 시약 뿐 아니라 그 시료로부터 게놈 DNA, cDNA, RNA 또는 단백질을 준비하기 위한 도구 및/또는 시약을 더 포함할 수 있다. 예를 들면, 게놈 DNA의 관련 영역을 증폭하기 위한 PCR 프라이머를 포함할 수 있다. 상기 키트는 약리게놈학적 프로파일링에 유용한 유전 인자의 프로브를 포함할 수 있다. 또한, 이러한 키트의 사용에 있어서, 표지화된 올리고뉴클레오티드를 사용하여 분석 중 용이하게 동정할 수 있다.
일 구현예에서, 상기 키트는 DNA 중합효소 및 dNTP(dGTP, dCTP, dATP 및 dTTP), 형광물질 등의 표지 물질을 추가로 더 함유할 수 있다.
일 측면에서, 본 발명은 검사 대상체로부터 분리된 시료에서 본 발명의 유방암의 예후 예측용 마커의 mRNA 또는 단백질의 발현 수준을 확인하는 단계를 포함하는 유방암의 예후 예측을 위한 정보제공방법에 관한 것이다.
일 구현예에서, 유방암의 예후 예측용 마커의 mRNA 또는 단백질의 발현 수준이 하기 수학식 1에서 Pr(Y=y)≥0.5이면 예후가 좋은 것으로 판단하는 단계를 추가로 포함할 수 있다.
[수학식 1]
Pr(Y=y│X1, X2.....,X10)=exp(Z)/(1+exp(Z));
Z=α1X12X2 + ........+ α10X10
X는 유전자의 발현양을 나타냄
Figure PCTKR2021018307-appb-img-000001
일 구현예에서, 예후는 전체생존율 또는 무병생존기간일 수 있다.
일 구현예에서, MRPL42, MRPL15, MRPL22, MRPS33, MRPL20, MRPL17, MRPL40, DAP3, MRPL57 및 MRPL24 유전자로 이루어진 군으로부터 선택되는 하나 이상의 유전자의 mRNA 또는 단백질의 발현 수준이 수학식 1에 따라 Pr(Y=y)≥0.5 면 전체생존율이 높은 것으로 판단할 수 있다.
일 측면에서, 본 발명은 유방암 조직 또는 세포에 후보 물질을 투여하고 MRPL42, MRPL15, MRPL22, MRPS33, MRPL20, MRPL17, MRPL40, DAP3, MRPL57 및 MRPL24 유전자로 이루어진 군으로부터 선택되는 하나 이상의 유전자의 mRNA 또는 단백질의 발현 수준을 측정하는 단계를 포함하는, 유방암 전체생존율을 향상시키는 물질의 스크리닝 방법에 관한 것이다.
일 구현예에서, 상기 유전자의 mRNA 또는 단백질의 발현 수준이 수학식 1에 따라 Pr(Y=y)≥0.5인 경우 인 경우 상기 후보 물질을 유방암 전체생존율을 향상시키는 물질로 판단하는 단계를 추가로 포함할 수 있다.
본 발명의 다른 측면에서는,
전자기기 상에서 수행되는 위암 예후 예측 방법에 있어서,
수학식 1을 기반으로 위암 환자의 조직의 유전자 발현 데이터로부터 유방암 예후를 판단하는 단계;를 포함하는 유방암 예후 예측 방법에 관한 것이다.
또한, 본 발명의 다른 측면에서는, 유방암 환자의 조직의 유전자 발현 데이터를 입력하는 입력부;
수학식 1을 기반으로 위암 환자의 예후를 예측하는 프로세서;를 포함하는 위암 예후 진단 장치에 관한 것이다.
본 개시에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 본 개시의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, "필수적인", "중요하게" 등과 같이 구체적인 언급이 없다면 본 개시의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.
본 개시의 명세서(특히 특허청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 개시에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 개시를 포함하는 것으로서(이에 반하는 기재가 없다면), 개시의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 마지막으로, 본 개시에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 개시가 한정되는 것은 아니다. 본 개시에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 개시를 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 개시의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.
실시예 1. 유방암 환자 조직의 발현 프로파일 수집
유방암 환자의 냉동 암 조직을 이용하여 얻은 발현 프로파일과 임상정보를 공공데이터베이스인 (Gene Expression Omnibus (https://www.ncbi.nlm.nih.gov/geo/) (해당 플랫폼: GPL570, GPL571, GPL4685, GPL96, GPL 97, GPL13667, GPL19832, GPL5175, GPL11028 및 GPL8300) 및 ArrayExpress (https://www.ebi.ac.uk/arrayexpress/))에서 확보하였다. 딥러닝을 위한 데이터 전처리 과정을 나타낸 모식도는 도 1에 나타내었다.
[표 1]
Figure PCTKR2021018307-appb-img-000002
실시예 2. 데이터 전처리
2-1. 유전자 발현 데이터 전처리
예후 관찰된 유방암 환자들의 각 조직의 마이크로어레이 데이터에서 유전자별 발현량을 표준화하기(normalize) 위해, 동일한 플랫폼으로 제작된 각 데이터셋 별로 해당하는 모든 환자의 발현 프로파일의 원본데이터 (.CEL)를 SCAN.UPC(Single-channel array normalization (SCAN) and Universal exPression Codes (UPC)) 방법을 통해 표준화 한 뒤, GPL 별 Probe set 중 각 유전자에 해당하는 Probe 값들의 평균으로 계산하고, 최소값 1.0, 최대값 2.0 범위로 추가변환하여 개별 유전자의 발현값들을 생성하였다.
2-2. 환자 특성 데이터 변환
각 데이터셋 별로 유방암 환자 특성데이터에서 전체생존기간 및 무병생존기간에 해당하는 값을 "일" 단위로 변환한 뒤, 유방암 환자의 암 조직 샘플만을 선별하였다. 그 후, 도 2에 나타난 바와 같이, 유방암 전체 환자를 사건 발생 유무 (전체생존기간-사망/무병생존기간-재발)에 따른 시간 값 분포 차이를 고려하여 전체생존기간 혹은 무병생존기간에 따라 고위험군/저위험군/이외로 분류한 뒤 예후에 따른 고위험군 (예후 나쁜 군)과 저위험군 (예후 좋은 군)을 구분하는 모델 구성에 활용하였다 (이외로 분류된 환자들은 배제함) (도 3a, 도 3b).
2-3. 모델 구성에 사용될 학습 및 검증용 환자 데이터 최종 선별
하기 표 2에 기재된 수의 각 기능군 (리보좀, 미토콘드리아리보좀, 면역세포 표면 마커, 스플라이소좀 및 tRNA 합성효소)에 속하는 유전자를 선행 연구 조사를 통해 선별하고, 각 데이터셋의 플랫폼 차이로 인해 포함하는 유전자의 종류가 다르므로, 포함되는 유전자의 개수 및 고위험군/저위험군에 포함되는 환자 수를 모두 고려하여, 유전자수 30개 이상 포함하고, 고위험군/저위험군 모두 100명 이상의 환자를 포함하도록 모델 구성에 사용될 학습 및 검증용 환자 데이터를 최종 선별하였다 (도 4). 그 결과, 실제 모델 구성에 활용된 데이터셋의 갯수는 하기 표 3과 같이 나타났다.
[표 2]
Figure PCTKR2021018307-appb-img-000003
[표 3]
Figure PCTKR2021018307-appb-img-000004
실시예 3. 유방암 예후 예측 모델 구성
상기 실시예 2에서 선별한 학습 및 검증용 환자 데이터와 Python 3.7, Scikit-learn 0.21.2을 이용하여 최적 모델을 도출하고 이를 검증하였다. 학습용 데이터와 검증용 데이터 각각을 1:5 의 비율로 랜덤하게 구분한 후, 학습용 데이터를 기반으로 각 기능군에 해당하는 유전자 중 최종으로 최대 10개 유전자를 선별하였다. 일차적으로 분산이 0.005 보다 작은 것, 그리고 ANOVA F 분별값의 우위 순서에 기준하였다. 모델 학습을 위한 파라미터 도출을 위해 학습용 데이터의 환자를 랜덤하게 5등분하여 (StratifiedKFold) 교차검증 (cross-validation)을 통해 주어진 파라미터 후보 중 최적의 파라미터를 도출하였고 검증용 데이터를 사용하여 도출된 파라미터로 구축된 모델을 최종 검증하였다 (도 5).
실시예 4. AI를 이용한 유방암 예후 판단용 마커 유전자 도출
상기 실시예 3의 유방암 예후 예측 모델을 이용하여 유방암의 예후 예측에 신뢰성이 높은 각 기능군 (리보좀, 미토콘드리아리보좀, 면역세포 표면 마커, 스플라이소좀 및 tRNA 합성효소)에 속하는 유전자들을 최종 선별하였다.
그 결과, 유방암의 전체생존기간(Overall Survival: OS)에 대한 유의성 높은 미토콘드리아 리보좀 유전자 종류는 하기와 같으며, 하기 유전자의 발현양이 하기 수학식과 같을때, 저위험군과 고위험군을 분류할 수 있음을 확인하였다.
[수학식 1]
Pr(Y=y│X1, X2.....,X10)=exp(Z)/(1+exp(Z));
Z=α1X12X2 + ........+ α10X10
X는 유전자의 발현양을 나타냄;
Figure PCTKR2021018307-appb-img-000005

Claims (7)

  1. 하기 수학식 1을 기반으로 유방암 환자의 조직의 유전자 발현 데이터로부터 유방암 예후를 판단하는 단계;를 포함하는 유방암 예후 예측 방법.
    [수학식 1]
    Pr(Y=y│X1, X2.....,X10)=exp(Z)/(1+exp(Z));
    Z=α1X12X2 + ........+ α10X10
    X는 유전자의 발현양을 나타냄;
    Figure PCTKR2021018307-appb-img-000006
  2. 제 1항에 있어서, 상기 방법은 하기 수학식 1에 따라 Pr(Y=y)≥0.5면 예후가 좋은 것으로 판단하는 것인, 방법.
  3. MRPL42, MRPL15, MRPL22, MRPS33, MRPL20, MRPL17, MRPL40, DAP3, MRPL57 및 MRPL24 유전자의 mRNA 또는 단백질의 발현 수준을 측정하는 제제;를 포함하는 유방암의 예후 예측용 키트.
  4. 제 3항에 있어서, 상기 예후는 전체생존율(Overall Survival, OS)인 것인, 키트.
  5. 제 3항에 있어서, 상기 예후는 하기 수학식 1으로 예후를 예측하는 것인, 키트.
    [수학식 1]
    Pr(Y=y│X1, X2.....,X10)=exp(Z)/(1+exp(Z));
    Z=α1X12X2 + ........+ α10X10
    X는 유전자의 발현양을 나타냄;
    Figure PCTKR2021018307-appb-img-000007
  6. 검사 대상체로부터 분리된 시료의 MRPL42, MRPL15, MRPL22, MRPS33, MRPL20, MRPL17, MRPL40, DAP3, MRPL57 및 MRPL24 유전자의 mRNA 또는 단백질의 발현 수준을 측정하는 단계;를 포함하는 유방암의 예후 예측을 위한 정보제공방법.
  7. 제 6항에 있어서, 유방암의 예후 예측은 수학식 1에 따라 Pr(Y=y)≥0.5면 예후가 좋은 것으로 판단되는 것인, 방법.
    [수학식 1]
    Pr(Y=y│X1, X2.....,X10)=exp(Z)/(1+exp(Z));
    Z=α1X12X2 + ........+ α10X10
    X는 유전자의 발현양을 나타냄;
    Figure PCTKR2021018307-appb-img-000008
PCT/KR2021/018307 2020-12-07 2021-12-06 인공지능을 이용하여 도출된 미토콘드리아 리보좀 유전자 세트를 이용한 유방암 예후 예측방법 WO2022124718A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0169949 2020-12-07
KR1020200169949A KR102271313B1 (ko) 2020-12-07 2020-12-07 인공지능을 이용하여 도출된 미토콘드리아 리보좀 유전자 세트를 이용한 유방암 예후 예측방법

Publications (1)

Publication Number Publication Date
WO2022124718A1 true WO2022124718A1 (ko) 2022-06-16

Family

ID=76601909

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/018307 WO2022124718A1 (ko) 2020-12-07 2021-12-06 인공지능을 이용하여 도출된 미토콘드리아 리보좀 유전자 세트를 이용한 유방암 예후 예측방법

Country Status (2)

Country Link
KR (1) KR102271313B1 (ko)
WO (1) WO2022124718A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102271313B1 (ko) * 2020-12-07 2021-06-30 주식회사 온코크로스 인공지능을 이용하여 도출된 미토콘드리아 리보좀 유전자 세트를 이용한 유방암 예후 예측방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010017515A2 (en) * 2008-08-08 2010-02-11 Integrated Diagnostics Inc. Breast cancer specific markers and methods of use
WO2019093814A2 (ko) * 2017-11-10 2019-05-16 서울대학교병원 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법 및 예측 시스템
KR102164052B1 (ko) * 2018-12-17 2020-10-12 연세대학교 산학협력단 암의 진단을 위한 정보를 제공하는 방법
KR102271313B1 (ko) * 2020-12-07 2021-06-30 주식회사 온코크로스 인공지능을 이용하여 도출된 미토콘드리아 리보좀 유전자 세트를 이용한 유방암 예후 예측방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010017515A2 (en) * 2008-08-08 2010-02-11 Integrated Diagnostics Inc. Breast cancer specific markers and methods of use
WO2019093814A2 (ko) * 2017-11-10 2019-05-16 서울대학교병원 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법 및 예측 시스템
KR102164052B1 (ko) * 2018-12-17 2020-10-12 연세대학교 산학협력단 암의 진단을 위한 정보를 제공하는 방법
KR102271313B1 (ko) * 2020-12-07 2021-06-30 주식회사 온코크로스 인공지능을 이용하여 도출된 미토콘드리아 리보좀 유전자 세트를 이용한 유방암 예후 예측방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KOC EMINE C., CIMEN HUSEYIN, KUMCUOGLU BERIL, ABU NADIAH, AKPINAR GURLER, HAQUE MD. EMDADUL, SPREMULLI LINDA L., KOC HASAN: "Identification and characterization of CHCHD1, AURKAIP1, and CRIF1 as new members of the mammalian mitochondrial ribosome", FRONTIERS IN PHYSIOLOGY, vol. 4, 1 July 2013 (2013-07-01), pages 1 - 15, XP055940737, DOI: 10.3389/fphys.2013.00183 *

Also Published As

Publication number Publication date
KR102271313B1 (ko) 2021-06-30

Similar Documents

Publication Publication Date Title
US20060265138A1 (en) Expression profiling of tumours
WO2022124717A1 (ko) 인공지능을 이용하여 도출된 리보좀 유전자 세트를 이용한 유방암 예후 예측방법
BRPI0616211A2 (pt) mÉtodos para o diagnàstico de cÂncer pancreÁtico
CN112567049A (zh) 鉴定胃癌状态的方法和试剂盒
CN111630186A (zh) 鉴定肺癌状态的方法和试剂盒
CN111910004A (zh) cfDNA在早期乳腺癌无创诊断中的应用
CN108977544A (zh) 用于鉴定胃癌和/或胃息肉的试剂盒及其应用
JP4477575B2 (ja) 大腸がんの検査に使用する遺伝子セット
CN113355415B (zh) 用于食管癌诊断或辅助诊断的检测试剂及试剂盒
WO2023226938A1 (zh) 甲基化生物标记物、试剂盒及用途
CN106399304B (zh) 一种与乳腺癌相关的snp标记
WO2013062261A2 (en) Newly identified colon cancer marker and diagnostic kit using the same
WO2022124718A1 (ko) 인공지능을 이용하여 도출된 미토콘드리아 리보좀 유전자 세트를 이용한 유방암 예후 예측방법
KR20180007291A (ko) 암 리스크를 검출하는 방법
CN113234821B (zh) 鉴定食管癌状态的方法和试剂盒
KR102293109B1 (ko) 인공지능을 이용하여 도출된 유전자 세트를 이용한 유방암 예후 예측방법
KR102293110B1 (ko) Ai를 이용한 유방암 예후 예측 방법
CN113897434A (zh) 鉴定肝癌状态的方法和试剂盒
JP5009289B2 (ja) Maltリンパ腫の検査方法及びキット
CN113278692A (zh) 鉴定肺结节状态的方法和试剂盒
KR102246584B1 (ko) 인공지능을 이용한 위암의 예후를 예측하는 방법
CN106636351B (zh) 一种与乳腺癌相关的snp标记及其应用
CN113278697B (zh) 一种基于外周血内基因甲基化的肺癌诊断试剂盒
CN113186282B (zh) 鉴定胰腺癌状态的方法和试剂盒
US11807908B2 (en) Genetic markers used for identifying benign and malignant pulmonary micro-nodules and the application thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21903764

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21903764

Country of ref document: EP

Kind code of ref document: A1