KR101884073B1 - micro-RNA ID analysis method through data mining of micro RNA - Google Patents

micro-RNA ID analysis method through data mining of micro RNA Download PDF

Info

Publication number
KR101884073B1
KR101884073B1 KR1020160120532A KR20160120532A KR101884073B1 KR 101884073 B1 KR101884073 B1 KR 101884073B1 KR 1020160120532 A KR1020160120532 A KR 1020160120532A KR 20160120532 A KR20160120532 A KR 20160120532A KR 101884073 B1 KR101884073 B1 KR 101884073B1
Authority
KR
South Korea
Prior art keywords
mirna
folds
less
expression level
data
Prior art date
Application number
KR1020160120532A
Other languages
Korean (ko)
Other versions
KR20180031980A (en
Inventor
이정상
강진욱
Original Assignee
전주대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전주대학교 산학협력단 filed Critical 전주대학교 산학협력단
Priority to KR1020160120532A priority Critical patent/KR101884073B1/en
Publication of KR20180031980A publication Critical patent/KR20180031980A/en
Application granted granted Critical
Publication of KR101884073B1 publication Critical patent/KR101884073B1/en

Links

Images

Classifications

    • G06F19/24
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G06F19/28
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법으로서, miRNA의 분석 능력을 향상하기 위하여, 2종 이상의 데이터베이스의 비교분석을 통해 정확한 miRNA를 분석하고, 이를 통하여 암세포의 발현을 예측할 수 있는 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법에 관한 것이다.
또한 본 발명에 따른 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법에 의해 유방암의 치료제 및 바이오 마커를 제공할 수 있다.
The present invention relates to a method for analyzing miRNA IDs through data mining of miRNAs. In order to improve the analysis capability of miRNAs, accurate miRNAs are analyzed through comparative analysis of two or more databases, and miRNAs capable of predicting the expression of cancer cells Lt; RTI ID = 0.0 > miRNA < / RTI >
Also, the method of analyzing miRNA ID through data mining of miRNA according to the present invention can provide a therapeutic agent and a biomarker for breast cancer.

Description

마이크로 RNA의 데이터 마이닝을 통한 마이크로 RNA ID의 분석방법{micro-RNA ID analysis method through data mining of micro RNA}(Micro-RNA ID analysis method through data mining of micro RNA)

본 발명은 마이크로 RNA(miRNA)의 데이터 마이닝을 통한 miRNA ID의 분석방법에 관한 것으로서, 더욱 상세하게는 miRNA의 분석 능력을 향상하기 위하여, 2종 이상의 데이터베이스의 비교분석을 통해 정확한 miRNA를 분석하고, 이를 통하여 암세포의 발현을 예측할 수 있는 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법에 관한 것이다.The present invention relates to a method for analyzing miRNA IDs through data mining of microRNAs (miRNAs), and more particularly to a method for analyzing miRNA IDs by comparing and analyzing two or more databases, And to a method for analyzing miRNA IDs through data mining of miRNAs capable of predicting the expression of cancer cells.

나아가 본 발명은 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법을 이용하여 도출한 miRNA ID의 바이오마커 및 치료제에 관한 것이다.Further, the present invention relates to miRNA ID biomarkers and therapeutic agents derived using miRNA ID analysis through data mining of miRNAs.

다수의 질환 상태는 유전적 DNA 카피수의 변화 또는 특정 유전자의 전사 수준의 변화를 통한 다양한 유전자의 발현 수준상의 차이를 특징으로 한다. 예를 들면, 유전물질의 득실이 악성 형질전환과 진행에 있어서 중요한 역할을 한다. 이들 유전물질 중에서 가장 중요한 역할을 하는 것으로는 miRNA가 알려져 있다.Many disease states are characterized by differences in the expression levels of various genes through changes in the number of genetic DNA copies or changes in transcription levels of particular genes. For example, the loss of genetic material plays an important role in malignant transformation and progression. MiRNAs are known to play the most important role among these genetic materials.

miRNA는 1993년 미국 하버드대 앰브로스(V.Ambros) 교수팀에 의해 처음으로 밝혀졌다. 예쁜 꼬마선충(Caenorhabditis elegans)의 발생시기를 조절하는 유전자를 찾던 중에 lin-4라고 명명된 짧은 RNA 단편이 LIN-14 단백질의 합성에 영향을 준다는 것을 발견하였으나, 이후 같은 종에서 조절인자로서 역할을 하는 let-7이라고 명명된 RNA 단편이 추가로 발견되면서 miRNA의 존재와 기능에 대한 관심이 증가하게 되었다. 또한 miRNA는 21개에서 25개의 뉴클레오티드(nucelotide)로 이루어진 작은 단일가닥염기(single-strand nucleotide)로서, 진핵생물에서 다양한 유전자의 발현을 조절하는 것으로 알려져 있다. 선충(C. elegance)에서 발현되는 miRNA가 1993년 앰브로스 그룹에 의해서 발견된 후, 현재까지 700종 이상이 인간세포에 존재하고 있음이 밝혀졌다.      miRNA was first discovered in 1993 by a team led by Harvard University professor V. Ambros. While searching for a gene that regulates the timing of Caenorhabditis elegans, it has been found that a short RNA fragment named lin-4 affects the synthesis of LIN-14 protein. The addition of an RNA fragment named let-7 led to increased interest in miRNA presence and function. Also, miRNAs are small single-strand nucleotides composed of 21 to 25 nucleotides (nucelotide), which are known to regulate the expression of various genes in eukaryotes. After miRNAs expressed in the C. elegans were discovered by the Ambrosia group in 1993, up to now, more than 700 species have been found in human cells.

miRNA의 생합성은 크게 두 가지 효소의 절단에 의해서 진행된다. 먼저 miRNA를 포함하고 있는 유전자가 RNA 중합효소 II 또는 III(RNA polymerase II/III)에 의해서 전사되어 다양한 크기의 miRNA 전사체(transcript)가 합성이 된다. 이러한 과정으로 합성된 primary miRNA(pri-miRNA)는 5‘말단에 cap (7-methylguanylate cap)과 3'말단에 poly[A] tail을 가지고 있다. Pri-miRNA는 핵 내에 존재하는 Drosha라는 RNA 절단효소와 DGCR8(DiGeorge critical region 8)으로 구성된 microprocessor complex에 의해서 70여개의 뉴클레오티드(nucleotide) 길이로 된 전구체 miRNA(pre-miRNA)로 가공된다. Pre-miRNA는 exportin5와 Ran-GTP를 통해서 세포질로 나온 후, 두 번째 절단효소인 Dicer와 TRBP(transactivating response RNA binding protein)에 의해서 20-25개의 뉴클레오티드로 구성된 성숙한 이중가닥의 miRNA로 가공된다.      The biosynthesis of miRNA is largely driven by cleavage of two enzymes. First, genes containing miRNAs are transcribed by RNA polymerase II or III (RNA polymerase II / III), and various sizes of miRNA transcripts are synthesized. The primary miRNA (pri-miRNA) synthesized by this process has cap (7-methylguanylate cap) at the 5 'end and poly [A] tail at the 3' end. Pri-miRNA is processed into a precursor miRNA (pre-miRNA) with a length of about 70 nucleotides by a microprocessor complex consisting of the Drosha RNA cleavage enzyme in the nucleus and DGCR8 (DiGeorge critical region 8). Pre-miRNAs are exported to the cytoplasm via exportin5 and Ran-GTP, and then processed into mature double-stranded miRNAs composed of 20-25 nucleotides by the second cleavage enzymes Dicer and TRBP (transactivating response RNA binding protein).

이중가닥 중에서 한 가닥은 분해되고, 다른 한 가닥만이 Ago(Argonaute)와 함께 결합하여 RISC(RNA-induced silencing complex)를 구성한다. TRBP는 Ago와 miRNA의 결합을 유도하여 miRNA가 표적유전자의 발현을 조절할 수 있도록 한다. 일반적으로 miRNA는 단백질로 번역되지 않는 3' 말단(3' untranslated region, 3'UTR)에 결합하여 mRNA의 안정성(stability)을 낮추거나 번역율(translation efficiency)을 낮추어 표적유전자의 발현을 억제한다.     One of the double strands is broken down and the other strand is bound together with Ago (Argonaute) to form a RNA-induced silencing complex (RISC). TRBP induces the binding of Ago to miRNAs and allows miRNAs to regulate the expression of target genes. In general, miRNA binds to the 3 'untranslated region (3' UTR), which is not translated into a protein, which lowers the stability of the mRNA or lowers translation efficiency to inhibit the expression of the target gene.

최근에는 생물학적으로 miRNA가 유전자의 발현을 조절하는 중요한 조절인자임이 밝혀지고, 또한 지금까지 동식물을 포함한 32가지의 종에서 15,172개의 miRNA가 발견됨에 따라 대량의 데이터를 처리하고 분석하기 위하여 생물정보학적 연구방법이 도입되었다. 또한 암억제 유전자로 알려진 BRCA1 유전자는 17번 염색체에 존재하는 암억제 유전자로 유전성 유방암의 발병과 연관이 있다고 알려져 있다.     In recent years, miRNAs have been found to be important regulators of gene expression, and 15,172 miRNAs have been found in 32 species including plants and animals. Therefore, in order to process and analyze large amounts of data, Methods have been introduced. The BRCA1 gene, also known as the tumor suppressor gene, is a cancer-suppressing gene located on chromosome 17, which is known to be associated with the development of hereditary breast cancer.

유전성 유방암은 부모의 생식세포 변연변이가 그 자손에게 유전되어 발생하므로 유전자상에 존재하는 돌연변이는 부계와 모계 양쪽으로부터 자손에 유전될 수 있다. 최근에는 코돈 패턴 마이닝법을 통하여 유전성 유방암을 유발하는 원인 유전자의 일정한 패턴들을 발견함으로써 암 발생 여부를 사전에 예측할 수 있다. 특히, 세균에서 사람에 이르기까지 연구된 모든 형태의 생물에서 같은 코돈이 같은 아미노산을 지정한다는 특성을 고려하여 유전자 패턴 중에서도 코돈 패턴에 초점을 맞추었다. 하나의 코돈 패턴은 하나의 아미노산을 지정하게 되는데, 여러 아미노산은 단백질의 구성요소가 되며, 만약 코돈의 패턴변이가 일어나게 되면 단백질이 원래의 기능을 상실하게 되어 예상치 못한 신체 이상이 생기므로 DNA 서열을 일련의 유전자 마이닝 기법을 응용하여 일정한 코돈들의 패턴을 추출하여 변이된 코돈 패턴을 발견함으로써 유방암의 조기진단에 이용될 수 있다.     Hereditary breast cancer can be inherited from both the paternal and maternal lines, because the mutation of the parent's germ cell margins is inherited to its offspring. Recently, codon pattern mining has been used to predict the onset of cancer by detecting certain patterns of genes that cause hereditary breast cancer. In particular, we focused on the codon pattern among the gene patterns, taking into account the property that the same codons designate the same amino acid in all types of organisms studied, from bacteria to humans. One codon pattern designates one amino acid, which is a component of a protein. If a codon pattern shift occurs, the protein will lose its original function, resulting in an unexpected body abnormality. By applying a series of gene mining techniques to extract patterns of certain codons and finding mutated codon patterns, it can be used for early diagnosis of breast cancer.

miRNA들의 서열 및 정보, 특징들을 저장, 관리하는 데이터베이스들이 구축되었는데, miRBase, ASRP, miRNA Map 등이 널리 이용되는 대표적인 데이터베이스들이다. 또한, miRNA 유전자 후보나 miRNA의 표적 유전자를 예측하는 다양한 알고리즘과 이를 적용할 수 있는 애플리케이션 개발도 활발히 진행되고 있다.     Databases for storing and managing miRNA sequences, information, and features have been constructed, including miRBase, ASRP, and miRNA Map. In addition, various algorithms for predicting miRNA gene candidates and target genes of miRNAs and applications for applying them are actively being developed.

miRNA 유전자의 후보를 예측하는 방법에는 일반적으로 RNA 구조(RNA conformation) 기반 검색, 유사한 서열을 가진 miRNA에 대한 호몰로지(homology) 검색, miRNA 특성 값을 적용한 기계학습(machine-learning) 방법에 의한 접근 등이 사용된다. RNA 구조에 기반한 검색은 pre-miRNA가 가지는 머리핀(hairpin) 구조의 물리화학적 특징을 이용하는 방법으로서, 특정 염기서열이 열역학적으로 안정한 머리핀 구조를 가질 수 있는 지를 계산하여 miRNA의 후보인지를 예측하는 과정이다.      Methods for predicting miRNA gene candidates generally include RNA conformation-based searches, homology searches for miRNAs with similar sequences, and machine-learning approaches using miRNA traits Etc. are used. The search based on the RNA structure is a method of utilizing the physicochemical characteristics of the hairpin structure of the pre-miRNA, and it is a process of predicting the candidate miRNA by calculating whether the specific nucleotide sequence has a thermodynamically stable hairpin structure .

호몰로지 검색에 의한 예측은 염기서열의 유사 정도를 확률적으로 계산하여 후보를 예측하는 방법으로서, 진화적으로 보존되어 있는 miRNA의 서열 예측에 매우 유용하게 적용된다. 기계학습 방법을 통한 예측은 생물정보학 연구에서 널리 사용하는 방법으로서, 이미 알려진 miRNA에 대한 염기서열이나 분포, 구조적 특이성, 진화보존성과 같은 특징들을 이용하여 반복적으로 학습(training)시킨 후에, 새로운 염기서열 정보가 입력되었을 때 학습된 사항에 따라 결과를 예측해 주는 방법이다.      Prediction by homology search is a method for predicting candidates by probabilistically calculating similarity of base sequences, and is very useful for predicting sequences of evolutionarily conserved miRNAs. Prediction through machine learning method is widely used in bioinformatics research. After repeated training using features such as base sequence, distribution, structural specificity and evolutionary conservativeness of known miRNAs, new sequence It is a method of predicting the result according to the learned information when the information is inputted.

이와 관련한 종래기술로서, 하기 특허 문헌 001은 “miRNA의 분석능력을 향상시켜 miRNA를 정확히 분석하고, 이를 통하여 암세포의 발현을 예측할 수 있는 miRNA ID의 분석방법”이 알려져 있으나, 이는 종양, 염증 및 항산화 관련유전자를 조절하는 것으로서, 대장암과 관련한 유전자를 조절하는 miRNA 바이오마커를 제공하는 것이다.      As a related art related to this, Patent Document 001 of "Patent Document 001" discloses a method of analyzing miRNA ID that can accurately analyze miRNA by improving the analysis capability of miRNA and predict the expression of cancer cells through it, And to provide miRNA biomarkers that regulate genes associated with colorectal cancer by regulating related genes.

또한 하기 특허문헌 002는 모세관 전기영동 시스템을 이용하여 다중 miRNA를 검출하는 것을 기술하고 있으나, 이와 같은 방법으로는 정확한 miRNA의 특성을 파악할 수 없다. 또 하기 특허문헌 003은 miRNA의 정량분석방법에 관한 것이나, 이는 미지의 miRNA를 파악할 수 있는 정확성이 떨어지는 실정이다. 또한 하기 특허문헌 004는 miRNA의 탐색자동화시스템에 관한 것이나, 단순한 레퍼런스 miRNA 데이터베이스(D/B)의 맵핑 툴을 이용하는 것으로 단순하게 동정하는 방법에 대해 개시되어 있을 뿐이다.      In addition, the following Patent Document 002 describes the detection of multiple miRNAs using a capillary electrophoresis system, but accurate miRNA characteristics can not be obtained by this method. The patent document 003 relates to a method for quantitative analysis of miRNA, but the accuracy with which the unknown miRNA can be identified is inferior. In addition, the following patent document 004 relates to a mi search automation system for miRNA, but it discloses only a method for simply identifying a miRNA using a mapping tool of a reference miRNA database (D / B).

이에 본 발명자들은 이러한 종래 기술상의 문제점을 해결하고자 연구를 거듭한 결과, miRNA의 데이터 마이닝을 통한 신규의 miRNA ID의 분석방법으로서, miRNA의 분석 능력을 향상하기 위하여, 2종 이상의 데이터베이스의 비교분석을 통해 정확한 miRNA를 분석하고, 이를 통하여 암세포의 발현을 예측할 수 있는 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법을 연구하여 본 발명을 완성하였다.Accordingly, the present inventors have conducted extensive research to solve the problems of the prior art. As a result, the present inventors have found that, as a method of analyzing a new miRNA ID through data mining of miRNA, a comparative analysis of two or more kinds of databases The present inventors completed the present invention by studying miRNA ID analysis method through data mining of miRNA which can accurately predict the expression of cancer cells through the analysis of miRNA.

한국등록특허 제10-1583450호(2016. 01. 03.)Korean Patent No. 10-1583450 (2016. 01. 03.) 한국공개특허공보 제10-2013-0122541호(2013. 11. 07)Korean Patent Publication No. 10-2013-0122541 (Mar. 11, 2017) 한국공개특허공보 제10-2014-0108913호(2014. 9. 15)Korean Patent Laid-Open Publication No. 10-2014-0108913 (Apr. 15, 2014) 한국공개특허공보 제10-2014-0114684호(2014. 9. 29)Korean Patent Laid-Open Publication No. 10-2014-0114684 (Apr. 29, 2014)

본 발명은 miRNA의 데이터 마이닝을 통한 최적화된 miRNA 분석방법으로서, miRNA의 분석 능력을 향상하기 위하여, 2종 이상의 데이터베이스의 비교분석을 통해 정확한 miRNA를 분석하고, 이를 통하여 암세포의 발현을 예측할 수 있는 miRNA의 데이터 마이닝을 통한 최적화된 miRNA 분석방법을 제공하는 것이다.The present invention relates to an optimized miRNA analysis method using data mining of miRNA. In order to improve the miRNA analysis ability, miRNAs are analyzed by comparing and analyzing two or more kinds of databases and miRNAs capable of predicting the expression of cancer cells To provide an optimized miRNA analysis method through data mining.

또한 본 발명은 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석결과를 이용하여 암 관련유전자를 조절하는 치료제 또는 바이오마커에 관한 것이다.The present invention also relates to a therapeutic agent or a biomarker for regulating a cancer-related gene using the result of miRNA ID analysis through data mining of miRNA.

본 발명은 (a) 미지의 바이오 시료를 준비하는 제 1단계; (b) 상기 제 1단계의 준비된 시료로부터 미지의 마이크로 RNA(miRNA)를 추출하여 서열화된 miRNA를 발현 수준의 차이에 따라 5폴드 이상, 5폴드 미만부터 2.5폴드 이상, 2.5폴드 미만의 3개 그룹으로 분류하여 발현수준별 miRNA 데이터를 제공하는 제 2단계; (c) 암유전체 지도(TCGA)로부터 데이터 플랫폼을 이용하여 발현수준별 종양 miRNA 데이터를 획득하는 제3단계; (d) 제2단계를 통해 얻어진 발현수준별 miRNA 데이터를 제3단계에서 얻어진 발현수준별 종양 miRNA 데이터와 비교하여 공통된 발현수준별 miRNA 결과를 얻는 제4단계; (e) 상기 제 4단계에서 얻어진 공통된 발현수준별 miRNA 결과로부터 발현 수준의 차이에 따라 5폴드 이상, 5폴드 미만그룹으로부터 2.5 폴드 미만의 그룹을 제거하여 재그룹화 발현수준별 miRNA 결과를 얻는 제5단계; (f) 상기 제 5단계를 통해 얻어진 재그룹화 발현 수준별 miRNA 결과를 표적예측 데이터베이스와 비교하여 공통된 결과(I)를 얻는 제 6단계; (g) 제 6단계에 의해서 miRNA ID를 얻는 제 7단계; 를 수행하는 것을 특징으로 하는 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법을 제공한다.(A) preparing an unknown bio sample; (b) extracting an unknown microRNA (miRNA) from the sample prepared in the first step and sorting the sequenced miRNA into three groups of 5 fold or more, less than 5 folds, 2.5 folds or less, 2.5 folds or less A second step of providing miRNA data according to an expression level; (c) obtaining tumor miRNA data for each level of expression using a data platform from a whole milk map (TCGA); (d) comparing the expression level-specific miRNA data obtained in the second step with the expression level-specific miRNA data obtained in the third step to obtain miRNA results according to a common expression level; (e) removing the group of less than 2.5 folds from the group of less than 5 folds and less than 5 folds according to the difference of the expression level from the common expression level-based miRNA result obtained in the fourth step to obtain the miRNA result according to the regrouping expression level; (f) comparing the miRNA results of the regrouping expression levels obtained through the fifth step with a target prediction database to obtain a common result (I); (g) a seventh step of obtaining the miRNA ID by the sixth step; The present invention also provides a method for analyzing miRNA ID through data mining of miRNA.

또한 본 발명은 상기 제6단계와 제7단계 사이에 (h) 상기 5단계를 통해 얻어진 재그룹화 발현수준별 miRNA 결과를 RNA 터 2.5폴드 이상, 2.5폴드 미만의 3개 그룹으로 다시 분류한 후, 분류된 레퍼런스 데이터베이스와 비교하여 공통된 결과(II)를 얻고, 상기 얻어진 결과 (I)와 (II)를 비교하는 단계를 더 포함하는 것을 특징으로 하는 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법을 제공한다.     Also, the present invention is characterized in that, between the sixth step and the seventh step, (h) the miRNA results according to the regrouping expression level obtained through the step 5 are classified into three groups of 2.5 or more folds and 2.5 folds or less Obtaining a common result (II) by comparing with the reference database, and comparing the obtained results (I) and (II) to the reference database, thereby providing a method for analyzing miRNA IDs through data mining of miRNAs .

또한 본 발명은 상기 제 7단계에서 얻어진 miRNA ID를 펍메드(PubMed) 데이터베이스를 이용하여 재확인하는 단계를 더 포함하는 것을 특징으로 하는 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법을 제공한다.     The present invention further provides a method for analyzing miRNA ID through data mining of miRNA, which further comprises confirming the miRNA ID obtained in the seventh step using a PubMed database.

또한 본 발명은 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법에 의하여 얻어진 miRNA ID의 분석결과를 이용하는 암 치료제를 제공한다.      In addition, the present invention provides a cancer therapeutic agent that utilizes the result of analysis of miRNA ID obtained by a method of analyzing miRNA ID through data mining of miRNA.

또한 본 발명은 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법에 의하여 얻어진 miRNA ID의 분석결과를 이용하는 암 바이오마커를 제공한다.The present invention also provides a cancer biomarker using the result of analysis of miRNA ID obtained by a method of analyzing miRNA ID through data mining of miRNA.

본 발명에 의한 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법은 miRNA의 분석 능력을 향상하기 위하여, 2종 이상의 데이터베이스의 비교분석을 통해 정확한 miRNA의 분석 효율성을 높이고, 이를 통하여 암세포의 발현을 정확하게 예측할 수 있다.The method of analyzing miRNA ID through data mining of miRNA according to the present invention enhances the efficiency of accurate miRNA analysis by comparing and analyzing two or more kinds of databases in order to improve the analysis ability of miRNA and accurately predicts the expression of cancer cells .

또한 본 발명에 따른 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석결과를 이용하여 유방암에 관련된 유전자를 조절하는 miRNA 바이오마커 또는 치료제로 제공할 수 있는 장점이 있다.Also, it has an advantage that it can be provided as a miRNA biomarker or therapeutic agent for regulating a gene related to breast cancer using the result of analysis of miRNA ID through data mining of miRNA according to the present invention.

도 1은 본 발명에 따른 miRNA의 데이터 마이닝을 통한 최적화된 miRNA 분석방법을 나타내는 흐름도이다.
도 2는 TCGA에 의해 다운로드된 유방암에 대한 로우(Raw) 데이터이다.
도 3은 BRCA 1 및 BRCA 2에 관련된 miRNA 결과이다.
도 4는 Cyclin D1에 관련된 miRNA 결과이다.
도 5은 N-RAS에 관련된 miRAN 결과이다.
도 6은 FGF3, FGF4, HER2, c-Myc에 관련된 miRNA 결과이다.
1 is a flow chart illustrating an optimized miRNA analysis method through data mining of miRNA according to the present invention.
Figure 2 is raw data for breast cancer downloaded by TCGA.
Figure 3 shows the results of miRNAs related to BRCA1 and BRCA2.
Figure 4 shows miRNA results related to Cyclin D1.
5 shows the results of miRAN related to N-RAS.
Fig. 6 shows the results of miRNAs related to FGF3, FGF4, HER2, and c-Myc.

이하, 본 발명의 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법에 대하여 바람직한 실시형태를 들어 자세하게 설명한다.Hereinafter, a method of analyzing miRNA ID through data mining of miRNA of the present invention will be described in detail with reference to preferred embodiments.

본 발명에 의한 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법은 (a) 미지의 바이오 시료를 준비하는 제 1단계; (b) 상기 제 1단계의 준비된 시료로부터 미지의 마이크로 RNA(miRNA)를 추출하여 서열화된 miRNA를 발현수준의 차이에 따라 5폴드 이상, 5폴드 미만부터 2.5폴드 이상, 2.5폴드 미만의 3개 그룹으로 분류하여 발현수준별 miRNA 데이터를 제공하는 제 2단계; (c) 암유전체 지도(TCGA)로부터 데이터 플랫폼을 이용하여 발현수준별 종양 miRNA 데이터를 획득하는 제3단계; (d) 제2단계를 통해 얻어진 발현수준별 miRNA 데이터를 제3단계에서 얻어진 발현수준별 종양 miRNA 데이터와 비교하여 공통된 발현수준별 miRNA 결과를 얻는 제4단계; (e) 상기 제 4단계에서 얻어진 공통된 발현수준별 miRNA 결과로부터 발현수준의 차이에 따라 5폴드 이상, 5폴드 미만부터 2.5폴드 이상, 2.5폴드 미만의 3개 그룹으로 다시 분류한 후, 분류된 그룹으로부터 2.5 폴드 미만의 그룹을 제거하여 재그룹화 발현 수준별 miRNA 결과를 얻는 제5단계; (f) 상기 제 5단계를 통해 얻어진 재그룹화 발현 수준별 miRNA 결과를 표적예측 데이터베이스와 비교하여 공통된 결과(I)를 얻는 제 6단계; (g) 제 6단계에 의해서 miRNA ID를 얻는 제 7단계; 를 수행하는 것을 특징으로 한다.     The method of analyzing miRNA ID through data mining of miRNA according to the present invention comprises: (a) a first step of preparing an unknown bio sample; (b) extracting an unknown microRNA (miRNA) from the sample prepared in the first step and sorting the sequenced miRNA into three groups of 5 fold or more, less than 5 folds, 2.5 folds or less, 2.5 folds or less A second step of providing miRNA data according to an expression level; (c) obtaining tumor miRNA data for each level of expression using a data platform from a whole milk map (TCGA); (d) comparing the expression level-specific miRNA data obtained in the second step with the expression level-specific miRNA data obtained in the third step to obtain miRNA results according to a common expression level; (e) dividing the expression level of the mRNA by the common expression level obtained in the fourth step into three groups of 5 folds or more, less than 5 folds, 2.5 folds or more and 2.5 folds or less, A fifth step of removing a group less than 2.5 folds to obtain miRNA results according to regrouping expression levels; (f) comparing the miRNA results of the regrouping expression levels obtained through the fifth step with a target prediction database to obtain a common result (I); (g) a seventh step of obtaining the miRNA ID by the sixth step; Is performed.

또한 상기 제6단계와 제7단계 사이에는 (h) 상기 5단계를 통해 얻어진 재그룹화 발현수준별 miRNA 결과를 RNA 레퍼런스 데이터베이스와 비교하여 공통된 결과(II)를 얻고, 상기 얻어진 결과 (I)와 (II)를 비교하는 단계를 더 포함하는 것을 특징으로 한다.      Between the sixth and seventh steps, (h) comparing the miRNA results according to the regrouping expression levels obtained in the step (5) to an RNA reference database to obtain a common result (II) And comparing the first and second threshold values with each other.

또한 (i) 상기 제 7단계에서 얻어진 miRNA ID를 펍메드(PubMed) 데이터베이스를 이용하여 재확인하는 단계를 더 포함하는 것을 특징으로 한다.     The method may further include (i) reconfirming the miRNA ID obtained in the step (7) using a PubMed database.

먼저, 상기 제 1단계에 있어서, 미지의 바이오시료는 신선한 또는 냉동된 유방암 조직, 세포, 혈액, 혈청 또는 혈장으로부터 수득된 것일 수 있지만, 이에 제한되는 것은 아니다.      First, in the first step, the unknown bio sample may be obtained from fresh or frozen breast cancer tissues, cells, blood, serum or plasma, but is not limited thereto.

또한 제 2단계의 시료로부터 미지의 miRNA를 포함하는 전체 RNA를 추출하는 방법은 당업계에 공지된 다양한 방법을 이용할 수 있으며, 바람직하게는 트리졸 또는 트리톤 X-100을 이용하여 추출할 수 있다.      Also, a method of extracting total RNA including an unknown miRNA from the sample of the second step can be performed by various methods known in the art, and can be preferably extracted using tripol or Triton X-100.

제3단계의 발현 수준별 종양 miRNA 데이터는 환자의 암세포 샘플에서 종양별 miRNA의 데이터를 IluminaGA-miRNAseq 플랫폼을 이용하여 개방형으로 쉽게 접근 가능한 암유전체지도(The Cancer Genome Atlas, TCGA)부터 추출하였고, 상기 발현 수준별 종양 miRNA 데이터는 여러 가지 정보를 포함하고 있으며, 이들 정보에는 miRNA ID, read-count, read per milion miRNA 맵(map) 등이 있다.     Tumor miRNA data for stage 3 expression levels were obtained from tumor-specific miRNA data from patient cancer cells samples from the open-accessible, accessible Cancer Genome Atlas (TCGA) using the IluminaGA-miRNAseq platform, Level-specific tumor miRNA data contains a variety of information, including miRNA ID, read-count, and read per milion miRNA map.

또한 제 5단계의 표적예측 데이터베이스는 당업계에서 다양하게 공개된 miRWalk, MicroT4, miRanda, miRBridge, miRDB, miRMap, miRNAMap, PICTAR2, PITA, RNA22, RNAhybrid, Targetscan 중에서 1종 이상을 선택하여 이용할 수 있으며, 이에 제한 된 것은 아니다.     The target prediction database in the fifth step can be selected from at least one of miRWalk, MicroT4, miRBridge, miRBridge, miRMap, miRNAMap, PICTAR2, PITA, RNA22, RNAhybrid, Targetscan, But is not limited thereto.

또한 상기 (h)에서 레퍼런스 데이터베이스는 당업계에서 다양하게 공개된 miRBase, ASRP, micro RNAMAP, miRGen, CoGemiR 중에서 1종 이상을 선택하여 이용할 수 있으며, 이에 제한된 것은 아니다.     In (h), at least one of miRBase, ASRP, micro RNAMAP, miRGen, and CoGemiR may be selected and used in the reference database, but the present invention is not limited thereto.

또한 상기 제 7단계에서 얻어진 miRNA ID를 펍메드(PubMed) 데이터베이스를 이용하여 재확인하는 단계를 더 포함하며, 펍메드에서 게시된 논문을 검색하고 교착 확인하여 miRNA ID를 재확인할 수 있으며, 펍메드의 대표키워드는 miR- 이며, miRNA ID와 표적 예측데이터베이스의 miRNA와의 상관관계를 입증할 수 있으나, 이에 제한된 것은 아니다.     Further, the method may further comprise confirming the miRNA ID obtained in the seventh step using a PubMed database. The miRNA ID may be re-confirmed by searching for papers published in the pub med and confirming that the miRNA ID is obtained, The representative keyword is miR-, and it is possible to prove, but not limited to, the correlation between the miRNA ID and the miRNA of the target prediction database.

나아가 본 발명으로 얻어진 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법을 이용하여 종양유전자 및 종양억제유전자를 파악할 수 있는데, 상기 종양유전자로서는 HER2, CyclinD1, N-RAS, FGF3, FGF4, C-Myc 등이 있고, 종양억제유전자로서는 BRCA1, BRCA2 등이 있다. 이들 중에서 1종 이상의 조합을 통하여 비교 분석할 수 있다.      Further, the oncogene and the tumor suppressor gene can be identified using miRNA ID analysis method using data mining of miRNA obtained by the present invention. Examples of the oncogene gene include HER2, Cyclin D1, N-RAS, FGF3, FGF4, C-Myc And tumor suppressor genes such as BRCA1 and BRCA2. And a comparative analysis can be carried out through a combination of at least one of them.

BRCA 유전자에는 BRCA1과 BRCA2가 있다. BRCA1 유전자는 17번 염색체에 있으며, BRCA2는 13번 염색체에 위치한다. BRCA 유전자는 DNA가 손상될 경우 다른 단백질과 반응해 이를 수리하는 역할을 한다. 따라서 BRCA 유전자가 정상 기능을 하지 못하면 DNA 수리에 문제가 발생해 암 발생 위험이 증가한다. 특히, 문제가 되는 것은 유전자 돌연변이(Gene Mutation)다. BRCA 유전자 돌연변이가 나타나면 유방암이나 난소암 발생위험이 급격히 커진다. 유전자 돌연변이란 DNA 염기 서열 변화로 인해 부모에게 없던 형질이 자손에게 나타나는 것이다.      BRCA genes include BRCA1 and BRCA2. The BRCA1 gene is located on chromosome 17, and the BRCA2 is located on chromosome 13. The BRCA gene, when damaged by DNA, reacts with other proteins and repairs them. Therefore, if the BRCA gene does not function normally, DNA repair problems will occur and the risk of cancer will increase. In particular, the problem is the gene mutation (Gene Mutation). BRCA gene mutations are associated with a dramatic increase in the risk of breast and ovarian cancer. A gene mutation is a change in DNA sequence that causes a trait that is not present in the parent to appear in the offspring.

유방암과 난소암의 발생 위험 정도는 BRCA 유전자 돌연변이에 따라 달라진다. BRCA1과 BRCA2 유전자 돌연변이를 모두 가진 여성의 유방암 발생 위험은 60~85% 정도다. 둘 중에서 BRCA1 유전자에 이상이 생기면 난소암 발생 위험이 커진다. BRCA2 유전자 변이는 난소암과의 연관성은 상대적으로 적지만, 췌장암이나 위암 등의 발생에 영향을 준다고 알려졌다.      The risk of developing breast cancer and ovarian cancer depends on the BRCA gene mutation. Women with both BRCA1 and BRCA2 mutations have a risk of developing breast cancer of 60 to 85 percent. The risk of developing ovarian cancer increases when an abnormality is found in the BRCA1 gene. The BRCA2 gene mutation is known to be associated with the development of pancreatic cancer and stomach cancer, although its association with ovarian cancer is relatively small.

HER2 나 cyclin D1에 관한 유전자연구는 하버드 의대 연구진에 의해서 초기 유방암 발달에 요구되는 두 가지의 유전적 신호를 발견하였다. 이들은 배양한 유방 조직에 HER2 나 cyclin D1 유전자를 도입하였으며, 이에 따라 3차원적 모델에서 일어나는 효과를 추적하였다. HER2 나 cyclin D1 모두 유방 세포의 움푹 파인 곳으로의 증식을 촉진하였고, cyclin D 생산 조직은 증식하는 세포가 자가 세포 죽음에 의해 사멸하기 쉽기 때문에 움푹 파인 곳을 유지하였다. 대조적으로, HER2는 생존 신호항 죽음 신호, a survival (or anti-death) signal를 제공하여 세포로 하여금 움푹 파인 곳을 채우도록 하였다. 이렇게 채워진 구조는 초기 유방 종양의 병리 상태와 닮았다. 따라서 초기 유방암 발달 단계에서 종양 세포가 증식할 뿐만 아니라 정상 세포의 죽음도 극복해야 하는 기작으로 선 구조(glandular architecture)를 유지한다는 것을 보여 주었다.     Genetic studies on HER2 and cyclin D1 have found two genetic signals required for early breast cancer development by Harvard Medical School researchers. They introduced HER2 or cyclin D1 gene into the cultured breast tissue and thus tracked the effects of the three-dimensional model. Both HER2 and cyclin D1 promoted the proliferation of the breast cells to the depressed sites, and the cyclin D production tissues maintained a depressed location because proliferating cells were prone to death by autologous cell death. In contrast, HER2 provided a survival signal (or anti-death) signal to allow cells to fill the depression. This filled structure resembles the pathology of early breast tumors. Thus, it has been shown that the tumor cells maintain their glandular architecture in the early stage of breast cancer development by overcoming the death of normal cells as well as the proliferation of tumor cells.

N-RAS 유전자는 설치류 레트로바이러스의 바이러스암유전자(v-ras)로 동정된 유전자 중의 하나로서, 포유류의 세포유전자인 c-H-ras1, c-K-ras2, N-ras의 3종류가 패밀리를 형성한다. 사람염색체 상에서는 각각 11p11.5, 12p12.1, 1p13에 존재하고, 4개의 코딩엑손으로 구성되며, 구아닌뉴클레오티드를 결합하여 세포막 내측에 편재하는 189개의 아미노산을 함유하는 21kDa의 단백질(p21)을 코드한다. K-ras유전자는 2종류의 엑손 4가 있으므로 Ras 유전자산물로서 K-Ras 4A, K-Ras 4B, H-Ras, N-Ras의 4종류가 존재한다.     The N-RAS gene is one of the genes identified as a viral cancer gene (v-ras) of rodent retrovirus. Three types of mammalian cell genes c-H-ras1, c-K-ras2 and N-ras form the family. The 21 kDa protein (p21), which is present on the human chromosome at 11p11.5, 12p12.1 and 1p13, and consists of 4 coding exons and contains 189 amino acids that bind to the guanine nucleotide and localize in the cell membrane, is encoded . There are four kinds of Ras gene products, K-Ras 4A, K-Ras 4B, H-Ras and N-Ras.

FGF3, FGF4 유전자는 섬유 아세포 성장인자 패밀리의 일종으로서, 분열 및 세포 생존 활동 및 배아 발달, 세포 성장을 포함한 생물학적 과정의 다양한 참여형태를 가지고, 조직 복구, 종양 성장 및 침윤이 되며, 유전자는 종양 형질전환 활성에 의해 확인되었다. FGF4 유전자는 염색체 11 공동 증폭에 밀접하게 있는 인간 종양의 다양한 종류에서 발견되었다.     The FGF3, FGF4 gene is a type of fibroblast growth factor family that has various forms of biological processes including cleavage and cell survival activity and embryo development, cell growth, tissue repair, tumor growth and invasion, Was confirmed by conversion activity. The FGF4 gene was found in a wide variety of human tumors closely related to chromosome 11 cotransfection.

대부분의 암세포들에게서 c-Myc 암유전자(oncogene)의 과잉 발현이 관찰되며, 이에 따라 세포 주기의 조절이 불가능하게 된다. 정상적인 세포의 경우, c-Myc 유전자는 종양억제 유전자인 p53 의존성 ARF 단백질에 의해서 주기적인 검사를 받게 된다. 최근 ARF가 c-Myc에 미치는 직접적인 영향이 새롭게 발견되었으며, 이를 통해서 c-Myc의 비정상적인 조절에 의해서 유발되는 암을 치료하기 위한 새로운 치료법 개발이 가능해질 것으로 여겨진다. P53 종양억제 인자와의 상호작용과 함께, ARF는 c-Myc와 결합하여 c-Myc의 타깃 유전자 억제 기능이나 세포 자살을 유발하지 않고, c-Myc의 종양 억제 기능을 직접적으로 차단하는 역할이 발견되었다.      Overexpression of the c-Myc oncogene is observed in most cancer cells, making it impossible to regulate the cell cycle. In normal cells, the c-Myc gene undergoes periodic testing by the p53-dependent ARF protein, a tumor suppressor gene. Recently, a direct effect of ARF on c-Myc has been newly discovered, and it is believed that it will be possible to develop new therapies for the treatment of cancer induced by abnormal regulation of c-Myc. Together with its interaction with P53 tumor suppressor, ARF binds c-Myc and does not induce c-Myc's target gene inhibition or apoptosis, it directly blocks c-Myc tumor suppressor function .

또한 본 발명에서 사용된 용어인 ‘발현’은 소정 핵산 또는 mRNA의 측정가능한 발현 수준을 지칭한다. 핵산의 발현 수준은 당업계에서 잘 알려진 통계학적인 방법에 의해 측정될 수 있다. 또한 폴드(fold)는 발현 변화값을 의미하며, 이는 당업계에서 잘 알려져 있다.     The term " expression " as used herein also refers to the measurable expression level of a given nucleic acid or mRNA. The level of expression of the nucleic acid can be measured by a statistical method well known in the art. Fold also refers to the expression change value, which is well known in the art.

miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법을 위해서는 하기의 방법을 통해 실시할 수 있다.     A method for analyzing miRNA ID through data mining of miRNA can be performed by the following method.

(1) miRNA 서열 데이터는 미지의 시료에서 리드 카운트(read count)에 기초하여 컴퓨터화한 miRNA의 정량적인 발현 수준을 포함한다. 둘 이상의 샘플에서의 miRNA 발현 비교를 위해, 각각의 서열 분석 샘플에서의 발현 수준은 샘플에서 총 리드 수에 의해 정규화된다. RPM은 각 샘플에 대해 생산된 정규화 발현 수준의 값이다. 따라서 데이터에서의 miRNAs의 발현수준을 필요로 하기 때문에 miRNA ID 및 RPM을 사용한다.     (1) miRNA sequence data includes quantitative expression levels of computerized miRNAs based on read counts in unknown samples. For miRNA expression comparisons in more than one sample, the level of expression in each sequencing sample is normalized by the total number of leads in the sample. The RPM is the value of the normalized expression level produced for each sample. Therefore, miRNA ID and RPM are used because they require expression levels of miRNAs in the data.

(2) 플랫폼은 오류를 포함하는 모든 시퀀스를 검출하기 때문에 이러한 일루미나(Illumina)의 게놈 분석기 플랫폼과 같은 단일-분자-기반 플랫폼은 일반적으로 고유의 높은 오류를 표시한다. 높은 오류율이 낮은 리드 카운트를 야기한다. miRNAs 발현수준의 차이에 따라, 5 폴드 이상(RPM>5), 5폴드 미만에서 2.5 폴드 이상(5>RPM≥2.5), 2.5 폴드 미만(RPM<2.5)에서 miRNA IDs는 3군으로 분류(sorting)하였다. 수집된 대량의 데이터 중에서 저 수준 발현(<2.5) 및/또는 변경 없는 miRNA IDs는 오류를 방지하기 위해 제거하였다.     (2) Single-molecule-based platforms, such as the Illumina genomic analyzer platform, typically exhibit inherent high errors because the platform detects all sequences containing errors. Higher error rates result in lower lead counts. miRNA IDs were classified as 3 groups at 5 folds or more (RPM> 5), less than 5 folds at 2.5 folds or more (5> RPM ≥ 2.5), less than 2.5 folds (RPM <2.5) ). Low-level expression (<2.5) and / or unmodified miRNA IDs among large amounts of collected data were removed to prevent errors.

(3) miRNA IDs 및 분자 표적의 상호작용을 조사하기 위해, miRNA-표적 예측 데이터베이스인 mirWalk, DIANA-microT, miranda, miRBridge, miRDB, miRmap, miRNA Map, PITA, RNA22 및 Targetscan에서 가능한 miRNA IDs는 다섯 개의 신뢰할 수 있는 D/B(miRWalk, miranda, miRDB, RNA22 및 TargetScan)를 통해 재확인되었다. 다섯 데이터베이스에서 3 이상, SUM 값을 기준으로 한 miRNA IDs를 선별한다. 다섯 데이터베이스를 비교하여 두 번 확인함으로써, 우리는 3가지 사실을 얻을 수 있다. 우선 표적 유전자와 miRNA IDs 사이의 상관관계였다. 두 번째 것은 특정 유전자에 속하는 예측된 miRNAs 신뢰성이었다. 마지막 것은 의미가 없는 miRNA IDs의 완전한 제거를 통해 추출된 miRNA IDs의 정확도를 높였다.     (3) To investigate the interaction of miRNA IDs and molecular targets, miRNA IDs available in the miRNA-target prediction databases mirWalk, DIANA-microT, miranda, miRBridge, miRDB, miRmap, miRNA Map, PITA, (MiRWalk, miranda, miRDB, RNA22, and TargetScan). Select three or more miRNA IDs based on the SUM value in five databases. By comparing five databases and checking twice, we can get three facts. First, there was a correlation between the target gene and miRNA IDs. The second was the reliability of predicted miRNAs belonging to specific genes. The last one increased the accuracy of extracted miRNA IDs through the complete removal of meaningless miRNA IDs.

(4) 각 표적 유전자는 5 폴드 이상(RPM>5), 5폴드 미만에서 2.5폴드 이상(5 >RPM≥2.5) 및 2.5 폴드 미만으로 표시된 복수의 miRNA IDs를 갖는다. 분류과정에서 2.5 폴드 미만으로 표시된 miRNA ID들은 모두 제거되었으므로 더 이상 존재하지 않으며, 추출된 miRNAs는 타겟 유전자를 통해 유방암 발생을 촉진할 수 있는 종양 miRNAs가 있는 것으로 추측되었다. 각 miRNA ID 데이터는 유방암 예방에 효과적이고, 새로운 타겟이 될 수 있는 공통적인 것을 선별하기 위하여 클러스터링(clustering)한다.     (4) Each target gene has more than five folds (RPM> 5), more than 2.5 folds at less than 5 folds (5> RPM ≥ 2.5), and multiple miRNA IDs labeled less than 2.5 folds. The miRNA IDs marked as less than 2.5 folds in the classification process were no longer present because they were all removed and the extracted miRNAs were presumed to have tumor miRNAs that could promote breast cancer development through the target gene. Each miRNA ID data is clustering to screen for common, new targets that are effective in breast cancer prevention.

나아가 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법에 의해 유방암 관련 유전자를 조절하는 치료제 또는 바이오마커에 이용될 수 있다.     Furthermore, it can be used as a therapeutic agent or biomarker for regulating a breast cancer-related gene by miRNA ID analysis through data mining of miRNA.

아래의 실시예는 본 발명을 보다 구체적으로 설명하고자 한다. 이들 실시예는 본 발명을 설명하기 위한 것일 뿐, 본 발명의 범위가 아래의 실시예에 한정된 것은 아니다.     The following examples illustrate the present invention in more detail. These examples are for illustrating the present invention only and the scope of the present invention is not limited to the following examples.

<실험예 1> 냉동된 유방암조직의 RNA 추출방법<Experimental Example 1> RNA extraction method of frozen breast cancer tissue

냉동된 유방암조직의 바이오 시료를 준비하고, 준비된 바이오 시료로부터 트리아졸을 이용하여 RNA를 추출한다. 추출방법은 바이오시료 50~100mg을 잘게 부수고 나서, 트리아졸 1ml에 넣은 후, 클로로포름 0.2ml를 첨가하여 실온에서 3분간 방치하고, 12000rpm에서 15분 동안 원심분리한다. 상층액을 새 튜브에 옮긴 후에 이소프로필알콜 0.5ml를 가하여 10분간 방치한다. 다시 12000rpm에서 10분간 원심분리하여 상등액을 버리고, RNA 펠렛을 DEPC 처리한 75% 에탄올 1ml를 가하고 테이핑한 후 12000rpm에서 5분간 원심분리하여 다시 상등액을 버리고, 나머지 RNA 펠렛을 10분간 실온 건조한다.     Prepare a biosample of frozen breast cancer tissue and extract the RNA from the prepared biosample using triazole. In the extraction method, 50-100 mg of the bio sample is finely crushed, and then added to 1 ml of triazole. After adding 0.2 ml of chloroform, the mixture is left at room temperature for 3 minutes and centrifuged at 12000 rpm for 15 minutes. Transfer the supernatant to a new tube, add 0.5 ml of isopropyl alcohol, and allow to stand for 10 minutes. After centrifugation at 12000 rpm for 10 minutes, the supernatant was discarded. The RNA pellet was subjected to DEPC-treated 75% ethanol (1 ml), taped, centrifuged at 12,000 rpm for 5 minutes, discarded, and the remaining RNA pellet was dried at room temperature for 10 minutes.

<실험예 2> 체세포의 RNA 추출방법<Experimental Example 2> RNA extraction method of somatic cells

체세포 바이오 시료를 준비하고, 준비된 바이오 시료로부터 트리아졸을 이용하여 RNA를 추출한다. 추출방법은 실험예 1과 같다.      A somatic cell biosample is prepared, and RNA is extracted from the prepared biosample using triazole. The extraction method is the same as in Experimental Example 1.

<실험예 3> 생체세포의 RNA 추출방법<Experimental Example 3> RNA extraction method of biological cells

생체세포 시료를 준비하고, 준비된 생체세포 시료로부터 트리아졸을 이용하여 RNA를 추출한다. 추출방법은 생체세포시료 50~100mg을 잘게 부수는 점만 다를 뿐이고, 나머지 공정은 실험예 1과 같다.      A biological cell sample is prepared, and RNA is extracted from the prepared biological cell sample using triazole. The extraction method is different only in that 50 to 100 mg of a biological cell sample is finely ground, and the remaining steps are the same as in Experimental Example 1.

실험예 1에서 제조된 RNA펠릿을 이용하고, 공지의 전기영동시스템을 통하여 RNA의 염기서열을 파악한다. 도 1에서 나타낸 바와 같이, miRNA의 데이터 마이닝을 통한 최적화된 miRNA 분석방법을 나타내는 흐름도에 따라서 최적화된 miRNA 분석방법을 실시하였다. 파악된 염기서열을 통해 발현 수준의 차이에 따라 5폴드 이상, 5폴드 미만부터 2.5폴드 이상, 2.5폴드 미만의 3개 그룹으로 분류하였다. 그리고 암유전체지도(TCGA)로부터 데이터 플랫폼을 이용하여 발현수준별 종양 miRNA 데이터를 획득하였고, 이후 미지의 시료로부터 얻어진 발현수준별 miRNA 데이터와 암유전체지도로부터 얻어진 발현수준별 종양 miRNA 데이터를 비교하여 공통된 발현 수준별 miRNA 결과를 얻는다. 얻어진 공통된 발현수준별 miRNA 결과를 발현수준별 차이에 따라 5폴드 이상, 5폴드 미만부터 2.5폴드 이상, 2.5폴드 미만의 3개 그룹으로 분류하고, 분류된 그룹으로부터 2.5 폴드 미만의 그룹을 제거하여 재그룹화된 발현수준별 miRNA 결과(결과 A)를 얻는다. 그 후 결과 A 즉 재그룹화된 발현수준별 miRNA의 발현수준이 5폴드 이상, 5폴드 미만부터 2.5폴드 이상으로 된 그룹을 표적예측 데이터베이스인 mirWalK, DIANA-microT, miranda, miRBridge, MiRDB, Mirmap, miRNA Map, PITA, RNA22, Targetscan와 비교하여 공통된 결과(결과 B)로부터 miRNA ID를 얻는다.      Using the RNA pellet prepared in Experimental Example 1, the nucleotide sequence of the RNA is determined through a known electrophoresis system. As shown in FIG. 1, an optimized miRNA analysis method was performed according to a flowchart showing an optimized miRNA analysis method through data mining of miRNA. Based on the identified nucleotide sequences, the groups were divided into three groups: 5 folds or more, less than 5 folds, 2.5 folds or less and 2.5 folds or less, depending on the level of expression level. Tumor miRNA data of each expression level was obtained using the data platform from the whole milk map (TCGA), and then miRNA data by expression level obtained from unknown sample and tumor miRNA data by expression level obtained from whole milk map were compared with each other, Obtain the result. Based on differences in expression levels, the obtained miRNA results were classified into three groups of 5 folds or more, 5 folds less than 2.5 folds and less than 2.5 folds, and groups less than 2.5 folds were removed from the classified groups to regroup Obtain miRNA results (result A) by expression level. After that, the results were compared with those of the target prediction groups, mirWalK, DIANA-microT, miranda, miRBridge, MiRDB, Mirmap, miRNA Map , PITA, RNA22, and Targetscan (result B).

이어서 결과 A 즉 재그룹화된 발현수준별 miRNA의 발현수준이 5폴드 이상, 5폴드 미만부터 2.5폴드 이상으로 된 그룹을 다시 레퍼런스 데이터베이스인 miRBase, ASRP, micro RNAMAP, miRGen, CoGemiR와 비교하여 공통된 결과(결과 c)를 얻는다. 얻어진 결과 B와 C를 서로 비교하여 공통된 결과로부터 miRNA ID를 얻는다. 얻어진 miRNA ID를 공지의 펍메드(PubMed) 데이터베이스를 이용하여 miRNA ID를 재확인하여 이로부터 정확성이 높은 miRNA ID를 얻는다.     Subsequently, the results were compared with reference groups miRBase, ASRP, micro RNAMAP, miRGen, and CoGemiR, again with reference groups, in which the expression levels of miRNAs regrouped at more than 5 folds and less than 5 folds at 2.5 folds or more, c). The result B and C are compared with each other to obtain the miRNA ID from a common result. The obtained miRNA ID is re-confirmed using the public PubMed database to obtain the miRNA ID having high accuracy from the miRNA ID.

실험예 2로부터 제조된 RNA펠렛을 이용하고, 공지의 전기영동시스템을 통하여 RNA의 염기서열을 파악한다.      Using the RNA pellet prepared from Experimental Example 2, the nucleotide sequence of the RNA is determined through a known electrophoresis system.

파악된 염기서열을 통해 발현수준의 차이에 따라 5폴드 이상, 5폴드 미만부터 2.5폴드 이상, 2.5폴드 미만의 3개 그룹으로 분류하였다. 그리고 암유전체 지도(TCGA)로부터 데이터 플랫폼을 이용하여 발현 수준별 종양 miRNA 데이터를 획득하였고, 이후 미지의 시료로부터 얻어진 발현수준별 miRNA 데이터와 암유전체지도로부터 얻어진 발현수준별 종양 miRNA 데이터를 비교하여 공통된 발현 수준별 miRNA 결과를 얻는다. 얻어진 공통된 발현수준별 miRNA 결과를 발현수준별 차이에 따라 5폴드 이상, 5폴드 미만부터 2.5폴드 이상, 2.5폴드 미만의 3개 그룹으로 분류하고, 분류된 그룹으로부터 2.5 폴드 미만의 그룹을 제거하여 재그룹화된 발현수준별 miRNA 결과(결과 D)를 얻는다. 그 후 결과 D 즉 재그룹화된 발현수준별 miRNA의 발현수준이 5폴드 이상, 5폴드 미만부터 2.5폴드 이상으로 된 그룹을 표적예측 데이터베이스인 mirWalK, DIANA-microT, miranda, miRBridge, MiRDB, Mirmap, miRNA Map, PITA, RNA22, Targetscan와 비교하여 공통된 결과(결과 E)로부터 miRNA ID를 얻는다.     Based on the identified nucleotide sequences, the groups were divided into three groups: 5 folds or more, less than 5 folds, 2.5 folds or less and 2.5 folds or less, depending on the level of expression level. Tumor miRNA data of each expression level was obtained using the data platform from the whole milk map (TCGA), and then miRNA data by expression level obtained from unknown sample and tumor miRNA data by expression level obtained from whole milk map were compared with each other, Obtain the result. Based on differences in expression levels, the obtained miRNA results were classified into three groups of 5 folds or more, 5 folds less than 2.5 folds and less than 2.5 folds, and groups less than 2.5 folds were removed from the classified groups to regroup Obtain miRNA results (result D) by expression level. After that, the result D, that is, the expression levels of miRNAs according to the regrouped expression levels were 5 fold or more and less than 5 folds and 2.5 fold or more were divided into target prediction databases mirWalK, DIANA-microT, miranda, miRBridge, MiRDB, Mirmap, miRNA Map , PITA, RNA22, and Targetscan (result E).

이어서 결과 D 즉 재그룹화된 발현수준별 miRNA의 발현수준이 5폴드 이상, 5폴드 미만부터 2.5폴드 이상으로 된 그룹을 다시 레퍼런스 데이터베이스인 miRBase, ASRP, micro RNAMAP, miRGen, CoGemiR와 비교하여 공통된 결과(결과 F)를 얻는다. 얻어진 결과 E와 F를 서로 비교하여 공통된 결과로부터 miRNA ID를 얻는다. 얻어진 miRNA ID를 공지의 펍메드(PubMed) 데이터베이스를 이용하여 miRNA ID를 재확인하여 이로부터 정확성이 높은 miRNA ID를 얻는다.     The results were compared to the reference databases miRBase, ASRP, micro RNAMAP, miRGen, and CoGemiR, again with reference to the results D, that is, the expression level of miRNAs per regrouped expression level was 5 fold or more and less than 5 folds to 2.5 fold or more. F). The obtained results E and F are compared with each other to obtain the miRNA ID from a common result. The obtained miRNA ID is re-confirmed using the public PubMed database to obtain the miRNA ID having high accuracy from the miRNA ID.

실험예 3으로부터 제조된 RNA펠렛을 이용하고, 공지의 전기영동시스템을 통하여 RNA의 염기서열을 파악한다. 파악된 염기서열을 통해 발현수준의 차이에 따라 5폴드 이상, 5폴드 미만부터 2.5폴드 이상, 2.5폴드 미만의 3개 그룹으로 분류하였다. 그리고 암유전체 지도(TCGA)로부터 데이터 플랫폼을 이용하여 발현수준별 종양 miRNA 데이터를 획득하였고, 이후 미지의 시료로부터 얻어진 발현수준별 miRNA 데이터와 암유전체지도로부터 얻어진 발현수준별 종양 miRNA 데이터를 비교하여 공통된 발현 수준별 miRNA 결과를 얻는다. 얻어진 공통된 발현수준별 miRNA 결과를 발현수준별 차이에 따라 5폴드 이상, 5폴드 미만부터 2.5폴드 이상, 2.5폴드 미만의 3개 그룹으로 분류하고, 분류된 그룹으로부터 2.5 폴드 미만의 그룹을 제거하여 재그룹화된 발현수준별 miRNA 결과(결과 G)를 얻는다. 그 후 결과 G 즉 재그룹화된 발현수준별 miRNA의 발현수준이 5폴드 이상, 5폴드 미만부터 2.5폴드 이상으로 된 그룹을 표적예측 데이터베이스인 mirWalK, DIANA-microT, miranda, miRBridge, MiRDB, Mirmap, miRNA Map, PITA, RNA22, Targetscan와 비교하여 공통된 결과(결과 H)로부터 miRNA ID를 얻는다.     Using the RNA pellet prepared in Experimental Example 3, the nucleotide sequence of the RNA is determined through a known electrophoresis system. Based on the identified nucleotide sequences, the groups were divided into three groups: 5 folds or more, less than 5 folds, 2.5 folds or less and 2.5 folds or less, depending on the level of expression level. Tumor miRNA data of each expression level was obtained using the data platform from the whole milk map (TCGA), and then miRNA data by expression level obtained from unknown sample and tumor miRNA data by expression level obtained from whole milk map were compared with each other, Obtain the result. Based on differences in expression levels, the obtained miRNA results were classified into three groups of 5 folds or more, 5 folds less than 2.5 folds and less than 2.5 folds, and groups less than 2.5 folds were removed from the classified groups to regroup Obtain miRNA results (result G) by expression level. After that, the results were compared with those of the target prediction database, mirWalK, DIANA-microT, miranda, miRBridge, MiRDB, Mirmap, miRNA Map , PITA, RNA22, and Targetscan (result H).

이어서 결과 G 즉 재그룹화된 발현수준별 miRNA의 발현수준이 5폴드 이상, 5폴드 미만부터 2.5폴드 이상으로 된 그룹을 다시 레퍼런스 데이터베이스인 miRBase, ASRP, micro RNAMAP, miRGen, CoGemiR와 비교하여 공통된 결과(결과 I)를 얻는다. 얻어진 결과 H와 I를 서로 비교하여 공통된 결과로부터 miRNA ID를 얻는다. 얻어진 miRNA ID를 공지의 펍메드(PubMed) 데이터베이스를 이용하여 miRNA ID를 재확인하여 이로부터 정확성이 높은 miRNA ID를 얻는다.     The results were compared with those of reference groups miRBase, ASRP, micro RNAMAP, miRGen, and CoGemiR. The results were compared with those of reference groups miRBase, ASRP, miRGen and CoGemiR I). The obtained results are compared with each other to obtain miRNA IDs from common results. The obtained miRNA ID is re-confirmed using the public PubMed database to obtain the miRNA ID having high accuracy from the miRNA ID.

별첨 도 2는 TCGA에 의해 다운로드된 유방암에 대한 로우(raw) 데이터로서, 종양유전자 및 종양억제유전자와 관련하여 예측된 miRNA 목록은 발현 수준(도 3 내지 6)에 따라 분류된다.      Attachment 2 is raw data for breast cancer downloaded by the TCGA. The list of miRNAs predicted in relation to oncogenes and tumor suppressor genes is sorted according to the expression levels (Figures 3 to 6).

도 3은 BRCA1/2를 조절할 수 있는 추정 miRNA 목록에 관한 것이며, BRCA1은 5폴드 이상(≥5)의 miRNA는 전체의 11%를 점유하고[52 miRNAs], 다음에 2.5폴드 이상(> 2.5)이 1.5%[7 miRNAs]를 가진다.     Fig. 3 relates to a list of putative miRNAs capable of regulating BRCA1 / 2, wherein BRCA1 occupies 11% of the total [52 miRNAs], followed by 2.5 folds or more (> 2.5) Have 1.5% [7 miRNAs].

도 4는 miRNAs을 조절하는 Cyclin D1는 5폴드 이상(≥5)의 miRNAs는 전체의 18%를 점유하고[83 miRNAs], 다음에 2.5 폴드 이상(> 2.5)이 2%를 점유하였다[9 miRNAs]고 있다.     Figure 4 shows that Cyclin D1, which regulates miRNAs, occupies 18% of the total and 5% or more (> 5) miRNAs occupy 2% of the [83 miRNAs] "He said.

도 5는 miRNAs를 조절하는 종양유전자 N-RAS와 관련한 것으로 5폴드 이상(≥5)의 miRNAs는 전체의 23%[102 miRNAs]을 점유하였고, 2.5폴드 이상(> 2.5)이 2.9%[13 miRNAs]을 점유하였다.      Figure 5 relates to a tumor gene, N-RAS, which regulates miRNAs, with over 5 fold (≥5) miRNAs occupying 23% of the total [102 miRNAs] and over 2.5 folds (> 2.5) of 2.9% [13 miRNAs ].

도 6은 miRNA를 조절하는 종양유전자로 FGF3, FGF4, HER2, c-Myc에 관한 것인데, FGF3는 5폴드 이상(≥5)의 miRNA는 전체의 0.4%를 점유하고[2 miRNAs], 다음에 2.5폴드 이상(> 2.5)이 0.2%를 점유하였다[1 miRNA]. FGF4의 경우, 5폴드 이상(≥5)의 miRNAs는 0.4%[2 miRNAs]을 점유하였고, 다음 2.5폴드 이상(> 2.5)이 0.2%[1 miRNA]을 점유하였다. HER2의 경우, 5폴드 이상(≥5)의 miRNAs는 2.9%[13 miRNAs]를 점유하고, 다음 2.5폴드 이상(> 2.5)이 0.4%[2 miRNA]를 점유했다. C-Myc의 경우, 0.2% miRNAs는 5폴드 이상(≥5)이었다.     FIG. 6 is a tumor gene that regulates miRNAs, which is related to FGF3, FGF4, HER2, and c-Myc. FGF3 occupies 0.4% of the total miRNAs over 5 folds (≥5) [2 miRNAs] Over fold (> 2.5) occupied 0.2% [1 miRNA]. In the case of FGF4, over 5 fold (≥5) miRNAs occupied 0.4% [2 miRNAs] and over 2.5 folds (> 2.5) occupied 0.2% [1 miRNA]. For HER2, over 5 fold (≥5) miRNAs occupied 2.9% [13 miRNAs] and over 2.5 folds (> 2.5) occupied 0.4% [2 miRNAs]. For C-Myc, 0.2% miRNAs were 5 fold or greater (≥5).

이상 본 발명을 실시예 및 실험예에 의해 보다 상세하게 설명하였다. 상기 실시예는 본 발명을 보다 상세히 설명하고자 하는 예시적인 것일 뿐이고, 이에 의해 본 발명의 기술적 사상의 본질이 변하거나 범위가 축소되는 것은 아니다. 상기 실시예에서 제시되지 않은 여러 가지 실시예 및 적용예들이 가능함은 당업자에게 있어 당연할 것이다.The present invention has been described in detail by way of examples and experimental examples. The above embodiments are merely illustrative examples for explaining the present invention in more detail, and the nature of the technical idea of the present invention is not changed or reduced. It will be obvious to those skilled in the art that various embodiments and applications not shown in the above embodiments are possible.

Claims (14)

(a) 미지의 바이오 시료를 준비하는 제 1단계;
(b) 상기 제 1단계의 준비된 시료로부터 미지의 마이크로 RNA(miRNA)를 추출하여 서열화된 miRNA를 발현수준의 차이에 따라 5폴드 이상, 5폴드 미만부터 2.5폴드 이상, 2.5폴드 미만의 3개 그룹으로 분류하여 발현수준별 miRNA 데이터를 제공하는 제 2단계;
(c) 암유전체지도(TCGA)로부터 데이터 플랫폼을 이용하여 발현수준별 종양 miRNA 데이터를 획득하는 제 3단계;
(d) 제 2단계를 통해 얻어진 발현수준별 miRNA 데이터를 제 3단계에서 얻어진 발현수준별 종양 miRNA 데이터와 비교하여 공통된 발현수준별 miRNA 결과를 얻는 제 4단계;
(e) 상기 제 4단계에서 얻어진 공통된 발현수준별 miRNA 결과로부터 발현수준의 차이에 따라 5폴드 이상, 5폴드 미만부터 2.5폴드 이상, 2.5폴드 미만의 3개 그룹으로 다시 분류한 후, 분류된 그룹으로부터 2.5폴드 미만의 그룹을 제거하여 재그룹화 발현수준별 miRNA 결과를 얻는 제 5단계;
(f) 상기 제 5단계를 통해 얻어진 재그룹화 발현수준별 miRNA 결과를 표적예측 데이터베이스와 비교하여 공통된 결과(I)를 얻는 제 6단계;
(g) 제 6단계에 의해서 miRNA ID를 얻는 제 7단계;를 수행하는 것을 특징으로 하는 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법.
(a) a first step of preparing an unknown bio sample;
(b) extracting an unknown microRNA (miRNA) from the sample prepared in the first step and sorting the sequenced miRNA into three groups of 5 fold or more, less than 5 folds, 2.5 folds or less, 2.5 folds or less A second step of providing miRNA data according to an expression level;
(c) obtaining tumor miRNA data for each level of expression using a data platform from a whole milk map (TCGA);
(d) comparing the expression level-specific miRNA data obtained in the second step with the expression level-specific miRNA data obtained in the third step to obtain miRNA results according to a common expression level;
(e) dividing the expression level of the mRNA by the common expression level obtained in the fourth step into three groups of 5 folds or more, less than 5 folds, 2.5 folds or more and 2.5 folds or less, A fifth step of removing a group less than 2.5 folds to obtain miRNA results according to regrouping expression levels;
(f) comparing the miRNA results of the regrouping expression levels obtained through the fifth step with a target prediction database to obtain a common result (I);
(g) obtaining the miRNA ID by the sixth step; and performing seventh step of obtaining the miRNA ID by the sixth step.
제1항에 있어서,
상기 제 1단계의 미지의 바이오시료는 신선한 또는 냉동된 유방암조직, 세포, 혈액, 혈청 또는 혈장으로부터 수득되는 것을 특징으로 하는 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법.
The method according to claim 1,
Wherein the unknown bio sample in the first step is obtained from fresh or frozen breast cancer tissues, cells, blood, serum or plasma.
제1항에 있어서,
상기 제 2단계의 miRNA를 추출하기 위하여 트리졸 또는 트리톤 X-100을 이용하는 것을 특징으로 하는 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법.
The method according to claim 1,
Wherein miRNA ID is analyzed by data mining of miRNA using trizol or Triton X-100 to extract the miRNA of the second step.
제1항에 있어서,
상기 제 6단계의 표적예측 데이터베이스는 mirWalK, DIANA-microT, miranda, miRBridge, MiRDB, Mirmap, miRNA Map, PITA, RNA22, Targetscan 중에서 1종 이상을 선택하여 이용하는 것을 특징으로 하는 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법.
The method according to claim 1,
The target prediction database of the sixth step is selected from at least one of mirWalK, DIANA-microT, miranda, miRBridge, MiRDB, Mirmap, miRNA Map, PITA, RNA22 and Targetscan. How to analyze ID.
제1항에 있어서,
상기 제 6단계와 제 7단계사이에는 (h) 상기 5단계를 통해 얻어진 재그룹화 발현수준별 miRNA 결과를 RNA 레퍼런스 데이터베이스와 비교하여 공통된 결과(II)를 얻고, 상기 얻어진 결과 (I)와 (II)를 비교하는 단계를 더 포함하는 것을 특징으로 하는 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법.
The method according to claim 1,
Between the sixth and seventh steps, (h) comparing the miRNA results according to the regrouping expression level obtained in the step (5) with an RNA reference database to obtain a common result (II) Wherein the method comprises the steps of: (a) comparing the miRNA IDs of the miRNAs obtained in step
제5항에 있어서,
상기 제 7단계에서 얻어진 miRNA ID를 펍메드(PubMed) 데이터 베이스를 이용하여 miRNA ID를 재확인하는 단계를 더 포함하는 것을 특징으로 하는 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법.
6. The method of claim 5,
And confirming the miRNA ID using the PubMed database by confirming the miRNA ID obtained in the seventh step with the data mining method of miRNA.
제5항에 있어서,
상기 레퍼런스 데이터베이스는 miRBase, ASRP, micro RNAMAP, miRGen, CoGemiR 중에서 1종 이상을 선택하는 것을 특징으로 하는 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법.
6. The method of claim 5,
Wherein the reference database is selected from one or more of miRBase, ASRP, micro RNAMAP, miRGen, and CoGemiR.
(a) 미지의 바이오 시료를 준비하는 제 1단계;
(b) 상기 제 1단계의 준비된 시료로부터 미지의 마이크로 RNA(miRNA)를 추출하여 서열화된 miRNA를 발현수준의 차이에 따라 5폴드 이상, 5폴드 미만부터 2.5폴드 이상, 2.5폴드 미만의 3개 그룹으로 분류하여 발현수준별 miRNA 데이터를 제공하는 제 2단계;
(c) 암유전체지도(TCGA)로부터 데이터 플랫폼을 이용하여 발현수준별 종양 miRNA 데이터를 획득하는 제3단계;
(d) 제2단계를 통해 얻어진 발현수준별 miRNA 데이터를 제3단계에서 얻어진 발현 수준별 종양 miRNA 데이터와 비교하여 공통된 발현수준별 miRNA 결과를 얻는 제4단계;
(e) 상기 제 4단계에서 얻어진 공통된 발현수준별 miRNA 결과로부터 발현수준의 차이에 따라 5폴드 이상, 5폴드 미만부터 2.5폴드 이상, 2.5폴드 미만의 3개 그룹으로 다시 분류한 후에, 분류된 그룹으로부터 2.5 폴드 미만의 그룹을 제거하여 재그룹화 발현 수준별 miRNA 결과를 얻는 제5단계;
(f) 상기 제 5단계를 통해 얻어진 재그룹화 발현수준별 miRNA 결과를 표적예측 데이터베이스와 비교하여 공통된 결과(I)를 얻는 제 6단계;
(g) 제 6단계에 의해서 miRNA ID를 얻는 제 7단계;를 수행하는 miRNA의 데이터 마이닝을 통하여 최적화된 miRNA 분석방법을 이용함으로써 종양유전자 및 종양억제유전자를 파악하는 것을 특징으로 하는 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법.
(a) a first step of preparing an unknown bio sample;
(b) extracting an unknown microRNA (miRNA) from the sample prepared in the first step and sorting the sequenced miRNA into three groups of 5 fold or more, less than 5 folds, 2.5 folds or less, 2.5 folds or less A second step of providing miRNA data according to an expression level;
(c) obtaining tumor miRNA data for each level of expression using a data platform from a whole milk map (TCGA);
(d) comparing the expression level-specific miRNA data obtained in the second step with the expression level-specific miRNA data obtained in the third step to obtain miRNA results according to a common expression level;
(e) after re-classification into three groups of 5 fold or more, less than 5 folds, 2.5 folds or less, 2.5 folds or less, depending on the difference in expression level from the common expression level miRNA results obtained in the fourth step, A fifth step of removing a group less than 2.5 folds to obtain miRNA results according to regrouping expression levels;
(f) comparing the miRNA results of the regrouping expression levels obtained through the fifth step with a target prediction database to obtain a common result (I);
(g) obtaining the miRNA ID by the sixth step; and (7) obtaining the miRNA ID by the sixth step. The miRNA data mining method characterized by identifying the tumor gene and the tumor suppressor gene by using the optimized miRNA analysis method through data mining of the miRNA performing the miRNA ID RTI ID = 0.0 &gt; miRNA &lt; / RTI &gt;
제8항에 있어서,
상기 제 6단계와 제 7단계 사이에는 (h) 상기 5단계를 통해 얻어진 재그룹화 발현수준별 miRNA 결과를 RNA 레퍼런스 데이터베이스와 비교하여 공통된 결과(II)를 얻고, 상기 얻어진 결과 (I)와 (II)를 비교하는 단계를 더 포함하는 것을 특징으로 하는 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법.
9. The method of claim 8,
Between the sixth and seventh steps, (h) comparing the miRNA results according to the regrouping expression level obtained in the step (5) with an RNA reference database to obtain a common result (II) Wherein the method comprises the steps of: (a) comparing the miRNA IDs of the miRNAs obtained in step
제8항에 있어서,
상기 제 7단계에서 얻어진 miRNA ID를 펍메드(PubMed) 데이터베이스를 이용하여 miRNA ID를 재확인하는 단계를 더 포함하는 것을 특징으로 하는 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법.
9. The method of claim 8,
And confirming the miRNA ID using the PubMed database by confirming the miRNA ID obtained in the step 7 in the data mining of the miRNA.
제8항에 있어서,
상기 종양유전자는 HER2, CyclinD1, N-RAS, FGF3, FGF4, C-Myc 중에서 1종 이상을 분석하는 것을 특징으로 하는 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법.
9. The method of claim 8,
Wherein the oncogene is analyzed for one or more of HER2, Cyclin D1, N-RAS, FGF3, FGF4, and C-Myc.
제8항에 있어서,
상기 종양억제유전자는 BRCA1, BRCA2 중에서 1종 이상을 분석하는 것을 특징으로 하는 miRNA의 데이터 마이닝을 통한 miRNA ID의 분석방법.
9. The method of claim 8,
Wherein the tumor suppressor gene is one or more of BRCA1 and BRCA2.
삭제delete 삭제delete
KR1020160120532A 2016-09-21 2016-09-21 micro-RNA ID analysis method through data mining of micro RNA KR101884073B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160120532A KR101884073B1 (en) 2016-09-21 2016-09-21 micro-RNA ID analysis method through data mining of micro RNA

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160120532A KR101884073B1 (en) 2016-09-21 2016-09-21 micro-RNA ID analysis method through data mining of micro RNA

Publications (2)

Publication Number Publication Date
KR20180031980A KR20180031980A (en) 2018-03-29
KR101884073B1 true KR101884073B1 (en) 2018-07-31

Family

ID=61906984

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160120532A KR101884073B1 (en) 2016-09-21 2016-09-21 micro-RNA ID analysis method through data mining of micro RNA

Country Status (1)

Country Link
KR (1) KR101884073B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004509406A (en) 2000-09-14 2004-03-25 株式会社リバース・プロテオミクス研究所 Methods, systems, devices, and devices for discovery and creation of compounds for medical and other uses
KR101583450B1 (en) 2014-12-01 2016-01-11 전주대학교 산학협력단 Analyzing method for micro RNA ID and Biomarkers related to colon cancer through this method

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8846316B2 (en) 2012-04-30 2014-09-30 Industrial Technology Research Institute Biomarker for human liver cancer
KR20140108913A (en) 2013-03-04 2014-09-15 한국화학연구원 Method for quantitative analysis of interactions between Lin 28 protein and pre-let-7 miRNA and method for screening interaction inhibitors using the same
KR101506916B1 (en) 2013-03-19 2015-03-31 서울대학교산학협력단 Method for identifying miRNA automatically from sample using miRNA automated detection system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004509406A (en) 2000-09-14 2004-03-25 株式会社リバース・プロテオミクス研究所 Methods, systems, devices, and devices for discovery and creation of compounds for medical and other uses
KR101583450B1 (en) 2014-12-01 2016-01-11 전주대학교 산학협력단 Analyzing method for micro RNA ID and Biomarkers related to colon cancer through this method

Also Published As

Publication number Publication date
KR20180031980A (en) 2018-03-29

Similar Documents

Publication Publication Date Title
KR101884992B1 (en) Detecting method for controlling miRNA and its application of biomarker for colon cancer
Wang et al. Gene networks and microRNAs implicated in aggressive prostate cancer
Fish et al. Malignant canine mammary epithelial cells shed exosomes containing differentially expressed microRNA that regulate oncogenic networks
Manikandan et al. Oncomirs: the potential role of non-coding microRNAs in understanding cancer
Romero-Cordoba et al. Identification and pathway analysis of microRNAs with no previous involvement in breast cancer
Pedersen et al. MicroRNA-based classifiers for diagnosis of oral cavity squamous cell carcinoma in tissue and plasma
CN110177886A (en) Cluster classification and prognosis prediction system based on gastric cancer biological property
JP2010522554A (en) Gene expression signatures for cancer classification
EP2268813A1 (en) Rna molecules and uses thereof
WO2018151601A1 (en) Swarm intelligence-enhanced diagnosis and therapy selection for cancer using tumor- educated platelets
CN110168108A (en) Rareness DNA&#39;s deconvoluting and detecting in blood plasma
US20230227914A1 (en) Biomarkers of oral, pharyngeal and laryngeal cancers
CN104975019B (en) Application of the finger-print of tiny RNA composition in human ovarian cancer diagnosing and treating
CN104673883B (en) For predicting the microRNA biomarker and detection method of early stage non-metastatic colorectal cancer prognosis
US7906326B2 (en) Bioinformatically detectable group of novel regulatory oligonucleotides associated with alzheimer&#39;s disease and uses thereof
CN106191264B (en) The miRNA diagnosis marker of osteosarcoma
CN108026532A (en) New MIRNA biomarkers and application thereof
CN110628914A (en) LncRNA marker related to breast cancer, detection primer and application thereof
KR101884073B1 (en) micro-RNA ID analysis method through data mining of micro RNA
CN102851283A (en) MicroRNA markers for discriminating metastatic and non-metastatic squamous cell lung carcinoma
CN102851282B (en) MicroRNA markers for discriminating constitutional lung cancer tissue and paracancerous tissue
KR101884989B1 (en) Detecting method for controlling miRNA ID and its application of biomarker for breast cancer
KR102380453B1 (en) Method and device for correcting level of expression of small rna
KR101960597B1 (en) Method for analysis of Alzheimer biomarker microRNA ID using correction of expression gene
KR101583450B1 (en) Analyzing method for micro RNA ID and Biomarkers related to colon cancer through this method

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant