KR20200105069A - Method for identifying condition-specific micro rna targets with big data - Google Patents

Method for identifying condition-specific micro rna targets with big data Download PDF

Info

Publication number
KR20200105069A
KR20200105069A KR1020190023691A KR20190023691A KR20200105069A KR 20200105069 A KR20200105069 A KR 20200105069A KR 1020190023691 A KR1020190023691 A KR 1020190023691A KR 20190023691 A KR20190023691 A KR 20190023691A KR 20200105069 A KR20200105069 A KR 20200105069A
Authority
KR
South Korea
Prior art keywords
cluster
bike
mirna
mir
extended
Prior art date
Application number
KR1020190023691A
Other languages
Korean (ko)
Other versions
KR102386876B1 (en
Inventor
남덕우
Original Assignee
울산과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울산과학기술원 filed Critical 울산과학기술원
Priority to KR1020190023691A priority Critical patent/KR102386876B1/en
Publication of KR20200105069A publication Critical patent/KR20200105069A/en
Application granted granted Critical
Publication of KR102386876B1 publication Critical patent/KR102386876B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

The present invention relates to a method of investigating a micro-RNA target by conditions by using big data, capable of proposing a novel algorithm with improved prediction accuracy. According to the present invention, the method of investigating the miRNA target by conditions by using the big data includes: a first step of generating an MIR profile; a second step of extracting a seed bicluster from the MIR profile; a third step of generating a temporary extended bicluster by adding a vector having a zero rate (Z_(cut,s)) among vectors which are able to be added except for the seed bicluster in the MIR profile; a fourth step of generating an extended bicluster by removing row and column vectors, which are less dense, from the temporary extended bicluster based on a threshold value; and a fifth step of creating and updating a merged bicluster by adding the extended bicluster to the seed bicluster.

Description

빅테이터를 이용한 조건별 마이크로 RNA 표적 조사 방법{METHOD FOR IDENTIFYING CONDITION-SPECIFIC MICRO RNA TARGETS WITH BIG DATA}Micro RNA target investigation method by condition using big data {METHOD FOR IDENTIFYING CONDITION-SPECIFIC MICRO RNA TARGETS WITH BIG DATA}

본 발명은 빅데이터를 이용한 조건별 마이크로 RNA(miRNA) 표적 조사 방법에 관한 것으로, 더욱 상세하게는 빅데이터인 대용량 바이오데이터를 바이클러스터링을 통해 분석하여 조건별 마이크로 RNA(miRNA) 표적을 찾아낼 수 있는 알고리즘에 관한 기술이다. The present invention relates to a method of investigating microRNA (miRNA) targets for each condition using big data, and more particularly, it is possible to find micro RNA (miRNA) targets for each condition by analyzing large-capacity biodata, which is big data, through bike clustering. It is a description of an algorithm that exists.

마이크로 RNA(이하 miRNA)는 전사 후 mRNA의 miRNA 반응 효소에 결합하여 유전자 발현을 조절하는 작은 비 암호화 (non-coding) RNA 분자이다. 그들의 발견 이후, 광범위한 연구가 세포주기 및 분화, 만성 질환, 암 진행 및 기타 과정을 조절하는데 핵심적인 역할을 한다는 것이 밝혀졌다. miRNA의 기능이 표적 유전자에 의해 특징지어지기 때문에, 결합 서열에 기초하여 이들 표적 유전자를 체계적으로 동정하려는 노력이 있어왔다. 이 방법들이 수백 내지 수천 개의 잠재적 표적을 제공했지만, 다수의 가양성을 산출하고 검사되는 세포 조건과 관련된 특정 표적을 제안하지는 못했다. Micro RNA (hereinafter referred to as miRNA) is a small non-coding RNA molecule that regulates gene expression by binding to a miRNA-reactive enzyme in mRNA after transcription. Since their discovery, extensive research has been shown to play a key role in regulating cell cycle and differentiation, chronic disease, cancer progression and other processes. Since the function of miRNAs is characterized by target genes, efforts have been made to systematically identify these target genes based on the binding sequence. While these methods provided hundreds to thousands of potential targets, they did not yield multiple false positives and suggest specific targets related to the cellular conditions being tested.

각 miRNA에 대해 보다 확실한 mRNA 표적을 선택하기 위해 miRNA와 mRNA의 쌍을 이루는 발현 프로파일 (miRNA-mRNA 프로파일로 표시됨)이 사용되어 왔다. 즉, miRNA와 표적 mRNA 간의 역상관관계 (anticorrelation)을 이용한 방법이다. 단순한 Pearson과 Spearman 상관법 외에도 penalized regression과 베이지안 방법을 포함한 miRNA-mRNA 관계를 검출하기 위해 바인딩 서열과 miRNA-mRNA 프로파일을 모두 통합하는 많은 계산 방법이 개발되었다. 이러한 방법 중 다수는 다수 miRNA가 공통 표적 유전자를 조절하는 다 변수 선형 모델을 사용하였다. 이러한 역상관관계에 기반한 방법은 표적 예측이 향상되었지만 매우 많은 비용이 소요되는 miRNA-mRNA 프로파일이 필요하며 현재는 제한된 수의 데이터 세트만 공개된 실정이다. Paired expression profiles of miRNA and mRNA (denoted as miRNA-mRNA profiles) have been used to select more specific mRNA targets for each miRNA. In other words, it is a method using anticorrelation between miRNA and target mRNA. In addition to the simple Pearson and Spearman correlation methods, many computational methods have been developed that incorporate both binding sequences and miRNA-mRNA profiles to detect miRNA-mRNA relationships, including penalized regression and Bayesian methods. Many of these methods used multivariate linear models in which multiple miRNAs regulate common target genes. This inverse correlation-based method has improved target prediction, but requires a very costly miRNA-mRNA profile, and currently, only a limited number of data sets have been published.

miRNA 표적 예측을 개선하기 위한 또 다른 접근법은 miRNA 조절 모듈을 추정하는 것이다. 결합 서열 정보에 기초하여 miRNA와 mRNA 사이의 두 부분으로 구성된 그래프가 구성되었고 최대 바이클리크(bicliques)가 확인되었다. Another approach to improving miRNA target prediction is to estimate the miRNA regulatory module. Based on the binding sequence information, a graph consisting of two parts between miRNA and mRNA was constructed, and the maximum biliques were identified.

상기 바이클리크는 여러 miRNA가 공통된 목표를 일치시킬 수 있는 miRNA 조절 모듈을 나타낸 것으로 miRNA-mRNA 프로파일을 통합함으로써 특정 세포 조건에 대해 더 정제되었다. 세포 프로세스의 모듈러 특성으로 인해 이 모듈은 안정적인 miRNA 조절 패턴을 나타내는 것으로 간주되고 있다. 이러한 접근방법은 고정된 하나의 세포조건에 대한 miRNA 그룹의 타겟들을 제시하고 있다. 그러나 이러한 종래 기술은 안정적이지 않은 miRNA 표적군을 제공하였다. The bike was further refined for specific cellular conditions by incorporating the miRNA-mRNA profile as it represents a miRNA regulatory module in which several miRNAs can match a common target. Due to the modular nature of cellular processes, this module is considered to exhibit a stable miRNA regulation pattern. This approach suggests targets of a group of miRNAs for a fixed cell condition. However, this prior art provided an unstable miRNA target group.

본 발명은 서열 특이적 표적에 대한 대량의 mRNA 프로파일을 바이클러스터링 함으로써 다양한 세포 조건에 대한 miRNA 표적을 확인하는 새로운 접근법을 제안하고 있다. 즉, 종래의 경우 주어진 세포 조건 하에서는 miRNA 조절 모듈에 대해 miRNA 및 mRNA 표적을 바이클러스터하는 반면, 본 발명에서는 특정 miRNA에 대해서는 mRNA 표적들과 다양한 세포 조건을 바이클러스터링하는 방식을 취하고 있다. 이를 위해, Gene Expression Omnibus(GEO) 데이터베이스에서 5,518개의 인간 microarray 발현 데이터 세트를 수집하고, 관심 있는 miRNA에 대해서 mRNA 표적과 세포 조건 사이에 mRNA 변화 (fold change) 데이터를 바이클러스터링 분석하였다. 종래의 경우, 도 3에 나타난 바와 같이, 주어진 세포조건(C1, C2, …, Cn) 하에서 miRNA 조절 모듈(R1, R2, …, Rn)에 대한 miRNA 및 mRNA 표적(g1, g2, …, gn)을 바이클러스팅 한다. The present invention proposes a novel approach to identify miRNA targets for various cellular conditions by cycling large amounts of mRNA profiles for sequence-specific targets. That is, in the conventional case, under a given cellular condition, miRNA and mRNA targets are bike-clustered to a miRNA regulatory module, whereas in the present invention, mRNA targets and various cellular conditions are bike-clustered for a specific miRNA. To this end, 5,518 human microarray expression data sets were collected from the Gene Expression Omnibus (GEO) database, and mRNA fold change data between the mRNA target and the cellular condition for the miRNA of interest were analyzed by cycling. In the conventional case, as shown in FIG. 3, miRNA and mRNA targets (g1, g2, …, gn) for miRNA regulatory modules (R1, R2, …, Rn) under given cellular conditions (C1, C2, …, Cn) ) To bike clustering.

그러나 본 발명은 miRNA-mRNA 프로파일을 사용하지 않고도 다양한 세포 조건에 걸쳐 견고하게 조절되는 보다 안정적인 miRNA 표적 군을 제공한다. 도 4에 나타난 바와 같이, 본 발명은 주어진 miRNA에 대해 mRNA 표적(g1, g2, …, gn)과 세포조건들(C1, C2, …, Cn)을 바이클러스팅한다. 본 발명의 바이클러스터는 실험적으로 검증 된 표적을 사용하여 평가되었으며 순수한 서열 기반 방법과 비교하여 상당히 향상된 정확도를 보였다. 더욱이, 다른 표적 유전자와 기능적 상호 작용을 하는 표적을 선택함으로써 정확도가 더욱 향상되었다. 특히, 이러한 이득 (향상)은 공개적으로 이용 가능한 유전자 발현 및 단백질 기능 상호 작용 데이터를 사용하여 얻어졌지만, 많은 비용이 발생하는 역상관관계 기반 방법으로부터 수득 된 것보다 높은 정확도를 보여주고 있다. 또한, 본 발명을 통해 459 개의 인간 miRNA의 조절 타겟과 세포조건에 대한 예측결과를 검색할 수 있는 BiMIR이라 불리는 바이클러스터 데이터베이스를 구축하였다.However, the present invention provides a more stable group of miRNA targets that are tightly regulated across various cellular conditions without the use of miRNA-mRNA profiles. As shown in Figure 4, the present invention bikes the mRNA targets (g1, g2, …, gn) and cellular conditions (C1, C2, …, Cn) for a given miRNA. The inventive bike cluster was evaluated using experimentally validated targets and showed significantly improved accuracy compared to pure sequence-based methods. Moreover, the accuracy was further improved by selecting targets that functionally interact with other target genes. In particular, these gains (enhancements) were obtained using publicly available gene expression and protein function interaction data, but showed higher accuracy than those obtained from expensive inverse correlation-based methods. In addition, through the present invention, a bike cluster database called BiMIR, which can search for 459 human miRNA regulatory targets and predicted results for cellular conditions, was constructed.

미국등록특허 US8712935 “EVOLUTIONARY CLUSTERING ALGORITHM”US registered patent US8712935 “EVOLUTIONARY CLUSTERING ALGORITHM”

본 발명의 목적은 서열 특이적 표적에 대한 다양한 세포조건에서의 mRNA 변화 데이터를 바이클러스터링(biclustering)하여 miRNA의 mRNA 표적 및 관련 세포조건을 예측할 수 있는 새로운 접근법을 제공하는 것이다. An object of the present invention is to provide a novel approach capable of predicting the mRNA target of miRNA and related cellular conditions by biclustering the mRNA change data under various cellular conditions for a sequence-specific target.

또한, 본 발명의 목적은 유전자 발현데이터 및 타겟인식서열 정보와 결합하여 miRNA, 전사인자, RNA 바인딩 단백질과 같은 서열인식 조절자의 타겟을 예측하는 바이클러스터링을 통한 접근방법을 제공하는 것이다. In addition, an object of the present invention is to provide an approach through biclustering that predicts targets of sequence recognition regulators such as miRNA, transcription factor, and RNA binding protein by combining gene expression data and target recognition sequence information.

또한, 본 발명의 목적은 적절한 순열을 통해 최대 블록을 확인하도록 바이클러스터(bicluster)를 확장하는 예측정확도가 향상된 새로운 알고리즘을 제시하는 것이다. In addition, it is an object of the present invention to propose a new algorithm with improved prediction accuracy that extends a bicluster to identify a maximum block through an appropriate permutation.

또한, 본 발명의 목적은 바이클러스터(bicluster)의 확장 시 한 방향으로 길어지지 않도록 방지할 수 있는 알고리즘을 제시하는 것이다. In addition, an object of the present invention is to propose an algorithm capable of preventing the bicluster from being elongated in one direction when expanding.

발명이 해결하고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The technical problems to be solved by the invention are not limited to the technical problems mentioned above, and other technical problems that are not mentioned will be clearly understood by those of ordinary skill in the technical field to which the present invention belongs from the following description. I will be able to

본 발명에 따른 빅데이터를 이용한 조건별 마이크로 RNA 표적 조사 방법은 MIR 프로파일을 생성하는 제1단계;Micro RNA target irradiation method for each condition using big data according to the present invention comprises: a first step of generating an MIR profile;

상기 MIR 프로파일에서 시드 바이클러스터를 추출하는 제2단계;A second step of extracting a seed bike cluster from the MIR profile;

상기 MIR 프로파일에서 상기 시드 바이클러스터를 제외하고 추가할 수 있는 벡터 중, 제로율(Zcut,s)을 가진 벡터를 추가하여 임시 확장 바이클러스터를 생성하는 제3단계;A third step of generating a temporary extended bike cluster by adding a vector having a zero rate (Z cut,s ) from among vectors that can be added excluding the seed bike cluster from the MIR profile;

상기 임시 확장 바이클러스터에서 임계값을 기준으로 덜 조밀한 행과 열벡터를 제거하여 확장 바이클러스터를 생성하는 제4단계;A fourth step of generating an extended bicycle cluster by removing less dense row and column vectors from the temporary extended bicycle cluster based on a threshold value;

상기 시드 바이클러스터에 상기 확장 바이클러스터를 추가하여 병합 바이클러스터를 생성하여 업데이트하는 제5단계;에 의해 실시하되,A fifth step of creating and updating a merge bike cluster by adding the extended bike cluster to the seed bike cluster;

상기 시드 바이클러스터는 상기 제3단계 내지 제5단계를 R번 반복하며 점진적으로 확장되는 것을 특징으로 한다. The seed bike cluster is characterized in that it is gradually expanded by repeating the third to fifth steps R times.

상기 제3단계 내지 제5단계를 R번 반복하는 것은,Repeating the third to fifth steps R times,

상기 제5단계에서 업데이트된 병합 바이클러스터의 제로율(Zcut,s)이 상기 임시 확장 바이클러스터의 제로율(Zcut,s)에 도달할 때 까지 반복하여 확장하는 것을 특징으로 한다. Wherein (Z cut, s) updated merged zero rate of by-cluster in step 5 is characterized in that the extension is repeated until it reaches a zero rate (Z cut, s) of the temporary extension by cluster.

상기 제로율(Zcut,s)은 [식 1]에 의해 수행된다. The zero rate (Z cut,s ) is performed by [Equation 1].

[식 1][Equation 1]

Figure pat00001
Figure pat00001

또한, 상기 제5단계에서 생성된 병합 바이클러스터에서 상기 행 또는 열벡터 중 어느 한 벡터의 방향이 길어진 경우 긴 쪽의 벡터에 [식 3]의 수정제로율(Zcut,m)을 적용하는 제6단계;를 더 포함할 수 있다. In addition, when the direction of any one of the row or column vectors in the merged bike cluster generated in the fifth step is longer, the correction zero rate (Z cut,m ) of [Equation 3] is applied to the longer vector. Step 6; may further include.

[식 3][Equation 3]

Figure pat00002
Figure pat00002

또한, 본 발명에 따른 빅데이터를 이용한 조건별 마이크로 RNA 표적 조사 장치는 바이클리크(BICLIQUE)가 경쟁적으로 행과 열을 추가하여 시드 바이클러스터를 생성하는 추출부;In addition, the microRNA target irradiation apparatus for each condition using big data according to the present invention comprises: an extraction unit for generating a seed bike cluster by competitively adding rows and columns by BICLIQUE;

상기 MIR 프로파일에서 추가할 수 있는 벡터 중, 제로율(Zcut,s)을 가진 벡터를 첨부하여 임시 확장 클러스터를 생성하는 확장부(10);An extension unit 10 for generating a temporary extended cluster by attaching a vector having a zero rate (Z cut,s ) among vectors that can be added in the MIR profile;

상기 임시 확장 클러스터에서 임계값을 기준으로 덜 조밀한 행과 열을 제거하여 확장 바이클러스터를 생성하는 트림부(20);A trim unit 20 for generating an extended bike cluster by removing less dense rows and columns from the temporary extended cluster based on a threshold value;

상기 시드 바이클러스터에 상기 확장 바이클러스터를 업데이트하여 점진적으로 바이클러스터를 확장하는 업데이트부(30);를 포함하는 것을 특징으로 한다. And an update unit 30 for gradually expanding the bike cluster by updating the extended bike cluster in the seed bike cluster.

또한, 본 발명에 따른 빅데이터를 이용한 조건별 마이크로 RNA 표적 조사 장치는 상기 생성된 병합 바이클러스터에서 한 방향으로 길어지는 것을 방지하는 확장방지부(40);를 더 포함하여 구성될 수 있다. In addition, the micro RNA target irradiation apparatus for each condition using big data according to the present invention may further include an expansion prevention unit 40 preventing lengthening in one direction in the generated merged bike cluster.

상기 빅데이터를 이용한 조건별 마이크로 RNA 표적 조사 장치에서 상기 제로율(Zcut,s)은 [식 1]인 것을 특징으로 한다. In the micro RNA target irradiation apparatus for each condition using the big data, the zero rate (Z cut,s ) is characterized in that [Equation 1].

[식 1][Equation 1]

Figure pat00003
Figure pat00003

상기 확장방지부(40)는 병합 바이클러스터에서 상기 행 또는 열벡터 중 어느 한 벡터의 방향이 길어진 경우 긴 쪽의 벡터에 수정제로율(Zcut,m)을 적용하는 것을 특징으로 한다. The expansion preventing unit 40 is characterized in that when the direction of any one of the row or column vectors in the merge bike cluster is longer, a correction zero rate (Z cut,m ) is applied to the longer vector.

[식 3][Equation 3]

Figure pat00004
Figure pat00004

상기 과제의 해결 수단에 의해, 본 발명은 서열 특이적 표적에 대한 대용량의 mRNA 변화 데이터를 바이클러스터링(biclustering)하여 인간 mRNA 표적 및 관련 세포조건을 예측하는 새로운 접근법을 제공할 수 있다. By means of solving the above problems, the present invention can provide a novel approach for predicting human mRNA targets and related cellular conditions by biclustering large amounts of mRNA change data for sequence-specific targets.

또한, 본 발명은 유전자 발현데이터 및 타겟인식서열 정보와 결합하여 miRNA, 전사인자, RNA 바인딩 단백질과 같은 조절자의 타겟을 에측하는 바이클러스터를 제공할 수 있다.In addition, the present invention can provide a bike cluster that predicts a target of a regulator such as miRNA, transcription factor, or RNA binding protein by combining gene expression data and target recognition sequence information.

또한, 본 발명은 적절한 순열을 통해 최대 블록을 확인하도록 바이클러스터(bicluster)를 확장하는 예측정확도가 향상된 새로운 알고리즘을 제시할 수 있다. In addition, the present invention can propose a new algorithm with improved prediction accuracy that extends a bicluster to identify a maximum block through appropriate permutation.

또한, 본 발명은 바이클러스터(bicluster)의 확장 시 한 방향으로 길어지지 않도록 방지할 수 있는 알고리즘을 제시할 수 있다. In addition, the present invention can propose an algorithm capable of preventing the bicluster from being elongated in one direction when expanding.

또한, 본 발명에 의해 제시된 알고리즘은 종래 기술과 비교할 때 정확도 및 민감도가 높은 효과가 있다. In addition, the algorithm proposed by the present invention has high accuracy and sensitivity compared to the prior art.

도 1은 본 발명인 빅데이터를 이용한 조건별 miRNA 표적 조사 방법을 설명하는 개략도이다.
도 2는 본 발명인 빅데이터를 이용한 조건별 마이크로 RNA 표적 조사 방법을 나타낸 순서도이다.
도 3은 종래 miRNA 조절 모듈 발견을 위한 접근법을 설명하는 개략도이다.
도 4는 본 발명에서 miRNA 조절 모듈 발견을 위한 접근법을 설명하는 개략도이다.
도 5는 바이클러스터링을 기반으로 한 miRNA 타겟 예측을 설명하는 개략도이다.
도 6은 바이클러스터링 알고리즘에 대한 시뮬레이션 테스트를 나타낸 것으로, 시뮬레이션 프로파일의 일실시예이다.
도 7은 도 6에서 실시한 바이클러스터링 방법의 정밀도를 종래 기술과 본 발명과 비교하여 나타낸 실험예이다.
도 8은 도 6에서 실시한 바이클러스터링 방법의 민감도를 종래 기술과 본 발명과 비교하여 나타낸 실험예이다.
도 9는 결합서열, 바이클러스터링 및 기능 네트워크를 사용하여 miRNA 표적 성능을 예상한 것으로, 파란색 노드로 바이클러스터링 결과를 나타낸 그래프이다.
도 10은 도 9와 함께 대상 네트워크의 다른 노드 차수에 대한 평균 민감도 및 특이성을 나타낸 그래프이다.
도 11은 도 9와 함께 결합서열정보, 바이클러스터링 및 네트워크 정보를 사용하는 방법들의 정확도 향상을 나타낸 그래프이다.
도 12는 바이클러스터링과 역상관관계 방법간의 성능을 비교한 그래프이다.
도 13은 바이클러스터링 방법으로 예측된 PI3K/Akt 경로(유방암)와 이를 조절하는 것을 예측된 miRNA들과 표적 유전자들을 표시한 그림이다.
도 14는 도 13의 PI3K/Akt 경로(유방암)에서, miR-29a, miR-29b 및 miR-29c 수준이 높고 낮은 유방암 환자 210 명에 대한 재발이 없는 생존 분석률을 나타낸 그래프이다.
도 15는 도 13의 PI3K/Akt 경로(유방암)에서, miR-29 표적 유전자 후보의 전사 수준을 qRT-PCR로 분석한 그래프이다.
도 16은 도 13의 PI3K/Akt 경로(유방암)에서, miR-29b-3p 형질 감염된 세포로부터 추출된 총 세포 용해물을 종양 미세 환경에 대한 pAKT, AKT, pFAK 및 FAK의 수준에 대해 분석한 그래프이다.
도 17은 도 13의 PI3K/Akt 경로(유방암)에서, miR-29c-3p 형질 감염된 세포로부터 추출된 총 세포 용해물을 종양 미세 환경에 대한 pAKT, AKT, pFAK 및 FAK의 수준에 대해 분석한 그래프이다.
도 18은 본 발명인 빅데이터를 이용한 조건별 마이크로 RNA 표적 조사 방법에 적용된 Progressive Bicluster Extension(PBE) 알고리즘(a)과 종래 알고리즘(b~g)를 비교하여 개략적으로 나타낸 그래프이다.
도 19는 세가지 fold-change 제로율(Zcut,s)을 갖는 바이클러스터들에서 조건, 유전자 및 밀도의 수 분포를 나타낸 그래프이다.
도 20은 BiMIR 데이터 베이스를 나타낸 그림이다.
1 is a schematic diagram illustrating a miRNA target irradiation method for each condition using big data according to the present invention.
Figure 2 is a flow chart showing a micro RNA target irradiation method for each condition using big data of the present invention.
3 is a schematic diagram illustrating an approach for discovery of a conventional miRNA regulatory module.
4 is a schematic diagram illustrating an approach for discovery of a miRNA regulatory module in the present invention.
5 is a schematic diagram illustrating prediction of miRNA targets based on biclustering.
6 shows a simulation test for a biclustering algorithm, which is an embodiment of a simulation profile.
7 is an experimental example showing the precision of the biclustering method performed in FIG. 6 compared with the prior art and the present invention.
8 is an experimental example showing the sensitivity of the bi-clustering method implemented in FIG. 6 compared with the prior art and the present invention.
9 is a graph showing the miRNA target performance predicted by using a binding sequence, biclustering and functional network, and showing the biclustering results with blue nodes.
FIG. 10 is a graph showing the average sensitivity and specificity of the target network for different node orders together with FIG. 9.
11 is a graph showing the accuracy improvement of methods using combined sequence information, bike clustering, and network information together with FIG. 9.
12 is a graph comparing performance between biclustering and decorrelation method.
13 is a diagram showing the PI3K/Akt pathway (breast cancer) predicted by the biclustering method, miRNAs predicted to regulate it, and target genes.
14 is a graph showing the survival analysis rate without recurrence for 210 breast cancer patients with high and low levels of miR-29a, miR-29b and miR-29c in the PI3K/Akt pathway of FIG. 13 (breast cancer).
FIG. 15 is a graph analyzing the transcription levels of miR-29 target gene candidates by qRT-PCR in the PI3K/Akt pathway (breast cancer) of FIG. 13.
Figure 16 is a graph analyzing the levels of pAKT, AKT, pFAK and FAK in the tumor microenvironment of total cell lysates extracted from miR-29b-3p transfected cells in the PI3K/Akt pathway (breast cancer) of Figure 13 to be.
FIG. 17 is a graph analyzing the levels of pAKT, AKT, pFAK, and FAK in the tumor microenvironment of total cell lysates extracted from miR-29c-3p transfected cells in the PI3K/Akt pathway (breast cancer) of FIG. 13 to be.
18 is a graph schematically showing a comparison of the Progressive Bicluster Extension (PBE) algorithm (a) and the conventional algorithm (b to g) applied to the method of researching micro RNA targets for each condition using big data according to the present invention.
19 is a graph showing the number distribution of conditions, genes, and density in bike clusters having three fold-change zero rates (Z cut,s ).
20 is a diagram showing the BiMIR database.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.The terms used in the present specification will be briefly described, and the present invention will be described in detail.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.The terms used in the present invention have been selected from general terms that are currently widely used while considering functions in the present invention, but this may vary depending on the intention or precedent of a technician working in the field, the emergence of new technologies, and the like. Therefore, the terms used in the present invention should be defined based on the meaning of the term and the overall contents of the present invention, not a simple name of the term.

명세서 전체에서 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.When a part of the specification is said to "include" a certain element, it means that other elements may be further included rather than excluding other elements unless specifically stated to the contrary.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art may easily implement the present invention. However, the present invention may be implemented in various different forms and is not limited to the embodiments described herein.

본 발명에 대한 해결하고자 하는 과제, 과제의 해결 수단, 발명의 효과를 포함한 구체적인 사항들은 다음에 기재할 실시 예 및 도면들에 포함되어 있다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다.Specific matters, including the problems to be solved, means for solving the problems, and effects of the present invention, are included in the following examples and drawings. Advantages and features of the present invention, and a method of achieving them will become apparent with reference to the embodiments described below in detail together with the accompanying drawings.

이하, 첨부된 도면을 참조하여 본 발명을 보다 상세히 설명하기로 한다.Hereinafter, the present invention will be described in more detail with reference to the accompanying drawings.

본 발명은 서열특이적 표적에 대한 많은 mRNA 변화 데이터를 바이클러스터링 하여 인간의 마이크로 RNA(이하, miRNA)의 mRNA 표적 및 관련 세포 조건인 새로운 모듈을 확인하는 접근법을 제시하고자 한다. The present invention aims to propose an approach to identify new modules, which are mRNA targets and related cellular conditions, of human microRNAs (hereinafter, miRNAs) by cycling many mRNA change data for sequence-specific targets.

바이클러스터 표적은 실험적으로 확인된 mRNA 표적을 사용하여 평가되었으며 평균 17.0% (중앙값 19.4%)의 정확도 (민감도+특이성)의 증가를 나타내었다. 기능적 네트워크를 활용할 경우 전체적인 정확도는 최대 32.0% (중앙값 33.4%)까지 향상되었다. 본 발명에서 암 관련 바이클러스터를 분석하여 PI3K/Akt 신호 전달 경로가 유방암과 확산성 B세포 림프종의 몇 가지 miRNA의 표적들이 통계적으로 유의한 수준으로 밀집되어 존재함을 발견했다. 특히, 5개의 독립적인 예후 miRNA가 확인되었고 miR-29에 의한 바이클러스터 표적과 경로 활성의 억제가 실험적으로 검증되었다. 총 459개의 인간 miRNA에 대해 29,898개의 바이클러스터가 BiMIR 데이터베이스에서 수집되었으며 바이클러스터는 miRNA, 조직, 질병, 키워드 및 대상 유전자를 검색할 수 있다. Bicluster targets were evaluated using experimentally identified mRNA targets and showed an increase in accuracy (sensitivity + specificity) of 17.0% (median 19.4%) on average. When using a functional network, the overall accuracy improved up to 32.0% (median 33.4%). In the present invention, by analyzing cancer-related biclusters, it was found that the PI3K/Akt signaling pathway is a statistically significant concentration of several miRNA targets of breast cancer and diffuse B-cell lymphoma. In particular, five independent prognostic miRNAs were identified, and inhibition of bicluster target and pathway activity by miR-29 was experimentally verified. For a total of 459 human miRNAs, 29,898 bike clusters were collected from the BiMIR database, and bike clusters can search for miRNAs, tissues, diseases, keywords and target genes.

보다 구체적으로, 본 발명인 빅데이터를 이용한 조건별 마이크로 RNA 표적 조사 방법은 도 1, 도 2 및 도 5에 나타난 바와 같이 아래 방법에 의해 실시될 수 있다. More specifically, the method of irradiating micro RNA targets according to conditions using big data according to the present invention may be carried out by the following method as shown in FIGS. 1, 2 and 5.

먼저, 제1단계(S10)는 MIR 프로파일을 생성한다. First, the first step (S10) generates an MIR profile.

일반적으로, 바이클러스터링 알고리즘은 2개의 노드 서브 세트 (예를 들어, 표적 유전자의 서브세트 및 세포 조건의 서브세트) 사이의 완전한 연관성 (즉, 바이클리크)를 규명하고자 한다. 마이크로 어레이 데이터의 노이즈를 고려하여 본 발명에서는 두 개의 노드 서브 세트 사이의 관련 없는 연결의 작은 부분을 허용하지만 훨씬 더 큰 크기의 바이클러스터를 생성하는 점진적인 바이클러스터 확장(Progressive Bicluster Extension, 이하 PBE) 알고리즘을 개발하였다. In general, biclustering algorithms seek to elucidate a complete association (i.e., biclique) between two subsets of nodes (e.g., a subset of target genes and a subset of cellular conditions). In consideration of the noise of the microarray data, the present invention allows a small portion of the irrelevant connection between two subsets of nodes, but a progressive bicluster extension (PBE) algorithm that creates a much larger sized bike cluster. Was developed.

상기 제1단계(S10)에서 상기 PBE 알고리즘은 bimax 알고리즘을 사용하여 바이클리크를 식별한다. 상기 바이클리크는 0과 1로 구성된 데이터에서 1로 가득한 행렬블록을 의미한다. 상기 바이클리크를 시드(seed)로 사용하여 0값을 가장 적게 포함한 밀도 높은 열과 행부터 경쟁적으로 시드에 붙여나가면서 경쟁적으로 제로값의 작은 비율을 가지는 ‘밀도’ 행과 열을 추가하여 확장하게 된다. In the first step (S10), the PBE algorithm identifies a bike using the bimax algorithm. The bike is a matrix block full of 1s in data composed of 0s and 1s. By using the bike as a seed, the column and row with the lowest density of 0 values are competitively attached to the seed, while the'density' row and column having a small ratio of the zero value are competitively added and expanded. .

보다 구체적으로, 도 5의 (a) ~ (c)에 나타난 바와 같이, 먼저 GEO database에서 두 개의 시료 그룹(실험군/대조군)을 가진 5,158개의 mRNA 마이크로어레이 데이터 세트를 수집하고 해당 logFC(mRNA 변화 값의 로그 변환값으로, 밑값은 2이다.) 데이터는 20,639개의 인간 유전자를 열벡터로 5,158 fold-change 세포 조건을 행벡터로 설정한다. 이러한 logFC 데이터는 ± log1.3 (이하, 1.3 FC라고 함) 임계값을 사용하여 상향, 중립 및 하향 조절 된 유전자 (각각 1, 0 및 -1로 표시)로 양자화된다. 노이즈가 있는 데이터를 제외하고 상기 1.3 FC를 많은 미세 조정된 mRNA 표적을 커버하는 miRNA 조절로 인한 표적 발현 변화를 나타내는 적절한 임계값으로 간주하였다. More specifically, as shown in (a) to (c) of FIG. 5, first, 5,158 mRNA microarray data sets with two sample groups (experimental group/control) were collected from the GEO database, and the corresponding logFC (mRNA change value) The logarithmic conversion value of, the base value is 2.) Data sets 20,639 human genes as column vectors and 5,158 fold-change cell conditions as row vectors. These logFC data are quantized into genes (denoted 1, 0, and -1, respectively) that are up, neutral, and down-regulated using ± log1.3 (hereinafter referred to as 1.3 FC) thresholds. Excluding the noisy data, the 1.3 FC was regarded as an appropriate threshold representing the change in target expression due to miRNA regulation covering many finely tuned mRNA targets.

도 5(a)는 유전자 발현 fold-change의 개관을 나타낸 것이고, 상기 각각의 miRNA에 대한 서열 특이적 표적이 7개의 miRNA 표적 데이터베이스로(도 5(b)) 부터 얻어졌다. 각 miRNA에 대해, 7 개의 miRNA 표적 데이터베이스 중 적어도 3 개에서 예측 된 서열 특이적 표적을 선택하여 도 5(b)의 파란 타원에 해당하는 서열특이적인 타겟 유전자(Sequence-based miRNA targets)로 표시하였다. 5(a) shows an overview of gene expression fold-change, and sequence specific targets for each of the miRNAs were obtained from 7 miRNA target databases (FIG. 5(b)). For each miRNA, sequence-specific targets predicted from at least 3 of the 7 miRNA target databases were selected and displayed as sequence-based miRNA targets corresponding to the blue ellipses in FIG. 5(b). .

그런 다음, 각 세포조건에 대한 logFC 프로파일은 상기 배경세트에서 1.3 배 증가 - 조절 된 유전자의 농축에 기반하여 상기 배경세트에 축적되었다 (초기하분포 테스트, FDR <5 %). 여기서 얻은 상기 logFC 서브 매트릭스는 -1을 0으로 대체하여 2진 행렬로 변환되고 주어진 miRNA에 대해 MIR 프로파일이라고 한다. Then, the logFC profile for each cell condition was accumulated in the background set based on the enrichment of the regulated genes-a 1.3-fold increase in the background set (initial distribution test, FDR <5%). The logFC sub-matrix obtained here is converted to a binary matrix by replacing -1 with 0 and is called the MIR profile for a given miRNA.

다음으로, 제2단계(S20)는 상기 MIR 프로파일에서 시드 바이클러스터를 추출한다. Next, the second step (S20) extracts the seed bike cluster from the MIR profile.

보다 구체적으로, 도 5(d)에 나타난 바와 같이, 상기 MIR 프로파일에 bimax biclustering 알고리즘을 적용하여 1로 완전히 채워진 작은 바이클러스트(이하, 시드 바이클러스터, seed biclusters)를 획득하였다. 상기 시드 바이클러스터는 아래에 설명할 PBE 알고리즘을 사용하여 점진적으로 확장한다. More specifically, as shown in FIG. 5(d), a small bike cluster completely filled with 1 (hereinafter, seed biclusters) was obtained by applying the bimax biclustering algorithm to the MIR profile. The seed bike cluster is gradually expanded using the PBE algorithm, which will be described below.

다음으로, 제3단계(S30)는 상기 MIR 프로파일에서 상기 시드 바이클러스터를 제외하고, 추가할 수 있는 벡터 중에서 제로율(Zcut,s)을 가진 벡터를 추가하여 임시 확장 바이클러스터를 생성한다. 상기 제로율(Zcut,s)는 상기 바이클러스터의 확장을 위한 임계값 또는 문턱값과 동일한 의미이다. Next, in the third step (S30), a vector having a zero rate (Z cut,s ) is added from among the vectors that can be added, excluding the seed bike cluster from the MIR profile to generate a temporary extended bike cluster. The zero rate (Z cut,s ) has the same meaning as a threshold value or a threshold value for the expansion of the bike cluster.

상기 제로율(Zcut,s)은 [식 1]인 것을 특징으로 한다. The zero rate (Z cut,s ) is characterized in that [Equation 1].

[식 1][Equation 1]

Figure pat00005
Figure pat00005

다음으로, 제4단계(S40)는 상기 임시 확장 바이클러스터에서 점진적인 확장을 R 번 반복하는데 매 단계마다 제로율(Zcut,s) 보다 적은 0을 갖는 열과 행을 붙여가면서 확장을 마친 다음, 확장된 바이클러스터의 열과 행을 다시 조사하여 제로율(Zcut,s) 보다 0의 비율이 높은 열과 행을 제거해주어 확장 바이클러스터를 생성한다. Next, the fourth step (S40) repeats the gradual expansion R times in the temporary expansion bike cluster, with a zero rate (Z cut, s ) for each step. After completing the expansion by pasting the columns and rows with fewer zeros, the columns and rows of the expanded bike cluster are examined again, and columns and rows with a ratio of 0 higher than the zero ratio (Z cut,s ) are removed to create an expanded bike cluster. do.

즉, 상기 제4단계(S40)는 상기 임시 확장 바이클러스터에 확장과 제거과정에 동일한 임계값을 적용한다. 상기 임시 확장 바이클러스터에서 ‘0’값의 우연한 배열에 의해 상기 임시 확장 바이클러스터 내에 상기 제로율(Zcut,s)보다 ‘0’의 비율이 높은 열과 행이 존재할 수도 있기 때문에 이러한 과정이 필요하다. 임계값을 기준으로 덜 조밀한 행과 열벡터를 제거하여 상기 확장 바이클러스터를 생성한다. That is, in the fourth step (S40), the same threshold value is applied to the temporary expansion bike cluster in the expansion and removal processes. This process is necessary because columns and rows with a ratio of '0' higher than the zero rate (Z cut,s ) may exist in the temporary expansion bike cluster due to an accidental arrangement of '0' values in the temporary expansion bike cluster. . The extended bike cluster is created by removing less dense row and column vectors based on the threshold value.

다음으로, 제5단계(S50)는, 도 5(e)에 나타난 바와 같이, 상기 시드 바이클러스터에 상기 확장 바이클러스터를 추가하여 병합 바이클러스터를 생성하여 업데이트한다. Next, in the fifth step (S50), as shown in FIG. 5(e), a merge bike cluster is created and updated by adding the extended bike cluster to the seed bike cluster.

상기 제2단계(S20)에서 추출된 1로 가득찬 상기 시드 바이클러스터를 R번 확장 및 제거를 통해 얻어진 바이클러스터를 상기 확장 바이클러스터라고 한다. 주어진 miRNA에 대해서 이러한 상기 확장 바이클러스터들이 많이 나오고 일부는 상당히 겹쳐서 중복된 바이클러스터들을 병합하기 위해 도 5(e)와 같은 과정을 수행하게 된다. 이렇게 얻어진 최종 바이클러스터를 상기 병합 바이클러스터라고 한다. 최종적으로 예측에 활용되는 바이클러스터는 상기 병합 바이클러스터들이다. 요약하면, 상기 시드 바이클러스터들을 확장하여 상기 확장 바이클러스터들을 얻고 이들을 상기 계층적 클러스터링(hierarchical clustering)을 통해 병합하여 병합 바이클러스터들을 얻게된다.The bike cluster obtained by expanding and removing the seed bike cluster filled with 1 extracted in the second step (S20) is referred to as the expanded bike cluster. For a given miRNA, many of these expanded bike clusters appear, and some of these expanded bike clusters are substantially overlapped, and the process as shown in FIG. 5(e) is performed to merge the overlapping bike clusters. The final bike cluster thus obtained is referred to as the merge bike cluster. Finally, the bike clusters used for prediction are the merged bike clusters. In summary, the seed bike clusters are expanded to obtain the expanded bike clusters, and merged bike clusters are obtained by merging them through the hierarchical clustering.

상기 시드 바이클러스터는 상기 제3단계(S30) 내지 제5단계(S50)를 R번 반복하며 확장한다. 즉, 상기 제5단계(S50)에서 업데이트된 병합 바이클러스터의 제로율(Zcut,s)이 상기 임시 확장 바이클러스터의 제로율(Zcut,s)에 도달할 때 까지 반복하여 확장하는 것이 바람직하다. The seed bike cluster is expanded by repeating the third step (S30) to the fifth step (S50) R times. That is, it is preferable to repeat the extension until it reaches the fifth merged zero rate of by-cluster updated at step (S50) (Z cut, s ) zero rate (Z cut, s) of the temporary extension by cluster Do.

상기 병합 바이클러스터는 중복 연결을 피하기 위해, 평균 연결 계층적 클러스터링(확장 바이클러스터)을 사용하여 클러스터 되었다. 상기 계층적 클러스터링(hierarchical clustering)에서 그룹간의 거리를 재는 세 가지 방식 중 가장 일반적으로 사용하는 방식이 평균 연결(average linkage) 방식이다. 두 개의 서로 다른 확장 바이클러스터 A 및 B의 경우, A와 B의 거리는 아래 [식 2]와 같다. The merged bike cluster was clustered using average connection hierarchical clustering (extended bike cluster) to avoid redundant connections. Among the three methods of measuring the distance between groups in the hierarchical clustering, the average linkage method is the most commonly used method. In the case of two different expansion bike clusters A and B, the distance between A and B is as shown in [Equation 2] below.

[식 2][Equation 2]

Figure pat00006
Figure pat00006

본 발명에서는 상기 계측적 클러스터링 수형도(dendrogram)에 문턱값을 (Zcut,s는 바이클러스터 확장에 쓰이는 문턱값이고 수형도에는 어느 높이에서 수형도를 자를 것인지를 결정하는 문턱값이다.) 0.3, 0.5, 0.7로 설정하여 테스트하였다. 높은 문턱값을 상기 수형도에 적용하면 작은 클러스터가 많이 생기고, 반대의 경우는 적은 수의 큰 클러스터들이 얻어진다. 상기 제5단계(S50)에서 상기 시드 바이클러스터와 상기 확장 바이클러스트를 병합하여 병합 바이클러스터를 생성한 후에 0이 10% 이상 포함 된 행이나 열벡터가 개별적으로 제거되어 최종적으로 병합 바이클러스터를 생성한다. In the present invention, a threshold value is applied to the metrological clustering dendrogram (Zcut,s is a threshold value used for bike cluster expansion and a threshold value that determines at which height the tree is cut) 0.3, 0.5, 0.7. It was set to and tested. When a high threshold is applied to the tree diagram, many small clusters are generated, and in the opposite case, a small number of large clusters are obtained. In the fifth step (S50), the seed bike cluster and the extended bike cluster are merged to create a merge bike cluster, and then row or column vectors containing 10% or more of 0 are individually removed to finally create a merge bike cluster. do.

상기 병합 바이클러스터는 행벡터에 클러스터 된 셀 조건과 열벡터에 예측된 목표 유전자를 나타낸다. 상기 병합 바이클러스터에서 down-regulated된 바이클러스터도 대칭 방식으로 생성된다. 부연하면, up-regulated(또는 up-regulated)된 상기 병합 바이클러스터는 바이클러스터 내에 포함된 세포조건들에서 해당 miRNA가 down-regulated(또는 up-regulated) 되었음을 의미한다. The merged bike cluster represents a cell condition clustered in a row vector and a target gene predicted in a column vector. The down-regulated bike cluster in the merged bike cluster is also created in a symmetric manner. In other words, the up-regulated (or up-regulated) combined bike cluster means that the corresponding miRNA is down-regulated (or up-regulated) under cellular conditions included in the bike cluster.

본 발명에서는 주로 1.3FC 임계값에 대한 분석 결과를 보고 했으나, 상기 병합 바이클러스터는 ±log1.5 및 ±log2.0 임계값 (각각 1.5FC, 2.0FC 임계값으로 표시)에서 생성되어보다 구체적이고 강력한 miRNA 규정을 수집했다. 전체적으로, 주어진 miRNA의 서열 특이 적 표적의 목록에 대해, 각 임계값 (1.3, 1.5 및 2.0)에 대해 2 개의 MIR 프로파일 (위아래)이 생성된다. 3 개의 up-regulated (및 down-regulated) MIR 프로파일은 유전자 카운트가 동일하면서 다른 조건 카운트를 가지고 있다. 따라서 결과로 생성되는 상기 시드 바이클러스터 및 상기 병합 바이클러스터는 서로 다른 임계값에 따라 다르다. In the present invention, the analysis results for the 1.3FC threshold were mainly reported, but the merged bike cluster was generated at ±log1.5 and ±log2.0 thresholds (represented by 1.5FC and 2.0FC thresholds, respectively), and is more specific. A strong miRNA regulation was collected. In total, for a list of sequence specific targets for a given miRNA, two MIR profiles (top and bottom) are generated for each threshold (1.3, 1.5 and 2.0). The three up-regulated (and down-regulated) MIR profiles have different condition counts with the same gene count. Accordingly, the resulting seed bike cluster and the merge bike cluster differ according to different threshold values.

다음으로, 제6단계(S60)는 상기 제5단계(S50)에서 생성된 병합 바이클러스터에서 상기 행 또는 열벡터 중 어느 한 벡터의 방향이 길어진 경우 긴 쪽의 벡터에 [식 3]의 수정제로율(Zcut,m)을 적용한다. 예를 들어, 바이클러스터의 열이 행보다 3배 이상 길어진 경우 Zcut,s 대신 Zcut,m을 적용하게 되는데 r=3이 포함됨에 따라 열을 새로 추가하기가 더 까다로워지고 상대적으로 행이 추가될 확률이 높아진다. Next, in the sixth step (S60), if the direction of any one of the row or column vectors in the merged bike cluster generated in the fifth step (S50) is longer, Apply the rate (Z cut,m ). For example, if the column of the bike cluster is 3 times longer than the row, Zcut,m is applied instead of Zcut,s. As r=3 is included, it becomes more difficult to add a new column and the probability of adding a row is relatively It becomes higher.

[식 3][Equation 3]

Figure pat00007
Figure pat00007

아래는 암 관련 바이클러스터(biclusters)의 경로와 관련 miRNA의 예후를 분석하고 확인 실험을 통해 본 발명의 접근법을 검증하였다. 본 발명인 빅데이터를 이용한 조건별 miRNA 표적을 조사하는 알고리즘은 아래 실험과 도면에서 PBE 알고리즘으로 명명하였다. Below, the pathway of cancer-related biclusters and the prognosis of related miRNAs were analyzed and the approach of the present invention was verified through confirmation experiments. The algorithm for investigating miRNA targets for each condition using big data of the present invention was named PBE algorithm in the following experiments and drawings.

(1) 재료 및 방법(1) Materials and methods

1) 표현식 fold-change 데이터 수집1) Expression fold-change data collection

Affymetrix U133 Plus 2.0 칩을 사용하여 제작 한 2,019 GEO 시리즈 용 CEL 파일을 다운로드했다. R'affy '패키지의' justRMA' 기능을 사용하여 견고한 다중 배열 평균(RMA) 정규화가 각 CEL 파일에 적용되었다. 각 유전자에 대한 탐침의 강도는 평균값으로 붕괴되었다. 다음으로 각 실험 시리즈에 대해 두 개의 샘플 그룹 (테스트/컨트롤)을 선별하고 각 그룹의 평균 표현식의 대수 FC(logFC로 표시)를 계산했다. 총 5,158 (시험 / 대조) 세포 조건에 대한 logFC 프로파일을 20,639 개의 인간 유전자 기호에 대해 수집하였다. logFC 매트릭스와 셀 조건에 대한 정보는 bimir R 패키지 (https://github.com/unistbig/bimir)에서 구할 수 있다.I downloaded the CEL file for the 2,019 GEO series built using the Affymetrix U133 Plus 2.0 chip. A robust multiple array mean (RMA) normalization was applied to each CEL file using the R'affy'package's' justRMA' function. The intensity of the probe for each gene collapsed to an average value. Next, for each experimental series, two sample groups (test/control) were selected and the logarithmic FC (expressed as logFC) of the mean expression for each group was calculated. A total of 5,158 (test/control) logFC profiles for cell conditions were collected for 20,639 human genetic symbols. Information on logFC matrix and cell conditions can be obtained from the bimir R package (https://github.com/unistbig/bimir).

2) 서열 특정 miRNA 표적2) sequence specific miRNA target

시퀀스 별 miRNA 표적은 7 가지 순서 기반 표적 예측 데이터베이스 (TargetScan, miRanda, mirSVR, PITA, DIANA-microT, miRDB 및 TargetRank)에서 얻었다.Sequence-specific miRNA targets were obtained from 7 sequence-based target prediction databases (TargetScan, miRanda, mirSVR, PITA, DIANA-microT, miRDB and TargetRank).

3) 유방암에서 miR-29b/c 조절의 실험적 검증 3) Experimental verification of miR-29b/c regulation in breast cancer

ⅰ) miRNA형질 감염 Ⅰ) miRNA transfection

miR-29n-3p 및 miR-29c-3p 모방물 및 miRNA 스클램블 제어는 Genolution으로부터 구입하였다. 각 miRNA(100nM)는 G-fectin Reagent (Genolution)를 사용하여 MDA-MB231에 세포감염 되었다. 모든 실험은 세포감염 후 48시간 후에 수행되었다. miR-29n-3p and miR-29c-3p mimics and miRNA scramble controls were purchased from Genolution. Each miRNA (100nM) was infected with MDA-MB231 using G-fectin Reagent (Genolution). All experiments were performed 48 hours after cell infection.

ⅱ) real-time 정량 PCRIi) Real-time quantitative PCR

MDA-MB231 세포로부터 총 RAN 1mg을 oligo dT와 M-MLV RT 역전사 효소로 역전사시켰다. real-time 정량 PCR은 GENETBIO SYBR Green Prime Q-master Mix와 QuantStudio 5 PCR 시스템(ThermoFisher)을 사용하여 수행되었다. 모든 검사에는 내부 통제 B2M 또는 HPRT 유전자가 동반되었다. 두 참조 유전자 모두 매우 유사한 결과를 산출했기 때문에 상기 B2M 결과만 도 6에 나타냈다. 샘플을 복제하여 실행하고 dd주기 임계 값 기반 알고리즘을 사용하여 B2M 또는 GAPDH로 정규화하여 상대적인 표현을 나타내는 임의의 단위를 제공하였다. Total RAN 1mg from MDA-MB231 cells was reverse transcribed with oligo dT and M-MLV RT reverse transcriptase. Real-time quantitative PCR was performed using GENETBIO SYBR Green Prime Q-master Mix and QuantStudio 5 PCR system (ThermoFisher). All tests were accompanied by an internal control B2M or HPRT gene. Since both reference genes produced very similar results, only the B2M results are shown in FIG. 6. Samples were replicated and run and normalized to B2M or GAPDH using a dd cycle threshold-based algorithm to provide arbitrary units representing relative expression.

ⅲ) 면역 블로 팅 Iii) Immunoblotting

수확 된 세포를 RIPA 완충액에서 용해시키고 원심 분리에 제공한 후 상등액을 수집 하였다. BCA 단백질 분석 키트 (Pierce)를 사용하여 단백질 농도를 측정하고 동량의 단백질을 10 % 또는 12 %의 도데실 황산나트륨(SDS)-폴리 아크릴 아미드겔 전기영동(PAGE)을 사용하여 분석 후 나일론 멤브레인(GE Healthcare, Amersham)으로 옮겼다. 토끼 항-인간FAK(1:1000 세포 시그널링), 포스포-FAK(1:1000 세포 시그널링), Akt(1:1000 세포 시그널링) 및 마우스 항 인간 GAPDH (1:1000, 세포 신호)와 같은 1차 항체 및 적외선 형광염료-결합 2차 항체와의 인큐베이션에 의해 표적 단백질을 관찰 하였다. HRP- 접합 된 2차 항체는 Cell Signaling Technology로부터 구입 하였다. 면역 검출은 Odyssey CLx 스캐너(Li-COR Biosciences)를 사용하여 수행 하였다.The harvested cells were lysed in RIPA buffer and subjected to centrifugation before the supernatant was collected. The protein concentration was measured using the BCA Protein Analysis Kit (Pierce), and the same amount of the protein was analyzed using 10% or 12% sodium dodecyl sulfate (SDS)-polyacrylamide gel electrophoresis (PAGE), and then a nylon membrane (GE). Healthcare, Amersham). Primary such as rabbit anti-human FAK (1:1000 cell signaling), phospho-FAK (1:1000 cell signaling), Akt (1:1000 cell signaling) and mouse anti-human GAPDH (1:1000, cell signaling) The target protein was observed by incubation with the antibody and the infrared fluorescent dye-conjugated secondary antibody. HRP-conjugated secondary antibodies were purchased from Cell Signaling Technology. Immune detection was performed using an Odyssey CLx scanner (Li-COR Biosciences).

(2) 결과(2) result

1) 다른 바이클러스터링 알고리즘과의 비교1) Comparison with other bike clustering algorithms

도 19에 나타난 바와 같이, 본 발명의 상기 시드 바이클러스터와 비교하여 본 발명인 PBE 알고리즘은 소량의 잡음을 허용함으로써 훨씬 큰 바이클러스터를 산출했다. 도 18에는 종래의 바이클러스터링 알고리즘인 ISA, QUBIC, FABIA, BiBit 및 HOCCLUS2과 본 발명인 PBE 알고리즘을 비교하였다. As shown in Fig. 19, compared with the seed bike cluster of the present invention, the PBE algorithm of the present invention yields a much larger bike cluster by allowing a small amount of noise. 18, ISA, QUBIC, FABIA, BiBit, and HOCCLUS2, which are conventional biclustering algorithms, and the PBE algorithm of the present invention are compared.

먼저, [표 1]에 hsa-let-7c-5p의 실제 증가 조절(up-regulation) 된 MIR 프로파일로부터 생성 된 바이클러스터의 크기와 신호 밀도를 비교 하였다First, in [Table 1], the size and signal density of the bike cluster generated from the actual up-regulated MIR profile of hsa-let-7c-5p were compared.

PBEPBE RowRow ColumnColumn DensityDensity NN 23.323.3 38.938.9 98.198.1 1717 QUBICQUBIC ConsistencyConsistency RowRow ColumnColumn DensityDensity NN 1.01.0 17.217.2 41.941.9 1.01.0 4646 0.980.98 16.916.9 42.042.0 0.99970.9997 4444 0.950.95 14.214.2 43.443.4 0.99890.9989 3636 0.920.92 15.215.2 61.361.3 0.97960.9796 2424 BiBit (minimum row and column size = 10) BiBit (minimum row and column size = 10) RowRow ColumnColumn DensityDensity NN 13.513.5 12.412.4 1.01.0 12271227 FABIAFABIA Continuous inputContinuous input Binary inputBinary input Sparseness loadingSparseness loading RowRow ColumnColumn DensityDensity NN RowRow ColumnColumn DensityDensity NN 0.010.01 80.180.1 219.4219.4 0.3180.318 55.555.5 226.3226.3 0.3580.358 3030 2222 0.050.05 64.164.1 195.5195.5 0.3300.330 25.825.8 291.1291.1 0.5480.548 2626 2727 0.10.1 25.925.9 189.6189.6 0.3550.355 1515 285.2285.2 0.6530.653 2626 2525 0.150.15 28.528.5 198.3198.3 0.3590.359 10.910.9 265.6265.6 0.7140.714 2828 2323 0.20.2 25.825.8 198.7198.7 0.3680.368 2525 12.212.2 268.1268.1 0.7230.723 1515 0.250.25 19.119.1 201.2201.2 0.3880.388 14.414.4 272272 0.7010.701 2727 1111 0.30.3 28.228.2 195.8195.8 0.3610.361 11.911.9 266.8266.8 0.7190.719 2323 1010 ISAISA Continuous inputContinuous input Binary inputBinary input TGTG TCTC Row Row Column Column Density Density NN Row Row Column Column Density Density NN 1.01.0 1.01.0 174.0174.0 119.3119.3 0.5000.500 44 192.7192.7 116.2116.2 0.4640.464 66 1.51.5 176.7176.7 60.760.7 0.5260.526 77 191.8191.8 70.270.2 0.4980.498 99 2.02.0 196.5196.5 27.727.7 0.4930.493 1515 200.8200.8 39.539.5 0.5340.534 1313 2.52.5 202.8202.8 11.411.4 0.5460.546 2222 216.9216.9 18.918.9 0.5320.532 2222 3.03.0 189.5189.5 5.65.6 0.6720.672 2828 221.0221.0 10.210.2 0.5820.582 1818 1.5 1.5 1.0 1.0 106.4 106.4 118.6 118.6 0.486 0.486 7 7 95.0 95.0 118.0 118.0 0.486 0.486 9 9 1.5 1.5 106.7 106.7 60.1 60.1 0.530 0.530 12 12 94.8 94.8 66.8 66.8 0.511 0.511 9 9 2.0 2.0 100.1 100.1 28.3 28.3 0.582 0.582 15 15 113.2 113.2 39.5 39.5 0.560 0.560 11 11 2.5 2.5 101.6 101.6 12.4 12.4 0.623 0.623 22 22 127.7 127.7 21.2 21.2 0.591 0.591 24 24 3.0 3.0 105.2 105.2 6.2 6.2 0.707 0.707 23 23 133.6 133.6 11.1 11.1 0.647 0.647 16 16 2.02.0 1.0 1.0 58.1 58.1 112.0 112.0 0.482 0.482 11 11 59.2 59.2 113.8 113.8 0.509 0.509 12 12 1.5 1.5 52.5 52.5 58.4 58.4 0.554 0.554 17 17 58.3 58.3 69.5 69.5 0.533 0.533 13 13 2.0 2.0 52.3 52.3 27.0 27.0 0.621 0.621 21 21 72.4 72.4 43.2 43.2 0.605 0.605 11 11 2.5 2.5 54.3 54.3 12.3 12.3 0.641 0.641 28 28 66.6 66.6 20.9 20.9 0.569 0.569 29 29 3.0 3.0 59.2 59.2 8.1 8.1 0.744 0.744 18 18 74.1 74.1 13.0 13.0 0.676 0.676 18 18 2.52.5 1.0 1.0 25.8 25.8 110.8 110.8 0.529 0.529 30 30 28.6 28.6 109.0 109.0 0.529 0.529 24 24 1.5 1.5 25.8 25.8 58.3 58.3 0.632 0.632 28 28 32.7 32.7 71.3 71.3 0.581 0.581 23 23 2.0 2.0 32.0 32.0 28.3 28.3 0.703 0.703 22 22 33.0 33.0 42.1 42.1 0.599 0.599 29 29 2.5 2.5 34.9 34.9 14.3 14.3 0.719 0.719 21 21 38.6 38.6 22.0 22.0 0.635 0.635 30 30 3.0 3.0 37.2 37.2 8.7 8.7 0.770 0.770 13 13 45.7 45.7 10.1 10.1 0.694 0.694 44 44 3.03.0 1.0 1.0 14.7 14.7 105.2 105.2 0.638 0.638 37 37 15.0 15.0 120.6 120.6 0.619 0.619 41 41 1.5 1.5 17.1 17.1 52.7 52.7 0.701 0.701 33 33 16.1 16.1 72.5 72.5 0.645 0.645 45 45 2.0 2.0 18.3 18.3 27.5 27.5 0.744 0.744 32 32 18.4 18.4 42.7 42.7 0.658 0.658 42 42 2.5 2.5 23.0 23.0 14.9 14.9 0.804 0.804 19 19 21.2 21.2 25.2 25.2 0.654 0.654 46 46 3.0 3.0 26.1 26.1 9.2 9.2 0.806 0.806 99 26.9 26.9 12.3 12.3 0.669 0.669 43 43 HOCCLUS2HOCCLUS2 LevelLevel BetaBeta RowRow ColumnColumn DensityDensity NN 1 One 0.4 0.4 1313 10 10 1.0 1.0 6060 0.5 0.5 1313 10 10 1.0 1.0 6060 0.6 0.6 1313 10 10 1.0 1.0 6060 0.7 0.7 1313 10 10 1.0 1.0 6060 0.8 0.8 1313 10 10 1.0 1.0 6060 0.9 0.9 1313 10 10 1.0 1.0 6060 2 2 0.4 0.4 23.523.5 19 19 0.844 0.844 3030 0.5 0.5 23.523.5 19 19 0.844 0.844 3030 0.6 0.6 2323 19 19 0.855 0.855 3131 0.7 0.7 2323 18.5 18.5 0.863 0.863 3232 0.8 0.8 1919 16.5 16.5 0.986 0.986 4040 0.9 0.9 1212 11 11 1.0 1.0 5353 33 0.4 0.4 4545 38 38 0.687 0.687 1515 0.5 0.5 4545 38 38 0.687 0.687 1515 0.60.6 41.541.5 3333 0.7420.742 1818 0.70.7 2424 1919 0.8050.805 2525 0.80.8 1818 1717 1.01.0 3535 0.90.9 1212 10.510.5 1.01.0 5252 44 0.40.4 8080 6363 0.5780.578 88 0.50.5 7171 5858 0.5750.575 99 0.60.6 4545 4040 0.6820.682 1313 0.70.7 2323 1919 0.7970.797 2222 0.80.8 1818 1717 1.01.0 3434 0.90.9 1212 1010 1.01.0 5151

도 18에 나타난 바와 같이, 본 발명인 PBE는 고밀도의 대형 바이클러스터를 산출하는 반면, 종래의 알고리즘은 더 작은 크기 또는 더 낮은 밀도의 바이클러스터를 산출했다. 상기 PBE 알고리즘은 종래의 알고리즘보다 줄기 세포 특이적 바이클러스터를 더 잘 포착했다. As shown in Fig. 18, the PBE of the present invention yields a large bike cluster with a high density, while the conventional algorithm yields a bike cluster with a smaller size or a lower density. The PBE algorithm better captured stem cell specific bike clusters than conventional algorithms.

다음으로, 도 19에 나타난 바와 같이, 실제 MIR 프로파일 (700행, 300열 및 20% 밀도)의 평균 크기와 밀도를 반영한 시뮬레이션된 2진 프로파일을 사용하여 바이클러스터링 알고리즘의 민감도와 특이성을 테스트하였다. 시뮬레이션 된 프로파일에는 행과 열 크기가 20~80 사이에서 무작위로 선택된 7개의 바이클러스터가 포함되어 있고, 각 바이클러스터에는 1~3개의 0(노이즈)이 포함된다. 상기 바이클러스터 중 일부는 바이클러스터 크기의 20% 미만으로 서로 겹친다. 상기 시뮬레이션은 50번 반복되었다. 여기서, ‘참 요소’는 7개의 바이클러스터에 포함된 요소를 나타내고, ‘거짓 요소’는 바이클러스터 외부의 요소를 나타낸다. 따라서 상기 종래 바이클러스터링 알고리즘을 실행한 후, 예측된 바이클러스터 내의 ‘실제 요소’의 수를 모든 ‘참 요소’의 수로 나눈 값으로 민감도(sensitivity)를 측정하였다. 정밀도(precision)는 예측된 바이클러스터 내의 실제 요소의 비율로 측정되었다. 상기 PBE는 완벽한 정밀도(중앙값 : 100%)와 높은 민감도(중앙값 : 95.6%)을 보였다. Next, as shown in FIG. 19, the sensitivity and specificity of the biclustering algorithm was tested using the simulated binary profile reflecting the average size and density of the actual MIR profiles (700 rows, 300 columns, and 20% density). The simulated profile contains 7 bike clusters randomly selected between 20 and 80 row and column sizes, and each bike cluster contains 1 to 3 zeros (noise). Some of the bike clusters overlap each other with less than 20% of the bike cluster size. The simulation was repeated 50 times. Here,'true element' indicates an element included in the seven bike clusters, and'false element' indicates an element outside the bicycle cluster. Therefore, after executing the conventional bike-clustering algorithm, the sensitivity was measured by dividing the predicted number of “real elements” in the bike cluster by the number of all “true elements”. Precision was measured as the percentage of actual elements in the predicted bike cluster. The PBE showed perfect precision (median: 100%) and high sensitivity (median: 95.6%).

상기 ISA의 성능은 행(TG) 및 열(TC)의 임계값에 따라 달라진다. 즉, TG = TC = 1일 때, 높은 민감도가 관찰되었으나 (중앙값 : 97.2 %), 정밀도(중앙값 = 87.7 %)는 비교적 낮았다. TG와 TC를 모두 2로 증가시키면 정밀도는 증가 (중앙값 = 96.8 %)하지만 민감도 (중앙값 = 86.1 %)는 감소하였다. The performance of the ISA depends on the threshold values of the row (TG) and column (TC). That is, when TG = TC = 1, high sensitivity was observed (median value: 97.2%), but precision (median value = 87.7%) was relatively low. Increasing both TG and TC to 2 increased precision (median = 96.8%) but decreased sensitivity (median = 86.1%).

상기 QUBIC 결과는 일관성 매개 변수 c의 영향을 받았다. 이 값이 증가할수록 정밀도는 증가하고 민감도는 감소한다. 기본 매개 변수 (c = 0.95, 중간 정밀도 = 80.8 %, 중간 민감도 = 100 %)를 사용할 때 최상의 성능이 관찰되었다.The QUBIC result was influenced by the consistency parameter c. As this value increases, the precision increases and the sensitivity decreases. Best performance was observed when using the basic parameters (c = 0.95, medium precision = 80.8%, medium sensitivity = 100%).

상기 BIMAX와 BiBit는 바이클러스터에서 0을 허용하지 않으며 매우 낮은 민감도를 나타내었다 (BIMAX 민감도의 중앙값 = 10.2 %, BiBit 중앙값의 중간값 = 14.5 %). 그러나 상기 BIMAX에 30 번의 반복을 적용했을 때 민감도는 86.7 %로 증가했다. The BIMAX and BiBit did not allow 0 in the bike cluster and exhibited very low sensitivity (median BIMAX sensitivity = 10.2%, median BiBit median = 14.5%). However, when applying 30 iterations to the BIMAX, the sensitivity increased to 86.7%.

상기 FABIA는 낮은 정밀도 (중앙값 ≤46.6 %)와 민감도 (≤ 66.0 %)로 인해 테스트 된 희소성 매개 변수에 대해 노이즈가 매우 큰 바이클러스터를 산출했다. a = 0.01 및 0.05에 대한 결과는 도 7 및 도 8에 나타내었다. a ≥ 0.1 인 경우 바이클러스터가 생성되지 않았다. The FABIA yielded very noisy bike clusters for the tested sparsity parameters due to its low precision (median ≤46.6%) and sensitivity (≤66.0%). Results for a = 0.01 and 0.05 are shown in FIGS. 7 and 8. When a ≥ 0.1, no bike cluster was created.

상기 HOCCLUS2도 이 시뮬레이션 설정에서 바이클러스터를 생성하지 않았으므로 도 7 및 도 8에서 테스트했지만 제외되었다. 상기 HOCCLUS2는 희소 한 데이터 (12 % 이하)에서 바이클러스터를 감지했다. 이 결과는 본 발명인 PBE가 노이즈가 많은 이진 데이터로부터 바이클러스터를 식별하는 효율적인 방법임을 나타낸다. The HOCCLUS2 also did not create a bike cluster in this simulation setup, so it was tested in FIGS. 7 and 8 but was excluded. The HOCCLUS2 detected bike clusters in sparse data (12% or less). This result indicates that the PBE, which is the present invention, is an efficient method for identifying a bike cluster from binary data with a lot of noise.

2) 바이클러스터링 대상 예측의 정확도2) Accuracy of prediction of the bike clustering target

상기 바이클러스터 타겟은 검증된 miRNA 표적을 사용하여 평가되었다. miRTarBase는 '강력한'증거 (리포터 분석 또는 웨스턴 블랏)와 '덜 강한'증거 (pSILAC 또는 마이크로 어레이 실험)를 사용하여 수십만 개의 실험적으로 검증 된 miRNA- 표적 관계를 제공한다. 주어진 miRNA의 서열 특이적 표적 (background set) 중에서 '강한'증거로 검증 된 표적은 금 표적(GP) 표적으로 간주되는 반면 강한 증거도 약한 표식도 금 표적(GN) 표적으로 설정되었다. 평가를 위해 본 발명에서는 백그라운드 세트 내의 분율이 5 % 이상인 GP가 30개 이상인 miRNA를 선택했다. 도 9에 나타난 바와 같이, 이 기준을 충족시키는 11 개의 miRNA를 분석했다. The bicluster target was evaluated using a validated miRNA target. miRTarBase provides hundreds of thousands of experimentally validated miRNA-target relationships using'strong' evidence (reporter analysis or western blot) and'less strong' evidence (pSILAC or microarray experiments). Among the sequence-specific targets (background set) of a given miRNA, targets verified with'strong' evidence were considered gold targets (GP) targets, while strong evidences and weak markers were set as gold targets (GN) targets. For evaluation, in the present invention, miRNAs having 30 or more GPs with a fraction of 5% or more in the background set were selected. As shown in Figure 9, 11 miRNAs meeting this criterion were analyzed.

logFC 데이터를 양자화하기 위해 1.3 FC 임계 값을 사용했을 때, 11 개의 miRNA의 평균 민감도와 특이도는 각각 0.704와 0.466이었고 (합계 = 1.170), 이는 시퀀스 기반 시스템과 비교하여 17.0 % (중앙값 19.4 % 기반 목표 예측. 1.3 FC 제로율(Zcut,s) (도 9))에 대한 11 개의 모든 miRNA에 대해 긍정적인 이득이 얻어졌지만 각 miRNA에 대한 상대적 성능은 각기 다른 FC 제로율(Zcut,s)에 따라 상당히 달랐다. 예를 들어, 민감도가 급격히 떨어지기 때문에 FC 제로율(Zcut,s)가 증가함에 따라 miR-34a-5p의 이득이 감소했다(1.3 FC : 20.8 %, 1.5 FC : 13.3 %, 2.0 FC : 7.2 %). 반대로 miR-21-5p의 특이도는 상대적으로 증가하여 제로율(Zcut,s)이 증가함에 따라 증가 하였다 (1.3 FC : 16.4 %, 1.5 FC : 26.5 % 및 2.0 FC : 31.3 %). 이러한 차이는 다른 miRNA 조절 패턴을 나타낸다. 전자의 경우는 많은 유전자를 적당히 조절하는 '미세 튜너'miRNA에 해당한다. 따라서 낮은 제로율(Zcut,s)를 사용하면 대상 표현의 미묘한 변화를 감지하는 데 도움이 된다. 그러나 후자의 경우 miRNA는 상대적으로 적은 수의 표적을 보다 강력하게 조절하는 것으로 보인다. 테스트 한 세 가지 임계 값 중 상기 1.3 FC는 가장 큰 민감도로 가장 좋은 획득을 나타냈다.When a 1.3 FC threshold was used to quantize the logFC data, the average sensitivity and specificity of the 11 miRNAs were 0.704 and 0.466, respectively (sum = 1.170), which was 17.0% (median based on 19.4%) compared to the sequence-based system. Target prediction. 1.3 FC zero rate (Z cut,s ) (Fig. 9)), while positive gains were obtained for all 11 miRNAs, the relative performance for each miRNA is different FC zero rate (Z cut,s ) It was quite different depending on. For example, the gain of miR-34a-5p decreased as the FC zero ratio (Z cut,s ) increased due to a sharp drop in sensitivity (1.3 FC: 20.8%, 1.5 FC: 13.3%, 2.0 FC: 7.2. %). Conversely, the specificity of miR-21-5p was relatively increased and increased as the zero rate (Z cut,s ) increased (1.3 FC: 16.4%, 1.5 FC: 26.5% and 2.0 FC: 31.3%). These differences indicate different miRNA regulation patterns. The former case corresponds to a'fine tuner' miRNA that properly regulates many genes. Therefore, using a low zero rate (Z cut,s ) helps to detect subtle changes in the target expression. However, in the latter case, miRNAs appear to more strongly regulate a relatively small number of targets. Of the three thresholds tested, the 1.3 FC showed the best acquisition with the greatest sensitivity.

miRNA 표적은 기능적으로 서로 관련이 있는 경향이 있다. 따라서 본 발명에서 상기 miRNA 표적의 예측을 향상시키기 위해 바이클러스터 표적 유전자 사이에 STRING 데이터베이스(가장자리 임계 값> 150)의 단백질 기능 상호 작용 네트워크를 통합했다. 상기 바이클러스터 표적 사이에서, k 표 또는 다른 표적과의 기능적 상호 작용이 있는 표본을 선택하고 해당 이익을 측정했다. 흥미롭게도 특이도는 k가 증가함에 따라 급격히 증가하였고(그림 10), k = 3 일 때 최대 이득은 32.0 %에 도달했다(특이성 = 77.8 %, 그림 11). 최대 중앙 이득은 훨씬 더 높았다 (k = 4 일 때 33.4 %). 이 결과는 표적 상호 작용 네트워크가 miRNA 표적 예측을 상당히 향상시킬 수 있음을 보여준다.miRNA targets tend to be functionally related to each other. Therefore, in the present invention, in order to improve the prediction of the miRNA target, the protein function interaction network of the STRING database (edge threshold> 150) was integrated between the bicluster target genes. Among the bicluster targets, samples with k-tables or functional interactions with other targets were selected and the corresponding benefit was measured. Interestingly, the specificity increased rapidly with increasing k (Fig. 10), and when k = 3, the maximum gain reached 32.0% (specificity = 77.8%, Fig. 11). The maximum central gain was much higher (33.4% when k = 4). These results show that the target interaction network can significantly improve miRNA target prediction.

3) 암에서의 항응고제 기반 방법과의 비교3) Comparison with anticoagulant-based methods in cancer

miRNA-mRNA 쌍 프로파일은 일반적으로 miRNA와 miRNA 표적 사이의 상관관계를 기반으로 조건 별 miRNA 표적을 예측하는데 사용되었다. 따라서 본 발명에서는 암특이적 miRNA 표적을 예측하는데 있어서 바이클러스터링 방법과 7 가지의 비상관관계 분석 방법(GenMiR ++, Pearson 상관관계, Spearman 상관관계, Lasso, Elastic Net, IDA 및 Tiresias)을 비교하였다. 상기 Pearson/Spearman correlation, Lasso, Elastic Net 및 IDA는 miRLAB R 패키지를 사용하여 구현되었으며, 상기 GenMiR ++ 및 Tiresias는 각각 MATLAB 및 Perl 코드를 사용하여 실행되었다. 이전 섹션에서 평가 된 11 개의 miRNA에 대해, 예측 된 표적의 정확성이 항-상관 기반 방법과 본 발명의 바이클러스터링 방법을 비교하였다. 항체-반응법의 경우, 각 miRNA의 서열 특이적 표적을 상기 Pearson/Spearman correlation, Bayesian method, penalized regression 또는 neural network model에 의해 TCGA miRNA-mRNA profile로부터 계산 된 anticorlation score의 순서로 분류하였다. 이러한 분류 점수는 ROC 곡선을 산출한 금 표준 양/음 세트와 비교되었다.The miRNA-mRNA pair profile was generally used to predict condition-specific miRNA targets based on the correlation between miRNA and miRNA targets. Therefore, in the present invention, in predicting cancer-specific miRNA targets, the biclustering method and 7 uncorrelated analysis methods (GenMiR++, Pearson correlation, Spearman correlation, Lasso, Elastic Net, IDA, and Tiresias) were compared. . The Pearson/Spearman correlation, Lasso, Elastic Net, and IDA were implemented using the miRLAB R package, and the GenMiR++ and Tiresias were implemented using MATLAB and Perl codes, respectively. For the 11 miRNAs evaluated in the previous section, the accuracy of the predicted target was compared with the anti-correlation based method and the inventive biclustering method. In the case of the antibody-reaction method, the sequence specific targets of each miRNA were classified in the order of the anticorlation score calculated from the TCGA miRNA-mRNA profile by the Pearson/Spearman correlation, Bayesian method, penalized regression, or neural network model. These classification scores were compared to the gold standard positive/negative set that produced the ROC curve.

바이클러스터링 방법의 경우, 종양의 30 % 이상이 'tumor versus normal'또는 'aggressive versus non-aggressive tumor'상태에 속하는 바이클러스터를 선택하였다. 상기 바이클러스터들은 5 개의 암 유형(유방, 뇌, 폐, 결장 또는 혈액 암)에 대해 33개의 miRNA-암 쌍을 나타낸다. 이 모든 암 유형은 TCGA (The Cancer Genome Atlas)에서 miRNA와 mRNA 데이터를 모두 가지고 있어, 본 발명에서 항 응고에 기반 한 방법을 시험 할 수있었다. In the case of the biclustering method, a bike cluster in which 30% or more of the tumors belong to the'tumor versus normal' or'aggressive versus non-aggressive tumor' state was selected. The biclusters represent 33 miRNA-cancer pairs for 5 cancer types (breast, brain, lung, colon or blood cancer). All these cancer types have both miRNA and mRNA data from TCGA (The Cancer Genome Atlas), so that the anticoagulation-based method could be tested in the present invention.

각 miRNA-암 쌍에서, 해당 바이클러스터 표적은 각 바이클러스터의 특정 암 상태의 비율의 순서로 모아졌다. 따라서 각 풀링 단계에서 바이클러스터 표적의 진실 및 거짓 긍정 비율이 연속 곡선 대신 표시되었다 (별표, 그림 12). ROC 곡선 (AUC)에서 7개 영역 중 어느 것도 0.6을 초과하지 않고 최대 바이클러스터링 획득이 1.1 미만인 6가지 사례를 제거한 후, 대응하는 miRNA의 공지 된 발현 (정량적 PCR 결과)과 일관된 20개의 사례로부터 바이클러스터들을 선택했다. 다시 말하면, up-regulated된 바이클러스터들은 상응하는 miRNA가 암에서 하향 조절되는 것으로 알려졌을 때 선택되었고, 그 반대도 마찬가지였다.For each miRNA-cancer pair, the corresponding bike cluster targets were pooled in order of proportion of the specific cancer states of each bike cluster. Therefore, at each pooling step, the percentage of true and false positives of the bike cluster targets were plotted instead of a continuous curve (asterisk, Figure 12). After removing the 6 cases in which none of the 7 regions in the ROC curve (AUC) exceeded 0.6 and the maximum biclustering acquisition was less than 1.1, the analysis from 20 cases consistent with the known expression of the corresponding miRNA (quantitative PCR result). Selected clusters. In other words, up-regulated bike clusters were selected when the corresponding miRNA was known to be downregulated in cancer, and vice versa.

전반적으로, 도 12에 나타난 바와 같이, 바이클러스터링 방법은 miRNA-mRNA 프로파일 기반 방법과 유리하게 비교되었다. 20가지 경우 중 11가지 경우에, 바이클러스터링 방법은 anticorlation-based 방법보다 더 나은 이득을 보였다. 6개의 다른 경우에서, 두 가지 접근법 모두 비슷한 결과를 보였다. 나머지 세 가지 경우에서, 바이클러스터링 방법은 가장 낮은 감도 때문에 가장 좋은 상관 분석 기반 방법보다 열등했다. 이전 섹션에서 보았듯이, 네트워크 정보를 통합하는 것은 바이클러스터링 방법의 특이성과 이득을 증가시키는 경향이 있었다. 일곱 가지 상관관계 분석 방법 중 상기 Genmir ++가 대부분의 경우에 가장 잘 수행되었다.Overall, as shown in Fig. 12, the biclustering method was compared advantageously with the miRNA-mRNA profile based method. In 11 of the 20 cases, the biclustering method showed better benefits than the anticorlation-based method. In six different cases, both approaches gave similar results. In the remaining three cases, the biclustering method was inferior to the best correlation analysis-based method because of the lowest sensitivity. As we saw in the previous section, integrating network information tended to increase the specificity and benefit of the biclustering method. Of the seven correlation analysis methods, the Genmir ++ performed best in most cases.

이러한 결과는 miRNA 발현 정보가 제공되면 조건별 miRNA 표적의 우선순위를 매길 때 바이클러스터링 접근 방식이 전체적으로 역 상관 기반 방법보다 우수한 것으로 나타났다. 특히, miRNA 발현은 문헌이나 정량적 PCR 실험으로부터 비교적 쉽게 얻어진다.These results indicate that the biclustering approach is generally superior to the reverse correlation-based method when prioritizing miRNA targets for each condition when miRNA expression information is provided. In particular, miRNA expression is relatively easily obtained from literature or quantitative PCR experiments.

4) 암에 있는 PI3K/Akt 신호를 표적으로 하는 miRNAs4) miRNAs targeting PI3K/Akt signaling in cancer

본 발명에서는, 도 5에 나타난 바와 같이, 20개의 암-miRNA 쌍에 해당하는 바이클러스터 표적을 더 분석했다. 그중 유방암과 확산성 B세포 림프종(DLBCL)이 가장 많은 수의 바이클러스터들을 산출했다. 유방암에서, miR-1, miR-29a/b/c, miR-34a 및 miR-145의 바이클러스터 표적은 공격적 암에서 상향 조절되었다. DLBCL에서 miR-29a/b/c, miR-34a 및 miR-145의 표적도 또한 상향 조절되었다. 우리는 유방암 및 DLBCL 각각 7개 및 4개의 중요한 경로(FDR<0.05)를 확인하기 위해 DAVID 도구를 사용하여 각 암 유형에 해당하는 바이클러스터 표적을 풀링하고 경로 강화 분석 (KEGG 주석)을 수행했다. 흥미롭게도, 두 종류의 암 유형 모두에서 바이클러스터 표적은 PI3K/Akt 신호 전달 경로 (유방암의 경우 FDR = 2.6E-7, DLBCL의 경우 FDR = 5.3E-7)로 강하게 농축되었다. 이 경로는 종양 세포의 세포주기 및 생존, 증식 및 상피-중간엽 변이를 촉진하기 위해 많은 암에서 과발현 되는 것으로 알려져있다. 또한, 세포 외 기질(ECM)-수용체 상호 작용 및 국소 부착 경로는 일반적으로 두 가지 암 유형 모두에서 발견되었지만, 2개 (CAV2, BIRC2)를 제외한 모든 해당 바이클러스터 표적도 PI3K/Akt 신호 전달 경로에 포함되었다.In the present invention, as shown in Fig. 5, the bicluster target corresponding to 20 cancer-miRNA pairs was further analyzed. Among them, breast cancer and diffuse B-cell lymphoma (DLBCL) produced the largest number of bike clusters. In breast cancer, the bicluster targets of miR-1, miR-29a/b/c, miR-34a and miR-145 were upregulated in aggressive cancer. Targets of miR-29a/b/c, miR-34a and miR-145 were also upregulated in DLBCL. We pooled bicluster targets corresponding to each cancer type and performed pathway enrichment analysis (KEGG annotation) using the DAVID tool to identify 7 and 4 important pathways (FDR<0.05) for breast cancer and DLBCL, respectively. Interestingly, in both cancer types, the bicluster targets were strongly enriched with the PI3K/Akt signaling pathway (FDR = 2.6E-7 for breast cancer and FDR = 5.3E-7 for DLBCL). This pathway is known to be overexpressed in many cancers to promote cell cycle and survival, proliferation, and epithelial-mesenchymal mutations of tumor cells. In addition, extracellular matrix (ECM)-receptor interactions and local adhesion pathways were generally found in both cancer types, but all but two (CAV2, BIRC2) corresponding bicluster targets were also involved in the PI3K/Akt signaling pathway. Included.

도 12 및 도 13은 각각 유방암 및 DLBCL에 대해 바이클러스터 표적을 강조한 PI3K/Akt 경로를 도시한다. 두 가지 암 유형 모두에서, miRNA는 성장 인자 (예 : miR-29에 의해 표적화되는 VEGFA 및 PDGFC) 및 ECM (예 : miR-29에 의한 COL1A1, LAMC1 및 THBS2)을 코딩하는 유전자를 포함하는 다중 리간드를 표적으로 하였다. 수용체 티로신 키나아제 (예 : miR-34a에 의한 MEK 및 / 또는 PDGFRA), G 단백질 (miR-29에 의한 GNB4 및 GNG12), 톨 유사 수용체 (miR-34a 및 miR-145에 의한 TLR4) 및 인테그린 (예, miR-29에 의한 ITGB1), NRAS (miR-29 및 miR-145에 의해) 및 CDK6 (miR-29에 의해)와 같은 하류 효과기를 포함한다. 또한, AKT3는 유방암에서 miR-29의 표적이 되었으며, PI3K 복합체 (PIK3R3)의 하나의 구성 요소 인 cytokine receptor (IL2RB와 IL6R)는 DLBCL에서 miR-34a와 miR-29의 표적이 되었다. 사실, 유방암에서의 miR-29b 상향 조절은 관련 표적을 억제함으로써 전이를 상당히 억제한다는 것이 이전에 밝혀졌다. 12 and 13 depict the PI3K/Akt pathway highlighting bicluster targets for breast cancer and DLBCL, respectively. In both cancer types, miRNAs are multiple ligands that contain genes encoding growth factors (e.g. VEGFA and PDGFC targeted by miR-29) and ECMs (e.g. COL1A1, LAMC1 and THBS2 by miR-29). Was targeted. Receptor tyrosine kinase (e.g. MEK and/or PDGFRA by miR-34a), G protein (GNB4 and GNG12 by miR-29), toll-like receptors (TLR4 by miR-34a and miR-145) and integrins (e.g. , ITGB1 by miR-29), NRAS (by miR-29 and miR-145) and CDK6 (by miR-29). In addition, AKT3 was a target of miR-29 in breast cancer, and cytokine receptors (IL2RB and IL6R), a component of the PI3K complex (PIK3R3), were targets of miR-34a and miR-29 in DLBCL. In fact, it has been previously shown that miR-29b upregulation in breast cancer significantly inhibits metastasis by inhibiting related targets.

본 발명에서는 잘 확립 된 전이성 및 침입 암 세포주인 MDA-MB 231인 인간 유방암 세포주를 사용하여 miR-29의 바이클러스터 표적을 실험적으로 검증했다. ECM 또는 PI3K와 관련된 9 개의 바이클러스터 표적의 전사 수준을 miR-29 또는 대조 miRNA를 사용한 일시적 형질 감염 2일 후에 분석했다. 모든 9개의 표적은 miR-29b 또는 -29c 형질 감염에 의해 대조군에 비해 유의하게 하향 조절되었다 (도 15). 또한, FAK(focal adhesion kinase)와 AKT와 같은 ECM 관련 하류 경로의 활성화는 바이클러스터링 분석이 질병 관련 경로를 포착 할 수 있는 능력을 보여주는 miR-29 (도 16, 17)에 의해 약화되었다.In the present invention, the well-established metastatic and invasive cancer cell line, the human breast cancer cell line MDA-MB231, was used to experimentally verify the bicluster target of miR-29. The levels of transcription of nine bicluster targets associated with ECM or PI3K were analyzed 2 days after transient transfection with miR-29 or control miRNA. All 9 targets were significantly downregulated compared to the control by miR-29b or -29c transfection (FIG. 15 ). In addition, activation of ECM-related downstream pathways such as focal adhesion kinase (FAK) and AKT was attenuated by miR-29 (Figs. 16 and 17), showing the ability of biclustering assays to capture disease-related pathways.

마지막으로, 본 발명에서는 공개 miRNA 표현 데이터 세트에 대해 다변량 Cox 비율 위험 (mCPH) 모델을 사용하여 이러한 miRNA의 예후 가치를 분석했다. 재발하지 않는 생존율은 유방암 환자 210명 (GEO 데이터베이스, GSE22216)에서 테스트되었다. 분석 된 여섯 개의 miRNA 중 세 가지 miR-29 family miRNA는 유의 한 예후를 보였다(miR-29a의 mCPH p 값 = 0.0042, miR-29b = 0.0064, miR-29c = 0.0038, 나이, 종양 크기, 림프절 ER, 학년). 그 다음, DLBCL 환자 116 명 (GSE40239)의 전체 생존율도 5 개의 miRNA에 대해 분석되었다. 그 중 2 명은 유의 한 예후를 보였다(miR-34a의 mCPH p 값 = 0.0185 및 miR-145 = 0.0041; International Prognostic Index (IPI) 및 성별). 생존에 대한 높은 miRNA 수준과 낮은 miRNA 수준의 효과를 대조하는 Kaplan-Meier 플롯도 도 12 및 도 14에 나와 있다.Finally, the present invention analyzed the prognostic value of these miRNAs using a multivariate Cox Ratio Hazard (mCPH) model for public miRNA expression data sets. Survival without recurrence was tested in 210 breast cancer patients (GEO database, GSE22216). Of the six miRNAs analyzed, three miR-29 family miRNAs showed significant prognosis (mCPH p value of miR-29a = 0.0042, miR-29b = 0.0064, miR-29c = 0.0038, age, tumor size, lymph node ER, grade). Then, the overall survival rate of 116 DLBCL patients (GSE40239) was also analyzed for 5 miRNAs. Two of them showed significant prognosis (mCPH p value of miR-34a = 0.0185 and miR-145 = 0.0041; International Prognostic Index (IPI) and gender). Kaplan-Meier plots contrasting the effects of high and low miRNA levels on survival are also shown in FIGS. 12 and 14.

전반적으로 암 바이클러스터들을 분석하여 주요 경로 (PI3K / Akt 신호 전달, ECM 및 국소 부착) 및 5개의 관련 예후 miRNA (유방암에서 miR-29a, miR-29b 및 miR-29c; miR-34a 및 miR-145)의 종양 진행을 억제하는 것으로 나타났다 (위험 비 0.593 - 0.745). 특히 miR-29b / c가 이러한 경로에 미치는 영향은 실험적으로 입증되었다(도 15, 도 16).Overall, cancer biclusters were analyzed to analyze the major pathways (PI3K/Akt signaling, ECM and local attachment) and five related prognostic miRNAs (miR-29a, miR-29b and miR-29c in breast cancer; miR-34a and miR-145. ) Has been shown to inhibit tumor progression (risk ratio 0.593-0.745). In particular, the effect of miR-29b / c on this pathway was experimentally proven (Figs. 15 and 16).

5) BiMIR : 조건 별 miRNA 표적에 대한 바이클러스터 데이터베이스5) BiMIR: Bicluster database for miRNA targets by condition

본 발명인 PBE 알고리즘 (1.3 FC의 경우 13949, 1.5 FC의 경우 10,999, 2.0 FC 임계 값의 경우 4,950)과 BiMIR 데이터베이스 (http://www.btool.org/bimir_dir/)로 컴파일 된 459개의 인간 miRNA에 대해 총 29,898개의 바이클러스터들이 생성되었다. 여기서 바이클러스터들은 miRNA, 조직, 질병, 키워드, 관심 대상 유전자 및 이들의 조합을 검색 할 수 있었다. 상기 BiMIR은 새로운 miRNA 기능, 표적 및 관련 세포 조건을 조사하는 데 사용할 수 있다.PBE algorithm of the present invention (13949 for 1.3 FC, 10,999 for 1.5 FC, 4,950 for 2.0 FC threshold) and 459 human miRNAs compiled with the BiMIR database (http://www.btool.org/bimir_dir/) In total, 29,898 bike clusters were created. Here, bikers were able to search for miRNAs, tissues, diseases, keywords, genes of interest, and combinations thereof. The BiMIR can be used to investigate new miRNA functions, targets and related cellular conditions.

검색된 바이클러스터들 목록과 함께 바이클러스터 대상에 대한 기능 강화 결과는 MSigDB 경로 및 유전자 온톨로지 범주를 기반으로 제공된다. 바이클러스터들이 특정 기관/조직 또는 질병에 대해 검색되는 경우 각 바이클러스터의 해당 조건의 비율도 보고된다. 이들은 사용자가 가장 적합한 바이클러스터들을 찾을 수 있다. 각 바이클러스터의 히트 맵을 시각화하고(도 20), 해당 목표 유전자와 세포 조건을 각각 Genecards 및 GEO 데이터베이스에 하이퍼링크하여 자세한 정보를 제공한다. 바이클러스터 타겟 유전자의 경우, miRTarBase의 실험적 증거, 네트워크 노드도 및 STRING 데이터베이스를 기반으로 한 단백질 네트워크 시각화가 제공된다. 모든 바이클러스터들은 BiMIR 데이터베이스에서 다운로드 할 수 있다.Along with the list of searched bike clusters, functional enhancement results for bike cluster targets are provided based on the MSigDB pathway and gene ontology categories. When bike-clusters are searched for a specific organ/tissue or disease, the percentage of that condition for each bike-cluster is also reported. They allow the user to find the bike clusters that are most suitable. Heat maps of each bike cluster are visualized (FIG. 20), and detailed information is provided by hyperlinking the corresponding target genes and cell conditions to Genecards and GEO databases, respectively. For the bicluster target genes, experimental evidence of miRTarBase, network node diagram, and protein network visualization based on the STRING database are provided. All bike clusters can be downloaded from the BiMIR database.

(3) 토론(3) Discussion

본 발명에서는 거의 조사되지 않은 차원 인 세포 특이 적 표적과 세포 조건을 바이클러스터링하여 miRNA 표적을 우선순위 화하는 새로운 프레임 워크를 제시했다.In the present invention, we proposed a new framework for prioritizing miRNA targets by biclustering cell-specific targets and cellular conditions, a dimension that has been rarely investigated.

이것은 다른 세포 분자와 마찬가지로 miRNA 표적이 모듈 활성을 가지며 다른 세포 조건에서 반복적으로 포획 될 수 있다는 생각에서 기반한다. 실제로, 바이클러스터 표적은 순전히 서열 기반 표적과 비교하여 상당히 향상된 정확도를 나타내었고 종종 식별 된 모듈을 특징짓는 잘 알려진 경로가 풍부해졌다. 더욱이, 기능적으로 연결된 표적은 훨씬 더 높은 정확도를 보여 주었고, miRNA 표적의 모듈 활성을 더 확인했다. This is based on the idea that miRNA targets, like other cellular molecules, have modular activity and can be repeatedly captured in different cellular conditions. Indeed, bicluster targets exhibited significantly improved accuracy compared to purely sequence-based targets and often enriched well-known pathways characterizing the identified modules. Moreover, functionally linked targets showed much higher accuracy and further confirmed the modular activity of miRNA targets.

본 발명에서는 암 바이클러스터들을 분석하고 PI3K/Akt 신호 경로가 집중적으로 두 가지 암 종류의 몇 miRNAs에 의해 표적으로 한다는 것을 발견했다. 또한 miR-29의 예후 가치와 miR-29의 규제 효과도 검증되었다. 이 결과는 바이클러스터링 분석이 질병에서 miRNA에 의해 제어되는 주요 경로를 나타낼 수 있음을 보여준다. In the present invention, we analyzed cancer bike clusters and found that the PI3K/Akt signaling pathway is intensively targeted by several miRNAs of two cancer types. In addition, the prognostic value of miR-29 and the regulatory effect of miR-29 were also verified. These results show that biclustering analysis can reveal a major pathway controlled by miRNAs in disease.

miRNA 발현에 대한 지식에 기초하여, 본 발명에서 miRNA 표적의 예측은 암 조건 하에서 7가지의 항-상관관계 기반 방법과 유리하게 비교되었다. 이 결과는 비용이 많이 드는 miRNA-mRNA 프로파일을 생성하지 않고도 다양한 결과를 얻을 수 있다는 점에서 본 발명의 접근 방법의 실제 가치를 입증한다. BiMIR 데이터베이스는 miRNA, 세포 조건 (또는 질병), mRNA 표적 및 관련 경로를 연결하여 miRNA의 모듈 식 규제 네트워크를 탐색하도록 설계되었다. 사용자는 관심 있는 세포 조건에 대한 후보 miRNA 및 표적 유전자를 동정 할 수 있다. miRNA 발현 수준에 대한 지식은 바이클러스터들(위 또는 아래)의 적절한 방향을 선택하는 데 도움이 된다.Based on the knowledge of miRNA expression, the prediction of miRNA targets in the present invention was advantageously compared with seven anti-correlation based methods under cancer conditions. This result demonstrates the practical value of the approach of the present invention in that various results can be obtained without generating an expensive miRNA-mRNA profile. The BiMIR database was designed to explore the modular regulatory network of miRNAs by linking miRNAs, cellular conditions (or diseases), mRNA targets, and related pathways. Users can identify candidate miRNAs and target genes for the cellular condition of interest. Knowledge of the level of miRNA expression helps to choose the appropriate orientation for the bike clusters (up or down).

본 발명에서 바이클러스터 확장의 10 번의 반복 동안 상기 제로율(Zcut,s)을 0.01에서 0.1 (단계 크기 0.01)까지 점진적으로 증가 시켰다. 이것은 결국 0의 10 %를 허용하는 것처럼 보일 수 있지만 상기 트림부(20) 및 상기 제4단계(S40)로 인해 최종 제로 비율은 약 1.5 %에 불과하다. 상기 확장 클러스터의 계층적 클러스터링의 차단은 덜 민감한 매개 변수이기도 하다. 또한 상기 바이클러스터들은 다소 엄격한 기준 (세 개 이상의 데이터베이스에 있는 대상)으로 생성되었다. 그러므로 BiMIR은 관심 있는 세포 상태에 대해 매우 가능성이 있는 적은 수의 표적을 선택하는데 사용될 수 있다.In the present invention, the zero rate (Zcut,s) was gradually increased from 0.01 to 0.1 (step size 0.01) during 10 iterations of the bike cluster expansion. This may seem to allow 10% of zero in the end, but due to the trim unit 20 and the fourth step (S40), the final zero ratio is only about 1.5%. Blocking hierarchical clustering of the extended cluster is also a less sensitive parameter. In addition, the bike clusters were created with rather stringent criteria (objects in three or more databases). Therefore, BiMIR can be used to select a small number of targets that are very likely for the cell state of interest.

본 발명에서 제시된 바이클러스터링 접근법은 전사 인자 또는 RNA 결합 단백질과 같은 다른 서열 특이적 조절 인자의 조건 특이적 표적을 예측하는 데에도 적용될 수 있다. 이와 관련하여, 20,639개의 유전자에 대한 5,158개의 mRNA fold-change 프로파일이 일반적인 시스템 생물학 연구에 제공된다. 이러한 mRNA fold-change 데이터는 GTEx 전 사체 데이터와는 다르다. 이 mRNA fold-change 데이터는 GTEx 데이터가 정상 조직의 전사 수준을 나타내는 반면, 본 발명의 fold-change 데이터는 질병, 화학 치료, 조직과 같은 다양한 세포 조건에 대한 유전자 발현 '변화'를 나타내는 점에서 GTEx 전 사체 데이터와 다르다.The biclustering approach presented in the present invention can also be applied to predict condition specific targets of transcription factors or other sequence specific regulatory factors such as RNA binding proteins. In this regard, 5,158 mRNA fold-change profiles for 20,639 genes are provided for general systems biology studies. These mRNA fold-change data are different from GTEx transcript data. This mRNA fold-change data indicates that the GTEx data represents the level of transcription in normal tissue, whereas the fold-change data of the present invention represents the'change' of gene expression for various cellular conditions such as disease, chemotherapy, and tissue. It is different from the corpse data.

miRNA 조절 모듈을 식별하는 기존의 방법이 다수의 miRNA와 중화 조절 네트워크를 대표하는 다수의 표적 유전자를 병발시키는 반면, 본 발명은 다수의 세포 조건에서 일반적으로 검출되는 단일 miRNA의 가능성이 높은 표적 유전자의 우선 순위를 정하는 데 초점을 맞추고 있다. 본 발명의 접근법은 다른 miRNA에 대해 바이클러스터들을 중첩시킴으로써 miRNA 코어 조절 네트워크를 평가할 수 있도록 확장 될 수 있다. 유의 한 중첩은 여러 세포 조건에서 공통화 된 mRNA 표적을 나타낸다. 본 발명의 접근 방식과 데이터는 복잡한 규제 네트워크의 모듈 구조를 밝혀내는 데 기여할 것이다.While conventional methods of identifying miRNA regulatory modules co-exist with multiple miRNAs and multiple target genes representing neutralization regulatory networks, the present invention provides a high probability of a single miRNA that is commonly detected in multiple cellular conditions. It focuses on prioritizing. The approach of the present invention can be extended to be able to evaluate the miRNA core regulatory network by overlapping bike clusters for other miRNAs. Significant overlap indicates common mRNA targets in several cellular conditions. The approach and data of the present invention will contribute to uncovering the modular structure of a complex regulatory network.

상기 과제의 해결 수단에 의해, 본 발명은 서열 특이적 표적에 대한 대용량의 mRNA 변화 데이터를 바이클러스터링(biclustering)하여 인간 mRNA 표적 및 관련 세포조건을 예측하는 새로운 접근법을 제공할 수 있다. By means of solving the above problems, the present invention can provide a novel approach for predicting human mRNA targets and related cellular conditions by biclustering large amounts of mRNA change data for sequence-specific targets.

또한, 본 발명은 유전자 발현데이터 및 타겟인식서열 정보와 결합하여 miRNA, 전사인자, RNA 바인딩 단백질과 같은 조절자의 타겟을 에측하는 바이클러스터를 제공할 수 있다.In addition, the present invention can provide a bike cluster that predicts a target of a regulator such as miRNA, transcription factor, or RNA binding protein by combining gene expression data and target recognition sequence information.

또한, 본 발명은 적절한 순열을 통해 최대 블록을 확인하도록 바이클러스터(bicluster)를 확장하는 예측정확도가 향상된 새로운 알고리즘을 제시할 수 있다. In addition, the present invention can propose a new algorithm with improved prediction accuracy that extends a bicluster to identify a maximum block through appropriate permutation.

또한, 본 발명은 바이클러스터(bicluster)의 확장 시 한 방향으로 길어지지 않도록 방지할 수 있는 알고리즘을 제시할 수 있다. In addition, the present invention can propose an algorithm capable of preventing the bicluster from being elongated in one direction when expanding.

또한, 본 발명에 의해 제시된 알고리즘은 종래 기술과 비교할 때 정확도 및 민감도가 높은 효과가 있다. In addition, the algorithm proposed by the present invention has high accuracy and sensitivity compared to the prior art.

이와 같이, 상술한 본 발명의 기술적 구성은 본 발명이 속하는 기술분야의 당업자가 본 발명의 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.As described above, it will be understood that the technical configuration of the present invention described above can be implemented in other specific forms without changing the technical spirit or essential features of the present invention by those skilled in the art.

그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해되어야 하고, 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타나며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Therefore, the embodiments described above are to be understood as illustrative and non-limiting in all respects, and the scope of the present invention is indicated by the claims to be described later rather than the detailed description, and the meaning and scope of the claims and the All changes or modifications derived from the equivalent concept should be interpreted as being included in the scope of the present invention.

10. 확장부
20. 트림부
30. 업데이트부
40. 확장방지부
S10. MIR 프로파일을 생성하는 제1단계
S20. 상기 MIR 프로파일에서 시드 바이클러스터를 추출하는 제2단계
S30. 상기 MIR 프로파일에서 상기 시드 바이클러스터를 제외하고 추가할 수 있는 벡터 중, 제로율(Zcut,s)을 가진 벡터를 추가하여 임시 확장 바이클러스터를 생성하는 제3단계
S40. 상기 임시 확장 바이클러스터에서 임계값을 기준으로 덜 조밀한 행과 열벡터를 제거하여 확장 바이클러스터를 생성하는 제4단계
S50. 상기 시드 바이클러스터에 상기 확장 바이클러스터를 추가하여 병합 바이클러스터를 생성하여 업데이트하는 제5단계
S60. 상기 제5단계에서 생성된 병합 바이클러스터에서 상기 행 또는 열벡터 중 어느 한 벡터의 방향이 길어진 경우 긴 쪽의 벡터에 수정제로율(Zcut,m)을 적용하는 제6단계
10. Extension
20. Trim part
30. Update section
40. Expansion prevention part
S10. The first step of creating an MIR profile
S20. The second step of extracting a seed bike cluster from the MIR profile
S30. A third step of generating a temporary extended bike cluster by adding a vector having a zero rate (Zcut,s) among vectors that can be added excluding the seed bike cluster from the MIR profile
S40. The fourth step of generating an extended bicycle cluster by removing less dense row and column vectors from the temporary extended bicycle cluster based on a threshold value.
S50. A fifth step of creating and updating a merge bike cluster by adding the extended bike cluster to the seed bike cluster
S60. The sixth step of applying a correction zero rate (Z cut,m ) to the longer vector when the direction of any one of the row or column vectors in the merged bike cluster created in the fifth step is longer

Claims (8)

MIR 프로파일을 생성하는 제1단계;
상기 MIR 프로파일에서 시드 바이클러스터를 추출하는 제2단계;
상기 MIR 프로파일에서 상기 시드 바이클러스터를 제외하고 추가할 수 있는 벡터 중, 제로율(Zcut,s)을 가진 벡터를 추가하여 임시 확장 바이클러스터를 생성하는 제3단계;
상기 임시 확장 바이클러스터에서 임계값을 기준으로 덜 조밀한 행과 열벡터를 제거하여 확장 바이클러스터를 생성하는 제4단계;
상기 시드 바이클러스터에 상기 확장 바이클러스터를 추가하여 병합 바이클러스터를 생성하여 업데이트하는 제5단계;에 의해 실시하되,
상기 시드 바이클러스터는 상기 제3단계 내지 제5단계를 R번 반복하며 점진적으로 확장되는 것 을 특징으로 하는 빅데이터를 이용한 조건별 마이크로 RNA 표적 조사 방법.
A first step of generating an MIR profile;
A second step of extracting a seed bike cluster from the MIR profile;
A third step of generating a temporary extended bike cluster by adding a vector having a zero rate (Z cut,s ) from among vectors that can be added excluding the seed bike cluster from the MIR profile;
A fourth step of generating an extended bicycle cluster by removing less dense row and column vectors from the temporary extended bicycle cluster based on a threshold value;
A fifth step of creating and updating a merge bike cluster by adding the extended bike cluster to the seed bike cluster;
The seed bike cluster repeats the third to fifth steps R times and gradually expands . Micro RNA target irradiation method for each condition using big data, characterized in that.
제1항에 있어서,
상기 제3단계 내지 제5단계를 R번 반복하는 것은,
상기 제5단계에서 업데이트된 병합 바이클러스터의 제로율(Zcut,s)이 상기 임시 확장 바이클러스터의 제로율(Zcut,s)에 도달할 때 까지 반복하여 확장하는 것을 특징으로 하는 빅데이터를 이용한 조건별 마이크로 RNA 표적 조사 방법.
The method of claim 1,
Repeating the third to fifth steps R times,
Big data characterized in that the repeatedly extended, until the first merged zero rate of by-cluster (Z cut, s) updated at step 5 is reached in the temporary expansion zero rate of by-cluster (Z cut, s) Micro RNA target investigation method for each condition used.
제1항에 있어서,
상기 제로율(Zcut,s)은 [식 1]인 것을 특징으로 하는 빅데이터를 이용한 조건별 마이크로 RNA 표적 조사 방법.
[식 1]
Figure pat00008
The method of claim 1,
The zero rate (Z cut,s ) is a micro RNA target irradiation method according to conditions using big data, characterized in that [Equation 1].
[Equation 1]
Figure pat00008
제1항에 있어서,
상기 제5단계에서 생성된 병합 바이클러스터에서 상기 행 또는 열벡터 중 어느 한 벡터의 방향이 기설정된 범위보다 길어진 경우, 긴 쪽의 벡터에 [식 3]의 수정제로율(Zcut,m)을 적용하여 더 이상의 확장을 어렵게 만드는 제6단계;를 더 포함하는 것을 특징으로 하는 빅데이터를 이용한 조건별 마이크로 RNA 표적 조사 방법.
[식 3]
Figure pat00009
The method of claim 1,
In the merged bike cluster generated in the fifth step, when the direction of any one of the row or column vectors is longer than a preset range, the correction zero rate (Z cut,m ) of [Equation 3] is applied to the longer vector. A sixth step of making further expansion difficult by applying; micro RNA targeting method for each condition using big data, characterized in that it further comprises.
[Equation 3]
Figure pat00009
바이클리크(BICLIQUE)가 경쟁적으로 행과 열을 추가하여 시드 바이클러스터를 생성하는 추출부;
상기 MIR 프로파일에서 추가할 수 있는 벡터 중, 제로율(Zcut,s)을 가진 벡터를 첨부하여 임시 확장 클러스터를 생성하는 확장부(10);
상기 임시 확장 클러스터에서 임계값을 기준으로 덜 조밀한 행과 열을 제거하여 확장 바이클러스터를 생성하는 트림부(20);
상기 시드 바이클러스터에 상기 확장 바이클러스터를 업데이트하여 점진적으로 바이클러스터를 확장하는 업데이트부(30);를 포함하는 것을 특징으로 하는 빅데이터를 이용한 조건별 마이크로 RNA 표적 조사 장치.
An extraction unit for generating a seed bike cluster by competitively adding rows and columns by BICLIQUE;
An extension unit 10 for generating a temporary extended cluster by attaching a vector having a zero rate (Z cut,s ) among vectors that can be added in the MIR profile;
A trim unit 20 for generating an extended bike cluster by removing less dense rows and columns from the temporary extended cluster based on a threshold value;
And an update unit (30) for gradually expanding the bike cluster by updating the expanded bike cluster in the seed bike cluster. A micro RNA target irradiation apparatus for each condition using big data, comprising: a.
제5항에 있어서,
상기 생성된 병합 바이클러스터에서 한 방향으로 길어지는 것을 방지하는 확장방지부(40);를 더 포함하는 것을 특징으로 하는 빅데이터를 이용한 조건별 마이크로 RNA 표적 조사 장치.
The method of claim 5,
Micro RNA target irradiation device for each condition using big data, characterized in that it further comprises a; expansion prevention unit (40) for preventing lengthening in one direction in the generated merged bike cluster.
제5항에 있어서,
상기 제로율(Zcut,s)은 [식 1]인 것을 특징으로 하는 빅데이터를 이용한 조건별 마이크로 RNA 표적 조사 방법.
[식 1]
Figure pat00010
The method of claim 5,
The zero rate (Z cut,s ) is a micro RNA target irradiation method according to conditions using big data, characterized in that [Equation 1].
[Equation 1]
Figure pat00010
제6항에 있어서,
상기 확장방지부(40)는,
병합 바이클러스터에서 상기 행 또는 열벡터 중 어느 한 벡터의 방향이 기설정된 범위보다 길어진 경우, 긴 쪽의 벡터에 [식 3]의 수정제로율(Zcut,m)을 적용하는 것을 특징으로 하는 빅데이터를 이용한 조건별 마이크로 RNA 표적 조사 방법.
[식 3]
Figure pat00011
The method of claim 6,
The expansion prevention part 40,
In the merged bike cluster, when the direction of any one of the row or column vectors is longer than a preset range, a correction zero rate (Z cut,m ) of [Equation 3] is applied to the longer vector. Micro RNA target investigation method by condition using data.
[Equation 3]
Figure pat00011
KR1020190023691A 2019-02-28 2019-02-28 Method for identifying condition-specific micro rna targets with big data KR102386876B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190023691A KR102386876B1 (en) 2019-02-28 2019-02-28 Method for identifying condition-specific micro rna targets with big data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190023691A KR102386876B1 (en) 2019-02-28 2019-02-28 Method for identifying condition-specific micro rna targets with big data

Publications (2)

Publication Number Publication Date
KR20200105069A true KR20200105069A (en) 2020-09-07
KR102386876B1 KR102386876B1 (en) 2022-04-13

Family

ID=72472269

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190023691A KR102386876B1 (en) 2019-02-28 2019-02-28 Method for identifying condition-specific micro rna targets with big data

Country Status (1)

Country Link
KR (1) KR102386876B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051301A (en) * 2021-03-08 2021-06-29 网宿科技股份有限公司 Object storage method, system and equipment
CN114333991A (en) * 2020-09-30 2022-04-12 北京瑷格干细胞科技有限公司 Method for screening disease markers by bioinformatics and application thereof

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J. Xie, "Development on Biclustering Techniques for Gene Expression Data Modeling and Mining", Thesis of South Dakoda State Univ., 2018.* *
미국등록특허 US8712935 "EVOLUTIONARY CLUSTERING ALGORITHM"

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114333991A (en) * 2020-09-30 2022-04-12 北京瑷格干细胞科技有限公司 Method for screening disease markers by bioinformatics and application thereof
CN113051301A (en) * 2021-03-08 2021-06-29 网宿科技股份有限公司 Object storage method, system and equipment

Also Published As

Publication number Publication date
KR102386876B1 (en) 2022-04-13

Similar Documents

Publication Publication Date Title
Jayawardana et al. Determination of prognosis in metastatic melanoma through integration of clinico‐pathologic, mutation, mRNA, microRNA, and protein information
Kozubek et al. In-depth characterization of microRNA transcriptome in melanoma
Cheerla et al. MicroRNA based pan-cancer diagnosis and treatment recommendation
Spinelli et al. BubbleGUM: automatic extraction of phenotype molecular signatures and comprehensive visualization of multiple Gene Set Enrichment Analyses
CN111128299B (en) Construction method of ceRNA regulation and control network with significant correlation to colorectal cancer prognosis
US7370021B2 (en) Medical applications of adaptive learning systems using gene expression data
CN107358062B (en) Construction method of double-layer gene regulation and control network
Tan et al. Bioinformatics analysis reveals the landscape of immune cell infiltration and immune-related pathways participating in the progression of carotid atherosclerotic plaques
CN113782090A (en) Iron death model construction method and application
Lauria Rank-based transcriptional signatures: a novel approach to diagnostic biomarker definition and analysis
Griffith et al. A robust prognostic signature for hormone-positive node-negative breast cancer
AU2020215312A1 (en) Method of predicting survival rates for cancer patients
KR102386876B1 (en) Method for identifying condition-specific micro rna targets with big data
Ye et al. Machine learning identifies 10 feature miRNAs for lung squamous cell carcinoma
Yoon et al. Biclustering analysis of transcriptome big data identifies condition-specific microRNA targets
Soltani et al. Potential functions of hsa-miR-155-5p and core genes in chronic myeloid leukemia and emerging role in human cancer: A joint bioinformatics analysis
Stempor et al. MMpred: functional miRNA–mRNA interaction analyses by miRNA expression prediction
Yang et al. MSPL: Multimodal self-paced learning for multi-omics feature selection and data integration
Petersen et al. CHOIR improves significance-based detection of cell types and states from single-cell data
Zhiyanov et al. Differential co-expression network analysis with DCoNA reveals isomiR targeting aberrations in prostate cancer
Cascione et al. Elucidating the role of microRNAs in cancer through data mining techniques
Yuan Characterizing Transcriptionally-Derived Molecular Subsets of Systemic Sclerosis Using Deep Neural Networks and miRNA Activity Scores
Zhao et al. ReCirc: prediction of circRNA expression and function through probe reannotation of non-circRNA microarrays
Blazadonakis et al. Complementary gene signature integration in multiplatform microarray experiments
Mai et al. Identification of biomarkers for predicting the overall survival of ovarian cancer patients: a sparse group lasso approach

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant