KR20190000168A - System and method for selecting multi-marker panels - Google Patents

System and method for selecting multi-marker panels Download PDF

Info

Publication number
KR20190000168A
KR20190000168A KR1020170079167A KR20170079167A KR20190000168A KR 20190000168 A KR20190000168 A KR 20190000168A KR 1020170079167 A KR1020170079167 A KR 1020170079167A KR 20170079167 A KR20170079167 A KR 20170079167A KR 20190000168 A KR20190000168 A KR 20190000168A
Authority
KR
South Korea
Prior art keywords
disease
marker
markers
selecting
panel
Prior art date
Application number
KR1020170079167A
Other languages
Korean (ko)
Other versions
KR101990429B1 (en
Inventor
이관수
민범기
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020170079167A priority Critical patent/KR101990429B1/en
Publication of KR20190000168A publication Critical patent/KR20190000168A/en
Application granted granted Critical
Publication of KR101990429B1 publication Critical patent/KR101990429B1/en

Links

Images

Classifications

    • G06F19/20
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G06F19/24
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Abstract

Disclosed are a system for selecting a multi-marker panel based on a marker connected to a disease-related cell function and a method thereof. The present invention provides a system which is operated by at least one processor for selecting a multi-marker panel including: a step of connecting a disease-related cell function to disease markers based on a disease-related mechanism; a step of extending genes which are similar to at least one disease marker among the disease markers to disease marker candidates; a step of selecting transcriptome markers by using micro-array data and evaluating an expression degree of each of the disease markers and the disease marker candidates; and a step of selecting a multi-marker panel by sharing a function and a mechanism among transcriptome markers and excluding overlapped markers having a similar expression degree.

Description

질병 연관 세포기능에 연결된 마커 기반으로 멀티마커 패널을 선정하는 시스템 및 방법{SYSTEM AND METHOD FOR SELECTING MULTI-MARKER PANELS}TECHNICAL FIELD The present invention relates to a system and a method for selecting a multi-marker panel based on a marker linked to disease-related cell function,

본 발명은 생물정보학(Bioinformatics) 기술에 관한 것으로서, 구체적으로는 바이오마커에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to bioinformatics technology, and more specifically, to a biomarker.

질병 특이적으로 변화하는 생물학적 지표인 바이오마커는 해당 질병의 세포 수준의 생물학적 기전 이해는 물론 질병 진단, 예후 예측, 약물 동반 진단에 이르는 의학적 용도에 이르기까지 다양하게 활용되고 있다. 질병 판별용 마커는 정상과 질병 사이의 특이적 패턴을 보여야 하고, 질병 분류용 마커는 질병 종류별로 특이적인 패턴을 보여야 한다. Biomarkers, which are disease-specific altering biological markers, have been widely used for medical applications ranging from diagnosis of diseases, prediction of prognosis, diagnosis of drug dependence as well as understanding of biological mechanisms at the cell level of the disease. Markers for disease identification should show a specific pattern between normal and disease, and markers for disease classification should show a specific pattern for each disease type.

전통적으로 질병 마커는 세포 수준에서 알려진 질병 표현형을 변화시키거나 해당 질병 표현형에서 변화된 요인을 탐색하는 세포 기반의 실험을 통하여 발굴되었다. 이러한 마커 발굴 방법은 생물학적 기능을 토대로 변화 요인을 찾기 때문에 인과관계가 명확하고 신뢰성 있는 마커를 탐색할 수 있지만, 각 실험을 위하여 개별 모델을 구성해야 하며 실험에 드는 시간과 비용이 상당하여 대규모의 신규 마커 발굴이나 검증이 어려웠다. Traditionally, disease markers have been discovered through cell-based experiments that alter known phenotypic phenotypes at the cellular level or explored factors that have changed in the disease phenotype. Although these markers can be searched for reliable and causal markers because they find change factors based on their biological functions, it is necessary to construct individual models for each experiment. Marker excavation or verification was difficult.

DNA 마이크로어레이 기술이 개발된 이래로 다양한 오믹스 분석 기법 및 데이터 생산 기법이 연구되었고, 이로 인하여 이전의 수 개 내지 수 십 개 마커 수준의 단편적인 분석에서 벗어나 수천 내지 수 만개 생체 물질 데이터를 기반으로 총체적인 분석을 통한 대규모 마커 발굴이 가능해졌다. 특히 세포 내 유전 정보를 담은 DNA로부터 전사된 RNA 형태의 전사물(transcript)의 발현량을 총체적으로 측정한 전사체(transcriptome) 데이터는 비용과 속도 측면에서 다른 오믹스 데이터보다 생산이 용이하여 현재까지 가장 접근성이 높고 방대한 양을 가지고 있다. 전사체 데이터 중 하나인 마이크로어레이 데이터의 경우 다수의 공개 데이터 및 분석 방법이 공개되어 있어 이를 활용하여 전사체 데이터를 분석하여 마커 발굴을 시도한 사례가 많이 있었다. 특히 환자군에서 추출한 전사체 데이터를 활용하여 신규 발현 마커를 발굴하고, 이를 기반으로 질병 및 예후 진단, 질병 분류, 신약 개발 등의 다양한 생물정보학 연구가 진행되어 왔다. 또한 전사체 기반의 마커 모델은 단백질이나 대사물질 등의 생체 물질에 비해 검출이 비교적 간편하기 때문에, 실험 검증이나 실제 진단 키트로 개발되었다. 실제로 58개의 핵산(nucleic acid) 기반의 테스트가 FDA 허가(cleared) 혹은 승인(approved)되어 있다. 따라서 전사체 데이터 내 대규모의 샘플 및 다수의 유전자 정보를 분석하여 새로운 전사 마커를 발굴하는 것이 중요하다.Since the development of DNA microarray technology, a variety of omix analysis techniques and data production techniques have been investigated, which have led to the development of integrated, multi- Analysis has enabled the discovery of large-scale markers. In particular, transcriptome data, which collectively measure the expression level of RNA-type transcripts transcribed from DNA containing intracellular genetic information, is easier to produce than other omix data in terms of cost and speed It has the most accessible and vast amounts. In the case of microarray data, which is one of the transcript data, many public data and analysis methods are disclosed, and there have been many cases in which marker data were analyzed by analyzing transcript data. In particular, a variety of bioinformatics researches have been conducted based on the data of transcripts extracted from patient groups, and based on them, various diseases such as disease and prognosis diagnosis, disease classification, and new drug development have been studied. In addition, the transcription - based marker model is relatively simple to detect compared to biomaterials such as proteins and metabolites. In fact, 58 nucleic acid-based tests have been cleared or approved by the FDA. Therefore, it is important to identify new transcription markers by analyzing large-scale samples and multiple gene information in transcript data.

그러나 마이크로어레이에는 다양한 데이터셋이 존재하는데, 데이터셋마다 발굴되는 유의한 유전자가 상이하고, 데이터셋들에서 겹치는 유전자 비율도 높지 않아 전사체 데이터 분석을 통해 선정된 마커의 재현성이 낮다. 따라서, 전사체 데이터 분석을 통한 마커 선정은 재현성이 중요한 의학용으로 활용하는데 한계가 있다.However, there are various data sets in the microarray, and the reproducibility of selected markers is low through the analysis of transcript data because the significant genes to be extracted are different in each data set and the overlapping gene ratio in the data sets is not high. Therefore, selection of markers through analysis of transcript data is limited for medical use where reproducibility is important.

마커의 재현성을 높이기 위하여 많은 수의 데이터셋 및 샘플을 분석하는 것이 필요하나, "많은 수"의 적정 수준을 정의하기 어렵고, 질병별로 많은 샘플이 존재하지 않을 수 있으므로, 데이터 분석을 통한 지금까지의 마커 선정 방법은 여전히 한계가 있다.It is necessary to analyze a large number of data sets and samples in order to improve the reproducibility of the markers. However, since it is difficult to define the appropriate level of "large number" and many samples may not exist for each disease, Marker selection methods are still limited.

또한, 마이크로어레이 분석으로 선정된 마커는 세포기능이 연관되어 있지 않아 마커만으로 연관된 기능을 알기 힘들고, 기존에 알려진 정보를 기반으로 마커의 기능을 탐색하더라도 하나의 유전자가 다양한 기전에 연관되어 있어서 질병과 상관 없는 기능 및 마커가 선정될 수 있다.In addition, the markers selected by microarray analysis are not related to cell functions, so it is difficult to know the functions associated with markers alone. Even if a marker is searched based on known information, one gene is related to various mechanisms, The irrelevant function and the marker can be selected.

이와 같은 문제점은 질병과 연관된 세포기능을 중심으로 마커를 선정함으로써, 데이터에서 확률적으로 발생하여 재현성이 떨어지는 정보를 제외하고 질병 특이적으로 나타나는 정보를 선별할 수 있다. 그러나 기존 연구에서는 세포기능을 기반으로 추려진 후보 마커를 기반으로 데이터셋 평가를 통하여 마커를 선정한 사례가 없었다.Such a problem can be detected by selecting a marker based on a cell function associated with a disease, and the disease-specific information can be selected except for information that occurs stochastically in the data and is not reproducible. However, in the previous study, there was no case where the marker was selected through the evaluation of the data set based on the candidate marker based on the cell function.

본 발명이 해결하고자 하는 과제는 질병에 연관된 기전 기반으로 질병 연관 세포기능과 질병 마커를 연결하고, 질병 마커와 유사한 새로운 마커 후보들을 발굴한 후, 마커 후보들을 전사체 데이터 분석으로 검증하여 질병 판별 및 기전 해석이 가능한 멀티마커 패널을 선정하는 시스템 및 방법을 제공하는 것이다.The problem to be solved by the present invention is to link disease-related cell functions and disease markers based on a disease-related mechanism, to identify new marker candidates similar to disease markers, and then to examine marker candidates by transcript data analysis, And to provide a system and method for selecting a multi-marker panel capable of mechanistic analysis.

한 실시예에 따라 적어도 하나의 프로세서에 의해 동작하는 시스템이 멀티마커 패널을 선정하는 방법으로서, 질병에 연관된 기전 기반으로 질병 연관 세포기능들과 질병 마커들을 연결하는 단계, 상기 질병 마커들 중 적어도 하나의 질병 마커에 유사한 유전자들을 질병 마커 후보들로 확장하는 단계, 마이크로어레이 데이터를 이용하여, 상기 질병 마커들과 상기 질병 마커 후보들 각각의 발현 정도를 평가하여, 전사체 마커들을 선정하는 단계, 그리고 상기 전사체 마커들 중에서 기능 및 기전을 공유하면서 발현 패턴이 유사한 중복 마커들을 제외하여 멀티마커 패널을 선정하는 단계를 포함한다.There is provided a method of selecting a multi-marker panel, the system being operated by at least one processor according to one embodiment, the method comprising: linking disease-associated cell functions with disease markers on the basis of a mechanism associated with disease; Expanding genes similar to disease markers of disease markers to disease marker candidates, evaluating the degree of expression of each of the disease markers and disease marker candidates using microarray data, and selecting transcript markers, And selecting a multi-marker panel excluding overlapping markers having similar expression patterns while sharing functions and mechanisms among the carcass markers.

상기 질병 연관 세포기능들과 질병 마커들을 연결하는 단계는 질병 연관 기전 경로 내에 포함되는 질병 연관 세포기능을 탐색해서, 해당 기전 경로 내에 포함된 질병 마커를 질병 연관 세포기능에 연결하는 단계, 질병 연관 세포기능에 연결되지 않은 미연결 마커를 추출하는 단계, 그리고 상기 미연결 마커에 대한 기전 경로를 탐색하고, 탐색된 기전 경로에 포함된 세포기능들에 대하여 상기 미연결 마커들이 유의하게 포함되는지 평가하여, 상기 미연결 마커를 탐색된 세포기능에 연결하는 단계를 포함한다.The step of linking the disease-related cell functions with the disease markers comprises the steps of searching for disease-associated cell function contained within the disease-associated mechanism pathway, linking disease markers contained within the pathway to disease-related cell function, Extracting an unconnected marker that is not connected to the function, and searching for an established pathway for the unconnected marker, evaluating whether the unconnected markers are significantly included in the cell functions included in the discovered pathway, And linking the unconnected marker to the sought cellular function.

상기 질병 마커 후보들로 확장하는 단계는 상기 질병 마커들과의 관계 유사성, 거리 및 연결 강도, 그리고 발현 상관관계 중 적어도 하나를 이용하여 후보 유전자들 각각을 점수화하고, 각 후보 유전자의 점수를 기초로 상기 질병 마커 후보들을 선정할 수 있다.The step of extending to the disease marker candidates includes scoring each of the candidate genes using at least one of relationship similarity to the disease markers, distance and connection strength, and expression correlation, Disease marker candidates can be selected.

상기 질병 마커 후보들로 확장하는 단계는 순서 통계(order statistics) 기반으로, 스케일이 다른 관계 유사성 점수, 거리 및 연결 강도 점수, 그리고 발현 상관관계 점수를 순위 기반으로 통합하여 각 후보 유전자의 점수를 계산할 수 있다.The step of expanding to the disease marker candidates may be based on order statistics, and the score of each candidate gene may be calculated by integrating relation similarity score, distance and connection strength score, and expression correlation score on a rank basis based on order statistics have.

상기 전사체 마커들을 선정하는 단계는 상기 마이크로어레이 데이터를 이용하여, 상기 질병 마커들과 상기 질병 마커 후보들 각각의 발현 배율 및 발현 유의 확률을 계산하고, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하인 마커들을 상기 전사체 마커들로 선정할 수 있다.Wherein the step of selecting the transcription target markers comprises the steps of calculating the expression magnification and the expression significance probability of the disease markers and the disease marker candidates using the microarray data, Value) is less than or equal to the reference value can be selected as the transcript markers.

상기 전사체 마커들을 선정하는 단계는 데이터셋별로 동일하게 정규화된 마이크로어레이 데이터를 이용하여, 상기 질병 마커들과 상기 질병 마커 후보들 각각의 판별력을 더 계산하고, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하이며, 판별력이 기준값 이상인 마커들을 상기 전사체 마커들로 선정할 수 있다.Wherein the step of selecting the transcription markers further comprises the step of calculating the discrimination power of each of the disease markers and the disease marker candidates using the same normalized microarray data for each data set, (p value) is less than or equal to the reference value and the discriminating force is equal to or greater than the reference value, can be selected as the transcription markers.

상기 전사체 마커들을 선정하는 단계는 상기 전사체 마커들 중에서, 검증하고자 하는 조직 혹은 세포주에서의 검증 가능성을 평가하여 질병 기능 연계된 오믹스 마커를 선정할 수 있다.In the step of selecting transcriptional markers, omix markers linked to disease function can be selected by evaluating the verifiability in the tissue or cell line to be verified, among the transcriptional marker.

상기 멀티마커 패널을 선정하는 단계는 상기 전사체 마커들 중에서 발현 패턴이 유사하면서 기능 및 경로를 공유하는 마커들을 클러스터로 분류하는 단계, 그리고 각 클러스터 내 마커를 임의로 제거하고 남은 마커를 기반으로 판별력을 예측하면서, 최적의 판별력을 보이는 마커 조합을 멀티마커 패널로 선정하는 단계를 포함할 수 있다.The step of selecting the multi-marker panel includes classifying markers having similar patterns of expression and sharing function and path among the transcript markers into clusters, removing the markers in each cluster, And selecting a marker combination having an optimum discriminating power as a multi-marker panel while predicting.

다른 실시예에 따라 적어도 하나의 프로세서에 의해 동작하는 시스템이 멀티마커 패널을 선정하는 방법으로서, 질병 연관 기전 경로 내에 포함되는 질병 연관 세포기능과 해당 기전 경로 내에 포함된 질병 마커를 연결하는 단계, 질병 마커 데이터베이스에 저장된 질병 마커들 중에서, 질병 연관 세포기능에 연결되지 않은 미연결 질병 마커가 있는 경우, 상기 미연결 질병 마커에 대한 기전 경로를 탐색하고, 탐색된 기전 경로에 포함된 질병 연관 세포기능들에 대하여 상기 미연결 질병 마커가 유의하게 포함되는지 평가하여, 상기 미연결 질병 마커를 탐색된 질병 연관 세포기능에 연결하는 단계, 질병 연관 세포기능에 연결된 질병 마커들, 그리고 질병 연관 세포기능에 연결된 질병 마커들 중 적어도 하나의 질병 마커에 유사한 유전자들을 질병 마커 후보들로 선정하는 단계, 그리고 마이크로어레이 데이터를 이용하여, 상기 질병 마커 후보들 각각을 검증하여 상기 질병 마커 후보들 중 적어도 일부 마커들로 조합된 멀티마커 패널을 선정하는 단계를 포함한다.A method of selecting a multi-marker panel, the system being operated by at least one processor according to another embodiment, comprising the steps of: linking disease-associated cell functions contained within a disease-associated pathway with disease markers contained within the pathway; If there is an unlinked disease marker that is not linked to the disease-associated cell function among the disease markers stored in the marker database, the pathway for the unconnected disease marker is searched, and disease-related cell functions Linking disease marker to a searched disease-associated cell function, disease markers linked to disease-related cell function, and diseases associated with disease-associated cell function Genes that are similar to at least one disease marker of the markers, Using a step, and the microarray data, which selected as beams, by verifying the disease marker candidates each include the step of selecting a multi-marker panel, in combination with at least a portion of said disease marker marker candidates.

상기 멀티마커 패널을 선정하는 단계는 상기 질병 마커 후보들 중에서, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하이며, 판별력이 기준값 이상인 전사체 마커들을 상기 멀티마커 패널로 선정할 수 있다.The step of selecting the multi-marker panel may include selecting, among the disease marker candidates, transcription markers whose expression magnification is within a reference range and whose probability of occurrence (p value) is less than or equal to a reference value, have.

상기 멀티마커 패널을 선정하는 단계는 상기 전사체 마커들 중에서 발현 패턴이 유사하면서 기능 및 경로를 공유하는 중복 마커를 제외하여 상기 멀티마커 패널을 선정할 수 있다.In the step of selecting the multi-marker panel, the multi-marker panel may be selected by excluding duplicate markers having similar patterns of expression among the transcriptional markers and sharing function and path.

상기 질병 마커 후보들로 선정하는 단계는 상기 질병 마커들과의 관계 유사성, 거리 및 연결 강도, 그리고 발현 상관관계 중 적어도 하나를 이용하여 후보 유전자들 각각을 점수화하고, 각 후보 유전자의 점수를 기초로 상기 질병 마커에 유사한 유전자들을 선정할 수 있다.The step of selecting the disease marker candidates includes scoring each of the candidate genes using at least one of relationship similarity to the disease markers, distance and connection strength, and expression correlation, Genes that are similar to disease markers can be selected.

상기 질병 마커 후보들로 선정하는 단계는 순서 통계(order statistics) 기반으로, 스케일이 다른 관계 유사성 점수, 거리 및 연결 강도 점수, 그리고 발현 상관관계 점수를 순위 기반으로 통합하여 각 후보 유전자의 점수를 계산할 수 있다.The step of selecting the disease marker candidates is based on order statistics, and the score of each candidate gene can be calculated by integrating relationship similarity score, distance and connection strength score, and expression correlation score on a rank basis based on order statistics have.

또 다른 실시예에 따라 적어도 하나의 프로세서에 의해 동작하는 시스템이 멀티마커 패널을 선정하는 방법으로서, 질병 연관 세포기능에 연결된 질병 마커들을 입력받는 단계, 상기 질병 마커들 중 적어도 하나의 질병 마커에 유사한 유전자들을 추출하는 단계, 상기 유사한 유전자들 각각에 해당 질병 마커의 질병 연관 세포기능을 연결하는 단계, 상기 질병 마커들과 상기 질병 마커들 중 적어도 하나에 유사한 유전자들을 질병 마커 후보들로 선정하는 단계, 그리고 마이크로어레이 데이터를 이용하여, 상기 질병 마커 후보들 각각을 검증하여 멀티마커 패널을 선정하는 단계를 포함한다.A method for selecting a multi-marker panel, the system being operated by at least one processor according to yet another embodiment, comprising the steps of: receiving disease markers linked to disease-related cell function; identifying at least one disease marker of the disease marker Linking a disease-related cell function of the disease marker to each of the similar genes, selecting genes that are similar to at least one of the disease markers and the disease markers as disease marker candidates, and And verifying each of the disease marker candidates using the microarray data to select a multi-marker panel.

상기 질병 마커 후보들로 선정하는 단계는 상기 질병 마커들과의 관계 유사성, 거리 및 연결 강도, 그리고 발현 상관관계 중 적어도 하나를 이용하여 후보 유전자들 각각을 점수화하고, 각 후보 유전자의 점수를 기초로 상기 질병 마커에 유사한 유전자들을 선정할 수 있다.The step of selecting the disease marker candidates includes scoring each of the candidate genes using at least one of relationship similarity to the disease markers, distance and connection strength, and expression correlation, Genes that are similar to disease markers can be selected.

상기 멀티마커 패널을 선정하는 단계는 상기 질병 마커 후보들 중에서, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하이며, 판별력이 기준값 이상인 전사체 마커들을 추출하는 단계, 그리고 상기 전사체 마커들 중에서 발현 패턴이 유사하면서 기능 및 경로를 공유하는 중복 마커를 제외하여 상기 멀티마커 패널을 선정하는 단계를 포함할 수 있다.The step of selecting the multi-marker panel includes extracting transcript markers whose expression magnification is within a reference range and whose probability of occurrence (p value) is less than or equal to a reference value and whose discriminating power is not less than a reference value among the disease marker candidates, And selecting the multi-marker panel by excluding duplicate markers having similar expression patterns and sharing function and path among the markers.

또 다른 실시예에 따라 적어도 하나의 프로세서에 의해 동작하는 멀티마커 패널 선정 시스템으로서, 질병에 연관된 기전 기반으로 질병 연관 세포기능에 연결된 질병 마커들을 추출하고, 상기 질병 마커들 중 적어도 하나의 질병 마커에 유사한 유전자들을 확장된 질병 마커들로 추출하는 마커 후보 추출 장치, 그리고 마이크로어레이 데이터를 이용하여, 상기 마커 후보 추출 장치에서 추출된 상기 질병 마커들 각각을 검증하여 상기 질병 마커들 중 적어도 일부 마커들로 조합된 멀티마커 패널을 선정하는 마커 선정 장치를 포함한다.According to yet another embodiment, there is provided a multi-marker panel selection system operating by at least one processor, the system comprising: extracting disease markers linked to disease-related cell function on the basis of a disease-associated mechanism; A marker candidate extracting device for extracting similar genes with extended disease markers and using the microarray data to verify each of the disease markers extracted from the marker candidate extracting device and to identify at least some of the disease markers And a marker selection device for selecting a combined multi-marker panel.

상기 마커 후보 추출 장치는 상기 질병 마커들과의 관계 유사성, 거리 및 연결 강도, 그리고 발현 상관관계 중 적어도 하나를 이용하여 후보 유전자들 각각을 순위 기반으로 점수화하고, 각 후보 유전자의 점수를 기초로 상기 질병 마커에 유사한 유전자들을 선정할 수 있다.Wherein the marker candidate extraction device scores each of the candidate genes on the basis of rank based on at least one of relationship similarity to the disease markers, distance and connection strength, and expression correlation, Genes that are similar to disease markers can be selected.

상기 마커 선정 장치는 입력된 상기 질병 마커들 중에서, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하이며, 판별력이 기준값 이상인 전사체 마커들을 추출하고, 상기 전사체 마커들 중에서 발현 패턴이 유사하면서 기능 및 경로를 공유하는 마커들을 클러스터로 분류한 후, 각 클러스터 내 마커를 임의로 제거하고 남은 마커를 기반으로 판별력을 예측하면서, 최적의 판별력을 보이는 마커 조합을 멀티마커 패널로 선정할 수 있다.Wherein the marker selecting device extracts transcript markers whose expression magnification is within a reference range and whose probability of occurrence (p value) is less than or equal to a reference value and whose discriminating power is equal to or greater than a reference value among the inputted disease markers, Markers that share similar functions and paths are classified into clusters. Then, the markers in each cluster are arbitrarily removed, and the discriminative power is predicted based on the remaining markers. .

본 발명의 실시예에 따르면 질병연관 세포기능과 연관된 마커를 선정할 수 있고, 이를 통해 질병 판별과 기전 해석을 동시에 할 수 있다. 본 발명의 실시예에 따르면 질병 기전 기반으로 질병 연관 세포기능과 마커의 연결을 통해 획득된 마커 후보를 다수의 전사체 오믹스에서 검증하여 멀티마커 패널을 구성하므로, 질병 상태 판별 시에 재현성을 높일 수 있다. According to an embodiment of the present invention, markers associated with disease-related cell function can be selected, and disease identification and mechanism analysis can be simultaneously performed. According to the embodiment of the present invention, a marker candidate obtained through linkage of a disease-related cell function and a marker on the basis of a disease mechanism is verified in a plurality of transcript omics to constitute a multi-marker panel, thereby increasing reproducibility in discriminating disease states .

본 발명의 실시예에 따라 선정된 멀티마커 패널은 질병 원인 해석이나 치료 근거를 제공할 수 있고, 변화된 기능 패널을 기반으로 정확한 환자군을 분류할 수 있다.According to the embodiment of the present invention, the selected multi-marker panel can provide a cause analysis or treatment basis of the disease, and can classify the accurate patient group based on the changed function panel.

본 발명의 실시예에 따라 선정된 멀티마커 패널은 질병 진단, 예후 예측, 약물 동반 진단 등에 광범위하게 이용될 수 있으며, 소규모 마이크로어레이 내지는 멀티플렉스 분석 키트로 제작될 수 있다.The selected multi-marker panel according to the embodiment of the present invention can be widely used for disease diagnosis, prognosis prediction, drug accompanied diagnosis, and the like, and can be manufactured with a small-scale microarray or a multiplex analysis kit.

도 1은 본 발명의 한 실시예에 따른 멀티마커 패널 선정 시스템의 구성도이다.
도 2는 본 발명의 한 실시예에 따른 마커 후보 추출 장치가 세포기능과 마커를 연결하는 방법의 흐름도이다.
도 3은 본 발명의 한 실시예에 따른 마커 후보 추출 장치가 질병 마커 후보를 확장하는 방법의 흐름도이다.
도 4는 본 발명의 한 실시예에 따른 마커 선정 장치가 멀티마커 패널을 선정하는 방법의 흐름도이다.
1 is a configuration diagram of a multi-marker panel selection system according to an embodiment of the present invention.
FIG. 2 is a flowchart of a method for associating a marker with a cell function using a marker candidate extracting apparatus according to an embodiment of the present invention.
FIG. 3 is a flowchart of a method for expanding a marker candidate candidate by a marker candidate extracting apparatus according to an embodiment of the present invention.
FIG. 4 is a flowchart of a method of selecting a multi-marker panel according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.Throughout the specification, when an element is referred to as " comprising ", it means that it can include other elements as well, without excluding other elements unless specifically stated otherwise. Also, the terms " part, " " module, " and " module ", etc. in the specification mean a unit for processing at least one function or operation and may be implemented by hardware or software or a combination of hardware and software have.

도 1은 본 발명의 한 실시예에 따른 멀티마커 패널 선정 시스템의 구성도이다.1 is a configuration diagram of a multi-marker panel selection system according to an embodiment of the present invention.

도 1을 참고하면, 멀티마커 패널 선정 시스템(10)은 질병에 연관된 기전 기반으로 질병 연관 세포기능과 질병 마커를 연결하는 것을 시작으로, 질병 마커와 유사한 새로운 마커 후보들을 발굴한 후, 마커 후보들을 검증하기 위해 마이크로어레이 분석을 한다. 이렇게 선정된 멀티마커 패널은 이미 질병 연관 세포 기능과 기전이 매핑되어 있으므로 질병 판별 및 기전 해석이 동시에 가능, 종래의 마이크로어레이 분석 기반으로 발굴된 마커가 가지는 한계를 해결할 수 있다.Referring to FIG. 1, the multi-marker panel selection system 10 starts with linking disease-related cell functions and disease markers based on a disease-related mechanism, discovers new marker candidates similar to disease markers, Perform microarray analysis to verify. Because the selected multi-marker panel already maps disease-related cell function and mechanism, disease identification and mechanism analysis are possible at the same time, and limitations of markers discovered based on conventional microarray analysis can be solved.

멀티마커 패널 선정 시스템(10)은 생물학적 정보 유사성 분석과 마이크로어레이 분석을 통합하여 멀티마커 패널을 선정한다. 이를 위해, 멀티마커 패널 선정 시스템(10)은 적어도 하나의 프로세서로 동작하고, 생물학적 연관 관계 기반 마커 후보 추출 장치(100), 그리고 마이크로어레이 분석 기반 마커 선정 장치(200)를 포함한다. The multi-marker panel selection system 10 selects a multi-marker panel by integrating biological information similarity analysis and microarray analysis. To this end, the multi-marker panel selection system 10 operates as at least one processor, and includes a biological association-based marker candidate extraction device 100 and a microarray analysis-based marker selection device 200.

마커 후보 추출 장치(100)는 질병 연관 세포기능과 질병 마커 연결부(110), 질병 마커 후보 확장부(130)를 포함할 수 있다. 마커 선정 장치(200)는 마커 평가부(210), 그리고 마커 조합 선정부(230)를 포함할 수 있다. The marker candidate extraction apparatus 100 may include a disease-related cell function, a disease marker connection unit 110, and a disease marker candidate extension unit 130. The marker selection apparatus 200 may include a marker evaluation unit 210 and a marker combination selection unit 230.

멀티마커 패널 선정 시스템(10)은 데이터베이스(300)와 연동하여 필요한 정보를 획득할 수 있다. 데이터베이스 중 적어도 일부는 멀티마커 패널 선정 시스템(10)에 구현되거나, 원격의 서버에 구현될 수 있다. 데이터베이스(300)는 포함된 데이터에 따라, 질병 기능 및 경로 데이터베이스(310), 질병 마커 데이터베이스(320), 마이크로어레이 데이터베이스(330), 상호작용 및 경로 데이터베이스(340), 단백질 및 도메인 기능 데이터베이스(350), 그리고 세포 내 발현 및 변이 데이터베이스(360)로 구분되는 것으로 설명하나, 반드시 물리적으로 구분될 필요는 없다.The multi-marker panel selection system 10 can acquire necessary information in association with the database 300. [ At least some of the databases may be implemented in the multi-marker panel selection system 10, or may be implemented in a remote server. The database 300 includes a disease function and path database 310, a disease marker database 320, a microarray database 330, an interaction and path database 340, a protein and domain function database 350 ), And an intracellular expression and mutation database (360), but it is not necessarily physically separated.

마커 후보 추출 장치(100)는 질병 연관 세포기능과 질병 마커 연결부(간단히, '기능-마커 연결부'라고 한다)(110), 질병 마커 후보 확장부(130)를 포함한다. The marker candidate extracting apparatus 100 includes a disease-related cell function and a disease marker linkage (simply referred to as a 'function-marker linkage') 110 and a disease marker candidate extension unit 130.

기능-마커 연결부(110)는 질병 기전 정보를 기초로 질병 연관 세포기능들과 질병 마커들의 관계를 예측하여, 질병 연관 세포기능에 연결된 질병 마커를 획득한다. 구체적으로, 기능-마커 연결부(110)는 알려진 질병 연관 세포기능을 최종 산물로 도출하는 질병 연관 경로를 질병 기전으로 선정하고, 해당 세포기능의 상류에 존재하는 질병 마커를 질병 연관 세포기능에 대한 마커로 연결한다. 질병 연관 세포기능은 알려진 정보로서 질병 기능 및 경로 데이터베이스(310)에서 추출될 수 있다. 질병 마커는 알려진 정보로서 질병 마커 데이터베이스(320)에서 추출될 수 있다.The function-marker linkage 110 predicts the relationship between disease-associated cell functions and disease markers based on disease pathway information and acquires disease markers linked to disease-associated cell function. Specifically, the function-marker linker 110 selects a disease pathway that derives a known disease-associated cell function as a final product as a disease mechanism and identifies disease markers upstream of the cell function as markers for disease- . The disease-associated cell function may be extracted from the disease function and path database 310 as known information. The disease marker may be extracted from the disease marker database 320 as known information.

한편, 질병 마커들 중에서 질병 연관 세포기능이 하나라도 연결되지 않은 미연결 마커가 존재할 수 있다. 이 경우, 기능-마커 연결부(110)는 미연결 마커에 대한 기전 경로 정보를 기초로 신규 질병 연관 세포기능을 예측하고, 예측된 신규 질병 연관 세포기능과 미연결 마커의 관계를 생성할 수 있다. 이를 통해 기능-마커 연결부(110)는 질병 마커 기반으로 기전을 확장할 수 있다. 기전 경로 정보는 상호작용 및 경로 데이터베이스(340)에서 추출될 수 있다.On the other hand, among the disease markers, there may be unconnected markers that have no disease-related cell function. In this case, the function-marker linking unit 110 can predict new disease-associated cell function based on the pathway information on the unconnected marker and generate the relationship between the predicted new disease-associated cell function and the unlinked marker. Whereby the function-marker connection unit 110 can expand the mechanism based on disease markers. Mechanistic path information may be extracted from the interaction and path database 340.

질병 마커 후보 확장부(130)는 기능-마커 연결부(110)에서 획득한 질병 연관 세포기능에 연결된 질병 마커들을 입력받는다. 질병 마커 후보 확장부(130)는 질병 마커들과 유사한 유전자들을 마커 후보로 발굴하여, 질병 연관 세포기능에 연결될 마커들을 확장한다. The disease marker candidate expansion unit 130 receives disease markers associated with the disease-related cell function acquired at the function-marker connection unit 110. The disease marker candidate expansion unit 130 extracts genes that are similar to disease markers as candidate markers, and extends markers to be linked to disease-related cell functions.

구체적으로, 질병 마커 후보 확장부(130)는 질병 마커들과의 유사성 분석을 기반으로 전체 유전자들을 점수화하고, 질병 마커들의 점수와 비교하여 유사 관계가 있는 유전자들을 신규 마커 후보로 발굴한다. 유사성 분석 방법은 다양할 수 있는데, 질병 마커 후보 확장부(130)는 질병 마커들과의 다양한 관계 정보, 거리 및 연결 강도, 발현 패턴 등을 비교하여 유의한 유전자들을 신규 마커 후보로 발굴한다. Specifically, the disease marker candidate expansion unit 130 scores all genes based on the similarity analysis with the disease markers, and compares the genes with the scores of the disease markers to discover genes having similar relationships as candidates for new markers. The similarity analysis method may be various. The disease marker candidate expansion unit 130 compares the various relation information with the disease markers, the distance, the link strength, and the expression pattern, and identifies the significant genes as the new marker candidates.

질병 마커 후보 확장부(130)는 다양한 관계 정보를 기초로 질병 마커들의 공통 특징을 추출하고, 질병 마커들과 관계 유사성을 나타내는 후보 유전자들의 관계 점수를 매길 수 있다. 다양한 관계 정보는 경로-소속 유전자 관계 정보, 전사인자-표적 유전자 관계 정보, E3 유비퀴탄화 효소-기질 관계 정보, 골격단백질(scaffold)-표적 단백질 관계 정보 등의 '작용 관계 정보'를 포함할 수 있고, 상호작용 및 경로 데이터베이스(340)에서 추출될 수 있다. 다양한 관계 정보는 세포기능-단백질 정보, 도메인-단백질 정보 등의 다양한 '기능 관계 정보'를 포함할 수 있고, 단백질 및 도메인 기능 데이터베이스(350)에서 추출될 수 있다. 세포기능-단백질 정보는 Gene Ontology의 데이터베이스를 활용할 수 있고, 도메인-단백질 정보는 PFAM의 데이터베이스를 활용할 수 있다. The disease marker candidate expansion unit 130 extracts a common feature of the disease markers based on various relationship information, and scores a relation score of the candidate genes representing the disease similarity with the disease markers. The various relationship information can include 'action relationship information' such as path-affiliated gene relationship information, transcription factor-target gene relationship information, E3 ubiquitin-substrate relationship information, and scaffold- And may be extracted from the interaction and path database 340. The various relationship information may include various 'function relation information' such as cell function-protein information, domain-protein information, and the like, and may be extracted from the protein and domain function database 350. Cell function-protein information can be used in Gene Ontology database, and domain-protein information can be used in PFAM database.

질병 마커 후보 확장부(130)는 질병 마커들과 후보 유전자들의 거리 및 연결 정도를 나타내는 후보 유전자들의 네트워크 점수를 매길 수 있다. 질병 마커 후보 확장부(130)는 단백질-단백질 상호작용 정보를 기반으로 구성된 네트워크를 링크 분석(Link analysis)하여 질병 마커들과 후보 유전자들의 거리 및 연결 정도에 따라 네트워크 점수를 매길 수 있다. 단백질-단백질 상호작용 정보는 상호작용 및 경로 데이터베이스(340)에서 추출될 수 있다. The disease marker candidate expansion unit 130 can score the network score of the candidate genes indicating the distance and the degree of connection between the disease markers and the candidate genes. The disease marker candidate expansion unit 130 performs link analysis on a network constructed based on protein-protein interaction information, and can score a network score according to the distance and the degree of connection between disease markers and candidate genes. Protein-protein interaction information can be extracted from the interaction and path database 340.

질병 마커 후보 확장부(130)는 관심 질병의 정규화(normalization)된 마이크로어레이 데이터를 기초로 질병 마커들과 후보 유전자들의 발현 상관관계(correlation)을 분석하여 후보 유전자들의 발현 패턴 점수를 매길 수 있다. 마이크로어레이 데이터는 마이크로어레이 데이터베이스(330)에서 추출될 수 있다. 마이크로어레이 데이터베이스(330)는 Gene Expression Omnibus나 ArrayExpress 등의 데이터베이스를 활용할 수 있다.The disease marker candidate expansion unit 130 may analyze the expression correlation of disease markers and candidate genes based on normalized microarray data of a disease of interest and score an expression pattern of the candidate genes. The microarray data may be extracted from the microarray database 330. The microarray database 330 may utilize databases such as Gene Expression Omnibus and ArrayExpress.

질병 마커 후보 확장부(130)는 질병 마커들과 관계 유사성을 나타내는 후보 유전자들의 관계 점수, 질병 마커들과 후보 유전자들의 거리 및 연결 정도를 나타내는 후보 유전자들의 네트워크 점수, 그리고 질병 마커들과의 발현 상관관계를 나타내는 후보 유전자들의 발현패턴 점수를 통합한다. 통합된 점수는 질병 마커들과의 유사성을 나타내는 각 후보 유전자의 유사성 점수로 사용된다. 이때, 질병 마커 후보 확장부(130)는 순서 통계(order statistics) 기반으로 스케일이 다른 정보들을 순위 기반으로 합산할 수 있다.The disease marker candidate expansion unit 130 includes a correlation score of candidate genes showing relationship similarity with disease markers, a network score of candidate genes indicating the distance and degree of association between disease markers and candidate genes, and an expression correlation with disease markers Incorporate the expression pattern scores of candidate genes representing the relationship. The integrated score is used as a similarity score for each candidate gene that shows similarity to disease markers. At this time, the disease marker candidate expanding unit 130 may add information of different scales based on order statistics based on rank.

질병 마커 후보 확장부(130)는 유사성 점수를 기초로 후보 유전자를 선별하고, 선별된 후보 유전자들의 표적 세포 혹은 조직 내 발현 여부를 평가하여 신규 질병 마커 후보로 선정한다. 이때, 신규 질병 마커 후보는 유사성이 평가된 기존 질병 마커에 연결된 정보(질병 연관 세포기능 및 질병 기전)를 그대로 따르도록 세포기능 및 기전이 연결된다. 표적 세포 혹은 조직 내 발현 여부는 세포 내 발현 및 변이 데이터베이스(360)에서 추출될 수 있다.The disease marker candidate expansion unit 130 selects a candidate gene based on the similarity score, evaluates the expression of the selected candidate genes in the target cell or tissue, and selects the candidate as a new disease marker candidate. At this time, the new disease marker candidate is linked to the cell function and mechanism so as to follow the information (disease-related cell function and disease mechanism) linked to the existing disease marker whose similarity is evaluated. Expression in the target cell or tissue can be extracted in an intracellular expression and mutation database 360.

마커 선정 장치(200)는 마커 평가부(210), 그리고 마커 조합 선정부(230)를 포함한다.The marker selection device 200 includes a marker evaluation unit 210 and a marker combination selection unit 230.

마커 평가부(210)는 마커 후보 추출 장치(100)로부터 질병 마커 후보들을 입력받고, 마이크로어레이 데이터를 기반으로 각 질병 마커 후보의 발현 정도를 평가하여, 질병 마커를 선정한다. 마이크로어레이 데이터는 마이크로어레이 데이터베이스(330)로부터 추출된다. 이때, 마커 평가부(210)는 각 마이크로어레이 데이터에 포함된 유전자들 각각의 조건별 발현 배율변화(fold change) 및 발현 유의 확률(p값, p-value)을 계산할 수 있다. The marker evaluating unit 210 receives disease marker candidates from the marker candidate extracting apparatus 100, evaluates the degree of expression of each disease marker candidate based on the microarray data, and selects a disease marker. The microarray data is extracted from the microarray database 330. At this time, the marker evaluating unit 210 can calculate fold change and probability of expression (p value, p-value) of each gene included in each microarray data.

마커 평가부(210)는 마커 후보 추출 장치(100)에서 도출된 질병 마커들 및 질병 마커 후보들에 대하여, 판별력을 기초로 전사체 수준에서 활용 가능한 마커를 선정한다. 마커 평가부(210)는 마커별로 개별 마이크로어레이 데이터의 판별력을 검증한다. 마커 평가부(210)는 마커들이 새로운 데이터를 잘 판별할 수 있는지를 마이크로어레이 데이터베이스(330)에 저장된 질병 마이크로어레이 데이터를 통해 검증한다. 마커 평가부(210)는 검증 결과를 기초로 전사체 수준에서 활용 가능한 전사체 마커들을 선정하는데, 세포 내 발현 및 변이 데이터베이스(360)를 활용하여 검증하고자 하는 조직 혹은 세포주에서의 검증 가능성을 평가하여 질병 기능이 연계된 오믹스 마커를 선정한다. The marker evaluating unit 210 selects, for disease markers and disease marker candidates derived from the marker candidate extracting apparatus 100, a marker that can be utilized at the transcript level based on the discrimination power. The marker evaluation unit 210 verifies the discrimination power of individual microarray data for each marker. The marker evaluating unit 210 verifies whether the markers can discriminate the new data through the disease microarray data stored in the microarray database 330. The marker evaluator 210 selects transposable markers that can be used at the transcript level based on the result of the verification and evaluates the verifiability of the tissue or cell line to be verified using the intracellular expression and variation database 360 Select an omix marker associated with disease function.

마커 조합 선정부(230)는 마커 평가부(210)에서 선정된 전사체 마커들을 조합하여 최종 멀티마커 패널을 구성한다. 마커 조합 선정부(230)는 기능이 중복되는 마커를 제거하기 위해, 전사체 마커들을 기능 및 기전을 공유하면서 발현 패턴이 유사한 마커들로 클러스터링(clustering)하여, 기능 중복 클러스터(cluster) 정보를 생성한다. 마커 조합 선정부(230)는 기능-마커 연결부(110)에서 수집된 세포기능과 마커의 연결 정보, 질병 마커 후보 확장부(130)에서 분석된 마커 간 발현패턴 정보를 기반으로 기능 및 기전을 공유하면서 발현 패턴이 유사한 마커들을 클러스터링할 수 있다.The marker combination selection unit 230 combines the transcription markers selected by the marker evaluation unit 210 to construct a final multi-marker panel. The marker combination selection unit 230 clusters the transcriptional markers into markers having similar expression patterns while sharing the function and mechanism to remove redundant function markers to generate functional redundant cluster information do. The marker combination selection unit 230 may store the function and the mechanism based on the information on the cell function and the marker collected from the function-marker connection unit 110 and the marker pattern information analyzed by the disease marker candidate expansion unit 130 While clustering markers with similar expression patterns.

마커 조합 선정부(230)는 기능 중복 클러스터 정보를 기반으로 중복 마커를 하나씩 제거해 가면서 질병 상태 평가를 수행하여 최적의 멀티마커 패널을 구성한다. The marker combination selection unit 230 performs the disease condition evaluation by removing duplicate markers one by one based on the function redundancy cluster information, thereby constructing an optimal multi-marker panel.

도 2는 본 발명의 한 실시예에 따른 마커 후보 추출 장치가 세포기능과 마커를 연결하는 방법의 흐름도이다.FIG. 2 is a flowchart of a method for associating a marker with a cell function using a marker candidate extracting apparatus according to an embodiment of the present invention.

도 2를 참고하면, 마커 후보 추출 장치(100)는 질병 기전 정보를 기초로 질병 연관 세포기능들과 질병 마커들의 관계를 예측하여, 질병 연관 세포기능에 연결된 질병 마커를 획득한다.Referring to FIG. 2, the marker candidate extracting apparatus 100 predicts the relationship between disease-related cell functions and disease markers based on disease pathway information, and obtains disease markers linked to disease-related cell functions.

마커 후보 추출 장치(100)는 질병 연관 기전 경로 내에 포함되는 질병 연관 세포기능을 탐색해서, 해당 기전 경로 내에 포함된 질병 마커를 질병 연관 세포기능에 연결한다(S110). 마커 후보 추출 장치(100)는 질병 기능 및 경로 데이터베이스(310)에서 질병 연관 세포기능을 추출하고, 질병 마커 데이터베이스(320)에서 질병 마커를 추출하여, 질병 기전 정보를 매개로 이들을 연결시킬 수 있다.The marker candidate extraction apparatus 100 searches for a disease-related cell function included in the disease-related pathway, and connects the disease-related marker included in the pathway to the disease-related cell function (S110). The marker candidate extraction device 100 can extract disease-related cell functions from the disease function and path database 310, extract disease markers from the disease marker database 320, and link them through disease pathway information.

마커 후보 추출 장치(100)는 질병 마커들 중에서 질병 연관 세포기능에 연결되지 않은 미연결 마커를 추출한다(S120).The marker candidate extraction device 100 extracts unconnected markers that are not linked to disease-related cell functions among the disease markers (S120).

마커 후보 추출 장치(100)는 미연결 마커에 대한 기전 경로 정보를 탐색하고, 탐색된 기전 경로 및 세포기능들에 대하여 마커들이 유의하게 포함되었는지 평가하여, 미연결 마커의 신규 기능 및 경로를 예측한다(S130). 마커 후보 추출 장치(100)는 피셔의 정확 검정 기법(Fisher's exact test)를 활용하여, 기전 경로 및 세포기능들에 대하여 마커들이 유의하게 포함되었는지를 판별하는 유의성 판별을 할 수 있다. 마커 후보 추출 장치(100)는 상호작용 및 경로 데이터베이스(340)에서 기전 경로 정보를 탐색할 수 있다.The marker candidate extracting apparatus 100 searches for pathway information on an unconnected marker, estimates whether the markers are significantly included in the detected pathway and cell functions, and predicts a new function and path of the unconnected marker (S130). The marker candidate extracting apparatus 100 can use the Fisher's exact test to determine the significance of determining whether markers are significantly included in the pathway and cell functions. The marker candidate extraction device 100 can search for the path information in the interaction and path database 340.

마커 후보 추출 장치(100)는 알려진 예측한 신규 기능 및 경로를 미연결 마커에 연결하여, 최종 질병 연관 세포기능에 연결된 질병 마커를 추출한다(S140).The marker candidate extracting apparatus 100 connects the known predicted new function and path to the unconnected marker and extracts a disease marker linked to the final disease-associated cell function (S140).

질병 기능 및 경로 데이터베이스(310)는 예를 들면, KEGG Pathway, BioCyc, WikiPathway, NCI-PID, Reactome 데이터베이스 내의 질병 경로 내에 포함된 세부 경로, 혹은 Hanahan & Weinberg (2011)와 같이 통상적으로 받아들여지고 있는 문헌 내 표기된 질병 기전들을 매핑하여 활용할 수 있다. 질병 마커 데이터베이스(320)는 예를 들면, FDA Nucleic Acid Based Tests 내에 포함된 마커나 NCI Tumor Marker 데이터베이스에 포함된 임상적으로 활용되고 있는 마커, DrugBank 내에 포함된 약물 표적, 혹은 Qiagen Breast Cancer RT2 Profilier PCR Array 같이 회사에서 질병 검증을 위한 세포 실험 마커로 활용되고 있는 정보를 활용할 수 있다. The disease function and pathway database 310 may include, for example, detailed pathways included in the disease pathway in the KEGG Pathway, BioCyc, WikiPathway, NCI-PID, Reactome database, or other commonly accepted literature such as Hanahan & Weinberg It is possible to map and use the disease mechanisms mentioned above. The disease marker database 320 may include, for example, a marker included in the FDA Nucleic Acid Based Tests, a clinically used marker contained in the NCI Tumor Marker database, a drug target contained in the DrugBank, or a Qiagen Breast Cancer RT2 Profilier PCR Like Array, you can use the information that is being used as a cell experiment marker for disease verification in your company.

마커 후보 추출 장치(100)는 피셔의 정확 검정 기법(Fisher's exact test)를 활용하여, 기전 경로 및 세포기능들에 대하여 마커들이 유의하게 포함되었는지를 판별하는 유의성 판별을 할 수 있다. 피셔의 정확검증 기법 계산을 위한 분할표(contingency table)은 아래 표 1과 같이 정리할 수 있다.The marker candidate extracting apparatus 100 can use the Fisher's exact test to determine the significance of determining whether markers are significantly included in the pathway and cell functions. The contingency table for Fisher's exact verification technique calculation can be summarized as shown in Table 1 below.

경로/기능 연관 유전자Path / Function Associated Genes 경로/기능 미연관 유전자Pathway / function unrelated gene system 질병 마커Disease marker aa bb a+ba + b 질병 마커가 아닌
유전자
Not a disease marker
gene
cc dd c+dc + d
system a+ca + c b+db + d a+b+c+da + b + c + d

표 1에 대하여 피셔의 정확 검정을 수행하기 위하여 그려야 하는 초기하분포(Hypergeometric distribution)은 아래 수학식 1 및 2를 통하여 구할 수 있다.The hypergeometric distributions to be drawn in order to carry out the Fischer's exact test with respect to Table 1 can be obtained by the following equations (1) and (2).

Figure pat00001
Figure pat00001

Figure pat00002
Figure pat00002

수학식 2에서 구한 p값에 대하여 0.05 이하의 값을 가지면 통상적으로 해당 질병 마커들이 해당 경로 혹은 기능에 유의하다고 말할 수 있다. 만약 입력된 50개의 유방암 마커 중 30개가 세포사멸 경로라는 기전을 가지며, 전체 2만개의 유전자 중 100개의 유전자가 세포사멸 경로 기전을 가진다고 할 때, 피셔의 정확 검정 기법을 통하여 구한 p값은 3.27E-58로서 유의하므로, 해당 기전을 신규 질병 기전으로 선정하여 기전-마커 간의 관계를 추가 피드백할 수 있다.If the p value obtained from Equation (2) has a value of 0.05 or less, it can be said that the disease markers are usually concerned with the path or function. If 30 of the 50 breast cancer markers entered have a mechanism of apoptosis pathway, and 100 of the 20,000 genes have a mechanism of apoptosis, the p value obtained by Fisher's exact test method is 3.27E -58, so that the mechanism can be selected as a new disease mechanism and further feedback on the relationship between mechanism-markers can be provided.

도 3은 본 발명의 한 실시예에 따른 마커 후보 추출 장치가 질병 마커 후보를 확장하는 방법의 흐름도이다.FIG. 3 is a flowchart of a method for expanding a marker candidate candidate by a marker candidate extracting apparatus according to an embodiment of the present invention.

도 3을 참고하면, 마커 후보 추출 장치(100)는 질병 연관 세포기능에 연결된 질병 마커들과 유사한 유전자들을 마커 후보로 발굴하여, 질병 연관 세포기능에 연결될 마커들을 확장한다. 마커 후보 추출 장치(100)는 추출된 질병 마커들과의 다양한 관계 유사성, 거리 및 연결 강도, 발현 상관관계 등을 점수화하여, 유의한 유전자들을 신규 마커 후보로 발굴한다. 추출된 질병 마커들과의 다양한 관계 유사성, 거리 및 연결 강도, 발현 상관관계 등에 대한 점수는 병렬 또는 순차적으로 계산될 수 있다.Referring to FIG. 3, the marker candidate extraction apparatus 100 extracts genes that are similar to disease markers linked to disease-related cell function as candidate markers, and extend markers to be linked to disease-related cell functions. The marker candidate extracting apparatus 100 scans a variety of relationship similarities, distance and connection strength, and expression correlation with the extracted disease markers, and identifies significant genes as new marker candidates. Scores for various relational similarities, distances and connection strengths, and expression correlations with extracted disease markers can be calculated in parallel or sequentially.

마커 후보 추출 장치(100)는 다양한 관계 정보를 기초로 질병 마커들의 공통 특징을 추출하고, 질병 마커들과 관계 유사성을 나타내는 후보 유전자들의 관계 점수를 계산한다(S210). 특징은 예를 들면, 경로, 전사인자, E3, 골격단백질 등일 수 있다. 이때, 마커 후보 추출 장치(100)는 guilt-by-association 방법을 활용하여, 어느 기능에 많은 질병 마커들이 속한 경우, 해당 기능을 가지는 비마커 유전자들에게 높은 점수를 줄 수 있다. 다양한 관계 정보는 경로-소속 유전자 관계 정보, 전사인자-표적 유전자 관계 정보, E3 유비퀴탄화 효소-기질 관계 정보, 골격단백질(scaffold)-표적 단백질 관계 정보 등의 작용 관계 정보를 포함할 수 있고, 상호작용 및 경로 데이터베이스(340)에서 추출될 수 있다. 다양한 관계 정보는 세포기능-단백질 정보, 도메인-단백질 정보 등의 다양한 기능 관계 정보를 포함할 수 있고, 단백질 및 도메인 기능 데이터베이스(350)에서 추출될 수 있다.  The marker candidate extracting apparatus 100 extracts a common feature of the disease markers based on various relation information, and calculates a relation score of the candidate genes representing the disease similarity with the disease markers (S210). Features can be, for example, pathways, transcription factors, E3, skeletal proteins, and the like. At this time, the marker candidate extracting apparatus 100 can use a guilt-by-association method to give a high score to a non-marker gene having a function when many disease markers belong to a certain function. The various relational information may include functional relationship information such as path-affiliated gene relationship information, transcription factor-target gene relationship information, E3 ubiquitase-substrate relationship information, and scaffold- May be extracted from the interaction and path database 340. The various relationship information may include various functional relationship information such as cell function-protein information, domain-protein information, and the like, and may be extracted from the protein and domain function database 350.

마커 후보 추출 장치(100)는 단백질-단백질 상호작용 정보를 기반으로 구성된 네트워크에서, 질병 마커들과 후보 유전자들의 거리 및 연결 정도를 나타내는 후보 유전자들의 네트워크 점수를 계산한다(S220). 단백질-단백질 상호작용 정보는 상호작용 및 경로 데이터베이스(340)에서 추출될 수 있다. 마커 후보 추출 장치(100)는 마커와 가까이 있을수록, 많은 마커를 주위에 둘수록 높은 점수를 부여하는 방식으로 그래프 데이터 내에서 연결관계를 기반으로 점수화하는 네트워크 링크 분석(Link analysis)을 할 수 있다.The marker candidate extracting apparatus 100 calculates a network score of the candidate genes indicating the distance and the degree of connection between the disease markers and the candidate genes in the network configured based on the protein-protein interaction information (S220). Protein-protein interaction information can be extracted from the interaction and path database 340. The marker candidate extracting apparatus 100 can perform a link analysis in which a score is given based on a connection relation in the graph data in such a manner that the closer the marker is to the marker and the more markers are placed around the marker, .

마커 후보 추출 장치(100)는 마이크로어레이 데이터베이스(330)에 저장된 질병 전사체 데이터를 기반으로 각 질병 마커와 각 후보 유전자의 발현 상관관계를 분석하여, 후보 유전자들의 발현 패턴 점수를 계산한다(S230). 발현 패턴이 유사한 유전자들은 공통의 기능을 가질 가능성이 높은 것을 반영하기 위해 점수화한다. The marker candidate extracting apparatus 100 analyzes the expression correlation of each disease marker and each candidate gene based on the disease transcript data stored in the microarray database 330 and calculates an expression pattern score of the candidate genes (S230) . Genes with similar expression patterns are scored to reflect those likely to have a common function.

마커 후보 추출 장치(100)는 다양한 방식을 통하여 얻어진 후보 유전자들의 점수들을 통합한다(S240). 이때, 마커 후보 추출 장치(100)는 순서 통계(order statistics) 기반으로 스케일이 다른 정보들을 순위 기반으로 통합한다. 마커 후보 추출 장치(100)는 수학식 3과 같이 스케일이 다른 정보들을 순위 기반으로 통합할 수 있다. The marker candidate extracting apparatus 100 integrates scores of candidate genes obtained through various methods (S240). At this time, the marker candidate extracting apparatus 100 integrates information of different scales on the basis of order statistics. The marker candidate extracting apparatus 100 may integrate information having different scales as shown in Equation (3).

Figure pat00003
Figure pat00003

수학식 3에서, 각 r 값은 각 점수화 방법에서 얻어진 해당 유전자에 대한 순위 비율(rank ratio, 등수를 전체 유전자 수로 나눈 것)이고, N은 전체 점수화된 방법의 개수이다. 순위 기반 점수 통합 방법은, 정보가 없어 점수화할 수 없는 방법의 경우 이를 제외하고 계산되므로, 누락값(missing value)에 관계없이 점수 통합이 가능한 장점이 있다. 또한 순위 기반 점수 통합 방법은, 새로운 점수화 방법 고안 시, 손쉽게 순위 비율 값만 추가하여 계산하면 되므로 확장성이 높은 장점이 있다.In Equation (3), each r value is a rank ratio (rank number divided by the total number of genes) of the gene obtained in each scoring method, and N is the number of total scored methods. The ranking-based score integration method is advantageous in that it can be integrated regardless of the missing value because it is calculated except for methods that can not be scored because there is no information. In addition, the ranking-based score integration method has a merit of being highly scalable since it can be easily calculated by adding only the ranking ratio value when a new scoring method is devised.

마커 후보 추출 장치(100)는 후보 유전자들의 통합 점수(질병 마커들과의 유사성을 나타내는 후보 유전자의 유사성 점수)를 기초로, 알려진 질병 마커들과 유사한 성능을 낼 수 있는 후보 유전자들을 질병 마커 후보로 선정한다(S250). 마커 후보 추출 장치(100)는 이미 알려진 질병 마커들의 점수 분포를 확인하고, 후보 유전자들의 통합 점수를 기초로 질병 마커들 만큼의 성능을 낼 수 있는 등수를 선정한 후, 해당 등수 내의 유전자들을 신규 질병 마커 후보로 선정할 수 있다. 예를 들면, 마커 후보 추출 장치(100)는 기존 마커 등수의 3번째 퀀타일(3th quantile) 내의 유전자들을 신규 질병 마커 후보로 선정할 수 있다.The marker candidate extracting apparatus 100 extracts candidate genes capable of performing similar to known disease markers based on the integration score of the candidate genes (similarity score of the candidate gene indicating similarity with the disease markers) (S250). The marker candidate extracting apparatus 100 confirms the distribution of scores of known disease markers, selects an index capable of performing as much as disease markers based on the integrated score of the candidate genes, Candidates can be selected. For example, the marker candidate extracting apparatus 100 can select genes in the third quantile of the existing marker ranks as new disease marker candidates.

단계 S210에서, 마커 후보 추출 장치(100)는 수학식 1과 수학식 2의 피셔의 정확 검정을 통하여 각 특징(예를 들면, 경로, 전사인자, E3, 골격단백질 등)에 대한 p값을 계산한다. 마커 후보 추출 장치(100)는 각 데이터에서 대하여 나온 p값들을 수학식 4와 같은 피셔 방법(Fisher's method)을 통하여 통합한다. In step S210, the marker candidate extracting apparatus 100 calculates a p value for each feature (e.g., a path, a transcription factor, E3, a skeletal protein, etc.) through the Fischer's exact test of Equations 1 and 2 do. The marker candidate extracting apparatus 100 integrates the p values for each data through the Fisher's method as shown in Equation (4).

Figure pat00004
Figure pat00004

수학식 4에서, pi는 데이터 내에서 나온 p값들 의미한다. 낮은 p값을 가지는 특징을 많이 공유한 유전자일수록 유의성이 높아서 높은 순위에 들게 된다.In Equation (4), p i means p values in the data. The more common the gene with the lower p value, the higher the significance.

단계 S220에서, 마커 후보 추출 장치(100)는 Random Walk with Restart (RWR)의 방법을 통하여 네트워크 유사성 기반 마커 유의성을 점수화할 수 있다.In step S220, the marker candidate extraction apparatus 100 may score the network similarity-based marker significance through a method of Random Walk with Restart (RWR).

단계 S230에서, 마커 후보 추출 장치(100)는 피어슨 상관 계수(Pearson's correlation coefficient)를 통해 각 질병 마커와 각 후보 유전자의 발현 상관관계를 분석할 수 있다. 마커 후보 추출 장치(100)는 피어슨 상관 계수가 0.7 이상 또는 -0.7이하의 값을 가지는 마커-유전자 쌍에 대하여 p값을 구하고, 후보 유전자별로 각 마커와의 상관관계의 유의성을 나타내는 p값들을 수학식 4와 같은 피셔 방법을 통하여 통합한다. In step S230, the marker candidate extracting apparatus 100 can analyze the expression correlation of each disease marker and each candidate gene through a Pearson's correlation coefficient. The marker candidate extracting apparatus 100 obtains a p value for a marker-gene pair having a Pearson correlation coefficient of 0.7 or more or -0.7 or less and calculates p values indicating the significance of the correlation with each marker for each candidate gene, Integrate through the Fisher method as in Equation 4.

도 4는 본 발명의 한 실시예에 따른 마커 선정 장치가 멀티마커 패널을 선정하는 방법의 흐름도이다.FIG. 4 is a flowchart of a method of selecting a multi-marker panel according to an embodiment of the present invention.

도 4를 참고하면, 마커 선정 장치(200)는 질병 마커 후보들(후보 유전자들)을 입력받고, 마이크로어레이 데이터를 기반으로 각 질병 마커 후보의 발현 정도를 평가한다(S310). 마커 선정 장치(200)는 마이크로어레이 데이터베이스(330)에 저장된 전사체 데이터를 활용하여 각 질병 마커 후보 유전자의 질병-정상 혹은 질병 상태 간의 발현 배율 변화 및 p값을 계산한다. 조건별 발현이 크게 차이가 나고, 발현량의 분포가 밀집되어 있어 발현 배율이 커지고, 발현 유의 확률 p값이 작게 나타나면, 질병 마커로 사용될 가능성이 높다. 마커 선정 장치(200)는 R limma package의 toptable 함수를 이용하여 발현 정도를 평가할 수 있다.Referring to FIG. 4, the marker selecting apparatus 200 receives disease marker candidates (candidate genes) and evaluates the degree of expression of each disease marker candidate based on the microarray data (S310). The marker selection device 200 calculates the change in expression magnification and p value between the disease-normal or disease state of each disease marker candidate gene using the transcript data stored in the microarray database 330. It is highly probable that the expression markers will be different if the expressions vary greatly depending on the conditions, the distribution of the expression amount is dense, the expression magnification increases, and the expression probability p value is small. The marker selection device 200 can evaluate the degree of expression using the toptable function of the R limma package.

마커 선정 장치(200)는 각 질병 마커 후보의 발현 정도를 기초로 핵산 수준에서 검출이 가능한 전사체 마커를 추출한다(S320). 마커 선정 장치(200)는 발현 배율이 2보다 크거나 0.5보다 작으면서 p값이 0.05이하인 마커들을 질병 전사체 마커로 추출할 수 있다. The marker selecting apparatus 200 extracts a transcript marker which can be detected at the nucleic acid level based on the expression level of each disease marker candidate (S320). The marker selection device 200 can extract markers with a p-value of 0.05 or less, with an expression magnification of more than 2 or less than 0.5, with a disease transcript marker.

마커 선정 장치(200)는 마이크로어레이 데이터베이스(330)에 저장된 전사체 데이터를 활용하여 각 전사체 마커의 판별력을 검증한다(S330). 마커 선정 장치(200)는 leave-one-out 교차 검증을 할 수 있다. 마커 선정 장치(200)는 데이터셋별로 동일하게 정규화된 데이터를 기반으로 판별 기준을 잡아 검증하고, 판별력이 70% 이상인 마커를 판별력이 있는 마커로 선정할 수 있다. 한편, 마커 선정 장치(200)는 Housekeeping gene인 HPRT, GAPDH, ACTB, GUSB의 발현량의 합으로 나누는 식의 참조 유전자 중심의 정규화를 수행할 수 있다. 최종적으로 멀티마커 패널 구성 시, 마이크로어레이 수준의 검증 개수가 아닌 마커 패널 내 적은 검증 개수로 인하여, 기존의 퀀타일 정규화(quantile normalization) 등을 활용할 수 없는 문제를 해결하기 위한 방법으로서, 마커 선정 장치(200)는 실제 마커 패널 데이터를 분석하듯이 정규화를 수행한다.The marker selecting apparatus 200 verifies the discriminating power of each transcription marker using the transcript data stored in the microarray database 330 (S330). The marker selection device 200 can perform leave-one-out cross validation. The marker selection apparatus 200 can identify and verify the discrimination criterion based on the same normalized data for each data set, and select a marker having a discrimination power of 70% or more as a discriminative marker. Meanwhile, the marker selecting apparatus 200 can perform the normalization of the reference gene center divided by the sum of the expression amounts of the housekeeping genes HPRT, GAPDH, ACTB, and GUSB. As a method for solving the problem that conventional quantile normalization can not be utilized due to a small number of verifications in the marker panel rather than a microarray level verification number when the multi-marker panel is finally constructed, The controller 200 performs normalization as if analyzing actual marker panel data.

마커 선정 장치(200)는 판별력이 있는 전사체 마커들 중에서, 검증하고자 하는 조직 혹은 세포주에서의 검증 가능성을 평가하여 질병 기능 연계된 오믹스 마커를 선정한다(S340). 마커 선정 장치(200)는 세포 내 발현 및 변이 데이터베이스(360)를 활용하여 조직 혹은 세포주에서의 검증 가능성을 평가할 수 있다. 세포 내 발현 및 변이 데이터베이스(360)는 The Human Protein Atlas의 유전자/단백질 발현 정보 및 COSMIC의 환자 및 세포주 유전자 변이 정보를 활용할 수 있다. 마커 선정 장치(200)는 판별력이 있는 전사체 마커들 중에서, 검증할 조직 혹은 세포주 내 발현이 없는 마커는 제외하고, 검증할 세포주 내 변이가 있는 마커는 최종 선정에서 제외할 수 있다.The marker selection device 200 evaluates the verifiability of the tissue or cell line to be verified among the transcriptional markers having discriminating power, and selects an omix marker associated with the disease function (S340). The marker selection device 200 can utilize the intracellular expression and variation database 360 to evaluate the verifiability of a tissue or cell line. The intracellular expression and mutation database 360 can utilize the gene / protein expression information of The Human Protein Atlas and the patient and cell line gene mutation information of COSMIC. The marker selection device 200 may exclude the markers having mutation in the cell line to be verified from the final selection, except for the markers having no expression in the tissue or cell line to be verified, among the transcriptional markers having the discriminating power.

마커 선정 장치(200)는 선정된 마커들 간 발현 패턴이 유사하면서 기능 및 경로를 공유하는 유전자를 클러스터링한다(S350). 마커 선정 장치(200)는 질병 기능 및 경로 데이터베이스(310) 내 기능 및 경로 정보, 질병 마커 데이터베이스(320) 내 마커 정보, 마이크로어레이 데이터베이스(330) 내 전사체 데이터 정보를 활용하여 마커 간 발현 패턴이 유사하면서 기능 및 경로를 공유하는 유전자를 클러스터링할 수 있다. 마커 선정 장치(200)는 피어슨 상관 계수(Pearson's correlation coefficient)를 통해 발현 패턴 유사성을 분석할 수 있다.The marker selecting apparatus 200 clusters genes having similar patterns of expression among the selected markers and sharing function and path (S350). The marker selection device 200 utilizes the function and path information in the disease function and path database 310, the marker information in the disease marker database 320, and the transcript data information in the microarray database 330, Genes that share similar functions and pathways can be clustered. The marker selection device 200 can analyze the expression pattern similarity through Pearson's correlation coefficient.

마커 선정 장치(200)는 각 클러스터 내 마커를 임의로 제거하고 남은 마커를 기반으로 판별기를 구성하여 판별력을 예측하면서, 최적의 판별력을 보이는 마커 조합을 멀티마커 패널로 선정한다(S360). 마커 선정 장치(200)는 판별력이 높아지는 방향으로 마커를 하나씩 제거하여 최적의 판별력을 보이는 마커 조합을 결정한다. 마커 선정 장치(200)는 마이크로어레이 데이터 내 질병 상태별 마커 발현 데이터를 분별하는 서포트 벡터 머신(support vector machine, SVM) 판별기를 구성할 수 있다.The marker selecting apparatus 200 arbitrarily removes the markers in each cluster and constructs a discriminator based on the remaining markers to predict the discrimination power, and selects a marker combination having the best discriminating power as a multi-marker panel (S360). The marker selection device 200 determines the combination of the markers having the best discrimination power by removing the markers one by one in the direction in which the discrimination power is high. The marker selection device 200 may constitute a support vector machine (SVM) discriminator for discriminating marker expression data for each disease state in the microarray data.

이와 같이, 본 발명의 멀티마커 패널 선정 시스템(10)은 질병 연관 세포기능에 기존에 알려져 있는 마커를 대입 및 상호 피드백하고, 해당 마커들을 기반으로 유사성 분석을 통하여 신규 마커 후보를 확장한 후, 다수의 오믹스 통합 분석을 통하여 기능 기전 정보가 있는 마커를 선정하며, 기전이 중복된 마커를 제거하여 최소 및 최적의 멀티마커 패널을 선정할 수 있다.As described above, the multi-marker panel selection system 10 of the present invention assigns and mutually feedbacks known markers to disease-related cell functions, expands new marker candidates through similarity analysis based on the markers, And the minimum and optimal multi-marker panel can be selected by eliminating overlapping markers.

특히, 본 발명은 질병 기전과 연관된 마커 기반으로 신규 기전을 확장하고, 질병 마커를 기반으로 유사성 분석, 네트워크 분석, 발현 패턴 유사성 분석을 통해 신규 마커를 추가할 수 있다. 또한, 본 발명은 마커 패널 활용 시 적용할 정규화 방법을 고려하여 개별 마커의 판별력을 평가하고, 발현 패턴 및 기전 유사성을 기반으로 마커 조합을 축소하여 최적의 멀티마커 패널을 구성할 수 있다.In particular, the present invention extends new mechanisms based on markers associated with disease mechanisms and adds new markers through similarity analysis, network analysis, and expression pattern similarity analysis based on disease markers. In addition, the present invention evaluates the discriminative power of individual markers considering the normalization method to be applied when using the marker panel, and can optimize the multi-marker panel by reducing the marker combination based on the expression pattern and the mechanism similarity.

기존의 마이크로어레이 데이터 분석 기반 마커 선정 방법은 데이터셋에 따라 마커 유의성 변동의 폭이 크기 때문에 예측력이 일정하지 않은 단점이 있다. 또한 기존의 마이크로어레이 데이터 분석 기반 마커 선정 방법은 선정된 마커의 정확한 기능을 알기가 힘들고 경우에 따라 질병 기능과 상관 없는 유전자가 잘못 선정되는 단점이 있다. 기존의 마이크로어레이 데이터 분석으로 선정된 마커는 세포기능 및 기전을 알 수 없어, 후발적으로 선정된 마커에 세포기능을 단순히 매핑해야 했으나, 본 발명은 질병 연관 세포기능을 시발점으로 기전까지 해석이 가능한 멀티마커 패널을 선정할 수 있다. The conventional marker selection method based on microarray data analysis has a disadvantage in that the predictive power is not constant because the variation of marker significance is large depending on the data set. In addition, existing marker selection methods based on microarray data analysis have difficulties in knowing the exact function of the selected markers and in some cases, genes that are not related to the disease function are wrongly selected. In the conventional microarray data analysis, the selected marker did not know the cell function and mechanism, and it was necessary to simply map the cell function to the selected marker at a later stage. However, the present invention can be applied to a multi- Marker panel can be selected.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.The embodiments of the present invention described above are not implemented only by the apparatus and method, but may be implemented through a program for realizing the function corresponding to the configuration of the embodiment of the present invention or a recording medium on which the program is recorded.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, It belongs to the scope of right.

Claims (19)

적어도 하나의 프로세서에 의해 동작하는 시스템이 멀티마커 패널을 선정하는 방법으로서,
질병에 연관된 기전 기반으로 질병 연관 세포기능들과 질병 마커들을 연결하는 단계,
상기 질병 마커들 중 적어도 하나의 질병 마커에 유사한 유전자들을 질병 마커 후보들로 확장하는 단계,
마이크로어레이 데이터를 이용하여, 상기 질병 마커들과 상기 질병 마커 후보들 각각의 발현 정도를 평가하여, 전사체 마커들을 선정하는 단계, 그리고
상기 전사체 마커들 중에서 기능 및 기전을 공유하면서 발현 패턴이 유사한 중복 마커들을 제외하여 멀티마커 패널을 선정하는 단계
를 포함하는 멀티마커 패널 선정 방법.
A method for selecting a multi-marker panel by a system operating by at least one processor,
Linking disease-related cell functions to disease markers based on disease-related mechanisms,
Expanding genes that are similar to at least one disease marker of the disease markers to disease marker candidates,
Evaluating the degree of expression of each of the disease markers and the disease marker candidates using the microarray data, selecting transcription marker
A step of selecting a multi-marker panel excluding duplicate markers having similar expression patterns and sharing functions and mechanisms among the transcriptional markers
The method comprising the steps of:
제1항에서,
상기 질병 연관 세포기능들과 질병 마커들을 연결하는 단계는
질병 연관 기전 경로 내에 포함되는 질병 연관 세포기능을 탐색해서, 해당 기전 경로 내에 포함된 질병 마커를 질병 연관 세포기능에 연결하는 단계,
질병 연관 세포기능에 연결되지 않은 미연결 마커를 추출하는 단계, 그리고
상기 미연결 마커에 대한 기전 경로를 탐색하고, 탐색된 기전 경로에 포함된 세포기능들에 대하여 상기 미연결 마커들이 유의하게 포함되는지 평가하여, 상기 미연결 마커를 탐색된 세포기능에 연결하는 단계
를 포함하는 멀티마커 패널 선정 방법.
The method of claim 1,
The step of linking disease-associated cell functions with disease markers
Detecting disease-associated cell function contained within the disease-associated pathway, linking disease markers contained within the pathway to disease-associated cell function,
Extracting unconnected markers that are not linked to disease-associated cell function, and
Searching for a pathway for the unconnected marker, evaluating whether the unconnected markers are significantly included in the cell functions contained in the discovered pathway, and linking the unconnected marker to the searched cell function
The method comprising the steps of:
제1항에서,
상기 질병 마커 후보들로 확장하는 단계는
상기 질병 마커들과의 관계 유사성, 거리 및 연결 강도, 그리고 발현 상관관계 중 적어도 하나를 이용하여 후보 유전자들 각각을 점수화하고, 각 후보 유전자의 점수를 기초로 상기 질병 마커 후보들을 선정하는 멀티마커 패널 선정 방법.
The method of claim 1,
The step of extending to the disease marker candidates
Marker markers for scoring each of the candidate genes using at least one of relationship similarity to the disease markers, distance and linking intensity, and expression correlation, and selecting the disease marker candidates based on the score of each candidate gene Selection method.
제3항에서,
상기 질병 마커 후보들로 확장하는 단계는
순서 통계(order statistics) 기반으로, 스케일이 다른 관계 유사성 점수, 거리 및 연결 강도 점수, 그리고 발현 상관관계 점수를 순위 기반으로 통합하여 각 후보 유전자의 점수를 계산하는 멀티마커 패널 선정 방법.
4. The method of claim 3,
The step of extending to the disease marker candidates
A method for selecting a multi-marker panel to calculate score of each candidate gene based on order statistics, based on rank, based on ranking similarity score, distance and connection score, and expression correlation score.
제1항에서,
상기 전사체 마커들을 선정하는 단계는
상기 마이크로어레이 데이터를 이용하여, 상기 질병 마커들과 상기 질병 마커 후보들 각각의 발현 배율 및 발현 유의 확률을 계산하고, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하인 마커들을 상기 전사체 마커들로 선정하는 멀티마커 패널 선정 방법.
The method of claim 1,
The step of selecting transcriptional marker
Calculating marker magnitudes and probability expressions of the disease markers and the disease marker candidates using the microarray data and setting the markers whose expression magnification is within the reference range and the probability of occurrence expression (p value) A method of selecting a multi-marker panel to select from carcass markers.
제5항에서,
상기 전사체 마커들을 선정하는 단계는
데이터셋별로 동일하게 정규화된 마이크로어레이 데이터를 이용하여, 상기 질병 마커들과 상기 질병 마커 후보들 각각의 판별력을 더 계산하고, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하이며, 판별력이 기준값 이상인 마커들을 상기 전사체 마커들로 선정하는 멀티마커 패널 선정 방법.
The method of claim 5,
The step of selecting transcriptional marker
The discrimination power of each of the disease markers and the disease marker candidates is further calculated using the same normalized microarray data for each data set, and the expression magnification is within a reference range and the probability of occurrence expression (p value) And selecting the markers having the discriminating power equal to or greater than the reference value as the transcription markers.
제5항에서,
상기 전사체 마커들을 선정하는 단계는
상기 전사체 마커들 중에서, 검증하고자 하는 조직 혹은 세포주에서의 검증 가능성을 평가하여 질병 기능 연계된 오믹스 마커를 선정하는 멀티마커 패널 선정 방법.
The method of claim 5,
The step of selecting transcriptional marker
A method for selecting a multi-marker panel for selecting an omics marker associated with a disease function by evaluating the verifiability of a tissue or cell line to be verified among the transcription marker markers.
제1항에서,
상기 멀티마커 패널을 선정하는 단계는
상기 전사체 마커들 중에서 발현 패턴이 유사하면서 기능 및 경로를 공유하는 마커들을 클러스터로 분류하는 단계, 그리고
각 클러스터 내 마커를 임의로 제거하고 남은 마커를 기반으로 판별력을 예측하면서, 최적의 판별력을 보이는 마커 조합을 멀티마커 패널로 선정하는 단계
를 포함하는 멀티마커 패널 선정 방법.
The method of claim 1,
The step of selecting the multi-marker panel
Classifying markers having similar expression patterns and sharing functions and paths among the transcript markers into clusters; and
A step of selecting a marker combination having an optimal discriminating power as a multi-marker panel while arbitrarily removing markers in each cluster and predicting discrimination power based on the remaining markers
The method comprising the steps of:
적어도 하나의 프로세서에 의해 동작하는 시스템이 멀티마커 패널을 선정하는 방법으로서,
질병 연관 기전 경로 내에 포함되는 질병 연관 세포기능과 해당 기전 경로 내에 포함된 질병 마커를 연결하는 단계,
질병 마커 데이터베이스에 저장된 질병 마커들 중에서, 질병 연관 세포기능에 연결되지 않은 미연결 질병 마커가 있는 경우, 상기 미연결 질병 마커에 대한 기전 경로를 탐색하고, 탐색된 기전 경로에 포함된 질병 연관 세포기능들에 대하여 상기 미연결 질병 마커가 유의하게 포함되는지 평가하여, 상기 미연결 질병 마커를 탐색된 질병 연관 세포기능에 연결하는 단계,
질병 연관 세포기능에 연결된 질병 마커들, 그리고 질병 연관 세포기능에 연결된 질병 마커들 중 적어도 하나의 질병 마커에 유사한 유전자들을 질병 마커 후보들로 선정하는 단계, 그리고
마이크로어레이 데이터를 이용하여, 상기 질병 마커 후보들 각각을 검증하여 상기 질병 마커 후보들 중 적어도 일부 마커들로 조합된 멀티마커 패널을 선정하는 단계
를 포함하는 멀티마커 패널 선정 방법.
A method for selecting a multi-marker panel by a system operating by at least one processor,
Linking the disease-associated cell function contained within the disease-associated pathway with disease markers contained within the pathway,
If there is an unconnected disease marker that is not linked to disease-associated cell function among the disease markers stored in the disease marker database, the pathway for the unconnected disease marker is searched for and the disease-associated cell function Link disease marker to the searched disease-associated cell function by assessing whether the non-linked disease marker is significantly included in the disease-associated cell function,
Selecting disease marker candidates as genes that are similar to disease markers of at least one of disease markers linked to disease-related cell function and disease markers linked to disease-related cell function, and
A step of verifying each of the disease marker candidates using microarray data and selecting a multi-marker panel combined with at least some markers of the disease marker candidates
The method comprising the steps of:
제9항에서,
상기 멀티마커 패널을 선정하는 단계는
상기 질병 마커 후보들 중에서, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하이며, 판별력이 기준값 이상인 전사체 마커들을 상기 멀티마커 패널로 선정하는, 멀티마커 패널 선정 방법.
The method of claim 9,
The step of selecting the multi-marker panel
Wherein the transcription marker having an expression magnification ratio within a reference range and a probability of occurrence (p value) of less than or equal to a reference value and a discrimination power equal to or greater than a reference value is selected by the multi-marker panel among the disease marker candidates.
제10항에서,
상기 멀티마커 패널을 선정하는 단계는
상기 전사체 마커들 중에서 발현 패턴이 유사하면서 기능 및 경로를 공유하는 중복 마커를 제외하여 상기 멀티마커 패널을 선정하는 멀티마커 패널 선정 방법.
11. The method of claim 10,
The step of selecting the multi-marker panel
And selecting the multi-marker panel by excluding redundant markers having similar expression patterns and sharing function and path among the transcript markers.
제9항에서,
상기 질병 마커 후보들로 선정하는 단계는
상기 질병 마커들과의 관계 유사성, 거리 및 연결 강도, 그리고 발현 상관관계 중 적어도 하나를 이용하여 후보 유전자들 각각을 점수화하고, 각 후보 유전자의 점수를 기초로 상기 질병 마커에 유사한 유전자들을 선정하는 멀티마커 패널 선정 방법.
The method of claim 9,
The step of selecting as the disease marker candidates
Wherein each of the candidate genes is scored using at least one of relationship similarity to the disease markers, distance and connection intensity, and expression correlation, and a plurality of genes, which are similar to the disease marker, are selected based on the score of each candidate gene How to select marker panel.
제12항에서,
상기 질병 마커 후보들로 선정하는 단계는
순서 통계(order statistics) 기반으로, 스케일이 다른 관계 유사성 점수, 거리 및 연결 강도 점수, 그리고 발현 상관관계 점수를 순위 기반으로 통합하여 각 후보 유전자의 점수를 계산하는 멀티마커 패널 선정 방법.
The method of claim 12,
The step of selecting as the disease marker candidates
A method for selecting a multi-marker panel to calculate score of each candidate gene based on order statistics, based on rank, based on ranking similarity score, distance and connection score, and expression correlation score.
적어도 하나의 프로세서에 의해 동작하는 시스템이 멀티마커 패널을 선정하는 방법으로서,
질병 연관 세포기능에 연결된 질병 마커들을 입력받는 단계,
상기 질병 마커들 중 적어도 하나의 질병 마커에 유사한 유전자들을 추출하는 단계,
상기 유사한 유전자들 각각에 해당 질병 마커의 질병 연관 세포기능을 연결하는 단계,
상기 질병 마커들과 상기 질병 마커들 중 적어도 하나에 유사한 유전자들을 질병 마커 후보들로 선정하는 단계, 그리고
마이크로어레이 데이터를 이용하여, 상기 질병 마커 후보들 각각을 검증하여 멀티마커 패널을 선정하는 단계
를 포함하는 멀티마커 패널 선정 방법.
A method for selecting a multi-marker panel by a system operating by at least one processor,
Receiving disease markers associated with disease-associated cell function,
Extracting genes similar to at least one disease marker of the disease markers,
Linking the disease-associated cell function of the disease marker to each of the similar genes,
Selecting genes that are similar to at least one of the disease markers and the disease markers as disease marker candidates, and
A step of verifying each of the disease marker candidates using the microarray data to select a multi-marker panel
The method comprising the steps of:
제14항에서,
상기 질병 마커 후보들로 선정하는 단계는
상기 질병 마커들과의 관계 유사성, 거리 및 연결 강도, 그리고 발현 상관관계 중 적어도 하나를 이용하여 후보 유전자들 각각을 점수화하고, 각 후보 유전자의 점수를 기초로 상기 질병 마커에 유사한 유전자들을 선정하는 멀티마커 패널 선정 방법.
The method of claim 14,
The step of selecting as the disease marker candidates
Wherein each of the candidate genes is scored using at least one of relationship similarity to the disease markers, distance and connection intensity, and expression correlation, and a plurality of genes, which are similar to the disease marker, are selected based on the score of each candidate gene How to select marker panel.
제14항에서,
상기 멀티마커 패널을 선정하는 단계는
상기 질병 마커 후보들 중에서, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하이며, 판별력이 기준값 이상인 전사체 마커들을 추출하는 단계, 그리고
상기 전사체 마커들 중에서 발현 패턴이 유사하면서 기능 및 경로를 공유하는 중복 마커를 제외하여 상기 멀티마커 패널을 선정하는 단계
를 포함하는 멀티마커 패널 선정 방법.
The method of claim 14,
The step of selecting the multi-marker panel
Extracting transcript markers whose expression magnification is within a reference range and whose probability of occurrence (p value) is less than or equal to a reference value and whose discriminating power is equal to or greater than a reference value among the disease marker candidates, and
Selecting the multi-marker panel by excluding duplicate markers having similar expression patterns and sharing function and path among the transcript markers
The method comprising the steps of:
적어도 하나의 프로세서에 의해 동작하는 멀티마커 패널 선정 시스템으로서,
질병에 연관된 기전 기반으로 질병 연관 세포기능에 연결된 질병 마커들을 추출하고, 상기 질병 마커들 중 적어도 하나의 질병 마커에 유사한 유전자들을 확장된 질병 마커들로 추출하는 마커 후보 추출 장치, 그리고
마이크로어레이 데이터를 이용하여, 상기 마커 후보 추출 장치에서 추출된 상기 질병 마커들 각각을 검증하여 상기 질병 마커들 중 적어도 일부 마커들로 조합된 멀티마커 패널을 선정하는 마커 선정 장치
를 포함하는 멀티마커 패널 선정 시스템.
A multi-marker panel selection system operated by at least one processor,
A marker candidate extraction device extracting disease markers linked to disease-related cell function based on a disease-related mechanism, extracting genes similar to at least one disease marker of the disease markers into extended disease markers, and
A marker selection device for verifying each of the disease markers extracted from the marker candidate extraction device using the microarray data and selecting a multi-marker panel combined with at least some of the disease markers
A multi-marker panel selection system.
제17항에서,
상기 마커 후보 추출 장치는
상기 질병 마커들과의 관계 유사성, 거리 및 연결 강도, 그리고 발현 상관관계 중 적어도 하나를 이용하여 후보 유전자들 각각을 순위 기반으로 점수화하고, 각 후보 유전자의 점수를 기초로 상기 질병 마커에 유사한 유전자들을 선정하는 멀티마커 패널 선정 시스템.
The method of claim 17,
The marker candidate extracting apparatus
Wherein each of the candidate genes is scored on the basis of ranking using at least one of relationship similarity to the disease markers, distance and connection intensity, and expression correlation, and genes similar to the disease marker based on the score of each candidate gene Multi-marker panel selection system to select.
제17항에서,
상기 마커 선정 장치는
입력된 상기 질병 마커들 중에서, 발현 배율이 기준 범위 이내이고 발현 유의 확률(p값)이 기준값 이하이며, 판별력이 기준값 이상인 전사체 마커들을 추출하고,
상기 전사체 마커들 중에서 발현 패턴이 유사하면서 기능 및 경로를 공유하는 마커들을 클러스터로 분류한 후,
각 클러스터 내 마커를 임의로 제거하고 남은 마커를 기반으로 판별력을 예측하면서, 최적의 판별력을 보이는 마커 조합을 멀티마커 패널로 선정하는 멀티마커 패널 선정 시스템.
The method of claim 17,
The marker selection device
Among the inputted disease markers, transcription markers having an expression magnification ratio within a reference range and a probability of occurrence (p value) of less than or equal to a reference value and a discriminating power equal to or greater than a reference value are extracted,
Markers having similar expression patterns and sharing functions and paths among the transcript markers are classified into clusters,
A multi-marker panel selection system that selects a marker combination with optimal discriminant power as a multi-marker panel while arbitrarily removing markers in each cluster and predicting discrimination based on remaining markers.
KR1020170079167A 2017-06-22 2017-06-22 System and method for selecting multi-marker panels KR101990429B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170079167A KR101990429B1 (en) 2017-06-22 2017-06-22 System and method for selecting multi-marker panels

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170079167A KR101990429B1 (en) 2017-06-22 2017-06-22 System and method for selecting multi-marker panels

Publications (2)

Publication Number Publication Date
KR20190000168A true KR20190000168A (en) 2019-01-02
KR101990429B1 KR101990429B1 (en) 2019-06-18

Family

ID=65021613

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170079167A KR101990429B1 (en) 2017-06-22 2017-06-22 System and method for selecting multi-marker panels

Country Status (1)

Country Link
KR (1) KR101990429B1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020242130A1 (en) * 2019-05-24 2020-12-03 주식회사 바이오릿지 Method and device for predicting pharmaceutical use or biological mechanism of substance
WO2021107232A1 (en) * 2019-11-29 2021-06-03 의료법인 성광의료재단 Method for forming biomarker panel for diagnosing ovarian cancer and biomarker panel for diagnosing ovarian cancer
WO2021112593A1 (en) * 2019-12-03 2021-06-10 서울대학교병원 Non-negative matrix factorization-based metagene production method and application thereof
KR102643686B1 (en) * 2023-10-18 2024-03-05 주식회사 쓰리빌리언 System for diagnosing patient's disease through symptom reconstruction

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100734430B1 (en) * 2006-11-13 2007-07-02 한국정보통신대학교 산학협력단 A protocol for searching classifier gene set from microarray dataset
KR20120077570A (en) * 2010-12-30 2012-07-10 주식회사 바이오인프라 Combined biomarkers, their comprising method, diagnostic method and system using them for lung cancer

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100734430B1 (en) * 2006-11-13 2007-07-02 한국정보통신대학교 산학협력단 A protocol for searching classifier gene set from microarray dataset
KR20120077570A (en) * 2010-12-30 2012-07-10 주식회사 바이오인프라 Combined biomarkers, their comprising method, diagnostic method and system using them for lung cancer

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김재영 외 1명, 시간열 마이크로어레이 데이터를 이용한 질병 관련 유의한 패스웨이 유전자 집합의 검출, 전자공학회논문지-C1, 47(5) ,17-24. (2010.09.) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020242130A1 (en) * 2019-05-24 2020-12-03 주식회사 바이오릿지 Method and device for predicting pharmaceutical use or biological mechanism of substance
WO2021107232A1 (en) * 2019-11-29 2021-06-03 의료법인 성광의료재단 Method for forming biomarker panel for diagnosing ovarian cancer and biomarker panel for diagnosing ovarian cancer
WO2021112593A1 (en) * 2019-12-03 2021-06-10 서울대학교병원 Non-negative matrix factorization-based metagene production method and application thereof
KR102643686B1 (en) * 2023-10-18 2024-03-05 주식회사 쓰리빌리언 System for diagnosing patient's disease through symptom reconstruction

Also Published As

Publication number Publication date
KR101990429B1 (en) 2019-06-18

Similar Documents

Publication Publication Date Title
KR101990429B1 (en) System and method for selecting multi-marker panels
JP2023130495A (en) Interpretation of genetic and genomic variants via integrated computational and experimental deep mutational learning framework
Salazar et al. Comparison between SVM and logistic regression: Which one is better to discriminate?
KR101325736B1 (en) Apparatus and method for extracting bio markers
KR101642270B1 (en) Evolutionary clustering algorithm
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
Boufea et al. scID uses discriminant analysis to identify transcriptionally equivalent cell types across single-cell RNA-seq data with batch effect
KR102351306B1 (en) risk SNPs information generating apparatus for each disease based on disease-related SNPs analysis and method therefor
Carey et al. Correlation-based iterative clustering methods for time course data: the identification of temporal gene response modules for influenza infection in humans
Zhang et al. Network motif-based identification of breast cancer susceptibility genes
Cao et al. A novel filter feature selection method for paired microarray expression data analysis
Vilo et al. Regulatory sequence analysis: application to the interpretation of gene expression
US20160378914A1 (en) Method of and apparatus for identifying phenotype-specific gene network using gene expression data
AU2019446735B2 (en) Method for discovering marker for predicting risk of depression or suicide using multi-omics analysis, marker for predicting risk of depression or suicide, and method for predicting risk of depression or suicide using multi-omics analysis
Lauria Rank-based miRNA signatures for early cancer detection
Mutalib et al. Weighted frequent itemset of SNPs in genome wide studies
Zhang et al. Class-specific correlations of gene expressions: identification and their effects on clustering analyses
Aouf et al. Gene Expression Data For Gene Selection Using Ensemble Based Feature Selection
Li et al. Information recognition of pathogenic modules in gene statistics of big data
Hicks et al. Genomics of burn injury and its promise in clinical practice
KR20230064172A (en) Method for detecting cancer using fragment end sequence frequency and size by position of cell-free nucleic acid
Kuijjer et al. Expression Analysis
Valavanis et al. Intelligent identification of biomarkers for the study of obstructive nephropathy
Thomas Ranking And Scoring The Critical Cell Types In Neurodevelopmental Disorders Using Genetic Modules
Akhavan-Safar et al. Colorectal cancer driver gene detection in human gene regulatory network using an independent cascade diffusion model

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant