KR102187594B1 - Multi-omics data processing apparatus and method for discovering new drug candidates - Google Patents

Multi-omics data processing apparatus and method for discovering new drug candidates Download PDF

Info

Publication number
KR102187594B1
KR102187594B1 KR1020190147236A KR20190147236A KR102187594B1 KR 102187594 B1 KR102187594 B1 KR 102187594B1 KR 1020190147236 A KR1020190147236 A KR 1020190147236A KR 20190147236 A KR20190147236 A KR 20190147236A KR 102187594 B1 KR102187594 B1 KR 102187594B1
Authority
KR
South Korea
Prior art keywords
level
nodes
correlation
network
biological entities
Prior art date
Application number
KR1020190147236A
Other languages
Korean (ko)
Other versions
KR20200079179A (en
Inventor
배영우
진승현
Original Assignee
주식회사 메디리타
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 메디리타 filed Critical 주식회사 메디리타
Publication of KR20200079179A publication Critical patent/KR20200079179A/en
Application granted granted Critical
Publication of KR102187594B1 publication Critical patent/KR102187594B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Abstract

본 발명의 한 실시예에 따른 데이터 처리 장치의 신약 후보 물질 발굴을 위한 데이터 처리 방법은 오믹스를 이루는 복수의 오믹스 레벨 중 적어도 일부의 오믹스 레벨을 사용자 인터페이스를 통하여 입력 받는 단계; 상기 오믹스를 이루는 복수의 상호 연관도 종류 중 적어도 일부의 상호 연관도 종류를 사용자 인터페이스를 통하여 입력 받는 단계; 오믹스 레벨 별 데이터 및 상호 연관도 종류 별 데이터를 포함하는 오믹스 DB로부터 상기 적어도 일부의 오믹스 레벨에 관한 DB 및 상기 적어도 일부의 상호 연관도 종류에 관한 DB를 선택하는 단계; 상기 적어도 일부의 오믹스 레벨에 관한 DB 및 상기 적어도 일부의 상호 연관도 종류에 관한 DB로 이루어진 제1 매트릭스를 생성하는 단계; 사용자 인터페이스를 통하여 소정의 검색어를 입력 받는 단계; 상기 적어도 일부의 오믹스 레벨에 관한 DB 및 상기 적어도 일부의 상호 연관도 종류에 관한 DB로부터 상기 소정의 검색어와 관련된 복수의 생물학적 엔티티 및 상기 복수의 생물학적 엔티티 간 상호 연관도를 추출하는 단계; 그리고 상기 복수의 생물학적 엔티티를 포함하는 복수의 노드를 상기 복수의 생물학적 엔티티 간 상호 연관도에 따라 연결한 멀티오믹스 네트워크를 생성하는 단계를 포함하고, 상기 복수의 생물학적 엔티티 중 일부는 나머지 생물학적 엔티티와 서로 다른 오믹스 레벨에 포함된다.A data processing method for discovering a new drug candidate substance in a data processing apparatus according to an embodiment of the present invention includes: receiving at least some of a plurality of ohmic levels forming an ohmic through a user interface; Receiving at least some types of correlations among the plurality of types of correlations forming the ohmic through a user interface; Selecting a DB for the at least some of the ohmic levels and a DB for the at least some types of correlations from an ohmics DB including data for each ohmic level and data for each type of correlation; Generating a first matrix consisting of a DB related to the at least part of the ohmic level and a DB related to the type of the at least part of the correlation; Receiving a predetermined search word through a user interface; Extracting a plurality of biological entities related to the predetermined search word and a correlation degree between the plurality of biological entities from the at least part of the ohmic level DB and the at least part of the DB related to the type of correlation; And generating a multiomics network in which a plurality of nodes including the plurality of biological entities are connected according to a degree of correlation between the plurality of biological entities, and some of the plurality of biological entities Included in different ohmic levels.

Description

신약 후보 물질 발굴을 위한 멀티오믹스 데이터 처리 장치 및 방법{MULTI-OMICS DATA PROCESSING APPARATUS AND METHOD FOR DISCOVERING NEW DRUG CANDIDATES}Multi-omics data processing device and method for discovering new drug candidates {MULTI-OMICS DATA PROCESSING APPARATUS AND METHOD FOR DISCOVERING NEW DRUG CANDIDATES}

본 발명은 신약 후보 물질 발굴을 위한 멀티오믹스 데이터 처리 장치 및 방법에 관한 것으로, 보다 상세하게는 신약 후보 물질 발굴을 위하여 오믹스 DB로부터 계층 구조를 가지는 멀티오믹스 네트워크를 생성하는 데이터 처리 장치 및 방법에 관한 것이다.The present invention relates to a multiomics data processing apparatus and method for discovering new drug candidates, and more particularly, to a data processing device for generating a multiomics network having a hierarchical structure from an ohmics DB to discover new drug candidates, and It's about how.

하나의 신약을 개발하기 위하여 평균적으로 총 15년의 기간이 소요되며, 2 내지 3조원의 비용이 발생하는 것으로 알려져 있다. 이 중에서도 전임상(preclinical trial) 이전의 신약 후보 물질을 발굴하기 위하여 약 6년의 기간이 소요되는 것으로 알려져 있다. It is known that it takes a total of 15 years on average to develop a new drug, and costs 2 to 3 trillion won. Among them, it is known that it takes about 6 years to discover new drug candidates before the preclinical trial.

일반적으로, 신약을 개발하기 위한 파이프라인의 첫 단계인 신약 후보 물질을 발굴하기 위하여, 다수의 전문 연구 인력들이 막대한 양의 정보를 일일이 탐색하고, 이로부터 주요한 생물학적 엔티티(entity) 간의 연관성을 추론하는 과정을 거치고 있다.In general, in order to discover new drug candidates, which is the first step in the pipeline to develop new drugs, a large number of specialized research personnel search for enormous amounts of information one by one, and from this, infer associations between major biological entities. Going through the process.

최근 일본에서 출범된 라이프 인텔리전스 컨소시엄(Life Intelligence Consortium, 2017)에 따르면, 신약 개발에 인공지능 기술을 활용할 경우, 신약을 개발하기 위하여 소요되는 기간은 약 40% 수준으로 단축될 수 있고, 비용은 약 50% 수준으로 절감될 수 있는 것으로 예측되고 있다.According to the Life Intelligence Consortium (2017), which was recently launched in Japan, when using artificial intelligence technology to develop a new drug, the time required to develop a new drug can be reduced to about 40%, and the cost is about It is predicted that it can be reduced to 50% level.

한편, 오믹스(omics)는 체학(體學)이라고도 하며, 유전체를 비롯한 망라적 생물 분자, 세포, 조직, 기관 등의 집합체 전부를 일컫는 용어로, 예컨데, 유전체학(genomics), 단백질체학(proteomics), 신진대사체학(metabolomics) 등이 있다. 도 1은 신체의 계층 구조를 나타낸다. 최근, 서로 다른 오믹스 레벨 간의 총체적이고 통합적인 분석을 의미하는 멀티오믹스(multiomics)에 관한 개념이 소개되고 있으며, 적중률이 높은 신약을 개발하기 위하여 이러한 멀티오믹스 네트워크를 활용할 필요가 있다.On the other hand, omics, also called somatics, is a term that refers to the entire collection of biomolecules, cells, tissues, organs, etc., including genomes, such as genomics and proteomics. , Metabolomics, etc. 1 shows the hierarchical structure of the body. Recently, the concept of multiomics, which means a comprehensive and integrated analysis between different ohmic levels, has been introduced, and it is necessary to utilize such a multiomics network to develop a new drug with a high hit rate.

다만, 오믹스 데이터를 이용하여 멀티오믹스 네트워크를 효율적으로 생성하기 위한 구체적인 방법은 개발되지 않은 실정이다.However, a specific method for efficiently generating a multi-omics network using ohmic data has not been developed.

본 발명이 해결하고자 하는 기술적 과제는 신약 후보 물질 발굴을 위한 데이터 처리 장치 및 방법을 제공하는 것이다. The technical problem to be solved by the present invention is to provide a data processing apparatus and method for discovering new drug candidates.

본 발명이 해결하고자 하는 다른 기술적 과제는 오믹스 DB(database)로부터 멀티오믹스 네트워크를 생성하는 장치 및 방법에 관한 것이다.Another technical problem to be solved by the present invention relates to an apparatus and method for generating a multi-omics network from an omics database (DB).

데이터 처리 장치에서 수행되는 신약 후보 물질 발굴을 위한 데이터 처리 방법은, 오믹스를 이루는 복수의 오믹스 레벨 중 적어도 일부의 오믹스 레벨을 사용자 인터페이스를 통하여 입력 받는 단계, 상기 오믹스를 이루는 복수의 상호 연관도 종류 중 적어도 일부의 상호 연관도 종류를 사용자 인터페이스를 통하여 입력 받는 단계, 오믹스 레벨 별 데이터 및 상호 연관도 종류 별 데이터를 포함하는 오믹스 DB로부터 상기 적어도 일부의 오믹스 레벨에 관한 DB 및 상기 적어도 일부의 상호 연관도 종류에 관한 DB를 선택하는 단계, 상기 적어도 일부의 오믹스 레벨에 관한 DB 및 상기 적어도 일부의 상호 연관도 종류에 관한 DB로 이루어진 제1 매트릭스를 생성하는 단계, 사용자 인터페이스를 통하여 검색어를 입력 받는 단계, 상기 제1 매트릭스로부터 상기 검색어의 오믹스 레벨과 다른 오믹스 레벨에 속하고 상기 검색어와 관련된 생물학적 엔티티들을 추출하고, 상기 검색어 및 상기 생물학적 엔티티들 간의 상호 연관도를 추출하는 단계, 상기 검색어와 상기 생물학적 엔티티들을 나타내는 노드들을 상기 검색어와 상기 생물학적 엔티티들 간의 상호 연관도 또는 상기 생물학적 엔티티들 간의 상호 연관도에 따라 연결한 멀티오믹스 네트워크를 생성하는 단계, 상기 멀티오믹스 네트워크의 노드들 각각에 대한 그래프 이론 지표를 생성하는 단계, 및 상기 노드들 중 상기 그래프 이론 지표를 이용하여 추출된 일부 노드를 이용하여 상기 멀티오믹스 네트워크 내 서로 다른 오믹스 레벨 간 연결 관계를 가지는 일부 경로를 추출하는 단계를 포함하고, 상기 생물학적 엔티티들 중 일부는 나머지 생물학적 엔티티와 서로 다른 오믹스 레벨에 포함되며, 상기 검색어는 유전자명, 단백질명, 신진대사체명, 증상명, 질환명, 화합물명 및 약품명 중 적어도 하나를 포함하고, 상기 생물학적 엔티티는 유전자, 단백질, 신진대사체, 증상, 질환, 화합물 및 약품 중 적어도 하나를 포함하며, 상기 상호연관도의 범주는 참여(participate), 공변(covariate), 조절(regulate), 연관(associate), 결합(bind), 업레귤레이트(upregulate), 유사(resemble), 치료(treat), 다운레귤레이트(downregulates), 완화(palliate), 포함(include), 및 표출(express)을 포함하며, 상기 제1 매트릭스는 상기 적어도 일부의 오믹스 레벨이 가로축 및 세로축 각각에 배치되며, 가로축과 세로축이 교차하는 지점에 상기 상호 연관도 종류가 표시되도록 생성되고, 상기 그래프 이론 지표는 상기 멀티오믹스 네트워크를 구성하는 노드들 중 적어도 하나에 대한 노드 간 최단 경로, 노드 별 클러스터링 계수, 노드 별 센트럴리티 계수를 포함하고, 상기 노드들 사이의 연결선이 나타내는 상호 연관도의 범주에 따라 상기 연결선의 가중치가 다르게 설정되고, 상기 노드 간 최단 경로는 상기 설정된 가중치를 반영하여 산출되고, 상기 일부 경로를 구성하는 노드는, 상기 멀티오믹스 네트워크의 노드들 각각에 대한 상기 노드 간 최단 경로, 상기 노드 별 클러스터링 계수, 및 상기 노드 별 센트럴리티 계수 중 적어도 하나에 대한 표준 점수가 임계 값 미만인 노드와 상기 임계 값 미만인 노드의 연결선을 삭제함으로써 생성되고, 상기 표준 점수는 상기 멀티오믹스 네트워크의 노드들 각각에 대한 상기 그래프 이론 지표의 지표값과 상기 멀티오믹스 네트워크의 노드들에 대한 상기 그래프 이론 지표의 평균 지표값 간의 차를 표준 에러로 나눈 값이다.A data processing method for discovering a new drug candidate substance performed in a data processing apparatus includes receiving at least some of the ohmic levels from among a plurality of ohmic levels constituting an ohmic through a user interface, and receiving a plurality of ohmic levels constituting the ohmic. Receiving at least some of the types of correlations through a user interface, and from the ohmics DB including data for each ohmic level and data for each type of correlation, a DB on the at least some of the ohmics levels, and Selecting a DB for the at least some types of correlations, generating a first matrix consisting of a DB for at least some of the ohmic levels and a DB for the at least some types of correlations, a user interface Receiving a search word input through the first matrix, extracting biological entities belonging to an ohmic level different from the ohmic level of the search word and related to the search word from the first matrix, and extracting a correlation between the search word and the biological entities Generating a multiomics network in which nodes representing the search word and the biological entities are connected according to a degree of correlation between the search word and the biological entities or between the biological entities, the multiomics Generating a graph theory index for each of the nodes of the network, and having a connection relationship between different ohmic levels in the multiomics network using some nodes extracted using the graph theory index among the nodes Including the step of extracting some pathways, some of the biological entities are included in different ohmic levels from the other biological entities, and the search word is a gene name, protein name, metabolite name, symptom name, disease name, compound Includes at least one of name and drug name, and the biological entity includes at least one of genes, proteins, metabolites, symptoms, diseases, compounds, and drugs, and the category of correlation is participate ), covariate, regulate, associate, bind, upregulate, resemble, treat, downregulates, palliate , Include, and expression, and in the first matrix, the at least some ohmic levels are arranged on each of a horizontal axis and a vertical axis, and the type of correlation is at a point where the horizontal axis and the vertical axis intersect. Is generated to be displayed, and the graph theory index includes a shortest path between nodes for at least one of the nodes constituting the multiomics network, a clustering coefficient for each node, a centrality coefficient for each node, and a connection line between the nodes The weight of the connection line is set differently according to the category of the degree of correlation indicated, and the shortest path between nodes is calculated by reflecting the set weight, and the nodes constituting the partial path are nodes of the multiomics network. The standard score for at least one of the shortest path between nodes for each, the clustering coefficient for each node, and the centrality coefficient for each node is generated by deleting a connection line between a node having a value less than a threshold value and a node having a value less than the threshold value, and the standard A score is a value obtained by dividing a difference between an index value of the graph theory index for each node of the multiomics network and an average index value of the graph theory index for nodes of the multiomics network by a standard error.

상기 일부 경로를 추출하는 단계는, 상기 멀티오믹스 네트워크를 구성하는 전체 연결선을 임의로 섞은 다음 상기 멀티오믹스 네트워크의 노드들 각각에 대해 상기 표준 점수를 계산하는 단계를 포함하고, 상기 임의로 섞는 회수는 1000회 이상이다..The step of extracting the partial paths includes randomly mixing all the connecting lines constituting the multiomics network and then calculating the standard score for each of the nodes of the multiomics network, and the number of randomly mixing is More than 1000 times..

상기 데이터 처리 방법은 상기 멀티오믹스 네트워크 내 서로 다른 오믹스 레벨 간 연결 관계를 가지는 일부 경로를 계층 구조로 표시하는 단계를 더 포함할 수 있다. The data processing method may further include displaying some paths having a connection relationship between different ohmic levels in the multiomics network in a hierarchical structure.

상기 상호연관도의 범주는, 상호작용(interact), 원인(cause), 발현(present), 및 위치(localize) 중 적어도 하나를 더 포함할 수 있다.The category of the correlation diagram may further include at least one of interaction, cause, present, and localize.

상기 복수의 오믹스 레벨은 유전자 레벨, 단백질 레벨, 신진대사체 레벨, 증상 레벨, 질환 레벨, 화합물 레벨, 약품 레벨 및 부작용 레벨 중 적어도 일부를 포함할 수 있다.The plurality of ohmic levels may include at least some of a gene level, a protein level, a metabolite level, a symptom level, a disease level, a compound level, a drug level, and a side effect level.

상기 멀티오믹스 네트워크를 생성하는 단계는,상기 생물학적 엔티티들 및 상기 생물학적 엔티티들 간 상호 연관도로 이루어진 제2 매트릭스를 생성하는 단계, 및 상기 생물학적 엔티티들을 상기 생물학적 엔티티들 간 상호 연관도로 연결하는 단계를 포함하고, 상기 제2 매트릭스는 상기 생물학적 엔티티들이 오믹스 레벨의 계층 구조에 따라 순차적으로 가로축 및 세로축 각각에 배치되며, 가로축 및 세로축이 교차하는 지점에 상기 생물학적 엔티티들 간 상호 연관도가 표시될 수 있다.The generating of the multiomics network includes generating a second matrix consisting of the biological entities and the correlation between the biological entities, and connecting the biological entities with the correlation between the biological entities. In the second matrix, the biological entities are sequentially arranged on a horizontal axis and a vertical axis according to a hierarchical structure of an ohmic level, and a correlation between the biological entities may be displayed at a point where the horizontal axis and the vertical axis intersect. have.

신약 후보 물질 발굴을 위한 데이터 처리 장치은, 오믹스를 이루는 복수의 오믹스 레벨 중 적어도 일부의 오믹스 레벨을 입력 받고, 상기 오믹스를 이루는 복수의 상호 연관도 종류 중 적어도 일부의 상호 연관도 종류를 입력 받는 사용자 인터페이스부, 오믹스 레벨 별 데이터 및 상호 연관도 종류 별 데이터를 포함하는 오믹스 DB로부터 상기 적어도 일부의 오믹스 레벨에 관한 DB 및 상기 적어도 일부의 상호 연관도 종류에 관한 DB를 선택하고, 상기 적어도 일부의 오믹스 레벨에 관한 DB 및 상기 적어도 일부의 상호 연관도 종류에 관한 DB로 이루어진 제1 매트릭스를 생성하는 DB 추출부, 상기 제1 매트릭스로부터 상기 사용자 인터페이스부를 통하여 입력받은 검색어의 오믹스 레벨과 다른 오믹스 레벨에 속하고 상기 검색어와 관련된 생물학적 엔티티들을 추출하고, 상기 검색어 및 상기 생물학적 엔티티들 간의 상호 연관도를 추출하고, 상기 검색어와 상기 생물학적 엔티티들을 나타내는 복수의 노드들을 상기 검색어와 상기 생물학적 엔티티들 사이의 상호 연관도 또는 상기 생물학적 엔티티들 간의 상호 연관도에 따라 연결한 멀티오믹스 네트워크를 생성하는 데이터 생성부, 상기 멀티오믹스 네트워크의 노드들 각각에 대한 그래프 이론 지표를 생성하는 데이터 처리부, 및 상기 노드들 중 상기 그래프 이론 지표를 이용하여 추출된 일부 노드를 이용하여 상기 멀티오믹스 네트워크 내 서로 다른 오믹스 레벨 간 연결 관계를 가지는 일부 경로를 추출하는 데이터 정제부를 포함하고, 상기 생물학적 엔티티들 중 일부는 나머지 생물학적 엔티티와 서로 다른 오믹스 레벨에 포함되며, 상기 검색어는 유전자명, 단백질명, 신진대사체명, 증상명, 질환명, 화합물명 및 약품명 중 적어도 하나를 포함하고, 상기 생물학적 엔티티는 유전자, 단백질, 신진대사체, 증상, 질환, 화합물 및 약품 중 적어도 하나를 포함하며, 상기 상호연관도의 범주는 참여(participate), 공변(covariate), 조절(regulate), 연관(associate), 결합(bind), 업레귤레이트(upregulate), 유사(resemble), 치료(treat), 다운레귤레이트(downregulates), 완화(palliate), 포함(include) 및 표출(express)을 포함하며, 상기 제1 매트릭스는 상기 적어도 일부의 오믹스 레벨이 가로축 및 세로축 각각에 배치되며, 가로축과 세로축이 교차하는 지점에 상기 상호 연관도 종류가 표시되도록 생성되고, 상기 그래프 이론 지표는 상기 멀티오믹스 네트워크를 구성하는 노드들 중 적어도 하나에 대한 노드 간 최단 경로, 노드 별 클러스터링 계수, 노드 별 센트럴리티 계수를 포함하고, 상기 노드들 사이의 연결선이 나타내는 상호 연관도의 범주에 따라 상기 연결선의 가중치가 다르게 설정되고, 상기 노드 간 최단 경로는 상기 설정된 가중치를 반영하여 산출되고, 상기 일부 경로를 구성하는 노드는, 상기 멀티오믹스 네트워크의 노드들 각각에 대한 상기 노드 간 최단 경로, 상기 노드 별 클러스터링 계수, 및 상기 노드 별 센트럴리티 계수 중 적어도 하나에 대한 표준 점수가 임계 값 미만인 노드와 상기 임계 값 미만인 노드의 연결선을 삭제함으로써 생성되고, 상기 표준 점수는 상기 멀티오믹스 네트워크의 노드들 각각에 대한 상기 그래프 이론 지표의 지표값과 상기 멀티오믹스 네트워크의 노드들에 대한 상기 그래프 이론 지표의 평균 지표값 간의 차를 표준 에러로 나눈 값이다.The data processing apparatus for discovering new drug candidates receives at least some of the ohmic levels of a plurality of ohmics levels constituting the ohmics, and determines at least some of the types of correlations of the plurality of types of the ohmics. Selecting the at least some of the Omix level DB and the at least some of the Omics level DB and the at least some of the mutual relationship type DB from the Omix DB including the input user interface unit, Omix level data and correlation type data, , A DB extraction unit for generating a first matrix consisting of a DB for the at least part of the ohmic level and a DB for the type of the at least part of the correlation, and an error of the search word input from the first matrix through the user interface unit. Extract biological entities belonging to an ohmic level different from the mix level and related to the search word, extract a correlation between the search word and the biological entities, and select a plurality of nodes representing the search word and the biological entities with the search word A data generation unit for generating a multiomics network connected according to the degree of correlation between the biological entities or the degree of correlation between the biological entities, and generating a graph theory index for each of the nodes of the multiomics network A data processing unit and a data refiner for extracting some paths having a connection relationship between different ohmic levels in the multiomics network by using some nodes extracted using the graph theory index among the nodes, the Some of the biological entities are included in an ohmic level different from the other biological entities, and the search word includes at least one of a gene name, a protein name, a metabolite name, a symptom name, a disease name, a compound name, and a drug name, and the The biological entity includes at least one of genes, proteins, metabolites, symptoms, diseases, compounds, and drugs, and the category of correlation is participate, covariate, regulate, and linkage. Includes associate, bind, upregulate, resemble, treat, downregulates, palliate, include, and express The first matrix is generated so that the at least some ohmic levels are arranged on each of the horizontal and vertical axes, and the correlation type is displayed at a point where the horizontal and vertical axes intersect, and the graph theory index is the multi-o Including the shortest path between nodes for at least one of the nodes constituting the mixed network, a clustering coefficient for each node, and a centrality coefficient for each node, and the weight of the connection line according to the category of the degree of correlation indicated by the connection line between the nodes Is set differently, the shortest path between nodes is calculated by reflecting the set weight, and the nodes constituting the partial paths are the shortest paths between the nodes for each of the nodes of the multiomics network, clustering for each node A coefficient, and a standard score for at least one of the centrality coefficients for each node is generated by deleting a connection line between a node having a value less than a threshold value and a node having a value less than the threshold value, and the standard score is calculated for each of the nodes of the multiomics network. It is a value obtained by dividing the difference between the index value of the graph theory index and the average index value of the graph theory index for nodes of the multiomics network by a standard error.

상기 데이터 정제부는, 상기 멀티오믹스 네트워크를 구성하는 전체 연결선을 임의로 섞은 다음 상기 멀티오믹스 네트워크의 노드들 각각에 대해 상기 표준 점수를 계산하고, 상기 임의로 섞는 회수는 1000회 이상이다.The data refiner randomly mixes all the connection lines constituting the multiomics network and then calculates the standard score for each node of the multiomics network, and the number of randomly mixing is 1000 or more.

상기 데이터 처리 장치는, 상기 멀티오믹스 네트워크 내 서로 다른 오믹스 레벨 간 연결 관계를 가지는 일부 경로를 계층 구조로 표시하는 출력부를 더 포함할 수 있다.The data processing apparatus may further include an output unit configured to display some paths having a connection relationship between different ohmic levels in the multiomics network in a hierarchical structure.

상기 상호연관도의 범주는, 상호작용(interact), 원인(cause), 발현(present), 및 위치(localize) 중 적어도 하나를 더 포함할 수 있다. The category of the correlation diagram may further include at least one of interaction, cause, present, and localize.

상기 복수의 오믹스 레벨은 유전자 레벨, 단백질 레벨, 신진대사체 레벨, 증상 레벨, 질환 레벨, 화합물 레벨, 약품 레벨 및 부작용 레벨 중 적어도 일부를 포함할 수 있다.The plurality of ohmic levels may include at least some of a gene level, a protein level, a metabolite level, a symptom level, a disease level, a compound level, a drug level, and a side effect level.

상기 데이터 생성부는 상기 생물학적 엔티티들 및 상기 생물학적 엔티티들 간 상호 연관도로 이루어진 제2 매트릭스를 생성하고, 상기 생물학적 엔티티들을 상기 생물학적 엔티티들 간 상호 연관도로 연결하며, 상기 제2 매트릭스는 상기 생물학적 엔티티들이 오믹스 레벨의 계층 구조에 따라 순차적으로 가로축 및 세로축 각각에 배치되며, 가로축 및 세로축이 교차하는 지점에 상기 생물학적 엔티티들 간 상호 연관도가 표시될 수 있다.The data generation unit generates a second matrix consisting of the biological entities and the correlation between the biological entities, and connects the biological entities with the correlation between the biological entities, and the second matrix includes the biological entities. They are sequentially arranged on each of the horizontal and vertical axes according to the hierarchical structure of the mix level, and a correlation between the biological entities may be displayed at a point where the horizontal and vertical axes intersect.

상기 데이터 처리 방법을 실행시키기 위하여 컴퓨터로 읽을 수 있는 프로그램이 기록된 기록 매체가 제공될 수 있다.In order to execute the data processing method, a recording medium in which a computer-readable program is recorded may be provided.

본 발명의 실시예에 따르면, 신약 후보 물질 발굴을 위하여 막대한 양의 정보를 일일이 탐색하지 않고도, 소정의 검색어와 관련된 생물학적 엔티티 및 이들의 상호 연관도에 관한 정제된 정보를 단시간 내에 추출할 수 있다. According to an exemplary embodiment of the present invention, refined information on biological entities related to a predetermined search word and their correlations can be extracted within a short time without searching for an enormous amount of information to discover new drug candidates.

특히, 본 발명의 실시예에 따르면, 사용자가 원하는 오믹스 레벨 및 상호연관도만으로 구성된 멀티오믹스 네트워크를 얻을 수 있으며, 사용자가 원하는 서로 다른 오믹스 레벨에 위치하는 생물학적 엔티티들 간의 상호 연관도를 용이하게 도출할 수 있고, 이에 따라 신체의 계층 구조 및 이로부터 외부로 발현되는 상태, 질환 및 증상 등과의 연결 관계를 편리하게 탐색할 수 있고, 질병 기전 및 약리 기전을 쉽게 이해할 수 있다.In particular, according to an embodiment of the present invention, it is possible to obtain a multi-omics network composed of only an ohmic level and a correlation degree desired by a user, and a correlation degree between biological entities located at different ohmic levels desired by the user. It can be easily derived, and accordingly, the hierarchical structure of the body and the connection relationship between externally expressed conditions, diseases, and symptoms can be conveniently explored, and disease mechanisms and pharmacological mechanisms can be easily understood.

이에 따라, 적중률 높은 신약 후보 물질 또는 신약 후보 물질의 타겟을 발굴하는데 소요되는 비용 및 기간을 현저히 줄일 수 있다.Accordingly, it is possible to significantly reduce the cost and time required to discover a new drug candidate substance with a high hit rate or a target of a new drug candidate substance.

도 1은 신체의 계층 구조를 나타낸다.
도 2는 네트워크의 개념을 설명한다.
도 3은 본 발명의 한 실시예에 따른 신약 후보 물질 발굴을 위한 데이터 처리 장치의 블록도이다.
도 4는 본 발명의 한 실시예에 따른 신약 후보 물질 발굴을 위한 데이터 처리 장치가 이용하는 오믹스 DB의 블록도이다.
도 5는 본 발명의 한 실시예에 따른 데이터 처리 장치의 신약 후보 물질 발굴을 위한 데이터 처리 방법의 순서도이다.
도 6은 본 발명의 한 실시예에 따라 단계 S100에서 오믹스 레벨이 입력되는 예를 나타낸다.
도 7은 본 발명의 한 실시예에 따라 단계 S110에서 상호 연관도 종류가 입력되는 예를 나타낸다.
도 8은 본 발명의 한 실시예에 따라 단계 S130에서 생성된 제1 매트릭스의 예를 나타낸다.
도 9는 소정의 검색어가 입력되는 예를 나타낸다.
도 10은 단계 S150에서 추출된 생물학적 엔티티 및 이들 간 상호 연관도를 나타내는 제2 매트릭스의 일 예의 일부이다.
도 11은 본 발명의 실시예에 따라 생성된 멀티오믹스 네트워크의 일 예이다.
도 12는 본 발명의 한 실시예에 따라 단계 S180에서 표시된 일부 경로의 예를 나타낸다.
1 shows the hierarchical structure of the body.
2 illustrates the concept of a network.
3 is a block diagram of a data processing apparatus for discovering a new drug candidate material according to an embodiment of the present invention.
4 is a block diagram of an ohmic DB used by a data processing apparatus for discovering new drug candidate substances according to an embodiment of the present invention.
5 is a flowchart of a data processing method for discovering a new drug candidate substance in a data processing apparatus according to an embodiment of the present invention.
6 shows an example in which an ohmic level is input in step S100 according to an embodiment of the present invention.
7 shows an example in which the type of correlation degree is input in step S110 according to an embodiment of the present invention.
8 shows an example of a first matrix generated in step S130 according to an embodiment of the present invention.
9 shows an example in which a predetermined search word is input.
10 is a part of an example of a second matrix showing a biological entity extracted in step S150 and a degree of correlation therebetween.
11 is an example of a multiomics network created according to an embodiment of the present invention.
12 shows an example of some routes displayed in step S180 according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. The present invention is intended to illustrate and describe specific embodiments in the drawings, as various changes may be made and various embodiments may be provided. However, this is not intended to limit the present invention to a specific embodiment, it is to be understood to include all changes, equivalents, and substitutes included in the spirit and scope of the present invention.

제2, 제1 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다. Terms including ordinal numbers, such as second and first, may be used to describe various elements, but the elements are not limited by the terms. These terms are used only for the purpose of distinguishing one component from another component. For example, without departing from the scope of the present invention, a second component may be referred to as a first component, and similarly, a first component may be referred to as a second component. The term and/or includes a combination of a plurality of related listed items or any of a plurality of related listed items.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. When a component is referred to as being "connected" or "connected" to another component, it is understood that it may be directly connected or connected to the other component, but other components may exist in the middle. Should be. On the other hand, when a component is referred to as being "directly connected" or "directly connected" to another component, it should be understood that there is no other component in the middle.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the present application are only used to describe specific embodiments, and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In the present application, terms such as "comprise" or "have" are intended to designate the presence of features, numbers, steps, actions, components, parts, or combinations thereof described in the specification, but one or more other features. It is to be understood that the presence or addition of elements or numbers, steps, actions, components, parts, or combinations thereof, does not preclude in advance.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which the present invention belongs. Terms as defined in a commonly used dictionary should be interpreted as having a meaning consistent with the meaning in the context of the related technology, and should not be interpreted as an ideal or excessively formal meaning unless explicitly defined in this application. Does not.

이하, 첨부된 도면을 참조하여 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 대응하는 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, embodiments will be described in detail with reference to the accompanying drawings, but the same reference numerals are assigned to the same or corresponding components regardless of the reference numerals, and redundant descriptions thereof will be omitted.

도 2는 네트워크의 개념을 설명한다. 2 illustrates the concept of a network.

도 2를 참조하면, 네트워크는 복수의 노드로 이루어질 수 있으며, 두 노드 사이는 에지에 의하여 연결될 수 있다. 본 명세서에서, 네트워크는 지식 네트워크, 생물학적 네트워크, 멀티오믹스 네트워크일 수 있으며, 노드는 생물학적 엔티티를 나타낼 수 있고, 에지는 두 생물학적 엔티티 간의 상호 연관도를 나타낼 수 있다.Referring to FIG. 2, a network may be composed of a plurality of nodes, and two nodes may be connected by edges. In the present specification, the network may be a knowledge network, a biological network, or a multiomics network, a node may represent a biological entity, and an edge may represent a degree of correlation between two biological entities.

도 3은 본 발명의 한 실시예에 따른 신약 후보 물질 발굴을 위한 데이터 처리 장치의 블록도이고, 도 4는 본 발명의 한 실시예에 따른 신약 후보 물질 발굴을 위한 데이터 처리 장치가 이용하는 오믹스 DB의 블록도이며, 도 5는 본 발명의 한 실시예에 따른 데이터 처리 장치의 신약 후보 물질 발굴을 위한 데이터 처리 방법의 순서도이다. 3 is a block diagram of a data processing apparatus for discovering new drug candidate substances according to an embodiment of the present invention, and FIG. 4 is an ohmic DB used by the data processing apparatus for discovering new drug candidate substances according to an embodiment of the present invention. Is a block diagram of, and FIG. 5 is a flow chart of a data processing method for discovering a new drug candidate substance in a data processing apparatus according to an embodiment of the present invention.

도 3을 참조하면, 신약 후보 물질 발굴을 위한 데이터 처리 장치(100)는 사용자 인터페이스부(110), DB 추출부(120), 데이터 생성부(130), 데이터 처리부(140), 데이터 정제부(150), 출력부(160) 및 저장부(170)를 포함한다. Referring to FIG. 3, the data processing apparatus 100 for discovering a new drug candidate includes a user interface unit 110, a DB extraction unit 120, a data generation unit 130, a data processing unit 140, and a data purification unit ( 150), and an output unit 160 and a storage unit 170.

도 3 내지 5를 참조하면, 사용자 인터페이스부(110)는 오믹스를 이루는 복수의 레벨 중 적어도 일부의 오믹스 레벨을 입력 받으며(S100), 오믹스를 이루는 복수의 상호 연관도 종류 중 적어도 일부의 상호 연관도 종류를 입력 받는다(S110). 여기서, 오믹스(omics)는 체학이라고도 하며, 예를 들어 유전자체학, 전사체학, 단백질체학, 신진대사체학, 후성유전체학, 지질체학 등이 있고, 세부적으로 해부학적 구조(anatomy), 생물학적경로(biological process), 전도경로(pathway), 약리학적 계층(pharmacological class), 증상, 질환, 화합물, 약물, 부작용 등에 관련된 내용을 포함할 수 있으나, 이로 제한되는 것은 아니다. 복수의 오믹스 레벨은 유전자 레벨, 전사 레벨, 단백질 레벨, 신진대사체 레벨, 후성유전자 레벨, 지질 레벨, 해부학적 구조 레벨, 생물학적 경로 레벨, 전도경로 레벨, 약리학적 계층레벨, 증상 레벨, 질환 레벨, 화합물 레벨, 약물 레벨 및 부작용 레벨 등을 포함할 수 있으나, 이로 제한되는 것은 아니다. 여기서, 해부학적 구조는 조직(tissue), 기관(organ) 등을 의미할 수 있고, 생물학적 경로는 세포 내 구조의 레벨에서의 위치와 같은 세포 구성성분, 유전자 온톨로지로부터 추출된 분자 기능을 포함하는 일련의 이벤트일 수 있으며, 약리학적 계층은 약리학적 효과, 작용의 메커니즘일 수 있다. 그리고, 복수의 상호 연관도 종류는 "상호작용(interact)", "참여(participate)", "공변(covariate)", "조절(regulate)", "연관(associate)", "결합(bind)", "업레귤레이트(upregulate)", "원인(cause)", "유사(resemble)", "치료(treat)", "다운레귤레이트(downregulates)", "완화(palliate)", "발현(present)", "위치(localize)", "포함(include)", "표출(express)"을 포함할 수 있으며, 종류 별로 식별 번호 또는 식별 기호가 임의로 부여될 수 있다. 종류 별 식별 번호 또는 식별 기호는 사용자에 의하여 설정되거나, 자동으로 설정될 수 있다. 도 6은 본 발명의 한 실시예에 따라 단계 S100에서 오믹스 레벨이 입력되는 예를 나타내고, 도 7은 본 발명의 한 실시예에 따라 단계 S110에서 상호 연관도 종류가 입력되는 예를 나타낸다. 도 6을 참조하면, 출력부(160)를 통하여 복수의 오믹스 레벨이 선택될 수 있는 화면이 노출될 수 있으며, 복수의 오믹스 레벨 중 사용자 인터페이스부(110)를 통하여 적어도 일부의 오믹스 레벨이 선택될 수 있다. 그리고, 도 7을 참조하면, 출력부(160)를 통하여 복수의 상호 연관도 종류가 선택될 수 있는 화면이 노출될 수 있으며, 복수의 상호 연관도 종류 중 사용자 인터페이스부(110)를 통하여 적어도 일부의 상호 연관도 종류가 선택될 수 있다.3 to 5, the user interface unit 110 receives at least some of the ohmic levels among a plurality of levels constituting the ohmic (S100), and at least some of the plurality of types of correlations constituting the ohmic are input. The type of correlation degree is input (S110). Here, omics is also referred to as somatics. For example, there are genetics, transcriptomes, proteomics, metabolomics, epigenomics, and geology, and in detail anatomy, biological pathways, etc. process), a pathway, a pharmacological class, symptoms, diseases, compounds, drugs, side effects, and the like, but are not limited thereto. Multiple ohmic levels are gene level, transcription level, protein level, metabolite level, epigene level, lipid level, anatomical structure level, biological pathway level, conduction pathway level, pharmacological hierarchy level, symptom level, disease level. , Compound level, drug level, side effect level, and the like, but are not limited thereto. Here, the anatomical structure may mean a tissue, an organ, etc., and the biological pathway is a series of cellular components such as location at the level of the intracellular structure, and molecular functions extracted from gene ontology. May be an event of, and the pharmacological layer may be a pharmacological effect, a mechanism of action. And, the plurality of types of interrelationships are "interact", "participate", "covariate", "regulate", "associate", "bind" ", "upregulate", "cause", "resemble", "treat", "downregulates", "palliate", "expression (present)", "localize", "include", and "express" may be included, and identification numbers or identification symbols may be arbitrarily assigned for each type. The identification number or identification symbol for each type may be set by the user or may be automatically set. 6 shows an example in which an ohmic level is input in step S100 according to an embodiment of the present invention, and FIG. 7 shows an example in which a correlation degree type is input in step S110 according to an embodiment of the present invention. Referring to FIG. 6, a screen in which a plurality of ohmic levels can be selected may be exposed through the output unit 160, and at least some of the ohmic levels through the user interface unit 110 among the plurality of ohmic levels Can be chosen. And, referring to FIG. 7, a screen in which a plurality of types of correlations can be selected may be exposed through the output unit 160, and at least a portion of the plurality of types of correlations may be displayed through the user interface unit 110. The type of correlation can be selected.

다음으로, DB 추출부(120)는 오믹스 DB(database)로부터 단계 S100에서 선택된 적어도 일부의 오믹스 레벨에 관한 DB 및 단계 S110에서 선택된 적어도 일부의 상호 연관도 종류에 관한 DB를 추출한다(S120). 여기서, 오믹스 DB(200)는 빅데이터 DB일 수 있으며, 본 발명의 실시예에 따른 데이터 처리 장치(100) 외부의 DB일 수 있고, 누구나 접근 가능하거나 소정의 조건 하에 인증 받은 자가 접근 가능한 글로벌 공공 DB일 수 있다. 오믹스 DB(200)는 오믹스 레벨에 관한 정보 및 오믹스 레벨 내 생물학적 엔티티 간 상호 연관도에 관한 정보를 미리 저장할 수 있다. 예를 들어, 도 4에 도시된 바와 같이, 오믹스 DB(200)는 오믹스 레벨 별 DB(210) 및 상호 연관도 종류 별 DB(220)를 포함할 수 있다. 오믹스 레벨 별 DB(210)는, 예를 들어 유전자 DB, 전사 DB, 단백질 DB, 신진대사체 DB, 후성유전자 DB, 지질 DB, 해부학적 구조 DB, 생물학적 경로 DB, 전도경로 DB, 증상 DB, 질환 DB, 화합물 DB, 약물 DB 및 부작용 DB를 포함할 수 있다. 그리고, 상호 연관도 종류 별 DB(220)는 상호작용(interact) DB, 참여(participate) DB, 공변(covariate) DB, 조절(regulate) DB, 연관(associate) DB, 결합(bind) DB, 업레귤레이트(upregulate) DB, 원인(cause) DB, 유사(resemble) DB, 치료(treat) DB, 다운레귤레이트(downregulates) DB, 완화(palliate) DB, 발현(present) DB, 위치(localize) DB, 포함(include) DB 및 표출(express) DB를 포함할 수 있다. 이들 DB는 하나의 빅데이터 DB로 통합하여 관리 및 운영되거나, 분산되어 관리 및 운용될 수 있다. Next, the DB extracting unit 120 extracts a DB regarding at least some of the ohmic levels selected in step S100 and a DB regarding at least some types of correlations selected in step S110 from the omics database (S120). ). Here, the ohmics DB 200 may be a big data DB, and may be a DB outside the data processing device 100 according to an embodiment of the present invention, and anyone can access or a global network that can be accessed by an authenticated person under predetermined conditions. It can be a public DB. The ohmics DB 200 may pre-store information about an ohmic level and information about a degree of correlation between biological entities within the ohmic level. For example, as shown in FIG. 4, the ohmics DB 200 may include a DB 210 for each ohmic level and a DB 220 for each type of correlation. The DB 210 for each ohmic level is, for example, gene DB, transcription DB, protein DB, metabolite DB, epigene DB, lipid DB, anatomical structure DB, biological pathway DB, conduction pathway DB, symptom DB, It may include disease DB, compound DB, drug DB, and side effect DB. In addition, the DB 220 for each type of correlation is an interaction DB, a participation DB, a covariate DB, a regulate DB, an associate DB, a bind DB, and Upregulate DB, cause DB, resemble DB, treatment DB, downregulates DB, palliate DB, present DB, localize DB , Include DB and express DB. These DBs can be managed and operated by integrating into one big data DB, or distributed and managed and operated.

그리고, DB 추출부(120)는 단계 S120에서 추출된 적어도 일부의 오믹스 레벨에 관한 DB 및 적어도 일부의 상호 연관도 종류에 관한 DB로 이루어진 제1 매트릭스를 생성한다(S130). 여기서, 제1 매트릭스는 단계 S120에서 추출된 DB들의 집합이라 할 수 있다. 도 8은 본 발명의 한 실시예에 따라 단계 S130에서 생성된 제1 매트릭스의 예를 나타낸다. 도 8을 참조하면, 단계 S100에서 선택된 오믹스 레벨들이 가로축 및 세로축 각각에 배치되며, 가로축 및 세로축이 교차하는 지점에 단계 S110에서 선택된 상호 연관도 종류들이 표시되도록 생성될 수 있다. 예를 들어, 유전자 레벨, 단백질 레벨, 신진대사체 레벨, 해부학적 구조 레벨, 전도경로 레벨, 생물학적 경로 레벨, 화합물 레벨, 부작용 레벨, 질병 레벨, 약리학적 계층 레벨 및 증상 레벨이 제1 매트릭스의 가로축 및 세로축 각각에 배치될 수 있으며, 가로축과 세로축이 교차하는 지점에 상호 연관도 종류인 상호작용(interact, Int), 참여(participate, P), 공변(covariate, Co), 조절(regulate, Reg), 연관(associate, A), 결합(bind, B), 업레귤레이트(upregulate, U), 원인(cause, Ca), 유사(resemble, R), 치료(treat, T), 다운레귤레이트(downregulates, D), 완화(palliate, Pa), 발현(present, Pr), 위치(localize, L), 포함(include, Inc) 및 표출(express, E) 중 적어도 하나가 표시될 수 있다.In addition, the DB extraction unit 120 generates a first matrix consisting of a DB regarding at least some of the ohmic levels extracted in step S120 and a DB regarding at least some types of correlations (S130). Here, the first matrix may be referred to as a set of DBs extracted in step S120. 8 shows an example of a first matrix generated in step S130 according to an embodiment of the present invention. Referring to FIG. 8, ohmic levels selected in step S100 are disposed on each of the horizontal and vertical axes, and the types of correlations selected in step S110 may be generated to be displayed at points where the horizontal and vertical axes intersect. For example, gene level, protein level, metabolic level, anatomical structure level, conduction pathway level, biological pathway level, compound level, side effect level, disease level, pharmacological stratification level and symptom level are the horizontal axis of the first matrix. And it can be arranged on each of the vertical axis, the interaction (interact, Int), participation (participate, P), covariate (Co), regulation (regulate, Reg), which are types of correlation at the point where the horizontal axis and the vertical axis intersect. , Associate (A), bind (B), upregulate (U), cause (ca), resemble (R), treatment (T), downregulates , D), palliate (Pa), expression (present, Pr), location (localize, L), include (Inc), and at least one of expression (express, E) may be displayed.

한편, 사용자 인터페이스부(110)는 소정의 검색어를 수신한다(S140). 소정의 검색어는 사용자가 정보 탐색하기를 윈하는 검색어일 수 있고, 오믹스 레벨 별로 포함되는 복수의 생물학적 엔티티 중 하나, 예를 들어 유전자명, 단백질명, 신진대사체명, 증상명, 질환명, 화합물명, 약품명, 부작용명 중 하나를 포함할 수 있다. 도 9는 소정의 검색어가 입력되는 예를 나타낸다. 도 9를 참조하면, 출력부(160)를 통하여 소정의 검색어를 입력하기 위한 화면이 노출될 수 있으며, 사용자 인터페이스부(110)를 통하여 소정의 검색어가 입력될 수 있다. 도 9에서는 질환명을 범주로 선택하며, 소정의 검색어로 epilepsy syndrome를 입력하는 예를 나타낸다.Meanwhile, the user interface unit 110 receives a predetermined search word (S140). The predetermined search word may be a search word that the user wants to search for information, and one of a plurality of biological entities included in each ohmic level, for example, a gene name, a protein name, a metabolite name, a symptom name, a disease name, a compound It may include one of name, drug name, or side effect name. 9 shows an example in which a predetermined search word is input. Referring to FIG. 9, a screen for inputting a predetermined search word may be exposed through the output unit 160, and a predetermined search word may be input through the user interface unit 110. 9 shows an example of selecting a disease name as a category and inputting epilepsy syndrome as a predetermined search word.

다음으로, 데이터 생성부(130)는 단계 S130에서 생성한 제1 매트릭스를 이용하여 단계 S140에서 수신된 소정의 검색어와 관련된 적어도 하나의 생물학적 엔티티를 추출하며, 단계 S130에서 생성한 제1 매트릭스를 이용하여 소정의 검색어와 추출한 생물학적 엔티티 간 상호 연관도를 추출한다(S150). 여기서, 생물학적 엔티티는 유전자, 단백질, 신진대사체, 증상, 질환, 화합물 및 약품 중 적어도 하나를 포함할 수 있으며, 소정의 검색어가 속한 오믹스 레벨은 생물학적 엔티티가 속한 오믹스 레벨과 동일할 수도 있고, 상이할 수도 있다. 예를 들어, 도 9에서 예시한 바와 같이, 소정의 검색어가 질환명인 epilepsy syndrome인 경우, 단계 S150에서 추출되는 생물학적 엔티티는 epilepsy syndrome과 연관된 유전자, epilepsy syndrome과 연관된 단백질, epilepsy syndrome과 연관된 신진대사체, epilepsy syndrome과 연관된 증상, epilepsy syndrome과 연관된 질환, epilepsy syndrome과 연관된 화합물 및 epilepsy syndrome과 연관된 약품 중 적어도 하나를 포함할 수 있다. 이를 위하여, 데이터 생성부(130)는 단계 S130에서 제1 매트릭스를 구성하는 유전자 DB, 단백질 DB, 신진대사체 DB, 해부학적 구조 DB, 전도경로 DB, 생물학적 경로 DB, 화합물 DB, 부작용 DB, 질병 DB, 약리학적 계층 DB 및 증상 DB 각각으로부터 epilepsy syndrome과 연관된 생물학적 엔티티를 추출할 수 있다. 이에 따라, 단계 S150에서 추출되는 생물학적 엔티티는 epilepsy syndrome과 연관된 복수의 유전자, epilepsy syndrome과 연관된 복수의 단백질, epilepsy syndrome과 연관된 복수의 신진대사체, epilepsy syndrome과 연관된 복수의 증상, epilepsy syndrome과 연관된 복수의 질환, epilepsy syndrome과 연관된 복수의 화합물 및 epilepsy syndrome과 연관된 복수의 약품 중 적어도 하나를 포함할 수도 있다.Next, the data generation unit 130 extracts at least one biological entity related to the predetermined search word received in step S140 using the first matrix generated in step S130, and uses the first matrix generated in step S130. Thus, the correlation between the predetermined search word and the extracted biological entity is extracted (S150). Here, the biological entity may include at least one of genes, proteins, metabolites, symptoms, diseases, compounds, and drugs, and the ohmic level to which the predetermined search word belongs may be the same as the ohmic level to which the biological entity belongs. , It may be different. For example, as illustrated in FIG. 9, when a predetermined search word is epilepsy syndrome, which is a disease name, the biological entity extracted in step S150 is a gene associated with epilepsy syndrome, a protein associated with epilepsy syndrome, and a metabolite associated with epilepsy syndrome. , symptoms associated with epilepsy syndrome, diseases associated with epilepsy syndrome, compounds associated with epilepsy syndrome, and medications associated with epilepsy syndrome. To this end, the data generation unit 130 comprises a gene DB, a protein DB, a metabolite DB, an anatomical structure DB, a conduction path DB, a biological path DB, a compound DB, a side effect DB, a disease constituting the first matrix in step S130. Biological entities related to epilepsy syndrome can be extracted from each of the DB, pharmacological layer DB, and symptom DB. Accordingly, the biological entities extracted in step S150 are multiple genes associated with epilepsy syndrome, multiple proteins associated with epilepsy syndrome, multiple metabolites associated with epilepsy syndrome, multiple symptoms associated with epilepsy syndrome, multiple symptoms associated with epilepsy syndrome. It may include at least one of a plurality of compounds associated with the disease, epilepsy syndrome, and a plurality of drugs associated with epilepsy syndrome.

이와 같이, 단계 S130의 제1 매트릭스를 이용하여 소정의 검색어와 연관된 생물학적 엔티티 및 상호 연관도를 추출할 경우, 탐색되어야 할 DB의 양을 현저히 줄일 수 있으며, 이에 따라 정보를 탐색하기 위한 시간 및 비용을 줄일 수 있으며, 사용자가 원하는 정보만을 추출하는 것이 가능하다. In this way, when extracting biological entities and correlations associated with a predetermined search word using the first matrix of step S130, the amount of DB to be searched can be significantly reduced, and accordingly, time and cost for searching information Can be reduced, and it is possible to extract only the information the user wants.

이때, 데이터 생성부(130)가 소정의 검색어와 관련된 적어도 하나의 생물학적 엔티티 및 생물학적 엔티티 간 상호 연관도를 추출하기 위하여, 데이터 생성부(130)는 기계 학습을 포함하는 인공지능 기술에 기반하며, 자연어 처리 알고리즘을 이용할 수 있다. 여기서, 자연어 처리는 인간이 발화하는 언어 현상을 기계적으로 분석하여 컴퓨터가 이해할 수 있는 형태로 만들고, 컴퓨터가 이해할 수 있는 형태를 다시 인간이 이해할 수 있는 언어로 표현하는 제반 기술을 의미한다. 이를 위하여, 오믹스 DB(200)는 생물학적 엔티티 종류 별 언어 기반 DB일 수 있으며, 기계 학습된 결과 및 피드백 결과를 반영한 정보를 포함할 수 있다. In this case, in order for the data generating unit 130 to extract a correlation between at least one biological entity and biological entities related to a predetermined search word, the data generating unit 130 is based on artificial intelligence technology including machine learning, Natural language processing algorithms can be used. Here, natural language processing refers to various technologies that mechanically analyze language phenomena spoken by humans to make them into a form that can be understood by a computer, and express the form that can be understood by a computer in a language that can be understood by humans. To this end, the ohmics DB 200 may be a language-based DB for each biological entity type, and may include information reflecting a machine learning result and a feedback result.

또는, 데이터 생성부(130)가 소정의 검색어와 관련된 적어도 하나의 생물학적 엔티티 및 생물학적 엔티티 간 상호 연관도를 추출하기 위하여, 데이터 생성부(130)는 기계 학습을 포함하는 인공지능 기술에 기반하며, 심층 신경망 알고리즘을 이용할 수도 있다. 여기서, 심층 신경망은 입력층과 출력층 사이의 여러 개의 은닉층들로 이루어진 인공 신경망(artificial neural network)으로, 분류, 예측, 이미지 인식, 문자 인식 등에 사용되는 제반 기술을 의미한다. 이를 위하여, 오믹스 DB(200)는 생물학적 엔티티 종류 별 이미지 기반 DB일 수 있으며, 기계 학습된 결과 및 피드백 결과를 반영한 정보를 포함할 수 있다.Alternatively, in order for the data generating unit 130 to extract a correlation between at least one biological entity and biological entities related to a predetermined search word, the data generating unit 130 is based on artificial intelligence technology including machine learning, Deep neural network algorithms can also be used. Here, the deep neural network is an artificial neural network consisting of several hidden layers between the input layer and the output layer, and refers to all technologies used for classification, prediction, image recognition, and character recognition. To this end, the ohmics DB 200 may be an image-based DB for each biological entity type, and may include information reflecting a machine learning result and a feedback result.

도 10은 단계 S150에서 추출된 생물학적 엔티티 및 이들 간 상호 연관도를 나타내는 제2 매트릭스의 일 예의 일부이다. 도 10을 참조하면, 제2 매트릭스는 복수의 생물학적 엔티티가 오믹스 레벨의 계층 구조에 따라 순차적으로 가로축 및 세로축 각각에 배치되며, 가로축 및 세로축이 교차하는 지점에 복수의 생물학적 엔티티 간 상호 연관도가 표시되는 방법으로 생성될 수 있다. 예를 들어, 단계 S100에서 선택된 오믹스 레벨이 유전자 레벨, 전도경로 레벨, 단백질 레벨, 신진대사체 레벨, 질병 레벨, 부작용 레벨 및 화합물 레벨이고, 단계 S140에서 입력된 소정의 검색어가 화합물 중 하나인 bupropion인 경우, 단계 S150에서는 bupropion과 연관된 복수의 유전자(gene), 복수의 전도경로(pathway), 복수의 단백질(protein), 복수의 신진대사체(metabolite), 복수의 질병(disease), 복수의 부작용(side effect), 복수의 화합물(compound)이 생물학적 엔티티들로 추출되며, 이들 생물학적 엔티티들이 오믹스 레벨의 계층 구조에 따라 순차적으로 가로축 및 세로축 각각에 배치됨을 알 수 있다. 그리고, 가로축과 세로축이 교차하는 지점에 생물학적 엔티티 간 상호 연관도가 서로 다른 색깔로 표시됨을 알 수 있다. 10 is a part of an example of a second matrix showing a biological entity extracted in step S150 and a degree of correlation therebetween. Referring to FIG. 10, in the second matrix, a plurality of biological entities are sequentially disposed on each of the horizontal and vertical axes according to the hierarchical structure of the ohmic level, and the correlation between the plurality of biological entities is at a point where the horizontal and vertical axes intersect. It can be created in the way it is displayed. For example, the ohmic level selected in step S100 is a gene level, a conduction pathway level, a protein level, a metabolite level, a disease level, a side effect level, and a compound level, and the predetermined search word input in step S140 is one of the compounds. In the case of bupropion, in step S150, a plurality of genes, a plurality of conduction pathways, a plurality of proteins, a plurality of metabolites, a plurality of diseases, and a plurality of It can be seen that side effects, a plurality of compounds, are extracted as biological entities, and these biological entities are sequentially arranged on the horizontal axis and the vertical axis according to the hierarchical structure of the ohmic level. In addition, it can be seen that the correlation between biological entities is displayed in different colors at the point where the horizontal axis and the vertical axis intersect.

이러한 제2 매트릭스의 형태는 예시적인 것으로, 이로 제한되는 것은 아니며, 다양한 형태로 변형될 수 있다. The shape of the second matrix is exemplary, and is not limited thereto, and may be modified in various shapes.

다음으로, 데이터 생성부(130)는 단계 S150에서 추출한 결과를 이용하여 멀티오믹스 네트워크를 생성한다(S160). 도 11은 본 발명의 실시예에 따라 생성된 멀티오믹스 네트워크의 일 예이다. 여기서, 멀티오믹스 네트워크는 단계 S140에서 수신된 소정의 검색어와 단계 S150에서 추출된 생물학적 엔티티들을 노드로 하며, 단계 S150에서 추출한 소정의 검색어와 생물학적 엔티티 간의 상호 연관도 또는 생물학적 엔티티들 간의 상호 연관도에 따라 연결선을 이용하여 복수의 노드를 연결한 형태일 수 있다. 멀티오믹스 네트워크 내 노드 중 하나인 노드 A로부터 다른 하나인 노드 B로 가는 경로는 다양할 수 있으며, 가능한 모든 경로가 연결선에 의하여 연결될 수 있다. 여기서, 멀티오믹스 네트워크는 생물학적 엔티티 간의 상호 연관도로 이루어진 네트워크로, 생물학적 네트워크와 혼용될 수 있다. 멀티오믹스 네트워크에서, 노드가 되는 복수의 생물학적 엔티티 중 일부는 나머지 생물학적 엔티티와 서로 다른 오믹스 레벨에 포함될 수 있다. 즉, 도 11에 예시된 바와 같이, 멀티오믹스 네트워크는 유전자 레벨, 전도경로 레벨, 단백질 레벨, 신진대사체 레벨, 화합물 레벨, 부작용 레벨 및 질병 레벨과 같은 서로 다른 오믹스 레벨에 포함되는 복수의 생물학적 엔티티를 노드로 하며, 유전자 레벨에 포함된 복수의 생물학적 엔티티 중 일부는 단백질 레벨에 포함된 복수의 생물학적 엔티티 중 일부와 연결되거나 전도경로 레벨에 포함된 복수의 생물학적 엔티티 중 일부와 연결될 수 있다. 이와 마찬가지로, 화합물 레벨에 포함된 복수의 생물학적 엔티티 중 일부는 단백질 레벨에 포함된 복수의 생물학적 엔티티 중 일부와 연결되거나, 전도경로 레벨에 포함된 복수의 생물학적 엔티티 중 일부와 연결되거나, 부작용 레벨에 포함된 복수의 생물학적 엔티티 중 일부와 연결될 수도 있다. Next, the data generation unit 130 generates a multiomics network by using the result extracted in step S150 (S160). 11 is an example of a multiomics network created according to an embodiment of the present invention. Here, the multiomics network uses a predetermined search word received in step S140 and biological entities extracted in step S150 as nodes, and a degree of correlation between a predetermined search word extracted in step S150 and biological entities or a degree of correlation between biological entities According to the present invention, a plurality of nodes may be connected using a connection line. Paths from Node A, which is one of the nodes in the multiomics network, to Node B, which is the other, may vary, and all possible paths may be connected by connection lines. Here, the multiomics network is a network consisting of a degree of interrelationship between biological entities and may be mixed with a biological network. In the multiomics network, some of the plurality of biological entities that become nodes may be included in different levels of omics from the remaining biological entities. That is, as illustrated in FIG. 11, the multiomics network includes a plurality of different ohmic levels such as gene level, conduction pathway level, protein level, metabolite level, compound level, side effect level, and disease level. The biological entity is a node, and some of the plurality of biological entities included in the gene level may be connected to some of the plurality of biological entities included in the protein level or may be connected to some of the plurality of biological entities included in the conduction pathway level. Likewise, some of the plurality of biological entities included in the compound level are linked to some of the plurality of biological entities included in the protein level, some of the plurality of biological entities included in the conduction pathway level, or included in the side effect level. It may be connected to some of the plurality of biological entities.

이와 같이, 본 발명의 실시예에 따라, 복수의 오믹스 레벨 중 일부 및 복수의 상호연관도 종류 중 일부를 사용자 인터페이스부(110)를 통하여 입력 받을 경우, 해당하는 오믹스 레벨에 관한 DB 및 상호 연관도 종류에 관한 DB가 자동으로 추출되므로, 데이터 처리 장치(100)가 탐색 해야 할 정보의 양이 현저히 줄어들 수 있으며, 이에 따라 사용자가 원하는 오믹스 레벨 및 상호 연관도 종류로 구성된 멀티오믹스 네트워크를 얻을 수 있다. 또한, 본 발명의 실시예에 따라, 복수의 오믹스 레벨 중 일부 및 복수의 상호연관도 종류 중 일부를 사용자 인터페이스부(110)를 통하여 입력 받을 경우, 사용자가 원하는 오믹스 레벨 및 상호 연관도 종류로 구성된 멀티오믹스 네트워크를 얻을 수 있으며, 이에 따라 사용자가 원하는 오믹스 레벨 내에서 소정의 검색어와 연관된 복수의 생물학적 엔티티 간의 계층 구조를 용이하게 파악할 수도 있다.As described above, according to an embodiment of the present invention, when some of the plurality of ohmic levels and some of the types of the plurality of correlations are input through the user interface unit 110, the DB and the corresponding ohmic level are Since the DB related to the type of correlation is automatically extracted, the amount of information to be searched by the data processing device 100 can be significantly reduced, and accordingly, a multi-omics network composed of the desired ohmic level and the correlation type Can be obtained. In addition, according to an embodiment of the present invention, when some of the plurality of ohmic levels and some of the plurality of types of correlation are input through the user interface unit 110, the user's desired ohmic level and the type of correlation are received. A multi-omics network composed of can be obtained, and accordingly, a hierarchical structure between a plurality of biological entities associated with a predetermined search word within a desired ohmic level of a user can be easily grasped.

다음으로, 데이터 정제부(150)는 단계 S160에서 생성한 멀티오믹스 네트워크 내의 일부 경로를 추출하며(S170), 출력부(160)는 단계 S170에서 추출된 일부 경로를 표시한다(S180). 여기서, 일부 경로는 멀티오믹스 네트워크 내 생물학적 엔티티들로부터 추출된 일부 노드를 연결하는 경로일 수 있으며, 이는 멀티오믹스 내 생물학적 엔티티들을 연결하는 다수의 경로 중 소정의 검색어와 상대적으로 연관도가 높은 것으로 판단되는 경로 또는 상대적으로 중요도가 높은 것으로 판단되는 경로일 수 있다. 도 12는 본 발명의 한 실시예에 따라 단계 S180에서 표시된 일부 경로의 예를 나타낸다. 도 12를 참조하면, 멀티오믹스 내 서로 다른 오믹스 레벨 간 연결 관계를 가지는 일부 경로가 계층 구조로 표시될 수 있다. 이에 따르면, 서로 다른 오믹스 레벨에 포함되는 복수의 생물학적 엔티티 간 상호 연관도를 직관적으로 파악할 수 있다. Next, the data refiner 150 extracts some paths in the multiomics network generated in step S160 (S170), and the output unit 160 displays some paths extracted in step S170 (S180). Here, some paths may be paths that connect some nodes extracted from biological entities in the multiomics network, which are relatively high related to a predetermined search word among a plurality of paths that connect biological entities in the multiomics network. It may be a path determined to be of high importance or a path determined to be of relatively high importance. 12 shows an example of some routes displayed in step S180 according to an embodiment of the present invention. Referring to FIG. 12, some paths having a connection relationship between different ohmic levels in the multiomics may be displayed in a hierarchical structure. Accordingly, it is possible to intuitively grasp the degree of correlation between a plurality of biological entities included in different ohmic levels.

한편, 단계 S170과 같이 멀티오믹스 네트워크 내 일부 경로를 추출하기 위하여, 데이터 처리부(140)는 멀티오믹스 네트워크의 그래프 이론 지표를 생성할 수 있으며, 데이터 정제부(150)는 데이터 처리부(140)에서 생성된 그래프 이론 지표의 측면에서 상관성이 높은 멀티오믹스 네트워크 내 일부 노드를 추출할 수 있다. Meanwhile, in order to extract some paths in the multi-omics network as in step S170, the data processing unit 140 may generate a graph theory index of the multi-omics network, and the data refiner 150 is the data processing unit 140 In terms of the graph theory index generated in, some nodes in the multiomics network with high correlation can be extracted.

이를 위하여, 여기서, 그래프 이론 지표는 멀티오믹스 네트워크를 구성하는 복수의 노드에 대한 노드 간 최단 경로, 노드 별 클러스터링 계수, 노드 별 센트럴리티 계수 및 노드 별 허브 성격 중 적어도 하나를 포함할 수 있다. To this end, the graph theory index may include at least one of a shortest path between nodes for a plurality of nodes constituting a multiomics network, a clustering coefficient for each node, a centrality coefficient for each node, and a hub characteristic for each node.

노드 간 최단 경로는 멀티오믹스 네트워크에서 노드 A로부터 노드 B로 가는 수 많은 경로 중 가장 짧은 경로를 의미할 수 있다. 이하, 생물학적 엔티티 중 하나인 노드 A와 생물학적 엔티티 중 다른 하나인 노드 B 간 최단 경로를 산출하는 방법을 설명하고자 한다. The shortest path between nodes may mean the shortest path among numerous paths from node A to node B in a multiomics network. Hereinafter, a method of calculating the shortest path between Node A as one of the biological entities and Node B as the other one of the biological entities will be described.

노드 A로부터 노드 B로 가는 경로는 다양하며, 노드 A와 노드 B가 직접 연결되거나, 노드 A와 노드 B 간 각 경로 상에 적어도 하나의 중간 노드가 존재할 수도 있다.There are various paths from node A to node B, and node A and node B may be directly connected, or at least one intermediate node may exist on each path between node A and node B.

노드 A와 노드 B 간 최단 경로는 경로 별 중간 노드의 개수를 이용하여 얻을 수 있다. 예를 들어, 노드 A와 노드 B 간 다양한 경로 중 중간 노드의 개수가 적을수록 짧은 경로인 것으로 판단할 수 있다. The shortest path between node A and node B can be obtained using the number of intermediate nodes per path. For example, among various paths between node A and node B, as the number of intermediate nodes decreases, it may be determined that the path is shorter.

또는, 노드 A와 노드 B 간 최단 경로는 경로 별 중간 노드의 개수를 이용하여 얻되, 연결선 별 상호 연관성의 종류를 반영할 수도 있다. 즉, 상호 연관성의 범주 별로 가중치를 다르게 설정하며, 경로 별로 존재하는 상호 연관성에 가중치를 적용할 수도 있다. Alternatively, the shortest path between node A and node B is obtained using the number of intermediate nodes for each path, but may reflect the type of interrelationship for each connection line. That is, weights are set differently for each category of correlation, and weights may be applied to correlations that exist for each path.

수학식 1은 노드 간 최단 경로를 산출하는 식의 한 예이다. Equation 1 is an example of an equation for calculating the shortest path between nodes.

Figure 112019117700325-pat00001
Figure 112019117700325-pat00001

여기서, w st 는 두 노드 s와 t간의 상호 연관성 지표이며, f는 가중치 변환 함수이고,

Figure 112019117700325-pat00002
는 두 노드 i와 j 사이의 최단 경로이다. 경로 별로 수학식 1의 값을 구하며, 가장 낮은 값 또는 가장 높은 값을 가지는 경로가 최단 경로로 선택될 수 있다. Where w st is an index of correlation between two nodes s and t, f is a weight transformation function,
Figure 112019117700325-pat00002
Is the shortest path between two nodes i and j. A value of Equation 1 is obtained for each path, and a path having the lowest value or the highest value may be selected as the shortest path.

다음으로, 노드 별 클러스터링 계수(clustering coefficient)는 수학식 2 및 수학식 3에 의하여 계산될 수 있다. 여기서, 클러스터링 계수는 집단화 계수라고 지칭될 수도 있으며, 특정 노드와 이웃한 노드들이 서로 연결되어 있을 확률 또는 특정 노드와 이웃한 노드들 간의 연결 밀도를 의미할 수 있다. Next, a clustering coefficient for each node may be calculated by Equation 2 and Equation 3. Here, the clustering coefficient may be referred to as a grouping coefficient, and may mean a probability that a specific node and neighboring nodes are connected to each other or a connection density between a specific node and neighboring nodes.

Figure 112019117700325-pat00003
Figure 112019117700325-pat00003

여기서, t w i 는 멀티오믹스 네트워크의 각 노드 i 주변에 만들어지는 그래프 내의 삼각형의 개수를 의미하며, N은 멀티오믹스 네트워크의 전체 노드 집합이며, w ij 는 두 노드 i와 j간 상호 연관성 지표이고, w ih 는 두 노드 i와 h간 상호 연관성 지표이며, w jh 는 두 노드 j와 h간 상호 연관성 지표이다. Here, t w i means the number of triangles in the graph created around each node i of the multiomics network, N is the total node set of the multiomics network, and w ij is the correlation between two nodes i and j. Is an index, w ih is a correlation index between two nodes i and h, and w jh is a correlation index between two nodes j and h.

Figure 112019117700325-pat00004
Figure 112019117700325-pat00004

여기서, Cw는 클러스터링 계수를 의미하며, t w i 는 멀티오믹스 네트워크의 각 노드 i 주변에 만들어지는 그래프 내의 삼각형의 개수고, ki는 노드 i의 degree, 즉 노드 i의 멀티오믹스 네트워크 내 연결성 정도 값을 의미한다. Here, C w means the clustering coefficient, t w i is the number of triangles in the graph created around each node i of the multiomics network, and k i is the degree of node i, that is, the multiomics network of node i. It means the value of my degree of connectivity.

다음으로, 노드 별 센트렐리티(centrality) 지표는 특정 노드가 허브의 기능을 가지는지에 대한 지표이며, Dnodal(nodal degree)값, BC(betweenness centrality)값, Enodal(nodal efficiency) 값 등에 의하여 나타낼 수 있다. 여기서, Dnodal값은 각 노드의 멀티오믹스 네트워크 내 연결성 정도 값, 즉, 멀티오믹스 네트워크 내에서 노드 i가 얼마나 강한 또는 약한 연결성을 가지고 있는지를 나타내는 지표이고, Enodal값은 노드 i의 지식 네트워크 내 효율성 정도 값, 즉 수학식 1의 최단 경로의 역수로 표현된 값으로, 경로가 짧을수록 높은 효율성을 가지고, BC 값은 멀티오믹스 네트워크 내 노드 간 경로에서 노드 i가 지름길이 되는 횟수를 나타내는 지표이다. Next, the centrality index for each node is an index for whether a specific node has the function of a hub.D nodal (nodal degree) value, BC (betweenness centrality) value, E nodal (nodal efficiency) value, etc. Can be represented by Here, the value of D nodal is a value of the degree of connectivity within the multiomics network of each node, that is, an index indicating how strong or weak node i has connectivity in the multiomics network, and the value of E nodal is the knowledge of node i. A value of the degree of efficiency within the network, that is, a value expressed as the reciprocal of the shortest path in Equation 1, and the shorter the path, the higher the efficiency. It is an indicator.

먼저, Dnodal값은 수학식 4에 의하여 계산될 수 있다. First, the value of D nodal can be calculated by Equation 4.

Figure 112019117700325-pat00005
Figure 112019117700325-pat00005

여기서, w ij 는 두 노드 i와 j간 상호 연관성 지표이고, N은 멀티오믹스 네트워크의 전체 노드 집합이다.Here, w ij is a correlation index between two nodes i and j, and N is a set of all nodes of the multiomics network.

그리고, Enodal값은 수학식 5에 의하여 계산될 수 있다. And, the E nodal value may be calculated by Equation 5.

Figure 112019117700325-pat00006
Figure 112019117700325-pat00006

여기서, N은 멀티오믹스 네트워크의 전체 노드 집합이고,

Figure 112019117700325-pat00007
Figure 112019117700325-pat00008
는 수학식 1에서 계산한 최단 경로를 나타내는 값이다.Here, N is the set of all nodes of the multiomics network,
Figure 112019117700325-pat00007
Figure 112019117700325-pat00008
Is a value representing the shortest path calculated in Equation 1.

다음으로, Betweenness centrality(BC)는 수학식 6에 의하여 계산될 수 있다. Next, Betweenness centrality (BC) can be calculated by Equation 6.

Figure 112019117700325-pat00009
Figure 112019117700325-pat00009

여기서,

Figure 112019117700325-pat00010
는 노드 h j 사이의 최단 거리를 의미하고,
Figure 112019117700325-pat00011
는 노드 i를 통과하는 h j 사이의 최단 거리를 의미한다. here,
Figure 112019117700325-pat00010
Is the shortest distance between nodes h and j ,
Figure 112019117700325-pat00011
Denotes the shortest distance between h and j passing through node i .

다음으로, 소정의 노드가 허브의 기능을 가지는 것으로 판단되는 경우, 허브의 성격을 분류한다. 이때, 허브의 성격은 kinless 허브, connector 허브, provincial 허브 등으로 분류될 수 있다. 여기서, kinless 허브는 영향력이 가장 높은 허브, 즉 많은 모듈 내 노드들과 연결된 허브를 의미하고, connector 허브는 멀티오믹스 네트워크 내 모듈을 연결하는 성격의 허브를 의미하며, provincial 허브는 주로 모듈 내에서 높은 영향력을 가지는 허브를 의미한다. 여기서, 모듈(module)은 전체 멀티오믹스 네트워크를 세분화한 구조적 구성 그룹일 수 있다.Next, when it is determined that the predetermined node has the function of the hub, the characteristics of the hub are classified. At this time, the nature of the hub can be classified into a kinless hub, a connector hub, and a provincial hub. Here, a kinless hub refers to a hub with the highest influence, that is, a hub connected to nodes in many modules, a connector hub refers to a hub that connects modules within a multiomics network, and a provincial hub is mainly within a module. It means a hub with high influence. Here, the module may be a structural configuration group in which the entire multiomics network is subdivided.

이를 위하여, 멀티오믹스 네트워크 내의 모듈 지수(Modularity)는 수학식 7과 같이 계산될 수 있다. 모듈 지수(modularity)는 전체 멀티오믹스 네트워크의 구성 모듈 종류 수를 의미한다.To this end, the module index (Modularity) in the multiomics network may be calculated as in Equation 7. The module index (modularity) refers to the number of module types in the entire multiomics network.

Figure 112019117700325-pat00012
Figure 112019117700325-pat00012

여기서,

Figure 112019117700325-pat00013
는 노드 i에서의 가중치 합을 의미하고,
Figure 112019117700325-pat00014
는 가중치 합을 의미한다. δmi,mj는 크로네커의 델타(kronecker delta)이고, mi=mj인 경우 1이고, 나머지인 경우 0이다. here,
Figure 112019117700325-pat00013
Means the sum of weights at node i ,
Figure 112019117700325-pat00014
Means the sum of weights. δ mi,mj is the kronecker delta, 1 when mi=mj, and 0 when the remainder.

다음으로, 멀티오믹스 네트워크 모듈의 참여지수(participation coefficient, PC)는 수학식 8과 같이 계산될 수 있다.Next, the participation coefficient (PC) of the multiomics network module may be calculated as shown in Equation 8.

Figure 112019117700325-pat00015
Figure 112019117700325-pat00015

여기서, M은 모듈의 집합을 의미하고,

Figure 112019117700325-pat00016
는 모듈 m 내에서 노드 i와 나머지 모든 노드 간의 연결 수를 의미하고, 모듈 m은 전체 멀티오믹스 네트워크를 세분화한 구조적 구성 그룹을 의미한다.Here, M means a set of modules,
Figure 112019117700325-pat00016
Is in the module m means the node i and the number of connections between all other nodes, modules and m is the mean structural group a granular mix the entire multi-O network.

그리고, 멀티오믹스 네트워크 모듈의 z스코어(within-module degree)는 수학식 9와 같이 계산될 수 있다.In addition, a z score (within-module degree) of the multiomics network module may be calculated as in Equation 9.

Figure 112019117700325-pat00017
Figure 112019117700325-pat00017

여기서, mi는 모듈 m 내의 노드 i를 의미하고,

Figure 112019117700325-pat00018
는 노드 i의 모듈 m 내에서의 연결 정도(degree)를 의미하며,
Figure 112019117700325-pat00019
Figure 112019117700325-pat00020
는 각각 모듈 m내의 연결 정도 분포(degree distribution)의 평균과 표준 편차를 의미한다.Here, m and i denotes the node i in the module m,
Figure 112019117700325-pat00018
Means the degree of connection in module m of node i ,
Figure 112019117700325-pat00019
Figure 112019117700325-pat00020
Denotes the mean and standard deviation of the degree distribution in module m , respectively.

이상의 수학식 9의 지표 계산을 통해 각 노드가 모듈 내에서 허브인지 아닌지를 구분할 수 있다. 예를 들어, 다음과 같이, 멀티오믹스 네트워크 모듈의 Z 스코어가 2.5 이상인 경우 허브인 것으로 판정될 수 있다.It is possible to distinguish whether each node is a hub in the module through the calculation of the index of Equation 9 above. For example, as follows, when the Z score of the multiomics network module is 2.5 or higher, it may be determined as a hub.

1.within-module z-score = 2.5: 허브 1.within-module z-score = 2.5: hub

2. within-module z-score < 2.5: 허브 아님 2. within-module z-score <2.5: not hub

또한, 노드가 모듈 내 허브인 것으로 판정될 경우, 수학식 8의 지표 계산을 통해 다음과 같이 허브의 종류를 분류할 수 있으며, PC에 따라 허브의 종류를 구분하는 일례는 다음과 같다.In addition, when it is determined that the node is a hub in the module, the type of the hub can be classified as follows through the calculation of the index of Equation 8, and an example of the type of the hub according to the PC is as follows.

1. Provincial 허브: PC =0.301.Provincial Hub: PC =0.30

2. Connector 허브: 0.3 < PC =0.752. Connector Hub: 0.3 <PC =0.75

3. Kinless 허브: PC > 0.753. Kinless Hub: PC> 0.75

이때, 단계 S170에서 추출되는 일부 경로를 구성하는 노드는 단계 S160의 멀티오믹스 네트워크를 구성하는 복수의 노드 중 노드 간 최단 경로에 대한 지표값, 노드 별 클러스터링 계수에 대한 지표값 및 노드 별 센트럴리티 계수에 대한 지표값 중 적어도 일부가 임계 값 이상인 일부 노드일 수 있다. 즉, 단계 S170에서 추출되는 일부 경로는 멀티오믹스 네트워크를 구성하는 복수의 노드 중에서 노드 간 최단 경로에 대한 지표값, 노드 별 클러스터링 계수에 대한 지표값 및 노드 별 센트럴리티 계수에 대한 지표값 중 적어도 일부가 임계 값 미만인 노드를 삭제하고, 삭제된 노드에 연관된 연결을 삭제하는 방법으로 생성될 수 있다.At this time, the nodes constituting some paths extracted in step S170 are the index values for the shortest path between nodes among the plurality of nodes constituting the multiomics network in step S160, the index values for the clustering coefficient for each node, and the centrality for each node. At least some of the index values for the coefficient may be some nodes having a threshold value or more. That is, some of the paths extracted in step S170 are at least one of an index value for the shortest path between nodes, an index value for a clustering coefficient for each node, and an index value for a centrality coefficient for each node among a plurality of nodes constituting the multiomics network. It may be created by deleting a node whose part is less than the threshold value and deleting a connection associated with the deleted node.

여기서, 임계 값과 비교되는 그래프 이론 지표는 노드 간 최단 경로에 대한 지표값, 노드 별 클러스터링 계수에 대한 지표값, 노드 별 센트럴리티 계수에 대한 지표값 각각일 수 있다. 또는, 임계 값과 비교되는 그래프 이론 지표는 노드 간 최단 경로에 대한 지표값, 노드 별 클러스터링 계수에 대한 지표값, 노드 별 센트럴리티 계수에 대한 지표값 중 적어도 두 개를 통합하여 산출된 값일 수 있다. Here, the graph theory index compared with the threshold value may be an index value for a shortest path between nodes, an index value for a clustering coefficient for each node, and an index value for a centrality coefficient for each node. Alternatively, the graph theory index compared to the threshold value may be a value calculated by integrating at least two of an index value for a shortest path between nodes, an index value for a clustering coefficient for each node, and an index value for a centrality coefficient for each node. .

이때, 노드 간 최단 경로에 대한 지표값, 노드 별 클러스터링 계수에 대한 지표값 및 노드 별 센트럴리티 계수에 대한 지표값 중 적어도 하나는 노드 별 표준 점수로 계산될 수 있으며, 계산된 표준 점수가 임계 값과 비교될 수 있다. At this time, at least one of the indicator value for the shortest path between nodes, the indicator value for the clustering coefficient for each node, and the indicator value for the centrality coefficient for each node may be calculated as a standard score for each node, and the calculated standard score is a threshold value. Can be compared to

여기서, 표준 점수는 z 스코어일 수 있으며, 임계 값은 95%의 유의성을 의미할 수 있다. Here, the standard score may be a z score, and the threshold value may mean 95% significance.

Z 스코어는 수학식 10과 같이 계산될 수 있다. The Z score can be calculated as in Equation 10.

Figure 112019117700325-pat00021
Figure 112019117700325-pat00021

여기서, z는 z 스코어이고, X는 멀티오믹스 네트워크 내 특정 노드에 대한 소정의 그래프 이론 지표의 지표값이며, mean(x)는 멀티오믹스 네트워크 내 복수의 노드에 대한 소정의 그래프 이론 지표의 평균 지표값이고, SE(x)는 멀티오믹스 네트워크 내 소정의 그래프 이론 지표의 지표값의 표준 에러이다. 여기서,

Figure 112019117700325-pat00022
로 나타낼 수 있으며, σ는 표준 편차이고, n은 멀티오믹스 네트워크를 구성하는 복수의 노드의 개수이다. Here, z is a z score, X is an index value of a predetermined graph theory index for a specific node in a multiomics network, and mean(x) is a predetermined graph theory index for a plurality of nodes in a multiomics network. It is the average index value, and SE(x) is the standard error of the index value of a given graph theory index in the multiomics network. here,
Figure 112019117700325-pat00022
It can be expressed as, σ is the standard deviation, and n is the number of nodes constituting the multiomics network.

즉, z 스코어는 멀티오믹스 네트워크를 구성하는 각 노드에 대한 소정의 그래프 이론 지표의 지표값과 멀티오믹스 네트워크를 구성하는 복수의 노드에 대한 소정의 그래프 이론 지표의 평균 지표값 간의 차를 표준 에러로 나눈 값일 수 있다. That is, the z-score is the standard difference between the index value of a predetermined graph theory index for each node constituting the multiomics network and the average index value of a predetermined graph theory index for a plurality of nodes constituting the multiomics network. It can be a value divided by the error.

이때, z 스코어는 퍼뮤테이션 테스트(permutation test)를 통하여 계산될 수 있다. 퍼뮤테이션 테스트는 멀티오믹스 네트워크를 구성하는 전체 연결선을 임의로 섞은 다음, 각 노드에 대해 z 스코어를 계산하는 방법으로 행해질 수 있다. 이때, 임의로 섞는 횟수는 1000회 이상일 수 있다.In this case, the z score may be calculated through a permutation test. The permutation test may be performed by randomly mixing all the connecting lines constituting the multiomics network and then calculating a z score for each node. At this time, the number of random mixing may be 1000 or more.

또는, 단계 S170에서 추출되는 일부 경로를 구성하는 노드는 멀티오믹스 네트워크를 구성하는 복수의 노드 중에서 노드 별 허브 성격에 대한 지표 값을 이용하여 추출한 일부 노드일 수도 있다. 즉, 단계 S170에서 추출되는 일부 경로를 구성하는 노드는 수학식 9의 지표 계산을 통해 모듈 내 허브인 것으로 판정된 노드, 바람직하게는 kinless 허브, connector 허브 및 provincial 허브 중 하나로 분류된 노드, 더욱 바람직하게는 kinless 허브 및 connector 허브 중 하나로 분류된 노드, 더욱 바람직하게는 kinless 허브로 분류된 노드일 수 있다. Alternatively, the nodes constituting some paths extracted in step S170 may be some nodes extracted by using an index value for the hub characteristic for each node from among a plurality of nodes constituting the multiomics network. That is, the node constituting some paths extracted in step S170 is a node determined to be a hub within the module through the index calculation of Equation 9, preferably a node classified as one of a kinless hub, a connector hub, and a provincial hub, more preferably For example, it may be a node classified as one of a kinless hub and a connector hub, more preferably a node classified as a kinless hub.

한편, 본 발명의 실시예에 따른 데이터 처리 장치(100)는 데이터 저장부(170)를 포함할 수도 있다. 데이터 저장부(170)는 데이터 생성부(130), 데이터 처리부(140) 및 데이터 정제부(150)와 연결될 수 있으며, 데이터 생성부(130), 데이터 처리부(140) 및 데이터 정제부(150)로부터 산출된 결과를 저장할 수 있다. 이러한 데이터 저장부(170)는 외부의 학습 서버와 무선 또는 유선으로 연결될 수 있으며, 저장된 데이터를 외부의 학습 서버에 전달할 수도 있다.Meanwhile, the data processing apparatus 100 according to an embodiment of the present invention may include a data storage unit 170. The data storage unit 170 may be connected to the data generation unit 130, the data processing unit 140 and the data purification unit 150, and the data generation unit 130, the data processing unit 140, and the data purification unit 150 You can save the result calculated from. The data storage unit 170 may be connected wirelessly or wired to an external learning server, and may transmit stored data to an external learning server.

본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field-programmable gate array) 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.The term'~ unit' used in this embodiment refers to software or hardware components such as field-programmable gate array (FPGA) or ASIC, and'~ unit' performs certain roles. However,'~ part' is not limited to software or hardware. The'~ unit' may be configured to be in an addressable storage medium or may be configured to reproduce one or more processors. Thus, as an example,'~ unit' refers to components such as software components, object-oriented software components, class components and task components, processes, functions, properties, and procedures. , Subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, database, data structures, tables, arrays, and variables. The components and functions provided in the'~ units' may be combined into a smaller number of elements and'~ units', or may be further divided into additional elements and'~ units'. In addition, components and'~ units' may be implemented to play one or more CPUs in a device or a security multimedia card.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.Although the above has been described with reference to preferred embodiments of the present invention, those skilled in the art will variously modify and change the present invention within the scope not departing from the spirit and scope of the present invention described in the following claims. You will understand that you can do it.

Claims (13)

데이터 처리 장치에서 수행되는 신약 후보 물질 발굴을 위한 데이터 처리 방법에 있어서,
오믹스를 이루는 복수의 오믹스 레벨 중 적어도 일부의 오믹스 레벨을 사용자 인터페이스를 통하여 입력 받는 단계;
상기 오믹스를 이루는 복수의 상호 연관도 종류 중 적어도 일부의 상호 연관도 종류를 사용자 인터페이스를 통하여 입력 받는 단계;
오믹스 레벨 별 데이터 및 상호 연관도 종류 별 데이터를 포함하는 오믹스 DB로부터 상기 적어도 일부의 오믹스 레벨에 관한 DB 및 상기 적어도 일부의 상호 연관도 종류에 관한 DB를 선택하는 단계;
상기 적어도 일부의 오믹스 레벨에 관한 DB 및 상기 적어도 일부의 상호 연관도 종류에 관한 DB로 이루어진 제1 매트릭스를 생성하는 단계;
사용자 인터페이스를 통하여 검색어를 입력 받는 단계;
상기 제1 매트릭스로부터 상기 검색어의 오믹스 레벨과 다른 오믹스 레벨에 속하고 상기 검색어와 관련된 생물학적 엔티티들을 추출하고, 상기 검색어 및 상기 생물학적 엔티티들 간의 상호 연관도를 추출하는 단계;
상기 검색어와 상기 생물학적 엔티티들을 나타내는 노드들을 상기 검색어와 상기 생물학적 엔티티들 간의 상호 연관도 또는 상기 생물학적 엔티티들 간의 상호 연관도에 따라 연결한 멀티오믹스 네트워크를 생성하는 단계;
상기 멀티오믹스 네트워크의 노드들 각각에 대한 그래프 이론 지표를 생성하는 단계; 및
상기 노드들 중 상기 그래프 이론 지표를 이용하여 추출된 일부 노드를 이용하여 상기 멀티오믹스 네트워크 내 서로 다른 오믹스 레벨 간 연결 관계를 가지는 일부 경로를 추출하는 단계를 포함하고,
상기 생물학적 엔티티들 중 일부는 나머지 생물학적 엔티티와 서로 다른 오믹스 레벨에 포함되며,
상기 검색어는 유전자명, 단백질명, 신진대사체명, 증상명, 질환명, 화합물명 및 약품명 중 적어도 하나를 포함하고,
상기 생물학적 엔티티는 유전자, 단백질, 신진대사체, 증상, 질환, 화합물 및 약품 중 적어도 하나를 포함하며,
상기 상호연관도의 범주는 참여(participate), 공변(covariate), 조절(regulate), 연관(associate), 결합(bind), 업레귤레이트(upregulate), 유사(resemble), 치료(treat), 다운레귤레이트(downregulates), 완화(palliate), 포함(include), 및 표출(express)을 포함하며,
상기 제1 매트릭스는 상기 적어도 일부의 오믹스 레벨이 가로축 및 세로축 각각에 배치되며, 가로축과 세로축이 교차하는 지점에 상기 상호 연관도 종류가 표시되도록 생성되고,
상기 그래프 이론 지표는 상기 멀티오믹스 네트워크를 구성하는 노드들 중 적어도 하나에 대한 노드 간 최단 경로, 노드 별 클러스터링 계수, 노드 별 센트럴리티 계수를 포함하고,
상기 노드들 사이의 연결선이 나타내는 상호 연관도의 범주에 따라 상기 연결선의 가중치가 다르게 설정되고, 상기 노드 간 최단 경로는 상기 설정된 가중치를 반영하여 산출되고,
상기 일부 경로를 구성하는 노드는,
상기 멀티오믹스 네트워크의 노드들 각각에 대한 상기 노드 간 최단 경로, 상기 노드 별 클러스터링 계수, 및 상기 노드 별 센트럴리티 계수 중 적어도 하나에 대한 표준 점수가 임계 값 미만인 노드와 상기 임계 값 미만인 노드의 연결선을 삭제함으로써 생성되고,
상기 표준 점수는 상기 멀티오믹스 네트워크의 노드들 각각에 대한 상기 그래프 이론 지표의 지표값과 상기 멀티오믹스 네트워크의 노드들에 대한 상기 그래프 이론 지표의 평균 지표값 간의 차를 표준 에러로 나눈 값인 데이터 처리 방법.
In the data processing method for discovering new drug candidate substances performed in a data processing device,
Receiving at least some of the ohmics levels forming the ohmics through a user interface;
Receiving at least some types of correlations among the plurality of types of correlations forming the ohmic through a user interface;
Selecting a DB for the at least some of the ohmic levels and a DB for the at least some types of correlations from an ohmics DB including data for each ohmic level and data for each type of correlation;
Generating a first matrix consisting of a DB related to the at least part of the ohmic level and a DB related to the type of the at least part of the correlation;
Receiving a search word input through a user interface;
Extracting biological entities related to the search word and belonging to an ohmic level different from that of the search word from the first matrix, and extracting a degree of correlation between the search word and the biological entities;
Generating a multiomics network in which nodes representing the search word and the biological entities are connected according to a degree of correlation between the search word and the biological entities or a degree of correlation between the biological entities;
Generating a graph theory index for each of the nodes of the multiomics network; And
Including the step of extracting some paths having a connection relationship between different ohmic levels in the multiomics network by using some of the nodes extracted using the graph theory index,
Some of the biological entities are included in different ohmic levels from the other biological entities,
The search word includes at least one of a gene name, a protein name, a metabolite name, a symptom name, a disease name, a compound name, and a drug name,
The biological entity includes at least one of genes, proteins, metabolites, symptoms, diseases, compounds and drugs,
The categories of correlation are participate, covariate, regulate, associate, bind, upregulate, resemble, treat, and down. Includes downregulates, palliate, include, and express,
The first matrix is generated such that the at least some ohmic levels are disposed on each of a horizontal axis and a vertical axis, and the type of correlation is displayed at a point where the horizontal axis and the vertical axis intersect,
The graph theory indicator includes a shortest path between nodes for at least one of nodes constituting the multiomics network, a clustering coefficient for each node, and a centrality coefficient for each node,
The weight of the connection line is set differently according to the category of the degree of correlation indicated by the connection line between the nodes, and the shortest path between the nodes is calculated by reflecting the set weight,
Nodes constituting the some paths,
A connection line between a node having a standard score for at least one of the shortest path between nodes for each of the nodes of the multiomics network, a clustering coefficient for each node, and a centrality coefficient for each node is less than a threshold value and a node less than the threshold value Is created by deleting
The standard score is data obtained by dividing the difference between the index value of the graph theory index for each node of the multiomics network and the average index value of the graph theory index for nodes of the multiomics network by a standard error Processing method.
제1항에 있어서,
상기 일부 경로를 추출하는 단계는,
상기 멀티오믹스 네트워크를 구성하는 전체 연결선을 임의로 섞은 다음 상기 멀티오믹스 네트워크의 노드들 각각에 대해 상기 표준 점수를 계산하는 단계를 포함하고,
상기 임의로 섞는 회수는 1000회 이상인 데이터 처리 방법.
The method of claim 1,
The step of extracting the partial path,
Randomly mixing all the connecting lines constituting the multiomics network, and then calculating the standard score for each of the nodes of the multiomics network,
The number of random mixing is 1000 or more data processing method.
제1항에 있어서,
상기 멀티오믹스 네트워크 내 서로 다른 오믹스 레벨 간 연결 관계를 가지는 일부 경로를 계층 구조로 표시하는 단계를 더 포함하는 데이터 처리 방법.
The method of claim 1,
And displaying some paths having a connection relationship between different ohmic levels in the multiomics network in a hierarchical structure.
제1항에 있어서,
상기 상호연관도의 범주는, 상호작용(interact), 원인(cause), 발현(present), 및 위치(localize) 중 적어도 하나를 더 포함하는 데이터 처리 방법.
The method of claim 1,
The category of the correlation diagram further includes at least one of interaction, cause, present, and localize.
제1항에 있어서,
상기 복수의 오믹스 레벨은 유전자 레벨, 단백질 레벨, 신진대사체 레벨, 증상 레벨, 질환 레벨, 화합물 레벨, 약품 레벨 및 부작용 레벨 중 적어도 일부를 포함하는 데이터 처리 방법.
The method of claim 1,
The plurality of ohmic levels include at least some of a gene level, a protein level, a metabolite level, a symptom level, a disease level, a compound level, a drug level, and a side effect level.
제1항에 있어서,
상기 멀티오믹스 네트워크를 생성하는 단계는,
상기 생물학적 엔티티들 및 상기 생물학적 엔티티들 간 상호 연관도로 이루어진 제2 매트릭스를 생성하는 단계; 및
상기 생물학적 엔티티들을 상기 생물학적 엔티티들 간 상호 연관도로 연결하는 단계를 포함하고,
상기 제2 매트릭스는 상기 생물학적 엔티티들이 오믹스 레벨의 계층 구조에 따라 순차적으로 가로축 및 세로축 각각에 배치되며, 가로축 및 세로축이 교차하는 지점에 상기 생물학적 엔티티들 간 상호 연관도가 표시되는 데이터 처리 방법.
The method of claim 1,
Generating the multiomics network,
Generating a second matrix consisting of the biological entities and a degree of correlation between the biological entities; And
Including the step of connecting the biological entities to the relationship between the biological entities,
In the second matrix, the biological entities are sequentially arranged on a horizontal axis and a vertical axis according to a hierarchical structure of an ohmic level, and a correlation between the biological entities is displayed at a point where the horizontal axis and the vertical axis intersect.
신약 후보 물질 발굴을 위한 데이터 처리 장치에 있어서,
오믹스를 이루는 복수의 오믹스 레벨 중 적어도 일부의 오믹스 레벨을 입력 받고, 상기 오믹스를 이루는 복수의 상호 연관도 종류 중 적어도 일부의 상호 연관도 종류를 입력 받는 사용자 인터페이스부;
오믹스 레벨 별 데이터 및 상호 연관도 종류 별 데이터를 포함하는 오믹스 DB로부터 상기 적어도 일부의 오믹스 레벨에 관한 DB 및 상기 적어도 일부의 상호 연관도 종류에 관한 DB를 선택하고, 상기 적어도 일부의 오믹스 레벨에 관한 DB 및 상기 적어도 일부의 상호 연관도 종류에 관한 DB로 이루어진 제1 매트릭스를 생성하는 DB 추출부;
상기 제1 매트릭스로부터 상기 사용자 인터페이스부를 통하여 입력받은 검색어의 오믹스 레벨과 다른 오믹스 레벨에 속하고 상기 검색어와 관련된 생물학적 엔티티들을 추출하고, 상기 검색어 및 상기 생물학적 엔티티들 간의 상호 연관도를 추출하고, 상기 검색어와 상기 생물학적 엔티티들을 나타내는 복수의 노드들을 상기 검색어와 상기 생물학적 엔티티들 사이의 상호 연관도 또는 상기 생물학적 엔티티들 간의 상호 연관도에 따라 연결한 멀티오믹스 네트워크를 생성하는 데이터 생성부;
상기 멀티오믹스 네트워크의 노드들 각각에 대한 그래프 이론 지표를 생성하는 데이터 처리부; 및
상기 노드들 중 상기 그래프 이론 지표를 이용하여 추출된 일부 노드를 이용하여 상기 멀티오믹스 네트워크 내 서로 다른 오믹스 레벨 간 연결 관계를 가지는 일부 경로를 추출하는 데이터 정제부를 포함하고,
상기 생물학적 엔티티들 중 일부는 나머지 생물학적 엔티티와 서로 다른 오믹스 레벨에 포함되며,
상기 검색어는 유전자명, 단백질명, 신진대사체명, 증상명, 질환명, 화합물명 및 약품명 중 적어도 하나를 포함하고,
상기 생물학적 엔티티는 유전자, 단백질, 신진대사체, 증상, 질환, 화합물 및 약품 중 적어도 하나를 포함하며,
상기 상호연관도의 범주는 참여(participate), 공변(covariate), 조절(regulate), 연관(associate), 결합(bind), 업레귤레이트(upregulate), 유사(resemble), 치료(treat), 다운레귤레이트(downregulates), 완화(palliate), 포함(include) 및 표출(express)을 포함하며,
상기 제1 매트릭스는 상기 적어도 일부의 오믹스 레벨이 가로축 및 세로축 각각에 배치되며, 가로축과 세로축이 교차하는 지점에 상기 상호 연관도 종류가 표시되도록 생성되고,
상기 그래프 이론 지표는 상기 멀티오믹스 네트워크를 구성하는 노드들 중 적어도 하나에 대한 노드 간 최단 경로, 노드 별 클러스터링 계수, 노드 별 센트럴리티 계수를 포함하고,
상기 노드들 사이의 연결선이 나타내는 상호 연관도의 범주에 따라 상기 연결선의 가중치가 다르게 설정되고, 상기 노드 간 최단 경로는 상기 설정된 가중치를 반영하여 산출되고,
상기 일부 경로를 구성하는 노드는,
상기 멀티오믹스 네트워크의 노드들 각각에 대한 상기 노드 간 최단 경로, 상기 노드 별 클러스터링 계수, 및 상기 노드 별 센트럴리티 계수 중 적어도 하나에 대한 표준 점수가 임계 값 미만인 노드와 상기 임계 값 미만인 노드의 연결선을 삭제함으로써 생성되고,
상기 표준 점수는 상기 멀티오믹스 네트워크의 노드들 각각에 대한 상기 그래프 이론 지표의 지표값과 상기 멀티오믹스 네트워크의 노드들에 대한 상기 그래프 이론 지표의 평균 지표값 간의 차를 표준 에러로 나눈 값인 데이터 처리 장치.
In the data processing device for discovering new drug candidate substances,
A user interface unit that receives at least some of the ohmic levels from among the plurality of ohmics levels that make up the ohmics, and receives at least some of the types of correlations that make up the ohmics;
From an ohmics DB including data for each ohmic level and data for each type of correlation, selects the at least partial DB for the ohmic level and the DB for the at least partial correlation type, and A DB extracting unit that generates a first matrix consisting of a DB related to a mix level and a DB related to a type of the at least some correlations;
Extracting biological entities related to the search word and belonging to an ohmic level different from the ohmic level of the search word input through the user interface unit from the first matrix, extracting a degree of correlation between the search word and the biological entities, A data generator configured to generate a multiomics network in which a plurality of nodes representing the search word and the biological entities are connected according to the correlation between the search word and the biological entities or the correlation between the biological entities;
A data processing unit generating a graph theory index for each of the nodes of the multiomics network; And
A data refiner for extracting some paths having a connection relationship between different ohmic levels in the multiomics network by using some nodes extracted using the graph theory index among the nodes,
Some of the biological entities are included in different ohmic levels from the other biological entities,
The search word includes at least one of a gene name, a protein name, a metabolite name, a symptom name, a disease name, a compound name, and a drug name,
The biological entity includes at least one of genes, proteins, metabolites, symptoms, diseases, compounds and drugs,
The categories of correlation are participate, covariate, regulate, associate, bind, upregulate, resemble, treat, and down. Include downregulates, palliate, include and express,
The first matrix is generated such that the at least some ohmic levels are disposed on each of a horizontal axis and a vertical axis, and the type of correlation is displayed at a point where the horizontal axis and the vertical axis intersect,
The graph theory indicator includes a shortest path between nodes for at least one of nodes constituting the multiomics network, a clustering coefficient for each node, and a centrality coefficient for each node,
The weight of the connection line is set differently according to the category of the degree of correlation indicated by the connection line between the nodes, and the shortest path between the nodes is calculated by reflecting the set weight,
Nodes constituting the some paths,
A connection line between a node having a standard score for at least one of the shortest path between nodes for each of the nodes of the multiomics network, a clustering coefficient for each node, and a centrality coefficient for each node is less than a threshold value and a node less than the threshold value Is created by deleting
The standard score is data obtained by dividing the difference between the index value of the graph theory index for each node of the multiomics network and the average index value of the graph theory index for nodes of the multiomics network by a standard error Processing device.
제7항에 있어서,
상기 데이터 정제부는,
상기 멀티오믹스 네트워크를 구성하는 전체 연결선을 임의로 섞은 다음 상기 멀티오믹스 네트워크의 노드들 각각에 대해 상기 표준 점수를 계산하고,
상기 임의로 섞는 회수는 1000회 이상인 데이터 처리 장치.
The method of claim 7,
The data refinement unit,
After randomly mixing all the connecting lines constituting the multiomics network, the standard score is calculated for each of the nodes of the multiomics network,
The number of random mixing is 1000 or more data processing device.
제7항에 있어서,
상기 멀티오믹스 네트워크 내 서로 다른 오믹스 레벨 간 연결 관계를 가지는 일부 경로를 계층 구조로 표시하는 출력부를 더 포함하는 데이터 처리 장치.
The method of claim 7,
The data processing apparatus further comprises an output unit configured to display some paths having a connection relationship between different ohmic levels in the multiomics network in a hierarchical structure.
제7항에 있어서,
상기 상호연관도의 범주는, 상호작용(interact), 원인(cause), 발현(present), 및 위치(localize) 중 적어도 하나를 더 포함하는 데이터 처리 장치.
The method of claim 7,
The category of the correlation diagram further includes at least one of interaction, cause, present, and localize.
제7항에 있어서,
상기 복수의 오믹스 레벨은 유전자 레벨, 단백질 레벨, 신진대사체 레벨, 증상 레벨, 질환 레벨, 화합물 레벨, 약품 레벨 및 부작용 레벨 중 적어도 일부를 포함하는 데이터 처리 장치.
The method of claim 7,
The plurality of ohmic levels includes at least some of a gene level, a protein level, a metabolite level, a symptom level, a disease level, a compound level, a drug level, and a side effect level.
제7항에 있어서,
상기 데이터 생성부는 상기 생물학적 엔티티들 및 상기 생물학적 엔티티들 간 상호 연관도로 이루어진 제2 매트릭스를 생성하고, 상기 생물학적 엔티티들을 상기 생물학적 엔티티들 간 상호 연관도로 연결하며,
상기 제2 매트릭스는 상기 생물학적 엔티티들이 오믹스 레벨의 계층 구조에 따라 순차적으로 가로축 및 세로축 각각에 배치되며, 가로축 및 세로축이 교차하는 지점에 상기 생물학적 엔티티들 간 상호 연관도가 표시되는 데이터 처리 장치.
The method of claim 7,
The data generation unit generates a second matrix consisting of the biological entities and a degree of correlation between the biological entities, and connects the biological entities with a degree of correlation between the biological entities,
In the second matrix, the biological entities are sequentially arranged on a horizontal axis and a vertical axis according to a hierarchical structure of an ohmic level, and a correlation between the biological entities is displayed at a point where the horizontal axis and the vertical axis intersect.
제1항 내지 제6항 중 어느 한 항에서 수행되는 데이터 처리 방법을 실행시키기 위하여 컴퓨터로 읽을 수 있는 프로그램이 기록된 기록 매체.A recording medium in which a computer-readable program is recorded for executing the data processing method performed in any one of claims 1 to 6.
KR1020190147236A 2018-12-24 2019-11-17 Multi-omics data processing apparatus and method for discovering new drug candidates KR102187594B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20180168656 2018-12-24
KR1020180168656 2018-12-24

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020190028789 Division 2018-12-24 2019-03-13

Publications (2)

Publication Number Publication Date
KR20200079179A KR20200079179A (en) 2020-07-02
KR102187594B1 true KR102187594B1 (en) 2020-12-07

Family

ID=71599698

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190147236A KR102187594B1 (en) 2018-12-24 2019-11-17 Multi-omics data processing apparatus and method for discovering new drug candidates

Country Status (1)

Country Link
KR (1) KR102187594B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022196971A1 (en) * 2021-03-18 2022-09-22 주식회사 온코크로스 Method for estimating tissue-level information from cellular-level information, and device therefor

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
D. K. Arrell 외, "Network Systems Biology for Drug Discovery', Clinical Phamacology & Therapeutics, 88권, 1호, 2010.07.
Y. Yu 외, "PreMedKB: an integrated precision medicine knowledgebase for interpreting relationships between diseases, genes, variants and drugs', Nucleic Acids Research, 47권, Database issues, 2018.12.8.

Also Published As

Publication number Publication date
KR20200079179A (en) 2020-07-02

Similar Documents

Publication Publication Date Title
KR102026871B1 (en) Data processing apparatus and method for predicting safety and efficacy of new drug candidates
US20170213127A1 (en) Method and System for Discovering Ancestors using Genomic and Genealogic Data
KR102181058B1 (en) Method for data processing to derive new drug candidate substance
CN103548041B (en) For determining the information processor of weight of each feature in subjective hierarchical clustering, methods and procedures
KR102225278B1 (en) Prediction Method for Disease, Gene or Protein related Query Entity and built Prediction System using the same
CN112364880B (en) Omics data processing method, device, equipment and medium based on graph neural network
Urbanowicz et al. An analysis pipeline with statistical and visualization-guided knowledge discovery for michigan-style learning classifier systems
CN113470741B (en) Drug target relation prediction method, device, computer equipment and storage medium
KR102110176B1 (en) Method and apparatus for deriving new drug candidate substance
Wang et al. A heterogeneous network-based method with attentive meta-path extraction for predicting drug–target interactions
Lü et al. Modeling and analysis of bio-molecular networks
CN114141361B (en) Traditional Chinese medicine prescription recommendation method based on symptom term mapping and deep learning
Diaz-Flores et al. Evolution of artificial intelligence-powered technologies in biomedical research and healthcare
CN109767817B (en) Drug potential adverse reaction discovery method based on neural network language model
KR102187594B1 (en) Multi-omics data processing apparatus and method for discovering new drug candidates
Lu et al. A disassembly sequence planning approach with an advanced immune algorithm
CN110610763A (en) KaTZ model-based metabolite and disease association relation prediction method
JP2008515029A (en) Display method of molecular function network
US11915832B2 (en) Apparatus and method for processing multi-omics data for discovering new drug candidate substance
KR102379214B1 (en) New drug candidate substance search method based on multiomics network
KR102187586B1 (en) Data processing apparatus and method for discovering new drug candidates
US20210397978A1 (en) Apparatus and method for processing data discovering new drug candidate substance
Tuggle et al. Introduction to systems biology for animal scientists
Wang et al. PPDTS: Predicting potential drug–target interactions based on network similarity
CN111785333B (en) Biological network data-based drug action target screening method and device, electronic equipment and storage medium

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant