KR102379214B1 - 멀티오믹스 네트워크 기반 신약 후보 물질 탐색 방법 - Google Patents

멀티오믹스 네트워크 기반 신약 후보 물질 탐색 방법 Download PDF

Info

Publication number
KR102379214B1
KR102379214B1 KR1020200139362A KR20200139362A KR102379214B1 KR 102379214 B1 KR102379214 B1 KR 102379214B1 KR 1020200139362 A KR1020200139362 A KR 1020200139362A KR 20200139362 A KR20200139362 A KR 20200139362A KR 102379214 B1 KR102379214 B1 KR 102379214B1
Authority
KR
South Korea
Prior art keywords
nodes
node
knowledge network
correlation
drug
Prior art date
Application number
KR1020200139362A
Other languages
English (en)
Other versions
KR20200123771A (ko
Inventor
배영우
진승현
Original Assignee
주식회사 메디리타
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/KR2019/002919 external-priority patent/WO2020138589A1/ko
Priority claimed from PCT/KR2019/002918 external-priority patent/WO2020138588A1/ko
Priority claimed from KR1020190163398A external-priority patent/KR102181058B1/ko
Application filed by 주식회사 메디리타 filed Critical 주식회사 메디리타
Publication of KR20200123771A publication Critical patent/KR20200123771A/ko
Application granted granted Critical
Publication of KR102379214B1 publication Critical patent/KR102379214B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Abstract

데이터 처리 장치의 신약 후보 물질 발굴을 위한 데이터 처리 방법은 선택된 생물학적 엔티티와 선택된 상호 연관도 종류로 구성되는 DB 매트릭스를 오믹스 DB로부터 생성하는 단계; 소정의 검색어를 수신하는 단계; 상기 DB매트릭스로부터 상기 소정의 검색어와 관련된 적어도 하나의 생물학적 엔티티를 추출하는 단계; 상기 DB매트릭스로부터 소정의 검색어와 상기 적어도 하나의 생물학적 엔티티 간 상호 연관도를 추출하는 단계; 상기 소정의 검색어와 상기 적어도 하나의 생물학적 엔티티를 포함하는 복수의 노드를 상기 상호 연관도에 따라 연결한 제1 지식 네트워크를 생성하는 단계; 상기 제1 지식 네트워크의 그래프 이론 지표를 계산하는 단계; 그리고 상기 복수의 노드 중 상기 그래프 이론 지표를 이용하여 추출된 일부 노드를 이용하여 제2 지식 네트워크를 생성하는 단계를 포함한다.

Description

멀티오믹스 네트워크 기반 신약 후보 물질 탐색 방법{NEW DRUG CANDIDATE SUBSTANCE SEARCH METHOD BASED ON MULTIOMICS NETWORK}
본 발명은 신약 개발 방법에 관한 것으로, 보다 구체적으로는 인체 오믹스 데이터베이스(OMICS Database)로부터 신약 후보 물질을 도출하기 위한 데이터 처리 방법에 관한 것이다.
하나의 신약을 개발하기 위하여 평균적으로 총 15년의 기간이 소요되며, 2~3조원의 비용이 발생하는 것으로 알려져 있다. 이 중에서도 전임상(preclinical trial) 이전의 신약 후보 물질을 발굴하기 위하여 약 6년의 기간이 소요되는 것으로 알려져 있다.
일반적으로, 신약을 개발하기 위한 파이프라인의 첫 단계인 신약 후보 물질을 발굴하기 위하여, 다수의 전문 연구 인력들이 막대한 양의 정보를 일일이 탐색하고, 이로부터 주요한 생물학적 엔티티(entity) 간의 연관성을 추론하는 과정을 거치고 있다.
한편, 최근 일본에서 출범된 라이프 인텔리전스 컨소시엄(Life Intelligence Consortium, 2017)에 따르면, 신약 개발에 인공지능 기술을 활용할 경우, 신약을 개발하기 위하여 소요되는 기간은 약 40% 수준으로 단축될 수 있고, 비용은 약 50% 수준으로 절감될 수 있는 것으로 예측되고 있다.
본 발명이 해결하고자 하는 기술적 과제는 신약 후보 물질 발굴을 위한 데이터 처리 방법을 제공하는 것이다. 본 발명이 해결하고자 하는 다른 기술적 과제는 인체 오믹스 데이터베이스(DB)로부터 계층 구조를 가지는 멀티오믹스 네트워크를 생성하고, 멀티오믹스 네트워크로부터 정제된 지식 네트워크를 생성하는 방법에 관한 것이다.
데이터 처리 장치에서 수행되는 신약 후보 물질 발굴을 위한 데이터 처리 방법은, 선택된 생물학적 엔티티와 선택된 상호 연관도 종류로 구성되는 DB 매트릭스를 오믹스 DB로부터 생성하는 단계, 검색어를 수신하는 단계, 상기 DB 매트릭스로부터 상기 검색어와 다른 오믹스 레벨에 속하고 상기 검색어와 관련된 생물학적 엔티티들을 추출하는 단계, 상기 DB 매트릭스로부터 상기 검색어와 상기 생물학적 엔티티들 간의 상호 연관도를 추출하는 단계, 상기 검색어와 상기 생물학적 엔티티들 각각을 노드로 하고, 상기 검색어와 상기 생물학적 엔티티들 사이의 상호 연관도 또는 상기 생물학적 엔티티들 간 상호 연관도에 따라 연결선을 이용하여 복수의 노드들을 연결한 제1지식 네트워크를 생성하는 단계, 상기 제1지식 네트워크의 복수의 노드들 각각에 대해 그래프 이론 지표를 계산하는 단계, 및 상기 제1지식 네트워크의 복수의 노드들 중 상기 그래프 이론 지표를 이용하여 선택된 일부 노드들을 이용하여 제2지식 네트워크를 생성하는 단계를 포함하고, 상기 검색어는 유전자명, 단백질명, 신진대사체명, 증상명, 질환명, 화합물명 및 약품명 중 적어도 하나를 포함하고, 상기 생물학적 엔티티는 유전자, 단백질, 신진대사체, 증상, 질환, 화합물 및 약품 중 적어도 두개를 포함하며, 상기 상호 연관도의 범주는 참여(participate), 공변(covariate), 조절(regulate), 연관(associate), 결합(bind), 업레귤레이트(upregulate), 유사(resemble), 치료(treat), 다운레귤레이트(downregulates), 완화(palliate), 포함(include), 및 표출(express) 중 적어도 두개를 포함하며, 상기 그래프 이론 지표는 상기 제1지식 네트워크를 구성하는 복수의 노드들 중 적어도 하나에 대한 노드 간 최단 경로, 노드 별 클러스터링 계수, 노드 별 센트럴리티 계수를 포함하고, 상기 DB 매트릭스는, 상기 선택된 생물학적 엔티티들이 가로축 및 세로축 각각에 배치되며, 가로축과 세로축이 교차하는 지점에 상기 상호 연관도 종류가 표시되도록 생성될 수 있다.
상기 연결선이 나타내는 상호연관도의 범주에 따라 상기 연결선의 가중치가 다르게 설정되고, 상기 노드 간 최단 경로는 상기 설정된 가중치를 반영하여 산출되고, 상기 제2지식 네트워크를 생성하는 단계는, 상기 제1지식 네트워크를 구성하는 복수의 노드들 각각에 대해 상기 노드 간 최단 경로, 상기 노드 별 클러스터링 계수, 및 상기 노드 별 센트럴리티 계수 중 적어도 하나에 대한 표준 점수를 계산하고, 상기 표준 점수가 임계 값 미만인 노드와 상기 임계 값 미만인 노드의 연결선을 삭제함으로써 상기 제2지식 네트워크를 생성하고, 상기 표준 점수는 제1 지식 네트워크를 구성하는 각 노드에 대한 소정의 그래프 이론 지표의 지표값과 제1 지식 네트워크를 구성하는 복수의 노드에 대한 그래프 이론 지표의 평균 지표값 간의 차를 표준 에러로 나눈 값일 수 있다.
상기 상호연관도의 범주는, 상호작용(interact), 원인(cause), 발현(present), 및 위치(localize) 중 적어도 하나를 더 포함할 수 있다.
상기 제2지식 네트워크로부터 약물 가능 경로를 추출하는 단계를 더 포함하고, 상기 약물 가능 경로를 추출하는 단계는, 상기 제2지식 네트워크에 존재하는 약물-질환 노드들 각각에 대한 근접도의 표준 점수가 기준 값보다 작은 약물-질환 노드 페어들을 선택하는 단계, 상기 선택된 약물-질환 노드 페어들에 대한 경로들 중에서, 상기 경로들 각각에 존재하는 중간 노드가 기준 개수 이상인 경로들을 추출하는 단계, 및 상기 추출된 경로들 중에서, 상기 추출된 경로들의 중간 노드들의 센트렐리티 계수의 총합이 기준 값 이상인 경로를 상기 약물 가능 경로로서 추출하는 단계를 포함할 수 있다.
멀티오믹스 네트워크 기반 신약 후보 물질 탐색 방법은, 데이터 처리 장치가 DB 매트릭스에서 입력된 검색어와 관련된 생물학적 엔티티 및 상기 관련된 생물학적 엔티티들 간의 상호 연관도를 추출하는 단계, 상기 데이터 처리 장치가 상기 DB 매트릭스를 이용하여 상기 검색어와 관련된 제1지식 네트워크를 생성하는 단계, 상기 데이터 처리 장치가 상기 제1지식 네트워크를 구성하는 노드들 각각에 대해 그래프 이론 지표를 계산하는 단계, 상기 데이터 처리 장치가 상기 제1지식 네트워크의 노드들 중 상기 그래프 이론 지표가 임계값 이상인 노드들을 이용하여 제2지식 네트워크를 생성하는 단계, 및 상기 데이터 처리 장치가 상기 제2지식 네트워크의 노드들 중 적어도 하나를 상기 검색어와 관련된 결과 노드로 결정하는 단계를 포함하되, 상기 검색어는 유전자명, 단백질명, 신진대사체명, 증상명, 질환명, 화합물명 및 약품명중 적어도 하나를 포함하고, 상기 DB 매트릭스는 오믹스 DB로부터 추출한 생물학적 엔티티들과 상기 추출한 생물학적 엔티티들 중 적어도 일부 엔티티들 사이의 상호 연관도 정보를 포함하고, 상기 생물학적 엔티티는 유전자, 단백질, 신진대사체, 증상, 질환, 화합물 및 약품 중 적어도 두개를 포함하며, 상기 상호 연관도의 종류는 참여(participate), 공변(covariate), 조절(regulate), 연관(associate), 결합(bind), 업레귤레이트(upregulate), 유사(resemble), 치료(treat), 다운레귤레이트(downregulates), 완화(palliate), 포함(include), 및 표출(express) 중 적어도 두개를 포함하며, 상기 제1지식 네트워크는 상기 검색어와 상기 관련된 생물학적 엔티티들이 구성하는 복수의 노드들 및 상기 상호 연관도 정보를 기준으로 상기 복수의 노드들 중 연관된 노드들를 연결하는 에지들을 포함하고, 상기 그래프 이론 지표는 노드 간 최단 경로, 노드 별 클러스터링 계수, 노드 별 센트럴리티 계수 중 적어도 하나의 지표를 포함할 수 있다.
신약 후보 물질 발굴을 위하여 막대한 양의 정보를 일일이 탐색하지 않고도, 소정의 검색어와 관련된 생물학적 엔티티 및 이들의 상호 연관도에 관한 정제된 정보를 단시간 내에 추출할 수 있다. 이에 따라, 신약 후보 물질 또는 신약 후보 물질의 타겟을 발굴하는데 소요되는 비용 및 기간을 현저히 줄일 수 있다.
도1은 일 실시 예에 따라, 신약 후보 물질 발굴을 위한 데이터 처리 장치의 블록도이다.
도2는 일 실시 예에 따라, 데이터 처리 장치의 신약 후보 물질 발굴을 위한 데이터 처리 방법의 흐름도를 나타낸다.
도3은 일 실시 예에 따라, 입력되는 소정의 검색어를 나타낸다.
도4는 일 실시 예에 따라, 단계 S205 에서 생성된 DB매트릭스를 나타낸다.
도5는 일 실시 예에 따라, 단계 S205 에서 생성된 DB매트릭스를 나타낸다.
도6은 일 실시 예에 따른 제1 지식 네트워크이다.
도7은 일 실시 예에 따라, Participation coefficient(PC)에 따라 허브의 종류를 구분하는 것을 나타낸다.
도8은 일 실시 예에 따라, 검색어 "epilepsy syndrome"로부터 생성된 제2 지식 네트워크이다.
도9는 일 실시 예에 따라, 오믹스 레벨(생물학적 엔티티)이 입력되는 예를 나타낸다.
도10은 일 실시 예에 따라, 상호 연관도 종류가 입력되는 예를 나타낸다.
도11은 추가적 실시 예에 따라, 신약 후보 물질 발굴을 위한 데이터 처리 장치의 블록도이다.
도12는 추가적 실시 예에 따라, 데이터 처리 장치의 신약 후보 물질 발굴을 위한 데이터 처리 방법의 흐름도를 나타낸다.
도13은 일 실시 예에 따라, 데이터 처리 장치가 약물 가능 경로를 탐색하는 방법의 흐름도를 나타낸다.
아래에서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자들(이하, 통상의 기술자들)이 본 발명을 용이하게 실시할 수 있도록, 첨부되는 도면들을 참조하여 몇몇 실시 예가 명확하고 상세하게 설명될 것이다.
또한, 명세서에서 사용되는 "부" 이라는 용어는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)과 같은 하드웨어 구성요소 또는 회로를 의미할 수 있다.
도1은 일 실시예에 따른 신약 후보 물질 발굴을 위한 데이터 처리 장치의 블록도이고, 도2는 일 실시 예에 따른 데이터 처리 장치의 신약 후보 물질 발굴을 위한 데이터 처리 방법의 흐름도를 나타낸다.
도1을 참조하면, 신약 후보 물질 발굴을 위한 데이터 처리 장치(100)는 DB 매트릭스 생성부(105), 검색어 수신부(110), 데이터 추출부(120), 데이터 생성부(130), 데이터 처리부(140), 데이터 정제부(150), 출력부(160), 및 저장부(170)를 포함할 수 있다. 데이터 처리 장치(100)는 적어도 하나의 컴퓨팅 장치를 포함할 수 있다. 예를 들어, 데이터 처리 장치(100)는 적어도 하나의 프로세서와 적어도 하나의 메모리를 포함할 수 있다.
도1 내지 2를 참조하면, DB 매트릭스 생성부(105)는 오믹스 DB(200)로부터 적어도 일부의 오믹스 레벨(생물학적 엔티티)들에 관한 DB 및 적어도 일부의 상호 연관도 종류들에 관한 DB로 구성되는 DB 매트릭스를 생성할 수 있다(S205). DB 매트릭스를 생성하기 위한 오믹스 레벨(생물학적 엔티티)들과 상호 연관도 종류들은 사용자에 의해 선택될 수 있다. 이를 위해, DB 매트릭스 생성부(105)는 DB 매트릭스를 생성하기 위해, 오믹스를 이루는 복수의 레벨 중 적어도 일부의 오믹스 레벨(생물학적 엔티티)을 입력 받고, 오믹스를 이루는 복수의 상호 연관도 종류 중 적어도 일부의 상호 연관도 종류를 입력 받을 수 있다.
오믹스(omics)는 체학이라고도 하며, 예를 들어 유전자체학, 전사체학, 단백질체학, 신진대사체학, 후성유전체학, 지질체학 등이 있고, 세부적으로 해부학적 구조(anatomy), 생물학적 경로(biological process), 전도경로(pathway), 약리학적 계층(pharmacological class), 증상, 질환, 화합물, 약물, 부작용 등에 관련된 내용을 포함할 수 있으나, 이로 제한되는 것은 아니다. 복수의 오믹스 레벨은 유전자 레벨, 전사 레벨, 단백질 레벨, 신진대사체 레벨, 후성유전자 레벨, 지질 레벨, 해부학적 구조 레벨, 생물학적 경로 레벨, 전도경로 레벨, 약리학적 계층레벨, 증상 레벨, 질환 레벨, 화합물 레벨, 약물 레벨 및 부작용 레벨 등을 포함할 수 있으나, 이로 제한되는 것은 아니다. 여기서, 해부학적 구조는 조직(tissue), 기관(organ) 등을 의미할 수 있고, 생물학적 경로는 세포 내 구조의 레벨에서의 위치와 같은 세포 구성성분, 유전자 온톨로지로부터 추출된 분자 기능을 포함하는 일련의 이벤트일 수 있으며, 약리학적 계층은 약리학적 효과, 작용의 메커니즘일 수 있다.
복수의 상호 연관도 종류는 "상호작용(interact)", "참여(participate)", "공변(covariate)", "조절(regulate)", "연관(associate)", "결합(bind)", "업레귤레이트(upregulate)", "원인(cause)", "유사(resemble)", "치료(treat)", "다운레귤레이트(downregulates)", "완화(palliate)", "발현(present)", "위치(localize)", "포함(include)", "표출(express)", "감소(decrease)", "증가(increase)" 등을 포함할 수 있으며, 종류 별로 식별 번호 또는 식별 기호가 임의로 부여될 수 있다. 종류 별 식별 번호 또는 식별 기호는 사용자에 의하여 설정되거나, 자동으로 설정될 수 있다.
오믹스 DB(200)는 빅데이터 DB일 수 있으며, 본 발명의 실시예에 따른 데이터 처리 장치(100) 외부의 DB일 수 있고, 누구나 접근 가능하거나 소정의 조건 하에 인증 받은 자가 접근 가능한 글로벌 공공 DB일 수 있다. 오믹스 DB(200)는 오믹스 레벨(생물학적 엔티티)에 관한 정보 및 오믹스 레벨 내 생물학적 엔티티 간 상호 연관도에 관한 정보를 미리 저장할 수 있다. 예를 들어, 오믹스 DB는 오믹스 레벨 별 DB 및 상호 연관도 종류 별 DB를 포함할 수 있다.
오믹스 레벨 별 DB는, 예를 들어 유전자 DB, 전사 DB, 단백질 DB, 신진대사체 DB, 후성유전자 DB, 지질 DB, 해부학적 구조 DB, 생물학적 경로 DB, 전도경로 DB, 증상 DB, 질환 DB, 화합물 DB, 약물 DB 및 부작용 DB를 포함할 수 있다.
상호 연관도 종류 별 DB는 상호작용(interact) DB, 참여(participate) DB, 공변(covariate) DB, 조절(regulate) DB, 연관(associate) DB, 결합(bind) DB, 업레귤레이트(upregulate) DB, 원인(cause) DB, 유사(resemble) DB, 치료(treat) DB, 다운레귤레이트(downregulates) DB, 완화(palliate) DB, 발현(present) DB, 위치(localize) DB, 포함(include) DB, 표출(express) DB, 감소(decrease) DB, 증가(increase) DB 를 포함할 수 있다. 이들 DB는 하나의 빅데이터 DB로 통합하여 관리 및 운영되거나, 분산되어 관리 및 운용될 수 있다.
도9는 일 실시예에 따라, DB 매트릭스를 생성하기 위해 오믹스 레벨(생물학적 엔티티)이 입력되는 예를 나타내고, 도10은 일 실시예에 따라 DB 매트릭스를 생성하기 위해 상호 연관도 종류가 입력되는 예를 나타낸다. 도9를 참조하면, 출력부(160)를 통하여 복수의 오믹스 레벨이 선택될 수 있는 화면이 노출될 수 있으며, 복수의 오믹스 레벨 중 사용자 인터페이스를 통하여 적어도 일부의 오믹스 레벨이 선택될 수 있다. 그리고, 도10을 참조하면, 출력부(160)를 통하여 복수의 상호 연관도 종류가 선택될 수 있는 화면이 노출될 수 있으며, 복수의 상호 연관도 종류 중 사용자 인터페이스를 통하여 적어도 일부의 상호 연관도 종류가 선택될 수 있다.
도4와 도5는 DB 매트릭스의 예를 나타낸다. 만약, 사용자가 DB 매트릭스를 생성하기 위해 오믹스 DB의 모든 오믹스 레벨(생물학적 엔티티)과 모든 상호 연관도 종류를 선택한다면 DB 매트릭스는 도4과 같이 생성될 수 있다. 도4를 참조하면, 선택된 오믹스 레벨(생물학적 엔티티)들이 가로축 및 세로축 각각에 배치되며, 가로축 및 세로축이 교차하는 지점에 선택된 상호 연관도 종류들이 표시되도록 생성될 수 있다.
예를 들어, 유전자 레벨(Gene), 단백질 레벨(Protein), 지질 레벨(Lipid), 신진대사체 레벨(Metabolite), 해부학적 구조 레벨(Anatomy), 생물학적 경로 레벨(Biological Process), 세포적 기반(Cellular Component), 분자 기능 레벨(Molecular Function), 약물 레벨(Drug), 부작용 레벨(Side Effect), 질병 레벨(Disease), 약리학적 계층 레벨(Pharmacological Class), 및 증상 레벨(Symptom)이 DB 매트릭스의 가로축 및 세로축 각각에 배치될 수 있으며, 가로축과 세로축이 교차하는 지점에 상호 연관도 종류인 상호작용(interact, Int), 참여(participate, P), 공변(covariate, Co), 조절(regulate, Reg), 연관(associate,A), 결합(bind, B), 업레귤레이트(upregulate, U), 원인(cause, Ca), 유사(resemble, R), 치료(treat, T), 다운레귤레이트(downregulates, D), 완화(palliate, Pa), 발현(present, Pr), 위치(localize, L), 포함(include, Inc), 감소(decrease, Decre), 증가(increase, Incre), 전이(translation, Tr), 및 표출(express, E) 중 적어도 하나가 표시될 수 있다.
만약, 사용자가 DB 매트릭스를 생성하기 위해 DB 종류를 유전자 레벨(Gene), 약물 레벨(Drug), 질병 레벨(Disease)로 선택하고 DB 사이의 상호 연관도의 종류를 공변(Co), 조절(Reg), 업레귤레이트(U), 결합(B), 다운레귤레이트(D), 연관(A), 유사(R), 치료(T), 완화(Pa)로 선택한다면 DB 매트릭스는 도5와 같이 생성될 수 있다.
다시 도1 내지 2를 참조하면, 검색어 수신부(110)는 소정의 검색어를 수신할 수 있다(S200). 소정의 검색어는 사용자 인터페이스를 통하여 입력될 수 있으며, 유전자명, 단백질명, 신진대사체명, 증상명, 질환명, 화합물명 및 약물명 중 적어도 하나를 포함할 수 있다. 예를 들어, 사용자는 검색어 수신부(110)를 통해 Bupropion 이라는 약물을 검색어로서 입력하거나 epilepsy syndrome 라는 질환을 검색어로 입력할 수 있다. 도3은 소정의 검색어가 입력되는 예를 나타낸다. 도 3을 참조하면, 출력부(160)를 통하여 소정의 검색어를 입력하기 위한 화면이 노출될 수 있으며, 사용자 인터페이스를 통하여 소정의 검색어가 입력될 수 있다. 도3은 질환명을 범주로 선택하며, 소정의 검색어로 epilepsy syndrome를 입력하는 예를 나타낸다.
다음으로, 데이터 추출부(120)는 단계 S200에서 수신된 소정의 검색어와 관련된 적어도 하나의 생물학적 엔티티(entity)를 생성한 DB 매트릭스를 이용하여 추출하며(S210), 소정의 검색어와 추출한 생물학적 엔티티 간 상호 연관도를 생성한 DB 매트릭스를 이용하여 추출할 수 있다(S220). 여기서, 생물학적 엔티티는 유전자, 단백질, 신진대사체, 증상, 질환, 화합물 및 약물 중 적어도 하나를 포함할 수 있으며, 소정의 검색어가 속한 레벨은 생물학적 엔티티가 속한 오믹스 레벨과 동일할 수도 있고, 상이할 수도 있다. 예를 들어, 도 3에서 예시한 바와 같이, 소정의 검색어가 질환명인 epilepsy syndrome인 경우, 단계 S210에서 추출되는 생물학적 엔티티는 epilepsy syndrome과 연관된 유전자, epilepsy syndrome과 연관된 단백질, epilepsy syndrome과 연관된 신진대사체, epilepsy syndrome과 연관된 증상, epilepsy syndrome과 연관된 질환, epilepsy syndrome과 연관된 화합물 및 epilepsy syndrome과 연관된 약물 중 적어도 하나를 포함할 수 있다. 그리고, 단계 S210에서 추출되는 생물학적 엔티티는 레벨 별로 복수의 생물학적 엔티티를 포함할 수도 있다. 도3에서 예시한 바와 같이, 소정의 검색어가 질환명인 epilepsy syndrome인 경우, 단계 S210에서 추출되는 생물학적 엔티티는 epilepsy syndrome과 연관된 복수의 유전자, epilepsy syndrome과 연관된 복수의 단백질, epilepsy syndrome과 연관된 복수의 신진대사체, epilepsy syndrome과 연관된 복수의 증상, epilepsy syndrome과 연관된 복수의 질환, epilepsy syndrome과 연관된 복수의 화합물 및 epilepsy syndrome과 연관된 복수의 약물 중 적어도 하나를 포함할 수도 있다.
이와 같이, 단계 S210 및 단계 S220에서 DB 매트릭스를 이용하여 소정의 검색어와 연관된 생물학적 엔티티 및 상호 연관도를 추출할 경우, 탐색되어야 할 DB의 양을 현저히 줄일 수 있으며, 이에 따라 정보를 탐색하기 위한 시간 및 비용을 줄일 수 있으며, 사용자가 원하는 정보만을 추출하는 것이 가능하다.
다음으로, 데이터 생성부(130)는 단계 S210과 단계 S220에서 추출한 결과를 이용하여 제1지식 네트워크를 생성할 수 있다(S230). 도6은 일 실시예에 따라 생성된 제1지식 네트워크의 일 예이다. 원 모양은 노드를, 선은 연결선(에지)을 나타낼 수 있다. 여기서, 제1 지식 네트워크는 단계 S200에서 수신된 소정의 검색어와 단계 S210에서 추출된 생물학적 엔티티들 각각을 노드로 하며, 단계 S220에서 추출한 소정의 검색어와 생물학적 엔티티 사이의 상호 연관도 또는 생물학적 엔티티들 사이의 상호 연관도에 따라 연결선을 이용하여 복수의 노드를 연결한 그래프 형태일 수 있다. 동일한 오믹스 레벨 내 노드들이 연결선을 통해 연결될 수도 있고, 서로 다른 오믹스 레벨 내 노드들이 연결선을 통해 연결될 수 있다. 제1 지식 네트워크 내 노드 중 하나인 노드 A로부터 다른 하나인 노드 B로 가는 경로는 다양할 수 있으며, 가능한 모든 경로가 연결선에 의하여 연결될 수 있다. 여기서, 지식 네트워크는 생물학적 엔티티 간의 상호 연관도로 이루어진 네트워크로, 생물학적 네트워크로도 불릴 수 있다.
다음으로, 데이터 처리부(140)는 단계 S230에서 생성한 제1 지식 네트워크의 그래프 이론 지표를 계산할 수 있다(S240). 일 실시 예에 따라, 그래프 이론 지표는 제1 지식 네트워크를 구성하는 복수의 노드들에 대한 노드 간 최단 경로, 노드 별 클러스터링 계수, 노드 별 센트럴리티 계수, 노드 별 허브 성격 중 적어도 하나를 포함할 수 있다.
노드 간 최단 경로는 제1지식 네트워크에서 노드 A로부터 노드 B로 가는 수 많은 경로 중 가장 짧은 경로를 의미할 수 있다. 이하, 생물학적 엔티티 중 하나인 노드 A와 생물학적 엔티티 중 다른 하나인 노드 B 간 최단 경로를 산출하는 방법을 설명한다.
노드 A로부터 노드 B로 가는 경로는 다양하며, 노드 A와 노드 B가 직접 연결되거나, 노드 A와 노드 B 사이의 각 경로 상에 적어도 하나의 중간 노드가 존재할 수도 있다. 데이터 처리부(140)는 노드 A와 노드 B 사이의 최단 경로를 경로 별 중간 노드의 개수를 이용하여 획득할 수 있다. 예를 들어, 데이터 처리부(140)는, 노드 A와 노드 B 간 다양한 경로 중 중간 노드의 개수가 적을수록 짧은 경로인 것으로 판단할 수 있다.
또는, 데이터 처리부(140)는 노드 A와 노드 B 간 최단 경로는 경로 별 중간 노드의 개수를 이용하여 얻되, 연결선 별 상호 연관성의 종류를 반영할 수도 있다. 즉, 상호 연관성의 범주 별로 가중치를 다르게 설정할 수 있으며, 경로 별로 존재하는 상호 연관성에 가중치를 적용할 수도 있다.
수학식 1은 노드 간 최단 경로를 산출하는 식의 한 예이다.
Figure 112020113440403-pat00001
여기서, wst는 두 노드 s와 t간의 상호 연관성 지표이며, f는 가중치 변환 함수이고,
Figure 112020113440403-pat00002
는 두 노드 i와 j 사이의 최단 경로이다. 데이터 처리부(140)는 각 경로 별로 수학식 1의 값을 결정하며, 가장 낮은 값 또는 가장 높은 값을 가지는 경로를 최단 경로로서 선택할 수 있다.
다음으로, 노드 별 클러스터링 계수(clustering coefficient)는 수학식 2 및 수학식 3에 의하여 계산될 수 있다. 여기서, 클러스터링 계수는 집단화 계수라고 지칭될 수도 있으며, 특정 노드와 이웃한 노드들이 서로 연결되어 있을 확률 또는 특정 노드와 이웃한 노드들 간의 연결 밀도를 의미할 수 있다.
Figure 112020113440403-pat00003
여기서, ti w는 지식 네트워크의 각 노드 i 주변에 만들어지는 그래프 내의 삼각형의 개수를 의미하며, N은 지식 네트워크의 전체 노드 집합이며, wij 는 노드 i와 노드 j 사이의 상호 연관성 지표이고, wih는 노드 i와 노드 h 사이의 상호 연관성 지표이며, wjh는 노드 j와 노드 h 사이의 상호 연관성 지표이다.
Figure 112020113440403-pat00004
여기서, Cw 는 클러스터링 계수를 의미하며, ti w는 지식 네트워크의 각 노드 i 주변에 만들어지는 그래프 내의 삼각형의 개수고, ki 는 노드 i의 degree, 즉 노드 i의 지식 네트워크 내 연결성 정도 값을 의미한다.
다음으로, 노드 별 센트렐리티(centrality) 지표는 특정 노드가 허브의 기능을 가지는지에 대한 지표이며, Dnodal(nodal degree)값, BC(betweenness centrality) , Enodal (nodal efficiency) 값 등으로 나타낼 수 있다. 여기서, Dnodal 값은 각 노드의 지식 네트워크 내 연결성 정도 값, 즉, 지식 네트워크 내에서 노드 i가 얼마나 강한 또는 약한 연결성을 가지고 있는지를 나타내는 지표이고, Enodal 값은 노드 i의 지식 네트워크 내 효율성 정도 값, 즉 수학식 1의 최단 경로의 역수로 표현된 값으로, 경로가 짧을수록 높은 효율성을 가지고, BC 값은 지식 네트워크 내 노드 간 경로에서 노드 i가 지름길이 되는 횟수를 나타내는 지표이다.
먼저, Dnodal 값은 수학식 4에 의하여 계산될 수 있다.
Figure 112020113440403-pat00005
여기서, wij는 노드 i와 노드 j간 상호 연관성 지표이고, N은 지식 네트워크의 전체 노드 집합이다.
그리고, Enodal 값은 수학식 5에 의하여 계산될 수 있다.
Figure 112020113440403-pat00006
여기서, N은 지식 네트워크의 전체 노드 집합이고, dW i,j는 수학식 1에서 계산한 최단 경로를 나타내는 값이다.
다음으로, Betweenness centrality(BC)는 수학식 6에 의하여 계산될 수 있다.
Figure 112020113440403-pat00007
여기서, ghj는 노드 h 와 j 사이의 최단 거리를 의미하고, ghj(i)는 노드 i를 통과하는 h 와 j 사이의 최단 거리를 의미한다.
다음으로, 소정의 노드가 허브의 기능을 가지는 것으로 판단되는 경우, 데이터 처리부(140)는 허브의 성격을 분류할 수 있다. 이때, 허브의 성격은 kinless 허브, connector 허브, provincial 허브 등으로 분류될 수 있다. 여기서, kinless 허브는 영향력이 가장 높은 허브, 즉 많은 모듈 내 노드들과 연결된 허브를 의미하고, connector 허브는 지식 네트워크 내 모듈을 연결하는 성격의 허브를 의미하며, provincial 허브는 주로 모듈 내에서 높은 영향력을 가지는 허브를 의미한다. 여기서, 모듈(module)은 전체 지식 네트워크를 세분화한 구조적 구성 그룹일 수 있다.
이를 위하여, 지식 네트워크 내의 모듈 지수(Modularity)는 수학식 7과 같이 계산될 수 있다. 모듈 지수(modularity)는 전체 지식 네트워크의 구성 모듈 종류 수를 의미한다.
Figure 112020113440403-pat00008
여기서,
Figure 112020113440403-pat00009
는 노드 i에서의 가중치 합을 의미하고,
Figure 112020113440403-pat00010
는 가중치 합을 의미한다. δmi,mj 는 크로네커의 델타(kronecker delta)이고, mi=mj인 경우 1이고, 나머지인 경우 0이다.
다음으로, 지식 네트워크 모듈의 참여지수(participation coefficient, PC)는 수학식 8과 같이 계산될 수 있다.
Figure 112020113440403-pat00011
여기서, M은 모듈의 집합을 의미하고,
Figure 112020113440403-pat00012
는 모듈 m 내에서 노드 i와 나머지 모든 노드 간의 연결 수를 의미하고, 모듈 m은 전체 지식 네트워크를 세분화한 구조적 구성 그룹을 의미한다.
그리고, 지식 네트워크 모듈의 z스코어(within-module degree)는 수학식 9와 같이 계산될 수 있다.
Figure 112020113440403-pat00013
여기서, mi 는 모듈 m 내의 노드 i를 의미하고,
Figure 112020113440403-pat00014
는 노드 i의 모듈 m 내에서의 연결 정도(degree)를 의미하며,
Figure 112020113440403-pat00015
는 각각 모듈 m내의 연결 정도 분포(degree distribution)의 평균과 표준 편차를 의미한다.
이상의 수학식 9의 지표 계산을 통해 각 노드가 모듈 내에서 허브인지 아닌지를 구분할 수 있다. 예를 들어, 다음과 같이, 지식 네트워크 모듈의 Z 스코어가 2.5 이상인 경우 허브인 것으로 판정될 수 있다.
1.within-module z-score ≥ 2.5: 허브
2. within-module z-score < 2.5: 허브 아님
또한, 노드가 모듈 내 허브인 것으로 판정될 경우, 수학식 8의 지표 계산을 통해 다음과 같이 허브의 종류를 분류할 수 있으며, 도7은 PC에 따라 허브의 종류를 구분하는 일례를 나타낸다.
1. Provincial 허브: PC ≤ 0.30
2. Connector 허브: 0.3 < PC ≤ 0.75
3. Kinless 허브: PC > 0.75
상술한 바와 같이, 데이터 처리부(140)가 단계 S240에서 그래프 이론 지표를 계산한 경우, 데이터 정제부(150)는 그래프 이론 지표를 이용하여 제1 지식 네트워크로부터 정제된 제2 지식 네트워크를 생성할 수 있다(S250).
제2 지식 네트워크는 제1 지식 네트워크보다 단순화된 네트워크로, 제1 지식 네트워크를 구성하는 복수의 노드 중 그래프 이론 측면에서 상관성이 높은 일부 노드들만으로 구성될 수 있다.
제2 지식 네트워크를 구성하는 노드는 제1 지식 네트워크를 구성하는 복수의 노드들 중 단계 S240에서 계산한 그래프 이론 지표가 기준 값 이상인 노드로 구성될 수 있다. 예를 들어, 제1지식 네트워크를 구성하는 복수의 노드들 중에서 노드 간 최단 경로에 대한 지표값, 노드 별 클러스터링 계수에 대한 지표값 및 노드 별 센트럴리티 계수에 대한 지표값 중 적어도 일부가 기준 값 이상인 일부 노드가 제2지식 네트워크에 포함될 수 있다. 즉, 제2지식 네트워크는 제1 지식 네트워크를 구성하는 복수의 노드 중에서 노드 간 최단 경로에 대한 지표값, 노드 별 클러스터링 계수에 대한 지표값 및 노드 별 센트럴리티 계수에 대한 지표값 중 적어도 일부가 임계 값 미만인 노드를 삭제하고, 삭제된 노드에 연관된 연결을 삭제하는 방법으로 생성될 수 있다.
여기서, 기준 값과 비교되는 그래프 이론 지표는 노드 간 최단 경로에 대한 지표값, 노드 별 클러스터링 계수에 대한 지표값, 노드 별 센트럴리티 계수에 대한 지표값 각각일 수 있다. 또는, 기준 값과 비교되는 그래프 이론 지표는 노드 간 최단 경로에 대한 지표값, 노드 별 클러스터링 계수에 대한 지표값, 노드 별 센트럴리티 계수에 대한 지표값 중 적어도 두 개를 통합하여 산출된 값일 수 있다.
일 실시 예에 따라, 노드 간 최단 경로에 대한 지표값, 노드 별 클러스터링 계수에 대한 지표값 및 노드 별 센트럴리티 계수에 대한 지표값 중 적어도 하나는 노드 별 표준 점수로 계산될 수 있으며, 계산된 표준 점수가 임계 값과 비교될 수 있다.
여기서, 표준 점수는 z 스코어일 수 있으며, 임계 값은 95%의 유의성을 의미할 수 있다. z 스코어는 수학식 10과 같이 계산될 수 있다.
Figure 112020113440403-pat00016
여기서, z는 z 스코어이고, X는 제1 지식 네트워크 내 특정 노드에 대한 소정의 그래프 이론 지표의 지표값이며, mean(x)는 제1 지식 네트워크 내의 적어도 일부 노드들에 대한 소정의 그래프 이론 지표의 평균 지표값이고, SE(x)는 제1 지식 네트워크 내의 적어도 일부 노드들의 그래프 이론 지표의 지표값의 표준 에러이다. 여기서, SE =
Figure 112020113440403-pat00017
로 나타낼 수 있으며, σ는 표준 편차이고, n은 제1 지식 네트워크를 구성하는 적어도 일부 노드들의 개수이다. 일 실시 예에 따라, z 스코어를 결정하기 위해 선택되는 제1지식 네트워크의 적어도 일부 노드들의 개수는 1000개일 수 있다.
즉, z 스코어는 제1 지식 네트워크를 구성하는 각 노드에 대한 소정의 그래프 이론 지표의 지표값과 제1 지식 네트워크를 구성하는 복수의 노드에 대한 소정의 그래프 이론 지표의 평균 지표값 간의 차를 표준 에러로 나눈 값일 수 있다.
일 실시 예에 따라, z 스코어는 퍼뮤테이션 테스트(permutation test)를 통하여 계산될 수 있다. 퍼뮤테이션 테스트는 제1 지식 네트워크를 구성하는 전체 연결선을 임의로 섞은 다음, 각 노드에 대해 z 스코어를 계산하는 방법으로 행해질 수 있다. 이때, 임의로 섞는 횟수는 1000회 이상일 수 있다.
제2 지식 네트워크를 구성하는 노드는 제1 지식 네트워크를 구성하는 복수의 노드 중에서 단계 S240에서 계산한 그래프 이론 지표 중 노드 별 허브 성격에 대한 지표 값을 이용하여 추출한 일부 노드일 수도 있다. 즉, 제2 지식 네트워크를 구성하는 노드는 수학식 9의 지표 계산을 통해 모듈 내 허브인 것으로 판정된 노드, 바람직하게는 kinless 허브, connector 허브 및 provincial 허브 중 하나로 분류된 노드, 더욱 바람직하게는 kinless 허브 및 connector 허브 중 하나로 분류된 노드, 더욱 바람직하게는 kinless 허브로 분류된 노드일 수 있다.
데이터 정제부(150)는 지식 네트워크 분석 과정에서 불필요한 제1지식 네트워크의 노드를 추가적으로 제거할 수 있다. 데이터 정제부(150)는 연결선이 하나인 노드를 해당 노드의 연결선과 함께 제거할 수 있다. 연결선이 한 개에 불과한 노드는 멀티오믹스 네트워크의 개념에 부합하지 않는 네트워크 노드로 해석될 수 있기 때문이다. 또한, 데이터 정제부(150)는 클러스터링 계수(clustering coefficient)가 0인 노드를 해당 노드의 연결선과 함께 제거할 수 있다. 클러스터링 계수의 값이 0인 노드의 경우, 주요 허브 노드가 될 가능성이 없는 노드로 해석될 수 있기 때문이다.
다음으로, 출력부(160)는 단계 S250에서 생성된 제2 지식 네트워크를 출력한다(S260). 출력부(160)는, 예를 들어 디스플레이일 수 있다. 도 8은 본 발명의 실시예에 따라 "epilepsy syndrome"를 검색어로 하여 생성된 제2지식 네트워크의 일예이다. 도 8을 참조하면, 도 6의 제1 지식 네트워크에 비하여 현저히 단순화되고 정제된 제2지식 네트워크를 얻을 수 있음을 알 수 있다. 또한, 도 8을 참조하면, "epilepsy syndrome"와 연관된 서로 다른 오믹스 레벨 내 생물학적 엔티티 및 이들 간 상호 연관성을 직관적으로 얻을 수 있음을 알 수 있다.
이와 같이, 데이터 처리 장치(100)는 소정의 검색어와 관련하여 정제된 노드만으로 구성된 제2 지식 네트워크를 생성할 수 있으며, 이에 따라 신약 후보 물질 또는 신약 후보 물질의 타겟을 용이하게 결정할 수 있다.
도11은 추가적 실시예에 따른 신약 후보 물질 발굴을 위한 데이터 처리 장치의 블록도이고, 도12는 추가적 실시 예에 따른 데이터 처리 장치의 신약 후보 물질 발굴을 위한 데이터 처리 방법의 흐름도를 나타낸다.
도11 내지 12를 참조하면, 데이터 처리 장치(100)는 약물 가능 경로를 추출하기 위한 경로 추출부(180)를 더 포함할 수 있다.
여기서, 약물 가능 경로는 약물이 반응하는 경로 또는 약물이 작용하는 경로를 의미하며, 약물 반응 경로 또는 약물 작용 경로와 혼용될 수 있다. 이때, 약물 가능 경로는 서로 다른 오믹스 레벨 내 생물학적 엔티티들 간 상호 연관도에 따라 표시될 수 있으며, 본 명세서에서 생성된 제2지식 네트워크 내 일부 연결 경로를 의미할 수 있다.
경로 추출부(180)는 제2지식 네트워크에 존재하는 약물-질환 노드 페어(Pair, 쌍)들을 분석하여 신약 후보 물질을 도출하기 위한 기초 약물을 결정하기 위한 약물 가능 경로를 추출할 수 있다(S270).
도13은 일 실시 예에 따라, 데이터 처리 장치가 약물 가능 경로를 탐색하는 방법의 흐름도를 나타낸다. 도13의 흐름도는 약물 가능 경로를 추출하는 단계(S270)의 하위 단계들을 나타낼 수 있다.
단계 S13200에서, 경로 추출부(180)는 제2지식 네트워크에 존재하는 약물-질환 노드 페어들 각각에 대한 근접도의 표준 점수(z-score)가 기준 값보다 작은 약물-질환 노드 페어들을 선택할 수 있다. 경로 추출부(180)는 제2지식 네트워크로부터 특정 약물 노드과 상기 특정 약물 노드와 연결선을 통해 연결된 질환 노드를 각각 소스 노드와 타겟 노드로 하는 적어도 하나의 약물-질환 노드 페어들을 결정할 수 있다. 일 실시 예에 따라, 경로 추출부(180)는 제2지식 네트워크로부터 특정 약물에 대한 모든 약물-질환 페어들을 추출하고, 추출된 약물-질환 페어들 각각에 대한 근접도의 표준 점수를 계산할 수 있다. 일 실시 예에 따라, 노드 페어 (s, t)(s : 소스 노드(약물), t : 타겟 노드(질환))의 근접도의 표준 점수는 하기 수학식 11을 사용하여 계산될 수 있다.
Figure 112020113440403-pat00018
(s : 소스 노드, t : 현재 타겟 노드, T : 타겟 노드들의 집합, d(s, t) : 소스 노드 s와 현재 타겟 노드 t의 최단 경로(최단 거리), mean(d(s, T)) : 소스 노드 s 와 타겟 노드 집합 T로 구성되는 노드 페어들에 대한 최단 경로들의 평균, SD(d(s, T)) : 소스 노드 s 와 타겟 노드 집합 T로 구성되는 노드 페어들에 대한 최단 경로들의 표준 편차, z(s, t) : 소스 노드 s와 현재 타겟 노드 t의 근접도의 표준 점수(z-score))
경로 추출부(180)는 근접도의 표준 점수(z-score)가 기준 값보다 작은 적어도 하나의 약물-질환 노드 페어를 선택할 수 있다. 예를 들어, 신뢰도가 90%로 설정되는 경우 기준 값은 -1.645이고, 95%로 설정되는 경우 기준 값은 -1.960이고, 99%로 설정되는 경우 기준 값은 -2.576으로 결정될 수 있다.
단계 S13400에서, 경로 추출부(180)는 단계 S13200에서 선택된 약물-질환 노드 페어의 근접도가 기준 값 이하인 페어들에 대한 경로들 중에서 경로들 각각에 존재하는 중간 노드(즉, 약물 노드와 질환 노드 사이에 존재하는 노드)가 기준 개수 이상인 경로들을 추출할 수 있다. 예를 들어, 경로 추출부(180)는 단계 S13200에서 추출된 페어들 중에서 두 개 이상의 중간 노드가 존재하는 약물-질환 노드 페어의 경로들을 추출할 수 있다.
단계 S13600에서, 경로 추출부(180)는 단계 S13400에서 추출된 중간 노드가 기준 개수 이상인 경로들 중에서 중간 노드들의 센트럴리티(centrality) 계수의 총합이 기준 값 이상인 경로를 약물 가능 경로로서 추출할 수 있다. 예를 들어, 경로 추출부(180)는 단계 S13400에서 추출된 중간 노드가 기준 개수 이상인 경로들 각각에 대해 경로를 구성하는 중간 노드들의 센트렐리티(centrality) 계수의 총합을 계산하고, 계산된 총합이 상위(예를 들어, 단계 S13400에서 추출된 경로들의 중간 노드 센트렐리티(centrality) 계수의 총합에 대한 분포 중 상위 1% 이내)인 경로들을 약물 가능 경로로서 추출할 수 있다. 이로써, 경로 추출부(180)는 제2지식 네트워크 내에서 집중도가 높은 노드를 거치고 이동 경로의 효율을 높이는 약물 가능 경로를 추출할 수 있다.
본 명세서에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field-programmable gate array) 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.
한편, 상술한 데이터 처리 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽힐 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등을 포함할 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 프로세서가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
설명들은 본 발명을 구현하기 위한 예시적인 구성들 및 동작들을 제공하도록 의도된다. 본 발명의 기술 사상은 위에서 설명된 실시 예들뿐만 아니라, 위 실시 예들을 단순하게 변경하거나 수정하여 얻어질 수 있는 구현들도 포함할 것이다. 또한, 본 발명의 기술 사상은 위에서 설명된 실시 예들을 앞으로 용이하게 변경하거나 수정하여 달성될 수 있는 구현들도 포함할 것이다.

Claims (5)

  1. 데이터 처리 장치에서 수행되는 신약 후보 물질 발굴을 위한 데이터 처리 방법에 있어서,
    선택된 생물학적 엔티티와 선택된 상호 연관도 종류로 구성되는 DB 매트릭스를 오믹스 DB로부터 생성하는 단계;
    검색어를 수신하는 단계;
    상기 DB 매트릭스로부터 상기 검색어와 다른 오믹스 레벨에 속하고 상기 검색어와 관련된 생물학적 엔티티들을 추출하는 단계;
    상기 DB 매트릭스로부터 상기 검색어와 상기 생물학적 엔티티들 간의 상호 연관도를 추출하는 단계;
    상기 검색어와 상기 생물학적 엔티티들 각각을 노드로 하고, 상기 검색어와 상기 생물학적 엔티티들 사이의 상호 연관도 또는 상기 생물학적 엔티티들 간 상호 연관도에 따라 연결선을 이용하여 복수의 노드들을 연결한 제1지식 네트워크를 생성하는 단계;
    상기 제1지식 네트워크의 복수의 노드들 각각에 대해 그래프 이론 지표를 계산하는 단계; 및
    상기 제1지식 네트워크의 복수의 노드들 중 상기 그래프 이론 지표를 이용하여 선택된 일부 노드들을 이용하여 제2지식 네트워크를 생성하는 단계를 포함하고,
    상기 검색어는 유전자명, 단백질명, 신진대사체명, 증상명, 질환명, 화합물명 및 약품명 중 적어도 하나를 포함하고,
    상기 생물학적 엔티티는 유전자, 단백질, 신진대사체, 증상, 질환, 화합물 및 약품 중 적어도 두개를 포함하며,
    상기 상호 연관도의 범주는 참여(participate), 공변(covariate), 조절(regulate), 연관(associate), 결합(bind), 업레귤레이트(upregulate), 유사(resemble), 치료(treat), 다운레귤레이트(downregulates), 완화(palliate), 포함(include), 및 표출(express) 중 적어도 두개를 포함하며,
    상기 그래프 이론 지표는 상기 제1지식 네트워크를 구성하는 복수의 노드들 중 적어도 하나에 대한 노드 간 최단 경로, 노드 별 클러스터링 계수, 노드 별 센트럴리티 계수를 포함하고,
    상기 DB 매트릭스는,
    상기 선택된 생물학적 엔티티들이 가로축 및 세로축 각각에 배치되며, 가로축과 세로축이 교차하는 지점에 상기 상호 연관도 종류가 표시되도록 생성되는 방법.
  2. 제1항에 있어서,
    상기 연결선이 나타내는 상호연관도의 범주에 따라 상기 연결선의 가중치가 다르게 설정되고, 상기 노드 간 최단 경로는 상기 설정된 가중치를 반영하여 산출되고,
    상기 제2지식 네트워크를 생성하는 단계는,
    상기 제1지식 네트워크를 구성하는 복수의 노드들 각각에 대해 상기 노드 간 최단 경로, 상기 노드 별 클러스터링 계수, 및 상기 노드 별 센트럴리티 계수 중 적어도 하나에 대한 표준 점수를 계산하고, 상기 표준 점수가 임계 값 미만인 노드와 상기 임계 값 미만인 노드의 연결선을 삭제함으로써 상기 제2지식 네트워크를 생성하고,
    상기 표준 점수는 제1 지식 네트워크를 구성하는 각 노드에 대한 소정의 그래프 이론 지표의 지표값과 제1 지식 네트워크를 구성하는 복수의 노드에 대한 그래프 이론 지표의 평균 지표값 간의 차를 표준 에러로 나눈 값인 방법.
  3. 제1항에 있어서,
    상기 상호연관도의 범주는, 상호작용(interact), 원인(cause), 발현(present), 및 위치(localize) 중 적어도 하나를 더 포함하는 방법.
  4. 제1항에 있어서,
    상기 제2지식 네트워크로부터 약물 가능 경로를 추출하는 단계를 더 포함하고,
    상기 약물 가능 경로를 추출하는 단계는,
    상기 제2지식 네트워크에 존재하는 약물-질환 노드들 각각에 대한 근접도의 표준 점수가 기준 값보다 작은 약물-질환 노드 페어들을 선택하는 단계;
    상기 선택된 약물-질환 노드 페어들에 대한 경로들 중에서, 상기 경로들 각각에 존재하는 중간 노드가 기준 개수 이상인 경로들을 추출하는 단계; 및
    상기 추출된 경로들 중에서, 상기 추출된 경로들의 중간 노드들의 센트렐리티 계수의 총합이 기준 값 이상인 경로를 상기 약물 가능 경로로서 추출하는 단계를 포함하는 방법.
  5. 데이터 처리 장치가 DB 매트릭스에서 입력된 검색어와 관련된 생물학적 엔티티 및 상기 관련된 생물학적 엔티티들 간의 상호 연관도를 추출하는 단계;
    상기 데이터 처리 장치가 상기 DB 매트릭스를 이용하여 상기 검색어와 관련된 제1지식 네트워크를 생성하는 단계;
    상기 데이터 처리 장치가 상기 제1지식 네트워크를 구성하는 노드들 각각에 대해 그래프 이론 지표를 계산하는 단계;
    상기 데이터 처리 장치가 상기 제1지식 네트워크의 노드들 중 상기 그래프 이론 지표가 임계값 이상인 노드들을 이용하여 제2지식 네트워크를 생성하는 단계; 및
    상기 데이터 처리 장치가 상기 제2지식 네트워크의 노드들 중 적어도 하나를 상기 검색어와 관련된 결과 노드로 결정하는 단계를 포함하되,
    상기 검색어는 유전자명, 단백질명, 신진대사체명, 증상명, 질환명, 화합물명 및 약품명중 적어도 하나를 포함하고,
    상기 DB 매트릭스는 오믹스 DB로부터 추출한 생물학적 엔티티들과 상기 추출한 생물학적 엔티티들 중 적어도 일부 엔티티들 사이의 상호 연관도 정보를 포함하고,
    상기 생물학적 엔티티는 유전자, 단백질, 신진대사체, 증상, 질환, 화합물 및 약품 중 적어도 두개를 포함하며,
    상기 상호 연관도의 종류는 참여(participate), 공변(covariate), 조절(regulate), 연관(associate), 결합(bind), 업레귤레이트(upregulate), 유사(resemble), 치료(treat), 다운레귤레이트(downregulates), 완화(palliate), 포함(include), 및 표출(express) 중 적어도 두개를 포함하며,
    상기 제1지식 네트워크는 상기 검색어와 상기 관련된 생물학적 엔티티들이 구성하는 복수의 노드들 및 상기 상호 연관도 정보를 기준으로 상기 복수의 노드들 중 연관된 노드들를 연결하는 에지들을 포함하고,
    상기 그래프 이론 지표는 노드 간 최단 경로, 노드 별 클러스터링 계수, 노드 별 센트럴리티 계수 중 적어도 하나의 지표를 포함하는 멀티오믹스 네트워크 기반 신약 후보 물질 탐색 방법.
KR1020200139362A 2019-03-13 2020-10-26 멀티오믹스 네트워크 기반 신약 후보 물질 탐색 방법 KR102379214B1 (ko)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
KR1020190028789 2019-03-13
PCT/KR2019/002919 WO2020138589A1 (ko) 2018-12-24 2019-03-13 신약 후보 물질 발굴을 위한 멀티오믹스 데이터 처리 장치 및 방법
PCT/KR2019/002918 WO2020138588A1 (ko) 2018-12-24 2019-03-13 신약 후보 물질 발굴을 위한 데이터 처리 장치 및 방법
KR1020190028788 2019-03-13
KRPCT/KR2019/002918 2019-03-13
KR1020190028789 2019-03-13
KR1020190028788 2019-03-13
KRPCT/KR2019/002919 2019-03-13
KR1020190163398A KR102181058B1 (ko) 2019-03-13 2019-12-10 신약 후보 물질 도출을 위한 데이터 처리 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020190163398A Division KR102181058B1 (ko) 2019-03-13 2019-12-10 신약 후보 물질 도출을 위한 데이터 처리 방법

Publications (2)

Publication Number Publication Date
KR20200123771A KR20200123771A (ko) 2020-10-30
KR102379214B1 true KR102379214B1 (ko) 2022-03-25

Family

ID=72426290

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200139362A KR102379214B1 (ko) 2019-03-13 2020-10-26 멀티오믹스 네트워크 기반 신약 후보 물질 탐색 방법

Country Status (3)

Country Link
US (1) US20220020454A1 (ko)
KR (1) KR102379214B1 (ko)
WO (1) WO2020184816A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11514334B2 (en) * 2020-02-07 2022-11-29 International Business Machines Corporation Maintaining a knowledge database based on user interactions with a user interface

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101450784B1 (ko) 2013-07-02 2014-10-23 아주대학교산학협력단 전자의무기록과 약물/질환 네트워크 정보 기반의 신약 재창출 후보 예측 방법
US20160140327A1 (en) 2014-11-14 2016-05-19 International Business Machines Corporation Generating drug repositioning hypotheses based on integrating multiple aspects of drug similarity and disease similarity
JP2016099674A (ja) 2014-11-18 2016-05-30 国立研究開発法人産業技術総合研究所 薬剤探索装置、薬剤探索方法およびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844609B2 (en) * 2007-03-16 2010-11-30 Expanse Networks, Inc. Attribute combination discovery
US20140207385A1 (en) * 2011-08-26 2014-07-24 Philip Morris Products Sa Systems and methods for characterizing topological network perturbations
KR101964694B1 (ko) * 2017-03-28 2019-08-07 가천대학교 산학협력단 약물의 유사도 판단장치, 방법, 및 컴퓨터-판독가능매체
US11574122B2 (en) * 2018-08-23 2023-02-07 Shenzhen Keya Medical Technology Corporation Method and system for joint named entity recognition and relation extraction using convolutional neural network
US11487902B2 (en) * 2019-06-21 2022-11-01 nference, inc. Systems and methods for computing with private healthcare data
WO2020257783A1 (en) * 2019-06-21 2020-12-24 nference, inc. Systems and methods for computing with private healthcare data
US11556579B1 (en) * 2019-12-13 2023-01-17 Amazon Technologies, Inc. Service architecture for ontology linking of unstructured text
CA3172725A1 (en) * 2020-03-23 2021-09-30 Sorcero, Inc. Feature engineering with question generation
US11574128B2 (en) * 2020-06-09 2023-02-07 Optum Services (Ireland) Limited Method, apparatus and computer program product for generating multi-paradigm feature representations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101450784B1 (ko) 2013-07-02 2014-10-23 아주대학교산학협력단 전자의무기록과 약물/질환 네트워크 정보 기반의 신약 재창출 후보 예측 방법
US20160140327A1 (en) 2014-11-14 2016-05-19 International Business Machines Corporation Generating drug repositioning hypotheses based on integrating multiple aspects of drug similarity and disease similarity
JP2016099674A (ja) 2014-11-18 2016-05-30 国立研究開発法人産業技術総合研究所 薬剤探索装置、薬剤探索方法およびプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
blueoss. "평가점수 조정방법(평균 표준편차 일치법)". 네이버 블로그, [online], 인터넷:<URL: https://m.blog.naver.com/blueoss/220896032115>(2016.12.27.) 1부.
D. KENT ARRELL 외 1인. Network Systems Biology for Drug Discovery. Clinical Pharmacology & Therapeutics, 88권, 1호, pp. 120-125, 2010.07. 공개 1부.
YING YU 외 14인 . PreMedKB: an integrated precision medicine knowledgebase for interpreting relationships between diseases, ~. Nucleic Acids Research, 47권, pp. D1090-D1101, 2018.11.08. 공개 1부.

Also Published As

Publication number Publication date
US20220020454A1 (en) 2022-01-20
WO2020184816A1 (ko) 2020-09-17
KR20200123771A (ko) 2020-10-30

Similar Documents

Publication Publication Date Title
KR102181058B1 (ko) 신약 후보 물질 도출을 위한 데이터 처리 방법
CN110837550B (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
CN112364880B (zh) 基于图神经网络的组学数据处理方法、装置、设备及介质
Guendouz et al. A discrete modified fireworks algorithm for community detection in complex networks
CN113140254B (zh) 元学习药物-靶点相互作用预测系统及预测方法
CN113470741B (zh) 药物靶标关系预测方法、装置、计算机设备及存储介质
KR20220099504A (ko) 친화도 예측 방법 및 모델의 트레이닝 방법, 장치, 전자 기기 및 기록 매체
US20210365795A1 (en) Method and apparatus for deriving new drug candidate substance
KR102379214B1 (ko) 멀티오믹스 네트워크 기반 신약 후보 물질 탐색 방법
CN115271071A (zh) 基于图神经网络的知识图谱实体对齐方法、系统及设备
KR20190125840A (ko) 질병 관련 유전자 순위정보 제공 방법
CN114141361B (zh) 基于症状术语映射与深度学习的中医处方推荐方法
CN114490926A (zh) 一种相似问题的确定方法、装置、存储介质及终端
KR102187594B1 (ko) 신약 후보 물질 발굴을 위한 멀티오믹스 데이터 처리 장치 및 방법
CN109101783A (zh) 一种基于概率模型的癌症网络标志物确定方法及系统
KR102187586B1 (ko) 신약 후보 물질 발굴을 위한 데이터 처리 장치 및 방법
US11915832B2 (en) Apparatus and method for processing multi-omics data for discovering new drug candidate substance
CN111159382A (zh) 会话系统知识模型的构建和使用方法及装置
CN114580354B (zh) 基于同义词的信息编码方法、装置、设备和存储介质
US20210397978A1 (en) Apparatus and method for processing data discovering new drug candidate substance
KR102106670B1 (ko) 유사도 기반의 관계망에서 군집 구조를 도출하는 방법
Sekula et al. Single-cell differential network analysis with sparse Bayesian factor models
CN111785333B (zh) 基于生物学网络数据的药物作用靶点筛选方法、装置、电子设备及存储介质
Cai et al. Identification of protein complexes from tandem affinity purification/mass spectrometry data via biased random walk
CN116453586B (zh) 一种细胞特异性合成致死对预测方法、装置、设备和介质

Legal Events

Date Code Title Description
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant