KR20200036296A - 유전체 정보 공통데이터 모델 변환시스템 - Google Patents

유전체 정보 공통데이터 모델 변환시스템 Download PDF

Info

Publication number
KR20200036296A
KR20200036296A KR1020180115774A KR20180115774A KR20200036296A KR 20200036296 A KR20200036296 A KR 20200036296A KR 1020180115774 A KR1020180115774 A KR 1020180115774A KR 20180115774 A KR20180115774 A KR 20180115774A KR 20200036296 A KR20200036296 A KR 20200036296A
Authority
KR
South Korea
Prior art keywords
genome
data
common data
unit
information
Prior art date
Application number
KR1020180115774A
Other languages
English (en)
Inventor
이종훈
권순재
유대성
Original Assignee
주식회사 어큐진
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 어큐진 filed Critical 주식회사 어큐진
Priority to KR1020180115774A priority Critical patent/KR20200036296A/ko
Publication of KR20200036296A publication Critical patent/KR20200036296A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Physiology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 개별적인 유전체 정보를 효율적으로 표준화, 공통화하여, 누구나 쉽게 공유하여 활용할 수 있는 유전체 공통데이터로 변환하는 새로운 구성의 유전체 정보 공통데이터 모델 변환시스템에 대한 것으로서,
유전체 정보를 입력 받는 유전체 정보입력부; 상기 유전체 정보입력부에 입력된 유전체 정보에서 유전체 속성(attribute), 유전체 값(value)을 추출하는 파싱부; 상기 파싱부에서 추출한 유전체 속성(attribute)을 기반으로 하여 입력된 유전체 정보의 국제표준 임상용어 ID(concept ID)를 검색하는 임상용어ID검색부; 상기 임상용어ID검색부에서 검색한 국제표준 임상용어 ID(concept ID)를 기반으로 하여 상기 파싱부에서 추출한 유전체 속성(attribute)과 유전체 값(value)을 유전체 공통데이터 모델에 매핑하여 유전체 공통 데이터를 가공하는 데이터매핑부; 및 상기 데이터매핑부에서 가공된 유전체 공통 데이터를 저장하는 데이터저장부;를 포함한다.

Description

유전체 정보 공통데이터 모델 변환시스템{Common data convert system for genome information}
본 발명은 유전체 정보 공통데이터 모델 변환시스템에 관한 것으로서, 개별적인 유전체 정보를 표준화, 공통화하여 손쉽게 활용할 수 있는 유전체 정보 공통데이터로 가공하는 새로운 구성의 유전체 정보 공통데이터 모델 변환시스템에 관한 것이다.
질병과 관련하여 유전변이를 찾기 위한 다양한 연구들이 진행되고 있으며, 병원이나 연구소 등에서 유전체를 이용한 치료 방법의 연구를 위해 다양한 임상정보를 축적하고 있다. 뿐만 아니라 차세대 유전체 해독(Next Generation Sequencing: NGS) 기술의 발전에 따라 연구자들이 저비용으로 개인 유전체의 전반적 변이를 알 수 있게 되었다.
그러나 이와 같이 유전체 데이터가 급격히 증가하고 있음에도 불구하고, 이러한 개인 유전체 정보를 의료에 효과적으로 활용하기 위해서는 개인별로 특이적인 유전체 정보를 효과적으로 통합 분석할 수 있는 방법이 필요하다. 또한, 같은 주제에 대한 여러 연구에 있어 연구대상자, 연구 설계 및 해석의 차이에 따라 서로 다른 결과가 도출되는 경우 역시 흔히 발생되고 있다.
이와 같은 문제점으로 인해 국내외 여러 기관의 데이터를 모아서 다양한 연구방법을 적용하고 분석하고자 하는 노력이 이루어지고 있으며, 그 일환으로 CDM(Common Data Model, 공통 데이터 모델)을 활용한 연구 네트워크 구축이 이루어지고 있다. 그러나 현재 CDM은 유전체 데이터를 위한 형식을 지원하지 않기 때문에 기존 모델에 정보를 저장하기에는 어려움이 있다.
한편, OHDSI(오딧세이, Observational Health Data Sciences and Informatics)는 대규모 분석을 통해 헬스 데이터의 가치를 높이기 위한 목적으로 결성된 기구로서, 유전체 정보 저장을 목적으로 유전체 공통 데이터모델을 개발하여 제공하고 있다.
대한민국 공개특허 제10-2018-0069651호(2018. 06. 25) 대한민국 등록특허 제10-1799823호(2017. 11. 15)
본 발명은 상기의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 개별적인 유전체 정보를 효율적으로 표준화, 공통화하여, 누구나 쉽게 공유하여 활용할 수 있는 유전체 공통데이터로 변환하는 새로운 구성의 유전체 정보 공통데이터 모델 변환시스템을 제공하는 것이다.
본 발명의 일 특징에 따르면, 유전체 정보를 입력 받는 유전체 정보입력부; 상기 유전체 정보입력부에 입력된 유전체 정보에서 유전체 속성(attribute), 유전체 값(value)을 추출하는 파싱부; 상기 파싱부에서 추출한 유전체 속성(attribute)을 기반으로 하여 입력된 유전체 정보의 국제표준 임상용어 ID(concept ID)를 검색하는 임상용어ID검색부; 상기 임상용어ID검색부에서 검색한 국제표준 임상용어 ID(concept ID)를 기반으로 하여 상기 파싱부에서 추출한 유전체 속성(attribute)과 유전체 값(value)을 유전체 공통데이터 모델에 매핑하여 유전체 공통 데이터를 가공하는 데이터매핑부; 및 상기 데이터매핑부에서 가공된 유전체 공통 데이터를 저장하는 데이터저장부;를 포함하는 것을 특징으로 하는 유전체 정보 공통데이터 모델 변환시스템이 제공된다.
본 발명의 다른 특징에 따르면, 상기 임상용어ID검색부는 OHDSI(오딧세이, Observation Health Data Science and Informatics)의 국제표준 임상용어 데이터베이스에서 국제표준 임상용어 ID를 검색하며,
상기 데이터매핑부에서는 유전체 공통데이터 모델로 OHDSI(오딧세, Observation Health Data Science and Informatics)에서 제공하는 유전체 공통데이터 모델(GCDM)을 사용한다.
이상과 같은 구성을 가지는 본 발명은 병원, 연구소 등의 각종 기관에서 구축하고 있는 임상정보를 신속하고 효율적으로 표준화, 공통화하여 접근하여 손쉽게 활용할 수 있는 유전체 공통데이터로 가공한다. 따라서 본 발명에 의해 유전체 정보를 가공하면 유전체 정보의 활용 가치가 높아지며, 타 연구자들이 연구성과를 공용하여 활용할 수 있으므로 협업연구, 대규모 분석 등을 효율적으로 할 수 있다.
뿐만 아니라 본 발명을 사용하면 개별적인 유전체 정보를 표준화, 공통화함으로써, 개인정보 침해우려가 없는 정보를 제공할 수 있는 장점도 가진다.
도 1은 본 발명의 바람직한 실시예의 전체적인 구성도
도 2 내지 도 5는 상기 실시예의 각 구성별 구성도
이하에서 본 발명을 구체적으로 설명한다.
본 발명은 유전체 정보를 입력받는 유전체 정보입력부, 입력된 유전체 정보에서 유전체 속성과 유전체 값을 추출하는 파싱부, 추출한 유전체 속성에 맞는 국제표준 임상용어ID를 검색하는 임상용어ID검색부, 추출한 유전체 속성, 유전체 값 및 국제표준 임상용어 ID를 유전체 공통데이터 모델에 매핑하여 유전체 공통데이터를 가공하는 데이터매핑부, 가공된 유전체 공통데이터를 저장하는 데이터저장부를 포함한다.
이하에서, 본 발명을 바람직한 실시예를 통해 구체적으로 설명하면 다음과 같다.
도 1은 본 발명의 바람직한 실시예에 따른 구성도이고, 도 2 내지 5는 바람직한 실시예의 각 구성별 상세도이다.
상기 유전체 정보입력부는 병원이나 연구소 등에서 개별적으로 구축한 임상정보를 유전체 정보로 입력받는 부분으로서, 유, 무선 통신방식이나 USB메모리 및 SD카드 등의 저장매체에 저장된 유전체 정보를 리딩하여 저장하는 방식을 이용하여 데이터 입력이 가능하다. 도 2에서는 유전체 정보가 vcf포맷 파일 형태로 입력되는 것으로 예시되었으나, 유전체 정보는 다양한 파일형태로 입력될 수 있음은 당연하다.
상기 파싱부는 상기 유전체 정보입력부를 통해 입력된 유전체 정보를 리딩하고 파싱(parsing)하여 유전체 정보의 유전체 속성(attribute)과 유전체 값(value)을 추출하는 기능을 한다. 이러한 파싱부는 파싱 프로그램(parsing program)으로 이루어지는데, 도 2에 도시된 바와 같이, 입력된 유전체 정보 파일을 헤더(header)와 바디(body)로 구분하고, 헤더의 말미에 포함된 유전체 속성(attribute)과 바디에 포함된 유전체 값(value)을 각각 추출하고 저장한다.
상기 임상용어ID검색부는 상기 단계에서 추출한 유전체 속성(attribute)을 기반으로 하여 국제표준 임상용어 데이터베이스를 통해 해당 유전체의 국제표준 임상용어 ID(concept ID)를 검색하는 기능을 한다.
바람직하게는 국제표준용어 데이터베이스로 OHDSI(오딧세이, Observation Health Data Science and Informatics)의 국제표준 임상용어 데이터베이스를 통해 해당 유전체의 국제표준 임상용어 ID(concept ID)를 검색한다. 본 발명에 의한 시스템에 OHDSI(오딧세이, Observation Health Data Science and Informatics)의 국제표준 임상용어 데이터베이스가 저장되어, ID검색부가 저장된 테이터베이스에서 유전체 ID를 검색할 수도 있고, 유, 무선 통신망을 통해 OHDSI(오딧세이, Observation Health Data Science and Informatics)의 국제표준 임상용어 데이터베이스에 접근하여 ID를 검색할 수도 있다.
보다 구체적으로는, 임상용어ID검색부는 사용자가 추출된 유전체 속성(attribute)을 데이터베이스에 입력하여 매칭되는 국제표준 임상용어 ID(concept ID)를 검색하거나 또는 전 단계에서 유전체 속성(attribute)이 추출되면 자동으로 국제표준 임상용어 ID(concept ID)를 검색하도록 구성될 수도 있다.
그리고 상기 데이터매핑부는 상기 임상용어ID검색부에서 검색한 국제표준 임상용어 ID(concept ID)를 기반으로 하여 전 단계에서 추출한 유전체 속성(attribute)과 유전체 값(value)을 OHDSI(오딧세이)에서 제공하는 유전체 공통데이터 모델(GCDM, Genome Common Data Model)에 매핑(mapping)하여, 유전체 공통데이터를 가공하는 기능을 한다.
보다 구체적으로는 도 4에 도시된 바와 같이, 검색된 국제표준 임상용어 ID(concept ID)를 기반으로 하여 유전체 공통데이터 모델의 속성과의 매치여부를 확인하고, 유전체 속성과 유전체 값을 유전체 공통 데이터 모델의 스키마에 적용하여 테이블을 생성한다.
또한, 상기 데이터저장부는 상기 데이터매핑부에서 가공된 유전체 공통데이터를 저장하는 기능을 하는 것으로서, 도 5에 도시된 바와 같이, DBMS이용하여 가공된 공통데이터를 BigQuery, Impala, Netezza, Oracle, ParalleDataWarehouse, PostgreSQL, Redshift 및 sql Server 등의 다양한 데이터 포맷에 맞추어 저장함으로써 서로 다른 데이터 형식을 이용하는 병원이나 기관에서 범용적으로 가공된 데이터를 활용할 수 있도록 한다.
이상과 같은 구성을 가지는 본 발명은 개별적인 유전체 정보를 표준화, 공통화하여 누구나 접근하여 활용할 수 있는 유전체 공통데이터로 효율적으로 가공할 수 있다.

Claims (2)

  1. 유전체 정보를 입력 받는 유전체 정보입력부;
    상기 유전체 정보입력부에 입력된 유전체 정보에서 유전체 속성(attribute), 유전체 값(value)을 추출하는 파싱부;
    상기 파싱부에서 추출한 유전체 속성(attribute)을 기반으로 하여 입력된 유전체 정보의 국제표준 임상용어 ID(concept ID)를 검색하는 임상용어ID검색부;
    상기 임상용어ID검색부에서 검색한 국제표준 임상용어 ID(concept ID)를 기반으로 하여 상기 파싱부에서 추출한 유전체 속성(attribute)과 유전체 값(value)을 유전체 공통데이터 모델에 매핑하여 유전체 공통 데이터를 가공하는 데이터매핑부; 및
    상기 데이터매핑부에서 가공된 유전체 공통 데이터를 저장하는 데이터저장부;를 포함하는 것을 특징으로 하는 유전체 정보 공통데이터 모델 변환시스템.
  2. 제1항에 있어서,
    상기 임상용어ID검색부는 OHDSI(오딧세이, Observation Health Data Science and Informatics)의 국제표준 임상용어 데이터베이스에서 국제표준 임상용어 ID를 검색하며,
    상기 데이터매핑부에서는 상기 유전체 공통데이터 모델로 OHDSI(오딧세dl, Observation Health Data Science and Informatics)에서 제공하는 유전체 공통데이터 모델(GCDM)을 사용하는 것을 특징으로 하는 유전체 정보 공통데이터 모델 변환시스템.
KR1020180115774A 2018-09-28 2018-09-28 유전체 정보 공통데이터 모델 변환시스템 KR20200036296A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180115774A KR20200036296A (ko) 2018-09-28 2018-09-28 유전체 정보 공통데이터 모델 변환시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180115774A KR20200036296A (ko) 2018-09-28 2018-09-28 유전체 정보 공통데이터 모델 변환시스템

Publications (1)

Publication Number Publication Date
KR20200036296A true KR20200036296A (ko) 2020-04-07

Family

ID=70290767

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180115774A KR20200036296A (ko) 2018-09-28 2018-09-28 유전체 정보 공통데이터 모델 변환시스템

Country Status (1)

Country Link
KR (1) KR20200036296A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200036298A (ko) * 2018-09-28 2020-04-07 주식회사 어큐진 유전체 정보 공통데이터 모델 변환방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101799823B1 (ko) 2015-08-12 2017-11-21 아주대학교산학협력단 다기관 의료 데이터 통합 분석을 위한 정규화 방법 및 그 시스템
KR20180069651A (ko) 2016-12-15 2018-06-25 (주)신테카바이오 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101799823B1 (ko) 2015-08-12 2017-11-21 아주대학교산학협력단 다기관 의료 데이터 통합 분석을 위한 정규화 방법 및 그 시스템
KR20180069651A (ko) 2016-12-15 2018-06-25 (주)신테카바이오 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200036298A (ko) * 2018-09-28 2020-04-07 주식회사 어큐진 유전체 정보 공통데이터 모델 변환방법

Similar Documents

Publication Publication Date Title
JP5822680B2 (ja) 平坦データの階層情報を取得する方法及び装置
RU2729458C2 (ru) Сопоставление больниц из обезличенных баз данных здравоохранения без очевидных квазиидентификаторов
Lee et al. Alternatives to relational database: comparison of NoSQL and XML approaches for clinical data storage
Pommier et al. Applying FAIR principles to plant phenotypic data management in GnpIS
CN108121739B (zh) 数据收集方法和数据收集系统
KR102358038B1 (ko) Xml 기반의 의료 기관 데이터베이스 통합 관리 시스템
WO2009082046A1 (en) System and method for analysis of information
Segagni et al. The ONCO-I2b2 project: integrating biobank information and clinical data to support translational research in oncology
CN115617840B (zh) 医疗数据检索平台构建方法、系统、计算机及存储介质
CN113409907A (zh) 一种基于互联网医院的智能预问诊方法及系统
Spasić et al. MeMo: a hybrid SQL/XML approach to metabolomic data management for functional genomics
CN109299238B (zh) 一种数据查询方法和装置
KR20200036296A (ko) 유전체 정보 공통데이터 모델 변환시스템
US20170255752A1 (en) Continuous adapting system for medical code look up
CN108154914B (zh) 一种准确匿名化存储和检索医疗图像的方法
CN110752027A (zh) 电子病历数据推送方法、装置、计算机设备和存储介质
CN107862043B (zh) 检查信息的检索方法及装置
CN110569372B (zh) 一种心脏病大数据知识图谱系统的构建方法
CN111460173A (zh) 一种甲状腺癌的疾病本体模型的构建方法
KR102215529B1 (ko) 유전체 정보 공통데이터 모델 변환방법
JP5914735B1 (ja) 医療システム及びプログラム
Ren et al. HMDFF: a heterogeneous medical data fusion framework supporting multimodal query
CN111984694A (zh) 一种骨科搜索引擎系统
CN112236824A (zh) 使用基于图的参考基因组的等位基因解读的系统和方法
Sindhu et al. A framework to handle data heterogeneity contextual to medical big data

Legal Events

Date Code Title Description
E902 Notification of reason for refusal