KR102471699B1 - Genome data de-identification processing device, method and computer program for generating non-identifying genetic data by de-identifying genomic data to protect personal information - Google Patents

Genome data de-identification processing device, method and computer program for generating non-identifying genetic data by de-identifying genomic data to protect personal information Download PDF

Info

Publication number
KR102471699B1
KR102471699B1 KR1020200148142A KR20200148142A KR102471699B1 KR 102471699 B1 KR102471699 B1 KR 102471699B1 KR 1020200148142 A KR1020200148142 A KR 1020200148142A KR 20200148142 A KR20200148142 A KR 20200148142A KR 102471699 B1 KR102471699 B1 KR 102471699B1
Authority
KR
South Korea
Prior art keywords
data
identification
score
markers
marker
Prior art date
Application number
KR1020200148142A
Other languages
Korean (ko)
Other versions
KR20220061776A (en
Inventor
황태순
류동성
Original Assignee
주식회사 테라젠바이오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 테라젠바이오 filed Critical 주식회사 테라젠바이오
Priority to KR1020200148142A priority Critical patent/KR102471699B1/en
Publication of KR20220061776A publication Critical patent/KR20220061776A/en
Application granted granted Critical
Publication of KR102471699B1 publication Critical patent/KR102471699B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

본 개시의 실시 예들에 따른 유전체 데이터 비식별화 처리 장치, 및 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 방법은 개인의 유전체 정보에서, 개인 식별이 가능한 마커들을 비식별화 처리하여 비식별 유전데이터를 제공할 수 있다. Genomic data de-identification processing apparatus and method for generating de-identified genetic data obtained by de-identifying genomic data according to embodiments of the present disclosure include de-identification of markers capable of personal identification in individual genome information, Non-identifying genetic data can be provided.

Figure R1020200148142
Figure R1020200148142

Description

개인정보를 보호하기 위한 유전체 데이터 비식별화 처리 장치, 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 방법 및 컴퓨터 프로그램{Genome data de-identification processing device, method and computer program for generating non-identifying genetic data by de-identifying genomic data to protect personal information}Genome data de-identification processing device, method and computer program for generating non-identification processing device, method and computer program for generating non-identified genetic data by de-identification processing of genome data for protecting personal information identifying genetic data by de-identifying genomic data to protect personal information}

본 개시의 실시 예는 유전체 데이터 생성 장치, 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 방법 및 컴퓨터 프로그램을 개시한다. An embodiment of the present disclosure discloses a genome data generating device, a method for generating non-identified genetic data obtained by de-identifying genetic data, and a computer program.

2000년대 초 인간유전체 서열의 해독이 완료된 이후로 개인의 유전 변이를 연구하는 기법이 급속이 발전해 왔다. 예컨대, 단일염기다형성(SNP, Single Nucleotide Polymorphism)은 대용량으로 분석할 수 있는 기술의 발전으로 저렴한 비용으로 짧은 시간에 수십만 개의 유전 변이를 결정할 수 있게 되었다. NGS(Next Generation Sequencing)기술을 이용하여 수 십 만개의 SNP를 도출하고 이들 중에서 통계적으로 표현형과 유의미하게 관련 있는 유전 변이를 찾는 연구분야를 전장유전체상관성분석(Genome-Wide Association Study, GWAS)이라 한다.Since the decoding of the human genome sequence was completed in the early 2000s, techniques for studying individual genetic variation have developed rapidly. For example, single nucleotide polymorphisms (SNPs) have become capable of determining hundreds of thousands of genetic mutations in a short period of time at low cost due to the development of large-capacity analysis technology. Genome-Wide Association Study (GWAS) is a research field that derives hundreds of thousands of SNPs using NGS (Next Generation Sequencing) technology and finds genetic variations statistically significantly related to phenotypes among them. .

개인의 표현형과 유전 변이 정보는 개인 정보에 해당한다. 따라서 GWAS를 포함한 다양한 유전자 분석 분야에서 개인 표현형과 유전체 정보의 보안성 확보는 중요한 이슈이다. 현재 대량의 개인 표현형과 유전체 정보가 다수의 연구자에게 공유되면서, 제3자에게 노출될 가능성이 높다.Individual phenotype and genetic variation information corresponds to personal information. Therefore, securing the security of personal phenotype and genome information is an important issue in various genetic analysis fields including GWAS. Currently, as a large amount of personal phenotype and genome information is shared with a large number of researchers, it is highly likely to be exposed to third parties.

(특허문헌 0001)한국등록특허 제10-0537523호(Patent Document 0001) Korean Registered Patent No. 10-0537523

개인의 유전체 정보에서, 개인 식별이 가능한 마커들을 비식별화 처리하여 비식별 유전데이터를 제공하는 장치 및 방법을 제공한다. Provided is an apparatus and method for providing non-identifying genetic data by de-identifying markers capable of personal identification in individual genome information.

본 개시의 실시예들에 따르면, 전자 장치로부터 대상 세포의 유전체 데이터를 수신하는 데이터 입력부; 상기 유전체 데이터 중에서, 동질 클래스(homogeneous class)에 해당하는 마커의 염기 서열들 사이의 동일 정도를 기초로 익명 점수를 산출하고, 상기 유전체 데이터 중에서, 동질 클래스(homogeneous class)에 해당하는 마커의 서열들 사이의 차이 정도를 기초로 다양성 점수를 산출하고, 상기 유전체 데이터에 포함된 각 마커에 대한 상기 익명 점수 및 상기 다양성 점수를 고려하여 상기 유전체 데이터에 포함된 각 마커 영역에 대한 비식별 처리 여부를 결정하는 비식별 처리 여부 판단부; 비식별 처리 여부가 참인 하나 이상의 마커 영역을 비식별화 처리한 비식별 유전 데이터를 생성하되, 상기 유전체 데이터 및 상기 비식별 유전 데이터 사이의 동일 정도에 비례하는 근접성 점수를 산출하여, 상기 근접성 점수가 기 설정된 기준 근접값 이상인지 여부를 판단하고, 상기 근접성 점수가 상기 기준 근접값 이상인 경우에는 상기 비식별 유전 데이터를 저장부에 저장하고, 상기 근접성 점수가 상기 기준 근접값 미만인 경우에는, 상기 비식별 유전 데이터를 재 생성하는 비식별 데이터 생성부; 배포 요청 신호에 응답하여, 마커 참조 데이터베이스에 저장된 유전체 데이터들 중에서, 상기 배포 요청 신호에 대응하는 출력 데이터를 생성하고, 상기 출력 데이터를 데이터 요청 단말로 전송하는 배포부;를 포함하는, 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 유전체 데이터 비식별화 처리 장치가 개시된다. According to embodiments of the present disclosure, a data input unit configured to receive genome data of a target cell from an electronic device; Among the genomic data, an anonymity score is calculated based on the degree of identity between nucleotide sequences of markers corresponding to a homogeneous class, and among the genomic data, sequences of markers corresponding to a homogeneous class Calculate a diversity score based on the degree of difference between the genomic data, and determine whether to process de-identification for each marker region included in the genomic data by considering the anonymity score and the diversity score for each marker included in the genomic data. De-identification process determination unit; Generating de-identification genetic data in which one or more marker regions for which de-identification processing is true are de-identified, and a proximity score proportional to the degree of equality between the genetic data and the de-identification genetic data is calculated, so that the proximity score is Determine whether or not the proximity score is greater than or equal to the reference proximity value, store the non-identified genetic data in a storage unit if the proximity score is greater than or equal to the reference proximity value, and store the non-identification genetic data in a storage unit if the proximity score is less than the reference proximity value Non-identification data generation unit for regenerating genetic data; In response to a distribution request signal, a distribution unit that generates output data corresponding to the distribution request signal from among genome data stored in a marker reference database and transmits the output data to a data request terminal; A genetic data de-identification processing device for generating de-identification-processed de-identification genetic data is disclosed.

상기 유전체 데이터는 개인 추론 식별이 가능한 잠재적인 유전 정보를 포함할 수 있다. The genomic data may include potential genetic information capable of inferring identification of individuals.

상기 비식별 처리 여부 판단부는 상기 유전체 데이터에 포함된 각 마커에 대해서 대립유전자빈도(allele frequency)를 계산할 수 있다. The de-identification processing determination unit may calculate an allele frequency for each marker included in the genome data.

상기 익명 점수는 상기 유전체 데이터 셋트 내에서 지정된 마커로 구분 가능한 샘플 수의 비율에 비례하여 결정된 값일 수 있다. The anonymity score may be a value determined in proportion to a ratio of the number of samples distinguishable by a designated marker within the genome data set.

상기 근접성 점수는 상기 유전체 데이터와 상기 비식별 유전 데이터 사이의 유사한 정도에 비례하여 결정된 값일 수 있다. The proximity score may be a value determined in proportion to a degree of similarity between the genetic data and the non-identified genetic data.

상기 근접성 점수는 상기 유전체 데이터와 상기 비식별 유전 데이터 사이의 동일 정도에 비례하여 결정된 값일 수 있다. The proximity score may be a value determined in proportion to the degree of equality between the genetic data and the non-identified genetic data.

상기 비식별 처리 여부 판단부는 유전체 데이터에 포함된 각 마커들 중에서, 개인 식별 마커에 해당하는 마커들을 선별할 수 있다. The de-identification processing determination unit may select markers corresponding to individual identification markers from among markers included in the genome data.

상기 비식별 처리 여부 판단부는 유전체 데이터에 포함된 하나 이상의 마커들 중에서, 개인 식별 마커에 해당하는 마커들 선별하되, 상기 유전체 데이터의 질환 정보에 기초하여 질환에 대한 마커 중요도가 높은 마커를 상기 개인 식별 마커에서 배제할 수 있다. The de-identification process determination unit selects markers corresponding to personal identification markers from among one or more markers included in the genome data, and selects markers having a high importance for markers for diseases based on disease information of the genome data. Markers can be excluded.

본 개시의 실시 예들에 따라서, 유전체 데이터 비식별화 처리 장치는 외부의 전자 장치로부터 대상 세포의 유전체 데이터를 수신 하는 단계; 상기 유전체 데이터 비식별화 처리 장치는 상기 유전체 데이터 중에서, 동질 클래스(homogeneous class)에 해당하는 마커의 서열들 사이의 동일 여부를 기초로 익명 점수를 산출하고, 상기 유전체 데이터 중에서, 동질 클래스(homogeneous class)에 해당하는 마커의 서열들 사이의 차이 정도를 기초로 다양성 점수를 산출하고, 상기 유전체 데이터에 포함된 각 마커에 대한 상기 익명 점수 및 상기 다양성 점수를 고려하여 상기 유전체 데이터에 포함된 각 마커에 대한 비식별 처리 여부를 결정하는 단계; 상기 비식별 처리 여부가 참인 마커를 비식별화 처리한 비식별 유전 데이터를 생성하고, 상기 유전체 데이터 및 상기 비식별 유전 데이터 사이의 동일 정도에 비례하는 근접성 점수를 산출하여, 상기 근접성 점수가 기 설정된 기준 근접값 이상인지 여부를 판단하고, 상기 근접성 점수가 상기 기준 근접값 이상인 경우에는 상기 비식별 유전 데이터를 저장하고, 상기 근접성 점수가 상기 기준 근접값 미만인 경우에는, 상기 비식별 유전 데이터를 재 생성하는 단계; 및 배포 요청 신호에 응답하여, 상기 저장부에 저장된 유전체 데이터들 중에서, 상기 배포 요청 신호에 대응하는 출력 데이터를 생성하고, 상기 출력 데이터를 요청 단말기로 전송하는 단계;를 포함하는, 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 방법이 개시된다. According to embodiments of the present disclosure, the genome data de-identification processing device may include receiving genome data of a target cell from an external electronic device; The genomic data de-identification processing device calculates an anonymity score based on whether or not the sequences of markers corresponding to a homogeneous class are identical among the genomic data, and among the genomic data, the homogeneous class ), a diversity score is calculated based on the degree of difference between the sequences of markers corresponding to ), and each marker included in the genome data is calculated by considering the anonymity score and the diversity score for each marker included in the genome data. Determining whether to process de-identification for; Generating de-identification genetic data in which the marker for which the de-identification process is true is de-identified, and calculating a proximity score proportional to the degree of equality between the genetic data and the de-identification genetic data, so that the proximity score is set in advance. Determine whether the proximity score is greater than or equal to the reference proximity value, store the non-identified genetic data if the proximity score is greater than or equal to the reference proximity value, and regenerate the non-identified genetic data if the proximity score is less than the reference proximity value doing; And in response to the distribution request signal, generating output data corresponding to the distribution request signal from among the dielectric data stored in the storage unit, and transmitting the output data to a requesting terminal; A method for generating non-identified genetic data subjected to identification processing is disclosed.

본 발명의 실시예에 따른 컴퓨터 프로그램은 컴퓨터를 이용하여 본 발명의 실시예에 따른 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 방법 중 어느 하나의 방법을 실행시키기 위하여 매체에 저장될 수 있다. The computer program according to an embodiment of the present invention may be stored in a medium in order to execute any one of the methods of generating non-identified genetic data by de-identifying genetic data according to an embodiment of the present invention using a computer. can

이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공된다. In addition to this, another method for implementing the present invention, another system, and a computer readable recording medium recording a computer program for executing the method are further provided.

전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해 질 것이다. Other aspects, features and advantages other than those described above will become apparent from the following drawings, claims and detailed description of the invention.

본 개시의 실시 예들에 따른 유전체 데이터 비식별화 처리 장치, 및 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 방법은 개인의 유전체 정보에서, 개인 식별이 가능한 마커들을 비식별화 처리하여 비식별 유전데이터를 제공할 수 있다. Genomic data de-identification processing apparatus and method for generating de-identified genetic data obtained by de-identifying genomic data according to embodiments of the present disclosure include de-identification of markers capable of personal identification in individual genome information, Non-identifying genetic data can be provided.

도 1은 본 개시의 실시 예들에 따른 유전체 데이터 유통 시스템의 네트워크 도면이다.
도 2는 본 개시의 실시 예들에 따른 유전체 데이터 비식별화 처리 장치(100), 데이터 요청 단말(200), 데이터 수집 서버(300), 및 마커 참조 DB(400)를 포함할 수 있다.
도 3은 배포부(140)의 블록도이다.
도 4는 본 개시의 실시 예들에 따른 유전체 데이터 및 비식별 유전 데이터의 예시 도면이다.
도 5 및 도 6는 본 개시의 실시 예들에 따른 유전체 데이터를 비식별화 처리하는 방법의 흐름도들이다.
도 7은 본 개시의 실시 예들에 따른, 비식별 유전 데이터를 암호화하여 배포하는 과정의 흐름도이다.
1 is a network diagram of a genome data distribution system according to embodiments of the present disclosure.
2 may include a genome data de-identification processing device 100, a data request terminal 200, a data collection server 300, and a marker reference DB 400 according to embodiments of the present disclosure.
3 is a block diagram of the distribution unit 140 .
4 is an exemplary diagram of genetic data and non-identified genetic data according to embodiments of the present disclosure.
5 and 6 are flowcharts of a method of de-identifying genome data according to embodiments of the present disclosure.
7 is a flowchart of a process of encoding and distributing non-identified genetic data according to embodiments of the present disclosure.

이하 첨부된 도면들에 도시된 본 발명에 관한 실시예를 참조하여 본 발명의 구성 및 작용을 상세히 설명한다.Hereinafter, the configuration and operation of the present invention will be described in detail with reference to embodiments of the present invention shown in the accompanying drawings.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다. Since the present invention can apply various transformations and have various embodiments, specific embodiments will be illustrated in the drawings and described in detail in the detailed description. Effects and features of the present invention, and methods for achieving them will become clear with reference to the embodiments described later in detail together with the drawings. However, the present invention is not limited to the embodiments disclosed below and may be implemented in various forms.

이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings, and when describing with reference to the drawings, the same or corresponding components are assigned the same reference numerals, and overlapping descriptions thereof will be omitted. .

본 명세서에서 "학습", "러닝" 등의 용어는 인간의 교육 활동과 같은 정신적 작용을 지칭하도록 의도된 것이 아닌 절차에 따른 컴퓨팅(computing)을 통하여 기계 학습(machine learning)을 수행함을 일컫는 용어로 해석한다.In this specification, terms such as "learning" and "running" are terms that refer to performing machine learning through computation according to procedures, which are not intended to refer to mental operations such as human educational activities. interpret

이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. In the following embodiments, terms such as first and second are used for the purpose of distinguishing one component from another component without limiting meaning.

이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. In the following examples, expressions in the singular number include plural expressions unless the context clearly dictates otherwise.

이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다. In the following embodiments, terms such as include or have mean that features or components described in the specification exist, and do not preclude the possibility that one or more other features or components may be added.

도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다. In the drawings, the size of components may be exaggerated or reduced for convenience of description. For example, since the size and thickness of each component shown in the drawings are arbitrarily shown for convenience of description, the present invention is not necessarily limited to the illustrated bar.

어떤 실시예가 달리 구현 가능한 경우에 특정한 공정 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 공정이 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 진행될 수 있다.When an embodiment is otherwise implementable, a specific process sequence may be performed differently from the described sequence. For example, two processes described in succession may be performed substantially simultaneously, or may be performed in an order reverse to the order described.

명세서 전체에서, 유전체 데이터는 특정한 사용자의 샘플(시료) 및 생명체(인간, 동물, 미생물 등)로부터 얻은 데이터를 의미한다. 예컨대, 유전체 데이터는 세포, 조직 등으로부터 데옥시리보 핵산(DNA), 리보핵산(RNA), 또는 단백질(Protein) 등에서 얻어진 염기서열, 유전자 발현 데이터, 표준 유전체 데이터와의 유전 변이, DNA 메틸화(methylation) 등을 포함할 수 있다. 일반적으로 유전체 데이터는 특정 시료를 분석하여 얻은 서열 정보를 포함한다. 유전체 데이터는 일반적으로 디지털 데이터로 표현된다. NGS 분석 장치를 통해 얻은 서열 데이터 등이 이에 해당한다.Throughout the specification, genomic data refers to data obtained from a specific user's sample (sample) and a living organism (human, animal, microorganism, etc.). For example, genomic data is a base sequence obtained from deoxyribonucleic acid (DNA), ribonucleic acid (RNA), or protein from cells, tissues, etc., gene expression data, genetic variation with standard genome data, DNA methylation ) and the like. In general, genomic data includes sequence information obtained by analyzing a specific sample. Genomic data is usually represented as digital data. Sequence data obtained through an NGS analysis device and the like correspond to this.

유전체 분석 데이터는 유전체 데이터를 분석한 정보를 의미한다. 예컨대, 유전체 분석 데이터는 유전체 데이터를 분석하여 획득한 진단 결과, 질병 예측 결과, 질병 위험도, 친자 확인 결과, 질병 치료 수단, 신약 후보 물질 등을 포함한다. Genome analysis data refers to information obtained by analyzing genome data. For example, genome analysis data includes diagnosis results obtained by analyzing genome data, disease prediction results, disease risk levels, paternity confirmation results, means for treating diseases, new drug candidates, and the like.

의료 데이터는 특정한 사용자(예를 들어, 환자)의 건강 상태의 판단에 활용될 수 있는 데이터를 의미한다. 예를 들어, 의료 데이터는 병원 내 전자의무기록(Electronic Medical Record;EMR) 데이터를 포함할 수 있다. 즉, 의료 데이터는 의료 장비를 이용한 검사 결과(임상 정보) 또는 의료진에 의한 진단 결과 등을 포함할 수 있다. 또한, 예를 들어, 의료 데이터는 생체신호를 측정할 수 있는 이동단말기(예를 들어, 헬스케어 디바이스)에 의해 획득되는 생체신호데이터를 포함할 수 있다. Medical data refers to data that can be used to determine the health status of a specific user (eg, patient). For example, medical data may include electronic medical record (EMR) data within a hospital. That is, medical data may include test results (clinical information) using medical equipment or diagnosis results by medical staff. Also, for example, medical data may include bio-signal data obtained by a mobile terminal capable of measuring bio-signals (eg, a healthcare device).

이하, 데이터는 데이터의 포맷이나 종류에 관계 없이 다양한 정보를 보유하는 디지털 자료를 의미한다. 데이터는 개인 정보, 개인이 생산한 정보, 개인 자료를 분석한 자료, 개인에 대한 실험 데이터 등을 포함할 수 있다. 예컨대, 데이터는 전술한 유전체 데이터, 분석 데이터 및 의료데이터 중 적어도 하나를 포함할 수 있다. 데이터는 생물학적 또는 사회적 주체인 개별 객체(사람, 기업, 연구기관, 학교, 병원 등)가 생산하는 데이터일 수 있다.Hereinafter, data refers to digital data holding various types of information regardless of the format or type of data. Data may include personal information, information generated by individuals, data obtained by analyzing personal data, and experimental data on individuals. For example, the data may include at least one of the aforementioned genome data, analysis data, and medical data. Data may be data produced by individual objects (people, companies, research institutes, schools, hospitals, etc.) that are biological or social subjects.

명세서 전체에서 "fastq 파일"이라 함은, 분석을 하는 기초 유전체 데이터 이며, 서열 ID, 염기 서열 정보, 염기 서열 품질(quality) 등을 포함할 수 있다.Throughout the specification, "fastq file" is basic genome data for analysis, and may include sequence ID, base sequence information, base sequence quality, and the like.

명세서 전체에서 "bam 파일(binary alignment/map format file)"이라 함은, fastq 파일의 각 서열들을 표준 염기 서열에 맵핑된 결과 파일로써, SAM 파일(sequence alignment/map format file)의 바이너리(이진법) 버전으로, 데이터 분석의 두 번째 단계에서 얻어지는 결과일 수 있다.Throughout the specification, "bam file (binary alignment/map format file)" refers to a file obtained by mapping each sequence of the fastq file to a standard base sequence, and is a binary (binary) format of a SAM file (sequence alignment/map format file). As a version, it can be the result obtained in the second step of data analysis.

명세서 전체에서 "vcf 파일(variant call format file)"이라 함은, 변이 정보를 담은 파일을 포함할 수 있다.Throughout the specification, the term “variant call format file (vcf file)” may include a file containing variant information.

도 1은 본 개시의 실시 예들에 따른 유전체 데이터 유통 시스템의 네트워크 도면이다. 1 is a network diagram of a genome data distribution system according to embodiments of the present disclosure.

유전체 데이터 유통 시스템은 검체 제공자의 유전체로부터 유전체 데이터를 추출할 수 있다. The genomic data distribution system may extract genomic data from the genome of the specimen donor.

데이터 요청자는 코호트 수집 기관으로 유전체 데이터에 대한 요청 신호(분양 요청)을 전송하고, 별도의 기관에서는 분양 요청에 대응하여 분양 요청의 심의를 수행할 수 있다. 분양 요청의 심의는 심의 위원들의 협의에 의해서 결정되거나, 별도의 기관 서버에 설정된 심의 규칙에 의해 수행될 수 있다. 분양 요청의 심의를 수행하여 분양 가능한 분양 요청으로 판단되면, 분양을 승인한다는 분양 승인 신호를 배포부로 전송할 수 있다. The data requestor transmits a request signal (request for sale) for genome data to the cohort collection institution, and a separate institution may review the request for sale in response to the request for sale. The deliberation of the sale request may be determined by consultation between the deliberation members or may be performed according to deliberation rules set in a separate institutional server. If the request for sale is determined to be available for sale through deliberation, a sale approval signal indicating approval of the sale may be transmitted to the distribution unit.

배포부는 분양 요청 신호에 대응하여 유전체 데이터의 원본, 셋트를 로드(load)하고 유전체 데이터에 대해서 개인 정보 추론 방지를 위한 척도를 지정하고, 지정된 개인 정보 추론 방지를 위한 척도를 기초로 필수 포함 마커를 지정 또는 결정할 수 있다. The distribution unit loads the original and set of genome data in response to the sale request signal, specifies the scale for preventing personal information inference for the genome data, and selects the required inclusion marker based on the designated scale for preventing inference of personal information can be specified or determined.

배포부는 유전체데이터의 원본, 셋트를 유전체 데이터 정제부로부터 수신받을 수 있다. 이때, 유전체 데이터 정제부는 유전체 데이터로부터 분석을 위한 기초 데이터인 fastq 파일을 생성하고, fastq 파일을 bam 파일로 변환할 수 있다. 유전체 데이터 정제부는 bam 파일을 변이 정보를 담은 vcf 파일로 변환할 수 있다. The distribution unit may receive the original and set of genome data from the genome data purification unit. In this case, the genome data refiner may generate a fastq file, which is basic data for analysis, from the genome data, and convert the fastq file into a bam file. The genome data purification unit may convert the bam file into a vcf file containing mutation information.

유전체 데이터 정제부에서 생성된 vcf 파일을 개인 추론 방지부로 이동시킨다. 개인 추론 방지부는 vcf 파일을 수신하면, vcf 파일을 메타 데이터 베이스(Meta DB)로 저장할 수 있다. The vcf file generated in the genome data purification unit is moved to the personal inference prevention unit. Upon receiving the vcf file, the personal inference prevention unit may store the vcf file as a meta database (Meta DB).

배포부는 분양 요청 신호에 대응하여 배포할 유전체 데이터에 대한 개인 정보 추론 척도를 제시함으로써, 유전체 데이터의 비식별 유전 데이터를 데이터 요청자의 단말기로 배포할 수 있다. 이때, 비식별 유전 데이터는 암호화 처리할 수 있다. 배포부는 비식별 유전 데이터를 암호화 처리하는데 이용된 암호화 키를 관리할 수 있다. 이때 배포부는 익명 점수, 다양성 점수, 근접성 점수를 기초로 유전체 데이터 중에서, 비식별 처리 여부가 참인 영역을 결정할 수 있다. 익명 점수, 다양성 점수, 근접성 점수는 외부의 개인 추론 방지부를 통해 결정되며, 비식별 처리 여부가 참인 영역도 개인 추론 방지부를 통해서 결정될 수 있다. The distribution unit may distribute non-identified genetic data of the genome data to the terminal of the data requester by presenting a personal information inference scale for the genome data to be distributed in response to the sale request signal. At this time, the non-identified genetic data may be encrypted. The distribution unit may manage an encryption key used to encrypt non-identified genetic data. At this time, the distribution unit may determine a region for which de-identification processing is true among the genome data based on the anonymity score, the diversity score, and the proximity score. The anonymity score, diversity score, and proximity score are determined through the external personal inference prevention unit, and the area where de-identification processing is true may also be determined through the personal inference prevention unit.

개인 추론 방지부는 비식별 처리 여부가 참인 영역을 결정하기 위해서 베타 데이터 DB 및 게놈 데이터 아카이브에 저장된 데이터를 이용하여 개인 추론 방지 척도, 비식별 처리 여부, 개인 추론 방지 영역 등을 결정할 수 있다. 메타 데이터 DB에는 대용량의 유전체 데이터를 활용할 수 있는 메타 정보가 입력되어 저장된다. 메타 데이터 DB에는 유전체 데이터의 정제 전과 후에 생성되는 파일들을 기술하는 메타 정보 및 코호트(cohort)와의 연계 정보가 저장된다. 여기서, 파일들에 대한 메타 정보는 파일들의 저장 위치(물리적인 서버의 주소, 서버 내의 논리적인 주소 값 등), 비식별화 척도값, 데이터 관리 정보(코호트의 관리 기관, 관리자에 대한 정보) 등으로 구성되며, 코호트(cohort)와의 연계 정보는 코호트(cohort)의 용도, 코호트의 질환 분류, 코호트의 대상체들의 모집단 수 등이다. 코호트의 용도는 요청자에 의해 설정된 것으로, 당뇨병 코호트, 소아 비만 코호트 등이 있을 수 있다. The personal inference prevention unit may determine the personal inference prevention scale, whether or not to de-identify, and the personal inference prevention area by using data stored in the beta data DB and the genome data archive in order to determine the area where de-identification processing is true. In the meta data DB, meta information that can utilize a large amount of genome data is entered and stored. In the meta data DB, meta information describing files generated before and after genomic data purification and linkage information with cohorts are stored. Here, the meta information about the files is the storage location of the files (address of the physical server, logical address value in the server, etc.), de-identification scale value, data management information (information on the management institution of the cohort, manager), etc. , and information associated with the cohort includes the purpose of the cohort, the disease classification of the cohort, and the number of subjects in the cohort. The purpose of the cohort is set by the requester, and may include a diabetes cohort, a childhood obesity cohort, and the like.

게놈 데이터 아카이브(Genome Data Archive)에는 유전체 데이터를 파일 형태로 저장하며, 저장된 유전체 데이터의 예시로는 raw sequence(fastq), 호출된 게놈 타입 데이터(genotype data(vcf)), 정제된 게놈 타입 데이터, 비식별화된 게놈 타입 데이터가 있을 수 있다. 게놈 데이터 아카이브에 유전체 데이터는 메모리 상에 로딩하기에 용량이 큰 파일의 형태일 수 있다. 개인 추론 방지부는 개인 추론 방지 알고리즘을 이용하여, 유전체 데이터 중에서, 개인 추론 영역을 결정할 수 있다. 개인 추론 영역은 유전체 데이터의 각 대상체가 식별되는 영역을 말하며, 마커 기반으로 설정될 수 있다. 개인 추론 방지부는 유전체 데이터들 중에서, 검체들의 유전체 데이터를 마커 별로 분류하고 마커의 서열들 사이의 동일 정도, 차이 정도 등을 기초로 비식별 처리 여부를 결정할 수 있다. 개인 추론 방지부는 마커 참조 DB부로부터 마커에 대한 정보를 수신하고, 마커에 대한 정보를 이용하여 개인 추론 영역을 마커 별 서열 및/또는 영역으로 결정할 수 있다. Genome Data Archive stores genome data in the form of files. Examples of stored genome data include raw sequence (fastq), called genome type data (genotype data (vcf)), refined genome type data, There may be de-identified genomic type data. Genomic data in the genomic data archive may be in the form of files that are large to load into memory. The personal inference prevention unit may determine a personal inference region from among genome data by using a personal inference prevention algorithm. The personal inference region refers to a region in which each subject of the genome data is identified, and may be set based on a marker. The personal inference prevention unit may classify the genome data of samples by marker among genome data and determine whether to perform de-identification based on the degree of identity and difference between sequences of markers. The personal inference preventing unit may receive information about the marker from the marker reference DB unit, and determine a personal inference region as a sequence and/or region for each marker by using the information about the marker.

개인 추론 방지부는 마커 기반 비식별화 부에서 처리된 비식별 유전 데이터를 수신하고, 비식별 유전 데이터에 대해서 개인 추론 방지 처리가 되었는지 여부도 판단할 수 있다. 개인 추론 방지부는 비식별 유전 데이터로부터 개인 식별 정보인, 인종, 성별, 희귀 질환 등이 추론되는지 여부를 산출하여 개인 추론 방지 처리가 되었는지 여부를 판단할 수 있다. The personal inference prevention unit may receive the de-identified genetic data processed by the marker-based de-identification unit, and may also determine whether personal inference prevention processing has been performed on the de-identification genetic data. The personal inference prevention unit may determine whether personal identification information, race, gender, rare disease, etc., is inferred from non-identification genetic data, and determines whether personal inference prevention processing has been performed.

마커 기반 비식별화 부는 개인 추론 영역을 비식별화 처리할 수 있다. 마커 기반 비식별화 부는 비식별 처리 여부가 참인 하나 이상의 마커 영역을 개인 추론 영역으로 설정하고, 개인 추론 영역을 비식별화 처리하여 비식별 유전 데이터를 생성할 수 있다. The marker-based de-identification unit may de-identify the personal inference area. The marker-based de-identification unit may set at least one marker region for which de-identification processing is true as a personal reasoning region, and de-identify the personal reasoning region to generate de-identified genetic data.

마커 기반 비식별화 부는 VCF 파일을 기반으로 비식별화를 처리할 수 있으나 이에 한정되지 않고 다양한 형식의 파일을 기반으로 비식별화를 처리할 수 있다. The marker-based de-identification unit may process de-identification based on the VCF file, but is not limited thereto and may process de-identification based on various types of files.

마커 참조 DB부는 질병, 질환과 관련된 마커들에 대한 서열 영역에 대한 마커 정보들을 포함할 수 있다. 마커 참조 DB부는 마커에 대한 정보 및 비식별 처리 여부를 판단하는데 이용하는 가중치 값들에 대한 테이블 또는 가중치 값들의 분류에 대한 테이블을 포함할 수 있다. The marker reference DB unit may include marker information about a disease or a sequence region for markers related to a disease. The marker reference DB may include a table for weight values used to determine information about markers and non-identification processing or a table for classification of weight values.

마커 레퍼런스 DB에는 암, 질환, 인종 등 유전적으로 개인 식별이 가능한 로커스(Locus) 기반의 마커 정보가 저장될 수 있다. 마커 레퍼런스 DB는 외부의 데이터베이스로부터 수신된 데이터를 수신할 수 있다. 마커 레퍼런스 DB는 비식별화 유무를 결정하는데 적용되는 가중치를 계산하는데 필요한 데이터인 유전체 데이터의 대상체의 희귀질환, 인종, 성별 등을 저장할 수 있다. 도 2는 본 개시의 실시 예들에 따른 유전체 데이터 비식별화 처리 장치(100), 데이터 요청 단말(200), 데이터 수집 서버(300), 및 마커 참조 DB(400)를 포함할 수 있다. Locus-based marker information that can genetically identify individuals, such as cancer, disease, and race, can be stored in the marker reference DB. The marker reference DB may receive data received from an external database. The marker reference DB may store a rare disease, race, gender, etc. of a subject of genome data, which is data necessary for calculating weights applied to determine whether or not to de-identify. 2 may include a genome data de-identification processing device 100, a data request terminal 200, a data collection server 300, and a marker reference DB 400 according to embodiments of the present disclosure.

유전체 데이터 비식별화 처리 장치(100)는 유전체 데이터에 개인 식별 영역 및/또는 개인 추론 영역을 비식별화 처리하기 위해서, 데이터 입력부(110), 비식별 마커 판단부(120), 비식별 데이터 생성부(130), 배포부(140)를 포함할 수 있다. The genome data de-identification processing apparatus 100 includes a data input unit 110, a de-identification marker determination unit 120, and de-identification data generation in order to de-identify a personal identification area and/or a personal inference area in genome data. A unit 130 and a distribution unit 140 may be included.

데이터 입력부(110)는 유전체 데이터 분석 장치로부터 검체의 유전체 데이터를 수신한다. 유전체 데이터는 fastq 파일, bam 파일, vcf 파일 중 하나 일 수 있으나, 이에 한정되지 않고 유전체에 대한 정보를 디지털로 변환한 모든 데이터 중 하나를 말할 수 있다. 유전체 데이터는 개인 추론 및/또는 개인 식별이 가능한 잠재적인 유전 정보를 포함할 수 있다. The data input unit 110 receives genome data of a specimen from a genome data analysis device. Genomic data may be one of a fastq file, a bam file, and a vcf file, but is not limited thereto and may refer to any data obtained by digitally converting genome information. Genomic data may include potential genetic information capable of personal inference and/or personal identification.

비식별 처리 여부 판단부(120)는 유전체 데이터에 포함된 각 마커들에 대해서 비식별 처리 여부를 판단할 수 있다. The de-identification processing determination unit 120 may determine whether de-identification processing is performed for each marker included in the genome data.

비식별 처리 여부 판단부(120)는 유전체 데이터 중에서, 각 검체를 식별할 수 있는 서열 영역에 대해서 비식별 처리 여부를 참(TRUE)으로 판단할 수 있다. 비식별 처리 여부 판단부(120)는 검체들의 질환, 인종, 성별 등과 같이 개인을 추론함에 용이한 필수 마커들에 대한 데이터, 검체들의 유전체 데이터들에 대한 데이터를 마커 참조 데이터베이스로부터 수신할 수 있다. The de-identification process determination unit 120 may determine whether the de-identification process is TRUE for a sequence region in which each sample can be identified among genome data. The de-identification process determination unit 120 may receive data on essential markers that are easy to infer individuals, such as diseases, races, and genders of subjects, and data on genome data of subjects from a marker reference database.

비식별 처리 여부 판단부(120)는 필수 마커들에 데이터를 기초로 유전체 데이터에서 필수 마커 영역 및 비필수 마커 영역을 분류할 수 있다. 비식별 처리 여부 판단부(120)는 마커 영역의 염기 서열 값들을 검체 별로 분류하고, 검체들에 대한 염기 서열 값 사이에 익명 점수, 다양성 점수 등을 고려하여 비식별 처리 여부를 판단할 수 있다. The de-identification processing determination unit 120 may classify essential marker regions and non-essential marker regions in the genome data based on essential marker data. The de-identification processing decision unit 120 classifies the base sequence values of the marker region for each sample, and considers an anonymity score, a diversity score, etc. between the base sequence values of the samples to determine whether to perform de-identification processing.

익명 점수는 마커 영역의 염기 서열 값들을 검체들 별로 비교하여 일치 비율로 결정될 수 있다. 다양성 점수는 마커 영역의 염기 서열 값들을 검체들 별로 비교하여 비일치 비율로 결정될 수 있다. 일치 비율이 제1 범위 안에, 비일치 비율이 제2 범위 안에 들어가는지 여부로 익명 점수를 결정할 수 있다. 익명 점수와 일치 비율 및/또는 비일치 비율이 대응되는 테이블로 설정될 수 있다. 이때, 마커 영역이 필수 마커 영역 또는 비필수 마커 영역으로 분류되어, 비식별 처리 여부가 결정될 수 있다. 필수 마커 영역은 검체들의 발생 질환 또는 데이터 요청자의 요청 질환과 관련하여, 질환에 대한 마커 영역일 수 있다. 필수 마커 영역의 비식별 처리 여부가 참(TRUE)으로 설정되지 않도록 구현될 수 있다. 필수 마커 영역의 비식별 처리 여부를 결정하는 익명 점수 및/또는 다양성 점수는 높게 설정 될 수 있다. 익명 점수가 높은 마커 영역은 개인 추론 영역으로 설정되지 않거나 비식별 처리 여부가 거짓(FALSE) 일 수 있다. 다양성 점수가 높은 마커 영역은 개인 추론 영역으로 설정되어 비식별 처리 되거나, 비식별 처리 여부가 참(TRUE)로 설정되어 비식별화 처리될 수 있다. The anonymity score may be determined by a matching ratio by comparing the nucleotide sequence values of the marker region for each sample. The diversity score may be determined as a non-matching ratio by comparing the nucleotide sequence values of the marker region for each sample. An anonymity score may be determined based on whether the matching rate falls within the first range and the non-matching rate falls within the second range. An anonymous score and matching rate and/or non-matching rate may be set as a corresponding table. In this case, the marker area is classified into an essential marker area or a non-essential marker area, and whether to process non-identification may be determined. The essential marker region may be a marker region for a disease in relation to a disease occurring in the specimens or a disease requested by a data requestor. It may be implemented so that whether the mandatory marker region is de-identified is not set to TRUE. The anonymity score and/or diversity score for determining whether to de-identify the essential marker region may be set high. A marker area with a high anonymity score may not be set as a personal inference area, or the de-identification process may be FALSE. A marker region with a high diversity score may be set as a personal reasoning region and be de-identified, or de-identified by setting whether or not to be de-identified as TRUE to be de-identified.

비식별 처리 여부 판단부(120)는 비식별 유전 데이터를 생성한 이후에 익명 점수, 근접성 점수, 다양성 점수를 재 산출할 수 있다. 비식별 처리 여부 판단부(120)는 유전체 데이터에 대해서 하나 이상의 비식별 유전 데이터의 후보들을 생성하고, 비식별 유전 데이터의 후보들에 대해서 익명 점수, 근접성 점수, 다양성 점수를 산출하며, 데이터 요청자의 단말기로 비식별 유전 데이터의 후보들 중에서, 전송할 비식별 유전 데이터를 결정할 수 있다. 이때, 익명 점수는 유전체 데이터 셋트 내에서 지정된 마커로 구분 가능한 샘플 수의 비율에 비례하여 결정된 값일 수 있다. 근접성 점수는 유전체 데이터와 비식별 유전 데이터 사이의 유사한 정도에 비례하여 결정된 값일 수 있다. The de-identification treatment determination unit 120 may recalculate the anonymity score, the proximity score, and the diversity score after generating the de-identification genetic data. The de-identification process determination unit 120 generates one or more de-identified genetic data candidates for the genetic data, calculates anonymity score, proximity score, and diversity score for the de-identified genetic data candidates, and the terminal of the data requestor. It is possible to determine non-identified genetic data to be transmitted among candidates of non-identified genetic data. In this case, the anonymity score may be a value determined in proportion to the ratio of the number of samples distinguishable by a designated marker within the genome data set. The proximity score may be a value determined in proportion to a degree of similarity between genetic data and non-identified genetic data.

비식별 처리 여부 판단부(120)는 유전체 데이터 중에서 동질 클래스(homogeneous class)에 해당하는 마커의 염기 서열들을 검체들 사이의 동일 정도를 기초로 익명 점수를 산출할 수 있다. 검체들 사이의 동일 정도는 일치하는 염기 서열을 가지는 검체들의 수, 또는 비율로 산출할 수 있다. 비식별 처리 여부 판단부(120)는 마커의 염기 서열들을 검체 별로 비교하여 동일한 염기 서열 값을 가지는 감체의 수 또는 비율로 익명 점수를 산출할 수 있다. The de-identification processing determination unit 120 may calculate an anonymity score based on the degree of equality between samples of nucleotide sequences of markers corresponding to a homogeneous class among genome data. The degree of identity between samples can be calculated by the number or ratio of samples having identical nucleotide sequences. The de-identification treatment determination unit 120 may compare the nucleotide sequences of the markers for each sample to calculate an anonymity score based on the number or ratio of deductions having the same nucleotide sequence value.

비식별 처리 여부 판단부(120)는 유전체 데이터 중에서 동질 클래스(homogeneous class)에 해당하는 마커의 염기 서열들을 검체들 사이의 차이 정도를 기초로 다양성 점수를 산출할 수 있다. 검체들 사이의 차이 정도는 일치하지 않고 다른 염기 서열을 가지는 검체들의 수 또는 비율로 산출할 수 있다. 비식별 처리 여부 판단부(120)는 마커의 염기 서열들을 검체 별로 비교하여 일치하지 않는 염기 서열 값을 가지는 즉, 차이 나는 염기 서열 값을 가지는 검체의 수 또는 비율로 다양성 점수를 산출할 수 있다. The de-identification processing determination unit 120 may calculate a diversity score based on the degree of difference between specimens in the nucleotide sequences of markers corresponding to a homogeneous class among genome data. The degree of difference between samples can be calculated by the number or ratio of samples that do not match and have different base sequences. The non-identification processing determination unit 120 compares the base sequences of the markers for each sample and calculates a diversity score based on the number or ratio of samples having non-matching base sequence values, that is, different base sequence values.

비식별 처리 여부 판단부(120)는 유전체 데이터 및/또는 비식별 유전 데이터의 익명 점수 및 다양성 점수를 고려하여 유전체 데이터에 포함된 각 마커 영역에 대한 비식별 처리 여부를 결정할 수 있다. 비식별 처리 여부 판단부(120)는 유전체 데이터 중에서, 동질 클래스(homogeneous class)에 해당하는 마커의 염기 서열들을 검체들 사이의 동일 정도를 기초로 익명 점수를 산출하고, 유전체 데이터 중에서, 동질 클래스(homogeneous class)에 해당하는 마커의 서열들을 검체들 사이의 차이 정도를 기초로 다양성 점수를 산출하고, 유전체 데이터에 포함된 각 마커에 대한 익명 점수 및 다양성 점수를 고려하여 유전체 데이터에 포함된 각 마커 영역에 대한 비식별 처리 여부를 결정할 수 있다. The de-identification processing decision unit 120 may determine whether to de-identify each marker region included in the genome data by considering the anonymity score and the diversity score of the genome data and/or the de-identification genetic data. The non-identification processing determination unit 120 calculates an anonymity score based on the degree of identity between samples of the nucleotide sequences of markers corresponding to a homogeneous class among the genome data, and among the genome data, the homogeneous class ( homogeneous class), a diversity score is calculated based on the degree of difference between samples, and each marker region included in the genome data is considered by considering the anonymity score and diversity score for each marker included in the genome data. You can decide whether or not to de-identify.

비식별 처리 여부 판단부(120)는 유전체 데이터에 포함된 각 마커에 대해서 대립유전자빈도(allele frequency)를 계산할 수 있다. The de-identification process determination unit 120 may calculate an allele frequency for each marker included in the genome data.

대립유전자빈도는 한 집단 내에서 같은 유전자를 구성하는 서로 다른 대립유전자 사이의 구성 비율을 말할 수 있다. 비식별 처리 여부 판단부(120)는 대립유전자빈도를 이용하여 유전체 데이터에서 비식별 처리 여부가 참인 마커들을 판단할 수 있다. Allele frequency can refer to the composition ratio between different alleles constituting the same gene within a population. The de-identification processing determination unit 120 may determine markers for which de-identification processing is true in the genome data using the allele frequencies.

비식별 처리 여부 판단부(120)는 유전체 데이터에 포함된 각 마커들 중에서, 비식별 처리 여부를 기초로 개인 식별 마커에 해당하는 마커들을 선별할 수 있다. 개인 식별 마커는 각 검체의 인종, 성별, 희귀 질환 중 적어도 하나를 식별 가능한 마커일 수 있다. The de-identification process determination unit 120 may select markers corresponding to personal identification markers based on whether or not the de-identification process is performed among the markers included in the genome data. The personal identification marker may be a marker capable of identifying at least one of race, gender, and rare disease of each subject.

비식별 처리 여부 판단부(120)는 유전체 데이터에 포함된 하나 이상의 마커들 중에서, 개인 식별 마커에 해당하는 마커들 선별하되, 상기 유전체 데이터의 질환 정보에 기초하여 질환에 대한 마커 중요도가 높은 마커를 상기 개인 식별 마커에서 배제할 수 있다. The de-identification process determination unit 120 selects markers corresponding to individual identification markers from among one or more markers included in the genome data, and selects markers with high importance for the disease based on the disease information of the genome data. It may be excluded from the personal identification marker.

비식별 데이터 생성부(130)는 비식별 처리 여부가 참인 하나 이상의 마커 영역의 염기 서열 값을 비식별화 처리한 비식별 유전 데이터를 생성할 수 있다. 여기서, 비식별화 처리하는 것은 선택된 k개의 데이터 셋트를 데이터 마이닝 기법에 의해, 개인 추론에 위험이 있는 마커들을 비식별화 하는 것일 수 있다. 여기서, 데이터 마이닝 기법은 유전체 데이터의 염기 서열 값들을 마커 별로 분류하고, 서열 별 염기 서열 값들에 대한, 익명 점수, 다양성 점수, 근접성 점수 들을 기초로 비식별화 처리해야 하는 마커의 종류를 결정할 수 있다. 도 4에 도시된 바와 같이, 코호트 요청, 데이터 요청 등에 대응하여 추출된 유전체 데이터에 대해서, 적합한 비식별화 처리하는 마커의 종류를 결정할 수 있다. The de-identification data generation unit 130 may generate de-identification genetic data obtained by de-identifying nucleotide sequence values of one or more marker regions for which de-identification processing is true. Here, the de-identification process may de-identify markers that are risky in personal inference using a data mining technique for the selected k data sets. Here, the data mining technique can classify the nucleotide sequence values of the genome data for each marker, and determine the type of marker to be de-identified based on the anonymity score, diversity score, and proximity score for each nucleotide sequence value for each sequence. . As shown in FIG. 4, it is possible to determine the type of marker to be appropriately de-identified for genome data extracted in response to a cohort request, a data request, and the like.

비식별 데이터 생성부(130)는 유전체 데이터 및 비식별 유전 데이터 사이의 동일 정도에 비례하는 근접성 점수를 산출할 수 있다. 유전체 데이터 및 비식별 유전 데이터 사이의 동일 정도가 높은 경우, 근접성 점수가 높게 설정될 수 있다. 동일 정도는 비식별화 처리되지 않은 염기 서열 값들의 비율로 산출될 수 있다. 비식별 데이터 생성부(130)는 산출된 근접성 점수를 통해, 유전체 데이터의 비식별화 처리에 대한 평가 정보를 생성할 수 있다. 근접성 점수가 기 설정된 기준 근접성 점수 이상인 경우, 유전체 데이터의 비식별화 처리에 대한 평가 등급이 '통과(Pass)'으로 설정할 수 있다. The de-identification data generator 130 may calculate a proximity score proportional to the degree of equality between the genetic data and the de-identification genetic data. When the degree of identity between the genetic data and the non-identified genetic data is high, the proximity score may be set high. The degree of equality can be calculated as a ratio of base sequence values that have not been subjected to non-identification processing. The de-identification data generation unit 130 may generate evaluation information on the de-identification process of the genome data through the calculated proximity score. When the proximity score is equal to or greater than the preset reference proximity score, the evaluation grade for the de-identification process of genome data may be set to 'Pass'.

근접성 점수가 기 설정된 기준 근접성 점수 미만인 경우, 유전체 데이터의 비식별화 처리에 대한 평가 등급이 '실패(Fail)'로 설정될 수 있다.When the proximity score is less than the preset reference proximity score, the evaluation grade for the de-identification process of genome data may be set to 'Fail'.

평가 등급이 '실패'인 경우, 비식별 처리 여부 판단부(120)를 통해 비식별 처리 여부가 참인 서열 영역들을 다시 결정할 수 있다. 이런 경우에, 비식별 처리 여부 판단부(120)는 비식별 처리 여부를 결정하는 익명 점수 및/또는 다양성 점수에 대한 기준 값을 재 설정할 수 있다. 익명 점수에 대한 기준 값은 검체의 질병 또는 데이터 요청자의 요청 정도를 고려하여 결정된 값으로 결정될 수 있다. If the evaluation grade is 'failure', the sequence regions for which de-identification is true may be determined again through the de-identification determination unit 120 . In this case, the de-identification processing determination unit 120 may reset the reference values for the anonymity score and/or the diversity score for determining whether or not the de-identification process is performed. The reference value for the anonymity score may be determined as a value determined in consideration of the degree of the disease of the sample or the request of the data requestor.

다양성 및 근접성 점수에 대한 기준 값은 코호트에서 요청한 용도 및/또는특성과 데이터 요청자의 요청 정도를 고려하여, 데이터 관리자가 결정된 값으로 결정될 수 있다. 다양성 및 근접성 점수에 대한 기준 값은 요청에 대응하는 유전체 데이터에 대해서 반복적인 데이터 마이닝을 통해서 변경될 수 있다. The reference values for the diversity and proximity scores may be determined by the data manager in consideration of the degree of request of the data requester and the purpose and/or characteristics requested by the cohort. Reference values for diversity and proximity scores may be changed through repetitive data mining for genome data corresponding to a request.

배포부(140)는 데이터 요청자의 단말(200)로부터의 데이터 요청 신호에 응답하여, 데이터 요청 신호에 포함된 질환, 데이터 용량, 요청 마커에 대응되는 비식별 유전 데이터를 생성할 수 있다. 배포부(140)는 데이터 요청 신호에 응답하여, 마커 참조 데이터베이스에 저장된 유전체 데이터들 중에서, 데이터 요청 신호에 대응하는 출력 데이터를 생성하고 출력 데이터를 데이터 요청 단말(200)로 전송할 수 있다. The distribution unit 140 may generate non-identified genetic data corresponding to the disease, data capacity, and request marker included in the data request signal in response to the data request signal from the terminal 200 of the data requester. In response to the data request signal, the distribution unit 140 may generate output data corresponding to the data request signal from among the genome data stored in the marker reference database and transmit the output data to the data request terminal 200 .

배포부(140)는 도 3에 도시된 바와 같이, 척도 변경 처리부(141), 필수 마커 지정부(142), 데이터 암호화부(143), 및 배포 제어부(144)를 포함할 수 있다. As shown in FIG. 3 , the distribution unit 140 may include a scale change processing unit 141, an essential marker designation unit 142, a data encryption unit 143, and a distribution control unit 144.

척도 변경 처리부(141)는 비식별 데이터 생성부(130)에 의해 생성된 비식별 유전 데이터의 근접성 점수가 기준 근접성 점수 이하인 경우에는 비식별 처리 여부를 결정하는 기준 값을 변경할 수있다. 척도 변경 처리부(141)는 변경된 기준 값을 기초로 비식별 유전 데이터를 재 생성 할 수 있다. The scale change processing unit 141 may change a reference value for determining whether or not to perform de-identification processing when the proximity score of the de-identification genetic data generated by the de-identification data generator 130 is equal to or less than the reference proximity score. The scale change processor 141 may regenerate non-identified genetic data based on the changed reference value.

선택적 실시예에서, 데이터 요청 신호에 포함된 질환명, 데이터 용량, 요청 마커를 고려하여, 비식별 유전 데이터를 생성하는 기준 값인 기준 익명 점수, 기준 다양성 점수가 결정될 수 있다. 이렇게 결정된 기준 익명 점수, 기준 다양성 점수를 기초로 비식별 처리 여부를 결정할 수 있다. In an optional embodiment, a reference anonymity score and a reference diversity score, which are reference values for generating non-identifying genetic data, may be determined in consideration of the disease name, data volume, and request marker included in the data request signal. Whether or not to process de-identification may be determined based on the standard anonymity score and the standard diversity score determined in this way.

데이터 요청 신호에 포함된 질환명, 데이터 용량, 요청 마커 중 적어도 하나를 고려하여, 비식별 유전 데이터에 대해서 적용하는 기준 값인 기준 근접성 점수가 결정될 수 있다. 이렇게 결정된 기준 근접성 점수를 기초로 비식별 처리 여부를 결정할 수 있다. A reference proximity score, which is a reference value applied to non-identifying genetic data, may be determined in consideration of at least one of the disease name, data volume, and request marker included in the data request signal. Whether or not to process de-identification may be determined based on the reference proximity score determined in this way.

필수 마커 지정부(142)는 마커 참조 DB(400)로 질환에 대한 필수 마커 정보를 요청하고, 마커 참조 DB(400)로부터 필수 마커 정보를 수신하고 필수 마커 정보를 기초로 유전체 데이터에 적용되는 필수 마커 영역을 결정할 수 있다. 필수 마커 정보는 질환들과 관련성이 높은 마커들에 대한 정보를 말한다. The essential marker designation unit 142 requests essential marker information for a disease from the marker reference DB 400, receives essential marker information from the marker reference DB 400, and applies essential marker information to genome data based on the essential marker information. A marker region can be determined. Essential marker information refers to information about markers highly related to diseases.

데이터 암호화부(143)는 비식별 데이터 생성부(130)로부터 데이터 암호화 요청 신호를 수신하면, 수신된 비식별 유전 데이터를 암호화 처리할 수 있다. 데이터 암호화부(143)는 데이터 요청 단말(200)과 공유되는 암호화 키를 이용하여 비식별 유전 데이터를 암호화 할 수 있다. 비식별 유전 데이터를 유전화 하는데 이용한 암호화 키는 데이터 요청 단말(200)의 식별 정보, 또는 해당 비식별 유전 데이터에 대응한 키일 수 있다. When the data encryption request signal is received from the non-identification data generator 130, the data encryption unit 143 may encrypt the received non-identification genetic data. The data encryption unit 143 may encrypt non-identified genetic data using an encryption key shared with the data requesting terminal 200 . The encryption key used to geneticize the non-identified genetic data may be identification information of the data requesting terminal 200 or a key corresponding to the non-identified genetic data.

배포 제어부(144)는 암호화된 비식별 유전 데이터 또는 비식별 유전 데이터를 데이터 요청 단말(200)로 전송할 수 있다. The distribution controller 144 may transmit encrypted non-identified genetic data or non-identified genetic data to the data requesting terminal 200 .

도 4는 비식별화 처리 여부가 참인 영역에 대한 예시 도면이다. 4 is an exemplary view of a region in which de-identification processing is true.

도 4에 도시된 바와 같이, 원본의 유전체 데이터(T1)는 7명 검체들의 염기 서열 값들을 포함할 수 있다. 유전체 데이터(T1)에서 m1의 염기 서열 값들(T21)은 모든 검체들에 대해서 AA이므로, m1의 익명 점수는 높게, m1의 다양성 점수는 낮게 설정될 수 있다. As shown in FIG. 4 , the original genome data T1 may include base sequence values of 7 specimens. Since the base sequence values (T21) of m1 in the genome data (T1) are AA for all samples, the anonymity score of m1 can be set high and the diversity score of m1 can be set low.

이와 같이, m2, m3, m4의 염기 서열 값들(T22)은 m1과 같이 모든 검체들에 대해서 동일하므로, m2, m3, m4의 익명 점수는 높게 설정될 수 있다. In this way, since the nucleotide sequence values T22 of m2, m3, and m4 are the same for all samples as in m1, the anonymity scores of m2, m3, and m4 can be set high.

m5의 염기 서열 값(T23)들은 AA, AA, GG, AA, AA, AA, AA으로, m5 영역은 GG 값을 가지는 환자 3을 식별할 수 있게 된다. 이에 대한 익명 점수는 낮게, 다양성 점수는 높게 설정될 수 있다. m5 영역은 GG 값을 가지는 환자 3을 식별할 수 있게 된다. The nucleotide sequence values (T23) of m5 are AA, AA, GG, AA, AA, AA, AA, and patient 3 having a GG value can be identified in the m5 region. For this, the anonymity score may be set low and the diversity score high. The m5 region can identify patient 3 with a GG value.

M6의 염기 서열 값(T24)들은 AA, AT, AA, AA, AA, AA, AA으로, m6 영역은 GG 값을 가지는 환자 2를 식별할 수 있게 된다. 이에 대한 익명 점수는 낮게, 다양성 점수는 높게 설정될 수 있다. The nucleotide sequence values (T24) of M6 are AA, AT, AA, AA, AA, AA, AA, and patient 2 having a GG value in the m6 region can be identified. For this, the anonymity score may be set low and the diversity score high.

본 개시의 실시 예들에 따르면, m1, m2, m3, m4, m5, m6에 대한 익명 점수 및 다양성 점수를 합산한 점수(IQ)는 -0.7, -0.8, -0.9, -0.9, -0.1, -0.1 일 수 있다. 이런 점수로 볼 때, 상대적으로 높은 점수를 가지는 m5, m6는 개인 추론이 가능한 유전 영역일 수 있다. According to embodiments of the present disclosure, the sum of the anonymity score and the diversity score for m1, m2, m3, m4, m5, and m6 (IQ) is -0.7, -0.8, -0.9, -0.9, -0.1, - may be 0.1. In view of these scores, m5 and m6, which have relatively high scores, may be genetic regions where individual inference is possible.

IQ 값은 아래의 수학식에 의해서 산출될 수 있다. The IQ value can be calculated by the equation below.

I

Figure 112020119065929-pat00001
I
Figure 112020119065929-pat00001

여기서, X={ AA,AC, AG,AT, ??}: genotypesets, P=patients, k=number of requested patients 일 수 있다. Here, X={ AA,AC, AG,AT, ??}: genotypesets, P=patients, k=number of requested patients.

Figure 112020119065929-pat00002
는 가중치 값을 말하며, 개인을 식별할 수 있는 암, 희귀질환, 인종에 따라 분류한 등급으로 결정될 수 있다. 예를 들어, 희귀 질환인 경우는 0.1, 암인 경우는 0.3, 건강 정보인 경우는 0.5 일 수 있다.
Figure 112020119065929-pat00002
Denotes a weight value, and may be determined as a grade classified according to cancer, rare disease, or race that can identify an individual. For example, it may be 0.1 for rare diseases, 0.3 for cancer, and 0.5 for health information.

Figure 112020119065929-pat00003
는 데이터 요청자가 요청한 환자 수(k)에 따라 게놈 타입 별로 해당 마커의 분포 정도를 측정하는 함수일 수 있다.
Figure 112020119065929-pat00004
는 아래의 수학식에 의해 산출될 수 있다.
Figure 112020119065929-pat00003
may be a function that measures the degree of distribution of the corresponding marker for each genome type according to the number of patients (k) requested by the data requestor.
Figure 112020119065929-pat00004
can be calculated by the equation below.

ρ

Figure 112020119065929-pat00005
ρ
Figure 112020119065929-pat00005

Figure 112020119065929-pat00006
=
Figure 112020119065929-pat00007
Figure 112020119065929-pat00006
=
Figure 112020119065929-pat00007

도 5 및 도 6는 본 개시의 실시 예들에 따른 유전체 데이터를 비식별화 처리하는 방법의 흐름도들이다. 5 and 6 are flowcharts of a method of de-identifying genome data according to embodiments of the present disclosure.

도 5에 도시된 바와 같이, S110에서는 유전체 데이터 비식별화 처리 장치(100)는 외부의 전자 장치로부터 대상 세포의 유전체 데이터를 수신할 수 있다. As shown in FIG. 5 , in S110, the genome data de-identification processing device 100 may receive genome data of a target cell from an external electronic device.

S120에서는 유전체 데이터 비식별화 처리 장치(100)는 유전체 데이터 중에서, 동질 클래스에 해당하는 마커의 서열들 사이의 동일 여부를 기초로 익명 점수를 산출할 수 있다. In S120, the genomic data de-identification processing apparatus 100 may calculate an anonymity score based on whether the sequences of markers corresponding to the homogeneous class are identical among the genomic data.

S130에서는 유전체 데이터 비식별화 처리 장치(100)는 유전체 데이터 중에서, 동질 클래스에 해당하는 마커의 서열들 사이의 차이 정도를 기초로 다양성 점수를 산출할 수 있다. In S130, the genomic data de-identification processing apparatus 100 may calculate a diversity score based on the degree of difference between sequences of markers corresponding to the homogeneous class in the genomic data.

S140에서는 유전체 데이터 비식별화 처리 장치(100)는 유전체 데이터에 포함된 각 마커에 대한 익명 점수 및 다양성 점수를 고려하여 유전체 데이터에 포함된 각 마커에 대한 비식별 처리 여부를 결정할 수 있다. In S140, the genomic data de-identification processing apparatus 100 may determine whether to de-identify each marker included in the genomic data in consideration of the anonymity score and the diversity score for each marker included in the genomic data.

S150에서는 유전체 데이터 비식별화 처리 장치(100)는 비식별 처리 여부가 참인 마커를 비식별화 처리한 비식별 유전 데이터를 생성하고, 유전체 데이터 및 비식별 유전 데이터 사이의 동일 정도에 비례하는 근접성 점수를 산출하여, 근접성 점수가 기 설정된 기준 근접값 이하인지 여부를 판단할 수 있다. In S150, the genomic data de-identification processing device 100 generates de-identified genetic data by de-identifying markers for which the de-identification process is true, and a proximity score proportional to the degree of equality between the genomic data and the de-identified genetic data. It is possible to determine whether the proximity score is equal to or less than a preset reference proximity value by calculating .

S160에서는 유전체 데이터 비식별화 처리 장치(100)는 근접성 점수가 기준 근접값 이상인 경우에는 비식별 유전 데이터를 저장하고 근접성 점수가 상기 기준 근접값 미만인 경우에는 비식별 유전 데이터를 재 생성할 수 있다. In S160, the genome data de-identification processing apparatus 100 may store de-identified genetic data when the proximity score is equal to or greater than the reference proximity value, and regenerate de-identified genetic data when the proximity score is less than the reference proximity value.

도 6에 도시된 바와 같이, S210에서는 유전체 데이터 비식별화 처리 장치(100)는 데이터 요청자의 사용자 단말기로부터 요청 신호를 수신할 수 있다. As shown in FIG. 6, in S210, the dielectric data de-identification processing device 100 may receive a request signal from the user terminal of the data requestor.

S220에서는 유전체 데이터 비식별화 처리 장치(100)는 요청 신호에 포함된 질환 조건, 수량 조건을 기초로, 처리되어야 하는 유전체 데이터의 원본을 로드(load)할 수 있다. In S220, the genome data de-identification processing apparatus 100 may load the original genome data to be processed based on the disease condition and quantity condition included in the request signal.

S230에서는 유전체 데이터 비식별화 처리 장치(100)는 유전체 데이터의 원본에서, 필수 마커 영역 또는 비필수 마커 영역을 구분하여 염기 서열 값들에 대한 익명 점수, 다양성 점수를 산출 할 수 있다. S230의 동작은 비식별 처리 여부 판단부의 동작과 동일하므로, 자세한 설명을 생략한다. In S230, the genomic data de-identification processing apparatus 100 may classify essential marker regions or non-essential marker regions in the original genome data to calculate anonymity scores and diversity scores for base sequence values. Since the operation of S230 is the same as that of the de-identification processing decision unit, a detailed description thereof will be omitted.

S240에서는 유전체 데이터 비식별화 처리 장치(100)는 익명 점수 및 다양성 점수를 고려하여 제1 비식별 유전 데이터를 생성하고 요청 신호에 포함된 질환 조건을 기초로 필수 마커 영역을 선별하여 필수 마커 영역에 대해서는 비식별화 처리가 되지 않도록 제2 비식별 유전 데이터를 생성할 수 있다. In S240, the genomic data de-identification processing unit 100 generates first de-identification genetic data in consideration of the anonymity score and the diversity score, selects an essential marker region based on the disease condition included in the request signal, and selects the essential marker region. Second non-identification genetic data may be generated so that the non-identification process is not performed.

S250에서는 유전체 데이터 비식별화 처리 장치(100)는 제2 비식별 유전 데이터를 데이터 요청자의 사용자 단말기로 전송할 수 있다. In S250, the genome data de-identification processing device 100 may transmit the second non-identification genetic data to the user terminal of the data requestor.

도 7은 본 개시의 실시 예들에 따른, 비식별 유전 데이터를 암호화 하여 배포하는 과정의 흐름도이다. 7 is a flowchart of a process of encrypting and distributing non-identified genetic data according to embodiments of the present disclosure.

S310에서는 유전체 데이터 비식별화 처리 장치(100)는 데이터 요청 단말(200)로부터 데이터 요청 신호를 수신한다. In S310, the dielectric data de-identification processing device 100 receives a data request signal from the data request terminal 200.

S320에서는 유전체 데이터 비식별화 처리 장치(100)는 유전체 데이터의 원본을 데이터베이스로부터 로딩한다. In S320, the genome data de-identification processing device 100 loads the original genome data from the database.

S330에서는 유전체 데이터 비식별화 처리 장치(100)는 유전체 데이터의 원본 중에서, 비식별화 처리 영역을 결정할 수 있다. 비식별화 처리 영역은 유전체 데이터의 마커별 서열 값들 사이의 익명 점수, 다양성 점수를 기초로 결정될 수 있다. In S330, the genome data de-identification processing apparatus 100 may determine a de-identification processing region from among the original genome data. The de-identification processing region may be determined based on an anonymity score and a diversity score among sequence values for each marker of the genome data.

S340에서는 유전체 데이터 비식별화 처리 장치(100)는 비식별화 처리 영역이 참인 영역을 비식별화 처리하여 비식별 유전 데이터를 생성할 수 있다. In S340, the genome data de-identification processing apparatus 100 may de-identify a region where the de-identification processing region is true to generate de-identification genetic data.

S350에서는 유전체 데이터 비식별화 처리 장치(100)는 비식별 유전 데이터에서, 필수 마커 영역에 대한 처리 확인을 결정할 수 있다. 질환 별로 필수 마커 영역을 데이터베이스로부터 수신하고 필수 마커 영역의 염기 서열 값들이 비식별화 되지 않도록 처리 확인을 결정할 수 있다. In S350, the genomic data de-identification processing apparatus 100 may determine processing confirmation for essential marker regions in the de-identified genetic data. Treatment confirmation may be determined so that essential marker regions are received from the database for each disease and base sequence values of essential marker regions are not de-identified.

S360에서는 유전체 데이터 비식별화 처리 장치(100)는 비식별 유전 데이터를 암호화 키로 암호화 할 수 있다. 유전체 데이터 비식별화 처리 장치(100)는 데이터 요청 단말(200)과 공유되는 암호화 키를 이용하여 비식별 유전 데이터를 암호화 할 수 있다. 비식별 유전 데이터를 유전화 하는데 이용한 암호화 키는 데이터 요청 단말(200)의 식별 정보, 또는 해당 비식별 유전 데이터에 대응한 키일 수 있다. 암호화된 키는 유전체 데이터를 보호하기 위한 비 대칭키로 구성되며, 정보 보안상 요청자의 요구가 적합하다는 판단(심의위원회) 하에 VPN, Offline 으로 전송하여, 비식별화된 마커의 유전형질 정보를 해독할 수 있다.In S360, the genome data de-identification processing device 100 may encrypt the de-identification genetic data with an encryption key. The genome data de-identification processing device 100 may encrypt the de-identification genetic data using an encryption key shared with the data requesting terminal 200 . The encryption key used to geneticize the non-identified genetic data may be identification information of the data requesting terminal 200 or a key corresponding to the non-identified genetic data. The encrypted key is composed of an asymmetric key to protect genetic data, and it is transmitted to VPN or offline under the judgment that the requester's request is appropriate for information security (review committee), so that the genetic information of the de-identified marker can be decoded. can

S370에서는 유전체 데이터 비식별화 처리 장치(100)는 암호화된 비식별 유전 데이터를 데이터 요청 단말(200)로 전송할 수 있다. In S370, the genome data de-identification processing device 100 may transmit the encrypted non-identification genetic data to the data requesting terminal 200.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The devices described above may be implemented as hardware components, software components, and/or a combination of hardware components and software components. For example, devices and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA) , a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions. The processing device may run an operating system (OS) and one or more software applications running on the operating system. A processing device may also access, store, manipulate, process, and generate data in response to execution of software. For convenience of understanding, there are cases in which one processing device is used, but those skilled in the art will understand that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it can include. For example, a processing device may include a plurality of processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may include a computer program, code, instructions, or a combination of one or more of the foregoing, which configures a processing device to operate as desired or processes independently or collectively. The device can be commanded. Software and/or data may be any tangible machine, component, physical device, virtual equipment, computer storage medium or device, intended to be interpreted by or provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave. Software may be distributed on networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer readable media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program commands recorded on the medium may be specially designed and configured for the embodiment or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. - includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter, as well as machine language codes such as those produced by a compiler. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with limited examples and drawings, those skilled in the art can make various modifications and variations from the above description. For example, the described techniques may be performed in an order different from the method described, and/or components of the described system, structure, device, circuit, etc. may be combined or combined in a different form than the method described, or other components may be used. Or even if it is replaced or substituted by equivalents, appropriate results can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents of the claims are within the scope of the following claims.

Claims (17)

전자 장치로부터 대상 세포의 유전체 데이터를 수신하는 데이터 입력부;
상기 유전체 데이터 중에서, 동질 클래스(homogeneous class)에 해당하는 마커의 염기 서열들에 대한 검체들 사이의 동일 정도를 기초로 익명 점수를 산출하고,
상기 유전체 데이터 중에서, 동질 클래스(homogeneous class)에 해당하는 마커의 서열들에 대한 검체들 사이의 차이 정도를 기초로 다양성 점수를 산출하고,
상기 유전체 데이터에 포함된 각 마커에 대한 상기 익명 점수 및 상기 다양성 점수를 고려하여 상기 유전체 데이터에 포함된 각 마커 영역에 대한 비식별 처리 여부를 결정하는 비식별 처리 여부 판단부;
비식별 처리 여부가 참인 하나 이상의 마커 영역을 비식별화 처리한 비식별 유전 데이터를 생성하되,
상기 유전체 데이터 및 상기 비식별 유전 데이터 사이의 동일 정도에 비례하는 근접성 점수를 산출하여, 상기 근접성 점수가 기 설정된 기준 근접값 이상인지 여부를 판단하고, 상기 근접성 점수가 상기 기준 근접값 이상인 경우에는 상기 비식별 유전 데이터를 저장부에 저장하고, 상기 근접성 점수가 상기 기준 근접값 미만인 경우에는, 상기 비식별 유전 데이터를 재 생성하는 비식별 데이터 생성부;
배포 요청 신호에 응답하여, 마커 참조 데이터베이스에 저장된 유전체 데이터들 중에서, 상기 배포 요청 신호에 대응하는 출력 데이터를 생성하고, 상기 출력 데이터를 데이터 요청 단말로 전송하는 배포부;를 포함하는, 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 유전체 데이터 비식별화 처리 장치.
a data input unit receiving genome data of a target cell from an electronic device;
Among the genomic data, an anonymity score is calculated based on the degree of identity between samples for nucleotide sequences of markers corresponding to a homogeneous class,
Among the genomic data, a diversity score is calculated based on the degree of difference between samples for marker sequences corresponding to a homogeneous class,
a de-identification processing decision unit determining whether to perform de-identification processing for each marker region included in the genome data in consideration of the anonymity score and the diversity score for each marker included in the genome data;
Generate non-identified genetic data in which one or more marker regions for which de-identification is true are de-identified,
A proximity score proportional to the degree of equality between the genetic data and the non-identified genetic data is calculated to determine whether the proximity score is greater than or equal to a preset reference proximity value, and if the proximity score is greater than or equal to the reference proximity value, the proximity score is calculated. a de-identification data generation unit that stores de-identification genetic data in a storage unit and regenerates the de-identification genetic data when the proximity score is less than the reference proximity value;
In response to a distribution request signal, a distribution unit that generates output data corresponding to the distribution request signal from among genome data stored in a marker reference database and transmits the output data to a data request terminal; A genetic data de-identification processing device that generates de-identified genetic data.
제1항에 있어서,
상기 유전체 데이터는
개인 추론 식별이 가능한 잠재적인 유전 정보를 포함하는, 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 유전체 데이터 비식별화 처리 장치.
According to claim 1,
The genetic data is
A genomic data de-identification processing device that generates de-identified genetic data obtained by de-identifying genomic data, including potential genetic information capable of individual inferential identification.
제1항에 있어서,
상기 비식별 처리 여부 판단부는
상기 유전체 데이터에 포함된 각 마커에 대해서 대립유전자빈도(allele frequency)를 계산하는, 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 유전체 데이터 비식별화 처리 장치.
According to claim 1,
The de-identification processing decision unit
Genomic data de-identification processing device for generating de-identified genetic data by de-identifying genomic data, calculating an allele frequency for each marker included in the genomic data.
제1항에 있어서,
상기 익명 점수는
상기 유전체 데이터 내에서 지정된 마커로 구분 가능한 샘플 수의 비율에 비례하여 결정된 값인, 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 유전체 데이터 비식별화 처리 장치.
According to claim 1,
The anonymous score is
Genomic data de-identification processing device for generating non-identified genetic data by de-identifying genetic data, which is a value determined in proportion to the ratio of the number of samples distinguishable by a designated marker within the genetic data.
삭제delete 삭제delete 제1항에 있어서,
상기 비식별 처리 여부 판단부는
유전체 데이터에 포함된 각 마커들 중에서, 개인 식별 마커에 해당하는 마커들을 선별하는, 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 유전체 데이터 비식별화 처리 장치.
According to claim 1,
The de-identification processing decision unit
A genomic data de-identification processing device for generating de-identified genetic data by de-identifying genomic data, selecting markers corresponding to personal identification markers among markers included in genomic data.
제1항에 있어서,
상기 비식별 처리 여부 판단부는
유전체 데이터에 포함된 하나 이상의 마커들 중에서, 개인 식별 마커에 해당하는 마커들 선별하되, 상기 유전체 데이터의 질환 정보에 기초하여 질환에 대한 마커 중요도가 높은 마커를 상기 개인 식별 마커에서 배제하는, 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 유전체 데이터 비식별화 처리 장치.
According to claim 1,
The de-identification processing decision unit
Among one or more markers included in the genomic data, markers corresponding to personal identification markers are selected, but markers with high importance as markers for the disease are excluded from the personal identification markers based on the disease information of the genomic data. Genomic data de-identification processing device for generating de-identified genetic data.
유전체 데이터 비식별화 처리 장치는 외부의 전자 장치로부터 대상 세포의 유전체 데이터를 수신 하는 단계;
상기 유전체 데이터 비식별화 처리 장치는 상기 유전체 데이터 중에서, 동질 클래스(homogeneous class)에 해당하는 마커의 서열들에 대한 검체들 사이의 동일 여부를 기초로 익명 점수를 산출하고,
상기 유전체 데이터 중에서, 동질 클래스(homogeneous class)에 해당하는 마커의 서열들에 대한 검체들 사이의 차이 정도를 기초로 다양성 점수를 산출하고,
상기 유전체 데이터에 포함된 각 마커에 대한 상기 익명 점수 및 상기 다양성 점수를 고려하여 상기 유전체 데이터에 포함된 각 마커에 대한 비식별 처리 여부를 결정하는 단계;
상기 비식별 처리 여부가 참인 마커를 비식별화 처리한 비식별 유전 데이터를 생성하고, 상기 유전체 데이터 및 상기 비식별 유전 데이터 사이의 동일 정도에 비례하는 근접성 점수를 산출하여, 상기 근접성 점수가 기 설정된 기준 근접값 이상인지 여부를 판단하고, 상기 근접성 점수가 상기 기준 근접값 이상인 경우에는 상기 비식별 유전 데이터를 저장하고, 상기 근접성 점수가 상기 기준 근접값 미만인 경우에는, 상기 비식별 유전 데이터를 재 생성하는 단계; 및
배포 요청 신호에 응답하여, 저장부에 저장된 유전체 데이터들 중에서, 상기 배포 요청 신호에 대응하는 출력 데이터를 생성하고, 상기 출력 데이터를 요청 단말기로 전송하는 단계;를 포함하는, 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 방법.
The genome data de-identification processing device includes receiving genome data of a target cell from an external electronic device;
The genomic data de-identification processing device calculates an anonymity score based on whether the sequences of markers corresponding to a homogeneous class are identical among samples among the genomic data,
Among the genomic data, a diversity score is calculated based on the degree of difference between samples for marker sequences corresponding to a homogeneous class,
determining whether to process de-identification for each marker included in the genomic data in consideration of the anonymity score and the diversity score for each marker included in the genomic data;
Generating de-identification genetic data in which the marker for which the de-identification process is true is de-identified, and calculating a proximity score proportional to the degree of equality between the genetic data and the de-identification genetic data, so that the proximity score is set in advance. Determine whether the proximity score is greater than or equal to the reference proximity value, store the non-identified genetic data if the proximity score is greater than or equal to the reference proximity value, and regenerate the non-identified genetic data if the proximity score is less than the reference proximity value doing; and
In response to a distribution request signal, generating output data corresponding to the distribution request signal from among dielectric data stored in a storage unit, and transmitting the output data to a requesting terminal; including, de-identifying the dielectric data How to generate processed de-identified genetic data.
제9항에 있어서,
상기 유전체 데이터는
개인 추론 식별이 가능한 잠재적인 유전 정보를 포함하는, 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 방법.
According to claim 9,
The genetic data is
A method of generating de-identified genetic data by de-identifying genomic data, including potential genetic information capable of individual inference identification.
제9항에 있어서,
상기 비식별 처리 여부를 결정하는 단계는
상기 유전체 데이터에 포함된 각 마커에 대해서 대립유전자빈도(allele frequency)를 계산하는, 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 방법.
According to claim 9,
The step of determining whether the de-identification process is
A method of generating de-identified genetic data by de-identifying genomic data, calculating an allele frequency for each marker included in the genomic data.
제9항에 있어서,
상기 익명 점수는
상기 유전체 데이터 내에서 지정된 마커로 구분 가능한 샘플 수의 비율에 비례하여 결정된 값인, 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 방법.
According to claim 9,
The anonymous score is
A method of generating non-identified genetic data by de-identifying genetic data, which is a value determined in proportion to the ratio of the number of samples distinguishable by a designated marker within the genetic data.
삭제delete 삭제delete 제9항에 있어서,
상기 비식별 처리 여부를 결정하는 단계는
데이터 마이닝을 통해서, 유전체 데이터에 포함된 각 마커들 중에서, 비식별화 처리가 필요한 마커들을 선별하는, 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 방법.
According to claim 9,
The step of determining whether the de-identification process is
A method of generating de-identified genetic data by de-identifying genomic data, selecting markers requiring de-identification processing from among markers included in genomic data through data mining.
제9항에 있어서,
상기 비식별 처리 여부를 결정하는 단계는
유전체 데이터에 포함된 하나 이상의 마커들 중에서, 개인 식별 마커에 해당하는 마커들 선별하되, 상기 유전체 데이터의 질환 정보에 기초하여 질환에 대한 마커 중요도가 높은 마커를 상기 개인 식별 마커에서 배제하는, 유전체 데이터를 비식별화 처리한 비식별 유전 데이터를 생성하는 방법.
According to claim 9,
The step of determining whether the de-identification process is
Among one or more markers included in the genomic data, markers corresponding to personal identification markers are selected, but markers with high importance as markers for the disease are excluded from the personal identification markers based on the disease information of the genomic data. A method for generating de-identified genetic data that has been de-identified.
컴퓨터를 이용하여 제9항 내지 제12항, 제15항 및 제16항 중 어느 한 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램.A computer program stored in a computer readable storage medium to execute the method of any one of claims 9 to 12, 15 and 16 using a computer.
KR1020200148142A 2020-11-06 2020-11-06 Genome data de-identification processing device, method and computer program for generating non-identifying genetic data by de-identifying genomic data to protect personal information KR102471699B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200148142A KR102471699B1 (en) 2020-11-06 2020-11-06 Genome data de-identification processing device, method and computer program for generating non-identifying genetic data by de-identifying genomic data to protect personal information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200148142A KR102471699B1 (en) 2020-11-06 2020-11-06 Genome data de-identification processing device, method and computer program for generating non-identifying genetic data by de-identifying genomic data to protect personal information

Publications (2)

Publication Number Publication Date
KR20220061776A KR20220061776A (en) 2022-05-13
KR102471699B1 true KR102471699B1 (en) 2022-11-28

Family

ID=81583210

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200148142A KR102471699B1 (en) 2020-11-06 2020-11-06 Genome data de-identification processing device, method and computer program for generating non-identifying genetic data by de-identifying genomic data to protect personal information

Country Status (1)

Country Link
KR (1) KR102471699B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100537523B1 (en) 2003-02-03 2005-12-19 삼성전자주식회사 Apparatus for encoding DNA sequence and method of the same

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100537523B1 (en) 2003-02-03 2005-12-19 삼성전자주식회사 Apparatus for encoding DNA sequence and method of the same

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
C.-A. Azencott, "Machine learning and genomics: precision medicine versus patient privacy", Phil. Trans. R. Soc. A, 376:20170350. (2018.06.07.)
F. Yu 외, "Scalable privacy-preserving data sharing methodology for genome-wide association studies", Journal of Biomedical Informatics, 50:133-141. (2014.08.)
M. Akgun 외, "Privacy preserving processing of genomic data: A survey", Journal of Biomedical Informatics, 56:103-111. (2015.08.)
S. D. Constable 외, "Privacy-preserving GWAS analysis on federated genomic datasets", BMC Medical Informatics and Decision Making, 15:S2. (2015.12.21.)
X. Shi 외, "An overview of human genetic privacy", Ann. N.Y. Acad. Sci., 1387(1):61-72. (2016.09.14.)

Also Published As

Publication number Publication date
KR20220061776A (en) 2022-05-13

Similar Documents

Publication Publication Date Title
Lam et al. Comparative genetic architectures of schizophrenia in East Asian and European populations
Khera et al. Genome-wide polygenic scores for common diseases identify individuals with risk equivalent to monogenic mutations
Grinde et al. Generalizing polygenic risk scores from Europeans to Hispanics/Latinos
D’Adamo et al. The future is now? Clinical and translational aspects of “Omics” technologies
Ratanatharathorn et al. Epigenome‐wide association of PTSD from heterogeneous cohorts with a common multi‐site analysis pipeline
Jiang et al. The impact of age on genetic risk for common diseases
US20200027557A1 (en) Multimodal modeling systems and methods for predicting and managing dementia risk for individuals
Liang et al. Polygenic transcriptome risk scores (PTRS) can improve portability of polygenic risk scores across ancestries
Yap et al. Verifying explainability of a deep learning tissue classifier trained on RNA-seq data
EP1244047A2 (en) Method for providing clinical diagnostic services
US10713383B2 (en) Methods and systems for anonymizing genome segments and sequences and associated information
JP7258871B2 (en) Molecular Evidence Platform for Auditable Continuous Optimization of Variant Interpretation in Genetic and Genomic Testing and Analysis
Krishnamoorthy et al. A review of the role of electronic health record in genomic research
Venkat et al. Investigating genes associated with heart failure, atrial fibrillation, and other cardiovascular diseases, and predicting disease using machine learning techniques for translational research and precision medicine
Limkakeng Jr et al. Systematic molecular phenotyping: a path toward precision emergency medicine?
KR20180124840A (en) Assessment of drug safety for computer-implemented populations
US20200017913A1 (en) Methods and systems for predicting treatment responses in subjects
Lent et al. Detecting differentially methylated regions with multiple distinct associations
Møller et al. The clinical utility of genetic testing in breast cancer kindreds: a prospective study in families without a demonstrable BRCA mutation
Bolli et al. Software as a service for the genomic prediction of complex diseases
Fan et al. Genotype data and derived genetic instruments of Adolescent Brain Cognitive Development Study® for better understanding of human brain development
KR102471699B1 (en) Genome data de-identification processing device, method and computer program for generating non-identifying genetic data by de-identifying genomic data to protect personal information
US11468194B2 (en) Methods and systems for anonymizing genome segments and sequences and associated information
Jirout et al. A new framework marker-based linkage map and SDPs for the rat HXB/BXH strain set
Li et al. Integrative analysis of MAPK14 as a potential biomarker for cardioembolic stroke

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant