KR20230127973A - 대상의 유전자 데이터를 암호화하기 위한 방법 및 시스템 - Google Patents

대상의 유전자 데이터를 암호화하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR20230127973A
KR20230127973A KR1020237006948A KR20237006948A KR20230127973A KR 20230127973 A KR20230127973 A KR 20230127973A KR 1020237006948 A KR1020237006948 A KR 1020237006948A KR 20237006948 A KR20237006948 A KR 20237006948A KR 20230127973 A KR20230127973 A KR 20230127973A
Authority
KR
South Korea
Prior art keywords
subject
sequence
encryption key
exogenous dna
metadata
Prior art date
Application number
KR1020237006948A
Other languages
English (en)
Inventor
프레데릭 피나
알랭 비앙코토
에릭 펠레그리노
마에바 델라보
니콜라스 마카뇨
도미니크 피가렐라-브랑거
Original Assignee
아씨스땅스 쀠블리끄 데 조삐또 드 마르세이유
아씨스땅스 ?僊磁?끄 데 조삐또 드 마르세이유
위니베르시떼 덱스-마르세이유
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아씨스땅스 쀠블리끄 데 조삐또 드 마르세이유, 아씨스땅스 ?僊磁?끄 데 조삐또 드 마르세이유, 위니베르시떼 덱스-마르세이유 filed Critical 아씨스땅스 쀠블리끄 데 조삐또 드 마르세이유
Publication of KR20230127973A publication Critical patent/KR20230127973A/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0861Generation of secret information including derivation or calculation of cryptographic keys or passwords
    • H04L9/0866Generation of secret information including derivation or calculation of cryptographic keys or passwords involving user or device identifiers, e.g. serial number, physical or biometrical information, DNA, hand-signature or measurable physical characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Primary Health Care (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Public Health (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

생물학적 샘플의 게놈 데이터의 암호화 시스템 및 컴퓨터 구현 방법이 제공되며, 이는 분석 체인 전체에 걸쳐 추적 가능성 및 아이덴티티 경계를 보장하면서 샘플로부터 획득된 유전자 정보의 보안을 개선한다. 본 명세서에 개시된 컴퓨터 구현 방법 및 시스템은 높은 레벨의 아이덴티티 경계, 개선된 라벨링 및 추적 가능성을 허용하고, 유전체 데이터의 높은 레벨의 기밀성을 제공한다.

Description

대상의 유전자 데이터를 암호화하기 위한 방법 및 시스템
본 발명은 생물학적 샘플(biological sample)의 게놈 데이터(genomic data) 암호화 시스템 및 컴퓨터 구현 방법(computer implemented method) 및 이에 대한 DNA 라벨링(labelling)에 관한 것이다.
지난 수십 년에 걸친 DNA 시퀀싱(sequencing) 기술의 발전으로 상대적으로 낮은 비용으로 대상(subject)의 전체 게놈(genome)을 시퀀싱할 수 있게 되었다. 이에 따라 수십만의 대상들이 개인적인 목적으로(예를 들어, 계보 DNA 테스트), 의학적 이유로, 또는 중계 연구를 위해 시퀀싱 실험실에 샘플을 제공하였다.
전체 게놈 시퀀싱이 질병의 개별 수준 및 단계에서 치료를 개인화할 수 있는 능력을 제공하므로, 개인 맞춤형 의학이 건강 관리의 미래이다.
약리학 및 약물 개발은 집단 연구를 기반으로 하기 때문에, 현재의 치료는 전체 집단 통계로 표준화된다. 그러나 질병 및 약물 치료에 대한 대상의 반응은 유전적 및 후성적 소인과 관련이 있다.
게놈 시퀀싱은, 신생아 케어(neonatal care)에서 신속하고 차별적인 진단이 중요한 단일 유전자 질환(monogenic diseases)의 예후 상담(prognostic counselling)을 가속화하였다. 그러나, 의료 및 연구 용도 사이의 종종 모호한 구별은, 종종 상이한 레벨의 동의를 필요로 하고 상이한 국가 정책들을 수반할 때, 이러한 2 개의 영역들 사이의 기밀성이 처리되는 방식을 복잡하게 할 수 있다. 또한, 이러한 정책들은, 대상(subject)의 데이터를 보호하려는 유럽과 데이터에 대해 자유롭고 배포하려는 앵글로색슨 국가 사이에서 매우 상이하다.
실제로, 기업 프라이버시 정책(corporate privacy policies)은, 가족력, 건강 상태, 인종, 민족, 소셜 네트워크 등을 포함하는 개시된 고객 프로파일(consumer profile) 및 유전자 데이터(genetic data) 모두에 관하여, 고객을 정보 위험에 노출시키는 특히 앵글로색슨 국가와 같은 국가 관할권에 종종 속하지 않는다. 예를 들어, 특정 회사는 수집된 게놈 데이터를 산업에 판매하거나 또는 공용 데이터베이스, 바이오뱅크(biobanks) 및 저장소(예를 들어, 영국 바이오뱅크(UK biobank) 및 1000 게놈 프로젝트(Genomes Project))에 공유하여, 연구원과 임상의를 보조하여 의생명과학연구를 발전시키고, 생물학적 데이터 ― DNA, RNA 및 단백질의 구조 및 기능을 더 잘 이해하게 한다.
고객 매매 거래의 특성은 이러한 전자 모델들(electronic models)이 연구 및 건강 관리에서 전통적인 형태의 동의를 우회하게 하는 것을 고려하면, 유전 개인 정보의 보호에 대한 정책은 훨씬 더 복잡하다. 국제 연구 협력 또는 생물학적 자원 센터(국제 바이오뱅크)를 고려할 때, 유전자 정보 및 생물학적 샘플을 저장하는 데이터베이스에 동일하게 적용된다.
또한, 연구 및 건강 관리는 공식적인 전문지식을 필요로 하는 유일한 영역은 아니며; 관심 있는 다른 영역은 개인, 고객-지향(consumer-oriented) 게놈 시퀀싱에 관련된 것과 형사 사법 시스템에 관련된 유전자 정보의 프라이버시를 포함한다.
보험 회사, 고용주 또는 잠재적 우생학적 전체국가와 함께 제약 산업이 주요 관심원이다. 고객들은 그들의 유전자 시퀀스를 디지털화(digitizing)하고 저장하는 결과를 완전히 이해하지 못할 수 있다. 따라서, 데이터 유출(data breach)의 경우에, 대상의 개인 게놈이 대체될 수 없다는 것을 강조하는 것이 중요하다. 우선 순위는, 어느 방법들이 강력한지, 어떻게 정책들이 지속적인 유전자 프라이버시(genetic privacy)를 보장해야 하는지를 판단하는 것이다.
따라서, 저장, 공유, 수송 및 계산 중에 게놈 데이터의 프라이버시 및 보안에 관한 심각한 문제가 있다. 실제로, 국가(States) 또는 개인 회사들이 이러한 데이터뱅크들에 저장된 유전체 데이터(genomics data)에 대한 접근을 허용하는 법을 구상할 수 있다.
이러한 문제를 해결하기 위해, 상이한 암호화 전략이 제안되었다. 예를 들어, 리드 맵핑(reading mapping)을 다음의 2 개의 태스크들(tasks)로 나누는 것이 제안된다: 시퀀싱 데이터의 매칭(matching)은 공용 클라우드(public cloud) 상에서 수행될 수 있는 반면에, 이러한 리드들(readings)의 정렬(alignment)은 사설 클라우드(private cloud) 상에서 수행된다. 그러나, 정렬 프로세스는 매우 크고 노동 집약적인 경향이 있기 때문에, 대부분의 시퀀싱 시스템은 여전히 보안 문제를 가지는 클라우드와 같이 제3 파트(third-part) 컴퓨팅 동작(computing operations)을 기능적으로 요구한다.
다른 연구들은, 동형 암호(homomorphic encryption) 및 보안 완전 비교(secure full comparison)를 사용하고, 민감한 데이터를 암호화된 형태로 저장 및 처리하는 것을 제안하는 기술을 제안하였다. 기밀성을 보장하기 위해, 저장 및 프로세싱 유닛(SPU: Storage and Processing Unit)은 잠재적인 SNP(single nucleotide polymorphisms)의 세트(set)로부터 중복 콘텐트(redundant content)를 갖는 환자에서 관찰된 모든 단일 염기 다형성(SNPs)을 저장한다. 다른 해결법은 야오(Yao)의 가블드 회로 교차(Garbled circuit intersections) 및 스트립 업그레이드 알고리즘(strip upgrade algorithm)을 사용하여 마운팅 거리(mounting distances)의 계산을 보장하는 3 개의 프로토콜을 개발하였다. 그러나, 이러한 해결법의 주요한 단점은 정확도를 유지하면서 대규모 계산을 수행할 수 없다는 것이다.
또한, NGS 분석에서, 태그 또는 MID라 불리는 시퀀스들이 분석 단계 중 라이브러리 준비 시간(time of library preparation)에 추가된다. 이들 시퀀스들은 PCR 프라이머(primers)에 의해 3'로 운반되고, 디멀티플렉싱(demultiplexing) 동안 획득된 시퀀스는 타겟 게놈(target genome)의 참조 시퀀스(reference sequences)를 이용하여 정렬되고, 3' 파트(3' part)는 동일한 시퀀싱 분석(실행)에서 정렬된 각각의 시퀀스에 대한 샘플을 식별하게 한다. 이들 태그 또는 MID는 각각의 새로운 실행(run)에서 재사용되고, 다음의 분석 시리즈(series)(새로운 실행)에서 새로운 샘플들을 인덱싱(index)한다. 이들 태그 또는 MID는 고유하지(unique) 않고, 염기 시퀀스(base sequence)에서 수치 데이터가 인코딩되지 않는다.
현재까지, 4 개의 ATGC 염기(bases)를 사용하여 인코딩되고, 맞춤형 핵산 지지체(custom-produced nucleic acid support) 상에서 암호화된, 디지털 데이터 및 생물학적 정보의 시퀀싱에 의한 판독을 결합하고, 고유한 불변식(invariant)을 형성하고, 그리고 다음 유형의 정보: 인덱싱 데이터, 임상 데이터, 생물학적 데이터, 개인 데이터, 이미지 등을 운반하는 해결법이 없다.
또한, 제3 파트에 의해 게놈 데이터의 사용에 대한 환자 자율성(선택)을 부여하는 것은 현재 가능하지 않다. 또한, 분석에 절대적으로 필요한 게놈 정보(genomic information)의 수준에 따라 환자 동의를 계층화(stratify)하는 것은 어렵다.
본 명세서에 설명된 실시예들은 다음의 단계들을 포함하는, 대상(subject)의 유전자 데이터(genetic data)를 암호화하기 위한 컴퓨터 구현 방법(computer implemented method)을 제공한다:
- a) DNA 합성기(synthesiser)가, 상기 대상과 관련된 인코딩된 메타데이터(encoded metadata)를 포함하는 외인성(exogenous) DNA 시퀀스(sequence) (DNA 태그)를 합성하는(synthetizing) 단계 ― 상기 메타데이터는 적어도 암호화 키(encryption key)를 포함하고, 상기 암호화 키는 고유하며(unique) 상기 대상과 연관됨 ―;
- b) 샘플링(sampling) 재료(material)에서 상기 대상의 생물학적 샘플(biological sample)을 수집하는 단계 ― 상기 샘플링 재료는 상기 외인성 DNA 시퀀스를 포함함 ―;
- c) DNA 시퀀서(sequencer)가, 상기 생물학적 샘플로부터 획득된 상기 대상의 DNA를 시퀀싱(sequencing)하고, DNA 시퀀서가, 인코딩된 메타데이터를 포함하는 상기 외인성 DNA 시퀀스를 시퀀싱하는 단계;
- d) 적어도 하나의 프로세싱 유닛(processing unit)이, 상기 대상의 시퀀싱된 게놈(genome)에 대응하는 텍스트 기반 파일(text-based file)을 생성하는 단계 ― 상기 게놈은 적어도 하나의 관심 시퀀스(sequence of interest)를 포함함 ―;
- e) 상기 적어도 하나의 프로세싱 유닛이, 적어도 암호화 키를 포함하는 인코딩된 메타데이터를 포함하는 시퀀싱된 외인성 DNA 시퀀스에 대응하는 텍스트 기반 파일을 생성하는 단계;
- f) 시퀀싱된 외인성 DNA 시퀀스에 대응하는 상기 텍스트 기반 파일로부터 암호화 키를 상기 적어도 하나의 프로세싱 유닛으로 검출하는(extracting) 단계;
- g) 상기 적어도 하나의 프로세싱 유닛이, 적어도 하나의 관심 시퀀스를 제외하고, 상기 대상과 연관된 단계 f)의 상기 암호화 키로 상기 대상의 시퀀싱된 게놈에 대응하는 상기 텍스트 기반 파일을 암호화하는 단계.
상기 방법은 다음의 특징들 중 하나의 특징 및/또는 다른 특징을 더 포함할 수 있다:
- 단계 a)에서, 상기 메타데이터는 적어도 제2 암호화 키(second encryption key)를 포함함
- 단계 g)에서, 상기 적어도 하나의 관심 시퀀스는 상기 제2 암호화 키에 의해 암호화됨;
- 단계 d)의 텍스트 기반 파일은 고정 길이 염기쌍들(fixed-length base pairs)의 블록들(blocks)로 단편화됨(fragmented);
- 외인성 DNA 시퀀스 내에서 상기 대상과 연관된 개인 데이터베이스 인덱스 식별자(personal database index identifier)를 인코딩(encoding);
- 외인성 DNA 시퀀스 내에서 적어도 하나의 관심 시퀀스를 식별하기 위해 정보를 인코딩.
- 외인성 DNA 시퀀스 내에서 상기 대상의 건강 기록(health record)을 인코딩;
- 4 개의 뉴클레오타이드(nucleotide) 염기(bases) A, T, G 및 C의 조합(combination)에 기초하여 바이너리 코드(binary code)의 형태로 외인성 DNA 시퀀스에서 메타데이터를 인코딩;
- 외인성 DNA 시퀀스 내에서 인코딩된 메타데이터를 제3 암호화 키(third encryption key)로 암호화.
또한, 대상의 유전자 데이터를 암호화하기 위한 시스템이 제공되며, 상기 시스템은 다음을 포함한다:
(a) 상기 대상과 관련된 인코딩된 메타데이터를 포함하는 외인성 DNA 시퀀스(sequence)를 합성하도록 구성된 DNA 합성기(synthesiser) ― 상기 메타데이터는 적어도 암호화 키를 포함하고, 상기 암호화 키는 고유하며 상기 대상과 연관됨 ―;
(b) 상기 대상과 관련된 인코딩된 메타데이터를 포함하는 상기 외인성 DNA 시퀀스를 시퀀싱하도록(sequence) 구성되고, 생물학적 샘플로부터 획득된 상기 대상의 DNA를 시퀀싱하도록 구성된 DNA 시퀀서(sequencer);
(c) 다음의 단계를 수행하도록 구성된 적어도 하나의 프로세싱 유닛(processing unit):
- 대상의 시퀀싱된 게놈(genome)에 대응하는 텍스트 기반 파일(text-based file)을 생성하는 단계 ― 상기 게놈은 적어도 하나의 관심 시퀀스(sequence of interest)를 포함함 ―;
- 시퀀싱된 외인성 DNA 시퀀스에 대응하는 텍스트 기반 파일을 생성하는 단계 ― 외인성 DNA 시퀀스의 시퀀스는, 적어도 암호화 키를 포함하는 인코딩된 메타데이터를 포함함 ―;
- 시퀀싱된 외인성 DNA 시퀀스에 대응하는 텍스트 기반 파일로부터 암호화 키를 검출하는 단계;
- 상기 암호화 키로 상기 대상의 시퀀싱된 게놈에 대응하는 상기 텍스트 기반 파일을 암호화하는 단계.
상기 시스템은 다음의 특징들 중 하나의 특징 및/또는 다른 특징을 더 포함할 수 있다:
- 다음의 단계들을 수행하도록 구성된 적어도 하나의 추가(additional) 프로세싱 유닛:
- 4 개의 뉴클레오타이드(nucleotide) 염기 A, T, G 및 C의 조합에 기초하여 바이너리 코드(binary code)로 적어도 암호화 키를 포함하는 메타데이터를 변환하여, 상기 메타데이터에 대응하는 핵산 시퀀스(nucleic acid sequence)를 획득하는 단계;
- 획득된 핵산 시퀀스를 DNA 시퀀서로 전달하여, 적어도 상기 암호화 키를 포함하는 인코딩된 메타데이터를 포함하는 외인성 DNA 시퀀스를 획득하는 단계.
- 고정 길이 염기쌍들(fixed-length base pairs)의 블록들(blocks)로 대상의 시퀀싱된 게놈에 대응하는 텍스트 기반 파일을 단편화하도록(fragment) 구성된 적어도 하나의 프로세싱 유닛.
이러한 배치 덕분에 상기 방법 및 시스템은 샘플로부터 획득된 유전자 정보(genetic information)의 보안을 개선하면서, 분석 체인(analysis chain) 전체에 걸쳐 추적 가능성(traceability)과 아이덴티티 경계(identity-vigilance)를 보장한다. “아이덴티티 경계”는 분석 프로세스 전반에 걸쳐(예를 들어, 대상이 환자인 경우, 병원에서 그리고 의료 및 행정 데이터의 교환에서 관리(care) 전반에 걸쳐) 모든 대상이 정확하게 식별되도록 보장하는 것을 목표로 한다. 목적은 관리의 전체 과정에 걸쳐 대상 식별 및 문서화를 신뢰할 수 있게 하여, 적시에 올바른 대상에게 올바른 관리가 항상 제공될 수 있도록 하는 것이다.
본 명세서에 개시된 방법 및 시스템은, 라벨 시퀀스(label sequence)가 대상의 정보를 포함하기 때문에, 그리고 분석하려는 샘플과 동일한 튜브(tube)에 있기 때문에, 높은 레벨의 아이덴티티 경계를 허용하고, 안전한 방식으로 대상의 아이덴티티를 판단(determine)할 수 있으며, 이에 따라 예를 들어, 대상이 환자일 때 오진단(misdiagnosis)을 피할 수 있다. 이는 또한 통상적으로 디지털 포맷(digital format)으로 저장된 데이터와 비교될 수 있고, 이에 따라 데이터의 품질 관리(quality control)를 보장한다.
또한, 라벨링(labelling) 및 추적 가능성(traceability)이 개선된다. 실제로, 샘플과 동일한 튜브에서 라벨 시퀀스를 갖는 동일한 원리에 기초하여, 몇 년 후에 샘플에 대한 라벨링이 가능하다. 따라서, 이러한 방식으로 샘플에 링크된(linked) 데이터 손실의 문제(라벨 제거 또는 페이딩(fading))가 해결된다.
또한, 적어도 암호화 키(cryptographic key)를 포함하는 메타데이터(metadata)에 대한 이러한 DNA 태그 코딩(coding)을 통해, 키(key)의 보유자(고객(client)) 또는 원본 샘플(original sample)의 보유자(게놈 시퀀싱을 담당하는 연구실)만 연구실 데이터뱅크에 저장된 대상의 유전체를 해독(decipher)할 수 있다.
도 1은 본 명세서에 개시된 방법의 흐름도를 나타낸다.
도 2는 원시 데이터(raw data) “FASTQ” 파일의 블록들에 의한 암호화 방법의 예시를 나타낸다.
약어 목록
BAM = 바이너리 정렬 맵(Binary Alignment Map)
DNA = 디옥시리보핵산(Deoxyribonucleic Acid)
HER = 전자 건강 기록(Electronic Health Record)
HLA = 인간 백혈구 항원(Human Leukocyte Antigen)
QC = 품질 관리(Quality Control)
MDD = 메타데이터 문서(Metadata Document)
MID = 멀티플렉스 식별자(Multiplex Identifier)
NGS = 차세대 시퀀싱(Next-Generation Sequencing)
PCR = 중합효소 연쇄 반응(Polymerase Chain Reaction)
RNA = 리보핵산(Ribonucleic Acid)
SNP = 단일 염기 다형성(Single-Nucleotide Polymorphism)
SPU = 저장 및 프로세싱 유닛(Storage and Processing Unit)
도면에서, 동일한 참조 번호는 동일하거나 또는 유사한 요소를 나타낸다.
본 명세서에 개시된 방법 및 시스템은, 예를 들어, 건강 데이터(health data)와 같은 디지털 데이터를 “인코딩(encoding)”하기 위한 새로운 용도뿐만 아니라 “아이덴티티 경계(identity-vigilance)”를 위한 새로운 용도 및 성능 향상(performance gain)을 제공한다. 또한, 생물학적 데이터의 개선된 보안 및 프라이버시가 본 발명의 방법에 의해 제공된다. 실제로, 아이덴티티 경계는 분석 체인 전체에 걸쳐 일반적으로 사용되는 다른 품질 관리(QC: quality controls)와 함께 샘플링(sampling) 시점에 시작된다.
또한, 인코딩은 물리적 매체(physical medium) 상에서 개인 및 게놈 데이터를 결합(combine)하는 것을 가능하게 한다. 이는 디지털 데이터에 더하여, 모든 기존의 디지털 미디어 이상으로(> 2000년), 시간이 지남에 따라 재분석 가능한(re-analysable) 이들 데이터의 물리적 매체를 매우 강건하게 유지할 수 있게 한다.
또한, 암호화는 자신의 개인 자율성을 보존하는 것을 가능하게 하여, 자신 개인의 속성(J. Locke) 및 개인 선택의 자유를 모든 인간에게 다시 제공한다. 이는 또한 이들 게놈 데이터가 인간, 동물, 박테리아, 효모 또는 식물로부터 나온 무엇이든 간에 생물학적 재료로부터 임의의 게놈 데이터를 보호하는 것을 가능하게 한다.
마지막으로, 게놈의 기밀성(confidentiality)의 상이한 레벨들(levels)의 인덱싱(indexing)은 게놈의 크기 및 이에 따른 분석 시간을 감소시킨다.
그렇게 하기 위해, 컴퓨팅(computing)에서 사용되는 바이너리 코딩(binary coding)과 같이(예를 들어, '00'='A'; '01'='T', '01'='C', '10'='G'), 4 개의 뉴클레오타이드 염기를 사용하여, 데이터는 합성(synthetic) 외인성 DNA 시퀀스로 인코딩된다. 외인성 DNA 시퀀스는 예를 들어 DNA 합성기(synthesizer)에 의해 합성된다(synthetized). 데이터는 맞춤형인(custom-made) 이러한 고유한 DNA 분자(DNA 태그 또는 라벨)에 저장된다.
DNA 태그는 생물학적 샘플 및/또는 그 대상을 나타낸다(refers). 대상(subject)은, 사람, 동물, 박테리아, 효모 또는 심지어 식물일 수 있다. DNA 태그는 대상에 관한 디지털 정보의 물리적 캐리어(physical carrier)이다. DNA 라벨은 물리적 방식의 생물학적 샘플과 디지털 방식의 그것으로부터 도출된 데이터를 영구적으로 동반한다.
대상에 관한 임의의 종류의 데이터는 DNA 태그 내에서 인코딩될 수 있다. 상기 데이터는, 예를 들어, 대상의 아이덴티티에 관한 임의의 정보(예를 들어, 이름, 바코드, 데이터베이스 식별 번호(database identification number) 등); 샘플 수집 조건에 관한 임의의 정보(예를 들어, 날짜 및 장소); 샘플의 특성에 관한 임의의 정보(예를 들어, 지정된 조건을 갖는 환자로부터 획득된 혈액 샘플), 또는 심지어 환자의 경우, 환자의 의료 기록에 관한 임의의 정보일 수 있다.
DNA 태그는, 샘플로부터 획득된 게놈 데이터를 암호화하는데 사용될 적어도 암호화 키; 또는 게놈 중 어느 부분이 암호화되어야(crypted) 하는지를 나타내는 메타데이터(MDD: metadata)에 대해 또한 인코딩한다. DNA 태그 내에 인코딩된 암호화 키는 공개 키이고, 개인 키와 연관된다. 상기 개인 키는, 고유하고, 대상과 연관되며, 기밀성이 있고(confidential), 분석을 요구하는(ordering) 고객만 소유한다.
일반적으로, 개인/민감 정보의 프라이버시(privacy)를 보장하기 위해, 대상에 관한 모든 정보가 DNA 태그에서 인코딩될 수 있다. 따라서, 샘플을 소유하고 DNA 를 시퀀싱할 수 있는 사람만 라벨에 기록된 통상적인 정보와 달리 이들 정보에 접근할 수 있다.
본 방법에서, DNA 태그는 수집 시간(time of its collection)에 샘플에 추가된다. 시퀀서에 의해, 샘플에 존재하는, 대상의 게놈으로부터의 생물학적 데이터와 함께 판독된다(read). 도 1에 본 방법의 흐름도가 도시된다.
따라서, DNA 태그 상에 존재하는 데이터는 다음과 같이 상이한 목적들을 제공한다: 아이덴티티 모니터링(monitoring), 주석(annotations), 그러나 또한 암호화 키에 대한 물리적 지원(physical support)로서 기능함으로써 샘플을 보호(securing).
라벨은 암호화 공개 키에 대한 물리적 지원이며, 이는 ”위험(risks)”에 대한 상이한 레벨들을 인덱싱(indexes)하고 해독한다(deciphers). 그것은 현재의 컴퓨터 시스템들과 동일한 보안 표준들(security standards)로 암호화되는 그 자체인, 대상의 유전체를 암호화하는 물리적 키이다. 외인성 시퀀스는 분석을 요청한(ordering) 고객(예를 들어, 환자, 농업 산업, 연구실 등)에 의해 선택되는 제3 암호화 키(third encryption key)에 의해 암호화될 수 있다. 따라서, 대상과 관련된 정보의 번역(translation)을 획득하기 위해서, 고객이 보유하고 있는 키를 가지고 있어야 한다.
상이한 레벨의 위험들은 다음에 따라 정의된다. 상이한 레벨의 위험들은 분석에 관련되거나 또는 관련되지 않은 시퀀스들에 따라 정의된다. 예를 들어, 이러한 분석과 무관한 시퀀스들만을 암호화하도록 결정될 수 있다. 따라서, 분석에 관련된 시퀀스들만 제3 파트에 의해 ”판독 가능한(readable)” 반면에, 게놈의 나머지는 보호된다(protected). 또한, 제2 키에 의해 관련 부분들을 인코딩하도록 결정될 수 있으며, 이는 해독(deciphering)을 위한 제3 파트들(예를 들어, 관심 시퀀스의 분석을 담당하는 연구실)과 통신하게 할 것이다.
따라서, DNA 태그 및/또는 개인 키를 포함하는 원본 샘플을 소유하는 사람만 전체 대상의 게놈을 해독할 수 있다. 라벨은 대상의 데이터 상의 ”물리적” 잠금 장치(lock)이고, 이들 게놈 및 개인 데이터의 해킹, 도난 또는 오용으로부터 보호한다. 대상과 관련된 정보의 번역을 획득하도록, 고객이 보유하고 있는 키를 가지고 있어야 한다.
상기 방법은, 분석의 추적 가능성(traceability), 프라이버시(privacy) 및 아이덴티티 경계(identity-vigilance)를 개선하는 것을 가능하게 한다. 대상이 인간인 경우, 이는 의료 전문가 위원회에서 정의될 수 있는 상이한 레벨들의 “위험”에 관하여 계층화된 방식으로, 게놈 데이터에 대한 접근(access)을 제공할지 여부에 대한 고객의 자유 의지와 자율성을 또한 보장한다.
DNA 라벨은 다음의 적어도 3 개의 기능들 중 적어도 하나를 포함할(possess) 수 있다:
(1) 임의의 사전-분석(pre-analytical) 처리(treatment) 전에 DNA 시퀀스(라벨)을 부가함으로써 생물학적 샘플을 라벨링(아이덴티티 경계). 이 라벨은 다음과 같이 매우 다양한 데이터를 포함할 수 있다: 튜브 숫자(tube number), 날짜, 또는 심지어 분석 또는 생성(production) 체인(chain)에 걸쳐 생물학적 샘플의 추적 가능성 및 아이덴티티 경계를 허용하는 임의의 간단한 관련 정보.
(2) 환자의 경우, 게놈 데이터와 동시에 시퀀싱될 생물학적 샘플에 부가된 인공(artificial) DNA 시퀀스 형태의 물리적 매체(physical medium)의 제조를 통한 전자 건강 기록(EHR: electronic health record) 환자 데이터의 주석; 및
(3) 고유한 맞춤형인 외인성 DNA 시퀀스(라벨)를 통한 보안(암호화). 이는 암호화 키(들)의 물리적 캐리어이다. 이는 수집 시에 생물학적 샘플에 부가되고 그것에 영구적으로 링크된다(linked).
샘플의 DNA의 시퀀싱은, 관련된 외인성 DNA 시퀀스(태그)뿐만 아니라 대상의 게놈 중 전부 또는 일부의 시퀀스를 포함하는 텍스트 파일(예를 들어, “FASTQ”)을 생성한다(results in). 이러한 단계에서, 상이한 시퀀스들을 구별할 수는 없다.
“FASTQ” 포맷(format)은 생물학적 시퀀스(통상적으로 뉴클레오타이드 시퀀스) 및 그 대응하는 품질 점수(quality scores)를 모두 저장하기 위한 텍스트 기반 포맷이다. 시퀀스 문자(sequence letter) 및 품질 점수 모두는 간결성을 위해 싱글(single) ASCII 문자(character)로 각각 인코딩된다.
텍스트 파일(예를 들어, “FASTQ”)로부터의 각각의 단편(fragment)은 표준 게놈(reference genome)(예를 들어, 대상이 인간일 때 인간 게놈 데이터베이스(human genome databases))과 비교된다. 단편들은 참조 시퀀스(reference sequences)(예를 들어,”hg19”)를 이용하여 정렬되고 여러 개의 ”블록들”로 단편화된다(fragmented). 각각의 블록은 블록들이 분석에 관련된 데이터를 포함하는지 여부에 따라 ”위험”의 레벨/카테고리(category)로서 기록된다. 각각의 레벨은 DNA 태그를 사용하여 인덱싱되고, 카테고리화되고(categorized), 압축되고(compressed) 그리고 암호화 키(들)로 암호화되는(encrypted) 참조 시퀀스 텍스트 기반 파일(예를 들어, BAM 파일들)로 상호 참조된다(cross-referenced).
따라서, 특정 실시예에서, 분석될 게놈 데이터(예를 들어, 관심 유전자(gene)의 시퀀스)를 포함하는 블록은 암호화되지 않는 반면에, 관심 시퀀스를 포함하지 않는 블록은 DNA 태그의 암호화 키에 의해 암호화된다. 다른 특정 실시예에서, 관련 시퀀스들을 포함하는 블록들은 DNA 태그에서 인코딩된, 제2 암호화 키(공개 키)에 의해 암호화된다.
다른 특정 실시예에서, 블록이 관심 시퀀스(또는 관심 시퀀스의 일부) 및 암호화될 시퀀스를 포함할 때, 관심 시퀀스를 제외하고, 블록을 암호화하기 위해 이러한 블록의 전체 시퀀스 상의 위치들(positions)을 정의(define)하는 것이 가능하다. 또한, 관심 시퀀스는 제2 암호화 키에 의해 암호화될 수 있으므로 이러한 관심 시퀀스만이 해독될 것이다(도 2 참조).
특정 실시예에서, 게놈의 암호화는 예를 들어, 2 단계 인증 인터페이스(two-factor authentication interface), 스마트폰 앱(smartphone app), sms, 이메일(email), 인터넷 링크(internet link) 등에 의해, 고객의 사전 동의(prior agreement)를 받을 수 있다.
각각의 대상에 대해, 적어도 데이터베이스 인덱스(database index), 적어도 하나의 공개 키 및 적어도 하나의 개인 키와 같은 정보가, 고객에 의해 입력되고 제공되는 키로 암호화된 파일에 저장된다. 고객은 이러한 정보를 특정 소프트웨어(예를 들어, KeePass)에 의해 프로세싱되는(processed) 컴퓨터 파일의 형태로 유지한다. 인덱스는 예를 들어, 대상의 아이덴티티(identity), 샘플링의 조건, 의료 기록, 관심 시퀀스 등과 같은 정보를 포함하는 개인 데이터베이스(private database)를 나타낸다(refers). 각각의 인덱스는 고유하고, 구체적으로 이러한 데이터베이스의 하나의 대상만을 나타낸다.
따라서, 대상의 아이덴티티가 보존된다(preserved). 샘플링 재료(sampling material)로부터 어떠한 아이덴티티도 직접적으로 도출될 수 없다. 또한, 고객이 콘텐트(content)를 공개하는 것에 동의한 시퀀스들만 제3 파트(예를 들어, 분석을 담당하는 연구실)에서 볼 수 있는 반면에, 게놈의 나머지는 보호된다.
따라서, DNA 라벨은 게놈이 고객 요구 및 선택에 따른 보안 방식으로 잠금 해제될(unlocked) 수 있게 하는 물리적 및 디지털 매체이다.
상술한 방법을 구현하기 위한 시스템이 또한 제공된다. 상기 시스템은 상술한 방법의 DNA 태그에 대응하는 외인성 DNA 시퀀스를 합성하도록 구성된 DNA 합성기(synthesizer)를 포함한다. 따라서, DNA 태그 상에서 상기 대상과 관련된 메타데이터를 인코딩하는 것이 가능하다. 상기 메타데이터는 적어도 암호화 키를 포함하며, 상기 암호화 키는 고유하며 상기 대상에 연관된다.
상기 시스템은 상기 DNA 태그를 시퀀싱하도록 구성된 DNA 시퀀서를 더 포함한다. 따라서, DNA 태그 + 수집된 생물학적 샘플의 DNA를 시퀀싱할 때, 상기 대상의 DNA, 및 DNA 태그에 인코딩된 상기 대상과 관련된 메타데이터를 시퀀싱할 수 있다.
또한, 상기 시스템은, (적어도 하나의 관심 시퀀스를 포함하는) 대상의 시퀀싱된 게놈에 대응하는 텍스트 기반 파일을 생성하고; (적어도 암호화 키를 포함하는) 시퀀싱된 DNA 태그에 대응하는 텍스트 기반 파일을 생성하고; DNA 태그의 텍스트 기반 파일로부터 암호화 키를 검출하고, 최종적으로 상기 암호화 키로 대상의 게놈의 텍스트 기반 파일을 암호화하도록 구성된 적어도 하나의 프로세싱 유닛을 더 포함한다.
바람직하게는, 상기 시스템은, 4 개의 뉴클레오타이드(nucleotide) 염기 A, T, G 및 C의 조합에 기초하여 바이너리 코드(binary code)로 (적어도 암호화 키를 포함하는) 메타데이터를 변환하여(convert), 상기 메타데이터에 대응하는 핵산 시퀀스(nucleic acid sequence)를 획득하고(obtain); 획득된 핵산 시퀀스를 DNA 시퀀서로 전달하여, 상기 DNA 시퀀서는 (적어도 상기 암호화 키를 포함하는 인코딩된 메타데이터를 포함하는) 대응하는 외인성 DNA 시퀀스를 생성하도록 구성된, 적어도 하나의 추가 프로세싱 유닛을 더 포함한다.
더 바람직하게는, 상기 시스템은, 고정 길이 염기쌍들(fixed-length base pairs)의 블록들(blocks)로 대상의 시퀀싱된 게놈에 대응하는 텍스트 기반 파일을 단편화하도록(fragment) 구성된 적어도 하나의 프로세싱 유닛을 더 포함한다.
전술한 프로세싱 유닛 각각은 서로 상이하거나 또는 동일한 프로세싱 유닛들일 수 있다.
실시예
본 방법의 특정 실시예가 아래에 제공된다.
환자는 DNA 분석을 처방하는 의사와 상담한다. 의사는 분석될 시퀀스들에 관한 정보와 함께, 처방전을 A 회사에 전송한다.
A 회사는 환자에 대한 파일을 생성하고, 환자에게 적어도 식별을 위한 데이터베이스 인덱스, 및 적어도 공개 / 개인 암호화 키의 세트를 할당한다. A 회사는 적어도 개인의 개인 키를 환자에게 제공한다. A 회사는 DNA 합성기를 통해 내부에 인코딩된 메타데이터(MDD)를 포함하는 DNA 태그를 생성하고(상기 메타데이터는 환자에 링크됨), 환자의 생물학적 샘플을 수집하기 위해 샘플링 재료 내에 상기 DNA 태그를 삽입한다.
DNA 태그는, 컴퓨팅(computing)에서 사용되는 바이너리 코딩(binary coding)과 같이(예를 들어, '00'='A'; '01'='T', '01'='C', '10'='G'), 4 개의 뉴클레오타이드 염기를 사용하여 정보를 인코딩한다. 바람직하게는, DNA 태그는, 적어도 환자의 아이덴티티, 분석하려는 게놈의 시퀀스(예를 들어, 적어도 하나의 유전자)의 표시(데이터베이스 인덱스) 및 암호의 암호화 키(공개 키)에 관련된 정보에 대해 인코딩한다. DNA 태그는 샘플 수집 조건(예를 들어, 날짜 및 장소)에 관한 정보; 샘플(예를 들어, 백혈병을 갖는 환자로부터 취해진 혈액 샘플)의 특성 또는 심지어 환자의 의료 기록에 관한 정보를 더 포함할 수 있다.
DNA 태그를 포함하는 샘플링 재료는, 환자로부터 생물학적 샘플을 수집하는 것을 담당하는 B 연구실로 전송되고; 샘플은 DNA 태그를 포함하는 상기 샘플링 재료에 수집된다. 따라서, DNA 태그는 환자의 샘플을 따라가므로 프로세스 전체에서 그 추적성을 보장한다. DNA 태그 및 생물학적 샘플을 포함하는 샘플링 재료는 시퀀싱되도록 A 회사로 다시 전송된다(sent back).
샘플링 재료(sampling material)는 환자의 게놈에 해당하는 원시 텍스트 데이터(raw text data)(예를 들어, "FASTQ" 데이터)를 제공하는 A 회사에서 DNA 시퀀서에 의해 시퀀싱된다. "FASTQ" 파일은 프로세싱 유닛에 의해 유한한 길이의 여러 개의 ”블록들”로 단편화된다. 또한, 프로세싱 유닛은, 어떤 블록들이 C 연구실(Laboratory)에 의해 분석되는 적어도 하나의 시퀀스를 포함하는지를 식별하도록, DNA 태그 내에 포함된 인덱스(index)를 식별한다. C 연구실은 B 연구실과 동일하거나 또는 상이한 연구실일 수 있다. 프로세싱 유닛은 적어도 하나의 관심 시퀀스 이외의 모든 시퀀스들을 암호화한다. 암호화는 프로세싱 유닛에 의해 DNA 태그 내에서 식별된 암호화 키를 사용하여 이루어진다. 도 2는 블록들로 암호화 방법을 나타낸다. 이러한 단계는, 예를 들어, 2 단계 인증 인터페이스(two-factor authentication interface), 스마트폰 앱(smartphone app), sms, 이메일(email), 인터넷 링크(internet link) 등에 의해, 실시간으로 환자의 사전 동의(prior agreement)를 받을 수 있다.
부분적으로 암호화된 파일은 인간 게놈(예를 들어, hg19)의 참조 시퀀스를 이용하여 프로세싱 유닛에 의해 정렬되어, 암호화되지 않은 시퀀스만 프로세싱 유닛에 의해 표준 게놈(reference genome)을 이용하여 정렬되는, BAM 파일 출력(output)을 획득한다.
부분적으로 정렬된 BAM 파일은, 관심 시퀀스의 병원성 또는 게놈 변이(genomic variation)를 분석하기 위해, 암호화되지 않은 시퀀스에 접근할 수 있는, C 연구실로 전송된다. 따라서, C 연구실은 분석을 수행하기 위해 적어도 하나의 관심 시퀀스에만 접근하고, 나머지 게놈은 암호화된 상태로 유지된다.
다른 실시예에서, 개인 키(private key) / 공개 키(public key)의 제2 세트(set)가 제공되고, 상기 제2 공개 키는 DNA 태그 내에서 인코딩된다. 프로세싱 유닛은, 적어도 하나의 관심 시퀀스 이외의 모든 시퀀스들을 제1 공개 키로 암호화하고, 관심 시퀀스를 상기 제2 공개 키로 암호화한다. 따라서, 제3 파트로 전송된 파일은 완전히 암호화되어, 전송 동안 해킹에 대한 보호를 제공하고; 상기 제3 파트는 단지 상기 관심 시퀀스를 해독(decipher)할 수 있지만 나머지 게놈은 해독할 수 없다.

Claims (11)

  1. 대상의 유전자 데이터를 암호화하기 위한 컴퓨터 구현 방법에 있어서,
    - a) DNA 합성기(synthesiser)가, 상기 대상과 관련된 인코딩된 메타데이터(encoded metadata)를 포함하는 외인성 DNA 시퀀스(sequence)를 합성하는 단계 ― 상기 메타데이터는 적어도 암호화 키를 포함하고, 상기 암호화 키는 고유하며 상기 대상과 연관됨 ―;
    - b) 샘플링(sampling) 재료에서 상기 대상의 생물학적 샘플을 수집하는 단계 ― 상기 샘플링 재료는 상기 외인성 DNA 시퀀스를 포함함 ―;
    - c) DNA 시퀀서(sequencer)가, 상기 생물학적 샘플로부터 획득된 상기 대상의 DNA를 시퀀싱(sequencing)하고, DNA 시퀀서가, 인코딩된 메타데이터를 포함하는 상기 외인성 DNA 시퀀스를 시퀀싱하는 단계;
    - d) 적어도 하나의 프로세싱 유닛(processing unit)이, 상기 대상의 시퀀싱된 게놈(genome)에 대응하는 텍스트 기반 파일(text-based file)을 생성하는 단계 ― 상기 게놈은 적어도 하나의 관심 시퀀스(sequence of interest)를 포함함 ―;
    - e) 상기 적어도 하나의 프로세싱 유닛이, 적어도 암호화 키를 포함하는 인코딩된 메타데이터를 포함하는 시퀀싱된 외인성 DNA 시퀀스에 대응하는 텍스트 기반 파일을 생성하는 단계;
    - f) 시퀀싱된 외인성 DNA 시퀀스에 대응하는 상기 텍스트 기반 파일로부터 암호화 키를 상기 적어도 하나의 프로세싱 유닛으로 검출하는 단계;
    - g) 상기 적어도 하나의 프로세싱 유닛이, 적어도 하나의 관심 시퀀스를 제외하고, 상기 대상과 연관된 단계 f)의 상기 암호화 키로 상기 대상의 시퀀싱된 게놈에 대응하는 상기 텍스트 기반 파일을 암호화하는 단계
    를 포함하는 컴퓨터 구현 방법.
  2. 제1항에 있어서,
    단계 a)에서, 상기 메타데이터는 적어도 제2 암호화 키를 포함하고,
    단계 g)에서, 상기 적어도 하나의 관심 시퀀스는 상기 제2 암호화 키에 의해 암호화되는
    컴퓨터 구현 방법.
  3. 제1항 또는 제2항에 있어서,
    단계 d)의 텍스트 기반 파일은 고정 길이 염기쌍들(fixed-length base pairs)의 블록들(blocks)로 단편화되는
    컴퓨터 구현 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    외인성 DNA 시퀀스 내에서 상기 대상과 연관된 개인 데이터베이스 인덱스 식별자(personal database index identifier)를 인코딩하는 단계
    를 포함하는 컴퓨터 구현 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    외인성 DNA 시퀀스 내에서 적어도 하나의 관심 시퀀스를 식별하기 위해 정보를 인코딩하는 단계
    를 포함하는 컴퓨터 구현 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 대상은 환자이며, 외인성 DNA 시퀀스 내에서 상기 대상의 건강 기록을 인코딩하는 단계
    를 포함하는 컴퓨터 구현 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    4 개의 뉴클레오타이드(nucleotide) 염기 A, T, G 및 C의 조합에 기초하여 바이너리 코드(binary code)의 형태로 외인성 DNA 시퀀스에서 메타데이터를 인코딩하는 단계
    를 포함하는 컴퓨터 구현 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    외인성 DNA 시퀀스 내에서 인코딩된 메타데이터를 제3 암호화 키로 암호화하는 단계
    를 포함하는 컴퓨터 구현 방법.
  9. 대상의 유전자 데이터를 암호화하기 위한 시스템에 있어서,
    (a) 상기 대상과 관련된 인코딩된 메타데이터를 포함하는 외인성 DNA 시퀀스(sequence)를 합성하도록 구성된 DNA 합성기(synthesizer) ― 상기 메타데이터는 적어도 암호화 키를 포함하고, 상기 암호화 키는 고유하며 상기 대상과 연관됨 ―;
    (b) 상기 대상과 관련된 인코딩된 메타데이터를 포함하는 상기 외인성 DNA 시퀀스를 시퀀싱하도록(sequence) 구성되고, 생물학적 샘플로부터 획득된 상기 대상의 DNA를 시퀀싱하도록 구성된 DNA 시퀀서(sequencer);
    (c) 적어도 하나의 프로세싱 유닛(processing unit)
    을 포함하고,
    상기 적어도 하나의 프로세싱 유닛은:
    - 대상의 시퀀싱된 게놈(genome)에 대응하는 텍스트 기반 파일(text-based file)을 생성하는 단계 ― 상기 게놈은 적어도 하나의 관심 시퀀스(sequence of interest)를 포함함 ―;
    - 시퀀싱된 외인성 DNA 시퀀스에 대응하는 텍스트 기반 파일을 생성하는 단계 ― 상기 외인성 DNA 시퀀스의 시퀀스는, 적어도 암호화 키를 포함하는 인코딩된 메타데이터를 포함함 ―;
    - 시퀀싱된 외인성 DNA 시퀀스에 대응하는 텍스트 기반 파일로부터 암호화 키를 검출하는 단계;
    - 상기 암호화 키로 상기 대상의 시퀀싱된 게놈에 대응하는 상기 텍스트 기반 파일을 암호화하는 단계
    를 수행하도록 구성된 시스템.
  10. 제9항에 있어서,
    적어도 하나의 추가 프로세싱 유닛
    을 포함하고,
    상기 적어도 하나의 추가 프로세싱 유닛은:
    - 4 개의 뉴클레오타이드(nucleotide) 염기 A, T, G 및 C의 조합에 기초하여 바이너리 코드(binary code)로 적어도 암호화 키를 포함하는 메타데이터를 변환하여, 상기 메타데이터에 대응하는 핵산 시퀀스(nucleic acid sequence)를 획득하는 단계;
    - 획득된 핵산 시퀀스를 DNA 시퀀서로 전달하여, 적어도 상기 암호화 키를 포함하는 인코딩된 메타데이터를 포함하는 외인성 DNA 시퀀스를 획득하는 단계
    를 수행하도록 구성된 시스템.
  11. 제9항 또는 제10항에 있어서,
    상기 적어도 하나의 프로세싱 유닛은,
    고정 길이 염기쌍들(fixed-length base pairs)의 블록들(blocks)로 대상의 시퀀싱된 게놈에 대응하는 텍스트 기반 파일을 단편화하도록 더 구성되는
    시스템.
KR1020237006948A 2020-08-03 2021-08-02 대상의 유전자 데이터를 암호화하기 위한 방법 및 시스템 KR20230127973A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20305891.2 2020-08-03
EP20305891 2020-08-03
PCT/EP2021/071531 WO2022029059A1 (en) 2020-08-03 2021-08-02 Method and system for encrypting genetic data of a subject

Publications (1)

Publication Number Publication Date
KR20230127973A true KR20230127973A (ko) 2023-09-01

Family

ID=73854799

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237006948A KR20230127973A (ko) 2020-08-03 2021-08-02 대상의 유전자 데이터를 암호화하기 위한 방법 및 시스템

Country Status (9)

Country Link
US (1) US20230317211A1 (ko)
EP (1) EP4189689A1 (ko)
JP (1) JP2023537344A (ko)
KR (1) KR20230127973A (ko)
CN (1) CN116114023A (ko)
AU (1) AU2021322861A1 (ko)
CA (1) CA3190139A1 (ko)
IL (1) IL300101A (ko)
WO (1) WO2022029059A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9536047B2 (en) * 2012-09-14 2017-01-03 Ecole Polytechnique Federale De Lausanne (Epfl) Privacy-enhancing technologies for medical tests using genomic data
EP2709028A1 (en) * 2012-09-14 2014-03-19 Ecole Polytechnique Fédérale de Lausanne (EPFL) Privacy-enhancing technologies for medical tests using genomic data
US11539516B2 (en) * 2017-10-27 2022-12-27 Eth Zurich Encoding and decoding information in synthetic DNA with cryptographic keys generated based on polymorphic features of nucleic acids
WO2019191083A1 (en) * 2018-03-26 2019-10-03 Colorado State University Research Foundation Apparatuses, systems and methods for generating and tracking molecular digital signatures to ensure authenticity and integrity of synthetic dna molecules
AU2019318441A1 (en) * 2018-08-10 2021-04-01 Nucleotrace Pty. Ltd. Systems and methods for identifying a products identity

Also Published As

Publication number Publication date
EP4189689A1 (en) 2023-06-07
US20230317211A1 (en) 2023-10-05
CN116114023A (zh) 2023-05-12
CA3190139A1 (en) 2022-02-10
IL300101A (en) 2023-03-01
JP2023537344A (ja) 2023-08-31
WO2022029059A1 (en) 2022-02-10
AU2021322861A1 (en) 2023-02-16

Similar Documents

Publication Publication Date Title
Roden et al. Development of a large‐scale de‐identified DNA biobank to enable personalized medicine
US9449191B2 (en) Device, system and method for securing and comparing genomic data
US9935765B2 (en) Device, system and method for securing and comparing genomic data
US10713383B2 (en) Methods and systems for anonymizing genome segments and sequences and associated information
JP3357039B2 (ja) 匿名化臨床研究支援方法およびそのシステム
CN111723354B (zh) 提供生物数据的方法、加密生物数据的方法以及处理生物数据的方法
R. Marcelino et al. The use of taxon-specific reference databases compromises metagenomic classification
WO2008005309A2 (en) Systems and methods for identifying and tracking individuals
US20140248692A1 (en) Systems and methods for nucleic acid-based identification
CN112840403A (zh) 用于保存和使用基因组及基因组数据的方法
GB2597424A (en) Methods for enabling secured and personalised genomic sequence analysis
US10116632B2 (en) System, method and computer-accessible medium for secure and compressed transmission of genomic data
KR20130123298A (ko) 유전자 영상화를 위한 시스템 및 방법
Cassa et al. A novel, privacy-preserving cryptographic approach for sharing sequencing data
US20100299531A1 (en) Methods for Processing Genomic Information and Uses Thereof
US20230317211A1 (en) Method and system for encrypting genetic data of a subject
JPWO2002039341A1 (ja) 匿名化方法及びそのシステム、並びに個人にかかる情報を匿名化して移送する方法及びそのシステム
US20230124077A1 (en) Methods and systems for anonymizing genome segments and sequences and associated information
Fernandes Reconciling data privacy with sharing in next-generation genomic workflows
Hu et al. Biomedical informatics in translational research
Angers et al. Whole genome sequencing and forensics genomics
WO2020259847A1 (en) A computer implemented method for privacy preserving storage of raw genome data
Senelle et al. TB-annotator: a scalable web application that allows in-depth analysis of very large sets of publicly available Mycobacterium tuberculosis complex genomes
CN114902343A (zh) 用于处理基因数据的方法和数据处理设备
Albujja Microhaplotypes analysis for human identification using next-generation sequencing (NGS)