WO2021137563A1

WO2021137563A1 - 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법

Info

Publication number: WO2021137563A1
Application number: PCT/KR2020/019240
Authority: WO
Inventors: 박종화; 조윤성; 이황열; 김학민
Original assignee: 주식회사 클리노믹스
Priority date: 2020-01-02
Filing date: 2020-12-28
Publication date: 2021-07-08
Also published as: KR102138165B1

Abstract

국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법이 제공되며, 피검자로부터 추출된 DNA 시료로부터 유전형 정보를 생산하는 검형 단계, 유전형 정보를 기 구축된 국가, 민족, 및 인종별 표준게놈지도에 매핑(Mapping)한 후, 서열(Sequences)을 비교하여 변이(Variants)를 추출하는 단계, 서열의 매핑율(Sequence Mapping Rate) 및 변이율(Variant Rate)에 기초하여 피검자의 유전형 정보와 국가, 민족, 및 인종별 표준게놈지도의 유사도를 정렬하는 단계, 및 정렬된 유사도에 기반하여 피검자의 국가, 민족, 및 인종을 포함한 정체성을 도출하는 단계를 포함한다.

Description

국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법

본 발명은 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법에 관한 것으로, 표준게놈지도를 구축하고, 피검자의 DNA 시료와 표준게놈지도를 비교함으로써 피검자의 국가, 민족, 및 인종을 파악할 수 있는 플랫폼을 제공한다.

최근 과학기술학 연구들은 인간 유전체 프로젝트(Human Genome Project, HGP) 이후 집단 간 유전적 변이가 주요 주제로 떠오르고 고속 대량 염기서열 분석 기술이 구현되기 시작하면서 세계 각지에서 진행되고 있는 국가 단위의 유전체 프로젝트들에 초점을 맞춘다. 국가 단위 유전체 프로젝트는, 자국민의 건강 문제의 해결은 물론, 지구적 생의학 시장 진출을 목표로 영토 내 인구 집단에 대한 생체 정보를 체계적으로 수집하는 바이오뱅크의 건설이나 다양한 유전체 서열분석 프로젝트들의 형태로 전개되어 왔다. 과학기술학 연구자들은 이런 활동이 국민, 종족, 인종과 같은 사회문화적, 정치적 범주들을 생물학적 실재로 구상화시키고 있으며, 특히 국가 유전체 프로젝트들의 참여자들이 자국민의 유전체 연구 성과를 상업화하는 가운데 자국민 집단의 유전적 특성에 어떠한 성격을 부여하는지, 그리고 그것이 해당 집단에 대한 정체성 담론과 진행 중인 정치적 논쟁들과 어떻게 연루되는지에 대한 관심이 커지고 있다.

이때, 참조 표준을 위한 게놈지도 구축 방법이 연구 및 개발되었는데, 이와 관련하여, 선행기술인 한국등록특허 제10-1930253호(2018년12월18일 공고)에는, NGS(Next Generation Sequencing) 단서열 해독, PacBio 긴서열 해독, Illumnina TSLR 긴서열 해독 등의 시퀀싱 및 맵핑 기술을 이용하여 참조표준 게놈지도(Reference Genome Map)를 구축하고, 공통 돌연변이(SNP, indel)들의 정보를 구축된 참조표준 게놈지도에 통합하며, NGS 단서열 해독, PacBio 긴서열 해독, Illumnina TSLR 긴서열 해독 등의 3개 이상의 시퀀싱 및 맵핑 기술을 이용하여 참조표준 게놈지도를 구축함으로써 짧은 시간에 적은 비용으로 참조표준 게놈지도를 조립할 수 있고, 공통 돌연변이의 정보를 구축된 참조표준 게놈지도에 통합함으로써, 게놈 상의 각 포지션에 집단 공통(consensus)의 서열을 보유하도록 적용가능한 구성이 개시되어 있다.

다만, 상술한 방법을 이용한다고 할지라도 피검사자의 전장유전체서열(Whole Genome Sequences)를 해독한 후, 인간표준게놈지도(GRCh)와 비교하여 유전형의 위치와 변이를 추출하고, 동시에 복수의 인종의 전장유전체서열을 수집 및 생산하여 동일한 과정으로 처리해야 하고, 피검사자와 비교 그룹의 유전적 유사성을 모두 비교해야 하므로, 필수적으로 전세계의 각 국가, 민족, 및 인종별로 비교객체인 표준게놈지도 데이터베이스의 구축이 요구된다. 또, 구축을 한다고 할지라도 이를 비교할 때 피검사자에 대한 변이를 배제하지 않는 경우, 비교하려는 비교객체 전체집단의 재해독이 불가피하므로 인력 자원 뿐만 아니라, 인프라 자원의 낭비로 이어지는 문제점 등이 있었다.

[선행기술]

한국등록특허 제10-1930253호(2018년12월18일 공고)

본 발명의 일 실시예는, 전세계에 존재하는 국가별, 민족별, 및 인종별 표준게놈지도를 구축하여 데이터베이스화하고, 구축 후 피검사자의 DNA 서열을 표준게놈지도에 매핑한 후, 서열 비교를 통하여 변이(Variants)를 추출함으로써 편향될 수 있는 데이터를 제거하고, 비교하려는 비교객체 전체집단의 재해독을 하는 자원낭비를 막을 수 있으며, 변이의 유사성을 각 국가별, 민족별, 및 인종별 표준게놈지도와 비교함으로써 우선순위로 정렬된 유사성에 기반하여 국가, 민족, 및 인종을 포함한 정체성을 용이하게 판단할 수 있는, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 피검자로부터 추출된 DNA 시료로부터 유전형 정보를 생산하는 검형 단계, 유전형 정보를 기 구축된 국가, 민족, 및 인종별 표준게놈지도에 매핑(Mapping)한 후, 서열(Sequences)을 비교하여 변이(Variants)를 추출하는 단계, 서열의 매핑율(Sequence Mapping Rate) 및 변이율(Variant Rate)에 기초하여 피검자의 유전형 정보와 국가, 민족, 및 인종별 표준게놈지도의 유사도를 정렬하는 단계, 및 정렬된 유사도에 기반하여 피검자의 국가, 민족, 및 인종을 포함한 정체성을 도출하는 단계를 포함한다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 전세계에 존재하는 국가별, 민족별, 및 인종별 표준게놈지도를 구축하여 데이터베이스화하고, 구축 후 피검사자의 DNA 서열을 표준게놈지도에 매핑한 후, 서열 비교를 통하여 변이(Variants)를 추출함으로써 편향될 수 있는 데이터를 제거하고, 비교하려는 비교객체 전체집단의 재해독을 하는 자원낭비를 막을 수 있으며, 변이의 유사성을 각 국가별, 민족별, 및 인종별 표준게놈지도와 비교함으로써 우선순위로 정렬된 유사성에 기반하여 국가, 민족, 및 인종을 포함한 정체성을 용이하게 판단할 수 있다.

도 1은 본 발명의 일 실시예에 따른 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 시스템을 설명하기 위한 도면이다.

도 2는 도 1의 시스템에 포함된 정체성 분석 서비스 제공 서버를 설명하기 위한 블록 구성도이다.

도 3은 본 발명의 일 실시예에 따른 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.

도 4는 본 발명의 일 실시예에 따른 도 1의 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다.

도 5는 본 발명의 일 실시예에 따른 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법을 설명하기 위한 동작 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본 발명의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본 발명의 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1개의 유닛이 2개 이상의 하드웨어를 이용하여 실현되어도 되고, 2개 이상의 유닛이 1개의 하드웨어에 의해 실현되어도 된다.

본 명세서에 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.

본 명세서에서 있어서, 단말과 매핑(Mapping) 또는 매칭(Matching)으로 기술된 동작이나 기능 중 일부는, 단말의 식별 정보(Identifying Data)인 단말기의 고유번호나 개인의 식별정보를 매핑 또는 매칭한다는 의미로 해석될 수 있다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 시스템을 설명하기 위한 도면이다. 도 1을 참조하면, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 시스템(1)은, 적어도 하나의 피검자 단말(100), 정체성 분석 서비스 제공 서버(300), 적어도 하나의 관리자 단말(400)을 포함할 수 있다. 다만, 이러한 도 1의 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 시스템(1)은, 본 발명의 일 실시예에 불과하므로, 도 1을 통하여 본 발명이 한정 해석되는 것은 아니다.

이때, 도 1의 각 구성요소들은 일반적으로 네트워크(network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 적어도 하나의 피검자 단말(100)은 네트워크(200)를 통하여 정체성 분석 서비스 제공 서버(300)와 연결될 수 있다. 그리고, 정체성 분석 서비스 제공 서버(300)는, 네트워크(200)를 통하여 적어도 하나의 피검자 단말(100), 적어도 하나의 관리자 단말(400)과 연결될 수 있다. 또한, 적어도 하나의 관리자 단말(400)은, 네트워크(200)를 통하여 정체성 분석 서비스 제공 서버(300)와 연결될 수 있다.

여기서, 네트워크는, 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 RF, 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5GPP(5th Generation Partnership Project) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, NFC 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.

하기에서, 적어도 하나의 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. 또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시예에 따라 변경가능하다 할 것이다.

적어도 하나의 피검자 단말(100)은, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 국가, 민족, 및 인종을 파악하고자 하는 단말일 수 있다. 이를 위하여, 피검자 단말(100)은, 정체성 분석 서비스 제공 서버(300)로 검사요청 이벤트를 전송하고, 그 결과를 정체성 분석 서비스 제공 서버(300)로부터 수신하여 출력하는 단말일 수 있다.

여기서, 적어도 하나의 피검자 단말(100)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 피검자 단말(100)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 피검자 단말(100)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

정체성 분석 서비스 제공 서버(300)는, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 제공하는 서버일 수 있다. 그리고, 정체성 분석 서비스 제공 서버(300)는, 적어도 하나의 국가별, 민족별, 및 인종별 유전자 샘플에 대한 데이터를 수집하는 서버일 수 있다. 여기서, 수집은 적어도 하나의 관리자 단말(400)로부터 입력하는 방법으로 수집될 수도 있고, 직접 연결된 유전자 분석 장치로부터 수집될 수도 있으며, 어느 하나에 한정하지는 않는다. 또한, 정체성 분석 서비스 제공 서버(300)는, 수집된 유전자 샘플을 해독 및 생산하여 적어도 하나의 종류의 분석법을 이용하여 대표 샘플을 선정하고, 대표 샘플에 대한 정보를 데이터베이스화하여 국가, 민족, 및 인종별 표준게놈지도를 데이터베이스화하는 서버일 수 있다. 그리고, 정체성 분석 서비스 제공 서버(300)는, 피검자 단말(100)의 요청이 존재하는 경우, 관리자 단말(400)로부터 DNA 시료에 대한 데이터를 입력받고, 표준게놈지도(국가, 민족, 및 인종별 표준게놈지도와 동일한 용어로 정의한다)와 비교를 통하여 서열 매핑율 및 변이율에 기초하여 유사도를 산출하는 서버일 수 있다. 또한, 정체성 분석 서비스 제공 서버(300)는, 유사도에 근거하여 가장 높은 유사도를 가지는 순서대로 비교대상인 표준게놈지도를 정렬하고, 국가별, 민족별, 및 인종별로 각각의 퍼센테이지를 확인하여 그 결과를 피검자 단말(100)로 전송하는 서버일 수 있다. 이때, 표준게놈지도는 국가별, 민족별, 및 인종별로 데이터베이스화었음은 상술한 바와 같다. 또한, DNA 시료와 유전자 샘플은 동일한 종류의 물질이나, 데이터베이스를 구축하기 위한 것은 유전자 샘플로, 피검자의 것은 DNA 시료로 정의하여 양 비교대상을 구분하기로 한다.

여기서, 정체성 분석 서비스 제공 서버(300)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.

적어도 하나의 관리자 단말(400)은, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하는 관리자 또는 직원의 단말일 수 있다. 이때, 적어도 하나의 관리자 단말(400)은, 표준게놈지도를 구축하기 위한 유전자 샘플에 대한 데이터를 입력하는 단말일 수 있다. 또, 적어도 하나의 관리자 단말(400)은, 피검자의 DNA 시료에 대한 데이터를 입력하는 단말일 수 있고, 그 결과를 피검자 단말(100)로 전송하기 이전에 검수를 진행하는 단말일 수 있다.

여기서, 적어도 하나의 관리자 단말(400)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 관리자 단말(400)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 관리자 단말(400)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

도 2는 도 1의 시스템에 포함된 정체성 분석 서비스 제공 서버를 설명하기 위한 블록 구성도이고, 도 3은 본 발명의 일 실시예에 따른 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.

도 2를 참조하면, 정체성 분석 서비스 제공 서버(300)는, 검형부(310), 추출부(320), 정렬부(330), 도출부(340), 구성부(350)를 포함할 수 있다.

본 발명의 일 실시예에 따른 정체성 분석 서비스 제공 서버(300)나 연동되어 동작하는 다른 서버(미도시)가 적어도 하나의 피검자 단말(100), 및 적어도 하나의 관리자 단말(400)로 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 전송하는 경우, 적어도 하나의 피검자 단말(100), 및 적어도 하나의 관리자 단말(400)은, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 서비스 프로그램이 적어도 하나의 피검자 단말(100), 및 적어도 하나의 관리자 단말(400)에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: world wide web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(hyper text mark-up language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크롬(chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(app)을 포함한다.

도 2를 통하여 본 발명의 정체성 분석 서비스를 설명하기 이전에, 게놈 분석에 대한 개념을 간략히 설명하기로 한다.

생물의 특성을 결정하는 것은 유전자에 있고 이유전자는 DNA 염기 서열에 따라서 결정된다. 따라서 DNA 염기 서열을 분석하는 것은 생명체 정보분석의 가장 기본이라 할 수 있다. 이때, 시퀀싱 과정을 통해 나온 로우(Raw) 데이터는 중간 생성 파일등을 포함해서 일반적으로 1 TB(작은 생물체) 이상으로 생성된다. 계산생물학에서는 이렇게 생성한 로우 데이터의 short read들을 이용하여 일종의 퍼즐 맞추기 게임과 같은 어셈블리 작업을 시작한다. WGS(Whole Genome Sequencing)에서 어셈블리는 아주 작은 하나의 게놈 보다도 작은 read들을 이용하여 임의의 위치에 있는 read들을 over-sampling을 통하여 최종적으로 목적 게놈으로 구성하는 것이 목표이다. 하지만 WGS 처리는 높은 계산 복잡도를 요구하기 때문에 데이터를 효율적으로 사용하기 위해서는 복잡한 처리과정이 필요하다.

어셈블리를 하기위해서는 크게 두 가지의 알고리즘으로 분류할 수 있다. 그래프 오버랩을 이용하는 OLC(Overlap/Layout/Consensus)와 K-mer를 통하여 생성한 그래프를 이용하는 DBG(De Bruijin Graph) 방식이다. OLC는 read들의 오버랩된 그래프를 이용하여 표현하는데 그래프를 구성하기 위해서는 먼저 시퀀스간 정렬을 통하여 오버랩을 계산하여야 한다. 이 방식은 Sanger 시퀀싱 방식과 같이 긴 read들에 주로 사용되고 있으며 Celera assembler, AMOS, Phrap, Newbler등의 알고리즘들이 있다. DBG방식의 알고리즘은 고정 크기 스트링의 모든 가능한 서브 스트링을 그래프 표현한 것으로 간선은 suffix-to-prefix의 완벽한 오버랩으로 연결되며 이그래프를 이용하여 read들의 연결을 확장한다. DBG 알고리즘은 25-100bp 정도 크기의 read들을 목표로 하고 있으며 시컨스간 정렬을 하지 않기 때문에 어셈블리 계산이 OLC보다 단축되지만 K-mer의 오류가 그래프를 부정확하게 만들 수 있고 K-mer는 시퀀싱 오류에 민감해질 수 있다. 반면에 OLC는 overlap, layout, consensus 단계로 구성되기 때문에 알고리즘 모듈화를 구성하기 용이하여 모듈별 최적화가 가능하지만 오버랩 단계에서 매우 많은 시간과 계산 비용을 필요로 한다.

상술한 기본 개념을 바탕으로 도 2를 통하여 본 발명의 일 실시예를 설명하기로 한다.

검형부(310)는, 피검자로부터 추출된 DNA 시료로부터 유전형 정보를 생산하는 검형을 실시할 수 있다. 이때, 피검자의 DNA 시료는, 혈액, 타액, 구강상피세포 등으로부터 채취한 시료이며, 이 DNA 시료로부터 DNA를 추출하고, 전장유전체해독 및 DNA 칩(Chip) 방식으로 유전형 정보를 생산할 수 있다. 해독 및 유전형 생산 방식은 상용화된 다양한 플랫폼이 이용될 수 있으며, 어느 하나의 실험방법이나 플랫폼으로 한정하지는 않는다.

추출부(320)는, 유전형 정보를 기 구축된 국가, 민족, 및 인종별 표준게놈지도에 매핑(Mapping)한 후, 서열(Sequences)을 비교하여 변이(Variants)를 추출할 수 있다. 이때, 기 구축된 국가, 민족, 및 인종별 표준게놈지도는, 적어도 하나의 국가, 민족, 및 인종별 유전자 샘플을 적어도 하나의 종류의 해독법(Sequencing)으로 해독한 후, MDS(Multiple Dimensional Scaling) 또는 PCA(Principle Component Analysis)를 이용하여 대표 샘플을 선정함으로써 구축될 수 있다. 여기서, 본 출원인의 한국등록특허 제10-1930253호(2018년12월18일 공고)에 개시된 컨센서스(Consensus) 방법이 이용될 수도 있고, 하나의 표준 게놈을 이용할 수도 있으며, 서열을 해독하고 조립하는 방법은 어느 하나의 방법에 한정하지는 않는다. 신해독(De novo) 방법 뿐만 아니라, 재해독(Re-Sequencing)을 통한 방법도 가능하다. 여기서, 대표 샘플은 1인의 샘플 내지 1000인의 샘플일 수 있으나, 이에 한정하지는 않는다.

이때, 국가, 민족, 및 인종별 표준게놈지도는, 빅데이터와 같이 처리 및 저장될 수 있다. 일반적으로 빅데이터는 툴을 이용하여 데스크탑이나 워크스테이션에서 일반적인 시간 내에 데이터를 분석할 수 있는 것이 아니라 특정한 알고리즘과 아주 강력한 컴퓨팅 파워를 이용해야 계산이 가능한 것을 의미한다. 인간 게놈 프로젝트를 시작으로 DNA분석이 더욱 저렴해지면서 게놈 정보를 생산하는 가격이 계속 감소하고 있다. 그에 따라서 과거와 비교할 수 없을 정도의 수많은 게놈 정보가 생산되고 있으며, NGS 과정을 통하여 생산된 데이터는 게놈 어셈블리, BLAST, 게놈 주석 처리 등의 실험을 위해서는 슈퍼컴퓨터 같은 고성능 컴퓨터가 요구되고 있다. 게놈 어셈블리는 기존에 알려지지 않은 게놈 서열을 분석하는 De Novo Assembly와 참조 서열에 매핑하는 Reference Assembly으로 나뉜다. 매핑의 과정으로는 서열 인덱싱, 검색, 정렬, 매핑, 페어링, 서열추출과정을 거쳐 최종적인 전체 게놈 시퀀스를 추출할 수 있다. 이때, 인간 게놈 프로젝트의 30억 bp의 참조 서열에 NGS를 통해 생성된 다량의 100bp정도의 read들을 빠른 시간 내에 매핑 처리를 하기 위해서 다양한 형식의 인덱싱 기법을 이용할 수 있다. 예를 들어, 짧은 read들의 정렬 알고리즘으로 참조 서열의 해쉬 테이블과 비교하여 매핑을 하거나, LF 매핑을 이용하여 인덱싱을 통한 메모리 공간을 줄일 수도 있고, 클라우드 컴퓨팅 환경에서 대용량 자료를 처리하기 위해서 병렬처리를 알고리즘을 적용할 수도 있다.

이때, 본 발명의 일 실시예에 따른 방법에서는, cDNA(complementary DNA) 라이브러리를 더 제작할 수도 있다. 모든 생물의 유전현상의 핵심은 유전정보의 흐름으로 나타나고, 이 유전정보의 흐름은 기존 DNA에서 새로운 DNA를 생성하는 복제 과정(Replication), DNA를 주형으로 삼아 RNA를 생성하는 전사 과정 (Transcription), RNA에서 단백질을 생성하는 번역 과정(Translation)으로 나누어져있다. 복제 과정은 DNA 속에 저장되어 있는 유전정보를 다음 세대로 전달하기 위해 DNA 서열 자체를 복제하는 과정이다. 전사 과정은 DNA 속에 저장되어 있는 유전정보를 RNA로 이동시키는 단계로, 이때 생성된 RNA를 mRNA라고 한다. 전사과정을 통해 mRNA로 옮겨진 유전정보는 번역 과정으로 통해 아미노산으로 번역되고 펩타이드 결합을 이루면서 단백질 형태로 변환된다. 한 개체의 모든 세포는 동일한 유전체를 지니고 있지만 특정한 세포, 조직, 기관에 따라 발현되는 유전자의 종류나 발현량은 각기 다르다. 유전자가 발현되려면 mRNA로 전사가 일어나야하기 때문에 일반적으로 세포 내의 mRNA 양은 그 유전자의 발현되는 정도와 비례한다. 각 기관별로 특이적으로 발현되는 유전자와 모든 기관에서 발현되는 유전자가 무엇인지 알 수 있다면 각 기관의 기능 및 특성을 이해하고 나아가 질병의 예방 및 치료에 도움이 될 수 있으므로, 각 조직이나 기관에서 발현되는 mRNA를 분리하여 조직 특이적인 cDNA(complementary DNA) 라이브러리를 더 제작할 수 있다.

cDNA는 mRNA를 주형으로 역전사 효소와 DNA polymerase에 의해 합성된 DNA를 말하며, 이는 mRNA에 상보적 배열을 가지므로 상보적 DNA라고 불린다. 대량의 cDNA 라이브러리의 분석은 유전자와 단백질의 기능적 유전체 연구에 사용되어 왔고, 따라서, 포괄적인 비 중복 cDNA의 생산은 인간 및 모델 동물 생물체의 유전체 연구에 중요한 목표이다. 이때, 특정 cDNA 서열을 분석하고자 할 때, 주로 NCBI, Ensembl, DDBJ, UCSC 등 공용 데이터베이스에서 제공하는 웹 기반 검색 프로그램을 사용하지만, 이러한 시스템들은 자원의 한계, 속도 저하 등의 이유로 분석 데이터의 업로드 용량과 수량에 제한을 두고 있으며, 유전자의 기능적 분석을 하기 위해 또 다른 웹 데이터베이스를 검색해야 하는 어려움이 존재한다.

따라서, 본 발명의 일 실시예에서는, 대용량 cDNA 라이브러리 자동화 분석 파이프라인을 더 구비할 수도 있다. 적어도 하나의 관리자 단말(400)에서 수집된 각 유전자 샘플로, cDNA 라이브러리 구축 후, 대용량 염기서열 데이터를 쉽게 처리하지 못하는 문제를 해결하기 위하여, 분석 파이프라인은 첫 번째로, 시퀀싱 데이터의 전처리 과정, 두 번째로, 참조 서열과 비교하는 BLAST 과정, 세 번째로, 전장 cDNA 구조를 확인하는 과정, 네 번째로, 기능 분석 과정, 마지막으로 데이터베이스화 과정을 포함할 수 있다. 이때, 이미 전처리가 된 cDNA 라이브러리는 두 번째 과정부터 진행할 수 있다.

먼저, cDNA 라이브러리 시퀀싱 데이터의 전처리는 시퀀싱 머신에서 결과로 제공하는 이미지 파일을 컴퓨터로 처리할 수 있는 서열파일로 변환 후, Phred score 20 이상(시퀀싱 정확도 99%)으로 확실한 서열만 추출하고 cDNA 본연의 서열이 아닌 벡터서열은 제거하는 과정이다. 깨끗한 서열이 얻어지면, 그 다음 단계로 참조 서열 데이터베이스에 대조하여 해당 cDNA가 어떤 유전자인지 확인하게 된다. 여기서 사용되는 데이터베이스는 두 가지인데, 먼저 표준 참조서열 데이터베이스 (RefSeq DB)에서 cDNA의 참조 유전자를 확인하고 첫 번째 데이터베이스에서 결과가 없거나 서열의 유사성이 낮은 cDNA는 유니진 데이터베이스(UniGene DB)와 비교하여 참조 유전자를 찾아낼 수 있다. 세 번째 과정은, 전장 cDNA 구조 여부를 확인하는 단계이다. 각 cDNA는 참조 유전자 서열과 대조하여 Full length CDS, Full Candidate, Partial CDS, Non-CDS, Unknown으로 분류된다. Full length CDS는 coding sequence(CDS)의 개시 코돈을 포함하며 벡터 서열로 시퀀싱이 끝나거나 서열에 poly-A를 포함한다. Full Candidate는 5′ UTR이나 개시 코돈을 포함하고 있지만 벡터 서열이나 poly-A 없이 CDS 중간 영역까지 시퀀싱된 cDNA로 분류할 수 있다. 또, 참조 유전자의 CDS를 부분적으로 포함하고 있지만 개시코돈이 포함되지 않은 cDNA 들은 모두 Partial CDS로 할당하고, CDS가 없는 유전자로 정의된 cDNA는 NonCDS, BLAST 결과가 없는 cDNA는 Unknown으로 분류할 수 있다.

전장 cDNA를 얻은 후에 참조 유전자 서열과 대조하여 선택적 스플라이싱 구조와 변이(SNP, INDEL)를 찾고, 시각적으로 볼 수 있는 정렬 파일을 만들어 사용자가 직접 확인할 수 있도록 한다. 네 번째로, 참조 유전자가 할당된 cDNA는 기능 분석을 위해 유전자 정보, Gene Ontology(GO), Cytoband, OMIM 등 추가 주석이나 태그를 태깅할 수 있다. 마지막으로 모든 분석이 완료되면 cDNA 라이브러리 분석 정보를 데이터베이스화하여 체계적으로 관리가 가능하다. 물론, 상술한 방법으로 cDNA 라이브러리를 구축하지 않아도 되고, 라이브러리 자체를 구축하지 않아도 본 발명의 정체성 분석에는 문제가 없다. 다만, 상술한 표준게놈지도를 구축하면서, 수집된 유전자 샘플로 cDNA 라이브러리를 함께 구축하는 경우, 각 국가별, 민족별, 및 인종별로, 완전한 서열을 가진 포괄적인 비 중복 전장 cDNA의 생산이 가능해지고, 유전자의 exon, intron 구조를 정확하게 결정하는 중요한 자원으로써 가치가 있다. 특히, 선택적 스플라이싱 형태 및 저 발현 유전자가 RNA 시퀀싱의 염기서열 분석에 의해 재구성되기 어려운 경우 더욱 중요한 자원으로 이용될 수 있다.

정렬부(330)는, 서열의 매핑율(Sequence Mapping Rate) 및 변이율(Variant Rate)에 기초하여 피검자의 유전형 정보와 국가, 민족, 및 인종별 표준게놈지도의 유사도를 정렬할 수 있다. 정렬부(330)에서 서열의 매핑율(Sequence Mapping Rate) 및 변이율(Variant Rate)에 기초하여 피검자의 유전형 정보와 국가, 민족, 및 인종별 표준게놈지도의 유사도를 정렬할 때, 변이율은 변이 수(Number)에 기반할 수 있다. 이때, 변이 수는, 단염기다형성(Single Nucleotide Polymorphism), 삽입결실(Indels), 복제수변이(Copy-Number Variation), 및 게놈구조적변이(Structural Variation) 중 어느 하나 또는 적어도 하나의 조합에 의해 카운팅될 수 있다. 여기서, 적어도 하나의 조합이 이루어지는 경우, 단염기다형성, 삽입결실, 복제수변이, 및 게놈구조적변이 중 어느 하나가 피검자의 DNA 시료에서 발견되면, 기 설정된 가중치(Weighting)를 부여하여 전체 변이의 수인 변이 수를 보정할 수 있다. 예를 들어, 피검자의 DNA 시료로부터 추출된 DNA 서열에서, SV, 즉 게놈구조적변이가 존재하는 경우, 게놈구조적변이가 존재한다는 사실에 가중치를 부여한 후, 이를 단염기다형성 정보에 추가하여 전체 변이의 수를 보정할 수 있다.

이때, 국가, 민족, 및 인종별 표준게놈지도와, 피검자의 DNA 서열에서 동시에 발견되는 변이는, 해당 국가, 민족, 및 인종에 공통적인 유전적 특성이다. 이에 반하여, 특정 국가, 민족, 및 인종별 표준게놈지도와, 피검자의 DNA 서열에서 발견된 변이는 특정 국가, 민족, 및 인종의 고유한 유전적 특성이라고 볼 수 있다. 이러한 정보를 통합하고 분석함으로써 피검자의 유전적 구성이 어떠한지, 어느 국가, 민족, 및 인종에 가까운지, 어느 조상을 가졌는지를 확인할 수 있는 것이다. 예를 들어, A,B,C,D 국가와, 피검자의 DNA 서열에서 공통적으로 동시에 발견된 변이 [1]이 존재한다면, A,B,C,D 국가와 피검자에게서 모두 발견되는 변이로 정의할 수 있다. 이에 반하여, E 국가와, 피검자의 DNA 서열에서만 동시에 발견된 변이 [2]가 존재한다면, 이는 E 국가의 고유한 유전적 특성이라고 할 수 있다. 이에 따라, 피검자는 [2] 변이를 가진 E 국가의 국민일 가능성이 높아지는 것이다.

이와 같이, 정렬부(330)에서 서열의 매핑율(Sequence Mapping Rate) 및 변이율(Variant Rate)에 기초하여 피검자의 유전형 정보와 국가, 민족, 및 인종별 표준게놈지도의 유사도를 정렬할 때, 변이가 발생된 서열을 이용하여 국가, 민족, 및 인종별 표준게놈지도의 서열의 변이와의 유사도를 측정할 수 있다. 이때, 매핑 유사도는, 서열이 양 데이터 간 유사한 정도, 예를 들어, A 피검자의 B 서열과, C 표준게놈지도의 B 서열이 동일하고, 전체 서열 중 B 서열이 차지하는 비중이 10%라고 가정하면, A 피검자는 C 표준게놈지도와 유사성이 10%일 수 있다. 여기서, 표준게놈지도는, 각 국가별, 민족별, 인종별로 구분되어 있으므로, 이를 각각 모두 비교해야 총체적인 유사도가 계산될 수 있음은 자명하다 할 것이다.

도출부(340)는, 정렬된 유사도에 기반하여 피검자의 국가, 민족, 및 인종을 포함한 정체성을 도출할 수 있다. 예를 들어, A 피검자가 B 국가와 유사도가 40%, C 국가와 유사도가 30%, D 국가와 유사도가 20%, E 국가와 유사도가 10%라고 가정하면, B-C-D-E 순의 정체성을 가질 수 있다. 즉, A 피검자는, B 국가 국민일 가능성이 40%, C 국가의 국민일 가능성이 30%, D 국가의 국민일 가능성이 20%, E 국가의 국민일 가능성이 10%인 것이다. 마찬가지로, 각 민족이나 인종에 대해서도 각각의 퍼센테이지로 백인일 가능성, 황인일 가능성, 흑인일 가능성, 인디언일 가능성 등을 추출해낼 수 있다. 자신은 아시안이라고 생각했지만, 자신의 유전자에 흑인의 유전자가 25% 포함되어 있다면, 자신의 조상 중 흑인이 존재했을 가능성을 유추해볼 수 있고, 유전적 동일성을 파악할 수 있게 된다. 따라서, 도출부(340)는, 정렬된 유사도에 기반하여 피검자의 국가, 민족, 및 인종을 포함한 정체성을 도출할 때, 유사도가 최고값을 가지는 국가, 민족, 및 인종을 피검자의 국가, 민족, 및 인종으로 판단할 수 있다.

이때, 도출부(340)는, 국가, 민족, 및 인종의 특징을 이용하여 피검자의 DNA 시료를 분류하는 인공지능 알고리즘을 이용할 수도 있다. 예를 들어, 비감독 학습(Unsupervised Learning) 기반의 클러스터링 알고리즘을 이용하여, 같은 군집 내에 속한 표본들끼리는 유사성이 높고, 서로 다른 군집 간에 속하는 표본들끼리는 유사성을 작게 하는 방법을 이용할 수 있다. 클러스터링 알고리즘을 이용하는 경우, 국가, 민족, 및 인종 간 유전자의 상호 관련성을 쉽게 분석할 수 있다. 이때, 클러스터 분석(Cluster Analysis)은, 비슷한 특성을 가진 객체를 합쳐가면서 최종적으로 유사 특성의 그룹을 발굴하는데 사용될 수 있는데, 예를 들어, A 국가의 그룹과, B 국가의 그룹이 존재할 수 있다. 이러한 피검자의 그룹을 군집분석을 통하여 분류할 수 있도록 하고, 군집의 특성을 파악하여 이후 신규 검사가 의뢰된 경우, 신규 피검자의 객체를 분류해낼 수 있다.

또는, 은닉 마르코프 모델과 SVM 모델을 결합하여 클러스터링 함으로써 더 효율적인 분류 결과를 얻을 수도 있고, likelihood를 최댓점을 사용하여 매개 변수 학습 효과를 통해 국가, 민족, 및 인종의 특징을 분류하고 서포트 벡터 머신(Support Vector Machine)을 통하여 피검자의 DNA 시료를 분류 및 분석할 수 있다. 이때, 신경회로망 SOM(Self-Organizing Maps) 알고리즘을 이용할 수 있다. 이는, 클러스터의 개수가 알려져 있을 때 주어진 다차원 데이터들을 가장 근접한 클러스터에 사상(mapping)시켜주는 방법이다. Elastic network를 구성하는 map에 임의로 선택한 원소를 입력하여, 동시에 map의 가중치(weight)를 반복적으로 수정하여 입력 데이터들의 클러스터 이동이 없을 때까지 반복한다. 가중치 벡터의 갱신을 위해서 사용되는 가중치 벡터 갱신 함수는 학습율로서 0과 1의 값을 가지게 되며 가중치 수정시에 승자 뉴런과 함께 재조정된다.

가중치 벡터 갱신 함수에 따라 각 출력 노드의 가중치 벡터는 그 출력 노드에 포함된(그 출력 노드를 승자로 택한) 입력 데이터 방향으로 이동하게 된다. 이 움직임의 변화는 초기에는 매우 산만하나, 입력 벡터의 수가 어느 정도 이상이 되면 거의 변하지 않고 안정화된다. 이 방법은 복잡한 다차원 데이터 클러스터링에 알맞으면서 결과의 가시화가 쉽고, 클러스터링 결과를 사용자가 제어할 수 있다. 또, 서포트 벡터 머신은, 선형으로 나눌 수 없는 경우에는 커널함수(kernel function)를 이용하여 고차원에 전사시키는 방법으로 비선형적인 초평면을 형성시킨다. 비선형의 경우 선형에서와 같은 계산을 하기 위해서 커널함수 내적의 계산이 요구될 수 있다. 공간에서의 선형 분리 초평면은 원래의 공간에서 비선형 분리 함수로 얻을 수 있다. 커널함수의 선택에 따라 초평면의 형태가 다양하게 바뀌므로 적절한 커널함수의 선택이 이루어져야 한다. 커널함수의 선택은 아직까지 그 선택 기준이 없는 단점을 가지고 있어서 데이터에 따라 그 결과가 다르게 나타나는데, 예를 들어, 가우시안(Gaussian) RBF 커널을 이용할 수 있다.

상술한 인공지능 알고리즘을 이용하여 빅데이터를 모델링하는 경우, 질의(Query)가 입력되었을 때, 결과값인 국가, 민족, 및 인종의 퍼센테이지가 각각 출력될 수 있다. 이를 위하여, 원하는 결과값이 나오도록 학습, 훈련, 및 테스트하는 과정이 요구된다. 이때, 클러스터링 알고리즘을 이용하지만, 표준화 데이터 확률을 계산하는 절차에서는, 다양한 유사성 척도 중에서 유클리디안 유사도 및 코사인 관계식을 이용할 수 있지만, 이에 한정되는 것은 아니다.

구성부(350)는, 도출부(340)에서 정렬된 유사도에 기반하여 피검자의 국가, 민족, 및 인종을 포함한 정체성을 도출한 후, 정렬된 유사도의 합을 평균화하여 국가, 민족, 및 인종별 퍼센트를 산출하고, 산출된 퍼센트에 따라 국가, 민족, 및 인종의 구성비율을 출력할 수 있다. 이때, 기 구축된 국가, 민족, 및 인종별 표준게놈지도는, 현재에 생존하는 인간의 유전자 샘플 뿐만 아니라, 과거에 존재했던 인간의 유전자 샘플로부터 구축된 지도일 수 있다. 이에 따라, 과거에 존재했던 인간의 유전자 샘플로부터 구축된 지도와, 피검자의 DNA 시료 간의 매핑 및 유사도 산출을 통하여 피검자의 조상이 도출될 수 있다.

예를 들어, 옛사람의 뼈를 분자유전학적으로 분석하는 경우, 예를 들어, 몽골 샤하르톨고이 지역의 흉노 적색분에서 출토된 옛사람의 뼈가 노출되었다고 가정하자. 이때, 추출된 DNA가 3.9533pg/ul의 정량값이 측정되었고, 성별은 형질인류학과 아멜로제닌 유전자 분석으로 여성으로 판별되었고, 미토콘드리아 DNA 하플로그룹은 U4a2에 속하였으며, 상염색체 STR 분석 결과 9좌위 모두 분석값이 나왔다고 가정하면, 혈연관계까지 함께 분석 및 표준게놈지도의 데이터베이스화가 가능하다. 이렇게 유적지에서 발굴된 미이라나 토기 또는 무덤 등에서 발굴된 DNA를 이용하여 표준게놈지도를 만드는 경우, 만들어진 표준게놈지도와 피검자의 DNA 시료를 비교분석, 즉 매핑하는 과정을 통하여 피검자의 조상을 알아낼 수 있게 된다.

이하, 상술한 도 2의 정체성 분석 서비스 제공 서버의 구성에 따른 동작 과정을 도 3을 예로 들어 상세히 설명하기로 한다. 다만, 실시예는 본 발명의 다양한 실시예 중 어느 하나일 뿐, 이에 한정되지 않음은 자명하다 할 것이다.

도 3을 참조하면, (a) 정체성 분석 서비스 제공 서버(300)는 적어도 하나의 관리자 단말(400)로부터 적어도 하나의 국가, 민족, 및 인종에 대한 유전자 샘플을 해독한 결과를 수집하고, 이 중 대표 샘플을 선정하여 표준게놈지도를 구축한다. 이때, (b) 피검자의 DNA 시료를 추출한 경우, 정체성 분석 서비스 제공 서버(300)는, 염기서열분석을 실시하고, 표준게놈지도에 매핑하며, 서열을 비교하고 변이를 추출하는 과정을 통하여 어느 국가의 사람인이 몇 퍼센트가 섞였는지, 어느 민족의 유전자가 몇 퍼센트인지, 어느 인종의 유전자가 몇 퍼센트인지를 각각 출력하게 된다.

(c) 그리고, 정체성 분석 서비스 제공 서버(300)는, 피검자 단말(100)로 그 결과를 전송하는데, 관리자 단말(400)의 검수 후 전송이 될 수도 있으나 이를 검수가 진행되지 않는 것을 배제하는 것은 아니다. 이렇게 검사를 진행하는 경우, 종래에 인간의 게놈지도와 피검자를 비교하고, 또 게놈지도와 비교샘플을 하나하나 비교해야 했던 과정을 반복적으로 수행하지 않아도 된다. 즉, 본 발명의 일 실시예에는, 비교대상이 되는 모든 국가, 민족, 및 인종에서 유전형이 확인되는 영역의 변이를 피검사자와 비교함으로써, 표준게놈 구축시 사용된 데이터의 생산방법에 의해 편향될 수 있는(대표 샘플 선정 과정 등에서 발생하는 편향성) 변이를 배제하고, 피검자의 DNA 시료를 해독하는 것만으로도 비교가능한 영역을 최대한 활용할 수 있으며, 비교하려는 전체 집단에 대한 불필요한 재해독 비용을 방지할 수 있게 된다.

예를 들어, 한국 민족에 속한다고 생각하는 A 피검자의 한국인의 게놈을 해독하거나, 유전자 칩으로 검사하여 그 사람의 유전자 변이를 확보한다고 가정하자. 이때, 유전자 변이는, 인간 표준게놈을 이용할 수도 있고, 한국인의 표준게놈을 이용할 수도 있다. 이렇게 추출된 변이를 가지고, 300개의 민족별 표준게놈을 비교하는 경우, 민족별 표준게놈과 피검자의 변이를 비교하여 유사도를 측정한다(피검자VS민족별 표준게놈). 이때, 가장 높은 유사도를 가지는 표준게놈이, 한국인의 표준게놈이라면, A는 한국인이 조상이라고 판단할 수 있다. 또, 유사도가 수치로 산출되므로, 한국인이 70%인 사람과, 한국인이 60%인 사람은 같은 한국인을 조상으로 하고 있지만 그 정도는 다르다. 또, A가 한국인의 표준게놈에 가까운 정도가 많을 수 있는데, 이 수치들의 합을 평균화하여 한국인의 유사도를 300개의 표준게놈과 비교함으로써, A가 속하는 다른 민족의 구성비율도 구할 수 있다.

이와 같은 도 2 및 도 3의 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1을 통해 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

도 4는 본 발명의 일 실시예에 따른 도 1의 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다. 이하, 도 4를 통해 각 구성들 상호간에 데이터가 송수신되는 과정의 일 예를 설명할 것이나, 이와 같은 실시예로 본원이 한정 해석되는 것은 아니며, 앞서 설명한 다양한 실시예들에 따라 도 4에 도시된 데이터가 송수신되는 과정이 변경될 수 있음은 기술분야에 속하는 당업자에게 자명하다.

도 4를 참조하면, 정체성 분석 서비스 제공 서버(300)는, 적어도 하나의 관리자 단말(400)로부터 유전자 샘플에 대한 데이터를 입력받고(S4100), 국가, 민족, 인종별 유전자를 해독하며(S4200), 그 중 대표 샘플을 선정함으로써(S4300), 표준게놈지도를 구축한다(S4400).

이때, 정체성 분석 서비스 제공 서버(300)는, 피검자 단말(400)로부터 검사를 의뢰받으면(S4200), 관리자 단말(400)로부터 피검자의 DNA 시료에 대한 데이터를 입력받고(S4300), 표준게놈지도와 DNA 시료 간의 비교를 시작한다(S4400). 여기서, 정체성 분석 서비스 제공 서버(300)는, 서열의 매핑율, 즉 일치하는 정도와, 변이율, 변이가 되었는지, 변이가 일치하는 정도는 어느 정도인지 등을 각각 산출하고(S4710), 유사도로 정렬하고(S4800), 국가, 민족, 및 인종별 퍼센테이지를 각각 산출함으로써(S4900), 피검자 단말(100)로 검사 결과를 제공할 수 있다(S4920).

상술한 단계들(S4100~S4920)간의 순서는 예시일 뿐, 이에 한정되지 않는다. 즉, 상술한 단계들(S4100~S4920)간의 순서는 상호 변동될 수 있으며, 이중 일부 단계들은 동시에 실행되거나 삭제될 수도 있다.

이와 같은 도 4의 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 3을 통해 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

도 5는 본 발명의 일 실시예에 따른 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법을 설명하기 위한 동작 흐름도이다. 도 5를 참조하면, 정체성 분석 서비스 제공 서버는, 피검자로부터 추출된 DNA 시료로부터 유전형 정보를 생산하는 검형 단계를 진행한다(S5100).

그리고, 정체성 분석 서비스 제공 서버는, 유전형 정보를 기 구축된 국가, 민족, 및 인종별 표준게놈지도에 매핑(Mapping)한 후, 서열(Sequences)을 비교하여 변이(Variants)를 추출하고(S5200), 서열의 매핑율(Sequence Mapping Rate) 및 변이율(Variant Rate)에 기초하여 피검자의 유전형 정보와 국가, 민족, 및 인종별 표준게놈지도의 유사도를 정렬한다(S5300).

마지막으로, 정체성 분석 서비스 제공 서버는, 정렬된 유사도에 기반하여 피검자의 국가, 민족, 및 인종을 포함한 정체성을 도출한다(S5400).

이와 같은 도 5의 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 4를 통해 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

도 5를 통해 설명된 일 실시예에 따른 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 일 실시예에 따른 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

정체성 분석 서비스 제공 서버에서 실행되는 정체성 분석 서비스 제공 방법에 있어서,

피검자로부터 추출된 DNA 시료로부터 유전형 정보를 생산하는 검형 단계;

상기 유전형 정보를 기 구축된 국가, 민족, 및 인종별 표준게놈지도에 매핑(Mapping)한 후, 서열(Sequences)을 비교하여 변이(Variants)를 추출하는 단계;

상기 서열의 매핑율(Sequence Mapping Rate) 및 변이율(Variant Rate)에 기초하여 상기 피검자의 유전형 정보와 상기 국가, 민족, 및 인종별 표준게놈지도의 유사도를 정렬하는 단계; 및

상기 정렬된 유사도에 기반하여 상기 피검자의 국가, 민족, 및 인종을 포함한 정체성을 도출하는 단계;

를 포함하는 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법.
제 1 항에 있어서,

상기 기 구축된 국가, 민족, 및 인종별 표준게놈지도는,

적어도 하나의 국가, 민족, 및 인종별 유전자 샘플을 적어도 하나의 종류의 해독법(Sequencing)으로 해독한 후, MDS(Multiple Dimensional Scaling) 또는 PCA(Principle Component Analysis)를 이용하여 대표 샘플을 선정함으로써 구축되는 것인, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법.
제 1 항에 있어서,

상기 서열의 매핑율(Sequence Mapping Rate) 및 변이율(Variant Rate)에 기초하여 상기 피검자의 유전형 정보와 상기 국가, 민족, 및 인종별 표준게놈지도의 유사도를 정렬하는 단계에서,

상기 변이율은 변이 수(Number)에 기반하고, 상기 변이 수는, 단염기다형성(Single Nucleotide Polymorphism), 삽입결실(Indels), 복제수변이(Copy-Number Variation), 및 게놈구조적변이(Structural Variation) 중 어느 하나 또는 적어도 하나의 조합에 의해 카운팅되는 것인, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법.
제 3 항에 있어서,

상기 적어도 하나의 조합이 이루어지는 경우, 단염기다형성, 삽입결실, 복제수변이, 및 게놈구조적변이 중 어느 하나가 상기 피검자의 DNA 시료에서 발견되면, 기 설정된 가중치(Weighting)를 부여하여 전체 변이의 수인 변이 수를 보정하는 것인, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법.
제 1 항에 있어서,

상기 서열의 매핑율(Sequence Mapping Rate) 및 변이율(Variant Rate)에 기초하여 상기 피검자의 유전형 정보와 상기 국가, 민족, 및 인종별 표준게놈지도의 유사도를 정렬하는 단계는,

상기 변이가 발생된 서열을 이용하여 상기 국가, 민족, 및 인종별 표준게놈지도의 서열의 변이와의 유사도를 측정하는 단계;

를 포함하는 것인, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법.
제 1 항에 있어서,

상기 정렬된 유사도에 기반하여 상기 피검자의 국가, 민족, 및 인종을 포함한 정체성을 도출하는 단계는,

상기 유사도가 최고값을 가지는 국가, 민족, 및 인종을 상기 피검자의 국가, 민족, 및 인종으로 판단하는 단계;

를 포함하는 것인, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법.
제 1 항에 있어서,

상기 정렬된 유사도에 기반하여 상기 피검자의 국가, 민족, 및 인종을 포함한 정체성을 도출하는 단계 이후에,

상기 정렬된 유사도의 합을 평균화하여 국가, 민족, 및 인종별 퍼센트를 산출하고, 상기 산출된 퍼센트에 따라 국가, 민족, 및 인종의 구성비율을 출력하는 단계;

를 더 포함하는 것인, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법.
제 1 항에 있어서,

상기 기 구축된 국가, 민족, 및 인종별 표준게놈지도는,

현재에 생존하는 인간의 유전자 샘플 및 과거에 존재했던 인간의 유전자 샘플로부터 구축된 지도인 것인, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법.
제 8 항에 있어서,

상기 과거에 존재했던 인간의 유전자 샘플로부터 구축된 지도와, 상기 피검자의 DNA 시료 간의 매핑 및 유사도 산출을 통하여 상기 피검자의 조상이 도출되는 것인, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법.
제 1 항 내지 제 9 항 중 어느 한 항의 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 판독가능한 기록매체.