WO2015053480A1

WO2015053480A1 - 생물학적 샘플 분석 시스템 및 방법

Info

Publication number: WO2015053480A1
Application number: PCT/KR2014/008167
Authority: WO
Inventors: 홍유진; 남성혁; 이용석; 강성수; 기창석
Original assignee: 삼성에스디에스 주식회사; 사회복지법인 삼성생명공익재단
Priority date: 2013-10-11
Filing date: 2014-09-02
Publication date: 2015-04-16
Also published as: CN104569368B; KR101473705B1; CN104569368A; US20150105263A1; US10002232B2

Abstract

생물학적 샘플 분석 시스템 및 방법이 개시된다. 본 발명의 일 실시예에 따른 n * m 매트릭스를 구성하는 복수 개의 생물학적 샘플들, 및 상기 매트릭스에서 동일한 행(row) 또는 열(column)을 가지는 샘플들을 수합하여 생성된 복수 개의 풀(pool)을 이용하여 상기 복수 개의 샘플들 각각의 검사 대상 성질 보유 여부를 판정하기 위한 시스템은, 상기 복수 개의 풀 각각의 상기 검사 대상 성질에 대한 검사값에 따라 위양성 판정 가능성이 존재하는지의 여부를 판단하는 판단부; 상기 판단 결과 위양성 판정 가능성이 있는 경우, 상기 복수 개의 샘플 중 상기 검사 대상 성질 보유 여부에 대한 개별 검사를 수행할 최소 개수의 추가 검사 대상 샘플을 선정하는 추가 샘플 선정부; 및 상기 추가 검사 대상 샘플에 대한 검사값에 따라 상기 복수 개의 샘플들 각각의 상기 검사 대상 성질 보유 여부를 판정하는 검사 결과 판정부를 포함한다.

Description

생물학적 샘플 분석 시스템 및 방법

본 발명의 실시예들은 생물학적 샘플을 분석하기 위한 기술과 관련된다.

혈액 샘플을 검사하여 특정 바이러스에 감염되었는지, 혹은 질병을 유발하는 특정 변이를 가지고 있는지 검사하는 예와 같이, 테스트할 대상의 생물학적 샘플이 특정 성질을 가지는지 여부를 검사하기 위해서는 일반적으로 각 대상의 샘플마다 개별적으로 검사를 실행하였다. 따라서 대량의 샘플을 검사해야 할 경우, 샘플 개수만큼의 반복 검사를 위한 시간과 비용이 필요하였다.

대량의 샘플에 대해서 같은 검사를 실행하는 가장 기본적인 방법은 각 샘플에 대해 개별적으로 검사를 실행하는 것이다. 이때 검사 비용은 검사하려는 샘플의 개수만큼 늘어나게 된다. 예를 들어, 발병률이 낮은 질병에 대한 선별 검사의 경우는 검사하는 대부분의 샘플이 음성의 결과를 나타내게 된다. 이와 같은 경우에 검사 비용을 줄이기 위해 여러 개의 샘플을 동시에 검사하기 위한 방법들이 제시되었다.

여러 개의 샘플을 동시에 검사하기 위한 종래 방법 중 하나로는, 여러 샘플을 각기 다른 비율로 합친 샘플에 검사를 시행하여 검사 결과에서 특정 성질을 나타내는 신호의 강도에 따라 합쳐진 샘플들 중 어떤 샘플이 그 성질을 가지는지를 판별하는 방법이 있다. 그러나 이 방법은 동시에 검사할 샘플의 개수가 많아질수록 많은 양의 샘플 채취가 요구된다. 예를 들어, 16개의 샘플을 동시에 검사하기 위해서는 각 시료들이 1:2:2²:2³:…:2¹⁴:2¹⁵ 비율로 합쳐지게 된다. 이 경우, 마지막 샘플은 첫 번째 샘플보다 무려 2¹⁵(=32,768)배나 많은 양이 필요하게 되는데 이를 실제에 적용하기는 거의 불가능하다.

본 발명의 실시예들은 다수 개의 생물학적 샘플에 대하여 특정 성질이 나타나는지의 여부를 검사할 경우의 검사 회수를 최소화하기 위한 수단을 제공하기 위한 것이다.

본 발명의 일 측면에 따르면, n * m 매트릭스를 구성하는 복수 개의 생물학적 샘플들, 및 상기 매트릭스에서 동일한 행(row) 또는 열(column)을 가지는 샘플들을 수합하여 생성된 복수 개의 풀(pool)을 이용하여 상기 복수 개의 샘플들 각각의 검사 대상 성질 보유 여부를 판정하기 위한 시스템으로서, 상기 복수 개의 풀 각각의 상기 검사 대상 성질에 대한 검사값에 따라 위양성 판정 가능성이 존재하는지의 여부를 판단하는 판단부; 상기 판단 결과 위양성 판정 가능성이 있는 경우, 상기 복수 개의 샘플 중 상기 검사 대상 성질 보유 여부에 대한 개별 검사를 수행할 최소 개수의 추가 검사 대상 샘플을 선정하는 추가 샘플 선정부; 및 상기 추가 검사 대상 샘플에 대한 검사 결과에 따라 상기 복수 개의 샘플들 각각의 상기 검사 대상 성질 보유 여부를 판정하는 검사 결과 판정부를 포함하는 생물학적 샘플 분석 시스템이 개시된다.

상기 판단부는, 상기 복수 개의 풀 각각의 상기 검사값에 따라 상기 복수 개의 샘플들 중 양성 가능 샘플의 개수를 추정하고, 추정된 상기 양성 가능 샘플의 개수에 따라 상기 위양성 판정 가능성 존재 여부를 판단할 수 있다.

상기 판단부는, 추정된 상기 양성 가능 샘플 개수의 최대값 및 최소값이 상이한 경우, 위양성 판정 가능성이 존재하는 것으로 판단할 수 있다.

상기 추가 샘플 선정부는, 상기 검사값이 양성으로 판정된 풀 각각에 대하여, 상기 양성 판정 풀에 포함된 양성 가능 샘플 중 해당 풀의 검사값으로부터 나머지 샘플의 검사 결과를 계산하는 데 필요한 최소 개수의 추가 검사 대상 샘플을 선정할 수 있다.

상기 추가 샘플 선정부는, 상기 양성 판정 풀 중 포함된 양성 가능 샘플의 개수가 가장 작은 양성 판정 풀부터 순차적으로 상기 추가 검사 대상 샘플을 선정할 수 있다.

상기 검사 결과 판정부는, 상기 양성 판정 풀 각각에 대하여, 해당 풀의 검사값 및 해당 풀에 포함된 추가 검사 대상 샘플의 검사값을 이용하여 해당 풀에 포함된 나머지 양성 가능 샘플의 상기 검사 대상 성질 보유 여부를 판정할 수 있다.

또한 본 발명의 다른 측면에 따르면, n * m 매트릭스를 구성하는 복수 개의 생물학적 샘플들, 및 상기 매트릭스에서 동일한 행(row) 또는 열(column)을 가지는 샘플들을 수합하여 생성된 복수 개의 풀(pool)을 이용하여 상기 복수 개의 샘플들 각각의 검사 대상 성질 보유 여부를 판정하기 위한 방법으로서, 판단부에서, 상기 복수 개의 풀 각각의 상기 검사 대상 성질에 대한 검사값에 따라 위양성 판정 가능성이 존재하는지의 여부를 판단하는 단계; 추가 샘플 선정부에서, 상기 판단 결과 위양성 판정 가능성이 있는 경우, 상기 복수 개의 샘플 중 상기 검사 대상 성질 보유 여부에 대한 개별 검사를 수행할 최소 개수의 추가 검사 대상 샘플을 선정하는 단계; 및 검사 결과 판정부에서, 상기 추가 검사 대상 샘플에 대한 검사 결과에 따라 상기 복수 개의 샘플들 각각의 상기 검사 대상 성질 보유 여부를 판정하는 단계를 포함하는 생물학적 샘플 분석 방법이 개시된다.

상기 판단 단계는, 상기 복수 개의 풀 각각의 상기 검사값에 따라 상기 복수 개의 샘플들 중 양성 가능 샘플의 개수를 추정하고, 추정된 상기 양성 가능 샘플의 개수에 따라 상기 위양성 판정 가능성 존재 여부를 판단할 수 있다.

상기 판단 단계는, 추정된 상기 양성 가능 샘플 개수의 최대값 및 최소값이 상이한 경우, 위양성 판정 가능성이 존재하는 것으로 판단할 수 있다.

상기 추가 샘플 선정 단계는, 상기 검사값에 따라 양성으로 판정된 풀 각각에 대하여, 상기 양성 판정 풀에 포함된 양성 가능 샘플 중 해당 풀의 검사값으로부터 나머지 샘플의 검사 결과를 계산하는 데 필요한 최소 개수의 추가 검사 대상 샘플을 선정할 수 있다.

상기 추가 샘플 선정 단계는, 상기 양성 판정 풀 중 포함된 양성 가능 샘플의 개수가 가장 작은 양성 판정 풀부터 순차적으로 상기 추가 검사 대상 샘플을 선정할 수 있다.

상기 검사 대상 성질 보유 여부를 판정하는 단계는, 상기 양성 판정 풀 각각에 대하여, 해당 풀의 검사값 및 해당 풀에 포함된 추가 검사 대상 샘플의 검사값을 이용하여 해당 풀에 포함된 나머지 양성 가능 샘플의 상기 검사 대상 성질 보유 여부를 판정할 수 있다.

본 발명의 실시예들에 따를 경우 검사하고자 하는 하나 이상의 샘플들을 모아 풀(pool)을 구성한 뒤 각 풀의 검사 결과를 바탕으로 각 샘플들의 개별 검사 결과를 계산하므로 모든 샘플들에 대해 개별적으로 검사를 수행할 때 보다 검사 회수를 감소시키면서도 동일한 결과를 얻을 수 있다.

또한, 본 발명의 실시예들에 따를 경우 샘플 수합 방법에 의한 검사 결과 위양성 판정 가능성이 있는 경우에도 추가로 개별 검사를 수행하여야 할 샘플의 개수를 최소화할 수 있게 되는 바, 검사에 따르는 시간과 비용을 최소화하면서도 위양성 판정 가능성이 없는 정확한 검사 결과를 얻을 수 있다.

도 1은 본 발명의 일 실시예에 따른 샘플 수합(pooling) 과정을 설명하기 위한 도면

도 2는 본 발명의 일 실시예에 따른 생물학적 샘플 분석 시스템(100)을 나타낸 블록도

도 3 및 도 4는 본 발명의 일 실시예에 따른 샘플 수합 분석 방법에 따른 양성 샘플 추정 방법을 설명하기 위한 도면

도 5는 도 4에 도시된 실시예로부터 매트릭스 M 생성 및 이로부터 minPositive, maxPositive 값 계산하는 과정을 설명하기 위한 도면

도 6은 본 발명의 일 실시예에 따른 추가 검사 대상 샘플 선정 알고리즘을 설명하기 위한 도면

도 7은 도 4에 도시된 실시예로부터 도출된 그래프를 설명하기 위한 도면

도 8은 본 발명의 일 실시예에 따른 추가 검사 결과에 따라 각 샘플의 검사 결과를 판정하기 위한 알고리즘을 설명하기 위한 도면

도 9는 도 7에 도시된 그래프에서 각 샘플의 검사 결과를 추정하는 과정을 설명하기 위한 도면

도 10은 본 발명의 실시예들에 따른 샘플 수합 검사를 수행했을 때와 각 샘플에 대해 개별 검사를 했을 때의 총 검사 회수를 비교하여 설명하기 위한 그래프

도 11은 검사 대상 샘플들에 존재하는 양성 샘플 개수의 변화에 따른 총 검사 회수를 비교하기 위한 그래프

도 12는 본 발명의 일 실시예에 따른 생물학적 샘플 분석 방법(1200)을 설명하기 위한 흐름도

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

본 발명의 기술적 사상은 청구범위에 의해 결정되며, 이하의 실시예는 본 발명의 기술적 사상을 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 효율적으로 설명하기 위한 일 수단일 뿐이다.

본 발명의 일 실시예에 따른 생물학적 샘플 분석 시스템(100)은 복수 개의 생물학적 샘플 각각이 특정 생물학적 성질을 가지는지(다시 말해 상기 특정 성질에 양성 반응을 보이는지)의 여부를 판정하기 위한 시스템이다. 구체적으로, 생물학적 샘플 분석 시스템(100)은 n * m 매트릭스를 구성하는 복수 개의 생물학적 샘플들 및 상기 매트릭스에서 동일한 행(row) 또는 열(column)을 가지는 샘플들을 수합하여 생성된 복수 개의 풀(pool)을 이용하여 상기 복수 개의 샘플들 각각의 검사 대상 성질 보유 여부를 판정하도록 구성된다.

상기와 같은 생물학적 샘플 분석 시스템(100)의 각 구성요소들을 설명하기에 앞서, 검사 대상 샘플로부터 풀을 구성하는 과정을 설명하면 도 1과 같다. 먼저, x개(x = n * m)의 검사 대상 샘플(S₁, S₂, ..., S_n*m)을 n * m 매트릭스 상에 배열한다. 이때 n과 m은 같을 수도 있고 다를 수도 있으나, n * m 은 x와 같아야 한다. 또한 x는 2보다 크거나 같다. 상기 검사 대상 샘플은 특정한 생물학적 성질을 가지는지의 여부를 검사하기 위한 시료로써, 인간을 포함한 모든 생물의 조직 또는 체액 등일 수 있다.

상기와 같이 매트릭스가 구성되면, 다음으로 매트릭스상에 배열된 x개의 검사 대상 샘플을 k(= n + m)개의 풀(pool)에 나누어 수합(pooling)한다. 이때 상기 매트릭스에서 동일한 행 또는 열을 가지는 샘플들은 동일한 풀에 수합된다. 예를 들어, 도시된 실시예에서 풀 P₁에는 매트릭스의 첫번째 행을 구성하는 샘플들이 수합되고, P_n+1에는 매트릭스의 첫번째 열을 구성하는 샘플들이 수합한다. 이와 같은 과정을 통하여 k개의 풀링된 샘플(P₁, P₂, …, P_n+m, 이하에서는 편의상 "풀"로 줄여 표기)이 생성된다.

다음으로, 각 샘플들이 수합된 k개의 풀에 대해 검사를 수행하여 검사할 특정 성질에 대한 신호를 측정한다. 본 발명의 실시예에서 특정 성질이란, 각 샘플들이 특정 단일염기변이(Single Nucleotide Polymorphism; SNP)와 같은 유전자적 표지자(Genetic marker), 유전자적 표지자에서의 특정 유전형(genotype), 특정 질병 등과 같은 생물학적 특성을 보유하고 있는지의 여부일 수 있다. 상기 검사에서는 샘플 내 특정 성질의 보유 여부를 의미하는 신호의 세기가 풀 내에 해당 성질을 가지는 샘플의 개수와 대략 비례하여 나타난다. 예를 들어, 풀 내에 상기 특정 성질을 가지는 샘플의 개수가 2개인 경우에는 1개인 경우와 비교하여 상기 검사에 따른 신호 세기가 약 2배가 될 수 있다. 만약 특정 풀에서 측정된 신호 세기가 해당 풀에 포함된 하나 이상의 샘플이 특정 성질을 가진다고 판단할 수 있을 만큼 충분하다면, 해당 풀은 상기 특정 성질에 양성(positive)이라고 말할 수 있다.

예를 들어, 상기 검사가 샘플들의 특정 단일염기변이 보유 여부를 검사하는 것이라고 가정하자. 이 경우 샘플에 포함된 유전자의 해당 변이 위치에는 참조 유전자형인 AA, 이형접합(Heterozygous) 변이 유전자형인 AB, 동형접합(Homozygous) 변이 유전자형인 BB 중 어느 하나가 존재할 수 있다. 본 예에서는 이해가 용이하도록 이배체(diploid) 경우를 예로 들었으나, 본 발명이 이에 한정되는 것은 아니다. 또한 변이 유전자형에 대한 신호를 측정하는 방법으로 차세대 시퀀싱(Next Generation Sequencing; 이하, NGS) 기술을 사용할 수 있다. NGS기술은 타겟으로 하는 유전체 영역에 대해 일정한 길이의 서열 조각인 리드들을 대량으로 만들어내는데, 이렇게 생성된 리드들은 참조 서열(reference sequence)에 맵핑되고, 특정 영역에 맵핑된 리드들의 서열 정보를 바탕으로 해당 영역의 서열을 재구성하게 된다.

상기 예에서, 검사 대상 샘플의 특정 위치의 유전자형은 해당 위치를 포함한 영역에 맵핑된 리드들에서의 해당 위치에서의 대립형질빈도(allele frequency)로 유추될 수 있다. 예를 들어, 이형접합(Heterozygous) 유전자형인 AB의 경우 A와 B의 대립유전자빈도는 대략 각각 1/2, 1/2로 관찰될 것이다. 또한, 유전자형이 AB인 샘플과 BB인 샘플을 수합하였을 경우, A와 B의 대립유전자빈도는 대략 각각 1/4, 3/4으로 관찰될 것이다. 따라서 NGS 기술을 이용하여 샘플이 특정 단일염기변이를 가지고 있는지 검사하기 위해서는, 변이 유전자형인 AB와 BB에 존재하는 대립형질 B의 대립형질빈도를 맵핑된 리드 기반으로 측정하면 된다.

한편, NGS 기술을 이용해 맵핑된 리드들을 기반으로 대립형질빈도를 구할 경우, 이배수체인 샘플의 유전형이 AB일때 대체대립형질 B에 대한 대립형질빈도가 항상 1/2 혹은 1로 관찰되지 않는 경우가 발생할 수 있다. 이는 시퀀싱 에러 또는 맵핑 에러와 같은 일련의 에러들에 기인한 것일 수 있다. 따라서 이와 같은 오류를 감안하여 대립형질빈도가 0.4와 0.6 사이로 관찰될 때에는 유전형 AB로 판정하고 0.8이상으로 관찰될 때 유전형 BB로 판정하여 샘플의 검사 결과값을 할당하도록 하는 규칙을 적용할 수 있다. 또는, 맵핑된 리드 기반으로 샘플의 유전형을 판단하기 위한 다른 방법으로 SNVer 알고리즘(Wei et al., SNVer: a statistical tool for variant calling in analysis of pooled or individual next-generation sequencing data, Nucleic Acids Res. 39(19), 2011)과 같이 유전형에 대한 가능성(likelihood)이나 확률(probability)을 계산하는 통계적 알고리즘을 사용할 수도 있다. 각각의 풀의 검사값 역시 수합된 샘플의 개수를 고려하여 상기 규칙 또는 알고리즘을 적용하여 판정할 수 있다. 다만 상기 규칙 또는 알고리즘은 본 발명의 수행을 위한 하나의 실시예에 불과하며, 본 발명이 이에 한정되지는 않는다.

또한, NGS 기술이 본 발명에 용이하게 적용되기 위해서는 각 풀(pool)을 시퀀싱한 결과에서 해당 풀에 수합된 각 샘플의 시퀀싱 리드들이 대략 균등하게 분포한다는 조건이 만족되어야 한다. 예를 들어, 수합된 4개의 샘플이 각각 유전형 AA, AB, AB, AA를 가진다면, 해당 Pool에서 대체대립형질 B에 대한 대립형질빈도는 대략 2/8로 관찰되어야 할 것이다.

도 2는 본 발명의 일 실시예에 따른 생물학적 샘플 분석 시스템(100)을 나타낸 블록도이다. 도시된 바와 같이, 본 발명의 일 실시예에 따른 생물학적 샘플 분석 시스템(100)은 판단부(102), 추가 샘플 선정부(104) 및 검사 결과 판정부(106)를 포함한다.

판단부(102)는 상기 매트릭스로부터 생성된 상기 복수 개의 풀 각각의 상기 검사 대상 특정 성질에 대한 검사값에 따라 위양성 판정 가능성이 존재하는지의 여부를 판단한다.

추가 샘플 선정부(104)는 판단부(102)의 판단 결과 위양성 판정 가능성이 존재하는 경우, 상기 복수 개의 검사 대상 샘플 중 개별 추가 검사를 수행할 최소 개수의 추가 검사 대상 샘플을 선정한다.

검사 결과 판정부(106)는 상기 복수 개의 풀 각각의 검사값 및 상기 추가 검사 대상 샘플에 대한 검사 결과에 따라 상기 복수 개의 샘플들 각각의 상기 검사 대상 성질 보유 여부를 판정한다.

이하에서는 상기와 같이 구성된 본 발명의 일 실시예에 따른 생물학적 샘플 분석 시스템(100)의 각 구성요소들을 상세히 설명한다.

위양성 판정 가능성 여부 판단

전술한 바와 같이, 판단부(102)는 상기 매트릭스로부터 생성된 상기 복수 개의 풀 각각의 상기 검사 대상 특정 성질에 대한 검사값에 따라 위양성 판정 가능성이 존재하는지의 여부를 판단한다. 만약 상기 판단 결과 위양성 판정의 가능성이 있다고 판단될 경우에는, 양성인 풀의 일부 혹은 전체 샘플에 대한 개별 검사를 시행하게 된다.

본 발명의 일 실시예에 따른 n x m 수합 방법에서는 n x m 매트릭스에서 양성인 가로열 풀과 양성인 세로열 풀이 교차되는 지점에 해당하는 샘플을 양성으로 판정하게 된다. 예를 들어, 도 3에 도시된 바와 같이 풀 P₁, P₅ 및 P₈이 양성일 경우에는 샘플 S₁ 및 S₁₃이 양성인 것으로 판정된다. 만약 샘플 중 양성인 샘플이 존재할 확률이 낮다면 이와 같은 방법으로도 양성 샘플을 판정하기에 충분하다.

한편, 도 4에 도시된 바와 같이 샘플 S₁, S₁₅, S₁₆이 실제로 양성일 경우에는 풀 P₁, P₃, P₄, P₅ 및 P₈의 검사 결과가 양성으로 관찰될 것이다. 그러나 전술한 방법대로라면 샘플 S₁, S₃, S₄, S₁₃, S₁₅ 및 S₁₆이 양성으로 판정될 것이며, 이중 S₃, S₄, S₁₃은 잘못 판정된 것이다(즉, 위양성 샘플). 따라서 각 풀의 검사 결과에 따라서 위양성 샘플의 존재 가능성 여부를 판단할 필요가 있다.

본 발명의 실시예에서, 판단부(102)는 상기 복수 개의 풀 각각의 검사값에 따라 상기 복수 개의 샘플들 중 양성 가능 샘플의 개수를 추정하고, 추정된 상기 양성 가능 샘플의 개수에 따라 상기 위양성 판정 가능성 존재 여부를 판단한다. 먼저, 판단부(102)는 각 풀의 측정값을 바탕으로 풀 k (1 < = k <= n+m)의 값 p(k)를 수학식 1과 같이 할당한다.

수학식 1

각각의 풀에 대하여 p(k)가 정해지면, 다음으로 판단부(102)는 할당된 값을 바탕으로 수학식 2와 같이 새로운 n * m 매트릭스 M을 생성한다.

수학식 2

이후, 판단부(102)는 상기 매트릭스 M을 이용하여 양성 가능 샘플 개수의 최소값(minPositive)과 최대값(maxPositive)을 수학식 3 및 4와 같이 계산한다. 이때 minPositive는 각 풀들의 검사 결과에 따라 추정 가능한 양성 샘플 개수의 최소값을, maxPositive는 최대값을 각각 의미한다.

수학식 3

수학식 4

판단부(102)는 계산된 상기 maxPositive 및 minPositive 값을 이용하여 위양성 판정 가능성 여부를 판단한다. 구체적으로, 판단부(102)는 maxPositive 값이 minPositive 값과 상이한 경우, 위양성 판정 가능성이 존재하는 것으로 판단하게 된다.

도 5는 도 4에 도시된 실시예, 즉 P₁, P₃, P₄, P₅ 및 P₈의 검사 결과가 양성인 경우의 매트릭스 M 및 이로부터 계산된 minPositive, maxPositive 값을 나타낸 도면이다. 도시된 바와 같이, 본 실시예의 경우 minPositive 값이 3으로 maxPositive 값인 6과 상이하므로 위양성 판정 가능성이 존재하는 바, 일부 샘플에 대한 추가 개별 검사가 필요함을 알 수 있다.

개별 추가 검사를 위한 최소 샘플 선정

상술한 바와 같이, 판단부(102)의 판단 결과 위양성 판정 가능성이 존재하는 경우, 추가 샘플 선정부(104)는 상기 복수 개의 검사 대상 샘플 중 개별 추가 검사를 수행할 최소 개수의 추가 검사 대상 샘플을 선정한다.

본 발명의 실시예에서 추가 샘플 선정부(104)는 위양성 판정 가능성이 있을 경우에 양성일 가능성이 있는 모든 샘플에 대하여 개별 검사를 수행하는 것이 아니라, 가능한 최소 개수의 샘플만을 대상으로 추가적인 개별 검사를 수행하도록 구성된다. 추가 개별 검사를 하는 샘플의 수가 늘어날수록 그 비용과 시간은 또한 증가하기 때문이다. 그러나 이는 샘플 내 특정 성질의 보유 여부를 의미하는 신호의 세기(즉, 각 풀의 신호 세기)가 풀 내에 해당 성질을 가지는 샘플의 개수와 대략 비례하여 나타날 경우를 전제로 한다. 만약, 검사 결과에서 풀 내 양성 샘플의 존재 여부는 알 수 있으나 신호의 세기가 양성 샘플의 개수와 대략 비례하여 나타나는 것을 기대하기 어려울 경우는, 양성인 풀 내의 모든 샘플에 대해 개별 추가 검사를 실행하여야 한다. 다만, 이 경우에도 본 발명은 위양성 판정 가능성이 있을 경우에만 추가 검사를 실행할 수 있도록 위양성 판정 가능성 여부를 판별하는 바, 항상 모든 양성 가능 샘플에 대해 추가 검사를 수행하는 종래 기술에 비해 비용 및 시간상의 장점을 가진다.

위양성 판정 가능성이 있다고 판단될 경우, 추가 샘플 선정부(104)는 추가 개별 검사를 할 최소 개수의 샘플을 선정한다. 상기 추가 개별 검사는 풀에 수행했던 동일한 검사일 수도 있고, 검사 대상인 특정 성질에 대해 측정할 수 있는 다른 기술을 이용한 검사일 수도 있다.

추가 샘플 선정부(104)는 각 풀에 대한 검사값에 따라 양성으로 판정된 풀(양성 판정 풀) 각각에 대하여, 상기 양성 판정 풀에 포함된 양성 가능 샘플 중 해당 풀의 검사값으로부터 나머지 샘플의 검사 결과를 계산하는 데 필요한 최소 개수의 추가 검사 대상 샘플을 선정하도록 구성된다. 구체적인 추가 검사 대상 샘플 선정 알고리즘을 기재하면 도 6과 같다.

도 4에 도시된 예를 이용하여 도 6에 기재된 알고리즘을 설명하면 다음과 같다. 먼저, 추가 샘플 선정부(104)는 양성으로 판정된 풀(P₁, P₃, P₄, P₅, P₈) 및 이로부터 도출된 양성 가능 샘플(S₁, S₃, S₄, S₁₃, S₁₅, S₁₆)을 각각 정점(vertex)으로 하고, 양성 판정 풀 및 양성 가능 샘플들을 연결한 선을 에지(edge)로 하는 그래프 G를 생성한다. 상기 방법을 통하여 생성된 그래프를 도 7에 나타내었다.

그래프 G가 생성되면, 다음으로 추가 샘플 선정부(104)는 그래프에 포함된 풀 중 이웃(neighbor)의 개수가 가장 적은 풀, 즉 양성 가능 샘플이 가장 적은 풀을 선택하고, 선택된 풀의 이웃으로 구성된 집합 D를 구성한다. 도시된 실시예에서 이웃의 개수가 가장 적은 풀은 이웃이 2개인 P₁, P₃ 및 P₄이므로 이 중 하나인 P₁을 선택한다. 그러면 D = {S₁, S₁₃}이 된다.

이후, 추가 샘플 선정부(104)는 집합 D에서 하나의 샘플을 빼고, 집합 D가 비어있는지의 여부를 검사한다. 만약 특정 샘플을 뺀 이후에도 집합 D가 비어 있지 않은 경우, 샘플 선정부(104)는 빼낸 상기 특정 샘플을 추가 검사 대상 샘플로 선정한다. 예를 들어, 상기 집합 D에서 S₁을 뺀 이후에도 집합 D에는 여전히 S₁₃이 남아 있으므로, 추가 샘플 선정부(104)는 S₁을 추가 검사 대상 샘플로 선정하고 그래프 G에서 제외한다. 만약 특정 샘플을 뺀 이후 집합 D가 비게 되는 경우, 샘플 선정부(104)는 빼낸 상기 특정 샘플을 선정하지 않고 바로 그래프 G에서 제외한다. 예를 들어 상기 S₁이 선정된 이후, 집합 D에는 S₁₃만이 남게 되며 이를 뺄 경우 집합 D는 빈 집합이 된다. 따라서 S₁₃은 추가 검사 대상 샘플로 선정되지 않는다. 이와 같은 과정은 상기 집합 D가 빌 때까지 반복되며, 이후에는 선택되지 않은 다른 풀에 대하여 상기 과정을 반복한다. 상기 과정들을 순차적으로 요약하여 기재하면 다음과 같다.

1. P₁ 선택 (select P₁)

2. S₁을 추가 검사 대상 샘플로 선정 (select S₁ for individual test)

3. S₁₃ 미선정 (skip S₁₃)

4. P₄ 선택 (select P₄)

5. S₄를 추가 검사 대상 샘플로 선정 (select S₄ for individual test)

6. S₁₆ 미선정 (skip S₁₆)

7. P₅ 선택 (select P₅)

8. S₃ 미선정 (skip S₃)

9. P₈ 선택 (select P₈)

10. S₁₅ 미선정 (skip S₁₅)

11. P₃ 선택 (select P₃)

12. 완료 (done)

즉, 상기 과정을 통하여 6개의 양성 가능 샘플 중 S₁ 및 S₄가 추가 검사 대상 샘플로 선정된다(도면에도 회색으로 표기).

개별 샘플의 검사 결과 판정

상기와 같은 과정을 통하여 추가 검사 대상 샘플이 선정되고, 선정된 샘플에 대한 추가 검사가 완료되면, 다음으로 검사 결과 판정부(106)는 상기 복수 개의 풀 각각의 검사값 및 상기 추가 검사 대상 샘플에 대한 검사값에 따라 상기 복수 개의 샘플들 각각의 상기 검사 대상 성질 보유 여부를 판정한다.

전술한 바와 같이, 검사 결과 판정부(106)에서의 검사 결과 판정을 위해서는 특정 풀을 검사했을 때 특정 성질에 대한 측정되는 신호의 세기가 풀 내에 해당 성질을 가지는 샘플의 개수와 대략 비례하여 나타나야 한다. 특정 풀의 검사 결과값은 해당 풀에 포함된 양성인 샘플들의 검사 결과값의 합과 같아야 한다. 검사 결과 판정부(106)는 이와 같은 성질을 이용하여 각 샘플들의 검사 결과를 판정한다. 다시 말해 상기 검사 결과 판정부(106)는 양성 판정 풀 각각에 대하여, 해당 풀의 검사값 및 해당 풀에 포함된 추가 검사 대상 샘플의 검사 결과를 이용하여 해당 풀에 포함된 나머지 양성 가능 샘플의 상기 검사 대상 성질 보유 여부를 판정하도록 구성된다. 구체적인 검사 결과 판정부(106)에서의 결과값을 판정 알고리즘은 도 8에 도시된 바와 같다.

도면 4의 예를 들어 설명하면, 대체대립형질(alternative allele) B에 대한 대립형질빈도를 기반으로 하여 참조 유전자형인 AA일 경우는 0, 이형접합(Heterozygous) 변이 유전자형인 AB일 경우는 1, 동형접합(Homozygous) 변이 유전자형인 BB일 경우는 2와 같이 각 샘플의 검사 결과값(도면 8의 valS) 을 할당할 수 있다. 이 경우, 양성인 풀의 검사 결과값(도면 8의 valP)은 해당 풀 내에 양성인 샘플의 검사결과값의 합이 될 것이다. 예를 들어, P₅의 검사값, 즉 신호 세기는 S₁, S3, S₄ 검사값의 합이 될 것이다 (valP[5] = valS[1] + valS[3] + valS[4]). 이를 이용하여, 검사 결과 판정부(106)는 추가 개별 검사를 통해 얻어진 S₁과 S₄의 검사값과 초기 검사를 통해 얻어진 P₅의 검사값을 통해 S₃의 검사값을 계산할 수 있다. 이를 반복하면 모든 샘플들에 대한 검사값을 계산할 수 있게 된다.

도 9는 P₁, P₃, P₄, P₅, P₈의 검사값이 각각 2, 1, 1, 2, 2이고, 추가 검사 대상 샘플인 S₁, S₄의 검사값이 각각 2, 0인 경우의 각각의 양성 가능 샘플들의 검사값을 계산한 예를 나타낸 것이다. 도시된 바와 같이, 각 양성 가능 샘플들의 검사값은 다음과 같이 계산될 수 있다.

valS[S₃] = valP[P₅] - valS[S₁] - valS[S₄] = 2 - 2 - 0 = 0

valS[S₁₃] = valP[P₁] - valS[S₁] = 2 - 2 = 0

valS[S₁₆] = valP[P₄] - valS[S₄] = 1 - 0 = 1

valS[S₁₅] = valP[P₈] - valS[S₁₃] - valS[S₁₆] = 2 - 0 - 1 = 1

이와 같이 본 발명의 실시예에 따르면, 위와 같은 샘플들의 풀링을 통하여 x개의 샘플에 대한 x번의 개별적인 검사를 수행하는 대신, k개의 풀에 대하여 k번의 검사만을 수행하며, 이를 바탕으로 x개의 샘플에 대한 개별 검사 결과를 추정할 수 있게 된다. 즉, 본 발명의 실시예들에 따를 경우, k번의 검사로 x개의 모든 샘플에 대한 검사 결과를 추정할 수 있는 바, (x-k)번의 검사에 대한 비용 및 시간을 절감할 수 있다. 만약 상기 k번의 검사 이후, 양성으로 판정된 샘플에 위양성(false positive) 판정 가능성이 있어서 q개의 샘플에 대한 추가적인 개별 검사가 필요할 경우에도 여전히 (x-k-q)번의 검사에 대한 비용 및 시간을 절감할 수 있다.

도 10은 본 발명의 실시예들에 따른 샘플 수합 검사를 수행했을 때와 각 샘플에 대해 개별 검사를 했을 때의 총 검사 회수를 비교하여 설명하기 위한 그래프이다. 도시된 그래프에서 가로축은 샘플의 개수, 왼쪽의 막대 그래프는 각 샘플에 대해 개별 검사를 수행했을 때의 검사 회수, 오른쪽의 막대 그래프는 본 발명의 실시예에 따른 샘플 수합 검사 시의 검사 회수를, 선그래프는 두 가지 경우의 검사 회수 차이에 따른 비용 절감 효과를 각각 나타낸 것이다. 예를 들어, 16개 샘플을 검사할 경우 기존의 방법으로는 16번의 검사를 수행하지만, 4x4 샘플 수합 방법을 이용하면 8번의 검사만 수행하면 되므로 최대 50%의 비용 절감 효과를 기대할 수 있다.

샘플 수합 방법의 경우는, 수합된 샘플에 검사를 시행하고 위양성 판정 가능성이 있는 샘플의 경우는 추가적으로 개별 검사를 시행하게 되므로 최악의 경우는 기존 방법보다 많은 회수의 검사를 시행하게 될 수도 있다. 도 11은 검사 대상 샘플들에 존재하는 양성 샘플 개수의 변화에 따른 총 검사 회수를 비교하기 위한 그래프이다. 도시된 그래프에서 가로축은 검사 대상 샘플 중에 존재하는 양성 샘플의 개수를, 점선은 각 샘플에 대해 개별 검사를 수행하는 기존의 방법을 사용할 경우(conventional test without pooling)의 검사 회수를, 짙은 회색선은 샘플 수합 검사 방법을 사용하고 위양성 판정 가능성이 있을 경우에는 해당 모든 샘플에 개별 검사를 하는 경우(n*n pooling test)를, 옅은 회색선은 샘플 수합 검사 방법을 사용하고 위양성 판정 가능성이 있는 샘플 중 개별 검사할 최소 개수의 샘플을 선정하는 방법을 함께 사용할 경우(n*n pooling test + Min. # of sample selection)의 검사 회수를 각각 나타낸다.

또한, 도 11에 도시된 그래프 중 (a)는 16개 샘플을 4*4 샘플 수합 방법을 사용하여 검사할 경우, (b)는 64개 샘플은 8*8 샘플 수합 방법을 사용하여 검사할 경우를 각각 나타낸다. 비교를 위하여, 각 양성 샘플 개수마다 검사 대상 샘플 중 양성 샘플을 랜덤하게 발생시킨 100개의 테스트 케이스를 만들고 각 테스트 케이스마다의 검사 회수를 계산하였다. 도면에서는 100개 테스트 케이스에서의 평균 검사 회수와 이에 대한 표준 편차(그래프에 I자 형태로 표시)를 함께 표시하였다.

먼저, 도 11(a)를 보면, 16개 샘플에 존재하는 양성 샘플의 개수가 3개까지는 위양성 판정 가능성이 있는 샘플 모두에 추가 검사를 하더라도 종래의 방법(점선)보다 적은 회수의 검사를 수행하게 됨을 알 수 있다. 질병 검사를 예로 들면, 일반적으로는 해당 질병의 발병률이 대략 3/16(=0.188)이 경우에 16개 샘플 중 3개의 샘플이 양성이 될 것을 기대할 수 있다. 그러나 이는 매우 높은 발병률로, 일반적인 경우에는 이보다 더 낮기 때문에 실제로는 샘플 수합 방법을 이용하는 것이 일반적으로는 검사 비용의 절감 효과를 가져다 줄 수 있다. 또한, 본 발명의 실시예에 따른 최소 추가 개별 검사 대상 샘플 선정 알고리즘을 적용하면 그렇지 않을 경우보다 검사 회수 감소에 따른 14-30% 정도의 비용 절감을 기대할 수 있음을 알 수 있다.

또한, 도 11(b)의 결과를 보면, 64개 샘플이 모두 양성인 최악의 경우에 본 발명의 실시예에 따른 알고리즘을 적용하지 않을 경우는 80번의 검사를 수행해야 하지만, 적용하는 경우는 65번의 검사만 수행하면 됨을 알 수 있다. 즉, 최악의 경우에도, 본 발명에 따를 경우 기존의 방법보다 1번의 검사만 더 수행하면 된다.

결론적으로, 도 11의 결과를 통해 본 발명이 제시하는 샘플 수합 방법은 양성 샘플 개수의 증가에도 일반적인 경우에는 비용 절감 효과를 여전히 기대할 수 있으며, 최악의 경우에도 기존 검사 방법의 검사 회수와 비교할 때 추가적으로 실행해야 하는 검사 회수의 증가가 미미함을 알 수 있다.

도 12는 본 발명의 일 실시예에 따른 생물학적 샘플 분석 방법(1200)을 설명하기 위한 흐름도이다. 전술한 바와 같이, 본 발명의 일 실시예에 따른 생물학적 샘플 분석 방법(1200)은 n * m 매트릭스를 구성하는 복수 개의 생물학적 샘플들, 및 상기 매트릭스에서 동일한 행(row) 또는 열(column)을 가지는 샘플들을 수합하여 생성된 복수 개의 풀(pool)을 이용하여 상기 복수 개의 샘플들 각각의 검사 대상 성질 보유 여부를 판정하기 위한 방법이다.

단계 1202에서, 판단부(102)는 상기 복수 개의 풀 각각의 상기 검사 대상 성질에 대한 검사값에 따라 위양성 판정 가능성이 존재하는지의 여부를 판단한다.

단계 1204에서, 추가 샘플 선정부(104)는 상기 102 단계의 판단 결과 위양성 판정 가능성이 있는 경우, 상기 복수 개의 샘플 중 상기 검사 대상 성질 보유 여부에 대한 개별 검사를 수행할 최소 개수의 추가 검사 대상 샘플을 선정한다.

단계 1206에서, 검사 결과 판정부(106)는 상기 추가 검사 대상 샘플에 대한 검사 결과에 따라 상기 복수 개의 샘플들 각각의 상기 검사 대상 성질 보유 여부를 판정한다.

한편, 본 발명의 실시예들은 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야에서 통상의 지식을 가진 자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다.

그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

[부호의 설명]

100: 생물학적 샘플 분석 시스템

102: 판단부

104: 추가 샘플 선정부

106: 검사 결과 판정부

Claims

n * m 매트릭스를 구성하는 복수 개의 생물학적 샘플들, 및 상기 매트릭스에서 동일한 행(row) 또는 열(column)을 가지는 샘플들을 수합하여 생성된 복수 개의 풀(pool)을 이용하여 상기 복수 개의 샘플들 각각의 검사 대상 성질 보유 여부를 판정하기 위한 시스템으로서,

상기 복수 개의 풀 각각의 상기 검사 대상 성질에 대한 검사값에 따라 위양성 판정 가능성이 존재하는지의 여부를 판단하는 판단부;

상기 판단 결과 위양성 판정 가능성이 있는 경우, 상기 복수 개의 샘플 중 상기 검사 대상 성질 보유 여부에 대한 개별 검사를 수행할 최소 개수의 추가 검사 대상 샘플을 선정하는 추가 샘플 선정부; 및

상기 추가 검사 대상 샘플에 대한 검사값에 따라 상기 복수 개의 샘플들 각각의 상기 검사 대상 성질 보유 여부를 판정하는 검사 결과 판정부를 포함하는 생물학적 샘플 분석 시스템.
청구항 1에 있어서,

상기 판단부는, 상기 복수 개의 풀 각각의 상기 검사값에 따라 상기 복수 개의 샘플들 중 양성 가능 샘플의 개수를 추정하고, 추정된 상기 양성 가능 샘플의 개수에 따라 상기 위양성 판정 가능성 존재 여부를 판단하는, 생물학적 샘플 분석 시스템.
청구항 2에 있어서,

상기 판단부는, 추정된 상기 양성 가능 샘플 개수의 최대값 및 최소값이 상이한 경우, 위양성 판정 가능성이 존재하는 것으로 판단하는, 생물학적 샘플 분석 시스템.
청구항 1에 있어서,

상기 추가 샘플 선정부는, 상기 검사값에 따라 양성으로 판정된 풀 각각에 대하여, 상기 양성 판정 풀에 포함된 양성 가능 샘플 중 해당 풀의 검사값으로부터 나머지 샘플의 검사 결과를 계산하는 데 필요한 최소 개수의 추가 검사 대상 샘플을 선정하는, 생물학적 샘플 분석 시스템.
청구항 4에 있어서,

상기 추가 샘플 선정부는, 상기 양성 판정 풀 중 포함된 양성 가능 샘플의 개수가 가장 작은 양성 판정 풀부터 순차적으로 상기 추가 검사 대상 샘플을 선정하는, 생물학적 샘플 분석 시스템.
청구항 4에 있어서,

상기 검사 결과 판정부는,

상기 양성 판정 풀 각각에 대하여, 해당 풀의 검사값 및 해당 풀에 포함된 추가 검사 대상 샘플의 검사값을 이용하여 해당 풀에 포함된 나머지 양성 가능 샘플의 상기 검사 대상 성질 보유 여부를 판정하는, 생물학적 샘플 분석 시스템.
n * m 매트릭스를 구성하는 복수 개의 생물학적 샘플들, 및 상기 매트릭스에서 동일한 행(row) 또는 열(column)을 가지는 샘플들을 수합하여 생성된 복수 개의 풀(pool)을 이용하여 상기 복수 개의 샘플들 각각의 검사 대상 성질 보유 여부를 판정하기 위한 방법으로서,

판단부에서, 상기 복수 개의 풀 각각의 상기 검사 대상 성질에 대한 검사값에 따라 위양성 판정 가능성이 존재하는지의 여부를 판단하는 단계;

추가 샘플 선정부에서, 상기 판단 결과 위양성 판정 가능성이 있는 경우, 상기 복수 개의 샘플 중 상기 검사 대상 성질 보유 여부에 대한 개별 검사를 수행할 최소 개수의 추가 검사 대상 샘플을 선정하는 단계; 및

검사 결과 판정부에서, 상기 추가 검사 대상 샘플에 대한 검사값에 따라 상기 복수 개의 샘플들 각각의 상기 검사 대상 성질 보유 여부를 판정하는 단계를 포함하는 생물학적 샘플 분석 방법.
청구항 7에 있어서,

상기 판단 단계는, 상기 복수 개의 풀 각각의 상기 검사값에 따라 상기 복수 개의 샘플들 중 양성 가능 샘플의 개수를 추정하고, 추정된 상기 양성 가능 샘플의 개수에 따라 상기 위양성 판정 가능성 존재 여부를 판단하는, 생물학적 샘플 분석 방법.
청구항 8에 있어서,

상기 판단 단계는, 추정된 상기 양성 가능 샘플 개수의 최대값 및 최소값이 상이한 경우, 위양성 판정 가능성이 존재하는 것으로 판단하는, 생물학적 샘플 분석 방법.
청구항 7에 있어서,

상기 추가 샘플 선정 단계는, 상기 검사값에 따라 양성으로 판정된 풀 각각에 대하여, 상기 양성 판정 풀에 포함된 양성 가능 샘플 중 해당 풀의 검사값으로부터 나머지 샘플의 검사 결과를 계산하는 데 필요한 최소 개수의 추가 검사 대상 샘플을 선정하는, 생물학적 샘플 분석 방법.
청구항 10에 있어서,

상기 추가 샘플 선정 단계는, 상기 양성 판정 풀 중 포함된 양성 가능 샘플의 개수가 가장 작은 양성 판정 풀부터 순차적으로 상기 추가 검사 대상 샘플을 선정하는, 생물학적 샘플 분석 방법.
청구항 10에 있어서,

상기 검사 대상 성질 보유 여부를 판정하는 단계는, 상기 양성 판정 풀 각각에 대하여, 해당 풀의 검사값 및 해당 풀에 포함된 추가 검사 대상 샘플의 검사값을 이용하여 해당 풀에 포함된 나머지 양성 가능 샘플의 상기 검사 대상 성질 보유 여부를 판정하는, 생물학적 샘플 분석 방법.