KR102535267B1

KR102535267B1 - 심층 강화학습 기반 최적 snp 세트 정보 생성 장치 및 그 방법

Info

Publication number: KR102535267B1
Application number: KR1020220146063A
Authority: KR
Inventors: 김호; 이세규; 김은교; 김정은; 이솔; 김정오; 김두환; 이지혜; 이은별; 심유정; 장일태
Original assignee: 주식회사 바스젠바이오
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-05-26

Abstract

본 발명은 신약 개발에 필요한 질병의 원인이 되는 타겟 유전자를 선정하기 위한 최적 SNP 세트 정보 생성 기술에 대한 것으로 SNP 데이터를 기반으로 SNP 선정을 하는 기술 분야에 있어 딥러닝 및 강화학습을 적용하여 타겟 질병과 관련 있는 유전자 안에 존재하는 수많은 SNP들 중 질병과 유관한 SNP들을 최적 SNP 세트로 예측하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치 및 그 방법을 제공할 수 있다.

Description

심층 강화학습 기반 최적 SNP 세트 정보 생성 장치 및 그 방법{optimal SNP set information generating apparatus based on deep reinforcement learning and method therefor}

본 발명은 신약 개발에 필요한 질병의 원인이 되는 타겟 유전자를 선정하기 위한, 또한 질병의 원인이 되는 유전변이를 선정하기 위한 최적 SNP 세트 정보 생성 기술에 대한 것으로, 더욱 자세하게는 데이터 베이스로부터 수신한 유전자형 미가공 데이터(Genotype raw data), 공변량 데이터(Covariate data)를 분석하여 SNP 상태 정보를 생성 및 송신하고, 상기 유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태(state) 정보를 이용하여 SNP 별 보상 점수 및 SNP 세트 별 최종 보상 점수를 생성하며, SNP 상태 정보를 최적 SNP 세트 생성 딥러닝 모델에 입력하여 액션 정보 및 최적 SNP 세트 정보를 생성하고, SNP 별 보상 점수 및 SNP 세트 별 최종 보상 점수를 이용하여 최적 SNP 세트 생성 딥러닝 모델을 업데이트하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치 및 그 방법을 제공하는데 그 목적이 있다.

최적 SNP 세트 선정 기술은 신약개발 과정 중 타겟 질병의 원인이 되는 타겟 유전자 및 타겟 유전자 안에 있는 유전변이까지 탐색하는 기술로써, 종래 타겟 유전자를 탐색하는 방법은 먼저 연구자료를 통해 유전자 정보와 유관 SNP 데이터 세트를 확보하고, 유관 SNP 데이터 세트와 타겟 질병 및 질병 유발 인자와의 연관성을 GWAS(Genome-Wide Association Study) 방법을 통해 최적 SNP 세트를 획득하는 방법을 사용하여 왔다.

여기서 GWAS는 SNP과 질병 간의 유전적 유사도를 계산하여, 유사도가 높은 SNP들을 획득하고, 이러한 SNP들과 질병 간의 PRS(Polygenic Risk Score)을 계산하여 타겟SNP 세트를 얻을 수 있는 분석 방법이다.

현재 딥러닝은 Image processing, Vision, NLP(Natural Language Processing) 분야에서 두각을 나타내고 있으며, 생명공학 측면에서 Drug Property Prediciton, Drug Discovery, Protein Folding 등에도 딥러닝은 다양하게 사용되고 있다.

딥러닝은 원시 데이터(Raw data)에서 High Dimensional feature를 잘 추출하기 때문에 기존 머신러닝 방식보다 뛰어난 부분이 있고, Linear한 문제 뿐만 아니라, Non-Linear한 문제를 잘 해결하는 기술이기 때문에 복잡한 데이터를 다루는데 능숙한 부분이 있다.

딥러닝 중에서도 특히 강화 학습은 게임, 기계제어, 추천시스템, 비전 분야에서 활발히 발전하고 있으며, 시계열 데이터와 같은 순차적 상황(Sequential Situation) 문제를 해결하는 데에 강점이 있고, 특히 MDP(Marcov Decision Process)와 같이 시간 순서, 혹은 공간 순서를 가지면서 순차적인 문제에 대한 패턴을 파악하는데 강점이 있다.

종래 유전체, 그 중 SNP 데이터를 기반으로 SNP 선정을 하는 기술 분야에 있어 딥러닝과 강화학습을 같이 적용한 사례는 존재하지 않는다..

기존의 분석은 GWAS를 통해서 유전자안에 수많은 SNP들과 특정 질병 간의 연관성을 기반으로 SNP들을 선택하는데, 이러한 과정은 많은 시간이 소모되고, 사람이 하나하나 확인하는 과정을 거치는 노동집약적인 부분이 있고, 수많은 SNP들 중 다양한 SNP 세트을 확인할 수 없으며, 특정 SNP 개수를 임계값을 통해서 SNP 세트의 개수를 결정하기 때문에 부정확하다는 한계가 존재한다.

본 발명의 일 실시예에 따르면 SNP 데이터를 기반으로 SNP 선정을 하는 기술 분야에 있어 딥러닝 및 강화학습을 적용하여 타겟 질병과 관련 있는 유전자 안에 존재하는 수많은 SNP들 중 질병과 유관한 SNP들을 최적 SNP 세트로 예측하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치 및 그 방법을 제공할 수 있다.

본 발명의 일 실시예에 따르면 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치는 데이터 베이스로부터 수신한 유전자형 미가공 데이터(Genotype raw data), 공변량 데이터(Covariate data)를 분석하여 SNP 상태 정보를 생성 및 송신하고, 상기 유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태(state) 정보를 이용하여 각 SNP별 보상 점수 및 각 SNP 세트 별 보상 점수를 산출하며, 수신한 액션 정보에 따라 산출된 SNP 별 최종 보상 점수 및 SNP 세트 별 보상 점수를 송신하는 학습 환경 설정부; 및 수신한 상기 SNP 상태 정보를 최적 SNP 세트 생성 모델에 입력하여 액션 정보 및 최적 SNP 세트 정보를 생성하고, 수신한 상기 SNP 별 최종 보상 점수를 이용하여 최적 SNP 세트 생성 모델을 업데이트 하는 학습 에이전트부를 포함할 수 있다.

본 발명의 일 실시예에 따르면 상기 학습 환경 설정부는, 데이터 베이스로부터 수신한 유전체 데이터를 전처리하여 표현형 데이터를 기준으로 SNP별 유전자형 미가공 데이터 및 공변량 데이터를 생성하는 데이터 전처리부를 더 포함할 수 있다.

본 발명의 일 실시예에 따르면 상기 학습 환경 설정부는, 데이터 베이스로부터 수신한 유전자형 미가공 데이터에 포함된 각 SNP 세부 정보, 대립 유전자 조합 정보 및 공변량 데이터에 포함된 현상(exposure) 정보를 분석하여 SNP 상태 정보를 생성하는 상태 정보 생성부; 및 상기 유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태정보를 SNP별 회귀 분석하여 SNP별 P-값을 산출하고, 상기 SNP별 P-값을 기준으로 SNP 별 보상 점수, SNP 세트 별 보상 점수 및 수신한 액션 정보에 따른 SNP 별 최종 보상 점수, SNP 세트 별 최종 보상 점수를 산출할 수 있다.

본 발명의 일 실시예에 따르면 상기 상태 정보 생성부는, 상기 유전자형 미가공 데이터에 포함된 SNP 세부 정보 및 대립 유전자 조합 정보와 상기 공변량 데이터에 포함된 현상(exposure) 정보를 회귀 분석하여 복수의 SNP에 대하여 각 SNP 별 P-값, β-값, 표준 오차를 산출하는 유전자형-현상 연관성 모델부; 상기 SNP 별 P-값, β-값, 대립 유전자 조합 정보 및 상기 공변량 데이터를 변환하여 매트릭스 또는 벡터의 형태의 SNP 별 상태 구성 정보를 생성하는 상태 구성 정보 생성부; 및 복수의 SNP 별 상태 구성 정보를 미리 설정된 기준에 따라 정렬하여 복수의 SNP에 대한 SNP 리스트를 포함하는 SNP 상태 정보를 생성하는 상태 정보 정렬부를 더 포함할 수 있다.

본 발명의 일 실시예에 따르면 상기 상태 정보 정렬부는, 복수의 SNP 별 상태 구성 정보를 P-값을 기준으로 오름차순으로 정렬 또는 모델의 일반화(Generalization)를 위한 무작위 정렬을 수행하여 복수의 SNP에 대한 SNP 리스트를 생성할 수 있다.

본 발명의 일 실시예에 따르면 상기 상태 구성 정보 생성부는, 상기 SNP 별 대립 유전자 조합 정보, 상기 공변량 데이터, 상기 SNP 별 P-값, β-값을 정규화(Regularization), 원-핫-인코딩(One-hot encoding), 벡터화(Vectorization) 중 적어도 하나의 방식으로 변환하여 매트릭스 형태의 SNP 별 상태 구성 정보를 생성할 수 있다.

본 발명의 일 실시예에 따르면 상기 보상 점수 산출부는, 상기 유전자형 미가공 데이터에 포함된 SNP 세부 정보 및 대립 유전자 조합 정보를 독립변수로, 상기 공변량 데이터에 포함된 현상(exposure) 정보를 종속 변수로 정의 하고 회귀 분석을 수행하여 SNP 별 P-값 및 β-값을 산출하고, 상기 SNP 별 P-값을 제1 P-값으로, 상기 β-값을 가중 β-값으로 정의하는 제1 P-값 산출부; SNP를 SNP세트에 미리 설정된 임계치 개수만큼 채우거나 각 SNP 상태 정보의 SNP를 SNP 세트에 모두 채워 최적 SNP 후보 세트를 생성하는 최적 SNP 후보 세트 생성부; 상기 최적 SNP 후보 세트에 포함된 복수의 SNP 중 미리 설정된 임계값 이상의 제1 P-값을 가진 SNP를 대상으로 대립 유전자 조합 정보 및 상기 가중 β-값을 이용하여 유전자 점수(Genetic Score)를 산출하고, 산출된 상기 유전자 점수를 독립변수로 하고 현상 정보를 종속변수로 회귀 분석을 수행하여 산출된 P-값을 제2 P-값으로 정의 하는 제2 P-값 산출부; 상기 제2 P-값을 역로그 변환하여 SNP 별 보상 점수 및 SNP 세트 별 보상 점수를 산출하는 보상 점수 출력부; 및 수신한 액션 정보에 따라 보상 점수를 양수 또는 음수로 SNP 별 최종 보상 점수 및 SNP 세트 별 최종 보상 점수를 산출하는 최종 보상 점수 산출부를 더 포함할 수 있다.

본 발명의 일 실시예에 따르면 상기 제2 P-값 산출부는, 상기 최적 SNP 후보 세트에 포함된 복수의 SNP의 대립 유전자 조합 정보와 상기 가중 β-값을 곱한 값의 총합을 상기 유전자 점수로 산출할 수 있다.

본 발명의 일 실시예에 따르면 상기 보상 점수 산출부는, 상기 최적 SNP 후보 세트에 기 포함된 SNP의 SNP 세부 정보를 독립 변수로 상기 최적 SNP 후보 세트에 추가될 SNP의 SNP 세부 정보를 종속 변수로 정의 하고, 상기 독립 변수와 종속 변수 사이의 연관 불균형 수준을 연관 불균형 계수 로 정량화하여 연관불균형을 나타내는 유사도 지표

를 산출하는 연관불균형 산출부를 더 포함할 수 있다.

본 발명의 일 실시예에 따르면 상기 보상 점수 산출부는, 상기 SNP 별 보상 점수에 산출된 상기

를 기준으로 보상 점수를 재산출할 수 있다.

본 발명의 일 실시예에 따르면 상기 보상 점수 산출부는, 상기

가 0.3 미만인 SNP는 SNP 별 보상 점수에 상대적으로 큰 보상가중치를 적용하고, 상기

가 0.3 이상인 SNP는 SNP 별 보상 점수에 상대적으로 작은 보상가중치를 적용하여 보상 점수를 재산출할 수 있다.

본 발명의 일 실시예에 따르면 상기 학습 에이전트부는, 수신한 상기 SNP 상태 정보를 최적 SNP 세트 생성 모델에 입력하여 SNP 상태 정보에 포함된 SNP 별로 추가할 확률 또는 무시할 확률 중 상대적으로 더 높은 확률 값으로 샘플링하여 산출한 액션의 확률 값을 포함한 액션 정보를 생성 및 송신하고, 상기 액션 정보에 따라 상기 SNP를 추가 또는 무시하여 최적 SNP 세트 정보를 생성하는 강화 학습 모델; 수신한 SNP 별 최종 보상 점수를 미리 설정한 기준에 따라 합산하여 산출된 합산 값과 상기 액션 정보를 기반으로 손실 함수를 정의하고, 정의된 손실 함수가 최소가 되도록 상기 최적 SNP 세트 생성 모델의 딥러닝 변수를 최적화하는 모델 업데이트부를 더 포함할 수 있다.

본 발명의 일 실시예에 따르면 상기 학습 에이전트부는, 상기 합산 값과 상기 액션 정보의 확률 값을 기반으로 로스 값을 정의하고, 정의된 상기 로스 값이 최소가 되도록 상기 최적 SNP 세트 생성 모델의 딥러닝 변수의 가중치를 경사하강법으로 통해 최적화 할 수 있다.

본 발명의 일 실시예에 따르면 심층 강화학습 기반 최적 SNP 세트 정보 생성 방법은 데이터 베이스로부터 수신한 유전자형 미가공 데이터(Genotype raw data), 공변량 데이터(Covariate data)를 분석하여 SNP 상태 정보를 생성 및 송신하고, 상기 유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태(state) 정보를 이용하여 각 SNP별 보상 점수 및 각 SNP 세트 별 보상 점수를 산출하며, 수신한 액션 정보에 따라 산출된 SNP 별 최종 보상 점수 및 SNP 세트 별 최종 보상 점수를 송신하는 단계; 및 수신한 상기 SNP 상태 정보를 최적 SNP 세트 생성 모델에 입력하여 액션 정보 및 최적 SNP 세트 정보를 생성하고, 수신한 상기 SNP 별 최종 보상 점수 및 SNP 세트 별 최종 보상 점수를 이용하여 최적 SNP 세트 생성 모델을 업데이트 하는 단계를 포함할 수 있다.

본 발명의 일 실시예에 따르면 상기 최종 보상 점수를 송신하는 단계는, 데이터 베이스로부터 수신한 유전체 데이터를 전처리하여 표현형 데이터를 기준으로 SNP별 유전자형 미가공 데이터 및 공변량 데이터를 생성할 수 있다.

본 발명의 일 실시예에 따르면 상기 최종 보상 점수를 송신하는 단계는, 데이터 베이스로부터 수신한 유전자형 미가공 데이터에 포함된 각 SNP 세부 정보, 대립 유전자 조합 정보 및 공변량 데이터에 포함된 현상(exposure) 정보를 분석하여 SNP 상태 정보를 생성하는 단계; 및 상기 유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태정보를 SNP별 회귀 분석하여 SNP별 P-값을 산출하고, 상기 SNP별 P-값을 기준으로 SNP 별 보상 점수, SNP 세트 별 보상 점수 및 수신한 액션 정보에 따른 SNP 별 최종 보상 점수 및 SNP 세트 별 최종 보상 점수를 산출할 수 있다.

본 발명의 일 실시예에 따르면 상기 SNP 상태 정보를 생성하는 단계는, 상기 유전자형 미가공 데이터에 포함된 SNP 세부 정보 및 대립 유전자 조합 정보와 상기 공변량 데이터에 포함된 현상(exposure) 정보를 회귀 분석하여 복수의 SNP에 대하여 각 SNP 별 P-값, β-값, 표준 오차를 산출하는 단계; 상기 SNP 별 P-값, β-값, 대립 유전자 조합 정보 및 상기 공변량 데이터를 변환하여 매트릭스 또는 벡터의 형태의 SNP 별 상태 구성 정보를 생성하는 단계; 및 복수의 SNP 별 상태 구성 정보를 미리 설정된 기준에 따라 정렬하여 복수의 SNP에 대한 SNP 리스트를 포함하는 SNP 상태 정보를 생성하는 단계를 더 포함할 수 있다.

본 발명의 일 실시예에 따르면 상기 SNP 상태 정보를 생성하는 단계는, 복수의 SNP 별 상태 구성 정보를 P-값을 기준으로 오름차순으로 정렬 또는 모델의 일반화(Generalization)를 위한 무작위 정렬을 수행하여 복수의 SNP에 대한 SNP 리스트를 생성할 수 있다.

본 발명의 일 실시예에 따르면 상기 상태 구성 정보를 생성하는 단계는, 상기 SNP 별 대립 유전자 조합 정보, 상기 공변량 데이터, 상기 SNP 별 P-값, β-값을 정규화(Regularization), 원-핫-인코딩(One-hot encoding), 벡터화(Vectorization) 중 적어도 하나의 방식으로 변환하여 매트릭스 형태의 SNP 별 상태 구성 정보를 생성할 수 있다.

본 발명의 일 실시예에 따르면 상기 최종 보상 점수를 산출하는 단계는, 상기 유전자형 미가공 데이터에 포함된 SNP 세부 정보 및 대립 유전자 조합 정보를 독립변수로, 상기 공변량 데이터에 포함된 현상(exposure) 정보를 종속 변수로 정의 하고 회귀 분석을 수행하여 SNP 별 P-값 및 β-값을 산출하고, 상기 SNP 별 P-값을 제1 P-값으로, 상기 β-값을 가중 β-값으로 정의하는 단계; SNP를 SNP세트에 미리 설정된 임계치 개수만큼 채우거나 각 SNP 상태 정보의 SNP를 SNP 세트에 모두 채워 최적 SNP 후보 세트를 생성하는 단계; 상기 최적 SNP 후보 세트에 포함된 복수의 SNP 중 미리 설정된 임계값 이상의 제1 P-값을 가진 SNP를 대상으로 대립 유전자 조합 정보 및 상기 가중 β-값을 이용하여 유전자 점수(Genetic Score)를 산출하고, 산출된 상기 유전자 점수를 독립변수로 하고 현상 정보를 종속변수로 회귀 분석을 수행하여 산출된 P-값을 제2 P-값으로 정의 하는 단계; 상기 제2 P-값을 역로그 변환하여 SNP 별 보상 점수 및 SNP 세트 별 보상 점수를 산출하는 단계; 및 수신한 액션 정보에 따라 보상 점수를 양수 또는 음수로 변환하여 SNP 별 최종 보상 점수 및 SNP 세트 별 최종 보상 점수를 산출하는 단계를 더 포함할 수 있다.

본 발명의 일 실시예에 따르면 상기 제2 P-값으로 정의 하는 단계는, 상기 최적 SNP 후보 세트에 포함된 복수의 SNP의 대립 유전자 조합 정보와 상기 가중 β-값을 곱한 값의 총합을 상기 유전자 점수로 산출할 수 있다.

본 발명의 일 실시예에 따르면 상기 제 보상 점수를 산출하는 단계는, 상기 최적 SNP 후보 세트에 기 포함된 SNP의 SNP 세부 정보를 독립 변수로 상기 최적 SNP 후보 세트에 추가될 SNP의 SNP 세부 정보를 종속 변수로 정의 하고, 상기 독립 변수와 종속 변수 사이의 연관 불균형 수준을 연관 불균형 계수로 정량화하여 연관불균형을 나타내는 유사도 지표

를 산출할 수 있다.

본 발명의 일 실시예에 따르면 상기 보상 점수를 산출하는 단계는, 상기 SNP 별 보상 점수에 산출된 상기

를 기준으로 보상 점수를 재산출할 수 있다.

본 발명의 일 실시예에 따르면 상기 보상 점수를 산출하는 단계는, 상기

본 발명의 일 실시예에 따르면 상기 최적 SNP 세트 생성 모델을 업데이트 하는 단계는, 수신한 상기 SNP 상태 정보를 최적 SNP 세트 생성 모델에 입력하여 SNP 상태 정보에 포함된 SNP 별로 추가할 확률 또는 무시할 확률 중 상대적으로 더 높은 확률 값으로 샘플링하여 산출한 액션의 확률 값을 포함한 액션 정보를 생성 및 송신하고, 상기 액션 정보에 따라 상기 SNP를 추가 또는 무시하여 최적 SNP 세트 정보를 생성하는 단계; 수신한 SNP 별 최종 보상 점수를 미리 설정한 기준에 따라 합산하여 산출된 합산 값과 상기 액션 정보를 기반으로 손실 함수를 정의하고, 정의된 손실 함수가 최소가 되도록 상기 최적 SNP 세트 생성 모델의 딥러닝 변수를 최적화하는 단계를 더 포함할 수 있다.

본 발명의 일 실시예에 따르면 상기 딥러닝 변수를 최적화하는 단계는, 상기 합산 값과 상기 액션 정보의 확률 값을 기반으로 로스 값을 정의하고, 정의된 상기 로스 값이 최소가 되도록 상기 최적 SNP 세트 생성 모델의 딥러닝 변수의 가중치를 경사하강법으로 통해 최적화 할 수 있다.

본 발명에 따른 강화 학습을 이용한 최적 SNP 세트 정보 생성 기술을 통해 종래 최적 SNP 세트를 생성하는 기술이 가진 노동집약적인 점과 부정확 점에 대한 한계를 극복하기 위하여 딥러닝과 강화학습을 적용하여 노동력을 낮추며, 짧은 시간으로 정확하고 다양한 최적 SNP 세트 정보를 생성하는 효과를 제공할 수 있다.

도 1은 본 발명의 실시예에 따른 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 학습 환경 설정부와 학습 에이전트부 사이의 데이터 흐름을 나타낸 도면이다.
도 3은 본 발명의 제1 실시예에 따른 도 1에 도시된 학습 환경 설정부의 세부 구성도이다.
도 4은 본 발명의 제2 실시예에 따른 도 1에 도시된 학습 환경 설정부의 세부 구성도이다.
도 5는 본 발명의 일 실시예에 따른 도3에 도시된 상태정보 생성부의 세부 구성도이다.
도 6은 본 발명의 제3 실시예에 따른 도 3에 도시된 보상 점수 산출부의 세부 구성도이다.
도 7은 본 발명의 제4 실시예에 따른 도 3에 도시된 보상 점수 산출부의 세부 구성도이다.
도 8은 본 발명의 일 실시예에 따른 도 1에 도시된 학습 에이전트부의 세부 구성도이다.
도 9은 본 발명의 일 실시예에 따라 구현된 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치의 데이터의 흐름을 나타낸 도면이다.
도 10은 본 발명의 일 실시예에 따라 최적 유전자 점수를 산출하는 방법을 나타낸 도면이다.
도 11은 본 발명의 일 실시예에 따라 구현된 액션 정보의 확률 값을 산출하기 위한 최적 SNP 세트 생성 모델의 구조를 나타낸 도면이다.
도 12는 본 발명의 실시예에 따른 심층 강화학습 기반 최적 SNP 세트 정보 생성 방법의 흐름도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.

본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다.

이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.

컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다.

그리고 몇 가지 대체 실시예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

이 때, 본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field-Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다.

그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.

따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.

본 발명의 실시예들을 구체적으로 설명함에 있어서, 특정 시스템의 예를 주된 대상으로 할 것이지만, 본 명세서에서 청구하고자 하는 주요한 요지는 유사한 기술적 배경을 가지는 여타의 통신 시스템 및 서비스에도 본 명세서에 개시된 범위를 크게 벗어나지 아니하는 범위에서 적용 가능하며, 이는 당해 기술분야에서 숙련된 기술적 지식을 가진 자의 판단으로 가능할 것이다.

이하, 도면을 참조하여 본 발명의 실시 예에 따른 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치 및 그 방법에 대하여 설명한다.

도 1은 본 발명의 실시예에 따른 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치의 구성도이다.

도 1을 참조하면 본 발명의 실시예에 따른 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치는 학습 환경 설정부(1000), 학습 에이전트부(2000)를 포함할 수 있다.

학습 환경 설정부(1000)는 데이터 베이스로부터 수신한 유전자형 미가공 데이터(Genotype raw data), 공변량 데이터(Covariate data)를 분석하여 SNP 상태 정보를 생성 및 송신하고, 유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태(state) 정보를 이용하여 각 SNP별 보상 점수 및 각 SNP 세트 별 보상 점수를 산출하며, 수신한 액션 정보에 따라 산출된 SNP 별 최종 보상 점수 및 SNP 세트 별 보상 점수를 송신할 수 있다.

본 발명의 일 실시예에 따르면 유전자형 미가공 데이터는 특정 유전자 안에 포함된 복수의 SNP별 유전자 형질에 대한 정보(0. 1. 2)를 포함한 정보를 의미할 수 있다.

본 발명의 일 실시예에 따르면 공변량 데이터는 특정 유전자 안에 포함된 복수의 SNP별 특정 현상(예를 들어 LDL과 같은)에 대한 공변량 값을 의미할 수 있다.

본 발명의 일 실시예에 따르면 분석하여 SNP 상태 정보는 특정 유전자에 포함된 복수의 SNP 별 상태 구성 정보를 미리 설정된 기준에 따라 정렬하여 생성한 복수의 SNP에 대한 SNP 리스트를 포함한 정보를 의미할 수 있다.

본 발명의 일 실시예에 따르면 SNP 상태 정보에는 SNP 리스트 정보 뿐만 아니라 SNP 리스트에 포함된 SNP 별 상태 구성 정보를 더 포함할 수 있다.

본 발명의 일 실시예에 따르면 SNP 별 상태 구성 정보는 SNP 별 P-값, β-값, 표준 오차, 대립 유전자 조합 정보, 공변량 데이터를 매트릭스 또는 벡터의 형태 정보로 가공한 것을 의미할 수 있다.

본 발명의 일 실시예에 따르면 보상 점수는 SNP 상태 정보를 분석하여 SNP 별 P-값을 기준으로 산출되는 점수를 의미할 수 있다.

본 발명의 일 실시예에 따르면 SNP 별 최종 보상 점수는 수신한 액션 정보에 따라 보상 점수를 양수 또는 음수로 변환하여 산출된 점수를 의미할 수 있다.

본 발명의 일 실시 예에 따르면 SNP 별 최종 보상 점수는 학습 에이전트부(2000)로 송신되며, 학습 에이전트부(2000)는 수신된 SNP 별 최종 보상 점수는 미리 설정한 기준에 따라 합산하여 산출된 합산 값과 액션 정보를 기반으로 손실 함수를 정의하고, 정의된 손실 함수가 최소가 되도록 최적 SNP 세트 생성 모델의 딥러닝 변수를 최적화하는 방법으로 최적 SNP 세트 생성 모델을 강화 학습할 수 있다.

학습 환경 설정부(1000)에 대해서는 도 3을 참조하며 더 자세하게 설명하도록 한다.

학습 에이전트부(2000)는 수신한 SNP 상태 정보를 최적 SNP 세트 생성 모델에 입력하여 액션 정보 및 최적 SNP 세트 정보를 생성하고, 수신한 SNP 별 최종 보상 점수를 이용하여 최적 SNP 세트 생성 모델을 업데이트할 수 있다.

본 발명의 일 실시예에 따르면 최적 SNP 세트 생성 모델은 SNP 상태 정보를 입력 받아 SNP 상태 정보에 포함된 SNP 리스트의 복수 SNP들을 대상으로 최적 SNP 세트에 추가 또는 무시할지 여부에 대한 확률 정보를 액션 정보로 생성하고, 액션 정보에 따라 최적 SNP 세트에 추가 또는 무시하여 최적 SNP 세트를 생성 또는 갱신할 수 있다.

본 발명의 일 실시예에 따르면 최적 SNP 세트 생성 모델 인공 신경망 기반의 복수의 합성곱 레이어로 구성된 구조를 지닌 강화 학습 모델일 수 있다.

학습 에이전트부(2000)에 대해서는 도 8을 참조하며 더욱 자세히 설명하도록 한다.

도 2는 본 발명의 일 실시예에 따른 학습 환경 설정부와 학습 에이전트부 사이의 데이터 흐름을 나타낸 도면이다.

도 2를 참조하면 학습 환경 설정부(1000)와 학습 에이전트부(2000) 사이의 데이터 흐름이 나타나 있다.

본 발명의 일 실시예에 따르면 학습 환경 설정부(1000)는 데이터 베이스로부터 수신한 유전자형 미가공 데이터, 공변량 데이터를 분석하여 SNP 상태 정보를 생성하고, 생성한 SNP 상태 정보를 학습 에이전트부(2000)에 송신할 수 있다.

본 발명의 일 실시예에 따르면 학습 에이전트부(2000)는 수신한 SNP 상태 정보를 최적 SNP 세트 생성 모델에 입력하여 액션 정보 및 최적 SNP 세트 정보를 생성하고, 액션 정보를 학습 환경 설정부(1000)에 송신할 수 있다.

본 발명의 일 실시예에 따르면 학습 환경 설정부(1000)는 유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태(state) 정보를 이용하여 각 SNP별 보상 점수 및 SNP 세트 별 보상 점수를 산출할 수 있으며, 학습 에이전트부(2000)로부터 수신한 액션 정보에 따라 SNP별 보상 점수와 SNP 세트 별 보상 점수에 보상 가중치를 적용하여 최종 보상 점수를 산출할 수 있으며, 산출한 최종 보상 점수를 학습 에이전트부(2000)로 송신할 수 있다.

본 발명의 일 실시예에 따르면 학습 에이전트부(2000)는 수신한 최종 보상 점수를 미리 설정한 기준에 따라 합산한 합산 값과 액션 정보를 기반으로 최적 SNP 세트 생성 모델의 딥러닝 변수를 최적화하는 업데이트를 수행할 수 있다.

도 3은 본 발명의 제1 실시예에 따른 도 1에 도시된 학습 환경 설정부의 세부 구성도이다.

도 3을 참조하면 제1 실시예에 따른 도 1에 도시된 학습 환경 설정부(1100)는 상태 정보 생성부(100), 보상 점수 산출부(200)를 포함할 수 있다.

상태 정보 생성부(100)는 데이터 베이스로부터 수신한 유전자형 미가공 데이터에 포함된 각 SNP 세부 정보, 대립 유전자 조합 정보 및 공변량 데이터에 포함된 현상(exposure) 정보를 분석하여 SNP 상태 정보를 생성할 수 있다.

본 발명의 일 실시예에 따르면 유전자형 미가공 데이터에는 SNP 세부 정보, 대립 유전자 조합 정보가 포함될 수 있다.

여기서 SNP 세부 정보의 경우 유전체에 포함되어 있는 복수의 SNP에 대하여 각 SNP별 식별 정보, 형질 정보 등이 포함된 것을 의미할 수 있다.

또한 대립 유전자 조합 정보의 경우 각 SNP별 대립 유전자의 수를 의미하는 것으로 대립 유전자가 0개면 0, 대립유전자가 1개면 1, 대립유전자가 2개면 2로 표기된 정보를 의미할 수 있다.

본 발명의 일 실시예에 따르면 현상 정보는 해당 SNP에 의하여 특정 질병의 원인이 될 수 있는 현상(exposure)이 발생될 예상 추정 값을 포함한 정보를 의미할 수 있으며, 예를 들어 특정 SNP A에 의하여 특정 질병 심혈관계 질환(CVD)의 원인이 되는 LDL 콜레스테롤의 예상 수치를 예상 추정 값으로 볼 수 있다.

본 발명의 일 실시예에 따르면 유전자형 미가공 데이터에 포함된 각 SNP 세부 정보, 대립 유전자 조합 정보 및 공변량 데이터에 포함된 현상(exposure) 정보를 분석하기 위하여 GEA(Global Error Assessment) 모델을 이용할 수 있다.

상태 정보 생성부(100)는 도 5를 살펴보면 더 자세하게 설명하도록 한다.

보상 점수 산출부(200)는 유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태정보를 SNP별 회귀 분석하여 SNP별 P-값을 산출하고, SNP별 P-값을 기준으로 SNP별 보상 점수 및 수신한 액션 정보에 따른 최종 보상 점수를 산출할 수 있다.

본 발명의 일 실시예에 따르면 보상 점수 산출부(200)는 유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태정보를 회귀 분석하여 SNP별 보상 점수를 산출할 수 있다.

본 발명의 일 실시예에 따르면 보상 점수 산출부(200)는 유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태정보를 회귀 분석하고, 회귀 분석 한 결과를 기준으로 유전자 점수를 산출할 수 있으며, 유전자 점수를 독립변수로 하고 현상 정보를 종속변수로 회귀 분석을 수행하여 산출된 P-값을 이용하여 SNP 별 보상 점수를 산출할 수 있다.

보상 점수 산출부(200)에 대해서는 도 6을 참조하며 더 자세하게 설명하도록 한다.

본 발명의 일 실시예에 따르면 보상 점수 산출부(200)는 SNP별 보상 점수에 학습 에이전트부(2000)로부터 수신한 액션 정보를 반영하여 최종 보상 점수를 산출 할 수 있다.

본 발명의 일 실시예에 따르면 보상 점수 산출부(200)는 수신한 액션 정보에 따라 보상 점수를 양수 또는 음수로 변환하여 최종 보상 점수를 산출할 수 있다.

도 4은 본 발명의 제2 실시예에 따른 도 1에 도시된 학습 환경 설정부의 세부 구성도이다.

도 4를 참조하면 제2 실시예에 따른 도 1에 도시된 학습 환경 설정부(1200)는 상태 정보 생성부(100), 보상 점수 산출부(200), 데이터 전처리부(300)를 포함할 수 있다.

데이터 전처리부(300)는 데이터 베이스로부터 수신한 유전체 데이터를 전처리하여 표현형 데이터를 기준으로 SNP별 유전자형 미가공 데이터 및 공변량 데이터를 생성할 수 있다.

본 발명의 일 실시예에 따르면 데이터 전처리부(300)는 데이터 베이스로부터 수신한 유전체 데이터를 전처리하여 표현형 데이터를 기준으로 SNP별 유전자형 미가공 데이터 및 공변량 데이터를 생성하고, 생성한 SNP별 유전자형 미가공 데이터 및 공변량 데이터를 생성 상태 정보 생성부(100)에 송신할 수 있다.

도 5는 본 발명의 일 실시예에 따른 도3에 도시된 상태정보 생성부의 세부 구성도이다.

도 5를 참조하면 본 발명의 일 실시예에 따른 상태정보 생성부(100)는 유전자형-현상 연관성 모델부(110), 상태 구성 정보 생성부(120), 상태 정보 정렬부(130)를 포함할 수 있다.

유전자형-현상 연관성 모델부(110)는 유전자형 미가공 데이터에 포함된 SNP 세부 정보 및 대립 유전자 조합 정보와 공변량 데이터에 포함된 현상(exposure) 정보를 회귀 분석하여 복수의 SNP에 대하여 각 SNP 별 P-값, β-값, 표준 오차를 산출할 수 있다.

본 발명의 일 실시예에 따르면 유전자형-현상 연관성 모델부(110)는 유전자형-현상 연관성 모델에 유전자형 미가공 데이터에 포함된 각 SNP 세부 정보, 대립 유전자 조합 정보 및 공변량 데이터에 포함된 현상(exposure) 정보를 입력 하여, SNP 별 P-값, β-값, 표준 오차를 산출할 수 있다.

본 발명의 일 실시예에 따르면 유전자형-현상 연관성 모델은 GEA(Genotype-Exposure Association) 모델로 구현될 수 있다.

본 발명의 일 실시예에 따르면 유전자형-현상 연관성 모델은 입력된 유전자형 미가공 데이터에 포함된 대립 유전자 조합 정보 및 공변량 데이터에 포함된 현상(exposure) 정보를 선형 회귀 분석하여 SNP 별 P-값, β-값, 표준 오차를 산출할 수 있다.

상태 구성 정보 생성부(120)는 SNP 별 P-값, β-값, 대립 유전자 조합 정보 및 공변량 데이터를 변환하여 매트릭스 또는 벡터의 형태의 SNP 별 상태 구성 정보를 생성할 수 있다.

본 발명의 일 실시예에 따르면 상태 구성 정보 생성부(120)는 SNP 별 대립 유전자 조합 정보, 공변량 데이터, SNP 별 P-값, β-값을 정규화(Regularization), 원-핫-인코딩(One-hot encoding), 벡터화(Vectorization) 중 적어도 하나의 방식으로 변환하여 매트릭스 형태의 SNP 별 상태 구성 정보를 생성할 수 있다.

본 발명의 일 실시예에 따르면 상태 구성 정보 생성부(120)는 SNP 별 대립 유전자 조합 정보, 공변량 데이터는 원-핫-인코딩 및 벡터화를 통해 매트릭스 형태의 SNP 별 상태 구성 정보로 변환할 수 있으며, SNP 별 P-값, β-값은 정규화(Regularization) 기법을 통해 매트릭스 형태의 SNP 별 상태 구성 정보로 변환할 수 있다.

상태 정보 정렬부(130)는 복수의 SNP 별 상태 구성 정보를 미리 설정된 기준에 따라 정렬하여 복수의 SNP에 대한 SNP 리스트 및 SNP 리스트에 포함된 SNP 별 상태 구성 정보를 포함한 SNP 상태 정보를 생성할 수 있다.

본 발명의 일 실시 예에 따르면 상태 정보 정렬부(130)는 복수의 SNP 별 상태 구성 정보를 정렬하기 위한 기준으로 P-값을 기준으로 할 수 있으나 이에 한정되지 아니하고 랜덤하게 정렬할 수도 있다.

본 발명의 일 실시예에 따르면 상태 정보 정렬부(130)는 복수의 SNP 별 상태 구성 정보를 P-값을 기준으로 오름차순으로 정렬 또는 모델의 일반화(Generalization)를 위한 무작위 정렬을 수행하여 복수의 SNP에 대한 SNP 리스트를 생성할 수 있다.

도 6은 본 발명의 제3 실시예에 따른 도 3에 도시된 보상 점수 산출부의 세부 구성도이다.

도 6을 참조하면 본 발명의 제3 실시예에 따른 보상 점수 산출부(201)는 제1 P-값 산출부(210), 최적 SNP 후보 세트 생성부(220), 제2 P-값 산출부(230), 보상 점수 출력부(240), 최종 보상 점수 산출부(250)를 포함할 수 있다.

제1 P-값 산출부(210)는 유전자형 미가공 데이터에 포함된 SNP 세부 정보 및 대립 유전자 조합 정보를 독립변수로, 공변량 데이터에 포함된 현상(exposure) 정보를 종속 변수로 정의 하고 회귀 분석을 수행하여 SNP 별 P-값 및 β-값을 산출하고, SNP 별 P-값을 제1 P-값으로, β-값을 가중 β-값으로 정의할 수 있다.

본 발명의 일 실시예에 따르면 제1 P-값 산출부(210)는 제1 P-값 산출 모델을 포함할 수 있으며, 제1 P-값 산출 모델은 GEA(Genotype-Exposure Association) 모델 또는 CGEA(Conditional Genotype-Exposure Association) 모델로 구현될 수 있다.

본 발명의 일 실시예에 따르면 제1 P-값 산출부(210)의 제1 P-값 산출 모델은 GEA 모델 또는 CGEA 모델 또는 GEA 모델과 CGEA 모델로 구성될 수 있다.

본 발명의 일 실시예에 따르면 제1 P-값 산출부(210)는 유전자형 미가공 데이터에 포함된 SNP 세부 정보 및 대립 유전자 조합 정보를 독립변수로, 공변량 데이터에 포함된 현상(exposure) 정보를 종속 변수로 제1 P-값 산출 모델에 입력하면, 제1 P-값 산출 모델이 회귀 분석을 수행하여 SNP 별 P-값 및 β-값을 산출할 수 있다.

본 발명의 일 실시예에 따르면 제1 P-값 산출 모델이 GEA 모델인 경우에는 회귀 분석을 수행하여 SNP 별 P-값을 산출할 수 있으며, 제1 P-값 산출 모델이 CGEA 모델인 경우에는 SNP 별 P-값 및 β-값을 산출할 수 있다.

최적 SNP 후보 세트 생성부(220)는 SNP를 SNP세트에 미리 설정된 임계치 개수만큼 채우거나 각 SNP 상태 정보의 SNP를 SNP 세트에 모두 채워 최적 SNP 후보 세트를 생성할 수 있다.

본 발명의 일 실시예에 따르면 최적 SNP 후보 세트 생성부(220)는 SNP를 SNP세트에 채우기 위한 사이클의 종료 시점을 SNP세트에 미리 설정된 임계치 개수만큼SNP가 채워지거나, 각 SNP 상태 정보의 SNP를 SNP 세트에 모두 채우는 경우로 하고, 사이클이 종료되었을 때의 SNP세트를 최적 SNP 후보 세트로 생성할 수 있다.

예를 들어 SNP를 SNP세트에 채우기 위한 사이클의 종료 시점은 SNP세트에 미리 설정된 임계치 개수가 500개인 경우 500개 만큼의 SNP가 채워지거나, 각 SNP 상태 정보의 SNP의 개수가 3400개일 때 SNP 세트에 300개가 모두 채우지는 경우로 하고, 사이클이 종료되었을 때의 SNP세트를 최적 SNP 후보 세트로 생성할 수 있다.

제2 P-값 산출부(230)는 최적 SNP 후보 세트에 포함된 복수의 SNP 중 미리 설정된 임계값 이상의 제1 P-값을 가진 SNP를 대상으로 대립 유전자 조합 정보 및 가중 β-값을 이용하여 유전자 점수(Genetic Score)를 산출하고, 산출된 유전자 점수를 독립변수로 하고 현상 정보를 종속변수로 회귀 분석을 수행하여 산출된 P-값을 제2 P-값으로 정의할 수 있다.

본 발명의 일 실시예에 따르면 제2 P-값 산출부(230)는 제2 P-값 산출 모델을 포함할 수 있으며, 제2 P-값 산출 모델은 GSEA(Genetic Score-Exposure Association) 모델일 수 있다.

본 발명의 일 실시예에 따르면 제2 P-값 산출부(230)는 최적 SNP 후보 세트에 포함된 복수의 SNP의 대립 유전자 조합 정보와 가중 β-값을 곱한 값의 총합을 유전자 점수로 산출할 수 있다.

유전자 점수를 산출하는 방법은 도 10을 참조하면 더 자세히 살펴보도록 한다.

본 발명의 일 실시예에 따르면 제2 P-값 산출부(230)는 제2 P-값 산출 모델을 이용하여 최적 SNP 후보 세트에 포함된 복수의 SNP 중 미리 설정된 임계값 이상의 제1 P-값을 가진 SNP의 대립 유전자 조합 정보(0, 1, 2)에 가중 β-값을 곱하여 유전자 점수를 산출할 수 있다.

본 발명의 일 실시예에 따르면 제2 P-값 산출부(230)는 제2 P-값 산출 모델을 이용하여 산출된 유전자 점수를 독립변수로 하고 현상 정보를 종속변수로 회귀 분석을 수행하여 산출된 P-값을 제2 P-값으로 정의할 수 있다.

보상 점수 출력부 (240)는 제2 P-값을 역로그 변환하여 SNP 별 보상 점수 및 SNP 세트 별 보상 점수를 할 수 있다.

본 발명의 일 실시예에 따르면 P-값(P-value 값)의 특성상 P-값가 낮으면 정확도가 높다고 판단할 수 있으므로 보상 점수 출력부 (240)는 제2 P-값에 역로그를 취하여 보상 점수를 산출할 수 있다.

최종 보상 점수 산출부(250)는 수신한 액션 정보에 따라 보상 점수를 양수 또는 음수로 변환하여 최종 보상 점수를 산출할 수 있다.

본 발명의 일 실시예에 따르면 최종 보상 점수 산출부(250)는 한없이 SNP가 최적 SNP 세트 정보에 추가되는 것을 방지하기 위하여 액션 정보에 따라 추가면 양수를 무시면 음수를 적용하는 방법으로 보상점수를 변환하여 최종 보상 점수를 산출할 수 있다.

도 7은 본 발명의 제4 실시예에 따른 도 3에 도시된 보상 점수 산출부의 세부 구성도이다.

도 7을 참조하면 본 발명의 제4 실시예에 따른 보상 점수 산출부(202)는 제1 P-값 산출부(210), 최적 SNP 후보 세트 생성부(220), 제2 P-값 산출부(230), 보상 점수 출력부(240), 최종 보상 점수 산출부(250), 연관불균형 산출부(260)를 포함할 수 있다.

연관불균형 산출부(260)는 최적 SNP 후보 세트에 기 포함된 SNP의 SNP 세부 정보를 독립 변수로 최적 SNP 후보 세트에 추가될 SNP의 SNP 세부 정보를 종속 변수로 정의 하고, 독립 변수와 종속 변수 사이의 연관 불균형 수준을 연관 불균형(linkage disequilibrium) 계수 로 정량화하여 유사도 지표

를 산출할 수 있다.

본 발명의 일 실시예에 따르면 연관불균형 산출부(260)는 SNP 별 보상 점수에 산출된

를 기준으로 보상 점수를 재산출할 수 있다.

본 발명의 일 실시예에 따르면 유사도 지표

는 0~1 사이의 값을 가질 수 있으며,

가 낮으면 상대적으로 더 정확도가 상승할 수 있기 때문에 미리 설정된 임계 값 이하의

을 가진 SNP에 상대적으로 큰 보상 가중치를 적용하는 방법을 사용할 수 있다.

본 발명의 일 실시예에 따르면 연관불균형 산출부(260)는

가 0.3 미만인 SNP는 SNP 별 보상 점수에 상대적으로 큰 보상가중치를 적용하고,

본 발명의 일 실시예에 따르면 연관불균형 산출부(260)는

가 0.3 미만인 SNP는 SNP 별 보상 점수에 양수를 적용하고,

가 0.3 이상인 SNP는 SNP 별 보상 점수에 음수를 적용하여 보상 점수를 재산출할 수 있다.

도 8은 본 발명의 일 실시예에 따른 도 1에 도시된 학습 에이전트부의 세부 구성도이다.

도 8을 참조하면 본 발명의 일 실시예에 따른 학습 에이전트부(2000)는 강화 학습 모델(2100), 모델 업데이트부(2200)를 포함할 수 있다.

강화 학습 모델(2100)는 수신한 SNP 상태 정보를 최적 SNP 세트 생성 모델에 입력하여 SNP 상태 정보에 포함된 SNP 별로 추가할 확률 또는 무시할 확률 중 상대적으로 더 높은 확률 값으로 샘플링하여 산출된 액션의 확률 값을 포함한 액션 정보를 생성 및 송신하고, 액션 정보에 따라 SNP를 추가 또는 무시하여 최적 SNP 세트 정보를 생성할 수 있다.

본 발명의 일 실시예에 따르면 강화 학습 모델(2010)는 최적 SNP 세트 생성 모델을 포함할 수 있으며, 최적 SNP 세트 생성 모델은 인공신경망 기반의 복수의 합성곱 레이어로 이루어진 딥러닝 모델일 수 있으며, 강화 학습을 통해 학습될 수 있다.

본 발명의 일 실시예에 따르면 최적 SNP 세트 생성 모델은 SNP 상태 정보를 입력 받아 SNP 별로 최적 SNP 세트에 추가될 확률 또는 무시할 확률 중 상대적으로 더 높은 확률 값을 가지는 액션의 확률 값을 포함한 액션 정보를 출력하도록 학습될 수 있다.

본 발명의 일 실시예에 따르면 최적 SNP 세트 생성 모델은 모델 업데이트부(2020)에 의하여 업데이트 될 수 있으며, 업데이트를 통해 강화학습을 수행할 수 있다.

본 발명의 일 실시 예에 따르면 최적 SNP 세트 생성 모델은 수학식 1을 이용하여 강화학습이 수행될 수 있다.

rt+1 : t+1시점에서의 Reward값

Q(s, a) : 특정 t시점의 상태 정보를 입력 값으로 했을 때, 최적 SNP 세트

생성 모델에서 출력된 액션 정보에 포함된 액션에 대한 Q값

모델 업데이트부(2200)는 수신한 SNP 별 최종 보상 점수를 미리 설정한 기준에 따라 합산하여 산출된 합산 값과 액션 정보를 기반으로 손실 함수를 정의하고, 정의된 손실 함수가 최소가 되도록 최적 SNP 세트 생성 모델의 딥러닝 변수를 최적화할 수 있다.

본 발명의 일 실시예에 따르면 모델 업데이트부(2020)는 합산 값과 액션 정보의 액션 확률 값을 기반으로 로스 값을 정의할 수 있다.

본 발명의 일 실시예에 따르면 모델 업데이트부(2020)는 수학식 2와 같이 로스 값을 정의할 수 있다.

본 발명의 일 실시예에 따르면 모델 업데이트부(2200)는 정의된 로스 값이 최소가 되도록 최적 SNP 세트 생성 모델의 딥러닝 변수의 가중치를 경사하강법으로 통해 최적화할 수 있다.

본 발명의 일 실시예에 따르면 모델 업데이트부(2200)는 수학식 3과 같은 경사하강법을 통해 최적 SNP 세트 생성 모델의 딥러닝 변수의 가중치를 최적화할 수 있다.

: t시점에서의 최종 보상 점수의 합

: 특정 t시점의 상태정보를 최적 SNP 세트 생성 모델에 입력 했을 때,

출력된 액션 정보에 포함된 액션 확률 값

본 발명의 일 실시예에 따르면 액션 정보에 따라 산출된 최종 보상 점수들의 합과 액션 정보에 포함된 액션 확률 값을 기반으로 로스 값을 정의할 수 있으며, 이때 로스 값이 최소화될 수 있게 최종 보상 점수들의 합이 최대화 되도록 딥러닝 모델을 피팅(Fitting)하는 것이 최적 SNP 세트 생성 모델의 딥러닝 변수를 최적화의 목표이므로, 최종 보상 점수에 음수를 적용하여 로스 값을 만들어 경사하강법을 통해 최적 SNP 세트 생성 모델의 딥러닝 변수를 최적화할 수 있다.

도 9은 본 발명의 일 실시예에 따라 구현된 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치의 데이터의 흐름을 나타낸 도면이다.

도 9와 같이 본 발명의 일 실시예에 따라 구현된 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치에 포함된 상태 정보 생성부(100), 보상 점수 산출부(200), 데이터 전처리부(300), 강화 학습 모델(2010), 모델 업데이트부(2020) 사이에 데이터의 송수신이 이루어 질 수 있다.

도 10은 본 발명의 일 실시예에 따라 최적 유전자 점수를 산출하는 방법을 나타낸 도면이다.

도 10을 참조하면 본 발명의 일 실시예에 따르면 최적 유전자 점수를 산출하는 방법으로 미리 설정된 임계값 이상의 제1 P-값을 가진 복수의 SNP의 대립 유전자 조합 정보와 가중 β-값을 곱한 값의 총합을 유전자 점수로 산출할 수 있다.

도 11은 본 발명의 일 실시예에 따라 구현된 액션 정보의 확률 값을 산출하기 위한 최적 SNP 세트 생성 모델의 구조를 나타낸 도면이다.

도 11을 참조하면 본 발명의 일 실시예에 따라 구현된 최적 SNP 세트 생성 모델의 구조가 나타나 있으며 최적 SNP 세트 생성 모델은 인공신경망 기반의 복수의 합성곱 레이어로 이루어진 딥러닝 모델일 수 있으며, 강화 학습을 통해 학습될 수 있다.

도 12는 본 발명의 실시예에 따른 심층 강화학습 기반 최적 SNP 세트 정보 생성 방법의 흐름도이다.

데이터 베이스로부터 수신한 유전자형 미가공 데이터(Genotype raw data), 공변량 데이터(Covariate data)를 분석하여 SNP 상태 정보를 생성한다(S10).

본 발명의 일 실시예에 따르면 데이터 베이스로부터 수신한 유전자형 미가공 데이터(Genotype raw data), 공변량 데이터(Covariate data)를 분석하여 SNP 상태 정보를 생성할 수 있다.

본 발명의 일 실시예에 따르면 데이터 베이스로부터 수신한 유전자형 미가공 데이터에 포함된 각 SNP 세부 정보, 대립 유전자 조합 정보 및 공변량 데이터에 포함된 현상(exposure) 정보를 분석하여 SNP 상태 정보를 생성할 수 있다.

본 발명의 일 실시예에 따르면 데이터 베이스로부터 수신한 유전체 데이터를 전처리하여 표현형 데이터를 기준으로 SNP별 유전자형 미가공 데이터 및 공변량 데이터를 생성할 수 있다.

본 발명의 일 실시예에 따르면 데이터 베이스로부터 수신한 유전체 데이터를 전처리하여 표현형 데이터를 기준으로 SNP별 유전자형 미가공 데이터 및 공변량 데이터를 생성하고, 생성한 SNP별 유전자형 미가공 데이터 및 공변량 데이터를 송신할 수 있다.

본 발명의 일 실시예에 따르면 유전자형 미가공 데이터에 포함된 SNP 세부 정보 및 대립 유전자 조합 정보와 공변량 데이터에 포함된 현상(exposure) 정보를 회귀 분석하여 복수의 SNP에 대하여 각 SNP 별 P-값, β-값, 표준 오차를 산출할 수 있다.

본 발명의 일 실시예에 따르면 유전자형-현상 연관성 모델에 유전자형 미가공 데이터에 포함된 각 SNP 세부 정보, 대립 유전자 조합 정보 및 공변량 데이터에 포함된 현상(exposure) 정보를 입력 하여, SNP 별 P-값, β-값, 표준 오차를 산출할 수 있다.

본 발명의 일 실시예에 따르면 유전자형-현상 연관성 모델은 GEA 모델로 구현될 수 있다.

본 발명의 일 실시예에 따르면 SNP 별 P-값, β-값, 대립 유전자 조합 정보 및 공변량 데이터를 변환하여 매트릭스 또는 벡터의 형태의 SNP 별 상태 구성 정보를 생성할 수 있다.

본 발명의 일 실시예에 따르면 SNP 별 대립 유전자 조합 정보, 공변량 데이터, SNP 별 P-값, β-값을 정규화(Regularization), 원-핫-인코딩(One-hot encoding), 벡터화(Vectorization) 중 적어도 하나의 방식으로 변환하여 매트릭스 형태의 SNP 별 상태 구성 정보를 생성할 수 있다.

본 발명의 일 실시예에 따르면 SNP 별 대립 유전자 조합 정보, 공변량 데이터는 원-핫-인코딩 및 벡터화를 통해 매트릭스 형태의 SNP 별 상태 구성 정보로 변환할 수 있으며, SNP 별 P-값, β-값은 정규화(Regularization) 기법을 통해 매트릭스 형태의 SNP 별 상태 구성 정보로 변환할 수 있다.

본 발명의 일 실시예에 따르면 복수의 SNP 별 상태 구성 정보를 미리 설정된 기준에 따라 정렬하여 복수의 SNP에 대한 SNP 리스트 및 SNP 리스트에 포함된 SNP 별 상태 구성 정보를 포함한 SNP 상태 정보를 생성할 수 있다.

본 발명의 일 실시 예에 따르면 복수의 SNP 별 상태 구성 정보를 정렬하기 위한 기준으로 P-값을 기준으로 할 수 있으나 이에 한정되지 아니하고 랜덤하게 정렬할 수도 있다.

본 발명의 일 실시예에 따르면 복수의 SNP 별 상태 구성 정보를 P-값을 기준으로 오름차순으로 정렬 또는 모델의 일반화(Generalization)를 위한 무작위 정렬을 수행하여 복수의 SNP에 대한 SNP 리스트를 생성할 수 있다.

유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태(state) 정보를 이용하여 각 SNP별 보상 점수를 산출한다(S20).

본 발명의 일 실시예에 따르면 유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태(state) 정보를 이용하여 각 SNP별 보상 점수를 산출할 수 있다.

본 발명의 일 실시예에 따르면 유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태정보를 SNP별 회귀 분석하여 SNP별 P-값을 산출하고, SNP별 P-값을 기준으로 SNP별 보상 점수를 산출할 수 있다.

본 발명의 일 실시예에 따르면 유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태정보를 회귀 분석하여 SNP별 보상 점수를 산출할 수 있다.

본 발명의 일 실시예에 따르면 유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태정보를 회귀 분석하고, 회귀 분석 한 결과를 기준으로 유전자 점수를 산출할 수 있으며, 유전자 점수를 독립변수로 하고 현상 정보를 종속변수로 회귀 분석을 수행하여 산출된 P-값을 이용하여 SNP 별 보상 점수를 산출할 수 있다.

본 발명의 일 실시예에 따르면 유전자형 미가공 데이터에 포함된 SNP 세부 정보 및 대립 유전자 조합 정보를 독립변수로, 공변량 데이터에 포함된 현상(exposure) 정보를 종속 변수로 정의 하고 회귀 분석을 수행하여 SNP 별 P-값 및 β-값을 산출하고, SNP 별 P-값을 제1 P-값으로, β-값을 가중 β-값으로 정의할 수 있다.

본 발명의 일 실시예에 따르면 제1 P-값 산출 모델은 GEA(Genotype-Exposure Association) 모델 또는 CGEA(Conditional Genotype-Exposure Association) 모델로 구현될 수 있다.

본 발명의 일 실시예에 따르면 제1 P-값 산출 모델은 GEA 모델 또는 CGEA 모델 또는 GEA 모델과 CGEA 모델로 구성될 수 있다.

본 발명의 일 실시예에 따르면 유전자형 미가공 데이터에 포함된 SNP 세부 정보 및 대립 유전자 조합 정보를 독립변수로, 공변량 데이터에 포함된 현상(exposure) 정보를 종속 변수로 제1 P-값 산출 모델에 입력하면, 제1 P-값 산출 모델이 회귀 분석을 수행하여 SNP 별 P-값 및 β-값을 산출할 수 있다.

본 발명의 일 실시예에 따르면 SNP를 SNP세트에 미리 설정된 임계치 개수만큼 채우거나 각 SNP 상태 정보의 SNP를 SNP 세트에 모두 채워 최적 SNP 후보 세트를 생성할 수 있다.

본 발명의 일 실시예에 따르면 SNP를 SNP세트에 채우기 위한 사이클의 종료 시점을 SNP세트에 미리 설정된 임계치 개수만큼SNP가 채워지거나, 각 SNP 상태 정보의 SNP를 SNP 세트에 모두 채우는 경우로 하고, 사이클이 종료되었을 때의 SNP세트를 최적 SNP 후보 세트로 생성할 수 있다.

본 발명의 일 실시예에 따르면 최적 SNP 후보 세트에 포함된 복수의 SNP 중 미리 설정된 임계값 이상의 제1 P-값을 가진 SNP를 대상으로 대립 유전자 조합 정보 및 가중 β-값을 이용하여 유전자 점수(Genetic Score)를 산출하고, 산출된 유전자 점수를 독립변수로 하고 현상 정보를 종속변수로 회귀 분석을 수행하여 산출된 P-값을 제2 P-값으로 정의할 수 있다.

본 발명의 일 실시예에 따르면 제2 P-값 산출 모델을 포함할 수 있으며, 제2 P-값 산출 모델은 GSEA(Genetic Score-Exposure Association) 모델일 수 있다.

본 발명의 일 실시예에 따르면 최적 SNP 후보 세트에 포함된 복수의 SNP의 대립 유전자 조합 정보와 가중 β-값을 곱한 값의 총합을 유전자 점수로 산출할 수 있다.

본 발명의 일 실시예에 따르면 제2 P-값 산출 모델을 이용하여 최적 SNP 후보 세트에 포함된 복수의 SNP 중 미리 설정된 임계값 이상의 제1 P-값을 가진 SNP의 대립 유전자 조합 정보(0, 1, 2)에 가중 β-값을 곱하여 유전자 점수를 산출할 수 있다.

본 발명의 일 실시예에 따르면 제2 P-값 산출 모델을 이용하여 산출된 유전자 점수를 독립변수로 하고 현상 정보를 종속변수로 회귀 분석을 수행하여 산출된 P-값을 제2 P-값으로 정의할 수 있다.

본 발명의 일 실시예에 따르면 제2 P-값을 역로그 변환하여 SNP 별 보상 점수를 산출할 수 있다.

본 발명의 일 실시예에 따르면 P-값(P-value 값)의 특성상 P-값가 낮으면 정확도가 높다고 판단할 수 있으므로 제2 P-값에 역로그를 취하여 보상 점수를 산출할 수 있다.

SNP 상태 정보를 최적 SNP 세트 생성 모델에 입력하여 액션 정보 및 최적 SNP 세트 정보를 생성한다(S30).

본 발명의 일 실시예에 따르면 수신한 SNP 상태 정보를 최적 SNP 세트 생성 모델에 입력하여 액션 정보 및 최적 SNP 세트 정보를 생성할 수 있다.

본 발명의 일 실시예에 따르면 수신한 SNP 상태 정보를 최적 SNP 세트 생성 모델에 입력하여 SNP 상태 정보에 포함된 SNP 별로 추가할 확률 또는 무시할 확률 중 상대적으로 더 높은 확률 값으로 샘플링하여 산출된 액션의 확률 값을 포함한 액션 정보를 생성 및 송신하고, 액션 정보에 따라 SNP를 추가 또는 무시하여 최적 SNP 세트 정보를 생성할 수 있다.

본 발명의 일 실시예에 따르면 최적 SNP 세트 생성 모델을 포함할 수 있으며, 최적 SNP 세트 생성 모델은 인공신경망 기반의 복수의 합성곱 레이어로 이루어진 딥러닝 모델일 수 있으며, 강화 학습을 통해 학습될 수 있다.

본 발명의 일 실시예에 따르면 최적 SNP 세트 생성 모델은 업데이트를 통해 강화학습을 수행할 수 있다.

액션 정보에 따라 SNP 별 최종 보상 점수를 산출한다(S40).

본 발명의 일 실시예에 따르면 수신한 액션 정보에 따라 산출된 SNP 별 최종 보상 점수를 송신할 수 있다

본 발명의 일 실시예에 따르면 수신한 액션 정보에 따라 보상 점수를 양수 또는 음수로 변환하여 최종 보상 점수를 산출할 수 있다.

본 발명의 일 실시예에 따르면 한없이 SNP가 최적 SNP 세트 정보에 추가되는 것을 방지하기 위하여 액션 정보에 따라 추가면 양수를 무시면 음수를 적용하는 방법으로 보상점수를 변환하여 최종 보상 점수를 산출할 수 있다.

SNP 별 최종 보상 점수를 이용하여 최적 SNP 세트 생성 모델을 업데이트한다(S50).

본 발명의 일 실시예에 따르면 SNP 별 최종 보상 점수를 이용하여 최적 SNP 세트 생성 모델을 업데이트할 수 있다.

본 발명의 일 실시예에 따르면 수신한 SNP 별 최종 보상 점수를 미리 설정한 기준에 따라 합산하여 산출된 합산 값과 액션 정보를 기반으로 손실 함수를 정의하고, 정의된 손실 함수가 최소가 되도록 최적 SNP 세트 생성 모델의 딥러닝 변수를 최적화할 수 있다.

본 발명의 일 실시예에 따르면 합산 값과 액션 정보의 액션 확률 값을 기반으로 로스 값을 정의할 수 있다.

본 발명의 일 실시예에 따르면 수학식 3과 같은 경사하강법을 통해 최적 SNP 세트 생성 모델의 딥러닝 변수의 가중치를 최적화할 수 있다.

본 발명의 실시 예는 이상에서 설명한 장치 및/또는 방법을 통해서만 구현이 되는 것은 아니며, 이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

데이터 베이스로부터 수신한 유전자형 미가공 데이터(Genotype raw data), 공변량 데이터(Covariate data)를 분석하여 SNP 상태 정보를 생성 및 송신하고, 상기 유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태(state) 정보를 이용하여 각 SNP별 보상 점수 및 각 SNP 세트 별 보상 점수를 산출하며, 학습에이전트부로부터 수신한 액션 정보에 따라 산출된 SNP 별 최종 보상 점수 및 SNP 세트 별 보상 점수를 송신하는 학습 환경 설정부; 및
수신한 상기 SNP 상태 정보를 최적 SNP 세트 생성 모델에 입력하여 액션 정보 및 최적 SNP 세트 정보를 생성하고 생성한 액션 정보를 송신하며, 학습 환경 설정부로부터 수신한 상기 SNP 별 최종 보상 점수를 이용하여 최적 SNP 세트 생성 모델을 업데이트 하는 학습 에이전트부를 포함하고,
상기 학습 환경 설정부는,
데이터 베이스로부터 수신한 유전자형 미가공 데이터에 포함된 각 SNP 세부 정보, 대립 유전자 조합 정보 및 공변량 데이터에 포함된 현상(exposure) 정보를 분석하여 SNP 상태 정보를 생성하는 상태 정보 생성부; 및
상기 유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태정보를 SNP별 회귀 분석하여 SNP별 P-값을 산출하고, 상기 SNP별 P-값을 기준으로 SNP 별 보상 점수, SNP 세트 별 보상 점수 및 수신한 액션 정보에 따른 SNP 별 최종 보상 점수, SNP 세트 별 최종 보상 점수를 산출하는 보상 점수 산출부를 더 포함하고,
상기 상태 정보 생성부는,
상기 유전자형 미가공 데이터에 포함된 SNP 세부 정보 및 대립 유전자 조합 정보와 상기 공변량 데이터에 포함된 현상(exposure) 정보를 회귀 분석하여 복수의 SNP에 대하여 각 SNP 별 P-값, β-값, 표준 오차를 산출하는 유전자형-현상 연관성 모델부;
상기 SNP 별 P-값, β-값, 대립 유전자 조합 정보 및 상기 공변량 데이터를 변환하여 매트릭스 또는 벡터의 형태의 SNP 별 상태 구성 정보를 생성하는 상태 구성 정보 생성부; 및
복수의 SNP 별 상태 구성 정보를 미리 설정된 기준에 따라 정렬하여 복수의 SNP에 대한 SNP 리스트를 포함하는 SNP 상태 정보를 생성하는 상태 정보 정렬부를 더 포함하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치.
제 1 항에 있어서 상기 학습 환경 설정부는,
데이터 베이스로부터 수신한 유전체 데이터를 전처리하여 표현형 데이터를 기준으로 SNP별 유전자형 미가공 데이터 및 공변량 데이터를 생성하는 데이터 전처리부를 더 포함하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치.
삭제
삭제
제 1 항에 있어서 상기 상태 정보 정렬부는,
복수의 SNP 별 상태 구성 정보를 P-값을 기준으로 오름차순으로 정렬 또는 모델의 일반화(Generalization)를 위한 무작위 정렬을 수행하여 복수의 SNP에 대한 SNP 리스트를 생성하는 것을 특징으로 하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치.
제 1 항에 있어서 상기 상태 구성 정보 생성부는,
상기 SNP 별 대립 유전자 조합 정보, 상기 공변량 데이터, 상기 SNP 별 P-값, β-값을 정규화(Regularization), 원-핫-인코딩(One-hot encoding), 벡터화(Vectorization) 중 적어도 하나의 방식으로 변환하여 매트릭스 형태의 SNP 별 상태 구성 정보를 생성하는 것을 특징으로 하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치.
제 1 항에 있어서 상기 보상 점수 산출부는,
상기 유전자형 미가공 데이터에 포함된 SNP 세부 정보 및 대립 유전자 조합 정보를 독립변수로, 상기 공변량 데이터에 포함된 현상(exposure) 정보를 종속 변수로 정의 하고 회귀 분석을 수행하여 SNP 별 P-값 및 β-값을 산출하고, 상기 SNP 별 P-값을 제1 P-값으로, 상기 β-값을 가중 β-값으로 정의하는 제1 P-값 산출부;
SNP를 SNP세트에 미리 설정된 임계치 개수만큼 채우거나 각 SNP 상태 정보의 SNP를 SNP 세트에 모두 채워 최적 SNP 후보 세트를 생성하는 최적 SNP 후보 세트 생성부;
상기 최적 SNP 후보 세트에 포함된 복수의 SNP 중 미리 설정된 임계값 이상의 제1 P-값을 가진 SNP를 대상으로 대립 유전자 조합 정보 및 상기 가중 β-값을 이용하여 유전자 점수(Genetic Score)를 산출하고, 산출된 상기 유전자 점수를 독립변수로 하고 현상 정보를 종속변수로 회귀 분석을 수행하여 산출된 P-값을 제2 P-값으로 정의 하는 제2 P-값 산출부;
상기 제2 P-값을 역로그 변환하여 SNP 별 보상 점수 및 SNP 세트 별 보상 점수를 산출하는 보상 점수 출력부; 및
수신한 액션 정보에 따라 보상 점수를 양수 또는 음수로 SNP 별 최종 보상 점수 및 SNP 세트 별 최종 보상 점수를 산출하는 최종 보상 점수 산출부를 더 포함하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치.
제 7 항에 있어서 상기 제2 P-값 산출부는,
상기 최적 SNP 후보 세트에 포함된 복수의 SNP의 대립 유전자 조합 정보와 상기 가중 β-값을 곱한 값의 총합을 상기 유전자 점수로 산출하는 것을 특징으로 하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치.
제 7 항에 있어서 상기 보상 점수 산출부는,
상기 최적 SNP 후보 세트에 기 포함된 SNP의 SNP 세부 정보를 독립 변수로 상기 최적 SNP 후보 세트에 추가될 SNP의 SNP 세부 정보를 종속 변수로 정의 하고, 상기 독립 변수와 종속 변수 사이의 연관 불균형 수준을 연관 불균형 계수 로 정량화하여 연관불균형을 나타내는 유사도 지표
를 산출하는 연관불균형 산출부를 더 포함하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치.
제 9 항에 있어서 상기 보상 점수 산출부는,
상기 SNP 별 보상 점수에 산출된 상기
를 기준으로 보상 점수를 재산출하는 것을 특징으로 하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치.
제 10 항에 있어서 상기 보상 점수 산출부는,
상기
가 0.3 미만인 SNP는 SNP 별 보상 점수에 상대적으로 큰 보상가중치를 적용하고, 상기
가 0.3 이상인 SNP는 SNP 별 보상 점수에 상대적으로 작은 보상가중치를 적용하여 보상 점수를 재산출하는 것을 특징으로 하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치.
제 1 항에 있어서 상기 학습 에이전트부는,
수신한 상기 SNP 상태 정보를 최적 SNP 세트 생성 모델에 입력하여 SNP 상태 정보에 포함된 SNP 별로 추가할 확률 또는 무시할 확률 중 상대적으로 더 높은 확률 값으로 샘플링하여 산출한 액션의 확률 값을 포함한 액션 정보를 생성 및 송신하고, 상기 액션 정보에 따라 상기 SNP를 추가 또는 무시하여 최적 SNP 세트 정보를 생성하는 강화 학습 모델;
수신한 SNP 별 최종 보상 점수를 미리 설정한 기준에 따라 합산하여 산출된 합산 값과 상기 액션 정보를 기반으로 손실 함수를 정의하고, 정의된 손실 함수가 최소가 되도록 상기 최적 SNP 세트 생성 모델의 딥러닝 변수를 최적화하는 모델 업데이트부를 더 포함하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치.
제 12 항에 있어서 상기 학습 에이전트부는,
상기 합산 값과 상기 액션 정보의 확률 값을 기반으로 로스 값을 정의하고, 정의된 상기 로스 값이 최소가 되도록 상기 최적 SNP 세트 생성 모델의 딥러닝 변수의 가중치를 경사하강법으로 통해 최적화 하는 것을 특징으로 하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 장치.
심층 강화학습 기반 최적 SNP 세트 정보 생성 장치의 프로세서에 의하여 구성된 학습 환경모듈과 학습 에이전트 모듈에 의하여
상기 학습 환경모듈이 데이터 베이스로부터 수신한 유전자형 미가공 데이터(Genotype raw data), 공변량 데이터(Covariate data)를 분석하여 SNP 상태 정보를 생성 및 송신하고, 상기 유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태(state) 정보를 이용하여 각 SNP별 보상 점수 및 각 SNP 세트 별 보상 점수를 산출하며, 상기 학습 에이전트 모듈로부터 수신한 액션 정보에 따라 산출된 SNP 별 최종 보상 점수 및 SNP 세트 별 최종 보상 점수를 송신하는 단계; 및
상기 학습 에이전트 모듈이 수신한 상기 SNP 상태 정보를 최적 SNP 세트 생성 모델에 입력하여 액션 정보 및 최적 SNP 세트 정보를 생성하고, 상기 학습 환경모듈로부터 수신한 상기 SNP 별 최종 보상 점수 및 SNP 세트 별 최종 보상 점수를 이용 하여 최적 SNP 세트 생성 모델을 업데이트 하는 단계를 포함하고
상기 최종 보상 점수를 송신하는 단계는,
데이터 베이스로부터 수신한 유전자형 미가공 데이터 에 포함된 각 SNP 세부 정보, 대립 유전자 조합 정보 및 공변량 데이 터에 포함된 현상(exposure) 정보를 분석하여 SNP 상태 정보를 생성 하는 단계; 및
상기 유전자형 미가공 데이터, 공변량 데이터 및 SNP 상태정보를 SNP별 회귀 분석하여 SNP별 P-값을 산출하고, 상기 SNP별 P-값을 기준으로 SNP 별 보상 점수, SNP 세트 별 보상 점수 및 수신한 액션 정보에 따른 SNP 별 최종 보상 점수 및 SNP 세트 별 최종 보상 점수를 산출하는 단계를 더 포함하고,
상기 SNP 상태 정보를 생성하는 단계는,
상기 유전자형 미가공 데이터에 포함된 SNP 세부 정보 및 대립 유전자 조합 정보와 상기 공변량 데이터에 포함된 현상(exposure) 정보를 회귀 분석하여 복수의 SNP에 대하여 각 SNP 별 P-값, β-값, 표준 오차를 산출하는 단계;
상기 SNP 별 P-값, β-값, 대립 유전 자 조합 정보 및 상기 공변량 데이터를 변환하여 매트릭스 또는 벡터 의 형태의 SNP 별 상태 구성 정보를 생성하는 단계; 및
복수의 SNP 별 상태 구성 정보를 미리 설정된 기준에 따라 정렬하여 복수의 SNP에 대한 SNP 리스트를 포함하는 SNP 상태 정보를 생성하는 단계를 더 포함하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 방법.
제 14 항에 있어서 상기 최종 보상 점수를 송신하는 단계는,
데이터 베이스로부터 수신한 유전체 데이터를 전처리하여 표현형 데이터를 기준으로 SNP별 유전자형 미가공 데이터 및 공변량 데이터를 생성하는 단계를 더 포함하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 방법.
삭제
삭제
제 14 항에 있어서 상기 SNP 상태 정보를 생성하는 단계는,
복수의 SNP 별 상태 구성 정보를 P-값을 기준으로 오름차순으로 정렬 또는 모델의 일반화(Generalization)를 위한 무작위 정렬을 수행하여 복수의 SNP에 대한 SNP 리스트를 생성하는 것을 특징으로 하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 방법.
제 14 항에 있어서 상기 상태 구성 정보를 생성하는 단계는,
상기 SNP 별 대립 유전자 조합 정보, 상기 공변량 데이터, 상기 SNP 별 P-값, β-값을 정규화(Regularization), 원-핫-인코딩(One-hot encoding), 벡터화(Vectorization) 중 적어도 하나의 방식으로 변환하여 매트릭스 형태의 SNP 별 상태 구성 정보를 생성하는 것을 특징으로 하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 방법.
제 14 항에 있어서 상기 최종 보상 점수를 산출하는 단계는,
상기 유전자형 미가공 데이터에 포함된 SNP 세부 정보 및 대립 유전자 조합 정보를 독립변수로, 상기 공변량 데이터에 포함된 현상(exposure) 정보를 종속 변수로 정의 하고 회귀 분석을 수행하여 SNP 별 P-값 및 β-값을 산출하고, 상기 SNP 별 P-값을 제1 P-값으로, 상기 β-값을 가중 β-값으로 정의하는 단계;
SNP를 SNP세트에 미리 설정된 임계치 개수만큼 채우거나 각 SNP 상태 정보의 SNP를 SNP 세트에 모두 채워 최적 SNP 후보 세트를 생성하는 단계;
상기 최적 SNP 후보 세트에 포함된 복수의 SNP 중 미리 설정된 임계값 이상의 제1 P-값을 가진 SNP를 대상으로 대립 유전자 조합 정보 및 상기 가중 β-값을 이용하여 유전자 점수(Genetic Score)를 산출하고, 산출된 상기 유전자 점수를 독립변수로 하고 현상 정보를 종속변수로 회귀 분석을 수행하여 산출된 P-값을 제2 P-값으로 정의 하는 단계;
상기 제2 P-값을 역로그 변환하여 SNP 별 보상 점수 및 SNP 세트 별 보상 점수를 산출하는 단계; 및
수신한 액션 정보에 따라 보상 점수를 양수 또는 음수로 변환하여 SNP 별 최종 보상 점수 및 SNP 세트 별 최종 보상 점수를 산출하는 단계를 더 포함하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 방법.
제 20 항에 있어서 상기 제2 P-값으로 정의 하는 단계는,
상기 최적 SNP 후보 세트에 포함된 복수의 SNP의 대립 유전자 조합 정보와 상기 가중 β-값을 곱한 값의 총합을 상기 유전자 점수로 산출하는 것을 특징으로 하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 방법.
제 20 항에 있어서 상기 제 보상 점수를 산출하는 단계는,
상기 최적 SNP 후보 세트에 기 포함된 SNP의 SNP 세부 정보를 독립 변수로 상기 최적 SNP 후보 세트에 추가될 SNP의 SNP 세부 정보를 종속 변수로 정의 하고, 상기 독립 변수와 종속 변수 사이의 연관 불균형 수준을 연관 불균형 계수로 정량화하여 연관불균형을 나타내는 유사도 지표
를 산출하는 단계를 더 포함하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 방법.
제 22 항에 있어서 상기 보상 점수를 산출하는 단계는,
상기 SNP 별 보상 점수에 산출된 상기
를 기준으로 보상 점수를 재산출하는 것을 특징으로 하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 방법.
제 23 항에 있어서 상기 보상 점수를 산출하는 단계는,
상기
가 0.3 미만인 SNP는 SNP 별 보상 점수에 상대적으로 큰 보상가중치를 적용하고, 상기
가 0.3 이상인 SNP는 SNP 별 보상 점수에 상대적으로 작은 보상가중치를 적용하여 보상 점수를 재산출하는 것을 특징으로 하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 방법.
제 14 항에 있어서 상기 최적 SNP 세트 생성 모델을 업데이트 하는 단계는,
수신한 상기 SNP 상태 정보를 최적 SNP 세트 생성 모델에 입력하여 SNP 상태 정보에 포함된 SNP 별로 추가할 확률 또는 무시할 확률 중 상대적으로 더 높은 확률 값으로 샘플링하여 산출한 액션의 확률 값을 포함한 액션 정보를 생성 및 송신하고, 상기 액션 정보에 따라 상기 SNP를 추가 또는 무시하여 최적 SNP 세트 정보를 생성하는 단계;
수신한 SNP 별 최종 보상 점수를 미리 설정한 기준에 따라 합산하여 산출된 합산 값과 상기 액션 정보를 기반으로 손실 함수를 정의하고, 정의된 손실 함수가 최소가 되도록 상기 최적 SNP 세트 생성 모델의 딥러닝 변수를 최적화하는 단계를 더 포함하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 방법.
제 25 항에 있어서 상기 딥러닝 변수를 최적화하는 단계는,
상기 합산 값과 상기 액션 정보의 확률 값을 기반으로 로스 값을 정의하고, 정의된 상기 로스 값이 최소가 되도록 상기 최적 SNP 세트 생성 모델의 딥러닝 변수의 가중치를 경사하강법으로 통해 최적화 하는 것을 특징으로 하는 심층 강화학습 기반 최적 SNP 세트 정보 생성 방법.