KR20230146617A

KR20230146617A - 식물들에서의 머신 러닝 기반 유전자 발견 및 유전자 편집

Info

Publication number: KR20230146617A
Application number: KR1020237031714A
Authority: KR
Inventors: 브래들리 잠프트; 비카스흐 싱흐; 마티아스 보게스; 통 응유옌
Original assignee: 엑스 디벨롭먼트 엘엘씨
Priority date: 2021-03-19
Filing date: 2021-11-24
Publication date: 2023-10-19
Also published as: WO2022197336A1; US20220301658A1; EP4285368A1; CA3211204A1; JP2024516768A; CN116982113A

Abstract

본 개시는 설명 가능한 머신 러닝 방법들과 특징 중요도 메커니즘들을 유전자 발견을 위한 메커니즘으로서 활용하고 더 나아가 원하는 표현형에 도움이 되는 필수 게놈 편집들 및 이상적인 유전자 발현 프로필을 추천하기 위해 유전자 발견의 출력들을 활용하는 것에 관한 것이다. 특히, 본 개시의 양태들은 식물의 조직 샘플에서 측정되는 유전자 세트에 대한 유전자 발현 프로필들을 획득하는 것, 유전자 발현 프로필들을 출력 데이터로서 표현형을 예측하는 작업을 위해 구성된 예측 모델에 입력하는 것, 예측 모델을 사용하여, 식물에 대한 표현형의 예측을 생성하는 것, 설명 가능한 인공 지능 시스템에 의해, 표현형을 예측하기 위해 예측 모델에 의해 내려진 결정들을 분석하는 것, 및 분석에 기초하여 표현형에 대한 후보 유전자 표적 세트를 예측에 가장 큰 기여 또는 영향을 미치는 것으로 식별하는 것에 관한 것이다.

Description

식물들에서의 머신 러닝 기반 유전자 발견 및 유전자 편집

관련 출원에 대한 상호 참조

본 출원은 2021년 3월 19일에 출원된 미국 출원 번호 17/207,169의 이익 및 이에 대한 우선권을 주장하며, 이 미국 출원은 이로써 모든 목적들을 위해 참조에 의해 그 전체가 포함된다.

기술 분야

본 개시는 식물 게놈 편집(plant genome editing)에 관한 것이며, 특히 (신경 네트워크 및 다른 비선형 모델 양쪽 모두에 대한) 설명 가능한 머신 러닝 방법과 특징 중요도 메커니즘을 유전자 발견을 위한 메커니즘으로서 활용하고 더 나아가 원하는 표현형(phenotype)에 도움이 되는, 필수 게놈 편집을 포함한, 이상적인 유전자 발현 프로필을 추천하기 위해 이러한 유전자 발견 모델의 출력을 활용하는 것에 관한 것이다.

유전적 다양성은 주로 유성 재조합(sexual recombination) 및 돌연변이 유발(mutagenesis)와 상관관계에 있으며, 식물에서의 형질 개선(trait improvement)을 위한 중요한 수단이다. 예를 들어, 식물 유전 자원들의 유전적 다양성은 식물 육종가가, 농부가 선호하는 형질(예를 들면, 고수량성(high yield potential), 대립종(large seed) 등)과 육종가가 선호하는 형질(예를 들면, 병해충 내성 및 감광성 등) 양쪽 모두를 포함하는, 바람직한 특성을 갖는 새롭고 개선된 품종을 개발할 기회를 제공한다. 수천 년 동안, 식물 작물화(plant domestication)는 유리한 유전적 변화를 위해 선택할 진화력(evolutionary force)(예를 들면, 선택, 돌연변이, 이주(migration), 유전적 부동(genetic drift) 등)을 통한 자연적인 유전적 변이성에 의존하였다. 식물 작물화 또는 인위 선택(artificial selection)은 다른 대립 유전자들을 희생시키고 몇 가지 대립 유전자를 선호하여 선택된 대립 유전자들의 빈도의 증가를 결과한다. 결과적으로, 식물 작물화는 야생 상태에서의 다양성에 비해 유전적 다양성을 감소시킨다. 게다가, 진화력을 통한 유전적 변형체(genetic variant)의 발생은 완전히 통제되지 않았으며 식물 재배 환경에 크게 의존하였다.

유전적 다양성을 어느 정도 통제하고 새로운 변종들을 만들기 위해, 육종가들은 식물의 유전적 다양성을 분석하고 그 분석을 사용하여 식물 게놈에 유전성 돌연변이를 도입하기 위해 다양한 기법들을 사용해 왔다. 예를 들어, 형태학적, 세포학적, 생화학적, 및 분자 표지자 특성화는, 다양한 통계 도구들(예를 들면, 다변량 통계)과 결합되어, 종의 상이한 계통(strain)들, 변종들 또는 엔트리들 간의 유전적 다양성을 평가하는 데 사용될 수 있다. 유전적 분화(genetic divergence)의 평가, 상이한 그룹들로의 생식질(germplasm)의 분류, 및 초월 분리 개체(transgressive segregant)와 같은 잡종 표현형(hybrid phenotype)을 개발하기 위한 다양한 부모들의 선택에서 이러한 기법들이 사용되어 왔다. 그렇지만, 다양성 분석으로부터 수확량과 품질의 기본 게놈 인자에 관해 얻어지는 지식이 많을수록, 전통적인 육종 접근 방식의 한계가 더욱 분명해진다. 재조합의 랜덤한 특성과 방향성 없는 돌연변이 유발로 인해, 선별된 생식질의 추가 개선은 연관 지체(linkage drag), 즉 바람직한 형질과 유전적으로 연관된 해로운 유전 물질의 전달에 의해 종종 악화되는 길고 지루한 프로세스이다. 따라서, 자연적으로 또는 랜덤하게 유도된 다양성에 대한 의존은 종래의 육종 프로세스를 늦추고 예측할 수 없는 육종 결과에 기여하는 제한 인자이다.

지난 세기에는, 다양한 돌연변이 유발 물질(mutagen)(예를 들면, 화학적 화합물 및 방사선 조사)의 사용이 대규모 유전적 변이 풀의 급속한 생성을 용이하게 하였으며, 이는 이어서 육종 프로세스를 가속화하는 데 사용될 수 있었다. 그렇지만, 이러한 방법들은 생성된 돌연변이의 비특이적 특성, 대량의 뉴클레오티드가 동시에 돌연변이되는 것, 및 때로는 큰 게놈 단편(genomic fragment)의 삭제, 복제 또는 재배열을 포함한, 몇 가지 단점이 있다. 그 결과, 랜덤 돌연변이 유발을 통해 관심 돌연변이를 식별하는 것은 길고 노동 집약적인 프로세스이다. 서열 특이적 조작된 엔도뉴클레아제(sequence-specific engineered endonuclease), 메가 뉴클레아제(mega-nuclease), 징크 핑거 뉴클레아제(zinc finger nuclease, ZFN), 전사 활성제 유사 이펙터 뉴클레아제(transcription activator-like effector nuclease, TALEN) 및 타입 II CRISPR(clustered regularly interspaced short palindromic repeat)/CRISPR 연관 단백질 9(Cas9)의 개발은 식물 게놈에서의 표적 유전자 편집(표적 돌연변이 유발)을 위한 도구를 제공한다. 이러한 프로그래밍 가능한 뉴클레아제는 사이트 특이적(site-specific) 방식으로 단일 또는 이중 가닥 DNA 절단(DSB)의 생성을 가능하게 한다. 진핵 세포에서, 유도된 DSB는 오류가 발생하기 쉬운 말단 연결 경로(end-joining pathway) 또는 오류 없는 상동성 지정 복구(homology-directed repair, HdR) 경로를 통해 복구될 수 있다. 양쪽 경로 모두는 표적 유전자좌(target locus)에 유전자 변형을 도입하는 데 활용된다. 그럼에도 불구하고, 종래의 유전적 다양성 분석은 유전자 발견 및 원하는 표현형에 도움이 되는 유전자 변형의 식별에 대해 여전히 제한적이다. 따라서, CRISPR 및 다른 유전자 편집 도구의 엄청난 잠재력에도 불구하고, 이러한 잠재력이 완전히 실현되려면 상당한 과제가 남아 있다.

다양한 실시예들에서, 식물의 조직 샘플에서 측정되는 유전자 세트에 대한 유전자 발현 프로필 세트를 획득하는 단계; 유전자 발현 프로필들의 특징들과 표현형 사이의 관계들 또는 상관관계들을 학습하는 비선형 알고리즘에 의한 출력 데이터로서 상기 표현형을 예측하는 작업을 위해 구축된 예측 모델에 상기 유전자 발현 프로필 세트를 입력하는 단계; 상기 예측 모델을 사용하여, 상기 유전자 발현 프로필 세트의 상기 특징들과 상기 표현형 사이의 상기 관계들 또는 상기 상관관계들에 기초하여 상기 식물에 대한 상기 표현형의 상기 예측을 생성하는 단계; 설명 가능한 인공 지능 시스템에 의해, 상기 표현형을 예측하기 위해 상기 예측 모델에 의해 내려진 결정들을 분석하는 단계 - 상기 분석하는 단계는: (i) 상기 표현형의 상기 예측에서 사용되는 상기 특징들에 대한 특징 중요도 점수 세트를 생성하는 단계, 및 (ii) 상기 특징들 각각과 연관된 상기 특징 중요도 점수에 기초하여 상기 특징들에 순위를 부여하거나 다른 방식으로 정렬하는 단계를 포함함 -; 상기 순위가 부여되거나 다른 방식으로 정렬된 특징들에 기초하여, 상기 표현형에 대한 후보 유전자 표적 세트를 상기 예측에 가장 큰 기여 또는 영향을 미치는 것으로 식별하는 단계; 및 상기 식별된 후보 유전자 표적 세트에 기초하여, 편집될 때 예상된 표현형 변화를 실현하기 위해 유전자 발현 프로필에 필요한 변화를 제공하는 게놈 영역 세트를 식별하는 단계를 포함하는 방법이 제공된다.

일부 실시예들에서, 상기 설명 가능한 인공 지능 시스템은 상기 예측 모델에 의해 이루어진 상기 결정들을 분석하기 위해 SHApley Additive exPlanation, DeepLIFT, 적분 기울기(integrated gradient), LIME(Local Interpretable Model-agnostic Explanation), 어텐션 기반 신경 네트워크 모델(Attention-Based Neural Network Model) 또는 계층별 관련성 전파(Layer-wise Relevance Propagation)를 사용한다.

일부 실시예들에서, 상기 방법은: 상기 게놈 영역 세트를 식별하는 단계가 상기 후보 유전자 표적 세트의 유전자 편집들을 모델링하는 작업을 위해 구축된 유전자 편집 모델에 상기 후보 유전자 표적 세트를 입력하는 단계, 및 상기 모델링된 유전자 편집들에 기초하여, 상기 후보 유전자 표적 세트 내의 하나 이상의 유전자를 게놈 편집함으로써 상기 표현형을 최대화하거나, 최소화하거나 다른 방식으로 조절하기 위한 최적의 유전자 표적 세트를 식별하는 단계를 포함한다는 것; 및 상기 유전자 편집 모델을 사용하여, 상기 후보 유전자 표적 세트 내의 하나 이상의 유전자의 상기 게놈 편집을 위한 상기 최적의 유전자 표적들에 기초하여 상기 표현형에 대한 이상적인 유전자 발현 프로필을 생성하는 단계를 더 포함한다.

일부 실시예들에서, 상기 설명 가능한 인공 지능 시스템은 상기 표현형의 상기 예측에서 사용되는 상기 특징들에 대한 상기 특징 중요도 점수들로서 Shapley 값 세트를 생성하는 SHApley Additive exPlanation을 사용하고; 상기 Shapley 값들은 각각의 특징 중요도는 물론 방향에 대한 추정치들을 나타내며; 상기 유전자 편집 모델은 상기 Shapley 값들로부터 직접적으로 조절 방향성(directionality of regulation)을 확인하는 것에 의해 상기 유전자 편집들을 모델링한다.

일부 실시예들에서, 상기 예측 모델은 가우시안 프로세스 모델이고; 상기 유전자 편집 모델은 2개의 컴포넌트: (i) 기본 가우시안 프로세스 함수의 가우시안 프로세스 모델, 및 (ii) 다양한 데이터 포인트들을 샘플링하기 위한 획득 함수를 포함하는 베이지안 최적화 알고리즘을 사용하여 유전자 편집들을 모델링한다.

일부 실시예들에서, 상기 예측 모델은 심층 신경 네트워크이고; 상기 유전자 편집 모델은 상기 심층 신경 네트워크에 대한 적대적 공격을 수행하는 것 - 상기 적대적 공격은 상기 심층 신경 네트워크의 가중치들을 동결하는 것을 포함함 -, 및 상기 표현형을 최대화하거나 최소화하기 위해 제약된 입력들의 공간에 걸쳐 최적화하는 것에 의해 상기 유전자 편집들을 모델링한다.

일부 실시예들에서, 상기 방법은: 상기 이상적인 유전자 발현 프로필을 상기 식물에 대한 자연 발생 유전자 발현 분포(naturally occurring distribution of gene expression)와 비교하는 단계; 상기 비교에 기초하여 상기 이상적인 유전자 발현 프로필들 내의 특정 유전자, 유전자들의 서브그룹, 또는 각각의 유전자를 상향 조절(upregulating)하거나 하향 조절(downregulating)하기 위한 유전자 편집 권장 사항을 결정하는 단계; 및 유전자 편집 시스템을 사용하여, 상기 유전자 편집 권장 사항에 따라 상기 식물의 게놈에 대한 유전자 편집 또는 교란을 행하는 단계를 더 포함한다.

일부 실시예들에서, 하나 이상의 데이터 프로세서, 및, 하나 이상의 데이터 프로세서 상에서 실행될 때, 하나 이상의 데이터 프로세서로 하여금 본 명세서에 개시된 하나 이상의 방법의 일부 또는 전부를 수행하게 하는 명령어들을 포함하는 비일시적 컴퓨터 판독 가능 저장 매체를 포함하는 시스템이 제공된다.

일부 실시예들에서, 비일시적 머신 판독 가능 저장 매체에 유형적으로 구체화되고 하나 이상의 데이터 프로세서로 하여금 본 명세서에 개시된 하나 이상의 방법의 일부 또는 전부를 수행하게 하도록 구성된 명령어들을 포함하는 컴퓨터 프로그램 제품이 제공된다.

이용된 용어들 및 표현들은 제한이 아니라 설명의 용어들로서 사용되며, 그러한 용어들 및 표현들을 사용하는 데 있어서 도시되고 설명된 특징들 또는 그의 부분들의 임의의 등가물들을 배제하려는 의도가 없으며, 청구된 발명의 범위 내에서 다양한 변형들이 가능하다는 것이 인식된다. 따라서, 청구된 바와 같은 본 발명이 실시예들 및 선택적인 특징들에 의해 구체적으로 개시되었지만, 본 기술 분야의 통상의 기술자가 본 명세서에 개시된 개념들의 수정 및 변형에 의존할 수 있고 그러한 수정들 및 변형들이 첨부된 청구항들에 의해 규정된 바와 같은 본 발명의 범위 내에 있는 것으로 간주된다는 것을 이해해야 한다.

본 개시는 이하의 비제한적인 도면들을 고려하면 더 잘 이해될 것이다:
도 1은 다양한 실시예들에 따른 식물에서의 유전자 발견 및 유전자 편집 둘 모두를 위한 머신 러닝 파이프라인의 블록 다이어그램을 도시한다.
도 2a는 다양한 실시예들에 따른 예시적인 심층 신경 네트워크를 도시한다.
도 2b는 다양한 실시예들에 따른 유전자-유전자 상호 작용 발견을 위한 그래프 증류(graph distillation)를 도시한다.
도 3a 및 도 3b는 다양한 실시예들에 따른 유전자 편집들을 모델링하기 위한 가우시안 프로세스 모델 및 베이지안 최적화의 사용을 도시한다.
도 3c는 다양한 실시예들에 따른 Shapley 값들을 사용한 것과 비교하여 베이지안 최적화를 사용한 유전자 편집 모델링의 결과들을 도시한다.
도 4는 다양한 실시예들에 따른 유전자 편집들을 모델링하기 위한 딥 러닝 아키텍처에 대한 적대적 공격을 도시한다.
도 5는 다양한 실시예들에 따른 예시적인 차분 진화 알고리즘(differential evolution algorithm)을 도시한다.
도 6은 다양한 실시예들에 따른 적대적 기반 모델링 접근 방식을 사용하여 결정되는 이상적인 유전자 발현 프로필의 예를 도시한다.
도 7은 다양한 실시예들에 따른 유전자 발견 및 편집 시스템의 블록 다이어그램을 도시한다.
도 8은 다양한 실시예들에 따른 유전자 발견 및 편집을 위한 예시적인 흐름을 도시한다.
도 9는 다양한 실시예들에 따른 주어진 표현형에 대한 중요한 유전자 세트들 또는 클러스터들을 식별하기 위한 예시적인 흐름을 도시한다.
첨부된 도면들에서, 유사한 컴포넌트들 및/또는 특징들은 동일한 참조 레이블을 가질 수 있다. 게다가, 동일한 유형의 다양한 컴포넌트들은 참조 레이블 다음에 유사한 컴포넌트들을 구별하는 대시 및 제2 레이블을 뒤따르게 하는 것에 의해 구별될 수 있다. 본 명세서에서 첫 번째 참조 레이블만이 사용되는 경우, 두 번째 참조 레이블과 관계없이 동일한 첫 번째 참조 레이블을 갖는 유사한 컴포넌트들 중 임의의 것에 이 설명이 적용 가능하다.

후속 설명은 바람직한 예시적인 실시예들만을 제공하며, 본 개시의 범위, 적용 가능성, 또는 구성을 제한하는 것으로 의도되지 않는다. 오히려, 바람직한 예시적인 실시예들에 대한 후속 설명은 다양한 실시예들을 구현하기 위한 실시 가능한 설명(enabling description)을 본 기술 분야의 통상의 기술자에게 제공할 것이다. 첨부된 청구항들에 제시된 바와 같은 사상 및 범위를 벗어나지 않으면서 요소들의 기능 및 배열에 다양한 변경들이 이루어질 수 있다는 것이 이해된다.

실시예들에 대한 완전한 이해를 제공하기 위해 구체적인 세부 사항들이 이하의 설명에서 주어진다. 그렇지만, 실시예들이 이러한 구체적인 세부 사항들이 없어도 실시될 수 있다는 것이 이해될 것이다. 예를 들어, 불필요한 세부 사항으로 실시예들을 모호하게 하지 않기 위해 회로들, 시스템들, 네트워크들, 프로세스들, 및 다른 컴포넌트들이 블록 다이어그램 형태의 컴포넌트들로 도시될 수 있다. 다른 경우에, 잘 알려진 회로들, 프로세스들, 알고리즘들, 구조들, 및 기법들은 실시예들을 모호하게 하는 것을 피하기 위해 불필요한 세부 사항 없이 도시될 수 있다.

또한, 개개의 실시예들이 플로차트, 흐름 다이어그램, 데이터 흐름 다이어그램, 구조 다이어그램, 또는 블록 다이어그램으로서 묘사되는 프로세스로서 설명될 수 있음에 유의한다. 플로차트 또는 다이어그램이 동작들을 순차적인 프로세스로서 설명할 수 있지만, 동작들 중 다수가 병렬로 또는 동시에 수행될 수 있다. 추가적으로, 동작들의 순서가 재배열될 수 있다. 프로세스는 그의 동작들이 완료될 때 종료되지만, 도면에 포함되지 않은 추가적인 단계들을 가질 수 있다. 프로세스는 메소드, 함수, 프로시저, 서브루틴, 서브프로그램 등에 대응할 수 있다. 프로세스가 함수에 대응할 때, 그의 종료는 호출 함수(calling function) 또는 메인 함수(main function)로의 함수의 리턴(return)에 대응할 수 있다.

I. 서론

식물에서 특정 표현형을 지배하는 기본적인 생물학적 메커니즘들을 이해하는 것은 전통적으로 오랜 실험 반복을 필요로 하였다. 그러한 실험은 유전자 조작(예컨대, 유전자 전달 시스템을 통한 유전자 녹아웃(knockout) 및 과발현(overexpression)) 및 중요한 분자 신호 전달 경로들의 약리학적 표적화(pharmacological targeting)를 포함하였다. 이 프로세스는 분자 메커니즘들이 대부분 탐구되지 않은 유기체들에 대해 특히 시간 및 자원 집약적이며, 이러한 메커니즘들에 대한 중요한 지식 포트폴리오를 구축하는 프로세스는 역사적으로 과학계에서 수십 년이 걸렸다.

유기체의 게놈에서, 단일 염기 다형성(single nucleotide polymorphism, SNP)이라고 불리는, 게놈에서의 특정 염기 쌍 차이를 특정 표현형과 연관시키기 위한 전통적인 컴퓨팅 접근 방식은 GWAS(genome-wide association studies) 및 QTL(quantitative trait loci) 분석을 기반으로 하였다. GWAS는 특정 표현형의 분포를 갖는 자연 발생 게놈 샘플들의 통계 분석을 통해 특정 유전적 변형체들을 그 특정 표현형과 연관시키는 데 사용된다. QTL 분석은 궁극적인 목표가 표현형 변이를 게놈의 특정 영역들과 연관시키는 것이라는 점에서 GWAS와 유사하지만, 집단에서의 자연적 변이를 관찰하기보다는, QTL은 특정 표현형과 관련하여 유전적으로 대조되는 두 가지 계통을 표적화하고 1세대(F1) 및 2세대(F2) 자손을 분석한다. GWAS 및 QTL 분석은 후속하여 검증된 흥미로운 후보 SNP들을 식별하는 데 엄청난 진전을 이루었지만, GWAS 및 QTL 분석의 일부 약점들은 복잡한 비선형 상호 작용(예컨대, 상위성(epistasis))을 모델링하는 것, 원인 SNP를 식별하는 것, 및 약한 효과 크기의 SNP를 식별하는 것에 그 약점이 있다.

GWAS 및 QTL 분석에 보다 정교한 비선형 머신 러닝 방법들을 이용하기 위해, 최근에 딥 러닝 아키텍처들이 주목을 받고 있다. 심층 신경 네트워크(DNN), 심층 신뢰 네트워크, 순환 신경 네트워크(RNN), 콘볼루션 신경 네트워크(CNN)와 같은 딥 러닝 아키텍처들은 컴퓨터 비전, 머신 비전, 음성 인식, 자연어 처리, 오디오 인식, 생물 정보학, 및 기계 번역을 포함한 기술 분야에 적용되었으며, 여기서 이들은 인간 수행(human performance)과 비슷하거나 일부 경우에 인간 수행을 능가하는 결과들을 생성하였다. 딥 러닝 아키텍처들이 적용되어 GWAS 및 QTL 데이터 세트들을 수반하는 다양한 예측 작업들(예를 들면, 위험 예측)에서 어느 정도 성공을 거두었지만, 이들의 실세계 적용 및 배포에서의 주요 관심사는 이러한 네트워크들에서 사용되는 알고리즘들의 블랙박스 특성으로 인해 고유한 설명 가능성(inherent explainability)이 부족하다는 것이다. 따라서, 대부분의 식물 표현형들의 유전적 아키텍처들 및 변이들이 아직 대부분 설명되지 않은 상태로 남아 있다.

이러한 한계와 문제를 해결하기 위해, 식물 표현형의 세분화된 제어를 달성한다는 중요한 목표를 가지고 식물에서 유전자 발견 및 유전자 편집 둘 모두를 위한 머신 러닝 파이프라인이 본 명세서에서 개시된다. 파이프라인은 2개의 개별적인 컴포넌트로 분해될 수 있다. 제1 컴포넌트의 경우, 설명 가능한 인공 지능 방법(XAI)을 통해 특정 식물 종에서 특정 표현형에 대한 잠재적으로 관련 있는 유전자가 식별될 수 있다. 보다 구체적으로, 예측 모델에 가장 큰 영향을 미치는 유전자를 식별하기 위해 유전자 발현 프로필을 입력으로 사용하여 표현형 값을 예측하는 머신 러닝 모델(비선형)이 XAI를 통해 검사될 수 있다. 예측 모델에 대해 XAI에 의해 식별되는 이러한 상위 유전자(top gene)는 그 특정 식물 종 및 표현형에 대한 분자 조절 프로세스(molecular regulatory process)에 관여하는 후보 유전자로서 역할한다. 제2 컴포넌트의 경우, 특정 표현형의 발현(manifestation)에 관여하도록 표적화된 상위 유전자가 주어지면, 그 특정 유전자의 조절에 대한 제안을 생성하기 위해 모델링 기법이 적용될 수 있다. 보다 구체적으로, 파이프라인의 제2 컴포넌트는, 합성 생물학에서의 방법을 통해 취해질 수 있는 실행 가능한 편집으로 변환될 수 있는, 조절 방향성(상향/하향 조절)에 대한 코스 그레인드(coarse grained) 권장 사항 및 파인 그레인드(fine grained) 권장 사항 둘 모두를 제시한다.

하나의 예시적인 실시예에서, 식물의 조직 샘플에서 측정되는 유전자 세트에 대한 유전자 발현 프로필 세트를 획득하는 단계; 유전자 발현 프로필들의 특징들과 표현형 사이의 관계들 또는 상관관계들을 학습하는 비선형 알고리즘에 의한 출력 데이터로서 상기 표현형을 예측하는 작업을 위해 구축된 예측 모델에 상기 유전자 발현 프로필 세트를 입력하는 단계; 상기 예측 모델을 사용하여, 상기 유전자 발현 프로필 세트의 상기 특징들과 상기 표현형 사이의 상기 관계들 또는 상기 상관관계들에 기초하여 상기 식물에 대한 상기 표현형의 상기 예측을 생성하는 단계; 설명 가능한 인공 지능 시스템에 의해, 상기 표현형을 예측하기 위해 상기 예측 모델에 의해 내려진 결정들을 분석하는 단계 - 상기 분석하는 단계는: (i) 상기 표현형의 상기 예측에서 사용되는 상기 특징들에 대한 특징 중요도 점수 세트를 생성하는 단계, 및 (ii) 상기 특징들 각각과 연관된 상기 특징 중요도 점수에 기초하여 상기 특징들에 순위를 부여하거나 다른 방식으로 정렬하는 단계를 포함함 -; 및 상기 순위가 부여된 특징들에 기초하여, 상기 표현형에 대한 후보 유전자 표적 세트를 상기 예측에 가장 큰 기여 또는 영향을 미치는 것으로 식별하는 단계를 포함하는 방법이 제공된다. 상기 방법은 상기 식별된 후보 유전자 표적 세트에 기초하여, 편집될 때 예상된 표현형 변화를 실현하기 위해 유전자 발현 프로필에 필요한 변화를 제공하는 게놈 영역 세트를 식별하는 단계를 더 포함할 수 있다. 상기 게놈 영역 세트를 식별하는 단계는상기 후보 유전자 표적 세트의 유전자 편집들을 모델링하는 작업을 위해 구축된 유전자 편집 모델에 상기 후보 유전자 표적 세트를 입력하는 단계, 및 상기 모델링된 유전자 편집들에 기초하여, 상기 후보 유전자 표적 세트 내의 각각의 유전자를 게놈 편집함으로써 상기 표현형을 최대화하거나 최소화하기 위한 최적의 유전자 표적 세트를 식별하는 단계를 포함할 수 있다. 상기 방법은, 상기 유전자 편집 모델을 사용하여, 상기 후보 유전자 표적 세트 내의 각각의 유전자의 상기 게놈 편집을 위한 상기 최적의 유전자 표적 세트에 기초하여 상기 표현형에 대한 이상적인 유전자 발현 프로필을 생성하는 단계를 더 포함할 수 있다.

II. 머신 러닝 파이프라인

도 1은 다양한 실시예들에 따른, 식물에서의 유전자 발견 및 유전자 편집 둘 모두를 위한 머신 러닝 파이프라인(100)의 블록 다이어그램을 도시한다. 머신 러닝 파이프라인(100)은 설명 가능한 인공 지능을 통해 식물에서의 유전자 발견을 위한 제1 컴포넌트(105)와 머신 러닝을 사용하여 식물에서의 유전자 편집들을 모델링하기 위한 제2 컴포넌트(110)를 포함한다. 제1 컴포넌트(105)는 유전자 발현 프로필들(120)로부터 주어진 식물의 특정 표현형(115)을 예측하도록 구성된 모델 아키텍처를 포함한다. 주어진 식물의 표현형은 식물의 관찰 가능한 특성들에 대한 환경과 관련된 유전자형의 집단적 표현을 말한다. 식물 높이, 바이오매스(biomass), 새싹 밀도, 잎 모양, 색상, 과일 또는 곡물 생산량, 내건성(drought resistance), 내충성(insect resistance) 등은 모두, 심지어 동일한 유전자형 내에서도, 상이한 생장 조건들에 따라 달라질 수 있는, 표현형 특성들(이산적 및 연속적 변이)의 예들이다. 모델 아키텍처는 표현형(115)의 예측을 나타내는 반응 변수(response variable)를 출력하도록 트레이닝되었다. 일부 경우에, 표현형(115)은 이진형(binary), 순서형(ordinal) 또는 연속형(continuous) 표현형이고, 모델 아키텍처의 출력 계층은 표현형(115)을 식별하는 데 가장 적합한 반응 변수 유형에 따라 비선형 활성화 함수들을 사용한다(예를 들면, 쌍곡선 탄젠트 또는 선형 함수들은 연속형 표현형들에 사용될 수 있고, 시그모이드(sigmoid)는 이진형 표현형들에 사용될 수 있으며, 소프트맥스(softmax)는 순서형 또는 다중 클래스(multiclass) 표현형들에 사용될 수 있다). 특정 경우에, 예측되는 특정 표현형(115)은 연속형 표현형이고, 모델 아키텍처의 출력 계층은 연속형 표현형(115)을 식별하기 위한 반응 변수를 생성하기 위해 쌍곡선 탄젠트 함수와 같은 비선형 활성화 함수를 사용한다.

식물의 세포들은 외부 및 내부 신호들에 따라 그들이 포함하고 있는 유전자들의 발현 레벨들을 조절한다. 다양한 유전자들의 발현 레벨들을 제어하는 것은 각각의 세포가 그의 크기, 모양, 및 기능들을 제어할 수 있게 한다. 식물의 세포들이 그들이 포함하고 있는 유전자들을 발현하는 방식들은 식물의 표현형, 예를 들면, 주어진 곤충이나 가뭄에 대한 내성, 달콤한 열매를 생산할 것인지 시큼한 열매를 생산할 것인지에 영향을 미친다. 유전자 발현 프로파일링(gene expression profiling)(125)은 임의의 주어진 순간에 세포들에서 어떤 유전자들이 발현되고 있는지를 측정한다. 이러한 이유는 세포가 분열하고 있는지 여부, 세포의 환경에 어떤 요인들이 존재하는지, 세포가 다른 세포들로부터 수신하고 있는 신호들, 및 심지어 하루 중 시간 등을 포함한, 외부 및 내부 자극들에 의해 세포 유전자 발현이 영향을 받기 때문이다. 어떤 유전자들이 발현되고 있는지 결정하기 위해, 유전자 발현 프로파일링(125)은 mRNA 레벨들의 양을 측정하여, 전사 레벨에서 각각의 세포에 의해 발현되는 유전자들의 패턴을 보여준다. 일부 경우에, 이것은 2개 이상의 실험 조건에서 상대적인 mRNA 양들을 측정한 다음에, 어떤 조건들에서 특정 유전자들이 발현되는지를 평가하는 것을 의미한다. mRNA 레벨들의 양을 측정하고 유전자 발현을 결정하기 위해 다양한 기법들이 사용될 수 있다. 일부 경우에, mRNA 레벨들은 마이크로어레이 분석, 역전사 중합효소 연쇄 반응(RT-PCR)을 통해, cDNA -조직의 정제된 RNA(RNA-seq)의 역전사 반응에서 결과되는 DNA - 의 차세대 염기서열 분석(next generation sequencing)을 통해, 또는 이들의 조합으로 측정된다.

유전자 발현 프로파일링(125)은 식물의 발달 주기에서의 특정 시간에 식물에서의 특정 조직에서 측정되는 고정된 유전자 세트에 대한 특징 (a) 내지 특징 (n)을 포함하는 유전자 발현 프로필들(120)을 출력한다. 유전자가 특정 시간에 mRNA를 만들기 위해 조직의 세포에 의해 사용되고 있는 경우, 유전자는 유전자 발현 프로필들(120) 내에서 '개시(on)'로 간주되고; 유전자가 특정 시간에 mRNA를 만들기 위해 조직의 세포에 의해 사용되고 있지 않는 경우, 유전자는 유전자 발현 프로필들(120) 내에서 '중단(off)'으로 간주된다.

일부 경우에, 유전자 발현 프로필들은 조직이 샘플링된 특정 시점에 주어진 조직에서의 고정된 측정된 유전자 세트에 대한 유전자 발현의 수치 표현 세트(예를 들면, 로그 변환된 유전자 발현 프로필들)로 변환된다. 일부 경우에, 본 명세서에서 더 상세히 설명되는 바와 같이 제1 컴포넌트(105)의 모델 아키텍처에 유전자 발현 프로필들과 함께 입력하기 위한 추가적인 데이터(127)가 생성된다(예를 들면, 입력 데이터가 환경 및 비배 관리(management practices) 시스템, 재배 시스템, 다중 오믹스(multi-omics) 시스템, 및/또는 모델링 시스템으로부터 획득될 수 있다). 추가적인 데이터(127)는: (i) 식물이 임의의 주어진 순간(예를 들면, mRNA 레벨들의 양이 측정된 순간)까지 노출되는 환경 조건들에 관한 데이터, 및 (ii) 식물이 임의의 주어진 순간(예를 들면, mRNA 레벨들의 양이 측정된 순간)까지 노출되는 유지 조건들에 관한 데이터를 포함할 수 있다. 환경 조건들은 식물이 노출되는 위치 특정(location-specific) 환경 조건들, 예를 들면, 온도, 강수량, 토양 특성들 등을 포함한다. 유지 조건들은 식물의 생장의 관리의 임의의 조정 가능한 측면, 예를 들면, 비료 또는 물과 같은 투입물들, 파종 시기, 시비(fertilizing) 시기, 수확 시기 등을 포함한다.

식물 생물학에서 게놈 예측을 위한 전통적인 모델들은 선형 모델들(선형 회귀)이거나 rrBLUP(ridge regression best linear unbiased prediction)와 같은 선형 혼합 효과 모델들이었다. 식물에서의 다양한 표현형들(특히 다유전성이 심한(heavily polygenic) 표현형들)에 기여하는 기본 프로세스들이 본질적으로 비선형인 것으로 알려져 있지만, 전통적인 모델링 방법론들 중 다수는 엄격한 선형 형태를 취한다. Hill, Monod, Michaelis-Menten 방정식들과 같은, 생화학 시스템들을 지배하는 가장 기본적인 방정식들 중 일부도 일반적으로 비선형이다. 그러나 게놈 예측을 목표로 하는 접근 방식들의 대부분은 계산적으로 다루기 쉽고 선형 계수들의 검사를 통한 해석 가능성(interpretability)을 내장하고 있다는 단순한 이유 때문에 선형 방법들을 사용하였다. 심층 신경 네트워크과 같은 보다 복잡한 모델링 방법론들을 사용할 때는 해석 가능성이 자연스럽게 제공되지 않는다.

그럼에도 불구하고, 보다 표현력이 풍부한 비선형 모델들이 생물학적 시스템들의 고유한 비선형 특성을 모델링하는 데 더 적합하기 때문에, 표현형(115)을 예측하기 위한 모델 아키텍처는, (예를 들면, 유전자 발현 프로필들(110)에서와 같이) 큰 유전적 변이를 나타내는 많은 수의 샘플들을 제공받을 때 더욱 강력한 예측 모델로서 역할하는, 딥 러닝 아키텍처(130)이다. 일부 경우에, 딥 러닝 아키텍처(130)는 심층 신경 네트워크(즉, 2개 이상의 은닉 계층)이지만; 본 명세서에서의 교시가 단수로, 앙상블과 같은 복수로, 또는 조합으로 구현되는 신경 네트워크들 및 다른 비선형 모델들 양쪽 모두에 적용 가능하다는 것을 이해해야 한다. 딥 러닝 아키텍처(130)는 입력 데이터(유전자 발현 프로필들(110))의 특징들과 표현형 사이의 관계들 또는 상관관계들을 학습하는 것에 의해 출력 데이터인 표현형을 예측하는 작업을 위해 구성되어 있다. 구체적으로, 딥 러닝 아키텍처(130)는 알고리즘에 은닉 계층들에서 비선형 패턴들을 어떻게 포착할지를 학습하게 하고 하나 이상의 활성화 함수를 사용하여 일정 간격으로(예를 들면, 연속적인 반응을 위해) 확률들(예를 들면, 이진 분류) 또는 예측된 반응 변수들로 출력들을 생성하게 하는 방식으로 구성되어 있다. 비선형 활성화 함수들에 후속하여 전달되는 선형 변환들을 좌우하는 가중치들은 레이블링된 샘플 세트(예를 들면, 표현형 정답들로 레이블링된 유전자 발현 프로필 세트들을 포함하는 트레이닝 데이터)로 트레이닝 프로세스에서 학습된다.

도 2a는 예시적인 심층 신경 네트워크(200)을 도시한다(이 경우에 예시적인 심층 신경 네트워크는 피드포워드 신경 네트워크이지만; 본 개시의 사상 및 범위를 벗어나지 않으면서 다른 유형들의 신경 네트워크들이 구현될 수 있다는 것을 이해해야 한다). 심층 신경 네트워크(200)는 입력 계층(205), 다수의 은닉 계층들(210a 내지 210(n)), 및 출력 계층(215)을 포함한다. 입력 계층(205)은 입력 데이터 또는 특징들을 심층 신경 네트워크(200)에 공급하는 데 사용된다. 일부 경우에, 입력 데이터 또는 특징들은 유전자 발현 프로필들 또는 이들의 변환된 버전, 예를 들면, 로그 변환된 유전자 발현 프로필들이다. 심층 신경 네트워크(200)는 다수의 은닉 계층들(210a 내지 210(n))을 사용하여 입력 데이터에 일련의 함수들을 적용한다. 은닉 계층들의 수는 심층 신경 네트워크(200)의 깊이를 정의한다. 다수의 은닉 계층들(210a 내지 210(n))을 가짐으로써, 심층 신경 네트워크(200)는 보다 간단한 함수들을 캐스케이딩(cascading)하는 것에 의해 복잡한 함수들을 계산할 수 있다. 일부 경우에, 심층 신경 네트워크(200)의 깊이는 2개 이상의 은닉 계층이다. 특정 경우에, 도 2a에 묘사된 바와 같이, 심층 신경 네트워크(200)의 깊이는 2개의 은닉 계층이다.

다수의 은닉 계층들(210a 내지 210(n))에서의 각각의 노드(220)는, 심층 신경 네트워크(200)의 기본 처리 단위들인, 뉴런이다. 뉴런들의 처리는 2개의 단계로 구현될 수 있다 - (1) 각각의 뉴런은 그의 입력들과 가중치들의 가중 합을 계산하고, (2) 각각의 노드는 활성화 함수라고 불리는 변환을 적용하여 출력을 생성한다 -. 각각의 계층에서의 뉴런들은 이전 계층에서의 뉴런들의 출력을 입력으로 받는다. 연결의 강도는, 연결의 중요도를 반영하는 가중 인자인, 가중치라고 불린다. 가중치들은 트레이닝 단계 동안 네트워크가 학습해야 하는 파라미터들이다. 연결이 0의 가중치를 가지는 경우, 뉴런은 다음 계층에서의 대응하는 뉴런에 아무런 영향을 미치지 않는다. 그 영향은 가중치가 양수일 때 흥분성(excitatory)이며, 가중치가 음수일 때 억제성(inhibitory)이다. 따라서, 심층 신경 네트워크는 노드들이 뉴런들에 대응하고 에지들이 뉴런들 사이의 링크들에 대응하는 유향 비순환 그래프(directed acyclic graph, DAG)로 볼 수 있다. 각각의 뉴런은 그의 들어오는 에지에 연결되는 뉴런들의 출력들의 가중 합을 입력으로 받는다. 활성화 함수는 뉴런들의 나가는 에지들에서 의사 결정 컴포넌트로서 사용된다. 활성화 함수들은 선형 또는 비선형일 수 있으며, 심층 신경 네트워크(200)의 출력 유형(연속형(continuous), 이진형(binary), 범주형(categorical) 및 카운트(count))을 결정하고, 입력 데이터의 비선형 패턴들을 포착하는 데 중요하다. 활성화 함수들의 예들은 선형 활성화 함수, ReLU(rectifier linear unit), 누설 ReLU, 시그모이드 활성화 함수, 소프트맥스 활성화 함수, 쌍곡선 탄젠트 활성화 함수, 및 지수 활성화 함수를 포함한다.

출력 계층(215)은 예측(예를 들면, 특정 표현형)을 나타내는 반응 변수를 출력한다. 출력 계층에서 사용되는 활성화 함수는 상이한 문제들에 대해 상이하다. 이진 분류 문제의 경우, 출력은 0 또는 1일 필요가 있다. 따라서, 시그모이드 활성화 함수가 사용될 수 있다. 다중클래스 분류 문제의 경우, 소프트맥스 활성화 함수가 사용될 수 있다. 출력이 미리 정의된 범주가 아닌 회귀 문제의 경우, 선형 단위 활성화 함수가 사용될 수 있다. 일부 경우에, 특정 표현형은 이진형, 순서형 또는 연속형 표현형이고, 출력 계층(215)은 특정 표현형을 식별하는 데 가장 적합한 반응 변수 유형에 따라 비선형 활성화 함수들을 사용한다(예를 들면, 쌍곡선 탄젠트 함수는 연속형 표현형들에 사용될 수 있고, 시그모이드는 이진형 표현형들에 사용될 수 있으며, 소프트맥스는 순서형 또는 다중 클래스 표현형들에 사용될 수 있다). 특정 경우에, 예측되는 특정 표현형은 연속형 표현형이고, 출력 계층(215)은 특정 연속형 표현형을 식별하기 위한 반응 변수를 생성하기 위해 쌍곡선 탄젠트 함수와 같은 비선형 활성화 함수를 사용한다.

심층 신경 네트워크(200)에 대한 트레이닝 단계는 심층 신경 네트워크(200)에 대한 하이퍼파라미터들을 선택하는 것(예를 들면, 은닉 계층들 또는 활성화 함수(들)의 수를 선택하는 것), 심층 신경 네트워크(200)에 대한 손실 또는 오차 함수를 최소화하는 학습된 파라미터(예를 들면, 가중치 및/또는 편향(bias)) 세트를 찾기 위해 트레이닝 데이터로부터의 데이터 세트들을 심층 신경 네트워크(200)에 입력하는 반복적인 동작들을 수행하는 것, 및 학습된 파라미터 세트로 네트워크를 검증하거나 테스트하는 것을 포함한다. 하이퍼파라미터들은 심층 신경 네트워크(200)의 거동을 제어하기 위해 튜닝되거나 최적화될 수 있는 설정들이다. 대부분의 신경 네트워크들은 메모리 또는 실행 비용과 같은 네트워크들의 상이한 측면들을 제어하는 하이퍼파라미터들을 명시적으로 정의한다. 그렇지만, 네트워크를 특정 시나리오에 맞게 조정하기 위해 추가적인 하이퍼파라미터들이 정의될 수 있다. 예를 들어, 하이퍼파라미터들은 네트워크의 은닉 계층 수, 은닉 계층들에 있는 뉴런 수, 네트워크의 학습률, 또는 네트워크에 대한 활성화 함수(들) 유형을 포함할 수 있다. 하이퍼파라미터들을 정의하는 것이 어려울 수 있으며, 따라서 특정 시나리오에 대한 최적의 하이퍼파라미터 값 세트를 정의하기 위해 튜닝 프로세스가 사용될 수 있다. 하이퍼파라미터 튜닝은 상이한 하이퍼파라미터 조합들로 값들의 그리드로부터 하이퍼파라미터들에 대한 값들의 조합을 선택하는 것을 포함할 수 있는 값 탐색 프로세스를 포함한다. 앞서 언급된 값 탐색 프로세스는 전면적(exhaustive)일 수 있거나 베이지안 최적화 또는 유전자 알고리즘들과 같은 보다 지능적인 최적화 기법들을 활용할 수 있다.

하이퍼파라미터 튜닝 프로세스, 네트워크 트레이닝, 및 테스트/검증 프로세스들을 구현하기 위해, 트레이닝 데이터가 획득되고, 세트들로 나누어지며, 전처리(예를 들면, 정답 레이블들로 주석을 다는 것)될 수 있다. 예를 들어, 트레이닝 데이터는 하나 이상의 표현형에 대한 유전자 발현 프로필 세트들을 획득하는 것, 데이터 세트들을 전처리하는 것, 데이터 세트들을 (학습 가능한 파라미터들을 학습하도록 네트워크를 트레이닝시키기 위한) 트레이닝 세트(예를 들면, 70%), (하이퍼파라미터들을 튜닝하고 최적의 학습 불가능 파라미터들을 선택하기 위한) 튜닝 세트(예를 들면, 15%), 및 (네트워크의 일반화 성능을 추정하기 위한) 테스트 또는 검증 세트(예를 들면, 15%)로 분할하는 것, 및 데이터 서브세트에 정답 레이블들로 주석을 다는 것에 의해 생성될 수 있다. 일부 경우에, 트레이닝 데이터는 정답 레이블들을 갖는 유전자 발현 프로필들 또는 이들의 변환된 버전, 예를 들면, 정답 레이블들을 갖는 로그 변환된 유전자 발현 프로필들이다.

데이터 세트들은 K 폴드(K-Fold) 교차 검증, 리브 원 아웃(Leave-one-out) 교차 검증, 리브 원 그룹 아웃(Leave-one-group-out) 교차 검증, 중첩(Nested) 교차 검증 등과 같은 검증 기법을 사용하여 획득 및 분할될 수 있다. 예를 들어, K 폴드 교차 검증이 사용될 수 있으며 여기서 k-1번의 폴드들은 트레이닝(외부 트레이닝)에 사용되고 나머지 폴드는 테스트에 사용된다. 이어서 대응하는 트레이닝을 갖는 각각의 폴드 내에서, k 폴드 교차 검증이 사용되고, k-1번의 폴드들은 트레이닝(내부 트레이닝)에 사용되며 나머지 폴드는 튜닝 평가에 사용된다. 그리드에서의 각각의 하이퍼파라미터 조합에 대한 네트워크는 내부 트레이닝 데이터 세트로 트레이닝되고, 보다 낮은 예측 오차를 갖는 그리드에서의 조합이 각각의 폴드에서의 최적의 하이퍼파라미터로서 선택된다. 이어서 외부 트레이닝 세트를 사용하여 샘플 크기가 작은 경우, 네트워크는 최적의 하이퍼파라미터로 다시 피팅된다. 마지막으로, 이러한 추정된 모델 파라미터들(가중치들 및/또는 편향)로, 테스트 세트에 대한 예측들이 획득된다. 이 프로세스는 각각의 폴드에서 반복되며, k개의 테스트 세트의 평균 예측 성능이 예측 성능으로서 보고된다. 일부 경우에, Bland-Altman 방법 및 Spearman의 순위 상관 계수들과 같은 상관 기법들을 사용하여 그리고 오차, 정확도, 정밀도, 재현율(recall), ROC(receiver operating characteristic curve) 등과 같은 성능 메트릭들을 계산하여 테스트 세트에 대한 예측들이 정답과 대조하여 평가된다.

심층 신경 네트워크(200)에 대한 트레이닝 프로세스의 각각의 반복은, 모델 파라미터 세트를 사용하는 손실 또는 오차 함수의 값(예를 들면, 수정된 교차 엔트로피 손실)이 이전 반복에서의 상이한 모델 파라미터 세트를 사용하는 손실 또는 오차 함수의 값보다 작도록, 트레이닝 및/또는 튜닝 세트로부터의 데이터 세트들을 입력하고 (정의된 하이퍼파라미터 세트로 구성된) 모델 파라미터 세트를 학습하는 것을 포함할 수 있다. 손실 또는 오차 함수는 레이블들/정답과 유전자 발현 프로필 세트에 대한 추론된 표현형과 같은 추론된 데이터 사이의 차이를 측정하도록 구성될 수 있다. 초기 값들(예를 들면, 랜덤 값들 또는 사전 지식에 기초하여 선택된 값들)은 심층 신경 네트워크(200)를 트레이닝시키기 위한 시작 포인트로서 사용될 모델 파라미터 세트에 할당되고, 심층 신경 네트워크(200)에 대한 트레이닝 프로세스의 각각의 반복은 모델 파라미터 세트를 미세 튜닝하기 위해 네트워크를 통해 역방향으로 손실을 공급(즉, 역전파)하는 것을 더 포함할 수 있다. 심층 신경 네트워크(200)를 통해 데이터 배치(batch)들을 반복적으로 전달하고, 트레이닝 데이터 세트의 서브세트에 기초하여 오차를 추정하며, 오차가 감소되도록 가중치들을 업데이트하는 이러한 프로세스는 기울기 하강법(Gradient Descent)이라고 알려져 있다. 본 명세서에서 사용되는 바와 같이, 액션이 무언가에 "기초"할 때, 이는 액션이 무언가의 적어도 일부에 적어도 부분적으로 기초한다는 것을 의미한다. 일단 심층 신경 네트워크(200)의 모델 파라미터 세트가 손실 또는 오차 함수를 최적화하는 것에 의해 트레이닝되었으면, 네트워크는 유전자 발현 프로필 세트로부터 보이지 않는 유전자형의 표현형을 예측할 수 있다. 트레이닝 손실을 추적하는 것 외에도, 트레이닝 손실과 테스트 손실 사이의 명확한 차이(divergence)가 확인될 때 심층 신경 네트워크의 트레이닝을 중지하는, 조기 종료(early stopping)를 구현하기 위해 테스트 손실이 추가적으로 추적될 수 있다. 조기 종료 프로세스는 오버피팅(overfitting)을 방지하여, 신경 네트워크가 검증 데이터로 일반화하는 대가로 트레이닝 데이터에 대해 매우 잘 작동하는 시나리오들을 방지한다.

오차 기울기(error gradient) 추정에 사용되는 트레이닝 세트로부터의 데이터 예제들의 수는 배치 크기(batch size)이며 학습 알고리즘의 동태(dynamics)에 영향을 미치는 중요한 하이퍼파라미터이다. 심층 신경 네트워크(200)를 트레이닝시키는 것은 학습 알고리즘의 초기 모델 파라미터 세트 및 구성에 민감할 수 있기 때문에 어려울 수 있다. 이러한 문제에 대한 이유는 모델 파라미터 세트가 업데이트될 때 각각의 데이터 배치 이후에 네트워크에서의 심층 계층들에 대한 입력들의 분포가 변경될 수 있기 때문이다. 이것은 학습 알고리즘으로 하여금 이동 표적(내부 공변량 변화(internal covariate shift)라고 알려져 있음)를 지속적으로 추적하게 할 수 있다. 일부 경우에, 이러한 문제를 극복하기 위해, 배치 정규화(batch normalization)가 심층 신경 네트워크(200)를 트레이닝시키는 데 사용된다. 배치 정규화는 각각의 은닉 계층(210)의 출력을 스케일링하는 것, 예를 들면, 이전 계층으로부터의 노드의 활성화들과 같은, 데이터 배치당 각각의 입력 변수의 활성화들을 표준화하는 것에 의해 수행될 수 있다. 이전 계층의 활성화들을 표준화한다는 것은 후속 계층들이 가중치 업데이트 동안 입력들의 확산 및 분포에 관해 행하는 가정들이 변하지 않는다는 것, 적어도 크게 변하지 않는다는 것을 의미한다. 이것은 학습 프로세스를 안정화시키고 심층 신경 네트워크(200)를 트레이닝시키는 데 필요한 트레이닝 에포크(training epoch) 수를 감소시킨다(트레이닝 속도를 높인다).

이해되어야 하는 바와 같이, 다른 트레이닝-튜닝-검증 메커니즘들이 고려되고 구현될 수 있다. 예를 들어, 심층 신경 네트워크(200)는 트레이닝될 수 있고 하이퍼파라미터들은 제1 데이터 서브세트로부터의 데이터에 대해 튜닝될 수 있으며 제2 데이터 서브세트로부터의 데이터는 모델의 성능을 테스트 및 평가하는 데에만 사용될 수 있다. 더욱이, 본 명세서에서 설명되는 트레이닝-튜닝-검증 메커니즘들은 새로운 심층 신경 네트워크(200)를 트레이닝시키는 데 중점을 두고 있다. 이러한 트레이닝-튜닝-검증 메커니즘들은 또한 다른 데이터 세트들로부터 트레이닝되는 기존의 심층 신경 네트워크들(200)을 미세 튜닝하는 데 활용될 수 있다. 예를 들어, 일부 경우에, 심층 신경 네트워크(200)는 제1 표현형에 대한 유전자 발현 프로필 데이터를 사용하여 사전 트레이닝되었을 수 있다. 이러한 경우에, 심층 신경 네트워크(200)는 전이 학습에 사용될 수 있으며 제2 표현형에 대한 새로운 유전자 발현 프로필 세트들을 사용하여 재트레이닝/검증될 수 있다.

도 2a와 관련하여 설명된 피드포워드 신경 네트워크에 대한 대안으로, 일부 실시예들에서 구현되는 예시적인 학습 아키텍처(130)는 그래프 신경 네트워크(graph neural network, GNN)이다. GNN은 일반적인 무향/유향 레이블 그래프(undirected/directed labeled graph)(두 가지 컴포넌트: 노드들(정점들)과 에지들로 구성된 데이터 구조)로서 인코딩되는 입력 데이터를 처리하고, 노드 레벨, 에지 레벨, 및 그래프 레벨 예측 작업들을 수행하는 방식을 제공할 수 있는 신경 네트워크들이다. 결과적으로, 그러한 실시예들에서, 유전자 발현 프로필들(120)은 식물 종에서의 유전자들의 그래프 구조화된 표현(graph structured representation)으로서 구성된다. 각각의 노드가 유전자를 나타내고 각각의 에지가 유전자-유전자 상호 작용을 나타내는 유전자들의 그래프 구조화된 표현이 주어지면, GNN은 노드들을 순환 유닛(recurrent unit)들로 변환하고 에지들을 피드포워드 신경 네트워크들로 변환한다. 이어서 GN은 모든 노드들에 대해 이웃 집계(Neighborhood Aggregation)를 n번 수행하고, 그래프 표현 H를 얻기 위해 모든 노드들의 임베딩 벡터(embedding vector)들에 걸쳐 전역 풀링(global pooling)을 수행한다. 그래프 표현 H는 이어서 상위 계층들에 전달되고 여기서 이는 유전자 발현 프로필들(120)에 대한 표현형(115)을 예측하는 데 사용된다.

본 명세서에서 설명되는 DNN 또는 GNN과 같은 심층 신경 네트워크의 대안으로, 일부 실시예들에서 구현되는 예시적인 딥 러닝 아키텍처(130)는 가우시안 프로세스 모델과 같은 비선형 모델이다. 가우시안 프로세스 모델은 가우시안 확률 분포를 일반화한 것이며, 분류 및 회귀 작업들을 위한 비-파라메트릭(non-parametric) 머신 러닝 알고리즘들에 대한 기초로서 사용될 수 있다. 가우시안 프로세스를 포함하는 머신 러닝 알고리즘들은 게으른 학습(lazy learning)을 사용하여 딥 러닝 아키텍처(130)에서 구현될 수 있으며, 포인트들 간의 유사성의 척도(커널 함수)가 트레이닝 데이터로부터의 보이지 않는 포인트들에 대한 값(예를 들면, 유전자 발현 프로필들(120)에 대한 표현형(115))을 예측하는 데 사용될 수 있다. 예측은 해당 포인트에 대한 추정치일 뿐만 아니라, 불확실성 정보도 가지며 1차원 가우시안 분포로서 표현된다. 다중 출력 예측들의 경우, 다변량 가우시안 프로세스들이 사용될 수 있으며, 이들에 대한 다변량 가우시안 분포가 각각의 포인트에서의 주변 분포(marginal distribution)이다.

관심 대상 표현형(115)에 대한 후보 유전자 표적들을 생성하기 위해, XAI 기법들이 홀드아웃 데이터 세트(holdout data set) 또는 새로운 입력 데이터 세트(즉, 유전자 발현 프로필 세트(120))에서의 모든 예측들에 대한 각각의 특징의 중요도를 획득하는 데 적용된다. 일부 경우에, 유전자 발현 프로필들(120)을 입력으로 사용하여, 표현형들(115)을 예측하는 딥 러닝 아키텍처(130)가 딥 러닝 아키텍처(130) 출력 또는 예측에 가장 큰 기여 또는 영향을 미치는 특징들(예를 들면, 하나 이상의 유전자(140))을 식별하기 위해 XAI(135)를 통해 분석된다. XAI(135)의 주요 목표는 어느 유전자(들)이 표현형의 결정에 중요한 역할을 하는지를 식별해 주는 중요도 척도(예를 들면, Shapley 값)를 정의하는 것이다. XAI는 머신 러닝 모델의 결정들(예를 들면, 솔루션 결과들)이 이해되고 해석될 수 있도록 인공 지능(AI)을 적용하는 기법들을 지칭한다. XAI는 머신 러닝 모델의 설계자조차도 AI가 머신 러닝 모델에 의한 특정 결정에 도달한 이유를 설명할 수 없는 머신 러닝에서의 "블랙 박스"의 개념과 대조된다. 일부 경우에, XAI(135)에 사용되는 기법은, 머신 러닝 모델의 결정들을 분석 및 설명하기 위한 게임 이론적(game theoretic) 접근 방식인, SHAP(SHapley Additive exPlanation)이다. 그렇지만, 머신 러닝 모델들에 의해 이루어진 예측들을 이해하고 해석하기 위해 XAI에 대한 다른 기법들이 고려된다는 점이 이해될 것이다. 예를 들어, 대안적으로 또는 추가적으로, 적분 기울기(integrated gradient)와 같은 기울기 기반 접근 방식, DeepLIFT와 같은 역전파 접근 방식, LIME(Local Interpretable Model-Agnostic Explanation)과 같은 모델 무관(model agnostic) 기법, 어텐션 기반 신경 네트워크 모델(Attention-Based Neural Network Model)과 같은 신경 네트워크 및 어텐션 가중치 접근 방식, 또는 LRP(Layer-wise Relevance Propagation)와 같은 심층 테일러 분해(Deep Taylor Decomposition) 접근 방식이 머신 러닝 모델들에 의해 이루어진 예측들을 이해하고 해석하는 데 사용될 수 있다.

머신 러닝 모델들에 대한 SHAP-기반 설명들을 뒷받침하는 핵심 아이디어는 협력 게임 이론(cooperative game theory)으로부터의 공정한 할당 결과들을 사용하여 그의 입력 특징들 중에서 모델의 출력에 대한 크레딧(credit)을 할당하는 것이다. 환언하면, SHAP 설명 방법은 예측을 분석하여 각각의 특징(예를 들면, 유전자 발현 프로필에서의 각각의 유전자)의 영향을 보여준다. 이를 위해, SHAP 설명 방법은 협력 게임 이론으로부터 Shapley 값들을 계산한다. 특징들은 Shapley 값들에 의해 설명되는 상이한 크기와 부호로 모델의 출력 또는 예측에 기여한다. 그에 따라, Shapley 값들은 각각의 특징의 중요도(기여 또는 영향의 크기)의 추정치들은 물론 방향(부호)를 나타낸다. 양의 Shapley 값들을 갖는 특징들은 표현형의 예측 값을 증가시키는 반면, 음의 Shapley 값들을 갖는 특징들은 표현형의 예측 값을 감소시킨다. 이어서 절대 Shapley 값들의 평균들이 각각의 특징의 중요도에 순위를 부여하고 정렬하는 데 사용될 수 있다.

XAI(135)(예를 들면, SHAP)에 사용되는 기법들은: (i) 예측에서 사용되는 특징들(일부 또는 모든 입력 특징들)에 대한 특징 중요도 점수(정량적 값) 세트, 및 (ii) 홀드아웃 데이터 세트 또는 새로운 입력 데이터 세트(즉, 유전자 발현 프로필 세트(120))의 모든 예측들에 대한 각각의 특징에 대한 중요도 점수들의 집계를 통해 특징들에 순위를 부여하는 것 또는 다른 방식으로 정렬하는 것을 생성한다. 예를 들어, SHAP와 관련하여, 일단 절대 Shapley 값들의 평균에 의해 순위가 부여되고 정렬되면, 최상위 순위의 또는 최상위 정렬된 특징(들)(140)(예를 들면, 유전자 세트)은 딥 러닝 아키텍처(130) 출력 또는 예측에 가장 큰 기여 또는 영향을 미치는 것으로 식별된다. 최상위 순위의 또는 최상위 정렬된 특징(들)(140)은 절대 Shapley 값들의 가장 큰 평균을 갖는 특징(들)(예를 들면, 단일 유전자, 5개의 유전자, 10개의 유전자, 15개의 유전자 등)을 정렬 및 식별하는 것에 의해 식별될 수 있다. 최상위 순위의 또는 최상위 분류된 특징(들)(140)은 그 특정 식물 종 및 표현형에 대한 분자 조절 프로세스들에 관여하는 후보 유전자들일 수 있으며, 유전자 편집들을 모델링하기 위해 제2 컴포넌트(110)에서 사용된다.

GNN과 관련된 다른 예로서, (i) 중요한 서브그래프 구조들 및 노드 특징들을 식별하는 것, 및 (ii) 노드들이 샘플들에 걸쳐 집계되고 개별 노드들의 중요도 목록을 생성하도록 순위가 부여될 수 있는, 각각의 예측에 대한 중요한 서브그래프 서브세트를 획득하는 것에 의해 GNN의 예측들에 대한 해석을 얻기 위해 GNN 증류 프로세스가 활용될 수 있다. 도 2b는 유전자-유전자 상호 작용 발견을 위한 그래프 증류(250)를 도시한다. 다중 오믹스 트레이닝 데이터는 그래프 세트로 변환되며, 여기서 그래프에서의 각각의 노드는 유전자를 나타낸다. 입력 트레이닝 데이터(255)는 동결된 사전 트레이닝된 티처 그래프(teacher graph)(260)에 공급되어 예측들을 생성하며, 이 예측들은 증류된 스튜던트 그래프(student graph)(270)에 대한 목표 레이블들(265)로서 사용된다. 스튜던트 그래프(270)는 두 가지 목적으로, 즉 (1) 예측들(275)을 티처 그래프(260)의 출력들과 유사하게 만들도록, 그리고 (2) 엔트로피 정규화(entropy regularization)(280)를 통해 달성되는 최소 개수의 에지를 갖도록 트레이닝된다. 트레이닝 후에, 증류된 스튜던트 그래프(270)에서의 나머지 에지들은 주어진 출력 예측에 기여하는 가장 중요한 유전자-유전자 상호 작용들을 나타낸다.

딥 러닝 아키텍처(130)에 대한 XAI 메커니즘으로부터 획득되는 순위 부여된 특징들(140)(예를 들면, 유전자들)은 제1 컴포넌트(105)에 대한 기초로서 역할한다. 일부 경우에, 주어진 표현형과 연관되어 있는 것으로 문헌에 기록된 유전자들과 같은 특징 세트들이 제1 컴포넌트(105)의 성능을 벤치마킹하는 데 활용될 수 있다. 예를 들어, 제1 컴포넌트(105)로부터의 순위 부여된 특징(140) 세트가 주어지면, 특징들(140)의 순위에서 상위 k개의 특징들에 포착된 문헌 특징들의 총수를 계산하는 것에 의해 "k에서의 재현율(recall at k)" 메트릭이 계산될 수 있다. k는 이 메트릭에 영향을 미칠 수 있는 중요한 파라미터이지만, 1부터 시작하여 데이터 세트 내의 특징 수까지의 모든 k에 대해, k에서의 재현율을 계산하는 것으로부터 곡선을 생성하는 것에 의해 집계 메트릭(aggregate metric)이 획득될 수 있다. 그러한 곡선을 미리 결정된 피처 수 k까지 적분하면, 제1 컴포넌트(105)에 대한 정확도 메트릭으로서 사용될 수 있는, "k까지의 곡선 아래 면적(Area Under the Curve to k)"이라는 연속 값을 산출한다. 특징 재현율을 벤치마킹하기 위한 앞서 언급된 접근 방식은 모델이 수십 년간의 생물학적 실험 및 검증으로부터 얻은 유전자들 및 표현형들과 같은 특징 사이의 연관성을 어떻게 포착하는지를 측정(gauge)하는 데 유용하지만, 실제 연관성 세트는 불완전하며 따라서 알려진 문헌 유전자 세트에서 포착되지 않은 제1 컴포넌트(105)로부터 오는 연관성들이 정확할 수 있다(추가 생물학적 검증으로부터 확인됨). 일부 경우에, 표현형들의 예측 및 특징 발견을 위한 트레이닝된 모델의 배포가 특징 재현율을 벤치마킹하기 위한 접근 방식에 의해 결정되는 바와 같은 모델의 성능에 기초하여 구현될 수 있다. 예를 들어, 하나의 모델이 특징 재현율을 벤치마킹하기 위한 접근 방식에 따라 다른 모델의 성능을 능가하는 경우, 표현형 예측 및 특징 발견(예를 들면, 유전자 발견)을 위한 배포에서 더 높은 성능의 모델이 사용될 수 있다.

제2 컴포넌트(110)는 유전자 편집들을 모델링하고 주어진 표현형(115)에 대한 이상적인 유전자 발현 프로필들(145)을 생성하도록 구성된 모델 아키텍처를 포함한다. 모델 아키텍처는 이상적인 유전자 발현 프로필들(145)을 생성하기 위해 하나 이상의 다양한 접근 방식 (A) 내지 (N)을 사용하는 모델러(150)를 포함한다. 이상적인 유전자 발현 프로필들(145)은 표현형(115)을 최대화 또는 최소화하기 위한 특징들(140) 내의 모든 유전자들에 대한 유전자 발현 권장 사항이다. 이어서 유전자 편집 권장 사항(155)이 이상적인 유전자 발현 프로필들(145) 내의 특정 유전자, 유전자들의 서브그룹, 또는 각각의 유전자를 상향 조절하거나 하향 조절하는 것인지를 이해하기 위해, 이상적인 유전자 발현 프로필들(145)이 식물 종에 대한 자연 발생 유전자 발현 분포와 비교될 수 있다.

제1 접근 방식 (A)는 예측에서 사용되는 특징들(140)에 대한 특징 중요도 점수(예를 들면, Shapley 값) 세트로부터 직접적으로 유전자 편집을 모델링하기 위한 조절 방향성(상향 조절 또는 하향 조절)을 확인하는 모델러(150)를 포함한다. 예를 들어, 딥 러닝 아키텍처(130)에 대한 XAI 메커니즘은 특징 기여들과 예측된 표현형 사이의 상관관계를 얻기 위해 특징 중요도 점수(예를 들면, Shapley 값) 세트를 유전자 발현 값들(예를 들면, 이진형: 1 = 발현됨 또는 0 = 발현되지 않음)에 대해 플로팅한다. 이 상관관계는 유전자들과 같은 특정 특징들이 딥 러닝 아키텍처(130)와 관련하여 상향 조절 또는 하향 조절을 통해 표현형에 어떻게 영향을 미칠 수 있는지를 결정하기 위해 모델러(150)에 의해 활용된다. 예를 들어, 유전자 (a) 발현의 상향조절은 예측된 표현형 (I)와 양의 상관관계가 있을 수 있는 반면; 유전자 (b) 발현의 상향 조절은 예측된 표현형 (I)와 음의 상관관계가 있을 수 있다. 이어서 모델러(150)는 확인된 조절 방향성(상향 조절 또는 하향 조절)에 기초하여 주어진 표현형(115)에 대한 이상적인 유전자 발현 프로필들(145)을 생성한다. 위의 예를 계속하면, 표현형 (I)에 대한 이상적인 유전자 발현 프로필(145)은 식물 내에서 주어진 표현형 (I)의 발현에 긍정적으로 기여하기 위해 유전자 (a)의 상향 조절 (또는 유전자 (a)의 발현 증가) 및 유전자 (b)의 하향 조절 (또는 유전자 (b)의 발현 감소)을 포함할 수 있다.

제2 접근 방식 (B)는 유전자 편집들의 모델링을 유전자 발현 최적화 문제로 취급하는 모델러(150)를 포함한다. 보다 구체적으로, 베이지안 최적화가 유전자 편집들을 모델링하는 데 사용될 수 있다. 베이지안 최적화는 탐색(exploration)과 활용(exploitation) 둘 모두를 통합하여 목적 함수의 최솟값 또는 최댓값을 찾기 위해 탐색을 지시하는 순차 탐색 프레임워크(sequential search framework)이다. 베이지안 최적화의 목표는 (i) 함수가 높은 값(주어진 표현형과 높은 상관 관계)을 반환하기 때문에 주어진 데이터 포인트가 샘플링하기에 좋은 곳이며, ii) 샘플링 후에 획득될 많은 양의 지식에 대응하여, 반환의 불확실성이 매우 크기 때문에 다른 주어진 데이터 포인트가 샘플링하기에 좋은 곳이라고 결정할 기본 함수의 확률 모델을 구축하는 것이다. 베이지안 최적화 알고리즘은 두 가지 컴포넌트, 즉 (i) 기본 함수의 확률 모델, 및 (ii) 다양한 데이터 포인트들을 샘플링하기 위한 획득 함수를 포함한다.

도 3a 및 도 3b에 도시된 바와 같이, 확률 모델은 가우시안 프로세스 모델(딥 러닝 아키텍처(130)에 대해 설명됨)일 수 있고, 기본 함수는 특징들(310)(예를 들면, 도 1과 관련하여 설명된 특징들(140))에서의 가우시안 프로세스 함수(305)일 수 있다. 가우시안 프로세스 함수(305)를 사용하여, 모델러(150)는 특징들(310)에서 가우시안 프로세스 함수(305)의 분포를 추정할 수 있으며, 이는 이어서 미래 샘플링을 지시하는 데 사용될 수 있다. 가우시안 프로세스 함수(305)의 최상의 추정치는 평균 μ[x]로 주어지고, 불확실성은 분산 σ²[x]로 주어진다. 가우시안 프로세스 함수(305) 및 그의 불확실성으로부터, 모델러(150)는 획득 함수(315)를 사용하여 어느 포인트를 다음에 샘플링할지를 선택할 수 있다. 샘플링은 더 많은 샘플들을 획득하기 위해 획득 함수(315)에서, 가우시안 프로세스 함수(305)에 관해 알려진 모든 것인, 사후 분포(posterior)를 사용하는 것을 포함한다. 환언하면, 가우시안 프로세스 함수(305)에 관해 알려진 모든 것이 성과를 낼 가능성이 가장 높은 탐색 공간의 영역을 샘플링하는 데 사용되며, 따라서 획득 함수(315)는 다음 샘플을 생성하기 위해 탐색에서의 위치들의 조건부 확률을 최적화할 것이다. 획득 함수(315)는 가우시안 프로세스 함수에 대한 각각의 데이터 포인트 x에서의 평균과 분산을 취하고, (탐색 및 활용을 고려하여) 이 위치에서 다음에 샘플링하는 것이 얼마나 바람직한지를 나타내는 값을 계산한다. 일부 경우에, 획득 함수(315)는 활용과 탐색 트레이드오프 사이의 균형을 맞추기 위한 모델의 튜닝 가능한 하이퍼파라미터이다. 획득 함수(315)의 예들은 신뢰 상한(upper confidence bound), 톰슨 샘플링(Thompson sampling), 예상 개선(expected improvement), 및 개선 확률을 포함한다. 일단 추가적인 샘플들과 가우시안 프로세스 함수(305)를 통한 이들의 평가가 수집되면, 샘플들이 데이터 세트에 추가되고 사후 분포가 이어서 업데이트된다. 이 프로세스는 가우시안 프로세스 함수(305)의 극값(extrema)을 찾거나, 충분히 좋은 결과를 찾거나, 자원들이 소진될 때까지 반복된다. 일단 반복 프로세스가 완료되면, 모델러(150)는 가우시안 프로세스 함수(305)의 결정된 극값에 기초하여 주어진 표현형(115)에 대한 이상적인 유전자 발현 프로필들(145)을 생성한다.

도 3c는 베이지안 최적화에 의한 권장 사항들이 Shapely 값들과 부합한다는 것을 보여준다. 상부(350)는 형질을 최대화하기 위해 다음 데이터 포인트들을 샘플링하기 위한 베이지안 최적화(파선 수직선)에 의한 권장 사항들을 예시한다. 하부(355)는 각각의 유전자의 발현 레벨과 그의 SHAP 값들의 상관관계들을 예시한다 - SHAP가 높을수록, 형질에 더 많이 기여한다. 상관관계들은, 형질 또는 표현형을 최대화하기 위해, 처음 3개 유전자는 하향 조절되어야 하고 마지막 유전자는 상향 조절되어야 함을 보여주며, 이는 상부(350)에 대한 베이지안 최적화에 의해 제공되는 권장 사항들과 부합한다.

제3 접근 방식 (C)은 모델러(150)가 유전자 편집들을 모델링하기 위해 적대적 예제들을 사용하여 딥 러닝 아키텍처(130)에 대해 적대적 공격을 수행하는 것을 포함한다. 적대적 예제들은 신경 네트워크로부터의 출력이 변경되게 하는 신경 네트워크에 대한 입력들이다. 도 4에 도시된 바와 같이, 적대적 공격을 수행하는 것은 트레이닝된 네트워크(400)의 가중치들을 동결하고 그 대신에 입력 세트(적대적 예제들)를 최적화(405)하여 표현형(410)을 최대화하거나 최소화하는 것에 의해 최적화 문제를 반전시키는 것을 포함한다. 최적화는: (i) 파이프라인의 유전자 발견 컴포넌트(즉, 제1 컴포넌트(105))와 부합하는 유전자들과 같은 도 1과 관련하여 설명된 특징들(140)을 식별하는 것, (ii) 모든 다른 유전자 발현들 및/또는 카운트 수(이것은 모든 샘플들에 걸친 평균 유전자 발현 및/또는 카운트 수일 수 있음)를 유지하면서 트레이닝된 네트워크(400)에 대한 새로운 최적화 문제를 표현형(410)을 최대화하는 유전자들과 같은 특징들(140) 각각의 최적의 발현 및/또는 카운트 수로서 정의하는 것, 및 (iii) 특징들(140)에서 관찰되는 최대/최소 발현 및/또는 카운트 수, 생물학적 기반을 둔 제약들(예를 들면, 유전자 (a) 및 유전자 (b)는, 제각기, 단백질에 의한 결합(binding)을 위해 함께 발현되어야 하는 단백질과 리간드를 발현함), 실험 방법 제한들(예를 들면, CRISPR/Cas9는 동시에 표적화할 수 있는 유전자 수에 제약이 있음), 또는 이들의 임의의 조합에 기초하여 유전자 발현에 대한 제약들을 정의하는 것을 포함한다.

일부 경우에, 기울기 기반 최적화 기법은 정의된 새로운 최적화 문제에 대한 솔루션을 찾기 위해 모델러(150)에 의해 활용되며, 이는 네트워크의 가중치들보다는 입력 세트에 대한 기울기를 취한다. 그렇지만, 다른 경우에, 유전자 발현에 대한 제약들을 정의하는 것이 유리할 것임을 고려하면, 차분 진화와 같은 이산 최적화 기법들이 모델러(150)에 의해 활용된다. 차분 진화는 주어진 품질 척도(예를 들면, 표현형(115)의 최대/최소)와 관련하여 후보 솔루션(예를 들면, 특징들(140) 각각의 발현 및/또는 카운트 수)을 개선시키려고 반복적으로 시도하는 것에 의해 문제를 최적화하는 기법이다. 도 5에 도시된 바와 같이, 차분 진화 알고리즘(500)은 후보 솔루션들(개체(individual)들)의 집단(505)을 유지하고 특정 프로세스에 따라 기존의 솔루션들을 결합하여 새로운 솔루션들을 생성하는 것에 의해 설계 공간을 탐색한다. 일부 경우에, 특정 프로세스는 (i) 대상 벡터를 선택하는 것, (ii) 2개의 집단 구성원을 랜덤하게 선택하는 것, (iii) 2개의 집단 구성원에 기초하여 가중 차이 벡터(weighted difference vector)를 작성하는 것, (iv) 집단 구성원에 대한 제3 랜덤하게 선택된 벡터를 추가하는 것, (v) 가중 차이 벡터, 제3 랜덤 벡터 및 대상 벡터 간의 교차(crossover)를 수행하여 새로운 목적 값들(예를 들면, 비용 값)을 갖는 후보들을 포함하는 시행 벡터(trial vector)를 획득하는 것, 및 (vi) 개체의 새로운 목적 값이 개선되어 결과적으로 다음 세대에 대한 집단(510)의 일부를 형성하는 방식으로 최상의 새로운 목적 값을 갖는 후보들이 알고리즘의 다음 반복에서 유지되고, 그렇지 않은 경우 새로운 목적 값은 폐기된다. 주어진 종료 기준이 충족될 때까지 프로세스가 반복된다. 일단 반복 프로세스가 완료되면, 모델러(150)는 적대적 공격으로부터 결정되는 최적의 입력 세트(유전자 발현들에 대응함)에 기초하여 주어진 표현형(115)에 대한 이상적인 유전자 발현 프로필들(145)을 생성한다.

도 6은 DNN의 SHAP 기반 XAI로 식별되는 유전자들 AT2G45660, AT2G45660, AT5G44590, AT3G52480에 대한 적대적 기반 모델링 접근 방식을 사용하여 결정되는 이상적인 유전자 발현 프로필(600)의 예를 도시한다. 이상적인 유전자 발현 프로필(600)은 선형 회귀(LR) 모델의 SHAP 기반 XAI로 식별되는 유전자들 AT2G45660, AT2G45660, AT5G44590, AT3G52480에 대한 적대적 기반 모델링 접근 방식을 사용하여 결정되는 이상적인 유전자 발현 프로필(605)과 비교하여 도시되어 있다. 유전자 편집 권장 사항이 이상적인 유전자 발현 프로필들(600/605) 내의 특정 유전자, 유전자들의 서브그룹, 또는 각각의 유전자를 상향 조절하는 것인지 하향 조절하는 것인지를 이해하기 위해 샘플 1 내지 샘플 3에 걸친 식물 종에 대한 자연 발생 유전자 발현 분포와 이상적인 유전자 발현 프로필들(600/605)의 비교가 또한 나와 있다. 이 경우에, 권장 사항은 이 비교에 기초하여 AT2G45660, AT2G45660 및 AT3G52480은 하향 조절하면서 AT5G44590은 상향 조절하는 것이다.

이해되어야 하는 바와 같이, 다른 모델링 접근 방식들이 고려되고 구현될 수 있다. 예를 들어, 인공 신경 네트워크(ANN)는 유전자 편집 예측을 위해 트레이닝될 수 있고, 유전자 발현 프로필은 트레이닝된 ANN을 사용하여 최적화될 수 있다. 더욱이, 본 명세서에서 설명되는 모델링 접근 방식들은 유전자 편집들을 모델링을 위한 단일 접근 방식을 사용하는 데 중점을 두지만, 이러한 접근 방식들 중 2개 이상이 접근 방식들의 앙상블로서 조합하여 사용될 수 있으며, 결과적인 유전자 발현 프로필들이 이상적인 유전자 발현 프로필을 획득하기 위해 선택되거나 결합될 수 있다. 예를 들어, 모든 모델은 각각의 테스트 인스턴스에 대해 예측(투표)을 하고, 최종 출력 예측은 절반보다 많은 표를 얻은 모델이다. 어떤 예측도 절반보다 많은 표를 얻지 못하는 경우, 앙상블 방법이 주어진 인스턴스에 대해 안정적인 예측을 할 수 없다고 결정될 수 있다. 대안적으로, 테스트 데이터 세트의 모든 인스턴스에 대해 평균 예측들이 계산되는 평균화 기법이 사용될 수 있다. 하나 이상의 모델의 중요도를 증가시키기 위해 이러한 앙상블 기법들 중 어느 하나에서 가중치들이 또한 구현될 수 있다.

III. 유전자 발견 및 편집 시스템

도 7은 유전자 발견 및 편집 시스템(700)의 블록 다이어그램를 도시한다. 유전자 발견 및 편집 시스템(700)은 본 명세서에서 설명되는 시스템들, 컴포넌트들, 및 기법들이 구현되는 하나 이상의 위치에서 하나 이상의 컴퓨팅 디바이스에 컴퓨터 프로그램들로서 구현되는 시스템의 예이다. 유전자 발견 및 편집 시스템(700)은 식물 시스템(705), 유전자 발견 시스템(707), 유전자 편집 모델링 시스템(710), 및 유전자 편집 시스템(712)을 포함한다.

식물 시스템(705)은 식물(715)로 시작하는 것에 의해 식물 생성 수명주기(plant generation lifecycle)를 실행할 수 있다. 식물(715)은 식물 조직(717)을 획득하기 위해 자동화된 시스템, 예를 들면, 로봇 제어 시스템에 의해, 또는 수동으로 절개될 수 있다. 이어서 식물 조직(715)은 라이브러리(720)를 사용하여 변형되어 변형된 조직(modified tissue)(721)을 생성할 수 있다. 라이브러리(720)는 다수의 버전들의 시약들의 모음, 예를 들어, 대사 경로(metabolic pathway)의 많은 상이한 버전들을 제공하기 위해 조합적으로 조립된 DNA 서열들의 모음이다. 라이브러리(720)는, 예를 들어, 플라스미드(plasmid), 선형 DNA 단편, 합성 가이드 RNA(sgRNA), RNA, 단백질 등을 포함할 수 있다. 라이브러리(720)는 식물의 이전 수명 주기 동안 모델로부터 생성되는 출력, 또는 다른 소스, 예를 들어, 전문가들로부터의 수동 설계로부터 생성되는 출력으로부터 라이브러리(720)에 대한 정보를 컴파일하는 라이브러리 설계 시스템(725)으로부터 생성될 수 있다.

변형된 조직 시스템(722)은, 예를 들면, 배양에서, 변형된 조직(721)을 새로운 식물(727)로 생장시키고, 새로운 식물(727)을 재배 시스템(730)에 제공한다. 재배 시스템(730)은 식물(727)이 생장되는 환경 조건들 및 비배 관리를 지시하는 환경 및 비배 관리 시스템(732)에 의해 통제될 수 있다. 재배 시스템(730)은 식물이 생장함에 따라 식물(727)로부터 조직 샘플들 및 측정값들을 획득하고, 샘플들 및 측정값들로부터 데이터를 추출하며, 추출된 데이터를 환경 및 비배 관리 시스템(732), 다중 오믹스 시스템(735), 및/또는 모델링 시스템(737)에 제공한다. 데이터 추출은 조직 샘플링, 분자 추출 및 정제, 및 분자 정량화 또는 식별을 포함할 수 있으며, 다양한 생장 시기들에서 또는 식물(727)의 수명 주기 전체에 걸쳐 지속적으로 식물의 임의의 또는 여러 개별 조직들/기관들에서 발생할 수 있다. 환경 및 비배 관리 시스템(732)은 추출된 데이터(재배 시스템(730)으로부터 수신된 경우), 비배 관리 프로필 데이터, 및 환경 조건 프로필 데이터를 다양한 모델들(740)의 개발을 위해 모델링 시스템(737)에 제공한다. 비배 관리 프로필 데이터는 다양한 생장 시기들에서 또는 식물(727)의 수명 주기 전체에 걸쳐 지속적으로 식물(727)의 생장의 관리의 임의의 조정 가능한 측면, 예를 들면, 비료 또는 물과 같은 투입물들, 파종 시기, 시비 시기, 수확 시기 등을 포함할 수 있다. 데이터 환경 조건들 프로필 데이터는 식물(727)의 다양한 생장 시기들 또는 식물(727)의 수명 주기 전체에 걸쳐 식물(727)이 지속적으로 노출되는 위치 특정 환경 조건들, 예를 들면, 온도, 강수량, 토양 특성들 등을 포함할 수 있다. 다중 오믹스 시스템(735)는 샘플들 및 측정값들로부터 추출된 데이터를 추적하고, 추출된 데이터로부터 작은 식물의 다중 오믹스 프로필들(예를 들면, 유전자 발현 프로필들)을 생성하며, 다양한 모델들(740)의 개발을 위해 다중 오믹스 프로필들을 모델링 시스템(737)에 제공한다.

모델링 시스템(737)은 유전자 발견 및 편집 시스템(700)이 현재 식물(727)의 생장과 원하는 표현형들을 갖는 새로운 식물들의 생성을 안내하기 위해 나중에 사용할 수 있는 다양한 모델들(예를 들어, 머신 러닝 모델들)의 개발(예를 들면, 설계, 트레이닝, 검증, 및 배포)을 위해 수신된 데이터(예를 들면, 식물 추출 데이터, 다중 오믹스 프로필, 비배 관리 프로필, 환경 조건들 프로필 등)를 사용한다. 예를 들어, 모델링 시스템(737)은 트레이닝되거나 업데이트된 머신 러닝 모델을 (i) 새로운 식물들의 변형을 안내하기 위해 라이브러리 설계 시스템(725)에, (ii) 식물(727)의 생장 및 관리를 안내하기 위해 환경 및 비배 관리 시스템(732)에, (iii) 표현형 예측들을 생성하고 유전자 발견을 용이하게 하기 위해 유전자 발견 시스템(707)에, 그리고 (iv) 유전자 편집들을 모델링하고, 이상적인 유전자 발현 프로필들을 생성하며, 유전자 편집들의 권장 사항을 용이하게 하기 위해 유전자 편집 모델링 시스템(710)에 제공할 수 있다.

유전자 발견 시스템(707)은 하나 이상의 식물(예를 들면, 식물 시스템(705)에서 생장되고 있는 식물(727))에 대한 입력 데이터(예를 들면, 식물 추출 데이터, 다중 오믹스 시스템(735)으로부터의 유전자 발현 프로필들과 같은 다중 오믹스 프로필들, 비배 관리 시스템(732)으로부터의 비배 관리 프로필들, 환경 조건들 프로필들)를 획득하고 이 데이터를 하나 이상의 모델(750)에 입력하기 위한 발견 제어기(745)를 포함한다. 입력 데이터는 환경 및 비배 관리 시스템(732), 재배 시스템(730), 다중 오믹스 시스템(732), 및/또는 모델링 시스템(737)으로부터 획득될 수 있다. 하나 이상의 모델(750)(예를 들면, 도 1과 관련하여 설명된 딥 러닝 아키텍처(130))은 입력 데이터의 특징들(예를 들면, 다중 오믹스 프로필들 내의 유전자 발현 프로필들)과 표현형 사이의 관계들 또는 상관관계들을 학습하는 것에 의해 출력 데이터로서 표현형(752)을 예측하는 작업을 위해 구성된다. 하나 이상의 모델(750)은 모델링 시스템(737)(다양한 모델들(740))으로부터 획득될 수 있다. 유전자 발견 시스템(707)은 입력 데이터 세트(예를 들면, 유전자 발현 프로필 세트)에서의 모든 예측들에 대한 각각의 특징의 중요도를 획득하기 위해 설명 가능한 기법들을 하나 이상의 모델(750)에 적용하기 위한 XAI 모듈(755)을 더 포함한다. 일부 경우에, 유전자 발현 프로필들을 입력으로 사용하여 표현형(752)을 예측하는 하나 이상의 모델(750)은 하나 이상의 모델(750) 출력 또는 예측에 가장 큰 기여 또는 영향을 미치는 특징들(예를 들면, 하나 이상의 유전자)을 식별하기 위해 XAI 모듈(755)을 통해 검사된다. XAI 모듈(755)의 주요 목표는 어느 특징들, 예컨대, 유전자(들)이 표현형의 결정에 중요한 역할을 하는지를 식별해 주는 중요도 척도(예를 들면, Shapley 값)를 정의하는 것이다. XAI 모듈(755)은 그 특정 식물 종 및 표현형에 대한 분자 조절 프로세스에 관여하는 후보 유전자일 수 있고 유전자 편집들을 모델링하기 위해 유전자 편집 모델링 시스템(710)에 의해 사용되는 특징 세트(757)를 출력한다.

유전자 편집 모델링 시스템(710)은 표현형(752) 및 특징 세트(757)를 획득하고, 표현형(752) 및 특징(들) 세트(757)를 하나 이상의 모델(762)에 입력하기 위한 모델링 제어기(760)를 포함한다. 하나 이상의 모델(762)은 모델링 시스템(737)(다양한 모델들(740))으로부터 획득될 수 있다. 하나 이상의 모델(762)(예를 들면, 도 1과 관련하여 설명된 모델러(150))은 유전자 편집들을 모델링하고 이상적인 유전자 발현 프로필들(765)을 생성하기 위해 하나 이상의 다양한 접근 방식 (A) 내지 (N)을 사용한다. 이상적인 유전자 발현 프로필들(765)은 표현형(752)을 최대화하거나, 최소화하거나, 다른 방식으로 조절하기 위한 특징 세트(757)의 모든 유전자들에 대한 유전자 발현의 권장 사항이다. 유전자 편집 모델링 시스템(710)은 이상적인 유전자 발현 프로필들(765)을 식물 종에 대한 자연 발생 유전자 발현 분포(예를 들면, 다중 오믹스 프로필들 내의 유전자 발현들)와 비교하여 유전자 편집 시스템(712)에 의해 사용될 수 있는 유전자 편집 권장 사항(775)을 결정하기 위한 권장 사항 모듈(770)을 더 포함한다. 권장 사항(775)은 이상적인 유전자 발현 프로필들(765) 내의 특정 유전자, 유전자들의 서브그룹, 또는 각각의 유전자를 상향 조절하거나 하향 조절하기 위한 것일 수 있다. 일부 경우에, 권장 사항 모듈(770)은 이상적인 유전자 발현 프로필들(765)에 기초하여 유전자들의 발현을 조절할 편집들을 어디에서 수행할지를 결정하기 위해 하나 이상의 모델(772)을 사용한다. 이들은, 잠재적으로 해당 영역들에 대한 조합적 편집들을 어떻게 수행할지에 대한 전략들이 있거나 특정 편집들이 결정된 정확한 위치들이 있는, 다수의 염기 쌍들의 영역들일 수 있다. 하나 이상의 모델(772)은 유전적으로 다양한 식물 집단으로부터 수집되는 표적 유전자의 게놈 상황으로부터 표적 유전자의 발현 레벨을 예측하는 신경 네트워크 또는 비선형 모델일 수 있다. 하나 이상의 모델(772)은 표적 유전자의 상황이 주어지면 대응하는 발현 값들과 조합하여 다음과 같은 집단 데이터: 게놈 서열, SNP, 메틸롬(methylome), 크로마틴 접근성 등 중 임의의 것에 대해 트레이닝될 수 있다. 게놈 편집들에 대한 권장 사항들은 하나 이상의 모델(772)의 입력 특징 제거 분석(input feature ablation analysis)과 함께 특징 중요도의 조사 후에 표적 유전자의 발현 레벨로부터 추출될 수 있다.

유전자 편집 시스템(712)은 권장 사항(775)에 따라 주어진 식물 종(예를 들면, 식물(727))의 게놈에 대한 유전자 편집들 또는 교란들을 수행한다. 유전자 편집 시스템들의 예들은 CRISPR/Cas9, CRISPR/Cpf1, CRISPR/Cas12, CRISPR 염기 편집, CRISPR 억제, 제한 효소, 아연 핑거 뉴클레아제, TALEN(Transcription activator-like effector nucleases) 등을 포함한다. 예를 들어, 유전자 편집 시스템(712)은 유전자들의 발현을 변형(상향 조절 또는 하향 조절)시키기 위해 하나 이상의 표적 유전자의 유전자 조절 게놈 영역들(프로모터(promoter), 5'UTR, 3'UTR, 종결자(terminator))에서 하나 이상의 조합 편집(combinatorial edit)("배싱(bashing)")을 수행할 수 있다. 추가적으로 또는 대안적으로, 유전자 편집 시스템(712)은 발현에 대한 그 효과(상향 조절 또는 하향 조절)를 조절하기 위해 하나 이상의 표적 유전자의 전사 인자의 결합 사이트(binding site)에 대해 하나 이상의 특정 조합 편집을 수행할 수 있다. 추가적으로 또는 대안적으로, 유전자 편집 시스템(712)은 유전자 조작을 통해 하나 이상의 표적 유전자의 발현(상향 조절 또는 하향 조절)에 영향을 미칠 수 있는 게놈에 대해 임의의 다른 영역의 하나 이상의 게놈 변형을 수행할 수 있다. 추가적으로 또는 대안적으로, 유전자 편집 시스템(712)은, CRISPRi(표적 억제), CRISPRa(표적 활성화), RNAi 등과 같은, 게놈 변형 없이 하나 이상의 표적 유전자의 발현(상향조절 또는 하향조절)을 조절할 수 있다. 시스템(710)에 의해 결정되는 편집들이 집단에서 이미 접근 가능한 경우 이 시스템은 또한 교잡(cross)을 만들 수 있다. 이어서 주어진 식물 종의 변형된 게놈은, 예를 들면, 배양에서, 변형된 게놈으로부터의 변형된 조직을 새로운 식물로 생장시키기 위해 라이브러리(720) 및 변형된 조직 시스템(722)에 의한 사용을 위해 라이브러리 설계 시스템(725)으로 전송될 수 있다.

IV. 유전자 발견 및 편집 기법들

도 8은 유전자 발견 및 편집을 위한 처리의 예를 예시하는 단순화된 플로차트(800)이다. 도 8에 묘사된 처리는 각자의 시스템들, 하드웨어 또는 이들의 조합들의 하나 이상의 처리 유닛(예를 들면, 프로세서, 코어)에 의해 실행되는 소프트웨어(예를 들면, 코드, 명령어들, 프로그램)로 구현될 수 있다. 소프트웨어는 비일시적 저장 매체(예를 들면, 메모리 디바이스)에 저장될 수 있다. 도 8에 제시되고 아래에 설명되는 방법은 예시적이고 비제한적인 것으로 의도된다. 도 8은 특정 시퀀스 또는 순서로 발생하는 다양한 처리 단계들을 묘사하지만, 이것은 제한하는 것으로 의도되지 않는다. 특정 대안적인 실시예들에서, 단계들은 어떤 상이한 순서로 수행될 수 있거나, 일부 단계들이 또한 병렬로 수행될 수 있다. 도 1 및 도 7에 묘사된 실시예들과 같은, 일부 실시예들에서, 도 8에 묘사된 처리는 도 1 및 도 7과 관련하여 설명된 머신 러닝 파이프라인(100) 및/또는 유전자 발견 및 편집 시스템(700)의 컴포넌트들에 의해 수행될 수 있다 .

프로세스(800)는 식물의 조직 샘플(들)에서 측정되는 유전자 세트에 대해 유전자 발현 프로필들의 트레이닝 세트들이 획득되는 블록(805)에서 시작된다. 블록(810)에서, 유전자 발현 프로필들의 트레이닝 세트들이 유전자 발현 프로필들의 특징들과 표현형 사이의 관계들 또는 상관관계들을 학습하는 비선형 알고리즘에 의한 출력 데이터로서 표현형을 예측하는 작업을 위해 구축된 예측 모델에 반복하여 입력된다. 블록(815)에서, 예측 모델이 손실 또는 오차 함수를 최소화하는 것에 의해 유전자 발현 프로필들의 트레이닝 세트들에 대해 트레이닝된다. 일부 실시예들에서, 예측 모델은 피드포워드 신경 네트워크과 같은 심층 신경 네트워크이다. 다른 실시예들에서, 예측 모델은 가우시안 프로세스 모델과 같은 다른 유형의 비선형 모델이다. 예측 모델에 대한 트레이닝 프로세스의 각각의 반복은, 모델 파라미터 세트를 사용하는 손실 또는 오차 함수의 값(예를 들면, 수정된 교차 엔트로피 손실)이 이전 반복에서의 상이한 모델 파라미터 세트를 사용하는 손실 또는 오차 함수의 값보다 작도록, 트레이닝 및/또는 튜닝 세트로부터의 데이터 세트들을 입력하고 (정의된 하이퍼파라미터 세트로 구성된) 모델 파라미터 세트를 학습하는 것을 포함할 수 있다. 손실 또는 오차 함수는 레이블들/정답과 유전자 발현 프로필들의 트레이닝 세트들에 대한 추론된 표현형과 같은 추론된 데이터 사이의 차이를 측정하도록 구성될 수 있다.

블록(820)에서, 트레이닝에 응답하여, 비선형 알고리즘은 식물의 표현형을 예측하는 데 사용되는 유전자 발현 프로필들의 트레이닝 세트들 내의 관계들 및 상관관계들을 학습한다. 추가적으로, 트레이닝에 응답하여, 예측 모델에 대한 유전자 발현 프로필들의 특징들과 표현형 사이의 관계들 또는 상관관계들과 연관된 학습된 모델 파라미터 세트가 획득된다. 블록(825)에서, 트레이닝된 예측 모델은 학습된 모델 파라미터 세트를 갖는 예측 모델로서 배포된다.

블록(830)에서, 식물의 조직에서 측정되는 유전자 세트에 대한 유전자 발현 프로필 세트가 획득된다. 블록(835)에서, 유전자 발현 프로필 세트는 출력 데이터로서 표현형을 예측하는 작업을 위해 구성된 예측 모델에 입력된다. 블록(840)에서, 예측 모델은 유전자 발현 프로필 세트의 특징들과 표현형 사이의 관계들 또는 상관관계들에 기초하여 식물에 대한 표현형의 예측을 생성하는 데 사용된다. 블록(845)에서, 표현형을 예측하기 위해 예측 모델에 의해 내려진 결정은 설명 가능한 인공 지능 시스템에 의해 분석된다. 이 분석은: (i) 표현형의 예측에서 사용되는 특징들에 대한 특징 중요도 점수 세트를 생성하는 것, 및 (ii) 특징들 각각과 연관된 특징 중요도 점수에 기초하여 특징들에 순위를 부여하거나 다른 방식으로 정렬하는 것을 포함한다. 설명 가능한 인공 지능 시스템은 예측 모델에 의해 내려진 결정을 분석하기 위해 SHAP, 적분 기울기, LIME, 어텐션 기반 신경 네트워크 모델, 또는 LRP를 사용할 수 있다. 블록(850)에서, 순위가 부여된 특징들에 기초하여, 표현형에 대한 후보 유전자 표적 세트가 예측에 가장 큰 기여 또는 영향을 미치는 것으로 식별된다. 예를 들어, 예측에 대한 가장 큰 기여 또는 영향을 미치는 상위 1개, 5개, 10개, 15개 등의 유전자가 순위 부여된 특징들에 기초하여 후보 유전자 표적들로서 식별된다.

블록(855)에서, 식별된 후보 유전자 표적 세트에 기초하여, 편집될 때 예상된 표현형 변화를 실현하기 위해 유전자 발현 프로필에 필요한 변화를 제공하는 게놈 영역 세트가 식별된다. 게놈 영역 세트를 식별하는 단계는 후보 유전자 표적 세트의 유전자 편집들을 모델링하는 작업을 위해 구축된 유전자 편집 모델에 후보 유전자 표적 세트를 입력하는 단계, 및 모델링된 유전자 편집들에 기초하여, 후보 유전자 표적 세트 내의 각각의 유전자를 게놈 편집함으로써 표현형을 최대화하거나, 최소화하거나 다른 방식으로 조절하기 위한 최적의 유전자 표적 세트를 식별하는 단계를 포함한다. 블록(860)에서, 유전자 편집 모델이 후보 유전자 표적 세트 내의 각각의 유전자의 게놈 편집을 위한 최적의 유전자 표적 세트에 기초하여 표현형에 대한 이상적인 유전자 발현 프로필을 생성하는 데 사용된다. 설명 가능한 인공 지능 시스템이 SHAP를 사용하는 경우에, 유전자 편집 모델은 Shapley 값으로부터 직접적으로 조절 방향성을 확인하는 것에 의해 유전자 편집들을 모델링할 수 있다. 예측 모델이 가우시안 프로세스 모델인 경우에, 유전자 편집 모델은 2개의 컴포넌트: (i) 기본 가우시안 프로세스 함수의 가우시안 프로세스 모델, 및 (ii) 다양한 데이터 포인트들을 샘플링하기 위한 획득 함수를 포함하는 베이지안 최적화 알고리즘을 사용하여 유전자 편집들을 모델링할 수 있다. 예측 모델이 심층 신경 네트워크인 경우에, 유전자 편집 모델은 심층 신경 네트워크에 대한 적대적 공격을 수행하는 것 - 적대적 공격은 심층 신경 네트워크의 가중치들을 동결하는 것을 포함함 -, 및 표현형을 최대화하거나 최소화하거나 다른 방식으로 조절하기 위해 제약된 입력들의 공간에 걸쳐 최적화하는 것에 의해 유전자 편집들을 모델링할 수 있다.

블록(865)에서, 이상적인 유전자 발현 프로필이 식물에 대한 자연 발생 유전자 발현 분포와 비교된다. 블록(870)에서, 이상적인 유전자 발현 프로필들 내의 특정 유전자, 유전자들의 서브그룹, 또는 각각의 유전자를 상향 조절하거나 하향 조절하기 위한 유전자 편집 권장 사항은 기존의 샘플들에 걸쳐 권장된 발현 프로필과 자연 발생 발현 프로필들 사이의 비교에 기초하여 결정된다. 블록(875)에서, 유전자 편집 시스템이 유전자 편집 권장 사항에 따라 식물의 게놈에 대한 유전자 편집 또는 교란을 행하는 데 사용된다.

도 9는 주어진 표현형에 대한 중요한 유전자 세트들 또는 클러스터들을 식별하기 위한 처리의 예를 예시하는 단순화된 플로차트(900)이다. 이 예시적인 프로세스에서, 주어진 표현형의 예측에 중요한 유전자 클러스터들 또는 세트들은 심층 신경 네트워크의 두 번째 계층에서 SHAP/XAI 값들의 해석을 통해 식별된다. 그렇지만, 본 명세서에서 설명되는 모든 다른 XAI 및 모델링 기법들(예를 들면, LIME, 적분 기울기, 베이지안 최적화, 적대적 공격 등)이 단일 유전자 정보에 직접적으로 대신에 이 클러스터링 기법을 사용하여 유사한 방식으로 적용될 수 있음을 이해해야 한다. 도 9에 묘사된 처리는 각자의 시스템들, 하드웨어 또는 이들의 조합들의 하나 이상의 처리 유닛(예를 들면, 프로세서, 코어)에 의해 실행되는 소프트웨어(예를 들면, 코드, 명령어들, 프로그램)로 구현될 수 있다. 소프트웨어는 비일시적 저장 매체(예를 들면, 메모리 디바이스)에 저장될 수 있다. 도 9에 제시되고 아래에 설명되는 방법은 예시적이고 비제한적인 것으로 의도된다. 도 9는 특정 시퀀스 또는 순서로 발생하는 다양한 처리 단계들을 묘사하지만, 이것은 제한하는 것으로 의도되지 않는다. 특정 대안적인 실시예들에서, 단계들은 어떤 상이한 순서로 수행될 수 있거나, 일부 단계들이 또한 병렬로 수행될 수 있다. 도 1 및 도 7에 묘사된 실시예들과 같은, 일부 실시예들에서, 도 9에 묘사된 처리는 도 1 및 도 7과 관련하여 설명된 머신 러닝 파이프라인(100) 및/또는 유전자 발견 및 편집 시스템(700)의 컴포넌트들에 의해 수행될 수 있다 .

프로세스(900)는 식물의 조직 샘플(들)에서 측정되는 유전자 세트에 대해 유전자 발현 프로필들의 트레이닝 세트들이 획득되는 블록(905)에서 시작된다. 블록(910)에서, 유전자 발현 프로필들의 트레이닝 세트들이 유전자 발현 프로필들의 특징들과 표현형 사이의 관계들 또는 상관관계들을 학습하는 비선형 알고리즘에 의한 출력 데이터로서 표현형을 예측하는 작업을 위해 구축된 심층 신경 네트워크 모델(예를 들면, 피드 포워드 신경 네트워크 모델)에 반복하여 입력된다. 블록(915)에서, 심층 신경 네트워크 모델이 손실 또는 오차 함수를 최소화하는 것에 의해 유전자 발현 프로필들의 트레이닝 세트들에 대해 트레이닝된다. 심층 신경 네트워크 모델에 대한 트레이닝 프로세스의 각각의 반복은, 모델 파라미터 세트를 사용하는 손실 또는 오차 함수의 값(예를 들면, 수정된 교차 엔트로피 손실)이 이전 반복에서의 상이한 모델 파라미터 세트를 사용하는 손실 또는 오차 함수의 값보다 작도록, 트레이닝 및/또는 튜닝 세트로부터의 데이터 세트들을 입력하고 (정의된 하이퍼파라미터 세트로 구성된) 모델 파라미터 세트를 학습하는 것을 포함할 수 있다. 손실 또는 오차 함수는 레이블들/정답과 유전자 발현 프로필들의 트레이닝 세트들에 대한 추론된 표현형과 같은 추론된 데이터 사이의 차이를 측정하도록 구성될 수 있다.

블록(920)에서, 트레이닝에 응답하여, 비선형 알고리즘은 식물의 표현형을 예측하는 데 사용되는 유전자 발현 프로필들의 트레이닝 세트들 내의 관계들 및 상관관계들을 학습한다. 추가적으로, 트레이닝에 응답하여, 심층 신경 네트워크 모델에 대한 유전자 발현 프로필들의 특징들과 표현형 사이의 관계들 또는 상관관계들과 연관된 학습된 모델 파라미터 세트가 획득된다.

블록(925)에서, 트레이닝된 심층 신경 네트워크 모델이 주어진 표현형에 대한 중요한 유전자 클러스터들 또는 세트들을 식별하기 위해 수정된다. 일부 경우에, N개의 계층 및 입력 차원 D(여기서 D는 발현 정보가 획득된 유전자 수임)를 갖는 트레이닝된 심층 신경 네트워크 모델이 주어지면, 심층 신경 네트워크 모델에서의 첫 번째 은닉 계층은 격리될 수 있으며 첫 번째 은닉 계층의 각각의 노드와 연관된 가중치 또는 모델 파라미터 세트는 심층 신경 네트워크 모델로부터 추출될 수 있다. 첫 번째 은닉 계층에서의 각각의 노드에 대해, 각각의 가중치 벡터의 상위 K개의 컴포넌트(절댓값)를 취하여 원래의 입력 계층에서의 노드들과 클러스터 관계가 정의되며, 여기서 K는 클러스터의 이상적인 크기로 정의된다. (활성화 단계 이전에) 첫 번째 은닉 계층에서의 각각의 노드는 입력들의 선형 결합에 의해 표현될 수 있으므로, 이 클러스터링 메커니즘은 직관적으로 첫 번째 은닉 계층에서의 각각의 노드로부터 첫 번째 은닉 계층에서의 그 노드에 가장 강한 영향을 미치는 유전자 세트로의 맵을 만든다. 그 특정 노드에 대응하는 가중치들의 분포에 기초하여 은닉 계층의 모든 노드에 대해 고유한 k를 유연하게 정의하는 방법들, 또는 최상위 클러스터에서의 유전자들을 취하는, 가중치들 자체에 대한 별도의 클러스터링 단계를 포함한, 상위 k 이외의 대안적인 클러스터링이 이 매핑을 생성하는 데 사용될 수 있다.

첫 번째 은닉 계층에서의 각각의 노드와 입력 공간에서의 그의 대응하는 유전자들 사이에 매핑이 생성되었으므로, 심층 신경 네트워크 모드의 입력 계층이 제거될 수 있고, SHAP 또는 적분 기울기와 같은 XAI가 신경 네트워크에 대한 특징 중요도 점수를 획득하기 위해 다운스트림 처리에서 사용될 수 있다. 이제 심층 신경 네트워크의 첫 번째 은닉 계층이 입력 계층이 되므로, 첫 번째 은닉 계층에서의 모든 단일 노드에 대한 특징 중요도 점수 세트가 획득된다. 이러한 유전자 클러스터들 또는 세트들에 대한 특징 중요도 점수 세트를 얻기 위해, 첫 번째 은닉 계층에서의 모든 단일 노드에 대한 획득된 특징 중요도 점수 세트가 원래 유전자들에 대한 첫 번째 은닉 계층에서의 노드들의 매핑과 조인될 수 있다.

블록(930)에서, 수정된 심층 신경 네트워크 모델은 학습된 모델 파라미터 세트 및 원래 유전자들에 대한 첫 번째 은닉 계층에서의 노드들의 매핑을 갖는 심층 신경 네트워크 모델로서 배포된다. 블록(935)에서 수정된 심층 신경 네트워크 모델은, 도 8의 블록들(830 내지 870)과 관련하여 설명된 바와 같이, 유전자 발견 및 편집을 위해 사용될 수 있다.

V. 예들

다양한 실시예들에서 구현되는 시스템들 및 방법들은 다음 예들을 참조하는 것에 의해 더 잘 이해될 수 있다.

예 1: 애기 장대( Arabidopsis thaliana )의 자연 유전적 변형체 계통(natural genetic variant line)이 생식 단계(개화 시기)에 도달하는 데 걸리는 시간을 모델링하기 위해 순차 신경 네트워크가 구축되었다. 일 예에서, 이 모델은 잎에서 수집된 공개적으로 이용 가능한 전사체(transcriptome)에 대해 트레이닝되었다(Kawakatsu et al., 2016, Cell, 166(2):492-505). 728개의 자연 유전적 변형체에 대한 전사체 데이터가 이용 가능했으며, 그 중 620개는 개화 시기 정보(일 단위의 개화기의 시작)를 가지고 있었다. 전사체 데이터는 RNA-seq에 의해 실험적으로 생성되었고, 분위수 정규화되었으며, 후속하여 원래의 24,175개의 전사체 카운트들(특징들)을 단위 분산으로 표준화하는 것에 의해 전처리되었다. 원래 데이터의 20%를 포함한 홀드아웃 데이터 세트가 모델 트레이닝 이전에 생성되었다. 데이터의 나머지 80%는 모델들을 트레이닝시키는 데 사용되었다. 이들은 (1) 릿지 회귀 모델 및 (2) AutoKeras 구현에서의 알고리즘에 의해 튜닝되는 하이퍼파라미터들을 갖는 다수의 순차 신경 네트워크들을 포함하였다(Jin et al., 2019, In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 1946-1956)). 최고 성능의 신경 네트워크 모델 아키텍처 - 20% 검증 데이터 세트에 대해 최소 평균 제곱 오차(lowest mean-squared-error)로서 측정됨 - 는 후속하여 전체 데이터 세트에 대해 교차 검증되었다. 동일한 홀드아웃 데이터 세트에 대해 모델의 성능을 비교하기 위해 Pearson 상관관계와 Spearman 순위 상관 계수들이 평균화되었다. SHapley Additive exPlanation을 적용한 후에 획득되는 특징 중요도 점수들이 데이터의 상이한 분할들에 대해 트레이닝되는 모델들에 걸쳐 평균화되었고, 후속하여 순위 정렬되었다. 모델들이 영향력 있는 유전자 세트들을 식별하는 정도는 관심 대상 표현형에 관여하는 것으로 과학 문헌에 알려진 유전자 목록과 대조하여 벤치마킹되었다. 모델들로부터의 출력인 영향력 있는 상위 유전자들의, 제안된 변화의 방향성을 포함한, 발현 레벨 권장 사항은 표현형 값과의 상관 분석에 의해 추가로 확인되었다. 유전자 발현의 변화의 방향성에 영향을 미치는 게놈 편집은, ChIP-seq 및 후생유전체 표지(epigenomic mark)와 같은 크로마틴 접근성 정보를 추가로 통합하여, 표적 유전자의 서열을 둘러싼 조절 서열의 모델링에 기초하여 제안되었다. 유전자 편집을 위한 제안된 조절 영역은 애기 장대에서의 조합 CRISPR/Cas9 편집에 의한 유전자 변형을 목표로 하였다. 이 프로세스는 애기 장대 집단에서의 표적 유전자의 조절 영역에 대규모 유전적 변이를 생성한다. 이들 집단으로부터 분자 및 표현형 데이터를 추가로 획득하면 현재 모델 제품군의 성능을 반복적으로 개선시킬 것으로 예상된다.

VI. 추가적인 고려 사항

구체적인 세부 사항들은 실시예들의 완전한 이해를 제공하기 위해 위의 설명에 주어져 있다. 그렇지만, 이러한 구체적인 세부 사항들이 없어도 실시예들이 실시될 수 있다는 것이 이해된다. 예를 들어, 실시예들을 불필요한 세부 사항으로 모호하게 하지 않기 위해 회로가 블록 다이어그램으로 도시될 수 있다. 다른 경우에, 잘 알려진 회로들, 프로세스들, 알고리즘들, 구조들 및 기법들은 실시예들을 모호하게 하는 것을 피하기 위해 불필요한 세부 사항 없이 도시될 수 있다.

위에서 설명된 기법들, 블록들, 단계들 및 수단들의 구현은 다양한 방식들로 수행될 수 있다. 예를 들어, 이러한 기법들, 블록들, 단계들 및 수단들은 하드웨어, 소프트웨어 또는 이들의 조합으로 구현될 수 있다. 하드웨어 구현의 경우, 처리 유닛은 하나 이상의 ASIC(application specific integrated circuit), DSP(digital signal processor), DSPD(digital signal processing device), PLD(programmable logic device), FPGA(field programmable gate array), 프로세서, 제어기, 마이크로컨트롤러, 마이크로프로세서, 위에서 설명된 기능들을 수행하도록 설계된 다른 전자 유닛, 및/또는 이들의 조합 내에서 구현될 수 있다.

또한, 실시예들이 플로차트, 흐름 다이어그램, 데이터 흐름 다이어그램, 구조 다이어그램, 또는 블록 다이어그램으로서 묘사된 프로세스로서 설명될 수 있음에 유의한다. 플로차트가 동작들을 순차적인 프로세스로서 설명할 수 있지만, 동작들 중 다수가 병렬로 또는 동시에 수행될 수 있다. 추가적으로, 동작들의 순서가 재배열될 수 있다. 프로세스는 그의 동작들이 완료될 때 종료되지만, 도면에 포함되지 않은 추가적인 단계들을 가질 수 있다. 프로세스는 메소드, 함수, 프로시저, 서브루틴, 서브프로그램 등에 대응할 수 있다. 프로세스가 함수에 대응할 때, 그의 종료는 호출 함수(calling function) 또는 메인 함수(main function)로의 함수의 리턴(return)에 대응할 수 있다.

게다가, 실시예들은 하드웨어, 소프트웨어, 스크립팅 언어, 펌웨어, 미들웨어, 마이크로코드, 하드웨어 기술 언어, 및/또는 이들의 임의의 조합에 의해 구현될 수 있다. 소프트웨어, 펌웨어, 미들웨어, 스크립팅 언어 및/또는 마이크로코드로 구현될 때, 필요한 작업들을 수행하기 위한 프로그램 코드 또는 코드 세그먼트는 저장 매체와 같은 머신 판독 가능 매체에 저장될 수 있다. 코드 세그먼트 또는 머신 실행 가능 명령어는 프로시저, 함수, 서브프로그램, 프로그램, 루틴, 서브루틴, 모듈, 소프트웨어 패키지, 스크립트, 클래스 또는 명령어, 데이터 구조 및/또는 프로그램 명령문의 임의의 조합을 나타낼 수 있다. 코드 세그먼트는 정보, 데이터, 인수, 파라미터 및/또는 메모리 내용을 전달 및/또는 수신하는 것에 의해 다른 코드 세그먼트 또는 하드웨어 회로에 결합될 수 있다. 정보, 인수, 파라미터, 데이터 등은 메모리 공유, 메시지 전달, 티켓 전달, 네트워크 전송 등을 포함한 임의의 적합한 수단을 통해 전달, 포워딩 또는 전송될 수 있다.

펌웨어 및/또는 소프트웨어 구현의 경우, 방법론은 본 명세서에 설명된 기능을 수행하는 모듈(예를 들면, 프로시저, 함수 등)로 구현될 수 있다. 명령어들을 유형적으로 구체화하는 임의의 머신 판독 가능 매체가 본 명세서에 설명된 방법론을 구현하는 데 사용될 수 있다. 예를 들어, 소프트웨어 코드는 메모리에 저장될 수 있다. 메모리는 프로세서 내부에 또는 프로세서 외부에 구현될 수 있다. 본 명세서에서 사용되는 바와 같이 "메모리"라는 용어는 임의의 유형의 장기, 단기, 휘발성, 비휘발성 또는 다른 저장 매체를 지칭하며, 임의의 특정 유형의 메모리 또는 임의의 특정 수의 메모리들, 또는 메모리가 저장되는 임의의 특정 유형의 매체로 제한되지 않는다.

더욱이, 본 명세서에 개시된 바와 같이, "저장 매체", "스토리지" 또는 "메모리"라는 용어는, ROM(read only memory), RAM(random access memory), 자기 RAM, 코어 메모리, 자기 디스크 저장 매체, 광학 저장 매체, 플래시 메모리 디바이스 및/또는 정보를 저장하기 위한 다른 머신 판독 가능 매체를 포함한, 데이터를 저장하기 위한 하나 이상의 메모리를 나타낼 수 있다. "머신 판독 가능 매체"라는 용어는 휴대용 또는 고정식 저장 디바이스, 광학 저장 디바이스, 무선 채널 및/또는 명령어(들) 및/또는 데이터를 포함하거나 운반하는 저장 가능한 다양한 다른 저장 매체를 포함하지만 이에 제한되지 않는다.

본 개시의 원리가 특정 장치들 및 방법들과 관련하여 위에서 설명되었지만, 이러한 설명이 본 개시의 범위에 대한 제한으로서가 아니라 단지 예로서 이루어진 것임을 분명히 이해해야 한다.

Claims

방법으로서,
식물의 조직 샘플에서 측정되는 유전자 세트에 대한 유전자 발현 프로필 세트를 획득하는 단계;
유전자 발현 프로필들의 특징들과 표현형 사이의 관계들 또는 상관관계들을 학습하는 비선형 알고리즘에 의한 출력 데이터로서 상기 표현형을 예측하는 작업을 위해 구축된 예측 모델에 상기 유전자 발현 프로필 세트를 입력하는 단계;
상기 예측 모델을 사용하여, 상기 유전자 발현 프로필 세트의 상기 특징들과 상기 표현형 사이의 상기 관계들 또는 상기 상관관계들에 기초하여 상기 식물에 대한 상기 표현형의 상기 예측을 생성하는 단계;
설명 가능한 인공 지능 시스템에 의해, 상기 표현형을 예측하기 위해 상기 예측 모델에 의해 내려진 결정들을 분석하는 단계 - 상기 분석하는 단계는: (i) 상기 표현형의 상기 예측에서 사용되는 상기 특징들에 대한 특징 중요도 점수 세트를 생성하는 단계, 및 (ii) 상기 특징들 각각과 연관된 상기 특징 중요도 점수에 기초하여 상기 특징들에 순위를 부여하거나 다른 방식으로 정렬하는 단계를 포함함 -;
상기 순위가 부여되거나 다른 방식으로 정렬된 특징들에 기초하여, 상기 표현형에 대한 후보 유전자 표적 세트를 상기 예측에 가장 큰 기여 또는 영향을 미치는 것으로 식별하는 단계; 및
상기 식별된 후보 유전자 표적 세트에 기초하여, 편집될 때 예상된 표현형 변화를 실현하기 위해 유전자 발현 프로필에 필요한 변화를 제공하는 게놈 영역 세트를 식별하는 단계
를 포함하는, 방법.
제1항에 있어서, 상기 설명 가능한 인공 지능 시스템은 상기 예측 모델에 의해 이루어진 상기 결정들을 분석하기 위해 SHApley Additive exPlanation, DeepLIFT, 적분 기울기, LIME(Local Interpretable Model-agnostic Explanation), 어텐션 기반 신경 네트워크 모델 또는 계층별 관련성 전파를 사용하는, 방법.
제1항에 있어서,
상기 게놈 영역 세트를 식별하는 단계는 상기 후보 유전자 표적 세트의 유전자 편집들을 모델링하는 작업을 위해 구축된 유전자 편집 모델에 상기 후보 유전자 표적 세트를 입력하는 단계, 및 상기 모델링된 유전자 편집들에 기초하여, 상기 후보 유전자 표적 세트 내의 하나 이상의 유전자를 게놈 편집함으로써 상기 표현형을 최대화하거나, 최소화하거나 다른 방식으로 조절하기 위한 최적의 유전자 표적 세트를 식별하는 단계를 포함하며;
상기 방법은: 상기 유전자 편집 모델을 사용하여, 상기 후보 유전자 표적 세트 내의 하나 이상의 유전자의 상기 게놈 편집을 위한 상기 최적의 유전자 표적들에 기초하여 상기 표현형에 대한 이상적인 유전자 발현 프로필을 생성하는 단계를 더 포함하는, 방법.
제3항에 있어서,
상기 설명 가능한 인공 지능 시스템은 상기 표현형의 상기 예측에서 사용되는 상기 특징들에 대한 상기 특징 중요도 점수들로서 Shapley 값 세트를 생성하는 SHApley Additive exPlanation을 사용하고;
상기 Shapley 값들은 각각의 특징 중요도는 물론 방향에 대한 추정치들을 나타내며;
상기 유전자 편집 모델은 상기 Shapley 값들로부터 직접적으로 조절 방향성을 확인하는 것에 의해 상기 유전자 편집들을 모델링하는, 방법.
제3항에 있어서,
상기 예측 모델은 가우시안 프로세스 모델이고;
상기 유전자 편집 모델은 2개의 컴포넌트: (i) 기본 가우시안 프로세스 함수의 가우시안 프로세스 모델, 및 (ii) 다양한 데이터 포인트들을 샘플링하기 위한 획득 함수를 포함하는 베이지안 최적화 알고리즘을 사용하여 상기 유전자 편집들을 모델링하는, 방법.
제3항에 있어서,
상기 예측 모델은 심층 신경 네트워크이고;
상기 유전자 편집 모델은 상기 심층 신경 네트워크에 대한 적대적 공격을 수행하는 것 - 상기 적대적 공격은 상기 심층 신경 네트워크의 가중치들을 동결하는 것을 포함함 -, 및 상기 표현형을 최대화하거나 최소화하기 위해 제약된 입력들의 공간에 걸쳐 최적화하는 것에 의해 상기 유전자 편집들을 모델링하는, 방법.
제3항에 있어서,
상기 이상적인 유전자 발현 프로필을 상기 식물에 대한 자연 발생 유전자 발현 분포와 비교하는 단계;
상기 비교에 기초하여 상기 이상적인 유전자 발현 프로필들 내의 특정 유전자, 유전자들의 서브그룹, 또는 각각의 유전자를 상향 조절하거나 하향 조절하기 위한 유전자 편집 권장 사항을 결정하는 단계; 및
유전자 편집 시스템을 사용하여, 상기 유전자 편집 권장 사항에 따라 상기 식물의 게놈에 대한 유전자 편집 또는 교란을 행하는 단계를 더 포함하는, 방법.
하나 이상의 데이터 프로세서로 하여금 동작들을 수행하게 하도록 구성된 명령어들을 포함하는 비일시적 머신 판독 가능 저장 매체에 유형적으로 구체화된 컴퓨터 프로그램 제품으로서, 상기 동작들은:
식물의 조직 샘플에서 측정되는 유전자 세트에 대한 유전자 발현 프로필 세트를 획득하는 동작;
유전자 발현 프로필들의 특징들과 표현형 사이의 관계들 또는 상관관계들을 학습하는 비선형 알고리즘에 의한 출력 데이터로서 상기 표현형을 예측하는 작업을 위해 구축된 예측 모델에 상기 유전자 발현 프로필 세트를 입력하는 동작;
상기 예측 모델을 사용하여, 상기 유전자 발현 프로필 세트의 상기 특징들과 상기 표현형 사이의 상기 관계들 또는 상기 상관관계들에 기초하여 상기 식물에 대한 상기 표현형의 상기 예측을 생성하는 동작;
설명 가능한 인공 지능 시스템에 의해, 상기 표현형을 예측하기 위해 상기 예측 모델에 의해 내려진 결정들을 분석하는 동작 - 상기 분석하는 동작은: (i) 상기 표현형의 상기 예측에서 사용되는 상기 특징들에 대한 특징 중요도 점수 세트를 생성하는 동작, 및 (ii) 상기 특징들 각각과 연관된 상기 특징 중요도 점수에 기초하여 상기 특징들에 순위를 부여하거나 다른 방식으로 정렬하는 동작을 포함함 -;
상기 순위가 부여되거나 다른 방식으로 정렬된 특징들에 기초하여, 상기 표현형에 대한 후보 유전자 표적 세트를 상기 예측에 가장 큰 기여 또는 영향을 미치는 것으로 식별하는 동작; 및
상기 식별된 후보 유전자 표적 세트에 기초하여, 편집될 때 예상된 표현형 변화를 실현하기 위해 유전자 발현 프로필에 필요한 변화를 제공하는 게놈 영역 세트를 식별하는 동작을 포함하는, 컴퓨터 프로그램 제품.
제8항에 있어서, 상기 설명 가능한 인공 지능 시스템은 상기 예측 모델에 의해 이루어진 상기 결정들을 분석하기 위해 SHApley Additive exPlanation, DeepLIFT, 적분 기울기, LIME(Local Interpretable Model-agnostic Explanation), 어텐션 기반 신경 네트워크 모델 또는 계층별 관련성 전파를 사용하는, 컴퓨터 프로그램 제품.
제8항에 있어서,
상기 게놈 영역 세트를 식별하는 동작은 상기 후보 유전자 표적 세트의 유전자 편집들을 모델링하는 작업을 위해 구축된 유전자 편집 모델에 상기 후보 유전자 표적 세트를 입력하는 동작, 및 상기 모델링된 유전자 편집들에 기초하여, 상기 후보 유전자 표적 세트 내의 하나 이상의 유전자를 게놈 편집함으로써 상기 표현형을 최대화하거나, 최소화하거나 다른 방식으로 조절하기 위한 최적의 유전자 표적 세트를 식별하는 동작을 포함하며;
상기 동작들은: 상기 유전자 편집 모델을 사용하여, 상기 후보 유전자 표적 세트 내의 하나 이상의 유전자의 상기 게놈 편집을 위한 상기 최적의 유전자 표적들에 기초하여 상기 표현형에 대한 이상적인 유전자 발현 프로필을 생성하는 동작을 더 포함하는, 컴퓨터 프로그램 제품.
제10항에 있어서,
상기 설명 가능한 인공 지능 시스템은 상기 표현형의 상기 예측에서 사용되는 상기 특징들에 대한 상기 특징 중요도 점수들로서 Shapley 값 세트를 생성하는 SHApley Additive exPlanation을 사용하고;
상기 Shapley 값들은 각각의 특징 중요도는 물론 방향에 대한 추정치들을 나타내며;
상기 유전자 편집 모델은 상기 Shapley 값들로부터 직접적으로 조절 방향성을 확인하는 것에 의해 상기 유전자 편집들을 모델링하는, 컴퓨터 프로그램 제품.
제10항에 있어서,
상기 예측 모델은 가우시안 프로세스 모델이고;
상기 유전자 편집 모델은 2개의 컴포넌트: (i) 기본 가우시안 프로세스 함수의 가우시안 프로세스 모델, 및 (ii) 다양한 데이터 포인트들을 샘플링하기 위한 획득 함수를 포함하는 베이지안 최적화 알고리즘을 사용하여 상기 유전자 편집들을 모델링하는, 컴퓨터 프로그램 제품.
제10항에 있어서,
상기 예측 모델은 심층 신경 네트워크이고;
상기 유전자 편집 모델은 상기 심층 신경 네트워크에 대한 적대적 공격을 수행하는 것 - 상기 적대적 공격은 상기 심층 신경 네트워크의 가중치들을 동결하는 것을 포함함 -, 및 상기 표현형을 최대화하거나 최소화하기 위해 제약된 입력들의 공간에 걸쳐 최적화하는 것에 의해 상기 유전자 편집들을 모델링하는, 컴퓨터 프로그램 제품.
제10항에 있어서, 상기 동작들은:
상기 이상적인 유전자 발현 프로필을 상기 식물에 대한 자연 발생 유전자 발현 분포와 비교하는 동작;
상기 비교에 기초하여 상기 이상적인 유전자 발현 프로필들 내의 특정 유전자, 유전자들의 서브그룹, 또는 각각의 유전자를 상향 조절하거나 하향 조절하기 위한 유전자 편집 권장 사항을 결정하는 동작; 및
유전자 편집 시스템을 사용하여, 상기 유전자 편집 권장 사항에 따라 상기 식물의 게놈에 대한 유전자 편집 또는 교란을 행하는 동작을 더 포함하는, 컴퓨터 프로그램 제품.
시스템으로서,
하나 이상의 데이터 프로세서; 및
상기 하나 이상의 데이터 프로세서 상에서 실행될 때, 상기 하나 이상의 데이터 프로세서로 하여금 동작들을 수행하게 하는 명령어들을 포함하는 비일시적 컴퓨터 판독 가능 저장 매체를 포함하며, 상기 동작들은:
식물의 조직 샘플에서 측정되는 유전자 세트에 대한 유전자 발현 프로필 세트를 획득하는 동작;
유전자 발현 프로필들의 특징들과 표현형 사이의 관계들 또는 상관관계들을 학습하는 비선형 알고리즘에 의한 출력 데이터로서 상기 표현형을 예측하는 작업을 위해 구축된 예측 모델에 상기 유전자 발현 프로필 세트를 입력하는 동작;
상기 예측 모델을 사용하여, 상기 유전자 발현 프로필 세트의 상기 특징들과 상기 표현형 사이의 상기 관계들 또는 상기 상관관계들에 기초하여 상기 식물에 대한 상기 표현형의 상기 예측을 생성하는 동작;
설명 가능한 인공 지능 시스템에 의해, 상기 표현형을 예측하기 위해 상기 예측 모델에 의해 내려진 결정들을 분석하는 동작 - 상기 분석하는 동작은: (i) 상기 표현형의 상기 예측에서 사용되는 상기 특징들에 대한 특징 중요도 점수 세트를 생성하는 동작, 및 (ii) 상기 특징들 각각과 연관된 상기 특징 중요도 점수에 기초하여 상기 특징들에 순위를 부여하거나 다른 방식으로 정렬하는 동작을 포함함 -;
상기 순위가 부여되거나 다른 방식으로 정렬된 특징들에 기초하여, 상기 표현형에 대한 후보 유전자 표적 세트를 상기 예측에 가장 큰 기여 또는 영향을 미치는 것으로 식별하는 동작; 및
상기 식별된 후보 유전자 표적 세트에 기초하여, 편집될 때 예상된 표현형 변화를 실현하기 위해 유전자 발현 프로필에 필요한 변화를 제공하는 게놈 영역 세트를 식별하는 동작을 포함하는, 시스템.
제15항에 있어서,
상기 게놈 영역 세트를 식별하는 동작은 상기 후보 유전자 표적 세트의 유전자 편집들을 모델링하는 작업을 위해 구축된 유전자 편집 모델에 상기 후보 유전자 표적 세트를 입력하는 동작, 및 상기 모델링된 유전자 편집들에 기초하여, 상기 후보 유전자 표적 세트 내의 하나 이상의 유전자를 게놈 편집함으로써 상기 표현형을 최대화하거나, 최소화하거나 다른 방식으로 조절하기 위한 최적의 유전자 표적 세트를 식별하는 동작을 포함하며;
상기 동작들은: 상기 유전자 편집 모델을 사용하여, 상기 후보 유전자 표적 세트 내의 하나 이상의 유전자의 상기 게놈 편집을 위한 상기 최적의 유전자 표적들에 기초하여 상기 표현형에 대한 이상적인 유전자 발현 프로필을 생성하는 동작을 더 포함하는, 시스템.
제16항에 있어서,
상기 설명 가능한 인공 지능 시스템은 상기 표현형의 상기 예측에서 사용되는 상기 특징들에 대한 상기 특징 중요도 점수들로서 Shapley 값 세트를 생성하는 SHApley Additive exPlanation을 사용하고;
상기 Shapley 값들은 각각의 특징 중요도는 물론 방향에 대한 추정치들을 나타내며;
상기 유전자 편집 모델은 상기 Shapley 값들로부터 직접적으로 조절 방향성을 확인하는 것에 의해 상기 유전자 편집들을 모델링하는, 시스템.
제16항에 있어서,
상기 예측 모델은 가우시안 프로세스 모델이고;
상기 유전자 편집 모델은 2개의 컴포넌트: (i) 기본 가우시안 프로세스 함수의 가우시안 프로세스 모델, 및 (ii) 다양한 데이터 포인트들을 샘플링하기 위한 획득 함수를 포함하는 베이지안 최적화 알고리즘을 사용하여 상기 유전자 편집들을 모델링하는, 시스템.
제16항에 있어서,
상기 예측 모델은 심층 신경 네트워크이고;
상기 유전자 편집 모델은 상기 심층 신경 네트워크에 대한 적대적 공격을 수행하는 것 - 상기 적대적 공격은 상기 심층 신경 네트워크의 가중치들을 동결하는 것을 포함함 -, 및 상기 표현형을 최대화하거나 최소화하기 위해 제약된 입력들의 공간에 걸쳐 최적화하는 것에 의해 상기 유전자 편집들을 모델링하는, 시스템.
제16항에 있어서, 상기 동작들은:
상기 이상적인 유전자 발현 프로필을 상기 식물에 대한 자연 발생 유전자 발현 분포와 비교하는 동작;
상기 비교에 기초하여 상기 이상적인 유전자 발현 프로필들 내의 특정 유전자, 유전자들의 서브그룹, 또는 각각의 유전자를 상향 조절하거나 하향 조절하기 위한 유전자 편집 권장 사항을 결정하는 동작; 및
유전자 편집 시스템을 사용하여, 상기 유전자 편집 권장 사항에 따라 상기 식물의 게놈에 대한 유전자 편집 또는 교란을 행하는 동작을 더 포함하는, 시스템.