KR20200092989A - 아웃라이어 감지를 위한 비지도 파라미터 러닝을 이용한 생산용 유기체 식별 - Google Patents

아웃라이어 감지를 위한 비지도 파라미터 러닝을 이용한 생산용 유기체 식별 Download PDF

Info

Publication number
KR20200092989A
KR20200092989A KR1020207017675A KR20207017675A KR20200092989A KR 20200092989 A KR20200092989 A KR 20200092989A KR 1020207017675 A KR1020207017675 A KR 1020207017675A KR 20207017675 A KR20207017675 A KR 20207017675A KR 20200092989 A KR20200092989 A KR 20200092989A
Authority
KR
South Korea
Prior art keywords
outlier
identifying
organism
production
objects
Prior art date
Application number
KR1020207017675A
Other languages
English (en)
Inventor
아멜리아 테일러
Original Assignee
지머젠 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지머젠 인코포레이티드 filed Critical 지머젠 인코포레이티드
Publication of KR20200092989A publication Critical patent/KR20200092989A/ko

Links

Images

Classifications

    • G06K9/00496
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따르면, 생산용 유기체를 식별하기 위한 시스템, 방법 및 컴퓨터 판독가능 매체가 제공된다. 식별은 유기체 성능 메트릭의 데이터 세트로부터 아웃라이어(예를 들어, 아웃라이어 웰, 균주, 유기체를 보유하는 플레이트)를 식별하기 위한 하나 이상의 아웃라이어 감지 파라미터를 결정하는 것에 기초한다. 예측 엔진은 제 1 세트의 아웃라이어 감지 파라미터(예를 들어, 아웃라이어 감지 임계치)에 기초하여 하나 이상의 후보 아웃라이어를 식별하고, 후보 아웃라이어가 아웃라이어 클래스에 속할 우도를 나타내는 확률 메트릭을 결정할 수 있다. 이러한 메트릭에 따라, 생산용 유기체를 선택할 목적으로 유기체 성능을 예측할 때 일부 아웃라이어가 고려사항에서 배제될 수 있다.

Description

아웃라이어 감지를 위한 비지도 파라미터 러닝을 이용한 생산용 유기체 식별
본 출원은 2017년 12월 1일자로 출원된 미국 가출원 제62/593,757호의 우선권을 주장하며, 상기 문헌은 그 전체가 본원에 참조로 포함되어 있다.
개시 분야
본 개시는 일반적으로 대사 및 유전공학 분야에 관한 것이고, 보다 상세하게는 관심 생성물을 생산하기 위한 미생물 균주와 같은 유기체의 고속처리("HTP") 유전자 변형 분야에 관한 것이다.
관련 기술의 설명
배경 분야에서 언급된 주제는 단지 배경 분야에서의 언급으로 인해 종래 기술인 것으로 가정되어서는 안된다. 마찬가지로, 배경 분야에서 언급되거나 배경 분야의 주제와 관련된 문제는 종래 기술에서 이전에 인지된 것으로 가정되어서는 안된다. 배경 분야의 주제는 단지 서로 다른 접근법을 나타낼 뿐이며, 그 자체로도 또한 청구된 기술의 구현에 대응할 수 있다.
원하는 표현형을 나타내도록 유기체를 유전자 최적화하는 것은 잘 알려진 문제이다. 하나의 의문은 유기체에 행해질 수 있는 가능한 모든 가능한 변형에 대한 것인데, 이는 원하는 복합물의 생산량을 최대화하기 위해 시도되어야 하는가? 하는 것이다. 자동화된 실험실 장비를 통해 짧은 시간 프레임 내에 미생물에 대한 수백 또는 수천 개의 유전자 변형을 구현하고 평가할 수 있다. 이러한 변형의 역사적 평가에 기초하여, 주어진 유전자 변형이 원하는 표현형 성능을 제공할 우도(likelihood)를 예측하기 위해 예측 모델을 구축할 수 있다. 따라서 예측 모델링을 사용하면 설계자가 관심 표현형을 달성하기 위해 유전자 제조 시스템에서 물리적으로 만들어질 유전자 변형을 보다 효율적으로 선택할 수 있다.
유전공학에 사용되는 예측 모델(예를 들어, 선형 회귀)로 미생물 성능(pherformance)(예를 들어, 역가(titer), 바이오매스)과 같은 예측변수에 대한 독립변수의 맵핑을 추정하는 피팅 라인이 생성된다. 그러나, 종종 일부 균주는 나머지 균주와 매우 다르게 거동하며, 이 균주들의 관측된 성능은 피팅 라인에 더 가까운 다른 균주와 공간상으로 분리될 수 있다. 이러한 아웃라이어 균주는 모델의 피팅에 영향을 미치며 여전히 스스로 예측이 떨어지면서 다른 모든 균주에 대한 예측력에도 손상을 줄 수 있다. 한 가지 최적화는 아웃라이어 균주를 제거하여 모델의 전체 예측 능력을 향상시키는 것이다.
아웃라이어 및 이상 감지는 문헌에서 광범위하게 논의되지만, 이러한 목적을 위해 더 나은 모델을 찾는 작업이 계속되고 있다.(일반적으로 모두 잘 알려진) 이러한 많은 모델에는 알고리즘이 제대로 작동하기 위해 데이터에서 학습해야 하는 파라미터가 있다. 이를 종종 참조문헌에서 "파라미터 튜닝"이라고 한다. 파라미터 튜닝/러닝은 머신 러닝의 표준 단계이다. 이러한 파라미터는 분석중인 특정 데이터에 따라 다르다. 예를 들어, 파라미터는 숙주 유기체, 미생물이 성장하는 배지, 공정에 사용되는 기계 등에 의존할 것으로 예상된다. 따라서, 데이터를 사용하여 새로운 프로젝트를 온보드될 때마다 이러한 파라미터를 학습하고 프로그램의 발전 과정내내 이러한 파라미터를 재방문할 것으로 예상된다.
데이터가 지도될 경우, 파라미터 러닝을 위한 잘 확립된 기술이 있으며, 상기 데이터는 알려진 참 값(ground truth)임을 의미한다. 이러한 맥락에서, 데이터의 어떤 값이 아웃라이어인지 아닌지를 알게 될 것이다. 유사하게, 한 그룹의 사람들을 남성 대 여성으로 분류하는 모델에서 파라미터를 학습시키고자 한다면, 어떤 사람이 남성이고 어떤 사람이 여성임을 확실하게 알고 있는 데이터 세트를 가질 수 있다. 그런 다음, 해당 정보를 사용하여 입력 데이터를 가지고 있지만 아직 그들의 성별을 모르는 사람들의 성별을 분류하는 모델을 작성할 수 있다. 아웃라이어 감지와 관련된 많은 프로젝트에는 가령, 객관적으로 라벨이 붙은 특징들 있는 데이터 세트와 같은 참 값이 전혀 없다.
이는 일반적으로 모든 아웃라이어 감지 알고리즘에 사실이나, 아주 최근에서야 이 문제가 참조문헌에 유효한 논문들을 내기 시작했다. 이에 대한 한 가지 이유는 인간이 잘 이해된 지도 기술을 사용할 수 있도록 주관적으로(또는 이상이 있는 경우, 더 객관적일 수 있는) 데이터에 라벨을 붙인 "세미-지도형(semi-supervised)" 데이터를 사용하는 것일 수 있다. 그러나, 이 접근 방식은 대량의 데이터 및 고속처리 유전자 변형과 관련된 제한된 자원, 알고리즘에 업데이트가 필요할 때마다(예측 모델에 근거하여) 관심 제품의 생산을 위한 표현형 성능, 예를 들어 수율, 바이오매스를 최적화하기 위한 새로운 프로젝트가 수행될 때, 재교정/재훈련의 필요성과 같은 문제로 인해 많은 상황에서 옵션이 아닐 수 있다. 더욱이, 세미-지도형 접근법은 강력한 통계 모델에 비해 아웃라이어를 구성하는 것에 대한 편향된 인간의 판단에 의존한다는 것이 일반적으로 인식된다.
따라서, 참 값 없이 어떤 데이터 포인트가 실제로 아웃라이어인지를 확인하는 강력한 통계 모델용 파라미터를 결정하는 것이 바람직하다.
본 명세서는 비지도 파라미터 러닝 문제를 다루는 몇 가지 주목할만한 논문들을 참조하며, 이들 모두는 본 명세서에 전체적으로 포함되어 있다:
Campos, Zimek, Sander, Campello, Micenkova, Schubert, Assent, and Houle: On the evaluation of unsupervised outlier detection: Measures, datasets, and an empirical study. Data Mining and Knowledge Discovery, 2016. http://doi.org/l0. l007/sl06l8-0l5-0444-8.
Goldstein M, Uchida S. A comparative Evaluation of Unsupervised Anomaly Detection Algorithms for Multivariate Data. PLoS ONE 1 l(4):e0l52l73. doi: l0.l37l/journal. pone.0152173 Published April 19, 2016.
Himura, Y., Fukuda, K., Cho, K. and Esaki, H.(2010), An evaluation of automatic parameter tuning of a statistics-based anomaly detection algorithm. Int. J. Network Mgmt., 20: 295-316. doi: l0. l002/nem.749.
Marques HO, Campello RJGB, Zimek A, Sander J(2015) On the internal evaluation of unsupervised outlier detection. In Proceedings of the 27th international conference on scientific and statistical database management(SSDBM), San Diego, pp 7: 1-12. dok lO.l145/2791347.2791352.
Campos 등 및 Goldstein 등은 파라미터 튜닝에 초점을 맞추기 보다는 근본적으로 다른 여러 알고리즘을 비교한다. 그러나, 이들의 접근 방식은 위에서 설명한 문제에 직접 적용할 수 없다. 그리고, 연구에서 여러 데이터 세트를 사용하지만, 비교를 위해 한 번에 하나의 데이터 세트를 사용한다. 세 번째 논문, Himura 등은 파라미터 튜닝에 중점을 두지만 이상 감지에 사용된다. 이 논문은 하나의 파라미터를 사용하고, 메트릭은 상당히 간단하며, 관련된 시계열 데이터 유형에서 이 파라미터가 어떻게 중요한지에 중점을 둔다.
본 개시는 또한 여러 학술 분야에 속하는 "블랙 박스 최적화" 문제를 다루는 몇몇 주목할만한 논문을 참조하며, 이들 문헌은 모두 본 명세서에 전체적으로 포함된다:
James S Bergstra, R'emi Bardenet, Yoshua Bengio, and BaTazs K'egl. 2011. Algorithms for hyper-parameter optimization. In Advances in Neural Information Processing Systems. 2546-2554.
Herman Chernoff. 1959. Sequential Design of Experiments. Ann. Math. Statist. 30, 3(09 1959), 755-770. https://doi.org/l0. l2l4/ aoms/l177706205
Andrew R Conn, Katya Scheinberg, and Luis N Vicente. 2009. Introduction to derivative-free optimization. SIAM.
Josep Ginebra and Murray K. Clayton. 1995. Response Surface Bandits. Journal of the Royal Statistical Society. Series B(Methodological) 57, 4(1995), 771-784. http://www.j stor.org/ stable/2345943.
Daniel Golovin, Benjamin Solnik, Subhodeep Moitra, Greg Kochanski, John Karro, D. Sculley. 2017. Google Vizier: A Service for Black-Box Optimization. In Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 1487―1495.
Lisha Li, Kevin G. Jamieson, Giulia DeSalvo, Afshin Rostamizadeh, and Ameet Talwalkar. 2016. Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization. CoRR abs/l603.06560(2016). http://arxiv.org/abs/l603.06560
Luis Miguel Rios and Nikolaos V Sahinidis. 2013. Derivative-free optimization: a review of algorithms and comparison of software implementations. Journal of Global Optimization 56, 3(2013), 1247-1293.
Bobak Shahriari, Kevin Swersky, Ziyu Wang, Ryan P Adams, and Nando de Freitas. 2016. Taking the human out of the loop: A review of bayesian optimization. Proc. IEEE 104, 1(2016), 148-175.
Jasper Snoek, Hugo Larochelle, and Ryan P Adams. 2012. Practical Bayesian optimization of machine learning algorithms. In Advances in neural information processing systems. 2951-2959.
Niranjan Srinivas, Andreas Krause, Sham Kakade, and Matthias Seeger. 2010. Gaussian Process Optimization in the Bandit Setting: No Regret and Experimental Design. ICML(2010).
이러한 제한을 인식하여, 본 발명자는 Marques 등의 논문에서 아이디어를 이용한다. 이 논문에 제시된 메트릭은 파라미터 튜닝에 중점을 둔다. 그러나 Marques 등의 기본 아이디어는 유용하나, 본 개시에서 발명자가 언급한 유전자 데이터는 고유한 과제를 야기한다.
튜닝 파라미터의 목적을 위해 본 개시에서 고려된 생물학적 데이터를 그룹화하는 많은 다른 방법이 있다. 이 목적은 익스페리먼트(experiment)에서 모든 데이터 그룹 내에서 아웃라이어를 결정하거나 특정 측정 플레이트에 대한 아웃라이어를 결정하거나, 단일 균주에 대한 측정에서 아웃라이어를 결정하는 것일 수 있다. 본 개시의 실시예에서, "익스페리먼트(experiment)"는 유전자 변형 미생물을 생산하고 관찰 데이터를 수집하기 위해 동일한 조건하에 유전자 제조 시스템("공장")을 통해 함께 처리되는 유기체 그룹(예를 들어, 플레이트상의 균주)을 말한다. 전형적으로, 유기체가 미생물 균주인 경우, 상기 균주는 동일한 조상 균주를 통해 서로 관련있다.
도 1a는 y축을 따라 그룹화된 3개의 플레이트에 대한 바이오매스 측정을 나타낸 것으로, 각 샘플 지점은 플레이트에서(하나의 균주 복제를 보유한) 단일 웰에 대한 바이오매스의 측정을 나타낸다. 도 1b는 y축을 따라 그룹화된 6개의 균주에 대한 역가 측정을 도시한 것으로, 각 샘플 지점은 플레이트상의 단일 웰에 대한 역가의 측정을 나타낸다. 이 예에서, 목표는 아웃라이어 웰(균주 복제)을 결정하는 것이다. 도 1a에서, (웰에 해당하는) 균주 복제의 그룹화는 플레이트 별인 반면, 도 1b에서 균주 복제의 그룹화는 균주 별이다.
(타원 엔벨로프에 기초한) 표준 아웃라이어 감지 모델 내에서 하나의 파라미터 세트를 사용하여 생성된 이들 도면은 아웃라이어 대 인라이어에 대한 경계가 어디에서 그려져야 하는지에 대한 의문을 제기한다. 또한, 도면의 바이오매스 분석의 경우, 동일한 분포로부터의 샘플로서 플레이트 또는 심지어 단일 고속처리 스크리닝(HTS) 익스페리먼트로부터의 모든 측정을 고려하는 것이 합리적이다. 그러나, 역가 분석에서, 샘플이 확실히 동일한 분포에 있지 않다는 것이 명백하다; 아웃라이어의 경계를 정할 수 있는 균주 그룹에 대해서는 성능(예를 들어, 수율) 임계치를 쉽게 도출할 수 없다. 따라서, 데이터의 다른 입도(granularity)/그룹화에서 아웃라이어 탐지를 고려해야 한다. 그러나, 운영 및 모델링의 이유로, 각 균주 또는 심지어 각 익스페리먼트에 대해 별도의 모델 파라미터를 사용하는 것은 비현실적이다. 따라서, 본 발명자는 Marques 등에 제시된 메트릭을 취해 균주 및 익스페리먼트에서 잘 작동하는 아웃라이어 감지 알고리즘에 대한 파라미터를 조정하도록 효과적으로 수정할 필요성을 인식하였다.
유전공학은 로봇공학, 소프트웨어 및 생물학을 통합하여 유전공학을 통해 미생물 균주를 신속하게 개선시키는 공정에 예측성 및 신뢰성을 제공한다. 이 프로세스의 중요한 부분 중 하나는 과학자가 다음 번 변경을 수행하고 어떤 균주를 촉진할지 결정하는 데 필요한 정보를 과학자에게 제공하기 위해 빠르고 강력하고 유용한 데이터 처리이다. 특히, 로봇은 수백 개의 익스페리먼트를 병렬로 실행할 수 있으며 분석 자동화를 통해 거의 실시간으로 데이터를 정리하고 처리할 수 있다.
첫 번째 단계는 프로세스가 실패한 다수의 기회로 인해 데이터에서 발생하는 아웃라이어를 식별하는 것이다. 이로 인해 아웃라이어 모델링의 과제와 모델 선택 및 파라미터 튜닝 모두에 대한 모델 평가 문제가 발생한다. 특히, 본 개시의 실시예는 단일 모델에 대한 파라미터를 튜닝하기 위해 모델을 평가하는 문제를 다루지만, 이러한 통찰은 또한 상이한 아웃라이어 감지 모델들 간의 비교를 용이하게 한다. 이는 아웃라이어를 처음 감지하는 알고리즘에 관한 것이 아니다. 새로운 통찰력에는 단변량 및 다변량 데이터를 모두 다루고 시간에 따라 그리고 다양한 생물학적 균주에 걸쳐 단일 파라미터 세트가 작동하는 것이 바람직한 고속처리 엔지니어링의 맥락에서 방법을 개발하는 것이 포함된다.
본 개시의 실시예는 예를 들어 유전자 제조 시스템에서 생산용 유기체를 식별하기 위한 명령어를 저장하는 컴퓨터 판독가능 매체, 시스템 및 방법을 제공한다. 식별은 객체의 모임에서 아웃라이어 객체들을 식별하기 위한 하나 이상의 아웃라이어 감지 파라미터들을 결정하는 것에 적어도 부분적으로 기초한다. 본 개시의 실시예에 따르면:
(a) 하나 이상의 아웃라이어 감지 파라미터(예를 들어, 아웃라이어 감지 임계치)의 제 1 세트에 적어도 부분적으로 기초하고 각각이 객체의 모임들 중 한 객체에 해당하는 유기체 표현형 성능(예를 들어, 관심 생성물의 생산, 수율, 바이오매스)을 나타내는 성능 메트릭 세트를 포함하는 데이터 세트로부터(예를 들어, 웰을 포함하는 플레이트를 나타내는) 하나 이상의 후보 아웃라이어 오브젝트를 식별할 수 있다.
(b) 예측 엔진은 각각이 하나 이상의 후보 아웃라이어 객체가 아웃라이어 클래스에 속할 우도를 나타내는 확률 메트릭의 세트를 결정할 수 있다.
(c) 예측 엔진은 집계 확률 메트릭 세트를 생성하기 위해 확률 메트릭 세트 내에서 확률 메트릭을 처리할 수 있다. 예측 엔진은 중간, 특정 익스페리먼트 집계 확률 메트릭을 생성하기 위해 각 익스페리먼트에 대한 확률 메트릭을 처리할 수 있다.
(d) 상기 집계 확률 메트릭의(예를 들어, 가장 큰 우도를 나타내는) 크기에 적어도 부분적으로 기초하여 하나 이상의 아웃라이어 감지 파라미터의 제 2 세트를 선택할 수 있다.
(e) 예측 엔진은 아웃라이어 감지 파라미터의 제 2 세트에 적어도 부분적으로 기초하여 데이터 세트 중 하나 이상의 제 2 아웃라이어 객체를 식별할 수 있고, 하나 이상의 제 2 아웃라이어 객체는 생산용 유기체를 선택하기 위한 목적으로 유기체 성능을 예측하는 데 있어 고려사항을 배제될 수 있다.
예측 엔진은 샘플 세트를 형성하기 위해 데이터 세트로부터 하나 이상의 제 2 아웃라이어 객체를 제외하고, 상기 샘플 세트에 기초하여 유기체의 성능을 예측할 수 있다. 본 개시의 실시예에 따르면, 공장 주문자는 예측된 성능에 적어도 부분적으로 기초하여 적어도 하나의 생산용 유기체를 선택할 수 있다. 공장 주문자 및 유전자 제조 시스템의 예는 2016년 4월 27일자에 출원된 미국 정규출원 No.15/140,296의 우선권을 주장하는 2017년 4월 26일자에 출원된 국제출원 NO. PCT/US2017/029725에 기술되어 있으며, 둘 다 그 전문이 본원에 참조로 포함된다. 본 개시의 실시예에 따르면, 유전자 제조 시스템은 선택된 유기체를 제조할 수 있다.
본 개시의 실시예에 따르면, 아웃라이어가 결정되는 객체는 이러한 객체의 그룹화와 동일한 레벨의 입도에 있지 않을 수 있다. 예를 들어, 도 1a와 도 1b에서, 각 객체는(물리적으로 웰에 상주하는) 균주 복제인 반면, 균주 복제의 성능 측정은 도 1a에서 3개의 플레이트 그룹과 도 1b의 다른 균주 그룹으로 그룹화된다. 본 개시의 실시예에 따르면, 용어 "객체"는 입도 수준에서 그룹화의 구성원을 말하며, 객체의 예로는(균주 복제를 보유한) 웰, 균주, 플레이트, 탱크 또는 익스페리먼트이다.
최적의 아웃라이어 감지 파라미터의 세트를 계산하기 위해, 아웃라이어가 결정되는 객체(예를 들어, 물리적으로 웰에 상주하는 균주 복제)는 객체(예를 들어,균주 복제/웰) 그 자체의 입도 수준보다 거친 입도 수준(가령, 플레이트)의 그룹으로 구룹화될 수 있다. 거친 수준은 그룹화 계층에서 "상위" 레벨로 간주될 수 있다.
예를 들어, 실시예에서, 낮은데서 높은(미세한데서 거친) 크기의 유용한 계층 구조는 균주 복제(또는 우물)→균주(예를 들어, 대장균)→플레이트→익스페리먼트로 간주될 수 있다. 객체의 성능 데이터는 객체 그 자체보다 더 거친(더 높은) 수준으로 그룹화될 수 있다. 예로서, 아웃라이어 우물이 결정될 균주 복제에 대한 성능 데이터는 (도 1b에서와 같이) 균주, (도 1a에서와 같이) 플레이트 또는 익스페리먼트에 의해 그룹화될 수 있지만, 아웃라이어 플레이트를 결정하는 플레이트에 대한 성능 데이터는 익스페리먼트에 의해 그룹화될 수 있다.
실시예에서, 각각의 객체는 균주 복제를 나타낼 수 있고, 하나 이상의 후보 아웃라이어 객체를 식별하는 것은 균주, 플레이트 또는 익스페리먼트에 의해 데이터 세트에서 균주 복제를 그룹화하는 것을 포함할 수 있다.
본 개시의 실시예에 따르면, 확률 메트릭 세트의 결정은 로지스틱 회귀를 이용하는 단계를 포함하며, 여기서 확률 메트릭은 가능성 조정 메트릭이다. 로지스틱 회귀는 커널을 사용할 수 있다. 제 1 데이터 세트의 샘플은 로지스틱 회귀 공간에서 유기체 성능의 치수와 직교하는 치수로 지터링될 수 있다.
예측 엔진은 한 세트의 아웃라이어 감지 알고리즘 중에서 최적의 아웃라이어 감지 알고리즘의 선택을 가능하게 할 수 있다. 예측 엔진은 아웃라이어 감지 알고리즘 세트의 각각의 알고리즘에 대한 집계 확률 메트릭 세트를 생성하고, 집계 확률 메트릭 세트로부터 가장 큰 집계 확률 메트릭을 식별하며, 가장 큰 집계 확률 메트릭과 관련된 아웃라이어 감지 알고리즘을 최적의 아웃라이어 감지 알고리즘으로 선택할 수 있다.
본 개시의 실시예는 본원에 기재된 방법 중 어느 하나에 의해 생성된 유기체를 포함한다.
본 발명의 내용에 포함됨.
도 1a는 y축을 따라 그룹화된 3개의 플레이트에 대한 바이오매스 측정을 나타낸 것으로, 각 샘플 지점은 플레이트에서(단일 균주 복제를 유지하는) 단일 웰에 대한 바이오매스의 측정을 나타낸다.
도 1b는 y축을 따라 그룹화된 6개의 균주에 대한 역가 측정을 도시한 것으로, 각 샘플 지점은 플레이트상의 단일 웰에 대한 역가의 측정을 나타낸다.
도 2는 본 개시의 실시예를 구현하기 위한 클라이언트-서버 컴퓨터 시스템을 도시한다.
도 3은 본 개시의 실시예에 따른 파라미터 튜닝을 위한 메트릭을 계산하기 위한 알고리즘을 도시한다.
도 4는 본 개시의 실시예들에 따른, 도 3의 흐름의 수정된 버전에 기초한 확률 조정된 메트릭 대 잔류 임계치의 그래프를 도시한다.
도 5는 본 개시의 실시예에 따른, 상이한 아웃라이어에 대한 확률 조정 메트릭 대 잔류 임계치의 그래프를 도시한다.
도 6a 및 6b는 본 개시의 실시예에 따른, 각각 다른 아웃라이어 가중치에 대한 확률 조정 메트릭 대 잔류 임계치의 개별 도표를 도시한다.
도 7은 본 개시의 실시예에 따라 이들 각각의 실행에 대한 잔류 임계치 범위 및 균주당 메트릭에 대해 아웃라이어 감지 알고리즘이 실행된 단일 익스페리먼트(시간상 한 지점에서의 단일 분석)에 대한 확률 조정 메트릭 대 잔류 임계치 도표를 도시한다.
도 8은 본 개시의 실시예에 따른 반복 및 집계 프로세스를 포함하는 도 3의 알고리즘의 변형을 도시한다.
도 9는 본 개시의 실시예에 따른, 상이한 초기 임계치 설정에 대한 확률 조정 메트릭 대 잔류 임계치 도표를 도시한다.
도 10은 본 개시의 실시예에 따른 클라우드 컴퓨팅 환경을 도시한다.
도 11은 본 개시의 실시예를 구현하기 위해 프로그램 코드를 실행하는 데 사용될 수 있는 컴퓨터 시스템의 예를 도시한다.
도 12는 본 개시의 실시예에 따른 익스페리먼트 인라이어 및 아웃라이어 데이터를 도시한다.
본 설명은 다양한 예시적인 실시예가 도시된 첨부도면을 참조하여 이루어진다. 그러나, 많은 다른 예시적인 실시예가 사용될 수 있으므로, 본 명세서는 본 명세서에 제시된 예시적인 실시예로 제한되는 것으로 해석되어서는 안된다. 오히려, 이들 예시적인 실시예는 본 개시가 철저하고 완전하도록 제공된다. 예시적인 실시예에 대한 다양한 변형은 당업자에게 명백할 것이며, 본 명세서에 정의된 일반적인 원리는 본 개시의 사상 및 범위를 벗어나지 않고 다른 실시예 및 애플리케이션에 적용될 수 있다. 따라서, 본 개시는 도시된 실시예들로 제한되도록 의도된 것이 아니라, 여기에 개시된 원리 및 특징과 일치하는 가장 넓은 범위에 따라야 한다.
도 2는 본 개시의 실시예의 분산 시스템(100)을 도시한다. 사용자 인터페이스(102)는 텍스트 편집기 또는 그래픽 사용자 인터페이스(GET)와 같은 클라이언트 측 인터페이스를 포함한다. 사용자 인터페이스(102)는 랩탑 또는 데스크탑 컴퓨터와 같은 클라이언트측 컴퓨팅 장치(103)에 상주할 수 있다. 클라이언트측 컴퓨팅 장치(103)는 인터넷과 같은 네트워크(106)를 통해 하나 이상의 서버(108)에 연결된다.
서버(들)(108)는 게놈 데이터, 유전자 변형 데이터(예를 들어, 프로모터 래더) 및 유전자 변형에 응답하여 미생물 균주 성능을 나타낼 수 있는 표현형 성능 데이터와 같은 데이터를 포함하는 라이브러리의 하나 이상의 코포라(corpora)를 포함할 수 있는 하나 이상의 데이터베이스(110)에 로컬 또는 원격으로 연결된다.
실시예들에서, 서버(들)(108)는 적어도 하나의 프로세서(107) 및 상기 프로세서(107)에 의한 실행시 유전자 변형의 표현형 성능을 예측학, 이에 따라 본 개시의 실시예에 따른 "예측 엔진"으로서 작용하는 명령어를 저장한 적어도 하나의 메모리(109)를 포함한다. 대안으로, 예측 엔진용 소프트웨어 및 관련 하드웨어는 서버(108) 대신 클라이언트(103)에 로컬로 상주하거나 클라이언트(103)와 서버(108) 사이에 분산될 수 있다. 예측 엔진은 도 10에 더 도시된 클라우드 기반 서비스로서 실행될 수 있다.
데이터베이스(들)(110)는 공개 데이터베이스뿐만 아니라 사용자 또는 다른 사람에 의해 생성된 커스텀 데이터베이스, 예를 들어, 사용자 또는 제 3 자 기여자에 의해 수행된 합성 생물학 익스페리먼트를 통해 생성된 분자를 포함하는 데이터베이스를 포함할 수 있다. 데이터베이스(들)(110)는 클라이언트(103)에 대해 로컬 또는 원격일 수 있거나 로컬 및 원격으로 분산될 수 있다.
고위 프로세스 설명
예로서, 유전자 제조 시스템은 미생물의 상이한 균주를 생산하기 위해 단일 염기 미생물(예를 들어, 대장균)에 다수의 상이한 유전자 변화를 적용할 수 있다. 시스템의 분석 장비는 이러한 균주가 얼마나 잘 자라는 지(바이오매스) 그리고 얼마나 많이 생산되는지(역가)를 측정할 수 있다. 그렇게하기 위해, 다수의 상이한 균주의 각각의 다수의 복제가 플레이트에 배치될 수 있다(예를 들어, 각각의 균주의 복제물이 96-웰 플레이트의 웰 그룹의 각각의 웰에 배치된다). 이 예에서, 단일 프로세스 실행은 다수의 상이한 균주의 많은 복제를 보유하는 많은 이들 96-웰 플레이트들을 사용할 수 있다.
시스템은 이러한 많은 균주의 이러한 많은 복제에 대한 바이오매스 및 역가를 계산할 수 있다. 생산성과 수율에 대해 각각 동일한 시간 또는 다른 시간, 가령 24 시간 및 96 시간에서 이러한 메트릭을 계산할 수 있다. 바로 아래의 논의는 이러한 다양한 분석법 모음(바이오매스 및 역가)을 한 번에 하나의 바이오매스 및 역가 측정 모음으로 간주할 것이다.
따라서, 한 세트의 플레이트에 대한 단일 분석 모음에 대해, 시스템은 각 균주에 대해 해당 균주의 다중 복제에 대한 측정에 기초하여 측정 분포를 결정할 것이다. 이 분포의 아웃라이어는 여러 가지 이유로 발생할 수 있으며, 본 개시는 특히 프로세스 실패로 인해 발생하는 아웃라이어와, 바람직하게는 실시간으로 엄격한 통계 기술을 사용하여 이러한 통계적 아웃라이어를 식별하는 것에 관한 것이다.
이들 측정 아웃라이어의 통계적 식별을 위해, 본 개시의 실시예의 시스템은 공개적으로 이용 가능한 아웃라이어 감지 알고리즘을 사용할 수 있지만, 이러한 알고리즘은 데이터로부터 학습될 필요가 있는 (하기 상세히 언급된) 입력 파라미터를 갖는다. 위에서 논의한 바와 같이, 참 값이 없는, 예를 들어, 데이터가 지도되지 않는 알고리즘에 대한 학습 파라미터는 어려운 문제이다. 본 개시는 다음에 본 개시의 실시예의 세부 사항 및 이 문제에 대한 최적화를 제공한다.
본원에 개시된 주요 예는 단일 균주의 단일 복제의 단일 분포로부터의 샘플의 측정으로서 그룹화된 최적화에 관한 것이다. 그러나, 바이오매스와 같은 일부 분석의 경우, 플레이트 또는 익스페리먼트와 같이 보다 과학적으로 엄격하게 그룹화될 수 있는 다른 그룹화(즉, 입도 수준)가 있다. 상술한 과제를 해결하는 본 발명의 실시예의 최적화는 그룹화의 임의의 선택에서 작동한다. 상기 주요 예는 과제와 최적화를 설명하기 위한 간단한 예로써 균주 그룹화에 관한 것이다.
파라미터
본 개시의 실시예에 따르면, 예측 엔진은 최소 공분산 행렬식 및 타원 엔벨로프를 사용하여 마할라노비스 거리(Mahalanobis distance)를 계산하기 위한 공분산의 강력한 추정치를 획득함으로써 아웃라이어 감지를 구현할 수 있다. 이 기술의 예는 Rousseeuw, P. I, Van Driessen, K."A fast algorithm for the minimum covariance determinant estimator" Technometrics 41(3), 212 (1999)에 기술되어 있고; Scikit-learn: Machine Learning in Python. Pedregosa et al, JMLR 12, pp. 2825-2830, 2011, API design for machine learning software: experiences from the scikit-learn project, Buitinck et al. , 2013, scikit-learn nq.19.1에 기술된 소프트웨어로 구현될 수 있고, 각각은 본 명세서에 전체적으로 참조로 포함된다. 거리는 각 점에 대해 "스코어"를 제공한다. 조정해야 할 중요한 파라미터는 마할라노비스 거리로서 상기 거리는 넘는 점은 아웃라이어로 간주된다. 실제로, 예측 엔진은 아웃라이어를 결정하기 위해 잔차(residuals)(예를 들어, 값과 샘플 중간 값의 차)를 사용할 수 있다. 이러한 이유로, 마할라노비스 거리 파라미터는 본 개시의 실시예에 따라 "잔차_임계치"(여기서는 "잔차 임계치"라고 함)로 간주될 수 있다.
다음은 가우시안 분포 데이터에 대한 마할라노비스 거리와의 공분산 추정의 예이다. 가우스 분포 데이터의 경우, 분포의 모드에 대한 관측 거리(xi)의 거리는 마할라노비스 거리:
Figure pct00001
를 사용하여 계산할 수 있고, 여기서 μ와 Σ는 위치(예를 들어, 평균 또는 중앙값)와 기본 가우스 분포의 공분산이다.
실제로 μ와 Σ는 추정치로 대체된다. 일반적인 공분산 최대 우도 추정치는 데이터 세트에 아웃라이어의 존재에 매우 민감하다. 따라서 해당 마할라노비스 거리도 마찬가지이다. 결과적으로, 예측 엔진은 추정값이 데이터 세트의 "오차" 관측치에 내성이 있고 관련된 마할라노비스 거리가 관측치의 실제 구성을 정확하게 반영하도록 보장하기 위해 강력한 공분산 추정기를 대신 사용할 수 있다.
최소 공분산 행렬식(MCD) 추정기는 공분산의 강건한 높은 절연파괴지점 추정기이다(즉, 최대
Figure pct00002
개의 아웃라이어까지 매우 오염된 데이터 세트의 공분산 매트릭스를 추정하는데 사용될 수 있다). 이 아이디어는 경험적 공분산이 가장 작은 행렬식을 갖는
Figure pct00003
관측값을 찾아서 위치와 공분산의 표준 추정값을 계산할 수 있는 "순수한" 관측값의 서브세트를을 생성한다.
이 예는 마할라노비스 거리가 아웃라이어 데이터에 의해 어떻게 영향을 받는지를 예시한다: 오염 분포로부터 도출된 관측치는 이용하고자 하는 실제 가우시안 분포로에서 나온 관측치와 구별될 수 없다. MCD 기반의 마할라노비스 거리를 사용하면, 두 집단이 구별될 수 있다.
그러나, 상기 접근법은 바이모달(bimodal)형 균주 분포를 잘 처리하지 못하므로, 예측 엔진은 원래 값에 대해 동일한 알고리즘을 실행하고 조합된 인라이어/아웃라이어 정보를 사용하여 어떤 포인트가 아웃라이어인지를 판단함으로써 보완할 수 있다. 이는 매우 적은 수의 데이터 포인트에 영향을 주지만 제 2 파라미터, 즉 상기 값들에 알고리즘을 실행할 때 포인트가 어느 거리를 넘어선 아웃라이어로 간주되는지 결정하는 데 사용할 임계치를 필요로 한다. 이 제 2 파라미터는 값 임계치이다. 그렇게 하기 위해, 예측 엔진은 또한 아웃라이어를 결정하기 위해 실제 샘플 값 자체를 이용할 수 있다. 이 경우, 마할라노비스 거리 파라미터로서 값 임계치가 사용될 수 있다. 본 개시의 실시예에 따르면, 예측 엔진은 각각의 임계치를 사용하여 아웃라이어 감지 알고리즘을 실행할 수 있다. 알고리즘이 값과 잔차를 모두 사용하여 동일한 아웃라이어를 식별하는 경우, 이들은 마할라노비스 거리를 결정하기 위한 위치를 계산하는데서 제거된다. 이 업데이트된 마할라노비스 거리는 아웃라이어를 결정하는 데 사용된다.
후술되는 파라미터 튜닝에 대한 본 개시의 실시예는 두 파라미터를 동시에 튜닝하기 위해 잘 수행된다. 그러나, 논의를 단순화하기 위해, 본 개시는 보다 일반적인 시나리오에 대한 잔류 임계치 또는 단지 "파라미터"를 주로 언급할 것이다. 또한, 아래의 최적화는 본 명세서에 설명된 아웃라이어 감지 알고리즘뿐만 아니라 고속처리 스크리닝의 맥락에서 데이터 클래스의 분리가 중요한 비지도 알고리즘에 대한 임의의 파라미터를 조정하는 데 적용된다. 또한, 이는 이 맥락에서 비지도 아웃라이어 감지 알고리즘을 비교하는 데 사용될 수 있다.
파라미터 튜닝
지도 데이터와 관련하여 파라미터 튜닝할 때, 어떤 파라미터가 현재 문제에 대해 가장 잘 수행되는지를 결정하기 위한 잘 알려진 표준 메트릭이 있다. 비지도 데이터에 대한 파라미터 조정과 관련하여, 근본적인 문제는 파라미터 선택들 간에 결정을 위해 유용한 메트릭을 결정하는 것이다.
도 3은 본 발명의 실시예에 따라 Marques 등에 의해 제안된 방법에 기초하여 파라미터 튜닝을 위한 메트릭을 계산하기 위한 알고리즘을 도시한다. 도 3은 상기 로직과 본 개시의 실시예에 따라 그 알고리즘에 대한 파라미터를 선택하기 위해 사용된 메트릭을 계산하기 위한 로직을 분리하기 위해 아웃라이어 감지 알고리즘을 나타내는 타원을 사용한다. 이 분리는 본 개시의 실시예에 따른 파라미터 선택/모델을 비교하기 위한 유용한 메트릭을 찾고 계산하는 것이 기본 아웃라이어 알고리즘에 애그노스틱하다는 것을 예시한다.
직사각형 박스는 특정 프로세스로부터의 데이터/라벨/정보를 나타낸다. 둥근 코너 박스는 본 개시의 실시예에 따른 많은 최적화를 수행하기 위한 모델/계산이다.
본 개시의 실시예에 따르면, 예측 엔진은 아웃라이어 감지 알고리즘을 실행하거나 아웃라이어 감지 알고리즘의 결과를 수신할 수 있다(304). 익스페리먼트로부터의 공지된 관측에 기초하여, 아웃라이어 감지 알고리즘은 객체(예를 들어, 균주 복제)의 성능 측정치를 그룹화하여 인라이어와 아웃라이어 간의 분할에 가장 적합할 수 있는 분포를 제공하도록 구성될 수 있다. 이 예에서, 도 1b의 역가 측정의 측정과 유사하게, 균주 복제 성능 측정치가 균주에 의해 그룹화될 수 있고, 아웃라이어 감지 알고리즘은 (각각이 균주 복제를 잘 보유한) 후보 아웃라이어 웰을 결정하기 위해 이 단계에서 단일 익스페리먼트 및 단일 파라미터 세트에 대한 모든 균주에 대해 모든 플레이트에서 실행될 수 있다. 알고리즘은 상술한 바와 같은 최소 공분산 행렬식 및 타원 엔벨로프 기술을 이용할 수 있다.
아웃라이어 감지 알고리즘은 인라이어 또는 아웃라이어로 라벨링된 데이터를 갖는 분석 데이터(305)를 생성한다. X = {x1, x2,…, xw}를 일부 점들이 아웃라이어로 라벨링된 데이터 세트라 하자. S ⊂ X를 아웃라이어로 라벨링된 X에 있는 n개의 점들의 서브세트라고 하자. Y는 아웃라이어 감지 알고리즘에 의해 지정된 X에 있는 데이터에 적용되는 인라이어/아웃라이어 라벨 세트라고 하자.
아웃라이어 감지 알고리즘에 대해 선택된 그룹화를 사용하여, KLR(Kernel Logistic Regression) 알고리즘(306)은 이 예에 따르면 단일 그룹(예를 들어, 단일 균주, 그러나 다른 실시예에서는 단일 플레이트 또는 익스페리먼트일 수 있음)에 대한 라벨링된 분석 데이터인, 객체의 분포(여기에서, 균주 복제)에 대해 훈련될 수 있다. 그룹이 단일 균주인 이 예에서, 예측 엔진은 KLR(306)을 사용하여 그룹 (여기서는 단일 균주)내의 각 균주 복제(웰) 측정, 균주 복제 측정이 아웃라이어 부류에 속하는 확률을 나타내는 확률(308)을 생성한다. 본 개시의 실시예에 따르면, KLR 알고리즘은 확률을 개선하기 위해 감마 및 부류 가중치를 이용할 수 있다.
KLR은 아웃라이어 회귀 알고리즘에 의해 결정된 후보 아웃라이어가 실제로 아웃라이어로 분류될 확률을 결정한다. KLR은 본 명세서에서 x(x, y; w)라고 하는 표준 손실 함수(많은 통계 모델과 같이)를 가지며, 여기서 w는 회귀 함수의 계수를 나타낸다. 이와 관련하여, "모델 피팅"은 손실 함수
Figure pct00004
를 최소화하는 w에 대한 값을 찾는 것을 의미한다. 이 손실 함수에 L2(또는 L1) 페널티를 추가하는 것이 일반적이다. 이 경우, 모델 피팅은
Figure pct00005
를 최소화하는 계수 w를 찾는 것이며, 여기서 C는 스케일링 파라미터이므로, C가 클수록 손실 함수가 정규화에 대한 분류 경계를 결정하는 데 더 큰 역할을 하고 C가 작을수록 정규화가 더 큰 역할을 한다. 따라서, C는 정규화가 전체 손실에 미치는 영향을 제어할 수 있게 한다.
본 개시의 실시예는 클래스 가중치를 사용하여 손실 함수의 추가 제어를 가능하게 한다. 본 개시의 실시예는 2개의 부류, 즉 아웃라이어와 인라이어를 사용한다. Marques에 따라, β는 아웃라이어의 가중치를 나타내는 데 사용된다(2개 클래스 분류에서, 동일한 효과는 한 클래스의 가중치만으로 인한 것이다). 라벨 yi가 아웃라이어를 나타내며 인라이어의 경우 C로 남아 있을 때 손실 함수의 스케일링 파라미터는 βC가 된다. 본 개시의 실시예의 예측 엔진은 β는 인라이어를 아웃 라이어로 오분류하는 것에 비해 아웃라이어를 인라이어로 오분류하는 손실을 줄이도록 선택되어야 한다는 Marques 철학을 따른다. 그러나, 실제로 본 발명자는 아래의 최적화에 도시된 바와 같이, 데이터를 사용하여 이 파라미터를 조정하는 것이 가장 좋다는 것을 발견했다.
"커널 로지스틱 회귀"에서 "커널"이라는 용어의 사용은 비선형 데이터에 선형 모델을 사용할 수 있도록 피팅하기 전에 데이터에 변환을 적용하는 것을 의미한다. 분류 시나리오(예를 들어, 아웃라이어 대 인라이어)에서, 의사결정 경계는 원래 데이터에서 볼 때 비선형이지만, 결정 경계는 커널을 적용한 후 변환된 데이터에서 선형이다. 이는 결정 경계가 선형이 아니라 오히려 래디얼(가우시안)일 것으로 예상되는 아웃라이어의 상황에서 특히 유용하다. 본 개시의 실시예는 (가장 일반적으로 사용되는 것 중 하나인) 래디얼 커널을 사용한다:
Figure pct00006
여기서, 이 수식은 사이킷-런(scikit-learn)에서의 수식을 따른다.
따라서, 본 개시의 실시예에 따르면, 커널 로지스틱 회귀는 아웃라이어 감지를 위한 파라미터를 선택하는 데 있어 메트릭을 계산하는 과정에서 나타나는 γ, C 및 β에 해당하는 3개의 파라미터, 즉, "감마, C 및 클래스 가중치"를 갖는다. 이들은 본 개시의 실시예가 주로 튜닝에 관련된 파라미터가 아님에 유의하라. 대신에, 본 개시의 실시예는 바로 아래에 설명된 바와 같이 이들 파라미터를 개별적으로 처리한다.
4(a) γ: Marques는 시뮬레이션 연구에 기초하여, 감마에 대한 값(예를 들어, 0.01, 0.1, 1, 10, 100, 1000)의 범위를 아웃라이어로서 라벨링된 임의의 점이 모든 다른 것들과 개별적으로 식별되는, 가령, 각각이 자신의 결정 경계를 갖는 감마 값까지 평균화할 것을 제안한다. 이는 일반적으로 너무 크지 않고 많아야 1000 이지만, 비지도 방식으로 쉽게 결정할 수 있다.
4(b) C, β: 이들은 근본적으로 관련있다. Marques 등의 이러한 파라미터의 선택에 대한 지침이 훨씬 적다. 따라서, 이 파라미터를 선택하는 것이 다음 섹션에서 논의된 첫 번째 최적화이다.
도 3의 구현은 궁극적으로 가능성 조정 메트릭(CAM)를 계산한다(본 개시의 다른 곳의 실시예는 이러한 고속처리 스크리닝을 위해 이들 메트릭을 하나의 유용한 메트릭에 집계하기 위해 최적화를 이용한다).
본 개시의 실시예에 따르면, CAM을 계산하기 위해, 예측 엔진은 모든 γj에 걸쳐 전체 데이터 세트에 대한 평균 확률 M(X)을 계산하고, 모든 γj에 걸쳐 라벨링된 후보 아웃라이어의 서브세트에 대한 평균 확률 M(S)를 계산한다(310). 본 개시의 실시예에 따르면, 예측 엔진은 단일 그룹(여기서는 균주)에 대한 가능성 조정 메트릭(312)를 계산한다. 자세한 내용은 아래에 제공된다.
γ1, γ2,…,γk를 상기 4(a)에서 선택된 감마 값의 이산 세트라 하자. p(xij)를 KLR이 γj에 의해 제공된 확률이라고 하자.
모든 γj에 대한 전체 데이터 세트(X의 모든 xi)에 대한 평균 확률을
Figure pct00007
(310)
이라 정한다.
모든 γj에 대한 전체 데이터 세트(S의 모든 xi)에 대한 평균 확률을
Figure pct00008
(310)
이라 정한다.
그러면,
Figure pct00009
(312)이다.
최적화
본 개시의 실시예는 최적화에 의해 도 3의 구현시 확장된다.
위에서 언급한 바와 같이, 본 개시의 실시예는 Marques를 따르고 γ의 다수의 값에 대한 평균을 따르지만, 본 발명자는 튜닝 C 및 클래스-가중치 β에 비지도 접근법을 취하는 것이 유리하다는 것을 알았다. 본 개시의 실시예의 최적화의 예는 하나의 익스페리먼트로부터 하나의 균주 또는 플레이트(보다 일반적으로 "입도" 수준의 "객체")를 취하여 가능성 조정 메트릭의 도표가 아웃라이어 알고리즘에 대한 파라미터가 변함에 따라 가져야 하는 모양을 나타낼 때까지 값을 체크하는 것이다. 즉, 메트릭은 초기에 파라미터(예를 들어, 잔차 임계치)가 증가함에 따라 증가한 다음 파라미터가 계속 증가함에 따라 (결국 아웃라이어 감지는 모든 점들을 인라이어로 분류하므로) 약간 감소하거나 레벨이 낮아진다.
예를 들어, 도 4는 단일 바이오매스 분석이 수행되는 도 3의 흐름의 수정된 버전에 기초한 CAM 대 잔류 임계치의 도표를 도시한다. 이 예에서, 단일 익스페리먼트에 대한 단일 분석을 위해 아웃라이어 감지를 수행하였다. KLR은 단일 플레이트(즉, 플레이트 레벨의 입도)상에서 단일 익스페리먼트를 위한 일회성 프로세스로서 수행되었다. 이 예에서 예측 엔진은 인라이어 가중치에 대한 고정 값과 아웃라이어에 대한 값 범위를 가정하여 Marques에 사용된 C의 작은 범위의 값(scikit learn에 사용된 C의 역수)을 분석했다.
도 4는 단일 아웃라이어 가중치(예를 들어, 10)에 대한 3개의 상이한 C 값(그래프의 우측 범례에 도시된 바와 같이 0.1, 1.0 및 10.0)에 대한 효과를 도시한다. 잔차 임계치가 증가함에 따라, 알고리즘은 모든 포인트를 인라이어로 식별하고 메트릭이 0이 될 때까지 더 적은 수의 값을 아웃라이어로 지정할 것이다. 잔차 임계치가 모든 값을 인라이어로 지정할 정도로 크면 잔류 임계치는 모든 큰 값들에 대한 경우로 남아 있다. 따라서, 메트릭이 천천히 증가한 다음 0으로 떨어질 때까지 감소할 것으로 예상된다. 그래프에서, 메트릭의 스케일이 다르면 이들 중 일부가 상당히 평평하게 보이지만, C = 1 일 때 예상되는 거동이 더 명확히 나타나므로, 예측 엔진은 C의 값을 설정한 다음 도 5에 도시된 바와 같이 아웃라이어 가중치에 대한 값의 범위(예를 들어, 0.2-15.0)를 탐색할 수 있다는 점에 유의하라.
아웃라이어 가중치(도 5의 그래프 우측 범례에 도시됨)가 10 또는 15인 경우 메트릭 곡선은 예상된 바와 같이 나타난다. 다시 말해, 스케일은 기만적 수 있다. 따라서, 본 발명자는 아웃라이어 가중치가 도 6a에서 1 및 도 6b에서 10인 경우 이 아이디어를 확인하기 위해 아웃라이어 가중치=10 및 1의 개별 그래프를 조사했다.
도면은 대략 유사한 거동을 나타내지만, 매우 다른 스케일로 도시되어 있다. 예로서, 본 개시의 실시예는 하기의 설명에서 C = 1 및 아웃라이어 가중치= 10을 설정한 도 6b의 값으로 진행한다.
커널 로지스틱 회귀는 다변량 데이터를 요구한다. 그러나, 종종 샘플 데이터 세트는 단변량이며, 아웃라이어 감지 알고리즘의 메트릭 및 파라미터 조정은 단변량 및 다변량 데이터 모두에 대해 동일하게 작동하는 것이 바람직하다. 따라서, 본 개시의 실시예는 단변량 데이터를 "지터링"할 수 있다. 실시예에 따르면, 예측 엔진은 단변량 데이터에 대한 지터를 추가하기 위해 KLR(306)의 수정된 버전을 구현할 수 있다. 예측 엔진은 지터에 대한 2가지 최적화를 구현할 수 있다. 하나는 랜덤 지터로, [0,1]에 대한 균일 분포에서 랜덤 샘플 값을 제 2 변수로서 취한다. 예측 엔진은 또한 (예를 들어) 수율 데이터(yield data) 및 바이오매스 데이터에 접근할 수 있다. 예측 엔진은 수율 데이터에서 아웃라이어를 식별할 때 바이오매스 데이터를 제 2 "지터" 변수로서 사용할 수 있다. 이는 바이오매스 데이터가 수율 데이터를 "지터링"하기에 적합한 스케일로 잘 작동한다. 적절한 스케일의 다른 분석법을 사용할 수 있는 경우, 예측 엔진도 또한 사용할 수 있다.
제 3 세트의 최적화는 배경 논의 중 일부에 세부 사항을 추가하는 것으로부터 이점을 얻는다. 본 개시의 실시예의 아웃라이어 감지 알고리즘은 파라미터로서 잔차 임계치를 사용한다. 도 7은 아웃라이어 감지 알고리즘이 다양한 잔차 임계치 범위(예에서 대상 파라미터) 및 각각의 이들 실행에 대해 계산된 균주 당 메트릭에 대해 실행되는 단일 익스페리먼트(시간상 한 지점에서 단일 분석)의 결과를 나타낸다.
그러나, 이는 기술적 문제를 야기한다. 알고리즘을 트레이닝하는 일부로서, 이는 각 익스페리먼트에 대해 잔차 임계치를 튜닝하는 경우 트레이닝 목적을 무효화하고, 각 균주에 대해 튜닝해야 하는 경우에는 더욱 악화된다. 그렇게 하면 아웃라이어 감지 알고리즘은 효과가 없게 된다. 이 문제에 대한 해결책으로서, 본 발명의 실시예는 모든 균주에 대해 "최상의" 임계치를 찾는 데 사용되는 단일 메트릭을 생성하기 위해 매우 미세한 레벨로 메트릭을 집계한 다음, 시간에 걸쳐 모든 균주에 대해 "최상의" 값을 찾기 위해 더 집계한다.
도 8은 도 3의 알고리즘의 수정이며, 본 개시의 실시예에 따른 반복 및 집계 프로세스를 포함한다.
본 개시의 실시예에 따르면, 사용자는 튜닝할 파라미터들의 모임(예를 들어, 1/2의 증분으로 0-20에서 실행되는 잔차 임계치, 1/2의 증분으로 0-10에서 실행되는 값 임계치)을 선택한다(1002). 예측 엔진이 선택한 세트를 반복한다. 실시예에서, 사용자는 이 선택된 파라미터들의 모임에 대해 무차별 대입 그리드 검색(brute-force grid search)을 수행할 수 있고[Bergstra et. al., Shahriari et. al., Snoek et. al.], Derivative-free optimization [Conn et. al., Rios and Sahinidis], Sequential Experimental Design [Chernoff], and assorted variants of the multi-armed bandit problem [Ginebra and Clayton, Lisha et. al., Srinivas et. al.], 이러한 분야에 인용된 상기 참조문헌 모두는 본 명세서에 전체적으로 참조로 합체되어 있다. 이 리스트는 대표적이며 활발한 연구 분야이므로 유일하지 않다. Golovin 등이 이러한 기술에 대한 개요를 갖고 있다.
예측 엔진은 아웃라이어 감지 알고리즘을 실행하거나 아웃라이어 감지 알고리즘의 결과를 수신할 수 있다(1004). 아웃라이어 감지 알고리즘은 인라이어 또는 아웃라이어로 라벨링된 데이터로 분석 데이터(1005)를 생성한다. 익스페리먼트로부터의 공지된 관찰에 기초하여, 아웃라이어 감지 알고리즘은 객체(예를 들어, 균주 복제)의 성능 측정치를 그룹화하여 인라이어와 아웃라이어 간의 분할에 가장 적합할 수 있는 분포를 제공하도록 구성될 수 있다. 이 예에서, 도 1b의 역가 측정의 측정값과 유사하게, 균주 복제 성능 측정값이 균주별로 그룹화되고, 아웃라이어 감지 알고리즘은 단일 익스페리먼트를 위한 모든 균주에 대해 모든 플레이트에서 그리고 이 단계에서 단일 파라미터 세트 상에 실행되어 아웃라이어 웰을 결정한다(각 웰은 균주 복제를 보유한다). 알고리즘은 상술한 바와 같은 최소 공분산 행렬식 및 타원 엔벨로프 기술을 이용할 수 있다.
아웃라이어 감지 알고리즘을 위해 선택된 그룹화를 사용하여, KLR 알고리즘은 이 예에 따라 단일 그룹(예를 들어, 여기서 단일 균주, 그러나 다른 실시예에서 단일 플레이트 또는 익스페리먼트일 수 있음)에 대한 객체(여기서는 균주 복제)의 분포에 대해 트레이닝될 수 있다. 그룹이 단일 균주인이 예에서, 예측 엔진은 KLR(1006)을 사용하여 그룹(여기서는 단일 균주) 내의 각 균주 복제(웰)에 대한 균주 복제 측정이 아웃라이어 부류에 속하는 확률을 나타내는 확률(1008)을 생성한다. 본 개시의 실시예에 따르면, KLR 알고리즘은 상술한 바와 같이 확률을 개선하기 위해 감마 및 클래스 가중치를 이용할 수 있다.
본 개시의 실시예에 따르면, 예측 엔진은 상술한 바와 같이 모든 γj에 걸쳐 전체 데이터 세트에 대한 평균 확률 M(X) 및 모든 γj에 걸쳐 라벨링된 후보 아웃라이어의 서브세트에 대한 평균 확률 M(S)를 계산한다(1010).
본 발명의 실시예에 따르면, 예측 엔진은 단일 그룹(여기서는 균주)에 대한 가능성 조정 메트릭(1012)를 계산한다.
본 개시의 실시예에 따르면, 예측 엔진은 그 후 그룹화 내의 다른 그룹(여기서는 다른 균주)에 대한 KLR(1006)을 수행하기 위해 복귀하고 모든 그룹(여기서, 모든 균주)(1014)에 대한 가능성 조정 메트릭을 계속 계산하도록 반복된다. 전체 균주 그룹화가 하나 이상의 플레이트에 있을 수 있으므로 KLR은 여러 플레이트의 균주에서 실행될 수 있음에 유의하라.
이러한 반복을 완료한 후, 예측 엔진은 CAM이 모든 익스페리먼트에 대해 계산되었는지를 결정한다(1016). 그렇지 않다면, 예측 엔진은 다른 익스페리먼트에 대한 아웃라이어 감지(1004)를 수행하기 위해 복귀하거나 결과를 획득하기 위해 반복하고, 본 개시의 실시예에 따라 모든 익스페리먼트에 대한 CAM을 계산하도록 상기 단계들을 계속한다.
이러한 반복을 완료한 후, 예측 엔진은 CAM이 모든 파라미터(예를 들어, 잔차 임계치, 값 임계치)에 대해 계산되었는지를 결정한다(1018). 그렇지 않다면, 예측 엔진은 다른 파라미터 세트에 대한 아웃라이어 감지(1004)를 수행하기 위해 복귀하거나 결과를 획득하도록 반복하고, 본 개시의 실시예에 따라 모든 파라미터 세트에 대한 CAM을 계산하는 단계를 계속한다.
도 8의 상기 설명은 메트릭이 더 다루기 쉬운 각 반복 내에서 매우 미세한 수준으로 CAM(예를 들어, 단일 시간에 대한 단일 분석을 위해 단일 익스페리먼트에서 단일 균주)을 얻는 것을 예시한다. 도 8은 아웃라이어 감지에 사용할 파라미터(예를 들어, 잔차_임계치 및 값_임계치)를 결정하는 데 사용되는 단일 메트릭에 메트릭들을 집계하는 방법을 예시한다. 아래는 본 개시의 실시예들에 따른 집계 프로세스에 대한 추가 세부 내용이다.
집계
상기와 동일한 그룹화 레벨(이 예에서는 균주)에서, 예측 엔진은 CAM을 그룹(여기서는 균주)으로 그룹화하여 각 파라미터 세트에 대한 메트릭을 제공한다. 이는 다른 파라미터로 샘플링된 각 그룹에 대한 CAM의 분포를 나타낸다. 이 분포에서 m1, m2,…,mt를 CAM 메트릭라 하자. 즉, mi은 하나 이상의 파라미터의 각 세트(예를 들어, (잔차 임계치, 값 임계치) 쌍 각 세트)에 대한 단일 CAM이다.
이들 CAM의 각 분포에 대해, 예측 엔진은 mi-μ를 계산함으로써 각 그룹(여기서는 균주)에 대한 CAM을 정규화하고, 여기서
Figure pct00010
(파리마터 세트에 걸친 mi의 평균)이며, 이는 분포를 정규화하여 파라미터에 대한 평균이 0이되도록 한다(1020). 실시예들에서, 정규화는 또한 표준 편차에 의해 CAM 분포를 스케일링하는 것을 포함하므로, 균주 및 시간에 걸친 메트릭 분포에 대한 분산이 동일하다는 가정을 지지하기 위해 모두 평균이 0이고 표준 편차가 1이다.
본 개시의 실시예에 따르면, 예측 엔진은 그룹 내의 모든 객체들(여기서는 모든 균주들)에 대한 정규화를 반복한다(1022). 결과 데이터는 (예를 들어, 균주, 플레이트, 익스페리먼트 및 파라미터로 인덱스된) 모든 균주, 모든 플레이트 및 파라미터에 걸친 모든 익스페리먼트에 대한 표준화된 CAM 분포를 포함한다.
본 개시의 실시예에 따르면, 예측 엔진은 이어서 각 익스페리먼트에 대해 단일 CAM을 얻기 위해, 또한 파라미터별로 인덱스된, 익스페리먼트 레벨보다 더 정교한 레벨의 입도 레벨에 걸쳐(예를 들어, 이 예에서 균주 및 플레이트에 걸쳐) 선형적으로 이동된 정규화 CAM를 집계(예를 들어, 평균)한다. (실시예에 따르면, 예측 엔진은 각 레벨의 입도에서 정규화 및 집계될 수 있다.) 예측 엔진은 익스페리먼트에 대한 CAM을 정규화하고(1024), 모든 익스페리먼트의 세트에서 각 익스페리먼트에 대한 정규화를 반복할 수 있다(1026). 결과는 각 파라미터 세트에 대한 각 익스페리먼트에 대한 집계 CAM이다.
본 개시의 실시예에 따르면, 예측 엔진은 익스페리먼트에 걸쳐 결과적인 집계 CAM을 집계하여 각 파라미터 세트에 대한 단일 집계 CAM을 얻는다(1028).
본 개시의 실시예에 따르면, 예측 엔진은 최대 집계 CAM에 대한 파라미터 세트를 선택한다(1030). 선택된 파라미터 세트는 아웃라이어 감지 알고리즘에 최적 세트이다.
본 개시의 실시예는 알고리즘 세트로부터 최상의 아웃라이어 감지 알고리즘을 선택할 수 있다. 그렇게 하기 위해, 예측 엔진은 상이한 아웃라이어 감지 알고리즘을 실행하기 위해 도 8의 다이어그램에 다른 반복 루프(미도시)를 포함할 수 있고, CAM의 집계에서 각 알고리즘으로부터 유래된 결과를 포함할 수 있다. 이러한 실시예에서, 예측 엔진은 각각의 아웃라이어 감지 알고리즘(1002)을 실행하고, 이러한 각각의 알고리즘에 대한 최상의 파라미터(예를 들어, 임계치 파라미터)를 식별하며, 최상의 (예를 들어, 가장 큰) CAM을 사용하여 최상의 아웃라이어 감지 알고리즘을 식별할 수 있다.
추가 최적화는 시간에 관한 것이다. 커널 로지스틱 회귀 분석을 여러 번 실행하면 속도가 느려질 수 있다. 따라서, 본 개시의 실시예에서, 예측 엔진은 예를 들어, 초기에 잔차 임계치를 (2, 6, 10, 14) 및 값 임계치(0, 4, 8)으로 설정하여도 9의 결과를 얻을 수 있고, 상기 도 9에서 도표 우측의 범례는 다른 초기 값 임계치 설정을 나타낸다.
본 발명자의 경험에 기초하여, 본 발명자는 이러한 많은 분포의 변화가 거의 동일하다고 가정한다. 이는 많은 분포를 비교할 수 있게 하고, 따라서 (평균과 같은) 표준 집계 기술을 사용하여 균주 및 시점에 걸쳐 메트릭을 파라미터 당 단일 메트릭로 집계할 수 있다. 본 개시의 실시예는 평균을 사용한다.
익스페리먼트는 값 임계치가 이 예에서 거의 영향을 미치지 않지만(정의상, 양수여야 함), 이들 데이터에 대한 잔차 임계치는 대략 6이어야 하고, 6에 가까운 메트릭이 6보다 훨씬 더 우수할 수 있음을 보여준다. 따라서, 본 발명자는 파라미터: 잔차 임계치(4, 5, 6, 7, 8, 9, 10) 및 값 임계치(4, 6)를 사용하여 이 프로세스를 다시 수행하며, 상기 값 임계치가 이 예에서 이를 확인하도록 선택된 경우, 영향이 적다. 그 결과를 이용해, 본 발명자는 0.5 스케일로 익스페리먼트를 다시 실행했다. 이러한 조건 하에서 결과를 이용해, 조건을 계속 개선할 수 있다. 본 개시의 실시예는 0.5의 스케일을 이용한다.
익스페리먼트 예
이 섹션에서 두 가지 예를 제공한다. 첫 번째는 단변량 데이터로 처리된 두 가지 다른 분석에서 아웃라이어 감지를 사용한다. 아웃라이어 감지를 위한 알고리즘을 선택하기 위해 본 개시의 실시예를 사용하는 것을 예시하고, 아웃라이어 감지를 사용하는 것은 생산을 위한 균주를 선택하기 위한 예측 능력을 향상시킨다는 것을 예시한다. 두 번째는 예측 능력을 향상시키는 하나의 특정 아웃라이어 감지 다변량 알고리즘을 튜닝하기 위해 본 발명의 실시예를 사용하는 것을 도시한다.
본 발명자들은 SScikit-leam: Machine Learning in Python. Pedregosa et al, JMLR 12, pp. 2825-2830, 2011, API design for machine learning software: experiences from the scikit-leam project. Buitinck et al. , 2013, scikit-learn vO.19.1 : Local Outlier Factor (LOF), Elliptic Envelope (EE), Isolation Forest (IF), and One-Class SVM (SVM)에 제공된 4가지 아웃라이어 감지 알고리즘을 사용하였다. 이 예는 이러한 알고리즘 중에서 선택하는 것을 보여주므로. 이러한 알고리즘에 대한 하이퍼파라미터에 대한 표준 값을 사용한다.
LOF, EE 및 IF의 경우, 데이터는 일반적으로 약 3-5%의 데이터를 아웃라이어로 갖기 때문에 오염 = 0.04로 설정한다. 본 개시의 실시예는 이 파라미터를 튜닝하는데 사용될 수 있다. 또한 LOF의 경우에는, n neighbours = 35를 사용했으며 EE의 경우에는 max samples = 데이터 세트의 행 갯수로 설정했다. SVM의 경우에, 래디얼 커널(rbf), nu = 0.95 * 0.04 +0.05 및 감마 = 0을 사용하였으며, 본 개시의 실시예는 이들을 튜닝하는데 사용될 수 있다. 생산용 유기체를 선택하기 위해 유기체 성능을 예측하기 위한 선형 모델에 사용된 2개의 서로 다른 우량 측정에서 4가지 알고리즘을 모두 테스트했다. (1)로우 데이터와 (2) 아웃라이어 감지가 적용된 데이터에 대해 2가지 선형 모델을 트레이닝했다. 두 번째 경우에는, CAM이 가장 큰 알고리즘을 사용했다. 모델을 비교하기 위해, 테스트 데이터(모델 트레이닝에 사용되지 않은 데이터)에 퍼센트 에러 메트릭을 사용했다.
두 번째 경우에 대한 제 1 측정에 대해, 본 개시의 실시예는 다음의 CAM을 제공한다:
아웃라이어 알고리즘 CAM
IF 0.011609
EE 0.010588
SVM 0.007929
LOF -0.030126
두 번째 경우에 대한 제 2 측정에 대해, 본 개시의 실시예는 다음의 CAM을 제공한다:
아웃라이어 알고리즘 CAM
LOF 0.100256
IF 0.007102
EE -0.014298
SVM -0.093060
양식 생산 메트릭 = a + b_l * measurement_l + b_2 * measurement_2의 표준 선형 모형을 피팅했고, 첫 번째의 경우 39.7% 에러(RMSE/실제 생산 메트릭의 평균)를 얻었으며 두 번째 경우에는 단지 38.8% 에러를 얻었다.
본 개시의 실시예에 따르면, 아웃라이어 감지가 상기 예 1에서와 같이 측정에서 별개로 실행되거나 예 2에서와 같이 함께(다변량) 실행될 수 있다. 예 1에서와 같이, 예 2에 대해, (1) 로우 데이터 및 (2) 아웃라이어 감지가 적용된 데이터에 대해 2개의 선형 모델을 트레이닝했다. 두 번째 경우에는, CAM이 가장 큰 파라미터를 사용했다. 모델을 비교하기 위해, 테스트 데이터(모델 트레이닝에 사용되지 않은 데이터)에 퍼센트 에러 메트릭을 사용했다.
사용된 파라미터의 모임(1002)은 1/2 증분시 3에서 11.5까지의 잔차 임계치이고, 1 증분에서는 1에서 7까지의 값 임계치였다. 가장 큰 CAM은 0.02199이고, 상응하는 파라미터는 잔류 임계치 = 4이고 값 임계치 = 5이다. 아웃라이어 감지가 사용되지 않은 첫 번째 경우, 퍼센트 에러는 26.4%이고 두 번째 경우 에러는 17.4%이다. 도 12에서 3개의 플레이트 값에 해당하는 데이터를 도시했다. 도 12는 이 예의 잔차 임계치와 함께 인라이어와 아웃 라이어를 나타낸다.
본 개시의 실시예는 다른 최적화를 구현할 수 있다.
균주의 스케일에서, 본 발명자는 일부 균주는 아웃라이어가 없는 측정치를 갖고 일부는 모든 측정치가 아웃라이어인 것으로 결정되는 측정치를 가질 것으로 예상한다. 본 개시의 실시예에 따르면, 가능성 조정 메트릭의 계산은 이러한 경우를 올바르게 처리한다. 이 경우 커널 로지스틱 회귀는 필요하지 않지만 확률과 메트릭은 여전히 필요하다. 모든 측정이 인라이어로 식별되면 이들이 아웃라이어인 확률은 0이고, 모든 측정이 아웃라이어로 식별되면 이들이 인라이어인 확률은 1이다. 가능성 조정 메트릭과 관련하여, 첫 번째 경우(아웃라이어 없음)는 메트릭이 0이되고 두 번째 경우(모든 아웃라이어)는 메트릭가 정의되지 않는다. 예측 엔진은 이러한 메트릭에 걸쳐 집계할 수 있기 때문에, (모든 점들을 아웃라이어로 라벨링하지만 다른 라벨에 비해 너무 많지는 않도록 페널티를 부과하기 위해) 모든 측정 값이 인라이어로 표시될 경우 이 경우에 대해 1/8과 같은 수로 상기 메트릭을 설정할 수 있고, 모든 측정 값이 아웃라이어로 표시될 때 -1로 상기 메트릭을 설정할 수 있다. 이들은 데이터를 사용하여 추가로 조정될 수 있다.
머신 러닝
본 개시의 실시예는 주어진 파라미터(특징)와 관찰된 결과(예를 들어, 아웃라이어 상태의 결정) 사이의 관계를 학습하기 위해 머신 러닝("ML") 기술을 적용 할 수 있다. 이 틀에서, 실시예는 표준 ML 모델, 예를 들어, 특징 중요도를 결정하기 위한 의사결정 트리를 사용할 수 있다. 일반적으로, 머신 러닝은 제한된 수의 라벨이 붙은 데이터 예를 사용하여 (분류 또는 회귀와 같은) 정보 작업의 성능에 있어, 성능 기준, 예를 들어, 파라미터, 기술 또는 기타 특징의 최적화로 설명될 수 있고, 그런 후 미지의 데이터에 대한 동일한 작업을 수행한다. 선형 회귀를 이용하는 접근법과 같은 지도 머신 러닝에서, 머신(예를 들어, 컴퓨팅 장치)은 예를 들어 패턴, 카테고리, 통계적 관계, 또는 트레이닝 데이터에 의해 나타나는 다른 속성을 식별함으로써 학습한다. 학습 결과는 새로운 데이터가 동일한 패턴, 카테고리, 통계적 관계 또는 다른 속성을 나타내는 지 여부를 예측하는 데 사용된다.
본 개시의 실시예는 비지도 머신 러닝을 사용한다. 대안으로, 일부 실시예는 아웃라이어 알고리즘에 의해 아웃라이어 및 인라이어로 라벨링된 데이터에 확률을 할당하기 위해 소량의 라벨링된 데이터 및 대량의 라벨링되지 않은 데이터를 사용(예를 들어, KLR과는 다른 사용 방법)하는 비지도 머신 러닝을 이용할 수 있다. 본 개시의 실시예는 KLR의 파라미터를 학습하거나 아웃라이어 감지 그 자체를 위해 다른 ML 알고리즘을 사용할 수 있다. 실시예는 또한 머신 러닝 모델의 성능을 최적화하기 위해 가장 관련된 특징의 서브세트를 선택하기 위해 특징 선택을 이용할 수 있다. 대안으로서 또는 선형 회귀에 추가하여, 선택된 머신 러닝 접근법의 유형에 따라, 실시예는 예를 들어 로지스틱 회귀, 신경망, 서포트 벡터 머신(SVM), 의사 결정 트리, 은닉 마코프 모델, 베이지안 네트워크, 그람 슈미트, 강화 기반 학습, 계층적 클러스터링을 포함한 클러스터 기반, 유전자 알고리즘 및 당업계에 공지된 임의의 다른 적합한 러닝 머신을 이용할 수 있다. 특히, 실시예는 분류 자체와 함께 분류 확률을 제공하기 위해 로지스틱 회귀를 사용한다. 예를 들어, Shevade, A simple and efficient algorithm for gene selection using sparse logistic regression, Bioinformatics, Vol. 19, No. 17 2003, pp. 2246-2253, Leng, et al., Classification using functional data analysis for temporal gene expression data, Bioinformatics, Vol. 22, No. 1, Oxford University Press (2006), pp. 68-76를 참조하라. 이들 모두는 본원에 전체적으로 참고로 포함되어 있다.
실시예는 특히 DNN(Deep Neural Network)으로 알려진 형태로 머신 러닝 작업을 수행함에 있어 증가하는 인기도(popularity)를 발견한 GPU(Graphics Processing Unit) 가속 아키텍처를 사용할 수 있다. 본 개시의 실시예들은 가령 GPU-Based Deep Learning Inference: A Performance and Power Analysis, NVidia Whitepaper, November 2015, Dahl, et al., Multi-task Neural Networks for QSAR Predictions, Dept of Computer Science, Univ. of Toronto, June 2014 (arXiv: 1406.1231 [stat.ML])에 기술된 GPU 기반 머신 러닝을 이용할 수 있으며, 이들 모두는 본 명세서에 전체적으로 참고로 포함된다. 본 개시의 실시예에 적용 가능한 머신 러닝 기술은 다른 참고 문헌들 중에서도 Libbrecht, et al., Machine learning applications in genetics and genomics, Nature Reviews: Genetics, Vol. 16, June 2015, Kashyap, et al., Big Data Analytics in Bioinformatics: A Machine Learning Perspective, Journal of Latex Class Files, Vol. 13, No. 9, Sept. 2014, Prompramote, et al., Machine Learning in Bioinformatics, Chapter 5 of Bioinformatics Technologies, pp. 117- 153, Springer Berlin Heidelberg 2005에서 찾을 수 있으며, 이들 모두는 본 명세서에 전체적으로 참고로 포함된다.
컴퓨팅 환경
도 10은 본 개시의 실시예에 따른 클라우드 컴퓨팅 환경을 도시한다. 본 개시의 실시예에서, 예측 엔진 소프트웨어(2010)는 다수의 사용자가 본 개시의 실시예를 구현할 수 있도록 클라우드 컴퓨팅 시스템(2002)에서 구현될 수 있다. 도 11에 도시된 것과 같은 클라이언트 컴퓨터(2006)는 인터넷과 같은 네트워크(2008)를 통해 시스템에 액세스한다. 시스템은 도 11에 도시된 유형의 하나 이상의 프로세서를 사용하는 하나 이상의 컴퓨팅 시스템을 사용할 수 있다. 클라우드 컴퓨팅 시스템 그 자체는 네트워크(2008)를 통해 클라이언트 컴퓨터(2006)에 소프트웨어(2010)를 인터페이스하기 위한 네트워크 인터페이스(2012)를 포함한다. 인터페이스(2012)는 클라이언트 컴퓨터(2006)의 클라이언트 애플리케이션이 시스템 소프트웨어(2010)에 액세스할 수 있게 하는 API(application programming interface)를 포함할 수 있다. 특히, API를 통해, 클라이언트 컴퓨터(2006)는 예측 엔진에 액세스할 수 있다.
SaaS(Software as a Service) 소프트웨어 모듈(2014)은 클라이언트 컴퓨터(2006)에 대한 서비스로서 시스템 소프트웨어(2010)를 제공한다. 클라우드 관리 모듈(2016)은 클라이언트 컴퓨터(2006)에 의해 소프트웨어(2010)에 대한 액세스를 관리한다. 멀티테넌트 애플리케이션, 가상화 또는 당업계에 알려진 다른 아키텍처를 사용하는 클라우드 아키텍처가 다중 사용자에게 서비스를 제공할 수 있다.
도 11은 본 개시의 실시예에 따른 비일시적 컴퓨터 판독가능 매체(예를 들어, 메모리)에 저장된 프로그램 코드를 실행하는 데 사용될 수 있는 컴퓨터 시스템(1100)의 예를 도시한다. 컴퓨터 시스템은 입출력 서브시스템(1102)을 포함하며, 이는 애플리케이션에 따라 인간 사용자 및/또는 다른 컴퓨터 시스템과 인터페이스하는데 사용될 수 있다. I/O 서브시스템(1102)은 예를 들어 키보드, 마우스, 그래픽 사용자 인터페이스, 터치 스크린, 또는 입력용 기타 인터페이스, 및, 예를 들어, LED 또는 다른 평면 스크린 디스플레이, 또는 APIs(Application Program Interfaces)를 포함하는 출력용 기타 인터페이스를 포함할 수 있다. 예측 엔진과 같은 본 개시의 실시예들의 다른 요소들은 컴퓨터 시스템(1100)의 것과 유사한 컴퓨터 시스템으로 구현될 수 있다.
프로그램 코드는 보조 메모리(1110) 또는 메인 메모리(1108) 또는 둘 다에 영구 저장장치와 같은 비일시적 매체에 저장될 수 있다. 메인 메모리(1108)는 랜덤 액세스 메모리(RAM)와 같은 휘발성 메모리 또는 판독 전용 메모리(ROM)와 같은 비 휘발성 메모리뿐만 아니라 명령어 및 데이터에 대한 더 빠른 액세스를 위한 상이한 레벨의 캐시 메모리를 포함할 수 있다. 보조 메모리는 솔리드 스테이트 드라이브, 하드 디스크 드라이브 또는 광 디스크와 같은 영구 저장장치를 포함할 수 있다. 하나 이상의 프로세서(1104)는 하나 이상의 비일시적 매체로부터 프로그램 코드를 판독하고 컴퓨터 시스템이 본 명세서의 실시예에 의해 수행된 방법을 달성할 수 있도록 코드를 실행한다. 당업자는 프로세서(들)가 소스 코드를 입수하고, 상기 소스 코드를 프로세서(1104)의 하드웨어 게이트 레벨에서 이해할 수 있는 머신 코드로 해석 또는 컴파일할 수 있음을 이해할 것이다. 프로세서(들)(1104)는 컴퓨팅 집약적인 작업을 처리하기 위한 그래픽 처리 장치(GPU)를 포함할 수 있다.
프로세서(들)(1104)는 네트워크 인터페이스 카드, WiFi 트랜시버 등과 같은 하나 이상의 통신 인터페이스(1107)를 통해 외부 네트워크와 통신할 수 있다. 버스(1105)는 I/O 서브시스템(1102), 프로세서(들)(1104), 주변 장치(1106), 통신 인터페이스(1107), 메모리(1108) 및 영구 저장장치(1110)와 통신 가능하게 연결된다. 본 개시의 실시예는 이 대표적인 아키텍처로 국한되지 않는다. 대안적인 실시예는 상이한 구성 및 유형의 구성요소, 예를 들어 입출력 구성요소 및 메모리 서브시스템용의 별개의 버스를 이용할 수 있다.
당업자는 본 개시의 실시예들의 일부 또는 모든 요소들 및 이들의 수반되는 동작들이 하나 이상의 프로세서 및 컴퓨터 시스템(1100)의 요소들과 같은 하나 이상의 메모리 시스템을 포함하는 하나 이상의 컴퓨터 시스템에 의해 전체적으로 또는 부분적으로 구현될 수 있음을 이해할 것이다. 특히, 예측 엔진의 요소들 및 본 명세서에 기술된 임의의 다른 자동화된 시스템 또는 장치는 컴퓨터로 구현될 수 있다. 일부 요소 및 기능은 로컬로 구현될 수 있고, 다른 요소는 예를 들어 클라이언트-서버 방식으로 다른 서버를 통해 네트워크를 통해 분산 방식으로 구현될 수 있다. 특히, 서버측 동작은 도 10과 같이 SaaS(Software as a Service) 방식으로 여러 클라이언트에 이용될 수 있다.
당업자는, 일부 실시예에서, 본 명세서에 기술된 일부 동작이 인간 구현에 의해 또는 자동 및 수동 수단의 조합을 통해 수행될 수 있음을 인식할 것이다. 동작이 완전히 자동화되지 않은 경우, 예를 들어 예측 엔진의 적절한 구성요소들이 그 자신의 동작 능력을 통해 결과를 생성하는 대신에 동작의 인간 수행 결과를 수신할 수 있다.
참조에 의한 통합
본 명세서에 인용된 모든 참고 문헌, 논문, 간행물, 특허, 특허 간행물 및 특허 출원은 모든 목적을 위해 그 전문이 참조로 포함된다. 그러나, 여기에 인용된 모든 참고 문헌, 논문, 간행물, 특허, 특허 간행물 및 특허 출원에 대한 언급은 이들이 전 세계 모든 국가에서 유효한 선행 기술을 구성하거나 통상의 일반적인 지식의 일부를 구성하거나, 이들이 공개 필수 자료임을 인정 또는 임의의 제안 형태로 간주되어서는 안된다.
본 개시는 본 명세서에 기술된 일부 실시예들 또는 특징들이 본 명세서에 기술된 다른 실시예들 또는 특징들과 조합될 수 있다는 것을 명시적으로 개시하지 않을 수 있지만, 본 개시는 당업자에 의해 실현될 수 있는 임의의 그러한 조합들을 기술하는 것으로 읽혀져야 한다. 본 명세서에서 "또는"의 사용은 본 명세서에서 달리 지시되지 않는 한 비배타적, 즉 "및/또는"을 의미하는 것으로 이해되어야 한다.
이하의 청구 범위에서, "청구항 x로 시작하는 이전 청구항들 중 어느 하나"를 인용하는 청구항은 청구항 x로 시작하고 직전 청구항(청구항 n-1)으로 끝나는 청구항들 중 어느 하나를 가리킨다. 예를 들어, "제 28 항으로 시작하는 이전 청구항 중 어느 한 항의 시스템"을 인용하는 청구항 35는 청구항들 중 어느 한 항의 시스템을 가리킨다.

Claims (51)

  1. 객체의 모임으로부터 아웃라이어 객체를 식별하기 위한 하나 이상의 아웃라이어 감지 파라미터를 결정하는 것에 적어도 부분적으로 기초하여 생산용 유기체를 식별하기 위한 컴퓨터 구현 방법으로서,
    (a) 하나 이상의 아웃라이어 감지 파라미터의 제 1 세트에 적어도 부분적으로 기초하고 각각이 객체의 모임들 중 한 객체에 해당하는 유기체 성능을 나타내는 성능 메트릭 세트를 포함하는 데이터 세트로부터 하나 이상의 후보 아웃라이어 오브젝트를 식별하는 단계;
    (b) 각각이 하나 이상의 후보 아웃라이어 객체가 아웃라이어 클래스에 속할 우도를 나타내는 확률 메트릭의 세트를 결정하는 단계;
    (c) 집계 확률 메트릭 세트를 생성하기 위해 확률 메트릭 세트 내에서 확률 메트릭을 처리하는 단계;
    (d) 상기 집계 확률 메트릭의 크기에 적어도 부분적으로 기초하여 하나 이상의 아웃라이어 감지 파라미터의 제 2 세트를 선택하는 단계; 및
    (e) 생산용 유기체를 선택하기 위한 목적으로 유기체 성능을 예측하는 데 있어 고려사항을 배제하기 위해, 아웃라이어 감지 파라미터의 제 2 세트에 적어도 부분적으로 기초하여, 데이터 세트 중 하나 이상의 제 2 아웃라이어 객체를 식별하는 단계를 포함하는 생산용 유기체를 식별하기 위한 컴퓨터 구현 방법.
  2. 제 1 항에 있어서,
    아웃라이어 감지 파라미터의 제 1 세트는 아웃라이어 감지 임계치를 포함하는 생산용 유기체를 식별하기 위한 컴퓨터 구현 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    아웃라이어 감지 파라미터의 제 2 세트는 아웃라이어 감지 임계치를 포함하는 생산용 유기체를 식별하기 위한 컴퓨터 구현 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    아웃라이어 감지 파라미터의 제 2 세트를 식별하는 단계는 가장 큰 우도를 나타내는 집계 확률 메트릭 세트 중 하나의 집계 확률 메트릭의 크기에 적어도 부분적으로 기초하는 생산용 유기체를 식별하기 위한 컴퓨터 구현 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    유기체 성능이 관심 생성물의 생산에 관련된 생산용 유기체를 식별하기 위한 컴퓨터 구현 방법.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    유기체 성능이 수율에 관련된 생산용 유기체를 식별하기 위한 컴퓨터 구현 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    확률 메트릭 세트를 결정하는 단계는 로지스틱 회귀를 이용하는 단계를 포함하고, 상기 확률 메트릭은 가능성 조정 메트릭인 생산용 유기체를 식별하기 위한 컴퓨터 구현 방법.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    처리하는 단계는 특정 익스페리먼트의 집계 확률 메트릭을 생성하기 위해 익스페리먼트에 의해 확률 메트릭을 처리하는 단계를 포함하는 생산용 유기체를 식별하기 위한 컴퓨터 구현 방법.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    로지스틱 회귀 공간에서 유기체 성능의 차원과 직교하는 차원으로 데이터 세트의 샘플을 지터링하는 단계를 포함하는 생산용 유기체를 식별하기 위한 컴퓨터 구현 방법.
  10. 제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
    샘플 세트를 형성하기 위해 객체 그룹으로부터 하나 이상의 제 2 아웃라이어 객체를 제외하는 단계; 및
    샘플 세트에서 유기체에 대한 유기체 성능을 예측하는 단계를 더 포함하는 생산용 유기체를 식별하기 위한 컴퓨터 구현 방법.
  11. 제 10 항에 있어서,
    예측된 유기체 성능에 적어도 부분적으로 기초한 생산용 샘플 세트로부터 유기체를 선택하는 단계를 더 포함하는 생산용 유기체를 식별하기 위한 컴퓨터 구현 방법.
  12. 제 11 항에 있어서,
    선택된 유기체를 생산하는 단계를 더 포함하는 생산용 유기체를 식별하기 위한 컴퓨터 구현 방법.
  13. 제 1 항 내지 제 12 항 중 어느 한 항에 있어서,
    하나 이상의 후보 아웃라이어 객체를 식별하는 단계는 아웃라이어 감지 알고리즘 세트의 각각의 아웃라이어 감지 알고리즘에 의해 수행되며, 상기 방법은:
    상기 아웃라이어 감지 알고리즘 세트의 각각의 알고리즘에 대한 집계 확률 메트릭 세트를 생성하는 단계;
    상기 집계 확률 메트릭 세트 중 가장 큰 집계 확률 메트릭을 식별하는 단계; 및
    최적의 아웃라이어 감지 알고리즘으로서 가장 큰 집계 확률 메트릭과 관련된 아웃라이어 감지 알고리즘을 선택하는 단계를 포함하는 생산용 유기체를 식별하기 위한 컴퓨터 구현 방법.
  14. 제 1 항 내지 제 13 항 중 어느 한 항에 있어서,
    각각의 객체는 균주 복제를 나타내고, 하나 이상의 후보 아웃라이어 객체를 식별하는 단계는 데이터 세트의 균주 복제를 균주별로 그룹화하는 단계를 포함하는 생산용 유기체를 식별하기 위한 컴퓨터 구현 방법.
  15. 제 1 항 내지 제 14 항 중 어느 한 항에 있어서,
    각각의 객체는 균주 복제를 나타내고, 하나 이상의 후보 아웃라이어 객체를 식별하는 단계는 데이터 세트에서 균주 복제를 플레이트별로 그룹화하는 단계를 포함하는 생산용 유기체를 식별하기 위한 컴퓨터 구현 방법.
  16. 제 1 항 내지 제 15 항 중 어느 한 항에 있어서,
    각각의 객체는 균주 복제를 나타내고, 하나 이상의 후보 아웃라이어 객체를 식별하는 단계는 데이터 세트에서 균주 복제를 익스페리먼트별로 그룹화하는 단계를 포함하는 생산용 유기체를 식별하기 위한 컴퓨터 구현 방법.
  17. 제 1 항 내지 제 17 항 중 어느 한 항의 방법을 사용하여 생산된 유기체.
  18. 객체의 모임으로부터 아웃라이어 객체를 식별하기 위한 하나 이상의 아웃라이어 감지 파라미터들을 결정하는 것에 적어도 부분적으로 기초하여 생산용 유기체를 식별하기 위한 시스템으로서,
    하나 이상의 프로세서; 및
    상기 하나 이상의 프로세서 중 적어도 하나에 의한 실행시, 시스템으로 하여금:
    (a) 하나 이상의 아웃라이어 감지 파라미터의 제 1 세트에 적어도 부분적으로 기초하고 각각이 객체의 모임들 중 한 객체에 대응하는 유기체 성능을 나타내는 성능 메트릭 세트를 포함하는 데이터 세트로부터 하나 이상의 후보 아웃라이어 객체를 식별하고,
    (b) 각각의 확률 메트릭이 하나 이상의 후보 아웃라이어 객체가 아웃라이어 클래스에 속할 우도를 나타내는 확률 메트릭 세트를 결정하며,
    (c) 집계 확률 메트릭 세트를 생성하기 위해 상기 확률 메트릭 세트 내에서 확률 메트릭을 처리하고,
    (d) 상기 집계 확률 메트릭의 크기에 적어도 부분적으로 기초하여 하나 이상의 아웃라이어 감지 파라미터의 제 2 세트를 선택하며;
    (e) 생산용 유기체를 선택할 목적으로 유기체 성능을 예측하는 데 있어 고려사항을 배제하기 위해, 적어도 부분적으로 아웃라이어 감지 파라미터의 제 2 세트에 기초하여 데이터 세트의 하나 이상의 제 2 아웃라이어 객체를 식별하게 하는 명령어를 저장하는 하나 이상의 메모리를 포함하는 생산용 유기체를 식별하기 위한 시스템.
  19. 제 18 항에 있어서,
    아웃라이어 감지 파라미터의 제 1 세트는 아웃라이어 감지 임계치를 포함하는 생산용 유기체를 식별하기 위한 시스템.
  20. 제 18 항 또는 제 19 항에 있어서,
    아웃라이어 감지 파라미터의 제 2 세트는 아웃라이어 감지 임계치를 포함하는 생산용 유기체를 식별하기 위한 시스템.
  21. 제 18 항 내지 제 20 항 중 어느 한 항에 있어서,
    아웃라이어 감지 파라미터의 제 2 세트를 식별하는 단계는 가장 큰 우도를 나타내는 집계 확률 메트릭 세트 중 하나의 집계 확률 메트릭의 크기에 적어도 부분적으로 기초하는 생산용 유기체를 식별하기 위한 시스템.
  22. 제 18 항 내지 제 21 항 중 어느 한 항에 있어서,
    유기체 성능이 관심 생성물의 생산에 관련된 생산용 유기체를 식별하기 위한 시스템.
  23. 제 18 항 내지 제 22 항 중 어느 한 항에 있어서,
    유기체 성능이 수율에 관련된 생산용 유기체를 식별하기 위한 시스템.
  24. 제 18 항 내지 제 23 항 중 어느 한 항에 있어서,
    확률 메트릭 세트를 결정하는 단계는 로지스틱 회귀를 이용하는 단계를 포함하고, 상기 확률 메트릭은 가능성 조정 메트릭인 생산용 유기체를 식별하기 위한 시스템.
  25. 제 18 항 내지 제 24 항 중 어느 한 항에 있어서,
    처리하는 단계는 특정 익스페리먼트의 집계 확률 메트릭을 생성하기 위해 익스페리먼트에 의해 확률 메트릭을 처리하는 단계를 포함하는 생산용 유기체를 식별하기 위한 시스템.
  26. 제 18 항 내지 제 25 항 중 어느 한 항에 있어서,
    하나 이상의 메모리는 하나 이상의 프로세서 중 적어도 하나에 의한 실행시 상기 시스템이 로지스틱 회귀 공간에서 유기체 성능의 차원에 직교하는 차원으로 상기 데이터 세트의 샘플을 지터링하게 하는 명령어를 저장하는 생산용 유기체를 식별하기 위한 시스템.
  27. 제 18 항 내지 제 26 항 중 어느 한 항에 있어서,
    하나 이상의 메모리는 하나 이상의 프로세서 중 적어도 하나에 의한 실행시 상기 시스템이:
    샘플 세트를 형성하기 위해 객체 그룹으로부터 하나 이상의 제 2 아웃라이어 객체를 제외하고;
    상기 샘플 세트에서 유기체에 대한 유기체 성능을 예측하게 하는 명령어를 저장하는 생산용 유기체를 식별하기 위한 시스템.
  28. 제 27 항에 있어서,
    하나 이상의 메모리는 하나 이상의 프로세서 중 적어도 하나에 의한 실행시 상기 시스템이 예측된 유기체 성능에 적어도 부분적으로 기초하여 생산용 샘플 세트로부터 유기체를 선택하게 하는 명령어를 저장하는 생산용 유기체를 식별하기 위한 시스템.
  29. 제 28 항에 있어서,
    하나 이상의 메모리는 하나 이상의 프로세서 중 적어도 하나에 의한 실행시 상기 시스템이 상기 선택된 유기체를 생산하게 하는 명령을 저장하는 생산용 유기체를 식별하기 위한 시스템.
  30. 제 18 항 내지 제 29 항 중 어느 한 항에 있어서,
    하나 이상의 후보 아웃라이어 객체를 식별하는 단계는 아웃라이어 감지 알고리즘 세트의 각각의 아웃라이어 감지 알고리즘에 의해 수행되고, 상기 하나 이상의 메모리는:
    상기 아웃라이어 감지 알고리즘 세트의 각각의 알고리즘에 대한 집합 확률 메트릭 세트를 생성하고,
    집계 확률 메트릭의 세트 중 가장 큰 집계 확률 메트릭을 식별하며,
    최적의 아웃라이어 감지 알고리즘으로서 가장 큰 집계 확률 메트릭과 관련된 아웃라이어 감지 알고리즘을 선택하게 하는 명령어를 더 저장하는 생산용 유기체를 식별하기 위한 시스템.
  31. 제 18 항 내지 제 30 항 중 어느 한 항에 있어서,
    각각의 객체는 균주 복제를 나타내고, 하나 이상의 후보 아웃라이어 객체를 식별하는 것은 데이터 세트에서의 균주 복제를 균주별로 그룹화하는 것을 포함하는 생산용 유기체를 식별하기 위한 시스템.
  32. 제 18 항 내지 제 31 항 중 어느 한 항에 있어서,
    각각의 객체는 균주 복제를 나타내고, 하나 이상의 후보 아웃라이어 물체를 식별하는 것은 데이터 세트에서 균주 복제를 플레이트별로 그룹화하는 것을 포함하는 생산용 유기체를 식별하기 위한 시스템.
  33. 제 18 항 내지 제 32 항 중 어느 한 항에 있어서,
    각각의 객체는 균주 복제를 나타내고, 하나 이상의 후보 아웃라이어 대상을 식별하는 것은 데이터 세트에서 균주 복제를 익스페리먼트별로 그룹화하는 것을 포함하는 것 인 생산용 유기체를 식별하기 위한 시스템.
  34. 제 18 항 내지 제 33 항 중 어느 한 항의 시스템을 사용하여 생산된 유기체.
  35. 객체의 모임으로부터 아웃라이어 객체를 식별하기 위해 하나 이상의 아웃라이어 감지 파라미터를 결정하는 것에 적어도 부분적으로 기초한 생산용 유기체를 식별하기 위한 명령어를 저장하는 하나 이상의 비일시적 컴퓨터 판독가능 매체로서,
    상기 명령어는 하나 이상에 의한 실행시 하나 이상의 컴퓨팅 장치 중 적어도 하나가:
    (a) 하나 이상의 아웃라이어 감지 파라미터의 제 1 세트에 적어도 부분적으로 기초하고 각각이 객체의 모임에 상응하는 유기체 성능을 나타내는 성능 메트릭 세트를 포함하는 데이터 세트로부터 하나 이상의 후보 아웃라이어 객체를 식별하고,
    (b) 각각이 하나 이상의 후보 아웃라이어 객체가 아웃라이어 클래스에 속할 우도를 나타내는 확률 메트릭 세트를 결정하며,
    (c) 집계 확률 메트리스 세트를 생성하기 위해 상기 확률 메트릭 세트 내에 확률 메트릭을 처리하고,
    (d) 상기 집계 확률 메트릭의 크기에 적어도 부분적으로 기초하여 하나 이상의 아웃라이어 감지 파라미터의 제 2 세트를 선택하며,
    (e) 생산용 유기체를 선택할 목적으로 유기체 성능을 예측하는데 있어 고려사항을 배제하기 위해, 아웃라이어 감지 파라미터의 제 2 세트에 적어도 부분적으로 기초하여 데이터 세트의 하나 이상의 제 2 아웃라이어 객체를 식별하게 하는 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  36. 제 35 항에 있어서,
    아웃라이어 감지 파라미터의 제 1 세트는 아웃라이어 감지 임계치를 포함하는 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  37. 제 35 항 또는 제 36 항에 있어서,
    아웃라이어 감지 파라미터의 제 2 세트는 아웃라이어 감지 임계치를 포함하는 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  38. 제 35 항 내지 제 37 항 중 어느 한 항에 있어서,
    아웃라이어 감지 파라미터의 제 2 세트를 식별하는 것은 가장 큰 우도를 나타내는 집계 확률 메트릭의 크기에 적어도 부분적으로 기초하는 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  39. 제 35 항 내지 제 38 항 중 어느 한 항에 있어서,
    유기체 성능은 관심 생성물의 생산과 관련된 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  40. 제 35 항 내지 제 39 항 중 어느 한 항에 있어서,
    유기체 성능은 수율에 관련된 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  41. 제 35 항 내지 제 40 항 중 어느 한 항에 있어서,
    확률 메트릭의 세트를 결정하는 것은 로지스틱 회귀를 이용하는 것을 포함하고, 상기 확률 메트릭은 가능성 조정 메트릭인 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  42. 제 35 항 내지 제 41 항 중 어느 한 항에 있어서,
    처리는 특정 익스페리먼트의 집계 확률 메트릭을 생성하기 위해 익스페리먼트에 의해 확률 메트릭을 처리하는 단계를 포함하는 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  43. 제 35 항 내지 제 42 항 중 어느 한 항에 있어서,
    하나 이상의 비일시적 컴퓨터 판독가능 매체는 컴퓨팅 디바이스 중 적어도 하나에 의한 실행시 하나 이상의 컴퓨팅 장치들 중 적어도 하나가 로지스틱 회귀 공간에서 유기체 성능의 차원에 직교하는 차원으로 데이터 세트의 샘플을 지터링하게 하는 명령어를 저장하는 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  44. 제 35 항 내지 제 43 항 중 어느 한 항에 있어서,
    하나 이상의 비일시적 컴퓨터 판독가능 매체는 하나 이상의 컴퓨팅 디바이스 중 적어도 하나에 의한 실행시 하나 이상의 컴퓨팅 장치들 중 적어도 하나가:
    샘플 세트를 형성하기 위해 객체 그룹으로부터 하나 이상의 제 2 아웃라이어 객체를 제외하고;
    샘플 세트에서 유기체의 유기체 성능을 예하게 하는 명령어를 저장하는 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  45. 제 44 항에 있어서,
    하나 이상의 비일시적 컴퓨터 판독가능 매체는, 상기 하나 이상의 컴퓨팅 장치들 중 적어도 하나에 의한 실행시 하나 이상의 컴퓨팅 장치들 중 적어도 하나가:
    예측된 유기체 성능에 적어도 부분적으로 기초하여 생산용 샘플 세트로부터 유기체를 선택하게 하는 명령어를 저장하는 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  46. 제 45 항에 있어서,
    하나 이상의 비일시적 컴퓨터 판독가능 매체는 하나 이상의 컴퓨팅 장치들 중 적어도 하나에 의한 실행시 상기 하나 이상의 컴퓨팅 장치 중 적어도 하나가 선택된 유기체의 생산을 용이하게 하는 명령어를 저장하는 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  47. 제 35 항 내지 제 46 항 중 어느 한 항에 있어서,
    하나 이상의 후보 아웃라이어 객체를 식별하는 것은 아웃라이어 감지 알고리즘들의 세트 중 각각의 아웃라이어 감지 알고리즘에 의해 수행되고, 하나 이상의 비일시적 컴퓨터 판독가능 매체는 하나 이상의 컴퓨팅 장치 중 적어도 하나에 의한 실행시 하나 이상의 컴퓨팅 장치 중 적어도 하나가:
    아웃라이어 감지 알고리즘 세트의 각각의 알고리즘에 대한 집계 확률 메트릭 세트를 생성하고,
    집계 확률 메트릭 세트 증 가장 큰 집계 확률 메트릭을 식별하며,
    최적의 아웃라이어 감지 알고리즘으로서 가장 큰 집계 확률 메트릭과 관련된 아웃라이어 감지 알고리즘을 선택하게 하는 명령어를 저장하는 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  48. 제 35 항 내지 제 47 항 중 어느 한 항에 있어서,
    각각의 객체는 균주 복제를 나타내고, 하나 이상의 후보 아웃라이어 객체를 식별하는 것은 상기 데이터 세트에서 상기 균주 복제를 균주별로 그룹화하는 것을 포함하는 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  49. 제 35 항 내지 제 48 항 중 어느 한 항에 있어서,
    각각의 객체는 균주 복제를 나타내고, 하나 이상의 후보 아웃라이어 객체를 식별하는 것은 상기 데이터 세트에서 상기 균주 복제를 플레이트별로 그룹화하는 단계를 포함하는 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  50. 제 35 항 내지 제 49 항 중 어느 한 항에 있어서,
    각각의 객체는 균주 복제를 나타내고, 하나 이상의 후보 아웃라이어 객체를 식별하는 것은 상기 데이터 세트에서 상기 균주 복제를 익스페리먼트별로 그룹화하는 것을 포함하는 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  51. 제 35 항 내지 제 50 항 중 어느 한 항의 하나 이상의 비일시적 컴퓨터 판독가능 매체에 저장된 명령을 실행함으로써 생산된 유기체.
KR1020207017675A 2017-12-01 2018-11-30 아웃라이어 감지를 위한 비지도 파라미터 러닝을 이용한 생산용 유기체 식별 KR20200092989A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762593757P 2017-12-01 2017-12-01
US62/593,757 2017-12-01
PCT/US2018/063297 WO2019108926A1 (en) 2017-12-01 2018-11-30 Identifying organisms for production using unsupervised parameter learning for outlier detection

Publications (1)

Publication Number Publication Date
KR20200092989A true KR20200092989A (ko) 2020-08-04

Family

ID=64734191

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207017675A KR20200092989A (ko) 2017-12-01 2018-11-30 아웃라이어 감지를 위한 비지도 파라미터 러닝을 이용한 생산용 유기체 식별

Country Status (7)

Country Link
US (1) US11574153B2 (ko)
EP (1) EP3718047A1 (ko)
JP (1) JP2021505130A (ko)
KR (1) KR20200092989A (ko)
CN (1) CN111937001A (ko)
CA (1) CA3083716A1 (ko)
WO (1) WO2019108926A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022264818A1 (ko) * 2021-06-14 2022-12-22
CN113836118B (zh) * 2021-11-24 2022-03-08 亿海蓝(北京)数据技术股份公司 船舶静态数据补充方法和装置、电子设备和可读存储介质
CN117332358B (zh) * 2023-11-29 2024-02-23 山东鸿安食品科技有限公司 一种玉米浸泡水处理方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5417306B2 (ja) * 2010-11-29 2014-02-12 株式会社日立ハイテクノロジーズ 欠陥検査方法および欠陥検査装置
US11151497B2 (en) 2016-04-27 2021-10-19 Zymergen Inc. Microbial strain design system and methods for improved large-scale production of engineered nucleotide sequences

Also Published As

Publication number Publication date
CN111937001A (zh) 2020-11-13
US11574153B2 (en) 2023-02-07
EP3718047A1 (en) 2020-10-07
US20200311489A1 (en) 2020-10-01
JP2021505130A (ja) 2021-02-18
WO2019108926A1 (en) 2019-06-06
CA3083716A1 (en) 2019-06-06

Similar Documents

Publication Publication Date Title
US11631029B2 (en) Generating combined feature embedding for minority class upsampling in training machine learning models with imbalanced samples
KR102219346B1 (ko) 베이지안 최적화를 수행하기 위한 시스템 및 방법
WO2021007812A1 (zh) 一种深度神经网络超参数优化方法、电子设备及存储介质
US11157780B2 (en) Model-based analysis in a relational database
US11562167B2 (en) Method of training neural network classification model using selected data
US20200167690A1 (en) Multi-task Equidistant Embedding
Sambasivan et al. A Bayesian perspective of statistical machine learning for big data
KR20200092989A (ko) 아웃라이어 감지를 위한 비지도 파라미터 러닝을 이용한 생산용 유기체 식별
US20200234158A1 (en) Determining feature impact within machine learning models using prototypes across analytical spaces
US20160004664A1 (en) Binary tensor factorization
US20230281363A1 (en) Optimal materials and devices design using artificial intelligence
Karrar The effect of using data pre-processing by imputations in handling missing values
Bellotti Optimized conformal classification using gradient descent approximation
Singh et al. Feature selection and hyper-parameter tuning technique using neural network for stock market prediction
WO2023113946A1 (en) Hyperparameter selection using budget-aware bayesian optimization
Shang et al. Alpine meadow: A system for interactive automl
Mukhtar et al. Hybrid model in machine learning–robust regression applied for sustainability agriculture and food security
Pokhrel A comparison of AutoML hyperparameter optimization tools for tabular data
Dayan et al. Expressivity of Geometric Inhomogeneous Random Graphs—Metric and Non-metric
US20220138632A1 (en) Rule-based calibration of an artificial intelligence model
US20240135159A1 (en) System and method for a visual analytics framework for slice-based machine learn models
US12001957B2 (en) Methods and systems for neural architecture search
Pevec et al. Input dependent prediction intervals for supervised regression
US20240135160A1 (en) System and method for efficient analyzing and comparing slice-based machine learn models
WO2023129338A1 (en) Transformer-based autoregressive language model selection

Legal Events

Date Code Title Description
A201 Request for examination
WITB Written withdrawal of application