KR20230006814A - 라만 스펙트럼에 기초한 샘플 속성을 식별하기 위한 모델을 결정하기 위한 유전 알고리즘 사용 - Google Patents

라만 스펙트럼에 기초한 샘플 속성을 식별하기 위한 모델을 결정하기 위한 유전 알고리즘 사용 Download PDF

Info

Publication number
KR20230006814A
KR20230006814A KR1020227035798A KR20227035798A KR20230006814A KR 20230006814 A KR20230006814 A KR 20230006814A KR 1020227035798 A KR1020227035798 A KR 1020227035798A KR 20227035798 A KR20227035798 A KR 20227035798A KR 20230006814 A KR20230006814 A KR 20230006814A
Authority
KR
South Korea
Prior art keywords
sample
candidate
population
predicted
samples
Prior art date
Application number
KR1020227035798A
Other languages
English (en)
Inventor
다나 로렌 맥다니엘
엘비라 카다웁
빙추안 웨이
앤드류 제임스 마이어
고든 에드워드 매길
Original Assignee
제넨테크, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 제넨테크, 인크. filed Critical 제넨테크, 인크.
Publication of KR20230006814A publication Critical patent/KR20230006814A/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/65Raman scattering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Physiology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

스펙트럼을 대응하는 샘플의 예측된 특성을 생성하는 데 사용할 수 있는 형태로 변환하는 처리 파이프라인을 식별하기 위해 유전자 알고리즘을 사용하기 위한 기술이 개시된다. 유전자 알고리즘은 다양한 전처리 및 머신 러닝 처리 구성을 지정하는 여러 후보 솔루션을 생성 및 평가하는 데 사용된다. 처리 파이프라인은 후보 솔루션을 기반으로 정의된다.

Description

라만 스펙트럼에 기초한 샘플 속성을 식별하기 위한 모델을 결정하기 위한 유전 알고리즘 사용
관련 출원에 대한 상호 참조
본 출원은 2020년 4월 10일자로 출원된 "Use Of Genetic Algorithms To Identity Sample Properties Based On Raman Spectra"이라는 제목의 미국 가출원 제63/008,196호의 이익 및 우선권을 주장한다. 그 전체 내용은 모든 목적을 위해 그 전문이 참조로 여기에 포함된다.
품질 관리 기술은 개발 및 생산 프로세스 전반에 걸쳐 균일성을 보장하기 위해 신약 및 연구 샘플의 개발에 대한 속성을 모니터링하기 위해 자주 구현된다. 신약이나 연구 샘플의 생산이나 분자 구조의 약간의 변화만으로도 치료와 실험 결과 모두에서 불일치를 초래할 수 있다. 이러한 이유로, 생물약제 또는 화합물의 주어진 샘플에 대해 일관된 속성들의 세트 및 전반적인 품질 척도를 유지하는 것이 중요하다.
생물약제학적 약물 및/또는 재료의 많은 특성을 참조 메트릭과 비교하면 샘플의 품질을 나타낼 수 있다. 예를 들어, 샘플의 pH를 측정하여 화합물이나 약물이 예상되는 산성 또는 염기성 특성을 갖는지 여부를 나타낼 수 있다. 다른 예로서, 샘플의 삼투질 농도를 측정하여, 샘플에 대한 용액 내 용질 농도가 고품질 기준 샘플과 관련된 목표 삼투질 농도와 일치하는지 여부를 나타낼 수 있다. 이러한 특성의 측정은 분자 또는 화합물의 순도 또는 안정성, 그리고 대상에게 배포되기 전에 생물 의약품의 대량 생산의 정확성 및/또는 일관성을 공개할 수 있다.
데이터 처리 및 모델 결정을 위한 현재 기술은 현장의 훈련된 전문가들이 샘플을 분석하기 위한 기술들의 세트를 수동으로 선택하고 샘플 속성에 대한 목표 값 및/또는 범위를 정의하기 때문에, 상당한 연산 및 시간 자원을 필요로 한다.
샘플의 특성을 정량화하기 위해 스펙트럼 데이터 및 직렬 머신-러닝 모델을 활용하는 자동화된 데이터 처리 파이프라인의 사용은 더 적은 리소스를 사용할 수 있고(예: 컴퓨팅 시간 감소 및/또는 최적의 머신-러닝 모델을 설계하는 수작업 시간 감소), 품질 예측의 정확도를 높이고, 처리 기술의 사용자 간 변동성을 감소시킬 수 있다.
본 개시내용의 일부 실시예는 컴퓨터 구현 방법을 포함한다. 데이터 세트에 액세스할 수 있다. 데이터 세트는 제1 데이터 요소들의 세트를 포함할 수 있으며, 각각은 샘플에 대응하는 스펙트럼을 포함한다. 스펙트럼은 샘플과 에너지 소스로부터의 에너지 사이의 상호 작용을 기반으로 하는 분광학을 사용하여 생성되었을 수 있다. 예를 들어, 스펙트럼은 라만 분광법, 적외선 분광법, 질량 분광법, 액체 크로마토그래피 또는 핵 자기 공명(NMR) 분광법을 사용하여 생성되었을 수 있다.
데이터 세트는 대응하는 라벨들의 세트를 포함할 수 있으며, 각각은 연관된 샘플의 알려진 특성을 나타낸다. 후보 솔루션들의 집단이 초기화된다. 후보 솔루션들의 각 집단은 특정 유형의 전처리를 수행할지 여부; 사용될 전처리 기술의 파라미터; 어떤 유형의 머신-러닝 모델이 사용될 것인지; 및/또는 적용할 머신 러닝 하이퍼파라미터를 나타내는 속성들의 세트에 의해 정의된다.
단일 솔루션은 후보 솔루션들의 집단을 필터링(동일하게, 그 중에서 선택)함으로써 결정될 수 있다. 필터링은 후보 솔루션들의 집단 각각과 데이터 세트의 입력 데이터 요소 중 적어도 일부 각각에 대해, 속성 세트에 따라 데이터 요소의 스펙트럼을 처리함으로써 예측된 샘플 특성을 결정하는 것을 포함할 수 있다. 필터링은 적합성 메트릭(fitness metrics)에 기초하여 후보 솔루션들의 집단의 불완전한 서브세트를 선택하는 것을 더 포함할 수 있다. 후보 솔루션들의 집단의 선택된 불완전 서브세트 및 하나 이상의 유전 연산자를 사용하여 식별된 차세대 솔루션 집단을 포함하도록 후보 솔루션 집단을 업데이트함으로써 하나 이상의 추가 생성 반복이 수행될 수 있다. 하나 이상의 유전 연산자는 선택 기술 및/또는 돌연변이 비율을 포함할 수 있다. 업데이트된 후보 솔루션 집단을 사용한 후보 솔루션 집단의 필터링은 종료 조건이 충족될 때까지 반복된다(예: 미리 결정된 세대 수에 대한 처리를 완료하였거나 미리 정의된 임계값 미만의 추정 오류가 있는 솔루션이 결정되었음을 검출함).
종료 조건이 만족된 후, 처리 파이프라인은 최종 생성 동안 선택된 불완전한 서브세트에서 특정 후보 솔루션의 속성 세트에 기초하여 정의된다. 따라서, 처리 파이프라인은 속성 세트에 적어도 부분적으로 기초하는 전처리 및/또는 머신 러닝 처리를 위한 구성 정보를 포함할 수 있다. 어떤 경우에는, 다른 샘플에 해당하는 다른 스펙트럼이 액세스될 수 있다. 다른 샘플의 예측된 특성은 처리 파이프라인의 구성 정보에 따라 다른 스펙트럼을 처리(예: 전처리 및/또는 머신-러닝 모델에 의해 수행되는 처리를 포함할 수 있음)하여 생성된다. 다른 샘플의 예측된 특성이 출력된다(예: 사용자 장치에 제시되거나 전송됨).
일부 실시예에서, 하나 이상의 데이터 프로세서와, 하나 이상의 데이터 프로세서 상에서 실행될 때 하나 이상의 데이터 프로세서로 하여금 여기에 개시된 하나 이상의 방법의 일부 또는 전부를 수행하게 하는 비일시적 컴퓨터 판독가능 저장 매체를 포함하는 시스템이 제공된다.
사용된 용어 및 표현은 제한이 아닌 설명의 용어로 사용되며, 그러한 용어 및 표현을 사용함에 있어 도시 및 설명된 특징 또는 그 일부의 등가물을 배제하려는 의도는 없지만, 청구된 발명의 범위 내에서 다양한 수정이 가능하다는 것이 인정된다. 따라서, 청구된 바와 같은 본 발명이 실시예 및 선택적인 특징에 의해 구체적으로 개시되었지만, 여기에 개시된 개념의 수정 및 변형이 당업자에 의해 의지될 수 있고 그러한 수정 및 변형이 고려된다는 것을 이해해야 한다. 첨부된 청구범위에 의해 정의된 바와 같이 본 발명의 범위 내에 있는 것이다.
본 개시내용은 첨부된 도면과 함께 설명된다:
도 1은 본 발명의 일부 실시예에 따라 샘플의 품질 관리 처리를 용이하게 하기 위해 유전자 알고리즘을 사용하기 위한 예시적인 상호작용 시스템을 도시한다.
도 2는 본 발명의 일부 실시예에 따른, 샘플 특성을 추정하거나 예측하는 데 사용하기 위한 특징을 선택하는 특징-선택 제어기(112)의 예를 도시한다.
도 3은 본 발명의 일부 실시예에 따라 샘플의 품질 관리 처리를 용이하게 하기 위해 유전자 알고리즘을 사용하기 위한 예시적인 프로세스(300)를 도시한다.
도 4는 본 발명의 일부 실시예에 따른, 후보 솔루션의 예시적인 집단과, 단일 세대에 대한 후보 솔루션들의 집단의 각 후보 솔루션에 대한 대응하는 특성을 도시한다.
도 5a는 본 발명의 일부 실시예에 따른 예시적인 제1세대 후보 처리 파이프라인에 의해 생성된 젖산 농도의 측정된 라벨 값과 젖산 농도의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 5b는 본 발명의 일부 실시예에 따른, 선택된 최종-세대 처리 파이프라인에 의해 생성된 젖산 농도의 측정된 라벨 값과 젖산 농도의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 6a는 본 발명의 일부 실시예에 따른, 예시적인 제1세대 후보 처리 파이프라인에 의해 생성된 포도당 농도의 측정된 라벨 값과 포도당 농도의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 6b는 본 발명의 일부 실시예에 따른, 선택된 최종-세대 처리 파이프라인에 의해 생성된 포도당 농도의 측정된 라벨 값과 포도당 농도의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 7a는 본 발명의 일부 실시예에 따른 예시적인 제1세대 후보 처리 파이프라인에 의해 생성된 pH의 측정된 라벨 값과 pH의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 7b는 본 발명의 일부 실시예에 따른 예시적인 최종-세대 후보 처리 파이프라인에 의해 생성된 pH의 측정된 라벨 값과 pH의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 8a는 본 발명의 일부 실시예에 따른, 예시적인 제1세대 후보 처리 파이프라인에 의해 생성된 삼투질 농도의 측정된 라벨 값과 삼투질 농도의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 8b는 본 발명의 일부 실시예에 따른, 선택된 최종-세대 처리 파이프라인에 의해 생성된 삼투질 농도의 측정된 라벨 값과 삼투질 농도의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 9a는 본 발명의 일부 실시예에 따른 예시적인 제1세대 후보 처리 파이프라인에 의해 생성된 항체 산화의 측정된 라벨 값과 항체 산화의 예측된 라벨 값 사이의 예시적인 비교를 나타낸다.
도 9b는 본 발명의 일부 실시예에 따라, 선택된 최종-세대 처리 파이프라인에 의해 생성된 항체 산화의 측정된 라벨 값과 항체 산화의 예측된 라벨 값 사이의 예시적인 비교를 나타낸다.
도 10a는 본 발명의 일부 실시예에 따른, 예시적인 제1세대 후보 처리 파이프라인에 의해 생성된 Glycan G0F-N의 측정된 라벨 값과 Glycan G0F-N의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 10b는 본 발명의 일부 실시예에 따라, 선택된 최종-세대 처리 파이프라인에 의해 생성된 Glycan G0F-N의 측정된 라벨 값과 Glycan G0F-N의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 11a는 본 발명의 일부 실시예에 따른, 예시적인 제1세대 후보 처리 파이프라인에 의해 생성된 HMWF의 합계의 측정된 라벨 값과 HMWF의 합계의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 11b는 본 발명의 일부 실시예에 따른, 선택된 최종-세대 처리 파이프라인에 의해 생성된 HMWF의 합계의 측정된 라벨 값과 HMWF의 합계의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 12a는 본 발명의 일부 실시예에 따른, 예시적인 제1세대 후보 처리 파이프라인에 의해 생성된 이중특이적 어셈블리의 측정된 라벨 값과 이중특이적 어셈블리의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 12b는 본 발명의 일부 실시예에 따른 선택된 최종-세대 처리 파이프라인에 의해 생성된 이중특이성 어셈블리의 측정된 라벨 값과 이중특이성 어셈블리의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 13a는 본 발명의 일부 실시예에 따른, 예시적인 제1세대 후보 처리 파이프라인에 의해 생성된 생존 세포 풍부도의 측정된 라벨 값과 생존 세포 풍부도의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 13b는 본 발명의 일부 실시예에 따라, 선택된 최종-세대 처리 파이프라인에 의해 생성된 생존 세포 풍부도의 측정된 라벨 값과 생존 세포 풍부도의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 14a는 본 발명의 일부 실시예에 따른, 예시적인 제1세대 후보 처리 파이프라인에 의해 생성된 풍부한 사멸 세포의 측정된 라벨 값과 풍부한 사멸 세포의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 14b는 본 발명의 일부 실시예에 따라, 선택된 최종-세대 처리 파이프라인에 의해 생성된 죽은 세포의 풍부함의 측정된 라벨 값과 죽은 세포의 풍부함의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 15a는 본 발명의 일부 실시예에 따른, 예시적인 제1세대 후보 처리 파이프라인에 의해 생성된 잔류 수분 함량의 측정된 라벨 값과 잔류 수분 함량의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 15b는 본 발명의 일부 실시예에 따른, 선택된 최종-세대 처리 파이프라인에 의해 생성된 잔류 수분 함량의 측정된 라벨 값과 잔류 수분 함량의 예측된 라벨 값 사이의 예시적인 비교를 도시한다.
도 16a는 본 발명의 일부 실시예에 따른 스펙트럼 전처리 이전의 예시적인 스펙트럼 세트를 도시한다.
도 16b는 본 발명의 일부 실시예에 따라, pH 라벨 및 유전자 알고리즘을 사용하여 정의된 처리 파이프라인에 따라 수행된 스펙트럼 전처리 후 스펙트럼의 예시적인 세트를 도시한다.
도 17a는 본 발명의 일부 실시예에 따른 스펙트럼 전처리 이전의 예시적인 스펙트럼 세트를 도시한다.
도 17b는 본 발명의 일부 실시예에 따른, 항체 산화 라벨 및 유전자 알고리즘을 사용하여 정의된 처리 파이프라인에 따라 수행된 스펙트럼 전처리 후 스펙트럼의 예시적인 세트를 도시한다.
도 18a는 본 발명의 일부 실시예에 따른 스펙트럼 전처리 이전의 예시적인 스펙트럼 세트를 도시한다.
도 18b는 본 발명의 일부 실시예에 따른, 이중특이적 어셈블리 라벨 및 유전자 알고리즘을 사용하여 정의된 처리 파이프라인에 따라 수행된 스펙트럼 전처리 후 스펙트럼의 예시적인 세트를 도시한다.
도 19a는 본 발명의 일부 실시예에 따른 스펙트럼 전처리 이전의 예시적인 스펙트럼 세트를 도시한다.
도 19b는 본 발명의 일부 실시예에 따른, 유전자 알고리즘 및 풍부한 생존 세포에 대한 라벨을 사용하여 정의된 처리 파이프라인에 따라 수행된 스펙트럼 전처리 후 스펙트럼의 예시적인 세트를 도시한다.
도 20a는 본 발명의 일부 실시예에 따른 스펙트럼 전처리 이전의 예시적인 스펙트럼 세트를 도시한다.
도 20b는 본 발명의 일부 실시예에 따른, 풍부한 사멸 세포 및 유전자 알고리즘에 대한 라벨을 사용하여 정의된 처리 파이프라인에 따라 수행된 스펙트럼 전처리 후 스펙트럼의 예시적인 세트를 도시한다.
도 21a는 본 발명의 일부 실시예에 따른 스펙트럼 전처리 이전의 예시적인 스펙트럼 세트를 도시한다.
도 21b는 본 발명의 일부 실시예에 따른, 잔류 수분 함량에 대한 라벨 및 유전자 알고리즘을 사용하여 정의된 처리 파이프라인에 따라 수행된 스펙트럼 전처리 후 스펙트럼의 예시적인 세트를 도시한다.
도 22a는 본 발명의 일부 실시예에 따른 스펙트럼 전처리 전의 예시적인 스펙트럼 세트를 도시한다.
도 22b는 본 발명의 일부 실시예에 따른, 처리 파이프라인의 처리 단계에 따른 특징-선택 프로세스를 따르는 스펙트럼의 예시적인 세트를 도시한다.
도 23은 본 발명의 일부 실시예에 따른, 샘플의 특성을 추정하기 위한 특정 감소 특징 세트를 식별하기 위한 특징-선택 프로세스의 예시적인 반복 세트를 도시한다.
도 24a-24d는 발명의 일부 실시예에 따른, 도 23의 예시적인 반복 세트에 대응하는 그래프를 도시한다.
첨부된 도면에서, 유사한 구성요소 및/또는 특징은 동일한 참조 라벨을 가질 수 있다. 또한, 동일한 유형의 다양한 구성 요소는 참조 라벨 뒤에 대시와 유사한 구성 요소를 구별하는 제2 라벨로 구분할 수 있다. 명세서에서 제1 참조 라벨만 사용되는 경우 제2 참조 라벨과 관계없이 동일한 제1 참조 라벨을 가진 유사한 구성 요소 중 하나에 설명이 적용된다.
I. 개요
유전자 알고리즘은 샘플의 특성을 추정하는 데 사용될 수 있는 데이터 처리 파이프라인을 정의하는 데 사용될 수 있다. 샘플은 (예를 들어) 생물제약 제품 또는 약물일 수 있고/있거나 소분자 활성 성분 및/또는 대분자 활성 성분을 포함할 수 있다. 그 특성은 (예를 들어) 하나 이상의 소분자 분석물의 농도, 용매의 식별, 용매의 특성화, 하나 이상의 단백질 변이체의 유병률, pH, 삼투질 농도, 단백질 균질성, 단백질 구조(예: 단백질 고차 구조) 또는 샘플의 대분자 불순물(예: 고농도의 숙주 세포 단백질)을 포함할 수 있다. 처리 파이프라인은 에너지 소스로부터의 에너지와 샘플 사이의 상호작용의 결과를 나타내는 처리 스펙트럼을 포함할 수 있다. 스펙트럼은 머신-러닝 모델(예: 부분 최소 제곱 모델, 랜덤 포레스트 모델 또는 지원 벡터 기계 모델)을 사용하여 처리될 수 있다. 처리 파이프라인은 (예를 들어, 기준선을 제거하고, 스펙트럼을 스케일링하고/하거나 스펙트럼을 평활화하기 위해) 스펙트럼을 전처리하는 단계를 더 포함할 수 있다.
유전자 알고리즘은 특정 유형의 전처리가 수행되어야 하는지 여부; 수행될 전처리의 파라미터; 어떤 유형의 머신-러닝 모델을 사용할 것인지; 및/또는 적용할 머신 러닝 하이퍼파라미터를 포함하는 처리 파이프라인의 속성 세트를 결정하는 데 사용될 수 있다. 예를 들어, 전처리 유형에는 기준선 제거(예: 스펙트럼 내에서 잡음을 감소시키고/또는 형광 또는 기타 스펙트럼 간섭을 제거하기 위한 신호 데이터의 선형 또는 비선형 빼기), 스케일링(예: 상이한 콘텍스트들로부터 비교할 수 있도록 스펙트럼 데이터를 비례적으로 변환하는 것), 이상치 식별 및/또는 제거, 및/또는 평활화(예: 스펙트럼 데이터 내의 나머지 변동 감소)를 포함할 수 있다. 일부 경우에, 파라미터는 보다 특정한 유형의 전처리가 수행되어야 하는지 또는 어떤 특정 유형의 전처리가 수행되어야 하는지를 나타낼 수 있다. 예를 들어, 파라미터는 기준선 제거에 사용할 다음 기술들 - 비대칭 최소 제곱, 적응형 반복 재가중 페널티 최소 제곱, 완전 자동 기준선 수정, Kajfosz-Kwiatek 방법 - 중 하나의 선택을 포함할 수 있다. 수행될 전처리의 파라미터는 (예를 들어) 감쇄 값, 가중치, 패널티 또는 필터를 포함할 수 있다. 수행될 전처리의 파라미터는 (예를 들어) 행 단위 및/또는 열 단위 분산(예: 각각의 변수(열)를 (가치 평균)/표준 편차로 스케일링하는 단위 분산)과 같은 스케일링 유형을 포함할 수 있다. 머신-러닝 모델의 유형은 (예를 들어) 랜덤 포레스트 모델, 지원 벡터 모델, 회귀 모델, (예: 순환 신경망, 심층 신경망, 및/또는 이와 유사한 것과 같은 특정 유형의) 신경망, 또는 하나보다 많은 공통 머신-러닝 모델들의 조합을 기반으로 하는 모델을 포함할 수 있다. 머신 러닝 하이퍼파라미터는 (예를 들어) 학습률, 세대 수, 및 트리 및/또는 잎(leaves)의 수를 포함할 수 있어서, 하이퍼파라미터는 선택된 머신-러닝 모델의 유형을 기반으로 한다. 예를 들어, 랜덤 포레스트 모델은 트리 수를 정의하는 하이퍼파라미터를 포함할 수 있지만, 선형 회귀 모델은 트리 수에 대한 하이퍼파라미터를 반드시 포함하지는 않는다.
유전자 알고리즘은 후보 솔루션 세트를 반복적으로 정의하고 평가함으로써 특성 세트를 결정할 수 있다. 각 후보 솔루션은 수행할 전처리 유형(및/또는 이의 하나 이상의 파라미터) 및/또는 (원시 또는 전처리) 스펙트럼의 처리에 사용할 머신-러닝 모델 유형(및/또는 그 하나 이상의 하이퍼파라미터)을 정의하는 특정 속성을 포함할 수 있다. 보다 구체적으로, 각 반복은 생성 반복이라고 할 수 있으며 후보 솔루션 집단의 평가를 포함할 수 있다. 평가는 집단의 각 후보 솔루션에 대해, 알려진 특성(예: 정확도 메트릭, 오류 메트릭, 감도 메트릭, 등)과 관련하여 수행된 후보 솔루션과 관련된 특성으로 구성된 처리 파이프라인을 나타내는 적합성 메트릭을 생성하는 것을 포함할 수 있다. 예를 들어, 적합성 메트릭은 평균 제곱 오차(MAE), 평균 제곱근 오차(RMSE), 또는 로그 쌍곡선 코사인 오차(log(cosh))이거나 이를 포함할 수 있다. 그 후, 후보 솔루션 집단의 불완전한 서브세트가 (예: 미리 결정된 임계값을 초과하는 적합성 메트릭과 연관된 집단에서 가장 높은 적합성 메트릭과 관련된 특정 수의 후보 솔루션을 식별하거나 해당 집단에서 각각의 후보 솔루션을 식별하도록) 적합성 메트릭을 기반으로 선택될 수 있다. 경우에 따라, 후보 솔루션들의 집단은 해당 적합성 메트릭에 따라 순위가 매겨진다. 이와 같이, 후보 솔루션의 불완전한 서브세트를 결정할 때, 유전자 알고리즘은 집단 내의 다른 후보 솔루션과 관련하여 가장 높은 순위를 갖는 여러 후보 솔루션을 선택할 수 있다. 후보 솔루션들의 서브세트는 다음 세대를 위한 후보 솔루션들의 새로운 집단 내에 포함될 수 있다.
차세대를 위한 후보 솔루션들의 새로운 집단은 유전 연산자들의 세트(예를 들어, 돌연변이율)를 사용하여 유전자 알고리즘에 의해 생성된 후보 솔루션들의 새로운 세트와 함께 결정된 서브세트의 선택된 후보 솔루션으로 구성될 수 있다. 유전 연산자(genetic operators)는 특성을 측정하기 위해 일반적으로 사용되는 방법(무작위 생성과 반대)을 기반으로 새로운 후보 솔루션을 생성하도록 구성될 수 있다. 또한, 새로운 세대마다, 집단 내 후보 솔루션의 수가 일정하게 유지될 수 있다. 예를 들어, 유전자 알고리즘이 20개의 후보 솔루션의 전체 집단으로부터 2개의 후보 솔루션을 선택하여 다음 세대로 진행하면, 유전자 알고리즘은 다음 세대 내에서 총 20개의 후보 솔루션에 대해 18개의 추가 후보 솔루션을 생성할 것이다. 다음 생성 반복은 후보 솔루션의 새 집단에 대한 순위를 결정하고, 후보 솔루션의 새 서브세트를 선택할 수 있다.
최종 생성 반복의 완료 시, 유전자 알고리즘은 후보 솔루션들의 집단의 불완전한 서브세트로부터 단일 솔루션을 식별할 수 있다. 경우에 따라, 불완전한 서브세트는 단일 솔루션의 크기를 가지므로 식별된 단일 솔루션은 불완전한 서브세트의 솔루션일 수 있다. 일부 경우에, 불완전한 서브세트는 다중 솔루션을 포함하고, 단일 솔루션은 (예를 들어) 가장 높은 적합성 메트릭과 연관된 다중 솔루션으로부터 일 솔루션을 선택함으로써 식별될 수 있다.
단일 솔루션은 처리 파이프라인을 정의하는 데 사용될 수 있으며, 이는 차례로, 개별 스펙트럼을 예측된 샘플 특성에 대응하는 예측된 라벨로 변환할 수 있다. 처리 파이프라인은 솔루션의 속성 세트에 따라 구성된 전처리를 잠재적으로 수행함으로써, 그리고 솔루션의 속성 세트 중 적어도 일부에 따라 구성된 머신-러닝 모델을 사용하여 처리를 수행함으로써, 입력 스펙트럼의 세트를 처리할 수 있다. 처리 파이프라인은 솔루련의 속성 세트 중 다른 적어도 일부에 따라 선택된 및/또는 적어도 부분적으로 구성된 머신-러닝 모델을 사용하여 입력 스펙트럼 세트(예: 및/또는 이의 전처리된 버전)의 각 스펙트럼을 처리함으로써 입력 스펙트럼 세트를 더 또는 추가로 처리할 수 있다. 머신-러닝 모델은 (예를 들어) 훈련 데이터세트를 사용하여 결정 및/또는 학습된 하나 이상의 파라미터 및/또는 변수에 따라 추가로 구성될 수 있다.
일부 예에서, 처리 파이프라인은 샘플의 특성을 추정하기 전에(예를 들어, 머신-러닝 모델 등으로 입력 스펙트럼을 처리하기 전에) 수행되는 하나 이상의 추가 처리 단계로 증강된다. 예를 들어, 머신-러닝 모델이 처리하는 특징의 양을 줄이기 위해 특징-선택 프로세스가 수행될 수 있다. 특징-선택 프로세스를 실행하는 컴퓨팅 장치는 입력 스펙트럼을 파수 세트(가령, 파의 공간 주파수)로 나타내며, 각 파수는 대응하는 강도(예: 특징)를 포함한다. 컴퓨팅 장치는 그 다음, 입력 샘플의 특성을 예측하는 데 사용하기 위해 대응하는 하나 이상의 파수에서 하나 이상의 강도를 해당 강도들로부터 선택한다.
예를 들어, 컴퓨팅 장치는 회귀 알고리즘(예를 들어, 부분 최소 제곱 등을 사용하는 것과 같은)을 사용하여 파수 세트를 분석하여 각 파수에 대한 순위를 할당할 수 있다(예를 들어, 부분 최소 제곱 회귀의 가중치의 상대 정렬에 기초하여). 파수 세트는 각 파수에 부여된 순위에 따라 소팅될 수 있다. 그 다음, 컴퓨팅 장치는 각 파수(예를 들어, 전체 파수 세트)를 포함하는 제1 서브세트와 이전 서브세트로부터 하나 이상의 파수를 제외한 각각의 후속 서브세트(예를 들어, 가장 낮은 순위의 파수, 가장 높은 순위의 파수, 임의의 파수 등)를 갖는 파수의 서브세트들을 정의한다.
컴퓨팅 장치는 샘플의 특성을 추정하는 데 사용될 서브세트를 결정하기 위해 각 서브세트에 대한 점수를 도출하는 반복적 서브세트 분석을 수행한다. 각 점수는 서브세트의 파수에 대한 강도를 포함하는 처리 스펙트럼(처리 파이프라인에 따라)이 샘플 특성을 정확하게 예측하는 정도를 나타낸다. 테스트(예: 홀드아웃) 또는 검증 데이터세트를 사용하여 성능 특성(예: 정밀도, 재현율, 정확도 등)을 특성화할 수 있다.
제1 반복 동안, 컴퓨팅 장치는 파수 세트를 포함하는 서브세트에 대응하는 스펙트럼을 사용하여 테스트 데이터세트 또는 검증 데이터세트로부터 기준 점수(예를 들어, 교차 검증 분석을 사용)를 도출한다. 즉, 정의된 처리 파이프라인을 사용하여 전체 스펙트럼을 처리하여 샘플 특성을 예측할 수 있고, 예측된 샘플 특성을 실제 샘플 특성과 비교하여 기준 점수를 생성할 수 있다. 기준 점수는 주어진 파수에서 (스펙트럼으로부터) 강도를 제거하는 것이 샘플의 특성을 추정하기 위한 머신-러닝 모델의 정확도에 미칠 수 있는 영향을 예측하기 위한 참조 데이터 포인트로 사용될 수 있다.
제2 반복 동안, 다음 서브세트에 대한 점수가 도출된다. 이 서브세트에는 제1 반복으로부터의 파수(가령, 파수 세트)가 포함되며, 하나 이상의 파수가 순위(예: 가장 낮은 순위의 파수, 가장 높은 순위의 파수, 무작위 샘플링, 등)에 기초하여 파수 세트로부터 제거된다. 일부 예들에서, 컴퓨팅 장치는 이전 반복에 존재하는 파수들로부터 순위에 기초하여 파수들의 x 퍼센트(예를 들어, 5%, 10% 등)를 제거할 수 있고, 잠재적으로 반올림할 수 있다. 다른 예들에서, 컴퓨팅 장치는 파수들의 미리 결정된 양을 제거할 수 있다. 제거되는 파수의 백분율 또는 미리 결정된 양은 구성 가능하다(예: 사용자 입력에 의해, 머신-러닝 모델에 의해, 하드코딩 등).
그 다음, 컴퓨팅 장치는 제2 반복 동안 도출된 점수를 기준 점수와 비교한다. 이 반복에 대한 점수가 기준 점수보다 높으면(예: 파수 감소가 특성 추정을 개선함을 나타냄), 이 반복에 대한 점수가 새로운 기준 점수가 되고 프로세스는 다음 반복으로 계속된다. 이 반복에 대한 점수가 기준 점수보다 높지 않으면 기준 점수를 업데이트하지 않고 프로세스가 계속된다.
다음 반복 동안, 다음 서브세트에 대한 점수가 도출된다. 이 서브세트에는 다음으로 낮은 순위의 파수를 제거한 제2 반복의 서브세트로부터 가져온 파수가 포함된다. 점수는 점수가 새로운 기준 점수인지를 결정하기 위해 기준 점수와 비교될 수 있다.
반복 서브세트 분석이 종료된 후, 기준 점수로부터 임계 편차 내에 있는 점수와 어떤 반복이 연관되는지에 대한 결정이 이루어진다. 구체적으로, 컴퓨팅 장치는 해당 반복과 관련된 점수가 기준 점수로부터의 임계 편차와 가장 가깝거나 동일한(그러나 초과하지는 않는) 반복을 식별한다. 특성을 예측하는 데 사용되는 스펙트럼(예: 선택된 파수에 해당)을 선택하면 예측의 정확도가 영향을 받을 수 있다. 예를 들어, 스펙트럼의 작은 부분을 선택하면 예측에 기여할 수 있는 정보가 줄어든다(예: 예측 정확도 저하). 임계 편차는 결과 예측의 정확성을 보장하면서 특성을 예측하기 위해 감소된 스펙트럼을 선택할 수 있게 한다. 한 예에서 기준 점수가 0.892이고 임계값이 .020이면 0.872에 가장 가깝거나 동일한 점수를 갖는 반복이 선택된다. 대안적으로, 컴퓨팅 장치는 해당 반복과 연관된 점수가 기준 점수로부터의 임계 편차에 가장 가까운 반복을 식별한다. 컴퓨팅 장치는 식별된 반복의 서브세트로부터 파수의 강도(예: 특징)를 선택하여 (예: 샘플의 특성을 추정하는 데 사용되는) 머신-러닝 모델에 대한 입력 특징이 되게 한다.
컴퓨팅 장치는 (예를 들어, 머신-러닝 모델 등을 사용하여) 샘플의 특성을 추정하기 전과 같이, 처리 파이프라인의 끝 부근에서 특징-선택 프로세스를 실행할 수 있다. 대안적으로, 특징-선택 프로세스는 유전자 알고리즘에 의해 포함 및/또는 구성될 수 있다. 이 경우, 유전자 알고리즘은 특징-선택 프로세스를 포함하는 하나 이상의 후보 솔루션을 정의할 수 있다. 그런 다음 유전자 알고리즘은 (가령, 특징-선택 프로세스를 포함하거나 포함하지 않는 후보 솔루션의 평가를 통해) 처리 파이프라인의 한 단계에서 특징 선택이 수행되어야 하는지 여부를 결정하고, 반복의 양, 점수, 각 반복 동안 제거할 특징의 양(예: 백분율, 양, 등) 등과 같은 특징-선택 프로세스의 하나 이상의 파라미터를 결정한다.
새로운 샘플 세트에 대한 특성의 후속 추정은 새로운 샘플 세트 각각에 대한 특성 및 결과적인 품질 척도를 추정하기 위해 처리 파이프라인을 이용할 수 있다. 샘플 세트에 대해 상이한 관심 특성의 추정이 요구되는 경우, 유전자 알고리즘은 상이한 관심 특성에 대한 또 다른 처리 파이프라인을 생성하기 위해 다른 솔루션을 결정하는 위의 기술을 반복할 수 있다.
유전자 알고리즘을 사용하여 정의된 처리 파이프라인은, 그 후, 특정 샘플과 관련된 입력 스펙트럼을 수신하고, 특정 샘플의 추정된 특성을 출력한다. 처리 파이프라인이 정의된 후, 유전자 알고리즘을 추가로 포함 및/또는 실행하지 않고 구현될 수 있다는 것이 이해될 것이다. 샘플 특성(들)의 평가는 한 명 이상의 대상에 대한 잠재적 투여 또는 실제 투여를 위해 배포하기 위해 주어진 샘플 또는 샘플들을 릴리스할지 여부를 결정하기 위해 품질 관리 프로세스에서 사용할 수 있다. 예를 들어, 품질 관리 프로세스는 샘플의 추정된 특성을 사용하여 품질 관리 조건을 평가하는 것을 포함할 수 있다. 품질 관리 조건은 (예를 들어) 추정된 특성이 특정 값과 일치할 때, 미리 정의된 범위 내에 있을 때, 상한 임계값보다 작을 때 및/또는 하한 임계값보다 작을 때 충족되도록 구성될 수 있다. 일부 사례에서 품질 관리 조건은 묶음(batch) 수준에서 평가되며, 여기에는 샘플들의 묶음(batch)에 대한 추정된 특성의 분포에 기초하여 통계(가령, 평균, 중앙값, 표준 편차, 범위, 분산, 등)를 생성하는 것과, 이 통계가 (예를 들어) 미리 정의된 묶음(batch) 상측 임계값보다 작은지 및/또는 미리 정의된 묶음 하측 임계값보다 큰지 여부를 결정하는 것이 포함된다. 품질 관리 조건이 충족되었다고 판단되면, 샘플의 배포(가령, 선적)가 표시되거나 승인될 수 있다. 품질 관리 조건이 충족되지 않는 것으로 결정되면 이러한 배포가 방지될 수 있다(예: 샘플을 승인되지 않은 것으로 표시하거나 생산 라인으로부터 샘플을 빼냄).
품질 관리 조건이 충족되지 않는 일부 사례에서, 샘플 묶음에 대한 추정된 특성 내의 불일치는 (가령, 대분자를 포함하는 샘플을 생성하기 위한 바이오프로세스가 포함될 수 있는) 향후 샘플 생성을 위한 생산 및/또는 제조 공정 내에서 동적 조정을 결정할 수 있다. 예를 들어, 성분에 대한 추정된 특성이 각각 너무 낮거나 너무 높으면, 샘플 성분의 추가 또는 제거를 포함하도록 생산 공정을 수정할 수 있다. 또 다른 예에서, 추정된 특성이 품질 관리 조건을 충족하지 못할 경우, 생산 공정을 수정하여 하나 이상의 처리 단계를 추가, 변경 또는 제거할 수 있다(예: 샘플의 추가 정제 추가, 처리 단계의 온도 변경, 등). 어떤 경우에는 품질 관리 조건에 대한 평가 결과가 제조 프로세스의 시작, 재개 및/또는 종료 여부에 영향을 미친다. 예를 들어, 제조 프로세스를 주기적으로 중지시켜서, 선택된 샘플을 평가하고 품질 관리 조건이 충족되는지 여부를 결정할 수 있다. 만약 그렇다면, 프로세스를 다시 시작할 수 있다. 그렇지 않은 경우 프로세스의 하나 이상의 양태가 수정될 수 있다.
Ⅱ. 예시적인 상호작용 시스템
도 1은 본 발명의 일부 실시예에 따라 샘플의 품질 관리 처리를 용이하게 하기 위해 유전자 알고리즘을 사용하기 위한 예시적인 상호작용 시스템을 도시한다. 하나 이상의 샘플 생산 시스템(101)은 샘플 세트를 생산한다. 샘플 세트의 각 샘플에는 (예를 들어) 진단 및/또는 치료 목적으로 사용되는 제약 및/또는 약물 샘플이 포함될 수 있다. 샘플 세트의 각 샘플은 (예를 들어) 소분자 및/또는 대분자를 포함하는 하나 이상의 활성 성분과 하나 이상의 비활성 성분을 포함할 수 있다. 샘플 생산 시스템(101)에는 실험실이 포함될 수 있다.
샘플의 적어도 일부는 샘플의 하나 이상의 특성을 식별하는 하나 이상의 샘플 특성 검출기(102)를 통해 처리된다. 샘플의 하나 이상의 특성은 활성 성분의 특성, 비활성 성분의 특성 및/또는 샘플 전체의 특성을 포함한다. 소분자에 대한 예시적인 특성은 활성 성분 농도, 락토스 농도, 또는 미세결정질 셀룰로스 농도를 포함하지만 이에 제한되지는 않는다. 대분자에 대한 예시적인 특성은 대분자 내의 임의의 불순물(예를 들어, 풍부한 미반응 요소, 숙주 세포 단백질의 농도, 및/또는 임의의 원하지 않는 잔류 단백질의 농도)을 포함할 수 있지만 이에 국한되지 않는다. 특성에는 숫자 또는 범주 특성이 추가로 포함될 수 있다. 하나 이상의 샘플 특성 검출기(102)를 통해 처리되는 샘플의 적어도 일부는 (예를 들어) 훈련, 검증 또는 테스트 세트에서 표현될 샘플을 포함할 수 있다.
스펙트럼 수집기(103)는 스펙트럼을 생성하기 위해 샘플 세트의 각 샘플을 처리할 수 있다. 스펙트럼에는 여러 파수 각각에 대한 강도가 포함된다. 이 프로세스에는 에너지 소스로부터의 에너지로 각 샘플에 에너지를 공급하고 후속 스펙트럼을 검출하는 작업이 포함될 수 있다. 에너지 소스는 (예를 들어) 빛 에너지를 방출하는 광원 또는 물리적 에너지를 방출하는 물리 에너지 소스를 포함할 수 있다. 어떤 경우에는 스펙트럼이 비파괴적인 방식으로 수집되어, 스펙트럼 수집의 결과로 샘플이 파괴 및/또는 분해되지 않는다. 스펙트럼은 (예를 들어) 라만 분광법, 적외선 분광법, 질량 분석법, 액체 크로마토그래피 또는 NMR 분광법을 수행함으로써 얻을 수 있다. 적외선 분광법의 예시적인 유형은 근적외선(NIR), 중적외선(MIRA), 열적외선(TIR) 또는 푸리에 변환 적외선(FTIR) 분광법을 포함할 수 있다.
어떤 경우에는, 단일 샘플을 사용하여 여러 스펙트럼을 수집할 수 있다. 따라서, 다중 스펙트럼 각각은 동일한 샘플과 관련이 있는 경우, 동일한 하나 이상의 샘플 특성과 연관될 수 있다. 다중 스펙트럼은 복제 스펙트럼이라고 할 수 있다. 스펙트럼 사이의 차이는 (예를 들어) 스캔 간 샘플 컨테이너의 약간의 시프트 및/또는 스펙트럼 레코딩 기계의 불일치에 기인할 수 있다. 동일한 스펙트럼 샘플 사이의 차이에는 (예를 들어) 피크 높이, 피크 너비, 피크 위치 및/또는 지터의 차이가 포함될 수 있다. 차이는 상대적으로 작을 수 있지만 그럼에도 불구하고 처리 파이프라인의 훈련 및/또는 품질에 영향을 미칠 수 있다. Extended Multiplicative Scatter Correction(확장 증식 산란 교정) 알고리즘은 고유한 오류를 식별하기 위해 복제 스펙트럼을 처리하는 데 사용할 수 있다. 개별 스펙트럼은 Marterns, H. & Stark, E.(1991)에 설명된 대로 선형 보정을 사용하여 고유한 오류를 보정하도록 전처리될 수 있다. 확장 증식 신호 보정 및 스펙트럼 간섭 제거: 근적외선 분광법을 위한 새로운 전처리 방법. Journal of Pharmaceutical and Biomedical Analysis, 9(8), 625-635, 이는 모든 목적을 위해 그 전체가 참고로 여기에 포함된다. 고차 다항식은 임의로 선택한 "기준" 복제 스캔에 대해 복제 스펙트럼을 피팅(fitting) 및/또는 수정하는 데 사용할 수 있다.
스펙트럼 및 검출된 특성은 컴퓨팅 장치(104)로 전송된다. 컴퓨팅 장치(104)는 유전자 알고리즘을 사용하여, 스펙트럼을 관심 특성으로 변환시키는 처리 파이프라인을 식별하고, 그 후, 처리 파이프라인을 구현한다.
보다 구체적으로, 새로운 훈련 인스턴스(예를 들어, 샘플 유형 및 관심 특성의 특정 조합과 연관됨)를 식별할 때, 유전자 알고리즘 제어기(105)는 1세대의 처리를 시작한다. 각 세대는 후보 솔루션들의 집단과 연계되며, 그 각각은 후보 솔루션 속성들의 세트와 연계된다. 후보 솔루션 속성 세트의 각 속성은 수행할 전처리 또는 머신 러닝 처리의 특성을 지정할 수 있다. 어떤 속성을 식별할 것인지에 대한 정의는 클라이언트 및/또는 개발자가 설정할 수 있다. 속성에 대한 임의의 제약(예: 상한, 하한, 속성 선택 시의 이 선택되는 옵션의 유니버스 식별 등)은 클라이언트 및/또는 개발자가 추가로 설정할 수 있다. 일부 예에서, 유전자 알고리즘 제어기(105)는 클라이언트 및/또는 개발자에 의한 수동 구성의 필요 없이, 상한 및 하한을 식별하기 위해 속성에 대한 제약을 최적화할 수도 있다. 하나 이상의 제1 다른 속성 각각이 고정될 수 있고(그리고, 예를 들어, 클라이언트 및/또는 개발자에 의해 설정될 수 있음), 하나 이상의 제2 다른 속성 각각이 처리 파이프라인이 정의될 때 학습될 속성으로 식별될 수 있다.
1세대와 관련된 후보 솔루션 속성의 세트들이 무작위로, 수동으로(예를 들어, 클라이언트 또는 개발자에 의해 정의된 바와 같이), 또는 의사 무작위 선택 프로세스에 따라, 선택될 수 있다. 일부 경우에, 후보 솔루션 속성 세트들은 값 공간을 적어도 정의된 정도로 커버하는(또는 커버할 가능성이 높은), 및/또는 서로로부터 정의된 정도만큼 다를 가능성이 높은, 속성들의 선택을 촉진하도록 설계된 기술에 따라 선택된다. 선택은 하나 이상의 속성에 적용된 하나 이상의 편향(biases)에 따라 추가로 수행될 수 있다. 어떤 경우에는 편향이 1세대에 대해 0으로 설정된다.
세대 데이터 저장소(106)에 저장된 세대 데이터는 현재 세대, 후보 솔루션 속성의 선택에 적용된 임의의 편향, 및/또는 현재 세대에 포함된 후보 솔루션의 수(클라이언트 및/또는 개발자에 의해 설정된 미리 정의된 수와 동일할 수 있음)를 식별한다. 후보 솔루션 속성은 후보 솔루션 속성들의 각 세트를 후보 솔루션의 식별자에 묶는 연관 관계와 함께 후보 솔루션 속성 데이터 저장소(107)에 저장된다.
각각의 후보 솔루션에 대해, 전처리 제어기(108)는 전처리를 구성하고, 머신 러닝(ML) 모델 제어기(109)는 후보 솔루션의 후보 솔루션 속성에 따라 머신-러닝 모델을 구성한다. 이러한 구성에는 특정 유형의 전처리(예: 기준선 제거, 스케일링, 필터링)가 수행되거나 수행되지 않도록; 전처리 유형에 대해 사용할 특정 기술을 구현하도록; 특정 유형의 머신-러닝 모델을 구현하도록; 전처리 기술에 대한 특정 변수를 설정하거나 및/또는 머신-러닝 모델에 대한 특정 변수(예: 학습되지 않는 변수)를 설정하도록, 구성 코드(configuring code)를 포함할 수 있다. 그런 다음 후보 처리 파이프라인이 정의되어, 구성된 전처리 머신-러닝 모델을 포함하게 된다. 처리 파이프라인 정의 데이터 저장소(110)는 후보 솔루션의 식별자와 연계하여 후보 처리 파이프라인을 저장한다.
전처리 제어기(108) 및 머신-러닝 모델 제어기(109)는 (다중 스펙트럼 및 샘플 특성의 알려진 다중 측정치를 포함하는) 훈련 데이터 세트를 추가로 사용하여 (예를 들어, 머신 러닝 값에 대한 파라미터를 학습하기 위해) 임의의 데이터 종속 값을 결정할 수 있다. 검증 또는 테스트 데이터 세트의 다른 스펙트럼은 처리 파이프라인 및 임의의 데이터 종속 값을 사용하여 처리되어 추정된 샘플 특성을 생성할 수 있다. 추정된 샘플 특성은 검증 또는 테스트 데이터 세트로부터 알려진 샘플 특성과 비교되어, 후보 솔루션에 대한 다양한 적합성 메트릭(예: 결정 계수, 평균 제곱 오차의 제곱근, 교차 엔트로피 등)에 대한 적합성 메트릭 값을 생성할 수 있다.
샘플들의 세트에 대응하는 샘플 특성 및 스펙트럼을 포함하는 데이터 세트는 다수의 서브세트(훈련 서브세트, 검증 서브세트 및/또는 테스트 서브세트 포함)로 분할된다. 분할(partitioning)은 전체 데이터 세트에 대해 한 번 수행될 수도 있고, 두 번 이상 수행될 수도 있다. 예를 들어, 데이터 세트는 유전자 알고리즘을 사용하여 평가된 각 세대에 대해 개별적으로; 단일 생성 동안 단일 후보 솔루션을 처리하는 것과 관련하여 여러 번(예: k-폴드검증 분석의 경우); 등과 같이 분할될 수 있다.
주어진 샘플에 대해 다중 데이터 관측치가 수집될 수 있음을 이해해야 한다. 예를 들어, 샘플 특성과 스펙트럼이 주어진 샘플에 대해 100번 수집되었을 수 있다. 그러나 이러한 100회의 관측치가 독립적일 필요는 없다. 오히려, 그것들은 복제된 관측치와 관련될 수 있다. 예를 들어, 관측치에는 주어진 샘플에 대해 생산된 10개의 서로 다른 로트 각각에 대한 10개의 반복 관측치가 포함될 수 있다. 이러한 경우에 한 가지 접근 방식은 100개의 관측치가 충분히 독립적인 것으로 간주하여 (예를 들어) 관측치를 무작위적으로 또는 유사 무작위적으로 서브세트로 분할할 수 있다(예: 테스트를 위해 20개의 관측치를 유사 무작위적으로 선택하고 나머지 80개의 관측치를 훈련을 위해 사용). 또 다른 접근 방식은 대신 로트를 분할하고 로트 내 관측치를 그룹화하는 것이다(예: 테스트를 위해 의사 무작위로 2개 로트를 선택한 다음, 테스트에 해당 2개 로트와 관련된 20개 관측치를 사용하고 나머지 관측값은 훈련에 사용). 이 후자의 접근 방식은 훈련을 개선할 수 있고, 독립적인 데이터 세트로 처리가 수행되는 방식을 보다 정확하게 예측하는 테스트 메트릭을 생성할 수 있다.
일부 예에서, 컴퓨팅 장치(104)는 스펙트럼의 일부(예를 들어, 하나 이상의 파수의 강도, 스펙트럼 내의 하나 이상의 스펙트럼, 등)가 스펙트럼의 나머지 부분에 상대적인 이상치(outlier)인지 여부를 결정하기 위해 데이터세트(서브세트 및/또는 로트)의 스펙트럼을 분석할 수 있다. 스펙트럼의 일부가 이상치로 결정되면(예: 스펙트럼의 다른 부분에서 임계값보다 많이 벗어남), 스펙트럼의 일부 이상치라고 결정되면(가령, 임계 량 이상으로 스펙트럼의 나머지 부분으로부터 벗어날 경우), 스펙트럼(또는 그 일부)이 폐기될 수 있다(또는 그렇지 않으면 처리 파이프라인을 정의하는 데 사용되지 않는다). 이상치 검출은 또한 처리 파이프라인의 실행 중에 수행되어 샘플의 특성에 대한 추정 또는 예측의 정확성에 대한 확신을 도출할 수 있다. 예를 들어, 이상치 검출은 처리 파이프라인에서 비롯된 예측치를, 처리 파이프라인에 의한 다른 예측치와 비교함으로써 수행될 수 있다.
이상치 검출은 주성분 분석(PCA)을 수행하는 것을 포함할 수 있다. 특히, 여러 스펙트럼을 분석하여 주성분 세트를 결정한다. 하나 이상의 스펙트럼(주성분을 결정하는 데 사용된 다중 스펙트럼에 있거나 상이한 스펙트럼일 수 있음) 각각은 스펙트럼의 변환된 표현을 생성하기 위해 주성분을 따라 투영(또는 재캐스트)될 수 있다. 하나 이상의 스펙트럼 각각에 대해, 스펙트럼의 변환된 표현과 하나 이상의 다른 스펙트럼 각각의 변환된 표현을 분리시키는 거리에 기초하여 거리 메트릭이 계산될 수 있다. 거리 메트릭이 임계값보다 크면 스펙트럼이 이상치로 분류될 수 있다.
일부 예에서, 현재 입력 스펙트럼은 폐기될 수 있고, 처리 파이프라인을 정의하는 데 사용하기 위해 새로운 입력 스펙트럼이 획득될 수 있다. 다른 경우에, 이상치 검출은 입력 스펙트럼 내에서 이상치인 하나 이상의 파수 또는 하나 이상의 스펙트럼을 식별하고, 입력 스펙트럼으로부터 (각각) 이러한 하나 이상의 파수 또는 하나 이상의 스펙트럼을 필터링하는 것을 포함할 수 있다. 입력 스펙트럼의 나머지 스펙트럼은 처리 파이프라인을 정의하는 데 사용된다.
그 다음, 유전자 알고리즘 제어기(105)는 생성 데이터 저장소(106)를 업데이트하여 각각의 후보-솔루션 식별자를 적합성 메트릭과 연관시킨다. 후보 솔루션은 병렬로 또는 반복적으로 평가될 수 있음을 이해할 수 있다. 집단의 각 후보 솔루션에 대한 적합성 메트릭이 결정되면 유전자 알고리즘 제어기(105)는 다른 생성 반복을 수행할지 여부를 결정한다. 예를 들어, 현재 세대 카운트가 미리 정의된 세대 처리 수량(예: 클라이언트 또는 개발자가 정의한 대로) 미만일 때, 현재 세대에 대한 집단 전체 중 최상의 적합성 메트릭이 미리 정의된 임계값을 초과하지 않을 때(예: 가장 낮은 오류가 주어진 오류 임계값보다 높을 때 또는 가장 높은 R2 값이 R2 임계값보다 낮은 경우), 또는 현재 세대에 대한 집단 전체 중 최상의 적합성 메트릭이, 이전 세대에 대한 집단 전체 중 최상의 적합성 메트릭에 대비할 때 적어도 미리 정의된 양만큼 개선되지 않을 때, 다른 생성 반복이 수행될 수 있다.
다른 생성 반복이 수행되어야 할 때, 유전자 알고리즘 제어기(105)는 세대 데이터 저장소(106)에 저장된 세대 카운트를 증가시키고, 후보 솔루션 속성들의 새로운 세트(각각의 세트가 새로운 후보 솔루션과 연관됨)를 식별한다. 새로운 후보 솔루션 속성 세트는 이전 후보 솔루션 속성 세트과 해당 적합성 메트릭을 기반으로 결정된다. 예를 들어, 후보 솔루션 속성의 새로운 세트의 선택은 비교적 높은 적합성 메트릭을 갖는 이전 후보 솔루션과 관련된 속성을 향해 편향되고 비교적 낮은 적합성 메트릭을 갖는 이전 후보 솔루션 속성과 관련된 속성에 반해 편향될 수 있다. 후보 집단의 진화적 선택은 돌연변이 비율을 수정하여 다양한 시나리오에 맞게 조정된다. 돌연변이율에는 전처리 기술 및 머신 러닝 파라미터의 무작위 또는 의사 무작위 순열이 포함된다. 새로운 후보 솔루션은 1세대 후보 솔루션과 동일하게 처리되며, 다른 생성 반복이 수행되지 않는 것으로 결정될 때까지 세대가 반복적으로 생성되고 평가된다.
다른 생성이 수행되지 않는 경우 단일 후보 솔루션이 선택된다. 단일 후보 솔루션은 (예를 들어) 최종-세대 및/또는 모든 세대의 후보 솔루션에 걸쳐 최상의 적합성 메트릭과 연관된 후보 솔루션이다.
단일 후보 솔루션의 처리 파이프라인은 하나 이상의 추가 처리 단계로 증강될 수 있다. 예를 들어, 처리 파이프라인은 처리 파이프라인의 특정 단계에서 입력 스펙트럼으로부터 샘플 특성을 추정하거나 예측하는 데 사용될 특징을 선택하기 위해 특징-선택 제어기(112)를 사용하여 증강될 수 있다. 특징-선택 제어기(112)는 컴퓨팅 장치(104)(도시된 바와 같음)에 또는 컴퓨팅 장치(104)와 통신하는 별도의 처리 장치로서 포함될 수 있다.
도 2로 넘어가면, 본 발명의 일부 실시예에 따라 샘플 특성을 추정하거나 예측하는 데 사용하기 위한 특징을 선택하는 특징-선택 제어기(112)의 예를 도시한다. 특징-선택 제어기(112)는 샘플의 추정 또는 예측을 생성하는 단계 이전의 처리 파이프라인의 임의의 단계에서 특징-선택 프로세스를 구현할 수 있다. 예를 들어, 특징-선택 제어기(112)는 머신-러닝 모델의 작동 이전 단계에서 작동될 수 있다. 입력 스펙트럼(208)이 특징-선택 제어기(112)로 전달된다. 특징-선택 제어기(112)는 212에서 입력 스펙트럼의 파수 세트 및 각 파수에서 대응하는 강도(예를 들어, 특징)를 식별한다. 특징-선택 제어기(112)는 파수 및 관련 강도를, 파수 세트의 각 파수에 대한 순위를 정의하는 파수 순위 프로세서(216)에 전달한다.
예를 들어, 파수 랭킹 프로세서(216)는 각 파수에 대한 랭크를 할당하기 위해 부분 최소 제곱(PLS) 회귀를 사용한다. PLS는 파수와 다른 파수 사이의 상관 관계를 설명하는 구성 요소 세트를 출력한다(예: 파수의 강도를 변경하면 다른 파수의 강도가 달라지는 정도를 나타냄). 부분 최소 제곱 회귀 구성 요소의 상대적 순서에 따라 각 파수에 순위가 할당된다.
특징-선택 제어기(112)는 특징 선택을 위해 평가될 반복의 양에 기초하여 파수 세트의 다중 서브세트를 정의하기 위해 서브세트 정의(220)를 사용한다. 어떤 경우에는 서브세트의 수가 평가될 반복의 수와 같다. 특징-선택 제어기(112)는 순위에 따라(예를 들어, 최고에서 최저로 또는 그 반대로) 파수 세트를 정렬함으로써 서브세트를 정의한다. 제1 서브세트에는 전체 파수 세트가 포함된다. 각각의 후속 서브세트는 순위에 기초하여 미리 결정된 양의 파수를 제외한, 이전 서브세트로부터의 파수를 포함한다(예: 가장 낮은 순위의 파수, 가장 높은 순위의 파수, 임의의 파수 선택 등). 미리 결정된 양은 파수 세트 내 파수 양의 백분율(잠재적으로 반올림됨), 이전 서브세트 내 파수 양의 백분율, 정수 등일 수 있다.
반복 제어기(224)는 교차 검증 분석을 사용하여 파수(228)의 각 서브세트를 반복적으로 평가한다. 교차 검증 분석은 각 반복에 대한 점수(232)를 생성하는 데 사용된다. 점수(232)는 서브세트(228)의 파수에 대응하는 강도를 사용하여 생성된 샘플 특성의 추정 또는 예측이 정확하다는 신뢰도를 나타낸다. 점수(232)는 상이한 서브세트를 사용하여 생성된 추정 및/또는 예측의 신뢰도의 상대적 차이를 결정하기 위해 다른 반복의 점수와 비교될 수 있다. 점수(232)는 파수(228)의 서브세트에 포함된 파수를 기반으로 정의된 훈련 데이터 세트와 검증 데이터 세트를 사용하여 파생된다. 훈련 데이터 세트는 (지상 실측 라벨이 알려져있는) 검증 데이터 세트의 샘플 특성을 추정하거나 예측하는 머신-러닝 모델을 훈련한다. 점수는 검증 데이터 세트 처리의 출력을 지상 실측 라벨과 비교하여 파생된다.
반복 제어기(224)는 기준 점수(예를 들어, 파수 세트를 포함하는 서브세트의 점수)로부터 임계 편차 내에 있는 점수를 포함하는 반복을 출력한다. 예를 들어, 임계 편차가 .02이면, 반복 제어기(224)는 기준 점수로부터 .02에 가장 가까운 점수를 갖는 반복을 식별한다. 파수(236)의 식별된 서브세트는 식별된 반복의 파수 서브세트를 포함한다. 파수(236)의 식별된 서브세트의 각 파수에서의 강도는 샘플 특성을 추정하거나 예측하기 위해 처리 파이프라인(208)에서 머신-러닝 모델(240)로 출력된다.
도 1로 돌아가면, 처리 파이프라인은 추정된 샘플 특성을 생성하기 위해 다른 스펙트럼(예를 들어, 파이프라인에 의해 추정되는 유형의 알려진 특성과 잠재적으로 연관되지 않음)을 처리하는 데 유용할 수 있다. 사용 가능한 처리 파이프라인은 (가령, 단일 후보 솔루션과 관련된 속성으로 구성된 전처리 및 머신-러닝 모델에 추가하여) 훈련 데이터를 기반으로 결정된 데이터 종속 값을 포함할 수 있지만 반드시 그런 것은 아니다. 처리 파이프라인을 이용하는 것은 처리 파이프라인 및/또는 단일 후보 솔루션의 솔루션 속성과 연관된 코드를 다른 장치로 전송하는 것 및/또는 다른 스펙트럼을 국부적으로 처리하는 것을 포함할 수 있다.
처리 파이프라인은 로트 릴리스(lot release)를 위해 준비되는 샘플과 같은, 다른 샘플의 스펙트럼을 사용하여 특성을 추정하거나 예측하는 데 사용될 수 있다. 여기에는 주어진 샘플에 대해, 국부적으로 제시되거나 다른 기기로 전송될 수 있는 추정된 특성을 식별하는 결과가 포함된다. 어떤 경우에는 품질 관리 조건(추정된 특성을 사용하여 평가)이 충족되지 않는 경우에만 결과가 표시되거나 전송된다. 예를 들어, 수치 추정 특성이 미리 정의된 개방 또는 폐쇄 범위 내에 있지 않거나 수치 추정 특성이 특정 임계값을 초과할 때 결과가 조건부로 제시될 수 있다.
결과는 또한 추정된 특성을 범주적으로 정의할 수 있다. 예시적인 카테고리(categories)에는 품질 관리 조건이 충족되는지 여부에 따라 샘플을 "만족" 또는 "불만족"으로 표시하는 것이 포함될 수 있다. 어떤 경우에는 카테고리 자체가 하나 이상의 다른 샘플에 해당하는 하나 이상의 카테고리를 표시하거나 이와 함께 사용되어, 샘플들의 로트를 만족스러운 또는 불만족스러운 것으로 분류할 수 있다. 로트는 샘플 제조에 사용된 일부 또는 모든 기계의 연속 작동으로 정의될 수 있는 기간 동안 및/또는 샘플 제조에 사용되는 일부 또는 모든 기계가 파워 온 상태로 유지되는 기간 동안 단일 시설에서 제조된 샘플 세트에 해당할 수 있다.
카테고리는 특히 샘플의 결핍(예: 활성 성분의 농도가 높거나 낮음, 비활성 성분의 농도가 높거나 낮음, 높거나 낮은 pH, 등)과 관련하여 샘플의 특성을 식별하기 위해 추가로 정의될 수 있다. 수치로 추정되는 특성은 클라이언트 및/또는 개발자가 정의한 미리 결정된 임계값(예: 성분 농도 및/또는 pH, 및/또는 기타 적절한 샘플 특성에 대한 하한 또는 상한 세트)을 기반으로 정의된 카테고리 중 하나로 분류될 수 있다. 샘플의 특성에 대한 추정된 카테고리 및/또는 분류가 제시되거나 다른 장치로 전송될 수 있다. 수치 추정 특성과 마찬가지로, 추정 특성이 일부 측면에서 불만족스럽거나 부족한 것으로 분류된 경우에만 결과가 제시될 수 있다. 어떤 경우에는 결과가 수치 추정 특성과 범주 추정 특성 모두로 구성될 수 있다. 그러한 경우에, 수치 추정 특성과 범주 추정 특성 모두가 제시되거나 다른 장치로 전송될 수 있다.
추정된 특성은 해당 샘플이 하나 이상의 샘플 분배 시스템(111)에 의해 배포되는 것을 허용, 촉진, 금지 또는 방지할지 여부를 결정하는 데 사용될 수 있다. 예를 들어, 품질 관리 조건이 충족되지 않으면, 샘플을 식별하고 추정된 특성 및/또는 배포 이전에 샘플을 수집(또는 자동화된 샘플 배포 처리 라인으로부터 샘플을 제거)하기 위한 명령어를 잠재적으로 포함하는 통신이 컴퓨팅 장치(104)로부터 샘플 분배 시스템(111) 및/또는 관련 사용자 장치로 전송될 수 있다. 일부 사례에서, 샘플 분배 시스템(111) 및 컴퓨팅 장치(104)는 동일한 시설에 보관된다. 컴퓨팅 장치(104)는 샘플이 분배 이전에 횡단하게 되는 물리적 게이팅 메커니즘에 연결될 수 있다. 물리적 게이팅 메커니즘은 품질 관리 조건이 충족되는 샘플을 선택적으로 통과시키도록 구성될 수 있다.
일부 예에서, 컴퓨팅 장치(104)는 하나보다 많은 추정된 특성에 대한 품질 관리 조건 세트를 포함한다. 그 결과, 각각의 추정된 특성에 대해 별도의 반복을 위해 유전자 알고리즘을 구성할 수 있다. 품질 관리 조건 세트가 모두 충족되지 않으면, 컴퓨팅 장치(104)는 샘플 분배 시스템(111) 및/또는 관련 사용자 장치와 통신하여, 샘플의 분배를 중단시킬 수 있다(예: 또는, 샘플이 품질 관리 조건 충족을 위해 변경되는 경우 지연시킬 수 있다). 품질 관리 조건의 모든 세트가 충족되는 경우에는 컴퓨팅 장치(104)는 샘플의 배포를 허용할 수 있다.
일부 예에서, 컴퓨팅 장치(104)는 샘플 배포 시스템(111)에 의해 샘플 묶음이 배포되는 것을 허용, 촉진, 금지 또는 방지할지 여부를 결정하기 위해 추정된 특성을 추가로 사용할 수 있다. 샘플 묶음 내 적어도 어느 양의 샘플(예: 미리 정의된 임계값 또는 대다수)이 품질 관리 조건을 충족하지 않는 경우, 샘플 묶음은 "불만족" 묶음으로 분류될 수 있다. 컴퓨팅 장치(104)는 "불만족스러운" 것으로 간주된 샘플 묶음의 배포를 중단하기 위해 샘플 배포 시스템(111) 및/또는 관련 사용자 장치와 통신할 수 있다. 어떤 경우에는 "불만족스러운" 샘플 묶음이 품질 관리 조건을 충족하기 위해 추가로 변경된다. 샘플 묶음 내 적어도 다수의 샘플(예: 대다수 또는 미리 정의된 임계값)이 품질 관리 조건을 충족하는 경우, 샘플 묶음은 "만족스러운" 묶음으로 분류될 수 있다. 그러한 경우에, 컴퓨팅 장치(104)는 품질 관리 조건을 만족하지 않는 "만족스러운" 묶음 내에서 개별 샘플의 분배만을 중단할 것이다. 다른 예에서, 컴퓨팅 장치(104)는 샘플의 묶음이 "만족스러운" 것으로 분류되는 한, 품질 관리 조건을 충족하지 않는 샘플들의 묶음 내의 개별 샘플의 배포를 허용한다.
또한, 품질 관리 조건의 이행 여부에 따라 향후 샘플의 생산 과정에서 조정이 결정될 수 있다. 품질 관리 조건이 충족되지 않으면 샘플 생산 시스템을 변경하여, 샘플 생산 시스템의 구성 요소(예: 화합물 및/또는 용질 백분율 추가, 화합물 및/또는 용질 백분율 제거, 샘플 생산 기계에 대한 상이한 구성의 이용)이 추가, 수정 또는 제거될 수 있다. 예를 들어, 품질 관리 조건이 샘플 내의 용질 농도가 너무 높다는 것을 나타내는 경우, 샘플 생산 시스템은 더 낮은 농도를 위해 용질 추가를 조정할 수 있다. 일부 사례에서, 샘플 생산 시스템은 특정 수(예: 미리 결정된 임계값일 수 있음)의 샘플이 품질 관리 조건을 충족하지 않는 경우에만 조정될 수 있다.
III. 예시적인 방법
도 3은 본 발명의 일부 실시예에 따라 샘플의 품질 관리 처리를 용이하게 하기 위해 유전자 알고리즘을 사용하기 위한 예시적인 프로세스(300)를 도시한다. 컴퓨팅 장치(예를 들어, 컴퓨팅 장치(104)와 같은)가 프로세스(300)를 실행한다. 블록(305)에서, 컴퓨팅 장치는 데이터 세트에 액세스한다. 각 데이터 요소는 샘플의 알려진 특성(예: 알려진 물리적 또는 화학적 특성) 및 스펙트럼을 포함할 수 있다.
블록(310)에서, 컴퓨팅 장치는 후보 솔루션들의 집단을 초기화한다. 각각의 후보 솔루션은 머신-러닝 모델을 사용하여 스펙트럼을 전처리 및/또는 스펙트럼(또는 그의 전처리된 버전)을 처리하기 위한 유형, 기술 또는 변수를 지정하는 속성 세트를 포함할 수 있다.
블록(315)에서, 컴퓨팅 장치는 집단의 각각의 후보 솔루션에 대해 그리고 데이터 요소 세트 중 적어도 일부 각각에 대해, 후보 솔루션에 연계된 속성 세트에 따라 구성되는 바와 같이, 임의의 전처리 및 머신-러닝 모델에 따라 데이터 요소의 스펙트럼을 변환함으로써 예측 샘플 특성을 결정한다. 예를 들어, 기준선 및/또는 필터가 속성 세트 중 적어도 하나 및 데이터 요소의 적어도 일부에 기초하여 식별될 수 있고, 기준선은 제거될 수 있으며, 및/또는 스펙트럼은 기준선 및/또는 필터를 이용하여 필터링될 수 있다. 다른 예로서, 일 유형의 머신-러닝 모델이 후보 솔루션의 속성 세트 중 적어도 일부에 따라 선택 및 구성될 수 있으며, 머신-러닝 모델은 데이터 요소 중 적어도 일부를 사용하여 추가로 구성될 수 있다. 그런 다음, 구성된 전처리 및/또는 머신-러닝 모델을 사용하여 개별 스펙트럼을 처리할 수 있다. 어떤 경우에는 데이터 세트의 제1 부분(예: 훈련 서브세트)이 데이터 종속 값을 결정하거나 학습하는 데 사용되며, 전처리 및 머신-러닝 모델(데이터 종속 값 및 속성 세트로 구성됨)을 사용하여, 데이터 세트의 하나 이상의 제2 부분(예: 검증 서브세트 및/또는 테스트 서브세트)에서 각 데이터 요소에 대한 예측 샘플 특성을 생성할 수 있다.
블록(320)에서, 컴퓨팅 장치는 예측 샘플 특성 및 알려진 샘플 특성에 기초하여 각각의 후보 용질에 대한 적합성 메트릭을 생성한다. 적합성 메트릭은 (예를 들어) 오류 메트릭, 상관 메트릭 및/또는 쌍별 유의도 값(pairwise significance value)을 포함할 수 있다. 예를 들어, 적합성 메트릭은 신호 대 잡음비, 평균 제곱근 오차, 짝 분석을 사용하여 생성된 R2 값 또는 p-값을 포함할 수 있다. 어떤 경우에는 데이터 세트의 유효성 검사 또는 테스트 서브세트를 사용하여 적합성 메트릭이 생성된다. 일부 예에서, 적합성 메트릭은 예측된 샘플 특성 및 알려진 샘플 특성의 분류 정확도 값을 사용하여 생성된다(예: 계산된 오류 메트릭이 미리 결정된 상한과 하한 사이에 있는 경우 "만족스러운" 라벨 할당). 일부 예에서, 적합성 메트릭은 낮은 값 및/또는 "0" 값이 보다 높은 값에 비해 샘플 특성을 예측하는 데 후보 솔루션이 더 우수함을 나타내도록 구성된다. 일부 경우에, 적합성 메트릭은 높은 값 및/또는 "1" 값이 보다 낮은 값에 비해 샘플 특성을 예측하는 데 후보 솔루션이 더 우수함을 나타내도록 구성된다.
블록(325)에서, 컴퓨팅 장치는 적합성 메트릭에 기초하여 후보 솔루션들의 집단의 불완전한 서브세트를 선택한다. 불완전한 서브세트는 미리 정의된 수의 후보 솔루션(예: 1 또는 3), 후보 솔루션 집단의 미리 정의된 백분율(예: 5% 또는 10%), 또는 사전 정의된 임계값 이상(또는 이하)인 적합성 메트릭과 연관된 집단 내 각각의 후보 솔루션을 포함할 수 있다. 불완전한 서브세트는 (예를 들어) 서브세트에 없는 다른 후보 솔루션에 비해 더 나은 예측 성능을 나타내는 적합성 메트릭과 연관된 후보 솔루션(들)을 포함하도록 선택될 수 있다. 예를 들어, 서브세트는 집단에서 최저 오류 기반 적합성 메트릭과 연관되거나 집단에서 최고 상관 기반 적합성 메트릭과 연관된 집단으로부터 2개의 후보 솔루션을 포함하도록 선택될 수 있다.
블록(330)에서, 컴퓨팅 장치는 추가 생성 반복을 수행할지 여부를 결정한다. 예를 들어, 현재 세대 카운트가 평가 대상의 미리 정의된 세대 수 미만인 경우 추가 생성을 수행하도록 결정할 수 있다.
컴퓨팅 장치가 추가 생성 반복이 수행되어야 한다고 결정하면, 프로세스(300)는 블록(335)으로 진행할 수 있고, 여기서 후보 솔루션들의 집단은 서브세트 및 하나 이상의 유전 연산자를 사용하여 업데이트될 수 있다. 후보 솔루션들의 집단을 업데이트하는 것은 후보 솔루션들의 집단을 새로운 후보 솔루션들의 집단으로 교체하는 것을 포함할 수 있다(예: 새 집단의 각 후보 솔루션은 새로운 속성 세트와 연관됨). 새로운 집단은 각 속성 세트에 대해 값을 선택하여 생성할 수 있다(예: 의사 무작위 선택 기술 사용). 선택은 불완전한 서브세트와 관련된 값을 향해 편향될 수 있다. 선택은 돌연변이 연산자, 교차 연산자 및/또는 선택 연산자와 같은, 하나 이상의 유전 연산자를 사용할 수 있다. 그 다음, 프로세스(300)는 후보 솔루션의 업데이트된 집단을 평가하기 위해 블록(315)으로 돌아갈 수 있다.
블록(330)에서 컴퓨팅 장치가, 추가 생성 반복이 수행되지 않아야 한다고 결정하면, 프로세스(300)는 블록(340)으로 진행할 수 있으며, 여기서 처리 파이프라인이 서브세트 내 후보 솔루션의 속성 세트에 기초하여 정의된다. 처리 파이프라인은 수행할 전처리 유형(있는 경우), 및 수행할 머신-러닝 모델 처리 유형을 식별할 수 있다. 일부 예에서, 처리 파이프라인은 속성 세트의 속성에 의해 정의된 하나 이상의 학습되지 않은 변수, 및/또는 훈련 데이터에 기초하여 정의된 하나 이상의 학습된 파라미터와 같은, 특정 변수를 포함한다.
블록(345)에서 컴퓨팅 장치는 처리 파이프라인에서 특징-선택 프로세스를 수행한다. 컴퓨팅 장치는 (예를 들어, 샘플의 특성을 사전에 예측하는 것과 같은) 처리 파이프라인의 특정 단계의 입력 스펙트럼으로부터, 파수 세트 및 대응하는 강도를 입력 스펙트럼으로부터 식별한다. 특징-선택 프로세스는 샘플의 특성을 예측하는 데 사용할 하나 이상의 파수 및 해당 강도(예: 특징)를 파수 세트로부터 선택하는 것을 포함한다. 파수를 선택함으로써, 컴퓨팅 장치는 특성을 예측하는 데 사용되는 입력 스펙트럼으로부터 강도의 양을 줄일 수 있다.
특징-선택 프로세스는 파수 세트의 각 파수에 대한 순위를 생성하는 것을 포함한다. 순위는 부분 최소 제곱(PLS) 회귀와 같은 회귀 분석을 사용하여 생성될 수 있다. PLS는 파수와 다른 파수 사이의 상관 관계를 설명하는 구성 요소 세트를 출력한다(예: 파수의 강도를 변경하면 다른 파수의 강도가 달라지는 정도를 나타냄). 부분 최소 제곱 회귀 구성 요소의 상대적 순서에 따라 각 파수에 순위가 할당된다. 순위는 파수 세트의 가변성에 대한 파수 기여도를 나타낸다. 높은 순위의 파수는 파수의 강도를 변경하면 하나 이상의 다른 파수에 상응하는 가변성이 발생함을 나타낸다. 낮은 순위의 파수는 파수를 변경하면 다른 파수의 강도가 거의 또는 전혀 변경되지 않음을 나타낸다. 스펙트럼의 파수는 각 파수의 순위에 따라 소팅된다. 예를 들어, 파수는 가장 높은 순위의 파수에서 가장 낮은 순위의 파수로 또는 그 반대로 소팅된다.
컴퓨팅 장치는 파수 세트의 상이한 서브세트를 평가하는 각 반복을 갖는 반복 세트를 정의한다. 제1 반복의 파수의 서브세트에는 모든 파수가 포함된다. 각 후속 반복의 파수의 서브세트에는 이전 반복의 파수에서 순위를 기반으로 하는 소정 양의 파수(예: 가장 낮은 파수, 가장 높은 파수, 파수의 무작위 샘플링 등)를 뺀 것이 포함된다. 한 예에서 스펙트럼이 1500개의 파수를 포함하는 경우, 제1 반복의 서브세트에는 1500개의 파수가 포함되고, 제2 반복의 서브세트에는 제1 반복의 1500으로부터 낮은 순위의 파수의 25%를 뺀 값(예: 1125개의 파수를 남김)이 포함되며, 제3 반복의 서브세트에는 제1 반복의 1125에서 낮은 순위를 가진 파수의 백분율을 뺀 값(예: 남은 825개의 파수 반복)이 포함된다.
컴퓨팅 장치는 이전에 도 2에 설명된 바와 같이 교차 검증 분석에 기초하여 각 반복에 대한 모델-검증 점수를 정의함으로써 반복 세트의 각 반복을 평가한다. 각 점수는 서브세트의 파수에 대한 강도를 포함하는 처리 스펙트럼(처리 파이프라인에 따라)이 샘플 특성을 정확하게 예측하는 정도를 나타낸다. 제1 반복의 모델-검증 점수(예: 파수 세트 포함)는 후속 모델-검증 점수와 비교되는 기준 모델-검증 점수이다. 모델-검증 점수를 기준 모델-검증 점수와 비교하면 파수 제거가 샘플 특성 예측 정확도에 미치는 영향을 나타낸다.
그 다음, 특징-선택 프로세스는 기준 모델-검증 점수로부터 임계 편차 내에 있는 모델-검증 점수를 갖는 미리 결정된 반복 수량으로부터 특정 반복을 식별한다. 예를 들어, 임계값은 .020으로 설정될 수 있다(예를 들어, 또는 유전자 알고리즘, 사용자 입력, 파수의 양, 기준 모델-검증 점수, 이들의 조합 등에 기초한 임의의 미리 결정된 양). 컴퓨팅 장치는 기준 모델-검증 점수로부터 임계값에 가장 가까운 모델-검증 점수를 갖는 특정 반복을 식별한다. 일부 예에서, 특징-선택 프로세스는 임계값 초과없이 기준 모델-검증 점수로부터 임계값에 가장 가까운 모델-검증 점수를 갖는 특정 반복을 식별한다.
일부 예에서, 컴퓨팅 장치는 다음 반복으로 이동하기 전에 각 반복에 대해 도출된 모델-검증 점수를 기준 모델-검증 점수와 비교한다. 임계값 편차보다 큰 모델-검증 점수가 있는 반복을 감지하면 특징-선택 프로세스는 이전 반복을 특정 반복으로 식별한다(예: 기준 모델-검증 점수로부터 임계값 편차보다 큰 모델-검증 점수를 가진 반복 이전의 반복). 이러한 경우에 특징-선택 프로세스는 미리 결정된 반복 횟수를 수행하도록 구성되지만, 분석된 반복 횟수를 줄이기 위해 특정 반복을 식별하는 즉시 종료된다.
특정 반복의 파수에 해당하는 강도는 샘플의 특성을 예측하는 데 사용될 수 있다. 더 적은 수의 파수가 사용되기 때문에 예측기의 성능(예: 예측 정확도 등)에 영향을 미치지 않으면서 예측기(예: 앞서 설명한 머신-러닝 모델, 등)의 전체 복잡성을 줄일 수 있다.
후속 스펙트럼을 처리할 때, 컴퓨팅 장치는 특성을 예측하는 데 사용하기 위해 특징-선택 프로세스에 의해 식별된 동일한 파수에서 새로운 스펙트럼의 강도를 선택한다. 특징-선택 프로세스에 의해 식별된 파수에 대응하지 않는 파수 및 해당 강도는 처리 파이프라인에 의한 추가 처리에서 생략될 수 있다. 대안적으로, 특징-선택 프로세스에 의해 식별된 파수에 대응하지 않는 파수 및 해당 강도는 새로운 스펙트럼에서 제거될 수 있다. 블록(340)에 설명된 특징-선택 프로세스는 후속 스펙트럼에서 특성을 예측하는 데 사용될 수 있는 파수를 선택하기 위해 한 번 수행될 수 있다.
일부 예에서, 컴퓨팅 장치는 특성이 예측될 각각의 새로운 스펙트럼에 대해 특징-선택 프로세스를 실행한다. 이러한 경우, 새로운 스펙트럼에 대한 처리 파이프라인의 각 실행에는 특성을 예측하기 전에 발생하는 특징-선택 프로세스가 포함된다.
특징-선택 프로세스는 (예를 들어, 블록 345에 설명된 바와 같이) 특성의 예측을 생성하기 전에 처리 파이프라인의 단계로서 수행될 수 있다. 대안적으로, 특징-선택 프로세스는 유전자 알고리즘 내에서 수행될 수 있다(예를 들어, 세대에 걸쳐 지속되는 유전자로서). 이러한 경우에 특징-선택 프로세스는 후보 솔루션 집단의 후보 솔루션 내에서 정의된다. 특징-선택 프로세스는 예를 들어, 후보 솔루션에서 및/또는 세대에 걸쳐, 특징-선택 프로세스에 의해 반복이 수행되는 경우 미리 결정된 양을 변경함으로써, 각 반복 동안 제거할 파수의 미리 결정된 수량을 변경함으로써, 각 반복 동안 제거될 파형의 백분율을 변경함으로써, 특정 반복을 식별하기 위해 기준 모델-검증 점수로부터 임계값을 변경함으로써, 이들의 조합 등을 통해, 유전자 알고리즘에 의해 변경될 수 있다.
예를 들어, 속성들(attributes)의 미리 결정된 세트(예를 들어, 반복의 양, 각 반복 동안 제거될 파수의 백분율, 등에 대응하는)를 포함하는 특징-선택 프로세스는 하나 이상의 후보 솔루션 내에 포함된다. 일부 경우에, 일부 후보 솔루션의 특징-선택 프로세스는 다른 후보 솔루션의 특징-선택 프로세스와 다를 수 있다. 예를 들어, 하나 이상의 후보 솔루션에 포함된 특징-선택 프로세스는 12번의 반복을 포함할 수 있고, 하나 이상의 후보 솔루션에 포함된 특징-선택 프로세스는 9번의 반복을 포함할 수 있다. 유전자 알고리즘은 특징-선택 프로세스가 후보 솔루션에 포함될지 여부와, 포함되어야 하는 경우, 특성의 개선된 예측에 해당하는 속성 세트(예: 보다 정확함 등)을 식별한다.
블록 350에서, 컴퓨팅 장치는 처리 파이프라인을 사용하여 다른 샘플의 특성을 예측하기 위해 다른 샘플과 관련된 다른 스펙트럼을 처리한다. 다른 샘플은 다양한 후보 솔루션을 평가하는 데 사용되는 데이터 세트에 표시되지 않은 샘플에 해당할 수 있다. 새로운 스펙트럼이 처리 파이프라인에 의해 처리된 후 특성 예측이 이루어지기 전에, 특성 예측에 사용하기 위해 파수가 선택된다. 선택된 파수는 블록(340)의 특징-선택 프로세스에 의해 식별된 파수에 대응한다. 선택되지 않은 파수는 추가 처리에서 생략되거나 특성 예측에 사용되지 않는다.
블록(355)에서, 컴퓨팅 장치는 예측된 특성을 출력한다. 예를 들어, 예측된 특성은 로컬로 표시되거나 다른 장치로 전송된다. 다른 샘플의 식별자는 예측된 특성과 관련하여 더 출력될 수 있다.
IV. 예
A. 예 1 - 단일 세대에 대한 후보 솔루션 집단
도 4는 단일 세대에 대해 생성된 20개의 후보 솔루션의 예시적인 집단을 나타낸다. 각 후보 솔루션에는 다음 속성 각각에 대한 값이 포함된다:
● 다음 파라미터를 포함하는, 비대칭 최소 제곱 기준선 제거가 수행되는지 여부:
o 비대칭 최소 제곱 기준 제거를 위한 하나의 λ 값;
o 비대칭 최소 제곱 기준 제거를 위한 하나의 p 값;
● 처리에 사용되는 머신-러닝 모델 유형: 부분 최소 제곱(예: 주성분 분석, PLS 판별 분석 등), 랜덤 포레스트(예: AdaBoost 또는 XGBoost와 같은 부스트 트리 모델, 분할 랜덤 포레스트 등) 또는 지원 벡터 머신(예: C-SVM 분류, nu-SVM 분류, 엡실론-SVM 회귀 등);
● 다음을 포함한, 머신-러닝 모델의 하이퍼파라미터:
o 모델 유형이 부분 최소 제곱 모델인 경우: 머신 러닝 파라미터의 수(즉, 계산할 주요 구성요소의 수);
o 모델 유형이 랜덤 포레스트 모델인 경우: 리프 노드(leaf node)가 되기 위해 필요한 최소 샘플 수;
o 모델 유형이 랜덤 포레스트 모델인 경우: 내부 노드를 분할하는 데 필요한 최소 샘플 수;
o 모델 유형이 지원 벡터 머신 모델인 경우: 정규화 및 커널 파라미터 값;
● Savitzky-Golay("savgol") 평활화가 수행되는지 여부.
● 전처리를 매끄럽게 하기 위한 창 크기;
● 전처리를 평활화하기 위한 다항식 차수(polynomial order);
● 전처리를 평활화하기 위한 도함수 차수(derivative order); 그리고
● 표준 정규 변수(Standard Normal Variate) 방법; 최대 강도 값을 이용하여 스케일링을 수행; L1 메트릭을 사용하여 스케일링 수행; 또는 스케일링 수행 안함과 같은 평균 중심화 및 다양한 스케일링 전략을 포함하지만 이에 국한되지 않는 전처리 기술의 선택.
또한, 각각의 후보 솔루션이 특성을 얼마나 정확하게 추정할 수 있는지에 기초하여 각 후보 솔루션에 적합성 메트릭 값(예를 들어, "적합성 CV" 열로 도시됨)이 주어졌다. 가장 성능이 좋은 후보 솔루션(예를 들어, 가장 낮은 적합성 메트릭 값을 가짐)은 가장 정확한 후보 솔루션 0과 가장 덜 정확한 후보 솔루션 19를 사용하여 내림차순으로 순위가 매겨진다. 유전자 알고리즘은 차세대를 위한 후보 솔루션의 새로운 집단 내에 포함될 상위 후보 솔루션(예: 후보 솔루션 0 및/또는 후보 솔루션 1) 중 임의의 것을 선택할 수 있다.
B. 실시예 2 - 젖산 농도 라벨
훈련 데이터 세트는 5000개의 라만 스펙트럼(각각 개별 샘플을 사용하여 수집되고 이에 상응하는)과 5000개의 라벨을 포함하도록 정의되었다. 각 라벨은 샘플 특성을 식별할 수 있으며, 이 예에서는 해당 샘플 내 젖산의 양을 식별한다. 모니터링되는 각 샘플에는 진핵 세포 배양이 포함되었다. 후보 솔루션의 초기 세트는 10개의 후보 솔루션을 갖도록 정의되었으며, 각각은 예 1의 후보 솔루션으로부터 동일한 속성 각각에 대한 값과 연관된다.
그런 다음 유전자 알고리즘을 사용하여 10개의 후보 솔루션 각각을 평가했다. 훈련 데이터 세트는 특정 파라미터를 학습하는 데 사용되었다(예: 속성들의 후보 솔루션 세트가 기준선 제거가 수행되어야 한다고 표시할 때, 비대칭 최소 제곱법을 사용하여 제거할 특정 기준선을 식별). 각 후보 솔루션에 대해, 후보 솔루션의 속성 세트와 임의의 학습된 파라미터에 따라 후보 처리 파이프라인이 정의되었다. 적합성 메트릭은 검증 데이터 세트의 500개의 라만 스펙트럼 각각에 대해, 후보 솔루션의 후보 처리 파이프라인을 사용하여 예측된 라벨을 생성하고, 예측된 라벨을 알려진 라벨과 비교하여 계산되었다.
도 5a는 예시적인 후보 솔루션의 후보 처리 파이프라인에 의해 생성된 젖산 농도의 측정된 라벨 값과 젖산 농도의 예측된 라벨 값 사이의 비교를 나타낸다. 이 후보 처리 파이프라인의 경우 R2 값은 0.868로 결정되었고 평균 제곱근 오차는 테스트 데이터 세트에 대해 0.069로 계산되었다.
도 5a는 다음 구성을 포함하는 1세대의 예시적인 후보 솔루션에 관한 것이다:
● 기준선 제거: 없음
● Savitzky-Golay 평활화는 창 크기 15, 다항식 차수 2, 도함수 차수 1을 사용하여 수행된다.
● 스케일링은 표준 정규 변수 로우 와이즈(Standard Normal Variate row-wise) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 6개의 구성 요소를 포함하는 부분 최소 제곱 회귀이다.
세대의 후보 솔루션의 서브세트는 가장 높은 적합성 메트릭과 연관된 10개의 후보 솔루션 중에서 2개의 후보 솔루션을 포함하도록 정의되었다. 서브세트에 있는 후보 솔루션의 속성을 돌연변이 알고리즘에 입력하고 2세대에 대한 10개의 새로운 후보 솔루션 각각에 대한 속성 세트를 정의했다. 후보 솔루션을 평가하고 30세대 각각에 대한 적합성 메트릭이 생성될 때까지 유사한 방식으로 새로운 세대를 정의했다. 그런 다음 해당 세대에 대한 가장 높은 적합성 메트릭과 관련된 후보 솔루션을 식별함으로써, 제30세대의 후보 솔루션 중에서 단일 후보 솔루션을 선택했다.
도 5b는 제30세대 이후 단일 후보 솔루션에 의해 생성된 젖산 농도의 예측 라벨 값과 측정된 젖산 농도의 라벨 값을 비교한 것이다. 예시적인 후보 솔루션의 구성은 다음과 같다:
● 비대칭 최소 제곱 기준선 제거는 λ= 4 및 p = 7로 수행된다.
● Savitzky-Golay 평활화는 창 크기 9, 다항식 차수 2, 도함수 차수 0을 사용하여 수행된다.
● 스케일링은 표준 정규 변화(Standard Normal Variate) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 리프 노드가 될 샘플의 최소 개수는 7개, 특성의 최대 개수는 300개, 내부 노드를 분할할 샘플의 최소 개수는 5인 랜덤 포레스트이다. 랜덤 포레스트는 100개의 추정기를 포함한다.
이 처리 파이프라인에 대해, R2 값은 0.894로 결정되었고, 테스트 데이터 세트에 대해 계산된 제곱 평균 제곱근 오차는 0.061이었다. 따라서 선택된 단일 후보 솔루션(30세대 후 식별)이 제1세대의 예시적 후보 솔루션의 라벨 일치에 비해 예측된 라벨과 실제 라벨 사이의 일치가 더 높았다. 또한, 제1세대의 예시적 후보 솔루션의 오류에 비해 선택된 단일 후보 솔루션(30세대 이후 식별)에서 예측 라벨의 오류가 더 낮았다.
C. 실시예 3 - 포도당 농도 라벨
도 6a 및 도 6b는 제1세대로부터의 예시적인 후보 솔루션과 30세대로부터의 예시적인 후보 솔루션에 대한 pH의 측정된 라벨 값과 포도당 농도의 예측된 라벨 값 사이의 예시적인 비교를 도시한다. 실시예 2에서 수행된 것과 유사한 처리가 이 실시예에서 수행되었다. 라벨은 샘플 내의 젖산의 양보다는 샘플 내의 포도당의 양을 식별하고, 진핵 세포 배양물을 모니터링하고 있었다. 각각의 도 6a 및 도 6b는 실제 라벨과 추정 라벨 사이의 비교를 보여준다. 도 6a는 제1세대로부터의 예시적인 후보 솔루션에 관한 것이고, 도 6b는 단일 후보 솔루션(30세대 이후에 식별됨)에 관한 것이다.
1세대의 예시적인 후보 솔루션에 대한 후보 처리 파이프라인은 다음 구성을 포함했다:
● 기준선 제거를 수행하지 않는다.
● 제1 도함수에 대한 Savitzky-Golay 평활화는 창 크기 15, 다항식 차수 2, 도함수 차수 1을 사용하여 수행된다.
● 스케일링은 표준 정규 변화(Standard Normal Variate) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 8개의 주성분이 있는 부분 최소 제곱이다.
제30세대 이후에 선택된 단일 후보 솔루션에 대한 후보 처리 파이프라인은 다음 구성을 포함했다:
● 비대칭 최소 제곱 기준선 제거는 λ= 4 및 p = 7로 수행된다.
● 1차 미분에 대한 Savitzky-Golay 평활화는 창 크기 13, 다항식 차수 2, 도함수 차수 1을 사용하여 수행된다.
● 스케일링을 수행하지 않는다.
● 사용할 머신-러닝 모델은 9개의 주성분을 갖는 부분 최소 제곱이다.
R2 값은 예시적인 제1세대 후보 솔루션과 비교하여 제30세대 이후에 선택된 단일 후보 솔루션에 대해 더 높았다(R2 = 0.958 대 R2 = 0.944). 또한, 제30세대 이후에 선정된 단일 후보 솔루션에 대한 테스트 세트 오류는 예시적인 제1세대 후보 솔루션의 경우에 비해 낮았다(각각 RMSE = 0.039 대 RMSE = 0.045).
특히, 이 예와 관련하여 선택된 단일 후보 솔루션의 속성 중 일부는 예 2와 관련된 선택된 단일 후보 솔루션의 해당 속성과 다르다. 예를 들어, 이 예에서 선택된 머신-러닝 모델은 부분 최소 제곱 모델인 반면 예제 2에서 선택된 머신-러닝 모델은 랜덤 포레스트 모델이었다. 이것은 다양한 전처리 및 처리 기술 및/또는 구성이, 예측되는 라벨의 유형에 따라 라벨을 예측하는 데 차등적으로 효과적임을 나타낼 수 있다.
D. 실시예 4 - pH 라벨
도 7a 및 도 7b는 제1세대로부터의 예시적인 후보 솔루션과 제30세대로부터의 예시적인 후보 솔루션에 대한 pH의 측정된 라벨 값과 pH의 예측된 라벨 값 사이의 예시적인 비교를 도시한다. 실시예 2에서 수행된 것과 유사한 처리가 이 실시예에서 수행되었다. 실시예 4의 라벨은 진핵 세포 배양 샘플에서 젖산의 양이 아니라 샘플의 pH(예를 들어, 이러한 맥락에서 제제 완충제 중의 생물약제학 물질)를 식별한다. 이 예에서 측정은 대상자에 대한 샘플의 릴리스 및 배포를 결정할 수 있는 품질 속성이다. 도 7a 및 7b는 실제 라벨과 추정 라벨 사이의 비교를 보여준다.
도 7a는 다음 구성을 포함하는 제1세대의 예시적인 후보 솔루션에 관한 것이다:
● 기준선 제거를 수행하지 않는다.
● 1차 미분에 대한 Savitzky-Golay 평활화는 창 크기 15, 다항식 차수 2, 도함수 차수 1을 사용하여 수행된다.
● 스케일링은 표준 정규 변화 로우-와이즈(Standard Normal Variate row-wise) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 6개의 주성분이 있는 부분 최소 제곱이다.
도 7b는 다음 구성을 포함하는 단일 후보 솔루션(30세대 이후에 식별됨)에 관한 것이다:
● 비대칭 최소 제곱 기준선 제거는 λ= 6 및 p = 3으로 수행된다.
● 1차 미분에 대한 Savitzky-Golay 평활화는 창 크기 5, 다항식 차수 3, 도함수 차수 0을 사용하여 수행된다.
● 스케일링을 수행하지 않는다.
● 사용할 머신-러닝 모델은 20개의 주성분을 갖는 부분 최소 제곱이다.
R2 값은 예시적인 제1세대 후보 솔루션과 비교하여 제30세대 이후에 선택된 단일 후보 솔루션에 대해 더 높았다(R2 = 0.916 대 R2 = 0.500 각각). 또한, 제30세대 이후에 선정된 단일 후보 솔루션에 대한 테스트 세트 오류는 예시적인 제1세대 후보 솔루션에 비해 낮았다(각각 RMSE = 0.022 vs RMSE = 0.054).
E. 실시예 5 - 삼투질 농도 라벨
도 8a 및 8b는 제1세대로부터의 예시적인 후보 솔루션과 제30세대로부터의 예시적인 후보 솔루션에 대한 삼투질 농도의 측정된 라벨 값과 삼투질 농도의 예측된 라벨 값 사이의 예시적인 비교를 도시한다. 실시예 2에서 수행된 것과 유사한 처리를 본 실시예에서 수행하였다. 실시예 5 라벨의 라벨은 샘플의 삼투질 농도를 식별한다(예를 들어, 이러한 맥락에서, 제제 완충제 중 생물약제 물질의 용질 농도). 각각의 도 8a 및 8b는 실제 라벨과 추정 라벨 사이의 비교를 보여준다.
도 8a는 다음 구성을 포함하는 제1세대의 예시적인 후보 솔루션에 관한 것이다:
● 기준선 제거를 수행하지 않는다.
● 1차 미분에 대한 Savitzky-Golay 평활화는 창 크기 15, 다항식 차수 2, 도함수 차수 1로 수행된다.
● 스케일링은 표준 정규 변화 로우-와이즈(Standard Normal Variate row-wise) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 8개의 주성분이 있는 부분 최소 제곱이다.
도 8b는 다음 구성을 포함하는 단일 후보 솔루션(30세대 이후에 식별됨)에 관한 것이다:
● 비대칭 최소 제곱 기준선 제거는 λ= 4 및 p = 7로 수행된다.
● 1차 미분에 대한 Savitzky-Golay 평활화는 창 크기 5, 다항식 차수 3, 도함수 차수 0으로 수행된다.
● 스케일링은 표준 정규 변화 로우-와이즈(Standard Normal Variate row-wise) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 지원 벡터 머신으로 C: 2100, γ: 0.01584이다.
R2 값은 예시적인 제1세대 후보 솔루션과 비교하여 wp30세대 이후에 선택된 단일 후보 솔루션에 대해 더 높았다(R2 = 0.918 대 R2 = 0.685). 또한, 제30세대 이후에 선정된 단일 후보 솔루션에 대한 테스트 세트 오류는 예시적인 제1세대 후보 솔루션에 비해 낮았다(RMSE = 0.073 vs RMSE = 0.144).
F. 실시예 6 - 항체 산화 라벨
도 9a 및 9b는 제1세대로부터의 예시적인 후보 솔루션 및 제30세대로부터의 예시적인 후보 솔루션에 대한 항체 산화의 측정된 라벨 값과 항체 산화의 예측된 라벨 값 사이의 예시적인 비교를 나타낸다. 실시예 2에서 수행된 것과 유사한 처리가 이 실시예에서 수행되었다. 실시예 6의 라벨은 샘플의 추정된 항체 산화를 식별한다(예를 들어, 이러한 맥락에서 치료 항체 기능성의 추정). 도 9a 및 9b 각각은 실제 라벨과 추정 라벨 사이의 비교를 보여준다.
도 9a는 다음 구성을 포함하는 1세대의 예시적인 후보 솔루션에 관한 것이다:
● 기준선 제거를 수행하지 않는다.
● 1차 미분에 대한 Savitzky-Golay 평활화는 창 크기 15, 다항식 차수 2, 도함수 차수 1로 수행된다.
● 스케일링은 표준 정규 변화 로우-와이즈(Standard Normal Variate row-wise) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 5개의 주성분이 있는 부분 최소 제곱이다.
도 9b는 다음 구성을 포함하는 단일 후보 솔루션(30세대 이후에 식별됨)에 관한 것이다:
● 기준선 제거를 수행하지 않는다.
● 1차 미분에 대한 Savitzky-Golay 평활화는 창 크기 5, 다항식 차수 4, 도함수 차수 0으로 수행된다.
● 스케일링은 표준 정규 변화 로우-와이즈(Standard Normal Variate row-wise) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 10개의 기본 구성 요소를 사용하는 부분 최소 제곱 회귀이다.
R2 값은 예시적인 제1세대 후보 솔루션과 비교하여 제30세대 이후에 선택된 단일 후보 솔루션에 대해 더 높았다(R2 = 0.789 대 R2 = 0.578). 또한, 제30세대 이후에 선정된 단일 후보 솔루션에 대한 테스트 세트 오류는 예시적인 제1세대 후보 솔루션에 비해 낮았다(각각 RMSE = 0.074 vs RMSE = 0.105).
G. 실시예 7 - 글리칸 G0F-N 라벨
도 10a 및 10b는 제1세대로부터의 예시적인 후보 솔루션과 제30세대로부터의 예시적인 후보 솔루션에 대한 글리칸 G0F-N의 측정된 라벨 값과 글리칸 G0F-N의 예측된 라벨 값 사이의 예시적인 비교를 나타낸다. 실시예 2에서 수행된 것과 유사한 처리가 이 실시예에서 수행되었다. 실시예 7의 라벨은 샘플의 추정된 글리칸 G0F-N을 식별한다. 도 10a 및 10b 각각은 실제 라벨과 추정 라벨 사이의 비교를 나타낸다.
도 10a는 다음 구성을 포함하는 1세대의 예시적인 후보 솔루션에 관한 것이다:
● 기준선 제거를 수행하지 않는다.
● 1차 미분에 대한 Savitzky-Golay 평활화는 창 크기 15, 다항식 차수 2, 도함수 차수 1로 수행된다.
● 스케일링은 표준 정규 변화 로우-와이즈(Standard Normal Variate row-wise) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 5개의 주성분이 있는 부분 최소 제곱이다.
도 10b는 다음 구성을 포함하는 단일 후보 솔루션(30세대 이후에 식별됨)에 관한 것이다:
● 비대칭 최소 제곱 기준선 제거가 수행되어야 하며, λ= 6 및 p = 9이다.
● 1차 미분에 대한 Savitzky-Golay 평활화는 창 크기 5, 다항식 차수 3, 도함수 차수 0으로 수행된다.
● 스케일링은 표준 정규 변화 로우-와이즈(Standard Normal Variate row-wise) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 C: 2400, γ: 0.0006인 지원 벡터 머신이다.
R2 값은 예시적인 제1세대 후보 솔루션과 비교하여 제30세대 이후에 선택된 단일 후보 솔루션에 대해 더 높았다(R2 = 0.814 대 R2 = 0.710 각각). 또한, 제30세대 이후에 선정된 단일 후보 솔루션에 대한 테스트 세트 오류는 예시적인 제1세대 후보 솔루션에 비해 낮았다(RMSE = 0.044 vs RMSE = 0.055).
H. 예 8 - HMWF 라벨
도 11a 및 도 11b는 제1세대의 예시적 후보 솔루션과 제30세대의 예시적인 후보 솔루션에 대한 HMWF(high-molecular-weight forms)의 측정된 라벨 값과 HMWF의 예측된 라벨 값 사이의 예시적인 비교를 도시한다. 실시예 2에서 수행된 것과 유사한 처리가 이 실시예에서 수행되었다. 실시예 8의 라벨은 샘플의 추정된 HMWF를 식별한다. 도 11a 및 11b 각각은 실제 라벨과 추정 라벨 사이의 비교를 나타낸다.
도 11a는 다음 구성을 포함하는 제1세대의 예시적인 후보 솔루션에 관한 것이다:
● 기준선 제거를 수행하지 않는다.
● 1차 미분에 대한 Savitzky-Golay 평활화는 창 크기 15, 다항식 차수 2, 도함수 차수 1로 수행된다.
● 스케일링은 표준 정규 변화 로우-와이즈(Standard Normal Variate row-wise) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 8개의 주성분이 있는 부분 최소 제곱이다.
도 11b는 다음 구성을 포함하는 단일 후보 솔루션(30세대 이후에 식별됨)에 관한 것이다:
● 비대칭 최소 제곱 기준선 제거는 λ= 7 및 p = 3으로 수행된다.
● 1차 미분에 대한 Savitzky-Golay 평활화는 창 크기 11, 다항식 차수 3, 도함수 차수 0으로 수행된다.
● 스케일링은 표준 정규 변화 로우-와이즈(Standard Normal Variate row-wise) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 C: 2100, γ: 0.1인 지원 벡터 머신이다.
R2 값은 예시적인 제1세대 후보 솔루션과 비교하여 제30세대 이후에 선택된 단일 후보 솔루션에 대해 더 높았다(R2 = 0.960 대 R2 = 0.811 각각). 또한, 제30세대 이후에 선정된 단일 후보 솔루션에 대한 테스트 세트 오류는 예시적인 제1세대 후보 솔루션에 비해 낮았다(RMSE = 0.048 vs RMSE = 0.105).
I. 예 9 - 이중특이성 어셈블리 라벨
도 12a 및 12b는 제1세대로부터의 예시적인 후보 솔루션과 제30세대로부터의 예시적인 후보 솔루션에 대한 이중특이적 어셈블리의 측정된 라벨 값과 이중특이적 어셈블리의 예측된 라벨 값 사이의 예시적인 비교를 도시한다. 실시예 2에서 수행된 것과 유사한 처리가 이 실시예에서 수행되었다. 실시예 9의 라벨은 샘플에서 항체의 이중특이성 어셈블리의 추정치를 확인한다(예를 들어, 역상 질량 분광법에 의해 측정된 소수 분획으로서 조립된 이중특이성 항체의 백분율). 도 12a 및 12b 각각은 실제 라벨과 추정 라벨 사이의 비교를 나타낸다.
도 12a는 다음 구성을 포함하는 1세대의 예시적인 후보 솔루션에 관한 것이다:
● 기준선 제거를 수행하지 않는다.
● 1차 미분에 대한 Savitzky-Golay 평활화는 창 크기 15, 다항식 차수 2, 도함수 차수 1로 수행된다.
● 스케일링은 표준 정규 변화 로우-와이즈(Standard Normal Variate row-wise) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 6개의 주성분이 있는 부분 최소 제곱이다.
도 12b는 다음 구성을 포함하는 단일 후보 솔루션(30세대 이후에 식별됨)과 관련이 있다:
● 기준선 제거를 수행하지 않는다.
● 1차 미분에 대한 Savitzky-Golay 평활화는 창 크기 13, 다항식 차수 2, 도함수 차수 0으로 수행된다.
● 스케일링은 표준 정규 변화 로우-와이즈(Standard Normal Variate row-wise) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 10개의 주성분을 갖는 부분 최소 제곱이다.
R2 값은 예시적인 제1세대 후보 솔루션과 비교하여 제30세대 이후에 선택된 단일 후보 솔루션에 대해 더 높았다(R2 = 0.938 대 R2 = 0.898). 또한, 제30세대 이후에 선정된 단일 후보 솔루션에 대한 테스트 세트 오류는 예시적인 제1세대 후보 솔루션에 비해 낮았다(각각 RMSE = 0.079 vs RMSE = 0.102).
J. 실시예 10 - 생존 세포 어셈블리 라벨의 풍부함
도 13a 및 13b는 제1세대로부터의 예시적인 후보 솔루션과 제30세대로부터의 예시적인 후보 솔루션에 대한 세포 생존율의 측정된 라벨 값과 세포 생존율의 예측된 라벨 값 사이의 예시적인 비교를 도시한다. 실시예 2에서 수행된 것과 유사한 처리가 이 실시예에서 수행되었다. 실시예 10의 라벨은 샘플에서 생존 세포의 풍부함의 추정치를 식별한다. 도 13a 및 13b 각각은 실제 라벨과 추정 라벨 사이의 비교를 나타낸다.
도 13a는 다음 구성을 포함하는 1세대의 예시적인 후보 솔루션에 관한 것이다:
● 기준선 제거를 수행하지 않는다.
● 1차 미분에 대한 Savitzky-Golay 평활화는 창 크기 15, 다항식 차수 2, 도함수 차수 1로 수행된다.
● 스케일링은 표준 정규 변화 로우-와이즈(Standard Normal Variate row-wise) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 11개의 주성분을 갖는 부분 최소 제곱이다.
도 13b는 다음 구성을 포함하는 단일 후보 솔루션(30세대 이후에 식별됨)에 관한 것이다.
● 기준선 제거를 수행하지 않는다.
● 1차 미분에 대한 Savitzky-Golay 평활화는 창 크기 15, 다항식 차수 2, 도함수 차수 1로 수행된다.
● 스케일링은 표준 정규 변화 로우-와이즈(Standard Normal Variate row-wise) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 C: 1550, γ: 0.0016인 지원 벡터 머신이다.
R2 값은 예시적인 제1세대 후보 솔루션과 비교하여 제30세대 이후에 선택된 단일 후보 솔루션에 대해 더 높았다(R2 = 0.981 대 R2 = 0.983). 또한, 제30세대 이후에 선택된 단일 후보 솔루션에 대한 테스트 세트 오류는 예시적인 제1세대 후보 솔루션에 비해 낮았다(각각 RMSE = 0.043 vs RMSE = 0.046).
K. 실시예 11 - 죽은 세포 조립 라벨의 풍부함
도 14a 및 도 14b는 1세대의 예시적인 후보 솔루션과 30세대의 예시적인 후보 솔루션에 대한 측정된 죽은 세포 양의 라벨 값과 잔류 수분 함량의 예측된 라벨 값 사이의 예시적인 비교를 나타낸다. 실시예 2에서 수행된 것과 유사한 처리를 이 실시예에서 수행하였다. 실시예 11의 라벨은 샘플에서 죽은 세포의 풍부함의 추정치를 식별한다. 도 14a 및 도 14b 각각은 실제 라벨과 추정 라벨 사이의 비교를 나타낸다.
도 14a는 다음 구성을 포함하는 1세대의 예시적인 후보 솔루션에 관한 것이다:
● 기준선 제거를 수행하지 않는다.
● 1차 미분에 대한 Savitzky-Golay 평활화는 창 크기 15, 다항식 차수 2, 도함수 차수 1로 수행된다.
● 스케일링은 표준 정규 변화 로우-와이즈(Standard Normal Variate row-wise) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 12개의 주성분을 갖는 부분 최소 제곱이다.
도 14b는 다음 구성을 포함하는 단일 후보 솔루션(30세대 이후에 식별됨)에 관한 것이다:
● 기준선 제거를 수행하지 않는다.
● 1차 도함수에 대한 Savitzky-Golay 평활화가 수행되어야 하며, 창 크기는 13, 다항식 차수는 2, 도함수 차수는 1이다.
● 스케일링은 표준 정규 변화 로우-와이즈(Standard Normal Variate row-wise) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 8개의 주성분이 있는 부분 최소 제곱이다.
R2 값은 예시적인 제1세대 후보 솔루션과 비교하여 제30세대 이후에 선택된 단일 후보 솔루션에 대해 더 높았다(R2 = 0.719 대 R2 = 0.707). 또한, 제30세대 이후에 선택된 단일 후보 솔루션의 테스트 세트 오류는 예시적인 제1세대 후보 솔루션에 비해 낮았다(각각 RMSE = 0.094 vs RMSE = 0.096).
L. 실시예 12 - 잔여 수분 함량 라벨
도 15a 및 도 15b는 제1세대로부터의 예시적인 후보 솔루션과 제30세대로부터의 예시적인 후보 솔루션에 대한 잔류 수분 함량의 측정된 라벨 값과 잔류 수분 함량의 예측된 라벨 값 사이의 예시적인 비교를 나타낸다. 실시예 2에서 수행된 것과 유사한 처리가 이 실시예에서 수행되었다. 실시예 12의 라벨은 샘플의 잔류 수분 함량의 추정치를 식별한다. 도 15a 및 15b 각각은 실제 라벨과 추정 라벨 사이의 비교를 나타낸다.
도 15a는 다음 구성을 포함하는 제1세대의 예시적인 후보 솔루션에 관한 것이다:
● 기준선 제거를 수행하지 않는다.
● 1차 미분에 대한 Savitzky-Golay 평활화는 창 크기 11, 다항식 차수 4, 도함수 차수 0으로 수행된다.
● 스케일링은 표준 정규 변화 로우-와이즈(Standard Normal Variate row-wise) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 2개의 주성분을 갖는 부분 최소 제곱이다.
도 15b는 다음 구성을 포함하는 단일 후보 솔루션(30세대 이후에 식별됨)에 관한 것이다:
● 비대칭 최소 제곱 기준선 제거는 λ= 5 및 p = 9로 수행된다.
● 1차 미분에 대한 Savitzky-Golay 평활화는 창 크기 11, 다항식 차수 4, 도함수 차수 1로 수행된다.
● 스케일링은 표준 정규 변화 로우-와이즈(Standard Normal Variate row-wise) 방법에 따라 수행된다.
● 사용할 머신-러닝 모델은 C: 2400, γ: 0.005, ε=0.066인 지원 벡터 머신이다.
R2 값은 예시적인 제1세대 후보 솔루션과 비교하여 제30세대 이후에 선택된 단일 후보 솔루션에 대해 더 높았다(R2 = 0.992 대 R2 = 0.983). 또한, 제30세대 이후에 선택된 단일 후보 솔루션의 테스트 세트 오류는 예시적인 제1세대 후보 솔루션에 비해 낮았다(각각 RMSE = 0.027 vs RMSE = 0.039).
M. 예 13 - 전처리로 원시 스펙트럼 특성 조작
도 16a-21b는 신호 품질 및 머신 러닝 예측을 개선하기 위해 원시 스펙트럼 데이터를 전처리하는 것과 관련된 예시적인 데이터를 도시한다. 도 16, 17, 18, 19, 20, 21은 각각 도 7, 10, 12, 13, 14 및 15에 해당하는 라벨 변수, 모니터링 유형 및 처리 파이프라인에 해당한다. 각각의 플롯에 대해 x 및 y 좌표의 범위는 관찰된 최대값의 비율에 비례하여 조정된다(예: 0과 1 사이). 각 "A" 플롯은 입력 라만 스펙트럼 세트를 보여준다. 각각의 "B" 플롯은 대응하는 처리 파이프라인에 따라 본 명세서에 개시된 기술을 적용함으로써(그러나 이에 제한되지 않음) 생성된 대응하는 전처리된 스펙트럼 세트를 나타낸다. 특히, "A" 플롯에 묘사된 특정 스펙트럼을 기반으로 결정되기 때문에 각 변수 유형에 대해 적용되는 특정 기술이 상이하다.
도면 전반에 걸쳐 스펙트럼 전처리는 모든 주파수가 아닌 많은 주파수에서 스펙트럼 전반에 걸쳐 가변성을 감소시킨다는 것을 알 수 있다. 교차 스펙트럼 변동성이 남아 있는 주파수는 라벨 변수의 특정 값과 관련하여 정보를 제공하는 반면 교차 스펙트럼 변동이 제거된 주파수는 이와 관련하여 정보적이지 않다.
N. 예 14 - 특징 선택으로 원시 스펙트럼 특성 조작
도 22a-22b는 신호 품질 및 머신 러닝 예측을 개선하기 위해 원시 스펙트럼 데이터를 전처리하는 것과 관련된 예시적인 데이터를 도시한다. 도 22a에 도시된 원시 입력 스펙트럼은 0과 2000(예를 들어, x 축) 사이의 파수와, 관찰된 최대 값의 비율에 대해 스케일링된(예를 들어, 0과 1 사이) y의 범위를 갖는다. 도 22b는 특징-선택 프로세스가 수행된 후(예를 들어, 도 1-3에서 설명된 바와 같이) 스펙트럼의 대응하는 세트를 도시한다. 특징-선택 프로세스는 처리 파이프라인의 단계에서 수행되었다(예를 들어, 전처리 후 및 머신-러닝 모델에 입력되기 전 또는 특성의 추정 또는 예측이 생성되기 전).
도 22b에 도시된 바와 같이, 도 1-3의 특징-선택 프로세스가 수행된 후 스펙트럼 세트가 감소된다. 파수의 변동성에 기여하지 않는 파수는 이러한 파수의 부재가 특성 추정 또는 예측을 위한 머신-러닝 모델의 정확도에 영향을 미치지 않거나 미미한 영향을 미치기 때문에 입력 스펙트럼에서 제거되었다. 도시된 바와 같이, 도 22a의 파수의 일부만이 가변성에 기여하고 특징-선택 프로세스에서 선택되었다.
도 23은 샘플의 특성을 추정하기 위해 특정 감소된 특징 세트를 식별하는 특징-선택 프로세스의 예시적인 실행을 도시한다. 각 파수에는 순위가 할당되었다(예: 도 1-3에 설명된 대로). 특징-선택 프로세스에는 12회의 반복이 포함되며, 각 반복은 이전 반복에 포함된 파수로부터 고정된 양의 파수 및 해당 강도(예: 25%)를 제거한다. .02의 임계 편차는 바람직한 파수 선택을 갖는 특정 반복을 식별하기 위해 선택되었다. 제1 반복 이전에는 1545개의 파수가 있었다). 전체 파수 세트의 교차 검증 계수는 .0892(예를 들어, 도 2에 설명된 프로세스에 따라 유도됨)였으며, 이는 후속 반복이 비교될 기준 교차 검증 계수에 해당한다.
반복 1 동안, (할당된 순위에 기초하여) 특징의 하위 25%가 제거되어 1159개의 특징을 남겼다. 감소된 특징에 대해 교차 검증 계수가 도출되었으며, 이는 기준선 교차 검증 계수보다 더 높다(예: 0.001만큼). 결과적으로 반복 1의 교차 검증 계수가 새로운 기준 교차 검증 계수가 되었다. 반복 2 동안 나머지 특징의 하위 25%(예: 반복 1의 1159개 기능 중 25%)가 제거되었고 축소된 특징에 대해 교차 검증 계수 0.887이 도출되었다.
예를 들어, 도 24a 내지 도 24d를 참조하면, 도 1-3에 기술된 특징-선택 프로세스의 그래픽 표현을 도시한다. 도 24a는 도 23의 예의 제1 반복 동안 할당된 순위에 따라 정렬된 파수의 그래프를 도시한다. 도 24a에 도시된 바와 같이, 파수의 하위 25%는 그래프에서 제거하기 위해 식별되었다. 도 24b는 도 23의 예의 제2 반복 동안 할당된 순위에 따라 정렬된 파수의 그래프를 도시한다. 제2 반복 동안 제1 반복에서 식별된 파수의 하위 25%가 제거되었다. 나머지 파수의 하위 25%는 제거 대상으로 표시되었다. 도 24c는 도 22의 예의 제2 반복 동안 할당된 순위에 따라 정렬된 파수의 다른 그래프를 도시한다. 도 24c에 도시된 바와 같이, 제거된 파수는 제1 반복에서 식별된 파수의 하위 25% 및 도 24b에서 식별된 파수의 하위 25%를 포함한다.
도 23으로 돌아가서. 반복 8에서 교차 검증 계수는 기준선 교차 검증 계수로부터 .014인, 0.881이었다(예: 반복 3 동안 0.895로 다시 업데이트됨). 다음 반복 동안 교차 검증 계수는 0.866이었고, 이는 기준 교차 검증 계수로부터 0.029였으며 임계값 .020을 초과했다. 반복 8의 교차 검증 계수가 임계값을 초과하지 않고 임계값 .020에 가장 가깝기 때문에 반복 8이 특정 반복으로 선택되었다. 결과적으로, 샘플의 예측된 특성을 생성하는 데 사용하기 위해 반복 8의 특징이 선택되었다.
도 24d는 도 23의 예의 8번째 반복 동안 할당된 순위에 따라 정렬된 파수들의 그래프를 도시한다. 도 24d의 그래프는 (예를 들어, 8번째 반복에 의해 식별된 바와 같이) 특징-선택 프로세스에 따라 선택된 파수를, 이전 반복 동안 생략된 파수와 구별한다. 표시된 대로, 전체 파수 세트의 일부가 선택되었다.
V. 예시적인 실시예
A1. 다음을 포함하는 컴퓨터-구현 방법:
복수의 데이터 요소를 포함하는 데이터 세트에 액세스하는 단계 - 각각의 데이터 요소는 다음을 포함함:
복수의 샘플 중 하나와 에너지 소스로부터의 에너지 사이의 상호작용에 기초하여 생성된 스펙트럼; 그리고
샘플의 알려진 특성;
후보 솔루션들의 집단을 초기화하는 단계 - 후보 솔루션 각각은 다음을 포함하는 속성 세트에 의해 정의됨:
특정 유형의 전처리가 수행되어야 한다는 표시;
수행될 전처리의 파라미터;
사용될 머신-러닝 모델 유형의 식별; 및/또는
머신-러닝 모델 하이퍼파라미터;
다음에 의해 후보 솔루션들의 집단을 필터링하는 단계:
후보 솔루션 각각에 대해 그리고 데이터 요소 각각에 대해, 속성 세트로 데이터 요소의 스펙트럼을 처리함으로써 예측된 샘플 특성을 결정하는 과정;
후보 솔루션들의 집단 각각에 대해, 예측된 샘플 특성 및 데이터 요소의 알려진 특성에 기초하여 적합성 메트릭(fitness metric)을 생성하는 과정; 그리고
적합성 메트릭에 기초하여 후보 솔루션들의 집단의 불완전한 서브세트를 선택하는 과정;
다음에 의해 하나 이상의 추가 생성 반복을 수행하는 단계:
하나 이상의 유전 연산자 및 후보 솔루션들의 집단의 불완전한 서브세트를 사용하여 식별된 솔루션들의 차세대 집단을 포함하도록 후보 솔루션들의 집단을 업데이트하는 과정; 그리고
후보 솔루션들의 업데이트된 집단을 사용하여 후보 솔루션들의 집단의 필터링을 반복하는 과정; 그리고
추가 생성 반복들 중 마지막 생성 반복 동안 선택된 후보 솔루션들의 집단의 불완전한 서브세트에서 특정 후보 솔루션의 속성 세트에 기초하여 처리 파이프라인을 생성하는 단계.
A2. A1에 있어서,
다른 샘플에 대응하는 다른 스펙트럼에 액세스하는 단계;
처리 파이프라인에 따라 상기 다른 스펙트럼을 처리하여 상기 다른 샘플의 예측된 특성을 생성하는 단계; 그리고
상기 다른 샘플의 예측된 특성을 출력하는 단계를 더 포함하는, 컴퓨터-구현 방법.
A3. A1-2에 있어서, 상기 복수의 데이터 요소의 각각의 데이터 요소에 대해, 상기 스펙트럼은 라만 스펙트럼 또는 적외선 스펙트럼을 포함하는, 컴퓨터-구현 방법.
A4. A1-A3에 있어서, 상기 특정 후보 솔루션에 대한 속성 세트는 특정 유형의 머신-러닝 모델에 대한 하이퍼파라미터를 포함하고, 상기 특정 유형의 머신-러닝 모델은:
부분 최소 제곱;
랜덤 포레스트; 또는
지원 벡터 머신을 포함하는, 컴퓨터-구현 방법.
A5. A1-A4에 있어서, 상기 특정 후보 솔루션에 대한 속성 세트는 특정 유형의 머신-러닝 모델의 선택 또는 하이퍼파라미터를 포함하고, 상기 특정 유형의 머신-러닝 모델은 분류 출력 또는 수치 출력을 생성하도록 구성되는, 컴퓨터-구현 방법.
A6. A1-A5에 있어서, 상기 다른 샘플은 대분자를 포함하는, 컴퓨터-구현 방법.
A7. A1-A6에 있어서, 상기 다른 샘플은 소분자를 포함하는, 컴퓨터-구현 방법.
A8. A1-A7에 있어서, 상기 다른 샘플의 예측된 특성은 다음을 특징으로 하는, 컴퓨터-구현 방법:
하나 이상의 소분자 분석물의 농도;
용매;
하나 이상의 단백질 변이체의 존재(prevalence); 또는
단백질 고차 구조;
대분자 불순물.
A9. A1-A8에 있어서, 상기 처리 파이프라인은 기준선을 감소 또는 제거하기 위해 비대칭 최소 제곱 기법을 수행하는 단계를 포함하고, 상기 특정 후보 솔루션에 대한 속성 세트는 비대칭 최소 제곱 기법에 대한 적어도 하나의 파라미터를 포함하는, 컴퓨터-구현 방법.
A10. A1-A9에 있어서, 상기 처리 파이프라인은 기준선을 감소 또는 제거하기 위해 평활화 기술을 수행하는 단계를 포함하고, 상기 특정 후보 솔루션에 대한 속성 세트는 평활화 기술에 대한 적어도 하나의 파라미터를 포함하는, 컴퓨터-구현 방법.
A11. A1-A10에 있어서, 복수의 샘플 중 적어도 하나의 샘플에 대해, 복수의 데이터 요소는 샘플에 대응하는 복수의 데이터 요소를 포함하고, 복수의 데이터 요소는 샘플을 사용하여 생성된 상이한 복제 스펙트럼을 포함하는, 컴퓨터-구현 방법.
A12. A1-A11에 있어서,
복수의 데이터 요소를 복수의 데이터 요소의 훈련 서브세트 및 복수의 데이터 요소의 테스트 서브세트로 분할하는 단계를 더 포함하며,
예측된 샘플 특성이 결정되는 복수의 데이터 요소 중 적어도 일부는 복수의 데이터 요소의 테스트 서브세트로서 정의되고; 그리고
후보 솔루션들의 집단을 필터링하는 단계는:
복수의 데이터 요소의 테스트 서브세트를 사용하여 하나 이상의 파라미터를 학습하는 단계를 더 포함하는, 컴퓨터-구현 방법.
A13. A1-A12에 있어서, 복수의 샘플 각각은 동일한 표적 화학 구조 및 동일한 표적 제형에 대응하고, 복수의 샘플은 복수의 로트-별 서브세트를 포함하며, 복수의 로트-별 서브세트 각각은 개별 로트 동안 제조된 다수의 샘플을 포함하고, 복수의 데이터 요소의 분할은:
개별 로트를 훈련 서브세트 및 테스트 서브세트로 분할하는 단계; 그리고
로트 분할에 기초하여 복수의 데이터 요소를 분할하는 단계를 포함하는, 컴퓨터-구현 방법.
A14. 다음을 포함하는 컴퓨터-구현 방법:
이미징 장치를 이용하여 상기 다른 샘플에 대한 상기 다른 스펙트럼을 수집하는 단계;
A1-A13 중 어느 하나의 컴퓨터-구현 방법을 수행하는 컴퓨터 시스템에 상기 다른 스펙트럼을 연산적으로 가용하게 하는 단계;
상기 컴퓨터 시스템으로부터 예측된 특성을 수신하는 단계;
예측된 특성에 기초하여, 품질 관리 조건이 충족되는지 여부를 결정하는 단계;
품질 관리 조건이 충족되는 경우에는, 대상자에게 투여될 상기 다른 샘플을 분배하는 단계; 그리고
품질 관리 조건이 충족되지 않는 경우에는, 대상자 투여를 위한 상기 다른 샘플의 분배를 억제하는 단계.
A15. A1-A14에 있어서,
품질 관리 조건이 충족되지 않으면, 상기 다른 샘플의 생산과 관련된 하나 이상의 파라미터를 동적으로 조정하는 단계를 더 포함하는, 컴퓨터-구현 방법.
A16. 다음을 포함하는 컴퓨터-구현 방법:
상기 다른 스펙트럼의 수집을 위해 상기 다른 샘플을 제공하는 단계;
A11-A15 중 어느 하나의 컴퓨터-구현 방법을 수행하는 컴퓨터 시스템에 상기 다른 스펙트럼을 연산적으로 가용하게 하는 단계;
예측된 특성을 상기 컴퓨터 시스템으로부터 수신하는 단계;
예측된 특성에 기초하여, 품질 관리 조건이 충족되는지 여부를 결정하는 단계;
품질 관리 조건이 충족되는 경우에는, 추가 샘플들을 제조하도록 구성된 하나 이상의 제조 프로세스를 시작 또는 완료하는 단계; 그리고
품질 관리 조건이 충족되지 않으면, 상기 하나 이상의 제조 프로세스를 중단 또는 수정하는 단계.
A17. 다음을 포함하는 컴퓨터-구현 방법:
에너지 소스로부터의 에너지와 특정 샘플 사이의 상호작용에 기초하여 생성된 특정 스펙트럼을 클라이언트 장치에서 액세스하는 단계;
처리 파이프라인을 사용하여 특정 스펙트럼을 처리함으로써 생성될 특정 샘플의 예측된 특성에 대한 요청을 클라이언트 장치로부터 원격 컴퓨팅 시스템으로 전송하는 단계 - 상기 처리 파이프라인은 다음에 의해 정의되었음:
복수의 샘플에 대응하는 복수의 데이터 요소를 포함하는 데이터 세트에 액세스하는 과정 - 상기 특정 샘플은 복수의 샘플 각각과 상이하고, 복수의 데이터 요소 증 각각의 데이터 요소는 다음을 포함함:
복수의 샘플 중의 샘플과 관련된 스펙트럼; 그리고
샘플의 알려진 특성;
후보 솔루션들의 집단을 초기화하는 과정 - 후보 솔루션들의 집단의 각각은 다음을 포함하는 속성 세트에 의해 정의됨:
특정 유형의 전처리가 수행될지 여부;
수행될 전처리의 파라미터;
사용될 머신-러닝 모델의 유형; 및/또는
머신-러닝 모델 하이퍼파라미터;
다음에 의해 후보 솔루션들의 집단을 필터링하는 과정:
후보 솔루션들의 집단 각각에 대해, 그리고 복수의 데이터 요소 중 적어도 일부 각각에 대해, 상기 속성 세트에 따라 데이터 요소의 스펙트럼을 처리함으로써 예측된 샘플 특성을 결정하는 과정;
후보 솔루션들의 집단 각각에 대해, 복수의 데이터 요소 중 적어도 일부의 알려진 특성 및 예측된 샘플 특성에 기초하여 적합성 메트릭을 생성하는 과정; 그리고
적합성 메트릭에 기초하여 후보 솔루션들의 집단의 불완전한 서브세트를 선택하는 과정;
다음에 의해 하나 이상의 추가 생성 반복을 수행하는 과정:
하나 이상의 유전 연산자 및 후보 솔루션들의 집단의 선택된 불완전한 서브세트를 사용하여 식별된 솔루션들의 차세대 집단을 포함하도록 후보 솔루션들의 집단을 업데이트하는 과정; 그리고
후보 솔루션들의 업데이트된 집단을 사용하여 후보 솔루션들의 집단의 필터링을 반복하는 과정; 그리고
하나 이상의 추가 생성 반복들 중 마지막 생성 반복 동안 선택된 후보 솔루션들의 집단의 불완전한 서브세트에서 특정 후보 솔루션의 속성 세트에 기초하여 처리 파이프라인을 정의하는 과정; 그리고
클라이언트 장치에서, 그리고 원격 컴퓨팅 시스템으로부터, 특정 샘플의 예측된 특성을 수신하는 단계.
A18. A1-A17에 있어서,
에너지 소스로부터의 에너지 방출을 시작하기 위해 분광법을 사용하여 특정 스펙트럼을 수집하는 단계를 더 포함하는, 컴퓨터-구현 방법.
A19. A1-A18에 있어서,
예측되는 샘플의 예측된 특성을 생성하는데 사용하기 위해 스펙트럼의 강도 세트로부터 하나 이상의 강도를 선택하는 특징-선택 프로세스의 수행을 포함하도록 처리 파이프라인을 수정하는 단계 - 상기 특징-선택 프로세스는 상기 처리 파이프라인에 의해 예측된 특성의 생성 이전에 수행됨 - 를 더 포함하는, 컴퓨터-구현 방법.
A209. A1-A19에 있어서, 상기 특징-선택 프로세스는:
스펙트럼으로부터, 파수 세트(a set of wavenumbers)를 식별하는 과정 - 각 파수는 강도 값과 연관됨;
회귀 분석을 사용하여 파수 세트의 각 파수에 대한 점수를 정의하는 과정;
파수 세트의 각 파수의 점수에 따라 파수 세트를 소팅하는 과정;
하나 이상의 특징-선택 반복을 수행하는 과정 - 각각의 특징-선택 반복은 다음을 포함함:
가장 낮은 점수를 갖는 스펙트럼의 하나 이상의 파수를 제거함으로써 파수 세트의 서브세트를 생성하는 과정; 그리고
머신-러닝 모델 상의 파수 세트의 서브세트의 교차 검증에 기초하여 모델-검증 점수를 생성하는 과정;
임계값에 가장 가까운 모델-검증 점수를 포함하는 하나 이상의 특징-선택 반복 중 특정 특징-선택 반복을 하나 이상의 특징-선택 반복으로부터 선택하는 과정; 그리고
처리 파이프라인에 의한 예측된 특성의 생성에 사용하기 위해, 특정 특징-선택 반복의 파수 세트의 서브세트에 대응하는 강도를 선택하는 과정을 포함하는, 컴퓨터-구현 방법.
A21. 다음을 포함하는 시스템:
하나 이상의 데이터 프로세서; 그리고
하나 이상의 데이터 프로세서 상에서 실행될 때, 하나 이상의 데이터 프로세서로 하여금 본 명세서에 개시된 하나 이상의 방법의 일부 또는 전부를 수행하게 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 저장 매체.
A22. 하나 이상의 데이터 프로세서로 하여금 본 명세서에 개시된 하나 이상의 방법의 일부 또는 전부를 수행하게 하도록 구성된 명령어를 포함하는, 비일시적 기계 판독 가능 저장 매체에 유형적으로 구현된 컴퓨터 프로그램 프로덕트.
V. 추가 고려 사항
본 개시 내용의 일부 실시예는 하나 이상의 데이터 프로세서를 포함하는 시스템을 포함한다. 일부 실시예에서, 시스템은 하나 이상의 데이터 프로세서 상에서 실행될 때 하나 이상의 데이터 프로세서로 하여금 여기서 개시되는 하나 이상의 방법의 일부 또는 전부 및/또는 하나 이상의 프로세스의 일부 또는 전부를 수행하게 하는 명령어를 포함하는 비일시적 컴퓨터 판독가능 저장 매체를 포함한다. 본 개시의 일부 실시예는 하나 이상의 데이터 프로세서로 하여금 여기서 개시되는 하나 이상의 방법의 일부 또는 전부 및/또는 하나 이상의 프로세스의 일부 또는 전부를 수행하게 하도록 구성된 명령어를 포함하는 비일시적 기계 판독 가능 저장 매체에 유형적으로 구현된 컴퓨터 프로그램 프로덕트를 포함한다.
사용된 용어 및 표현은 설명의 용어로 사용되며 제한이 없으며, 이러한 용어 및 표현의 사용에 있어서 도시 및 설명된 특징 또는 그 일부의 등가물을 배제하려는 의도는 없다. 청구된 발명의 범위 내에서 다양한 수정이 가능하다는 것이 인정된다. 따라서, 청구된 바와 같은 본 발명이 실시예 및 선택적인 특징에 의해 구체적으로 개시되었지만, 여기에 개시된 개념의 수정 및 변형이 당업자에 의해 의지될 수 있고 그러한 수정 및 변형이 첨부 청구범위에 의해 규정되는 본 발명의 범위 내에 있는 것으로 고려된다는 것을 이해해야 한다.
본 설명은 단지 바람직한 예시적인 실시예를 제공하며, 본 개시내용의 범위, 적용 가능성 또는 구성을 제한하도록 의도되지 않는다. 오히려, 바람직한 예시적인 실시예의 본 설명은 다양한 실시예를 구현하기 위한 가능한 설명을 당업자에게 제공할 것이다. 첨부된 특허청구범위에 기재된 정신 및 범위를 벗어나지 않고 요소의 기능 및 배열에 다양한 변경이 이루어질 수 있음을 이해해야 한다.
실시예의 완전한 이해를 제공하기 위해 본 설명에서 특정 세부사항이 제공된다. 그러나, 이러한 특정 세부사항 없이 실시예가 실시될 수 있음이 이해될 것이다. 예를 들어, 회로, 시스템, 네트워크, 프로세스 및 기타 구성 요소는 실시예를 불필요한 세부 사항으로 모호하게 하지 않기 위해 블록도 형태의 구성 요소로 표시될 수 있다. 다른 예에서, 잘 알려진 회로, 프로세스, 알고리즘, 구조 및 기술은 실시예를 모호하게 하는 것을 피하기 위해 불필요한 세부사항 없이 도시될 수 있다.

Claims (22)

  1. 컴퓨터-구현 방법으로서,
    복수의 데이터 요소를 포함하는 데이터 세트에 액세스하는 단계이며,
    각각의 데이터 요소는
    복수의 샘플 중 하나의 샘플과 에너지 소스로부터의 에너지 사이의 상호작용에 기초하여 생성된 스펙트럼, 및
    샘플의 알려진 특성
    을 포함하는 것인 단계,
    후보 솔루션들의 집단을 초기화하는 단계이며,
    후보 솔루션 각각은
    특정 유형의 전처리가 수행되어야 한다는 표시,
    수행될 전처리의 파라미터,
    사용될 머신-러닝 모델 유형의 식별, 및/또는
    머신-러닝 모델 하이퍼파라미터
    를 포함하는 속성 세트에 의해 정의되는 것인 단계,
    다음에 의해 후보 솔루션들의 집단을 필터링하는 단계:
    후보 솔루션 각각에 대해 및 데이터 요소 각각에 대해, 예측된 샘플 특성을 상기 속성 세트로 데이터 요소의 스펙트럼을 처리함으로써 결정하는 과정,
    후보 솔루션들의 집단 각각에 대해, 예측된 샘플 특성 및 데이터 요소의 알려진 특성에 기초하여 적합성 메트릭(fitness metric)을 생성하는 과정, 및
    적합성 메트릭에 기초하여 후보 솔루션들의 집단의 불완전한 서브세트를 선택하는 과정,
    다음에 의해 하나 이상의 추가 생성 반복을 수행하는 단계:
    하나 이상의 유전 연산자 및 후보 솔루션들의 집단의 불완전한 서브세트를 사용하여 식별된 솔루션들의 차세대 집단을 포함하도록 후보 솔루션들의 집단을 업데이트하는 과정, 및
    후보 솔루션들의 업데이트된 집단을 사용하여 후보 솔루션들의 집단의 필터링을 반복하는 과정, 및
    추가 생성 반복들 중 마지막 생성 반복 동안 선택된 후보 솔루션들의 집단의 불완전한 서브세트에서 특정 후보 솔루션의 속성 세트에 기초하여 처리 파이프라인을 생성하는 단계
    를 포함하는 컴퓨터-구현 방법.
  2. 제1항에 있어서,
    다른 샘플에 대응하는 다른 스펙트럼에 액세스하는 단계,
    처리 파이프라인에 따라 상기 다른 스펙트럼을 처리하여 상기 다른 샘플의 예측된 특성을 생성하는 단계, 및
    상기 다른 샘플의 예측된 특성을 출력하는 단계
    를 더 포함하는 컴퓨터-구현 방법.
  3. 제1항에 있어서, 상기 복수의 데이터 요소의 각각의 데이터 요소에 대해, 상기 스펙트럼은 라만(Raman) 스펙트럼 또는 적외선 스펙트럼을 포함하는 것인 컴퓨터-구현 방법.
  4. 제1항에 있어서,
    상기 특정 후보 솔루션에 대한 속성 세트는 특정 유형의 머신-러닝 모델에 대한 하이퍼파라미터를 포함하고,
    상기 특정 유형의 머신-러닝 모델은
    부분 최소 제곱,
    랜덤 포레스트, 또는
    지원 벡터 머신
    을 포함하는 것인 컴퓨터-구현 방법.
  5. 제1항에 있어서,
    상기 특정 후보 솔루션에 대한 속성 세트는 특정 유형의 머신-러닝 모델의 선택 또는 하이퍼파라미터를 포함하고,
    상기 특정 유형의 머신-러닝 모델은 분류 출력 또는 수치 출력을 생성하도록 구성되는 것인 컴퓨터-구현 방법.
  6. 제1항에 있어서, 상기 다른 샘플은 대분자를 포함하는 것인 컴퓨터-구현 방법.
  7. 제1항에 있어서, 상기 다른 샘플은 소분자를 포함하는 컴퓨터-구현 방법.
  8. 제1항에 있어서, 상기 다른 샘플의 예측된 특성은
    하나 이상의 소분자 분석물의 농도,
    용매,
    하나 이상의 단백질 변이체의 존재(prevalence),
    단백질 고차 구조, 또는
    대분자 불순물
    을 특징으로 하는 것인 컴퓨터-구현 방법.
  9. 제1항에 있어서,
    상기 처리 파이프라인은 기준선을 감소 또는 제거하기 위해 비대칭 최소 제곱 기법을 수행하는 것을 포함하고,
    상기 특정 후보 솔루션에 대한 속성 세트는 비대칭 최소 제곱 기법에 대한 적어도 하나의 파라미터를 포함하는 것인 컴퓨터-구현 방법.
  10. 제1항에 있어서,
    상기 처리 파이프라인은 기준선을 감소 또는 제거하기 위해 평활화 기술을 수행하는 것을 포함하고,
    상기 특정 후보 솔루션에 대한 속성 세트는 평활화 기술에 대한 적어도 하나의 파라미터를 포함하는 것인 컴퓨터-구현 방법.
  11. 제1항에 있어서,
    복수의 샘플 중 적어도 하나의 샘플에 대해, 복수의 데이터 요소는 샘플에 대응하는 다수의 데이터 요소를 포함하고,
    다수의 데이터 요소는 샘플을 사용하여 생성된 상이한 복제 스펙트럼을 포함하는 것인 컴퓨터-구현 방법.
  12. 제1항에 있어서,
    복수의 데이터 요소를 복수의 데이터 요소의 훈련 서브세트 및 복수의 데이터 요소의 테스트 서브세트로 분할하는 단계
    를 더 포함하며,
    예측된 샘플 특성이 결정되는 복수의 데이터 요소 중 적어도 일부는 복수의 데이터 요소의 테스트 서브세트로서 정의되고,
    후보 솔루션들의 집단을 필터링하는 단계는 복수의 데이터 요소의 테스트 서브세트를 사용하여 하나 이상의 파라미터를 학습하는 것을 더 포함하는 것인
    컴퓨터-구현 방법.
  13. 제12항에 있어서,
    복수의 샘플 각각은 동일한 표적 화학 구조 및 동일한 표적 제형에 대응하고,
    복수의 샘플은 다수의 로트-별 서브세트를 포함하며, 다수의 로트-별 서브세트 각각은 개별 로트 동안 제조된 다수의 샘플을 포함하고,
    복수의 데이터 요소의 분할은
    개별 로트를 훈련 서브세트 및 테스트 서브세트로 분할하고,
    로트 분할에 기초하여 복수의 데이터 요소를 분할하는 것
    을 포함하는 것인 컴퓨터-구현 방법.
  14. 제1항에 있어서,
    다른 샘플에 대응하는 다른 스펙트럼에 액세스하는 단계,
    처리 파이프라인으로 상기 다른 스펙트럼을 처리하여 상기 다른 샘플의 예측된 특성을 생성하는 단계,
    예측된 특성에 기초하여, 품질 관리 조건이 충족되는지 여부를 결정하는 단계,
    품질 관리 조건이 충족되는 경우에는, 대상자에게 투여될 상기 다른 샘플을 분배하는 단계, 및
    품질 관리 조건이 충족되지 않는 경우에는, 대상자 투여를 위한 상기 다른 샘플의 분배를 억제하는 단계
    를 더 포함하는 컴퓨터-구현 방법.
  15. 제14항에 있어서,
    품질 관리 조건이 충족되지 않는 경우에는, 상기 다른 샘플의 생산과 관련된 하나 이상의 파라미터를 동적으로 조정하는 단계
    를 더 포함하는 컴퓨터-구현 방법.
  16. 제1항에 있어서,
    상기 스펙트럼의 강도 세트로부터, 예측된 샘플의 예측된 특성을 생성하는 데 사용하기 위한 하나 이상의 강도를 선택하는 특징-선택 프로세스를 수행하는 단계
    를 더 포함하고,
    상기 특징-선택 프로세스는 처리 파이프라인에 의한 예측된 특성의 생성 이전에 수행되는 것인 컴퓨터-구현 방법.
  17. 제16항에 있어서, 상기 특징-선택 프로세스는
    스펙트럼으로부터, 파수(wavenumber) 세트를 식별하고, 이때 각 파수는 강도 값과 연관되며,
    회귀 분석을 사용하여 파수 세트의 각 파수에 대한 점수를 정의하고,
    파수 세트의 각 파수의 점수에 따라 파수 세트를 정렬하고,
    하나 이상의 특징-선택 반복을 수행하고,
    이때 각각의 특징-선택 반복은
    가장 낮은 점수를 갖는 스펙트럼의 하나 이상의 파수를 제거함으로써 파수 세트의 서브세트를 생성하고,
    머신-러닝 모델 상의 파수 세트의 서브세트의 교차 검증에 기초하여 모델-검증 점수를 생성하는 것
    을 포함하고,
    하나 이상의 특징-선택 반복으로부터, 하나 이상의 특징-선택 반복 중 임계값에 가장 가까운 모델-검증 점수를 포함하는 특정 특징-선택 반복을 선택하고,
    처리 파이프라인에 의한 예측된 특성의 생성에 사용하기 위해, 특정 특징-선택 반복의 파수 세트의 서브세트에 대응하는 강도를 선택하는 것
    을 포함하는 것인 컴퓨터-구현 방법.
  18. 제1항에 있어서,
    다른 샘플에 대응하는 다른 스펙트럼에 액세스하는 단계,
    처리 파이프라인에 따라 상기 다른 스펙트럼을 처리하여 상기 다른 샘플의 예측된 특성을 생성하는 단계,
    예측된 특성을 수신하는 단계,
    예측된 특성에 기초하여, 품질 관리 조건이 충족되는지 여부를 결정하는 단계,
    품질 관리 조건이 충족되는 경우에는, 추가 샘플들을 제조하도록 구성된 하나 이상의 제조 프로세스를 시작 또는 완료하는 단계, 및
    품질 관리 조건이 충족되지 않는 경우에는, 상기 하나 이상의 제조 프로세스를 중단 또는 수정하는 단계,
    을 더 포함하는 컴퓨터-구현 방법.
  19. 컴퓨터-구현 방법으로서,
    특정 샘플과 에너지 소스로부터의 에너지 사이의 상호작용에 기초하여 생성된 특정 스펙트럼을 클라이언트 장치에서 액세스하는 단계,
    처리 파이프라인을 사용하여 특정 스펙트럼을 처리함으로써 생성될 특정 샘플의 예측된 특성에 대한 요청을 클라이언트 장치로부터 원격 컴퓨팅 시스템으로 전송하는 단계이며,
    상기 처리 파이프라인은 복수의 샘플에 대응하는 복수의 데이터 요소를 포함하는 데이터 세트에 액세스하는 것에 의해 정의되었고,
    상기 특정 샘플은 복수의 샘플 각각과 상이하고,
    데이터 요소 각각은
    복수의 샘플 중의 샘플과 관련된 스펙트럼, 및
    샘플의 알려진 특성
    을 포함하는 것인 단계,
    후보 솔루션들의 집단을 초기화하는 단계이며,
    후보 솔루션 각각은
    특정 유형의 전처리가 수행될지 여부,
    수행될 전처리의 파라미터,
    사용될 머신-러닝 모델의 유형, 및/또는
    머신-러닝 모델 하이퍼파라미터
    를 포함하는 속성 세트에 의해 정의되는 것인 단계,
    다음에 의해 후보 솔루션들의 집단을 필터링하는 단계:
    후보 솔루션 각각에 대해 및 복수의 데이터 요소 각각에 대해, 예측된 샘플 특성을 상기 속성 세트로 데이터 요소의 스펙트럼을 처리함으로써 결정하는 과정,
    후보 솔루션들의 집단 각각에 대해, 예측된 샘플 특성 및 데이터 요소의 알려진 특성에 기초하여 적합성 메트릭을 생성하는 과정, 및
    적합성 메트릭에 기초하여 후보 솔루션들의 집단의 불완전한 서브세트를 선택하는 과정,
    다음에 의해 하나 이상의 추가 생성 반복을 수행하는 단계:
    하나 이상의 유전 연산자 및 후보 솔루션들의 집단의 불완전한 서브세트를 사용하여 식별된 솔루션들의 차세대 집단을 포함하도록 후보 솔루션들의 집단을 업데이트하는 과정, 및
    후보 솔루션들의 업데이트된 집단을 사용하여 후보 솔루션들의 집단의 필터링을 반복하는 과정, 및
    추가 생성 반복들 중 마지막 생성 반복 동안 선택된 후보 솔루션들의 집단의 불완전한 서브세트에서 특정 후보 솔루션의 속성 세트에 기초하여 처리 파이프라인을 생성하는 단계, 및
    클라이언트 장치에서, 및 원격 컴퓨팅 시스템으로부터, 특정 샘플의 예측된 특성을 수신하는 단계
    를 포함하는 컴퓨터-구현 방법.
  20. 제19항에 있어서,
    에너지 소스로부터의 에너지 방출을 시작하기 위해 분광법을 사용하여 특정 스펙트럼을 수집하는 단계
    를 더 포함하는 컴퓨터-구현 방법.
  21. 하나 이상의 데이터 프로세서, 및
    하나 이상의 데이터 프로세서 상에서 실행될 때, 하나 이상의 데이터 프로세서로 하여금 본 명세서에 개시된 하나 이상의 방법의 일부 또는 전부를 수행하게 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 저장 매체
    를 포함하는 시스템.
  22. 하나 이상의 데이터 프로세서로 하여금 본 명세서에 개시된 하나 이상의 방법의 일부 또는 전부를 수행하게 하도록 구성된 명령어를 포함하는, 비일시적 기계 판독 가능 저장 매체에 유형적으로 구현된 컴퓨터 프로그램 프로덕트.
KR1020227035798A 2020-04-10 2021-04-06 라만 스펙트럼에 기초한 샘플 속성을 식별하기 위한 모델을 결정하기 위한 유전 알고리즘 사용 KR20230006814A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063008196P 2020-04-10 2020-04-10
US63/008,196 2020-04-10
PCT/US2021/025921 WO2021207160A1 (en) 2020-04-10 2021-04-06 Use of genetic algorithms to determine a model to identity sample properties based on raman spectra

Publications (1)

Publication Number Publication Date
KR20230006814A true KR20230006814A (ko) 2023-01-11

Family

ID=75690670

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227035798A KR20230006814A (ko) 2020-04-10 2021-04-06 라만 스펙트럼에 기초한 샘플 속성을 식별하기 위한 모델을 결정하기 위한 유전 알고리즘 사용

Country Status (6)

Country Link
US (1) US20230009725A1 (ko)
EP (1) EP4133494A1 (ko)
JP (1) JP2023521757A (ko)
KR (1) KR20230006814A (ko)
CN (1) CN115398552A (ko)
WO (1) WO2021207160A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114429797A (zh) 2021-12-29 2022-05-03 北京百度网讯科技有限公司 分子集合生成方法及装置、终端和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299501B (zh) * 2018-08-08 2022-03-11 浙江大学 一种基于工作流的振动光谱分析模型优化方法

Also Published As

Publication number Publication date
CN115398552A (zh) 2022-11-25
WO2021207160A1 (en) 2021-10-14
EP4133494A1 (en) 2023-02-15
JP2023521757A (ja) 2023-05-25
US20230009725A1 (en) 2023-01-12

Similar Documents

Publication Publication Date Title
Mehmood et al. The diversity in the applications of partial least squares: an overview
Roussel et al. Multivariate data analysis (chemometrics)
CN113989603A (zh) 用于光谱分类的减少的误报识别
Rathore et al. Guidance for performing multivariate data analysis of bioprocessing data: pitfalls and recommendations
Douak et al. Active learning for spectroscopic data regression
JP2010520471A (ja) 材料の分類および混合物の成分の定量化のためのアンサンブル方法ならびに装置
CN111989747A (zh) 用于预测样品中的成分的定量的分光光度法和装置
Wang et al. Bagging for robust non-linear multivariate calibration of spectroscopy
Anzanello et al. A review of recent variable selection methods in industrial and chemometrics applications
US11550823B2 (en) Preprocessing for a classification algorithm
US20190294757A1 (en) Identification and assignment of rotational spectra using artificial neural networks
Al‐Hetlani et al. Differentiating smokers and nonsmokers based on Raman spectroscopy of oral fluid and advanced statistics for forensic applications
Cao Calibration optimization and efficiency in near infrared spectroscopy
Möller et al. Random forests for functional covariates
US20230273121A1 (en) Outlier detection for spectroscopic classification
US20230009725A1 (en) Use of genetic algorithms to determine a model to identity sample properties based on raman spectra
Boeschoten et al. The automation of the development of classification models and improvement of model quality using feature engineering techniques
Wang et al. A Lightweight convolutional neural network for nicotine prediction in tobacco by near-infrared spectroscopy
Kaneko et al. Transfer learning and wavelength selection method in NIR spectroscopy to predict glucose and lactate concentrations in culture media using VIP‐Boruta
Wang et al. SVM classification method of waxy corn seeds with different vitality levels based on hyperspectral imaging
Negoita et al. Artificial intelligence application designed to screen for new psychoactive drugs based on their ATR-FTIR spectra
Pessoa et al. Development of ant colony optimization (aco) algorithms based on statistical analysis and hypothesis testing for variable selection
Xu et al. Detection of apple varieties by near‐infrared reflectance spectroscopy coupled with SPSO‐PFCM
Huang et al. Robust and Accurate Classification of Mutton Adulteration Under Food Additives Effect Based on Multi-Part Depth Fusion Features and Optimized Support Vector Machine
Ballabio et al. Canonical Measure of Correlation (CMC) and Canonical Measure of Distance (CMD) between sets of data. Part 3. Variable selection in classification