KR20160143512A

KR20160143512A - 머신 러닝을 위한 진보된 분석 기반시설

Info

Publication number: KR20160143512A
Application number: KR1020160057309A
Authority: KR
Inventors: 이. 스툴라우그슨 리에스만; 엠. 에딩턴 제임스
Original assignee: 더 보잉 컴파니
Priority date: 2015-06-04
Filing date: 2016-05-11
Publication date: 2016-12-14
Also published as: EP3101599A2; CN106250986A; JP2017004509A; EP3101599A3; US20160358099A1

Abstract

후보 머신 러닝 알고리즘을 비교하기 위한 머신 러닝 시스템(10) 및 컴퓨터화된 방법(100)이 개시된다. 머신 러닝 시스템(10)은 머신 러닝 알고리즘 라이브러리(22), 머신 러닝 알고리즘 라이브러리(22)로부터 유래된 머신 러닝 모델(32)의 선택 및 데이터셋을 수신하기 위한 데이터 입력 모듈(20), 실험 모듈(30) 및 종합 모듈(40)을 구비하여 구성된다. 실험 모듈(30)은 머신 러닝 모델(32)을 위한 성능 결과를 생성하도록 각 머신 러닝 모델(32)을 훈련시키고 평가하도록(106) 구성된다. 종합 모듈(40)은 성능 비교 통계를 형성하도록 모든 머신 러닝 모델(32)을 위한 성능 결과를 종합하도록 구성된다. 컴퓨터화된 방법(100)은 데이터셋을 수신하는 단계(102)와, 머신 러닝 모델(32)의 선택을 수신하는 단계(104), 각 머신 러닝 모델(32)을 위한 성능 결과를 생성하도록 각 머신 러닝 모델(32)을 훈련시키고 평가하는 단계(106), 성능 비교 통계를 형성하도록 성능 결과를 종합하는 단계(108), 및 성능 비교 통계를 제공하는 단계(110)를 포함한다.

Description

머신 러닝을 위한 진보된 분석 기반시설{ADVANCED ANALYTICAL INFRASTRUCTURE FOR MACHINE LEARNING}

본 발명은 머신 러닝(machine learning)을 위한 진보된 분석 기반시설(advanced analytical infrastructure)에 관한 것이다.

머신 러닝은 데이터셋(dataset)이 입력 데이터(또한 설명 변수(explanatory variables) 또는 예측 변수(predictors)로 불리워짐)를 출력 데이터(또한 종속 변수(dependent variables) 또는 응답 변수(response variables)로 불리워짐)에 맵핑하는 모델(또한 규칙(rule) 또는 함수(function)로 불리워짐)을 결정하는데 이용되는 데이터를 분석하기 위한 프로세스이다. 머신 러닝의 하나의 형태는 모델이 충분한 수의 입력 데이터를 위해 알려진 출력 데이터를 포함하는 데이터셋으로 훈련되는(trained) 지도 러닝(supervised learning)이다. 모델이 훈련되면, 이는 예상된 출력을 예측하기 위해 새로운 입력 데이터에 대해 배치(deployed), 예컨대 적용(applied)될 수 있다.

머신 러닝은 (출력 데이터가 수(numeric), 예컨대 전압, 압력, 다수의 사이클인 곳에서는) 회귀 문제(regression problems)에 적용될 수 있고, (출력 데이터가 레이블(labels), 클래스(classes), 및/또는 카테고리(categories) 등, 예컨대, 합격-불합격(pass-fail), 고장 형태(failure type) 등인 곳에서는) 분류 문제(classification problems)에 적용될 수 있다. 양쪽 형태의 문제에 대해, 활발한 연구 주제를 새로운 알고리즘에 따라, 광범위한 머신 러닝 알고리즘이 이용가능하다. 예컨대, 인공 신경망(artificial neural networks), 학습된 의사결정 트리(learned decision trees) 및 서포트 벡터 머신(support vector machines)이 분류 문제에 적용될 수 있는 알고리즘의 여러 분류이다. 그리고, 이들 예의 각각은 (인공 신경망에 대한) 학습률(learning rate), (학습된 의사결정 트리의 앙상블(ensembles)에 대한) 트리의 수, 및 (서포트 벡터 머신에 대한) 커널 형태(kernel type)와 같은 특정 파라미터를 선택하는 것에 의해 맞추어질 수 있다.

문제를 처리하는데 이용가능한 다수의 머신 러닝 옵션은 최상의 옵션 또는 잘-수행 중인 옵션 조차도 선택하는 것을 어렵게 만든다. 데이터의 양, 형태 및 품질은 훈련의 정확도 및 안정성과 최종 훈련된 모델에 영향을 미친다. 더욱이, 에러 (예컨대, 가긍정적 판단(false positives), 가부정적 판단(false negatives)) 확장성(scalability)의 허용오차(tolerance) 및 실행 속도(execution speed)와 같은, 문제-특정 고려는 허용가능한 선택을 제한한다.

따라서, 다양한 특정 문제에 대한 적용가능성을 위한 머신 러닝 모델을 비교할 필요가 있다.

본 발명은 상기한 점을 감안하여 발명된 것으로, 머신 러닝을 위한 진보된 분석 기반시설을 제공함에 그 목적이 있다.

머신 러닝 시스템은 특정 데이터 분석 문제에 대해 후보 머신 러닝 알고리즘(candidate machine learning algorithms)을 비교하도록 구성될 수 있다. 머신 러닝 시스템은 머신 러닝 알고리즘 라이브러리, 데이터 입력 모듈, 실험 모듈, 및 종합 모듈을 구비하여 구성된다. 머신 러닝 알고리즘 라이브러리는 공통 인터페이스로 테스트되어지도록 구성된 다수의 머신 러닝 알고리즘을 포함한다. 데이터 입력 모듈은 머신 러닝 모델의 선택 및 데이터셋을 수신하도록 구성된다. 각 머신 러닝 모델은 머신 러닝 알고리즘 라이브러리로부터의 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함한다. 실험 모듈은 각 머신 러닝 모델을 위한 성능 결과(performance result)를 생성하도록 각 머신 러닝 모델을 훈련시키고 평가하도록 구성된다. 종합 모듈은 성능 비교 통계(performance comparison statistics)를 형성하기 위해 모든 머신 러닝 모델에 대한 성능 결과를 종합하도록 구성된다.

머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법은, 데이터셋을 수신하는 단계와, 머신 러닝 모델의 선택을 수신하는 단계, 각 머신 러닝 모델을 훈련시키고 평가하는 단계, 결과를 종합하는 단계, 및 결과를 제공하는 단계를 포함한다. 머신 러닝 모델의 선택의 각 머신 러닝 모델은 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함한다. 각 머신 러닝 모델을 훈련시키고 평가하는 단계는 각 머신 러닝 모델을 위한 성능 결과를 생성하는 단계를 포함한다. 종합하는 단계는 성능 비교 통계를 형성하도록 모든 머신 러닝 모델을 위한 성능 결과를 종합하는 단계를 포함한다. 제공하는 단계는 성능 비교 통계를 제공하는 단계를 포함한다.

도 1은 본 발명의 머신 러닝 시스템을 나타낸다.
도 2는 머신 러닝 시스템 내의 모듈을 나타낸다.
도 3은 본 발명의 방법을 나타낸다.
도 4는 머신 러닝 모듈을 훈련시키고 평가하는 방법을 나타낸다.

도 1 내지 도 4는 머신 러닝을 위한 시스템 및 방법을 예시한다. 일반적으로, 도면에 있어서, 주어진 실시예에 포함될 가능성이 있는 엘리먼트는 실선으로 예시되고, 반면 선택적이거나 대안적인 엘리먼트는 파선으로 예시된다. 그러나, 실선으로 예시된 엘리먼트는 본 발명의 모든 실시예에 대해 필수적인 것은 아니고, 실선으로 도시된 엘리먼트는 본 발명의 범위를 벗어나는 것 없이 특정 실시예로부터 생략될 수도 있다. 유사한, 또는 적어도 실질적으로 유사한 목적을 제공하는 엘리먼트는 도면 중에서 일치하는 참조부호로 표시된다. 각 도면에서 동일한 참조부호, 그리고 대응하는 엘리먼트는 각 도면을 참조하여 상세하게 논의되지 않을 수 있다. 마찬가지로, 모든 엘리먼트는 각 도면에서 표시되거나 도시되지 않을 수 있지만, 그와 관련된 참조부호는 일관성을 위해 이용될 수 있다. 하나 이상의 도면을 참조하여 논의되는 엘리먼트, 구성요소 및/또는 특징은 본 발명의 범위로부터 벗어나는 것 없이 소정의 도면에 포함되거나 및/또는 함께 이용될 수 있다.

도 1에 예시된 바와 같이, 머신 러닝 시스템(machine learning system; 10)은 저장 유닛(storage unit; 14)에 동작적으로 결합된 처리 유닛(processing unit; 12)을 포함하는 컴퓨터화된 시스템이다. 처리 유닛(12)은 소프트웨어 및/또는 펌웨어를 위한 명령을 실행하도록 구성된 하나 이상의 장치이다. 처리 유닛(12)은 하나 이상의 컴퓨터 프로세서를 포함할 수 있고 컴퓨터 프로세서의 분산 그룹(distributed group of computer processors)을 포함할 수 있다. 저장 유닛(14)(또한 컴퓨터-판독가능 저장 유닛으로 칭해짐)은 컴퓨터-판독가능 정보를 저장하도록 구성된 하나 이상의 장치이다. 저장 유닛(14)은 메모리(16)(또한 컴퓨터-판독가능 메모리로 칭해짐) 및 영구 저장기(persistent storage; 18)(또한 컴퓨터-판독가능 영구 저장기, 저장 매체, 및/또는 컴퓨터-판독가능 저장 매체로 칭해짐)를 포함할 수 있다. 영구 저장기(18)는 비-일시적(non-transitory)이고 단지 일시적인 전자기기 및/또는 전자기 신호가 아닌 하나 이상의 컴퓨터-판독가능 저장 장치이다. 영구 저장기(18)는 하나 이상의 (비-일시적) 저장 매체 및/또는 (비-일시적) 저장 매체의 분산 그룹을 포함할 수 있다. 머신 러닝 시스템(10)은 각각 독립적으로 (네트워크 연결에 의해 포함하는) 직접적으로 또는 간접적으로 상호연결될 수 있는 하나 이상의 컴퓨터, 서버, 워크스테이션 등을 포함할 수 있다. 따라서, 머신 러닝 시스템(10)은 서로 원격적으로 위치된 프로세서, 메모리(16) 및/또는 영구 저장기(18)를 포함할 수 있다.

머신 러닝 시스템(10)은 여기에 개시된 방법을 수행하도록 프로그램될 수 있고, 및/또는 여기에 개시된 방법을 수행하기 위한 명령을 저장할 수 있다. 머신 러닝 시스템(10)의 저장 유닛(14)은, 처리 유닛(12)에 의해 실행될 때, 이 여기에 개시된 방법 중 하나 이상을 수행하도록 하는 명령을 포함한다.

여기에 개시된 플로우차트 및 블록도는 다양한 예시적 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 가능한 구현의 구조, 기능성, 및 동작을 예시한다. 이와 관련하여, 플로우차트 또는 블록도의 각 블록은 특정 논리적 기능 또는 기능들을 구현하기 위한 하나 이상의 실행가능 명령을 구비하는 모듈, 세그먼트, 또는 코드의 부분을 나타낼 수 있다. 또한, 몇몇 대안적인 구현에 있어서, 블록에서 주지된 기능은 도면에서 주지된 순서를 벗어날 수도 있음을 주지해야 한다. 예컨대, 포함된 가능성에 따라, 연속적으로 도시된 2개의 블록의 기능은 실질적으로 동시에 실행될 수 있고, 또는 블록의 기능은 때때로 반대 순서로 실행될 수도 있다.

도 2에 도식적으로 나타낸 바와 같이, 머신 러닝 시스템(10)은 다양한 모듈(예컨대, 저장 유닛(14)에 저장되고 처리 유닛(12)에 의해 실행되도록 구성된 명령 및/또는 데이터)을 포함할 수 있다. (또한 에이전트(agents), 프로그램, 프로세스 및/또는 절차(procedures)로 불리워질 수 있는) 이들 모듈은 데이터 입력 모듈(data input module; 20), 머신 러닝 알고리즘 라이브러리(machine learning algorithm library; 22), 데이터 전처리기(data preprocessor; 24), 실험 모듈(experiment module; 30), 종합 모듈(aggregation module; 40) 및 프리젠테이션 모듈(presentation module; 44)을 포함할 수 있다.

머신 러닝 시스템(10)은, 예컨대 후보 머신 러닝 모델(candidate machine learning models)을 비교하기 위해, 예컨대 특정 데이터 분석 문제를 위한 적절한 머신 러닝 모델(들)(32)의 선택을 용이하게 하기 위해, 머신 러닝 모델 선택에 대해 구성된다. 일반적으로, 머신 러닝 시스템(10)은 주어진 데이터의 세트에 관하여 (또한 하이퍼-파라미터(hyper-parameters)로 언급되는) 하나 이상의 특정 파라미터와 함께 구성된 하나 이상의 머신 러닝 알고리즘의 성능을 계산 및/또는 추정(estimate)하도록 구성된다. 그 관련된 특정 파라미터 값과 함께 머신 러닝 알고리즘은, 적어도 부분적으로, 머신 러닝 모델(32)(또한 특정 머신 러닝 모델 및 후보 머신 러닝 모델로 언급되고, 도 2에서는, ML Model 1 내지 ML Model N으로 언급됨)을 형성한다.

데이터 분석 문제는 분류 문제(classification problems) 또는 회귀 문제(regression problems)일 수 있다. 데이터 분석 문제는, 시퀀스 데이터(sequence data), 시-계열 데이터(time-series data), 임시 데이터(temporal data), 및/또는 시간-스탬프 데이터(time-stamped data)일 수 있는, 시간-의존 데이터(time-dependent data)에 관련될 수 있다. 시간-의존 데이터는 (예컨대, 시간의 연속적인 기간에서 측정된) 시퀀스(sequence)에서 및/또는 시간을 통해 (또한 양(quantity), 속성(attribute), 특성(property), 또는 특징(feature)으로 칭해지는) 가측치(observable)의 진행(progression)에 관한 것이다. 예컨대, 시간-의존 데이터는 항공기 및 그 서브시스템(예컨대, 추진 시스템, 비행 제어 시스템, 환경 제어 시스템, 전기 시스템 등)과 같은 장비의 동작 건전성(operational health)에 관련될 수 있다. 관련된 가측치는 전기적, 광학적, 기계적, 유압, 유체, 공기식(pneumatic) 및/또는 공기역학(aerodynamic) 구성요소의 상태, 그에 대한 입력 및/또는 그 출력의 측정일 수 있다.

데이터 입력 모듈(20)은 머신 러닝 모델(machine learning models; 32)의 선택, 예컨대 사용자로부터의 선택과, 시간-의존 데이터셋(time-dependent dataset)과 같은, 데이터셋을 수신하도록 구성된다. 따라서, 머신 러닝 시스템(10)은 데이터셋을 수신하도록 구성된다. 또한 입력 데이터셋으로 불리워지는, 데이터셋은 머신 러닝 모델(32) 및/또는 실험 모듈(experiment module; 30)과 인터페이스되도록 공통 포맷(common format)으로 될 수 있다. 만약, 입력 데이터셋이 머신 러닝 모델(32) 및/또는 실험 모듈(30)에 대한 인터페이스와 호환가능한 포맷이 아니면, 데이터 입력 모듈(20) 및/또는 데이터 전처리기(data preprocessor; 24)는 머신 러닝 모델(32) 및/또는 실험 모듈(30)과 인터페이스하기 위해 공통 포맷으로 입력 데이터셋을 새로 포맷(reformat)하도록 구성될 수 있고, 또는 그렇지않으면 입력 데이터의 포맷을 호환가능 포맷으로 변환할 수 있다.

머신 러닝 모델(32)은 머신 러닝 알고리즘 및 머신 러닝 알고리즘을 위한 하나 이상의 관련된 파라미터 값을 포함한다. 데이터셋은 하나 이상의 가측치(예컨대, 전압 측정 및 온도 측정)를 위한 데이터를 포함한다. 데이터셋은 레이블된 데이터셋(labeled dataset) (또한 주석 데이터셋(annotated dataset), 러닝 데이터셋(learning dataset), 또는 분류 데이터셋(classified dataset)으로 불리워짐)일 수 있고, 데이터셋은 입력 데이터(예컨대, 가측치의 값, 또한 원시 데이터(raw data)로 불리워짐) 및 입력 데이터의 충분한 수 (선택적으로 모두)에 대한 알려진 출력 데이터를 포함함을 의미한다. 따라서, 레이블된 데이터셋은 지도 러닝(supervised learning) (또한 안내 러닝(guided learning))으로 불리워짐)에 대해 구성된다.

머신 러닝 알고리즘 라이브러리(machine learning algorithm library; 22)는 다수의 머신 러닝 알고리즘을 포함한다. 머신 러닝 알고리즘 각각은, 머신 러닝 알고리즘의 적용을 용이하게 하도록 (예컨대, 테스트(testing), 훈련(training), 평가(evaluation), 및/또는 배포(deployment)를 용이하게 하도록), 또한 상호교환 인터페이스(interchange interface)로 불리워지는, 공통 인터페이스(common interface)를 따르도록 구성된다. 공통 인터페이스는 공통 입력 및/또는 출력, 데이터를 입력 및/또는 출력하기 위한 공통 방법, 및/또는 각 머신 러닝 알고리즘을 위한 공통 절차 호출(common procedure calls)을 정의할 수 있다. 예컨대, 머신 러닝 알고리즘은, 동일한 방식으로 파라미터 값을 드러내도록 및/또는 수신하도록, 및/또는 유사한 기능을 수행하도록, (예컨대, 특정 파일 형태로 체계화된, 특정 행 및/또는 열 지정으로 체계화된) 공통 포맷으로 데이터셋에 대해 동작하도록 구성될 수 있다. 따라서, 머신 러닝 알고리즘 라이브러리(22)의 머신 러닝 알고리즘의 어느 것은 유사한 방식 (데이터는 유사하게 알고리즘에 대해 전송될 수 있고, 기능은 유사하게 호출될 수 있다) 및/또는 상호교환가능하게 이용될 수 있다. 더욱이, 머신 러닝 알고리즘 라이브러리(22)는 확장가능할 수 있고, 예컨대 이용가능함에 따라 그리고 개발됨에 따라 새로운 알고리즘이 부가될 수 있다.

머신 러닝 알고리즘 라이브러리(22)의 각 머신 러닝 알고리즘은 적용된 알고리즘의 특정 변동을 맞추고(tailor) 또는 명시(specify)하기 위해 특정 파라미터를 허용할 수 있다. 예컨대, 인공 신경망은 다수의 노드, 비용 기능(cost function), 학습률(learning rate), 학습률 감쇠(learning rate decay) 및 최대 반복(maximum iterations)을 명시하는 파라미터를 포함할 수 있다. 학습된 의사결정 트리는 (앙상블(ensembles) 또는 랜덤 포레스트(random forests)에 대한) 다수의 트리(the number of trees) 및 다수의 시도(the number of tries)(예컨대, 각 브랜치에서 시도하기 위한 다수의 특징/예측(features/predictions))를 명시하는(specifying) 파라미터를 포함할 수 있다. 서포트 벡터 머신은 커널 형태 및 커널 파라미터를 명시하는 파라미터를 포함할 수 있다. 모든 머신 러닝 알고리즘이 관련된 파라미터를 갖는 것은 아니다. 여기서 이용된 바와 같이, 머신 러닝 모델(32)은 적어도 머신 러닝 알고리즘 및, 만약 있다면, 그 관련된 파라미터(들)의 조합이다. 따라서, 데이터 입력 모듈(20)을 위한 머신 러닝 모델(32)의 선택은 머신 러닝 알고리즘 및 그들의 관련된 파라미터(들)의 (사용자) 선택일 수 있다. 머신 러닝 모델의 선택의 머신 러닝 알고리즘은 머신 러닝 알고리즘 라이브러리(22)로부터 선택될 수 있다. 머신 러닝 알고리즘은 나이브 베이즈 분류기(naive Bayes classifier), 트리-증강 나이브 베이즈 분류기(tree-augmented naive Bayes classifier), 동적 베이지안 네트워크(dynamic Bayesian network), 서포트 벡터 머신(support vector machine), 학습된 의사결정 트리(learned decision tree), 학습된 의사결정 트리의 앙상블(ensemble of learned decision trees) (예컨대, 학습된 의사결정 트리의 랜덤 포레스트), 인공 신경망, 및 그 조합일 수 있다.

머신 러닝 모델(32)은 마이크로-프로시저(micro-procedures; 38)의 앙상블의 결론(outcomes)을 결합하는 매크로-프로시저(macro-procedure; 36)일 수 있다. 각 마이크로-프로시저(38)는 머신 러닝 알고리즘 및 그 관련된 파라미터 값을 포함한다. 선택적으로, 각 마이크로-프로시저(38)는 머신 러닝 알고리즘 및 관련된 파라미터 값의 여러 조합을 포함한다. 마이크로-프로시저(38)는, 머신 러닝 모델(32)에 관하여 설명한 바와 같이, 동일한 방식으로 구성될 수 있고, 및/또는 동일한 특징을 포함할 수 있다. 예컨대, 마이크로-프로시저(38)는 나이브 베이즈 분류기, 트리-증강 나이브 베이즈 분류기, 동적 베이지안 네트워크, 서포트 벡터 머신, 학습된 의사결정 트리, 학습된 의사결정 트리의 앙상블 및/또는 인공 신경망을 포함할 수 있다.

매크로-프로시저(36)는 마이크로-프로시저(38)의 앙상블의 모든 마이크로-프로시저(38)에 대해 동일한 베이스 입력 데이터(base input data)(예컨대, 적어도 입력 데이터의 서브셋(subset) 및/또는 파생물(derivative))를 제공하도록 구성된다. 매크로-프로시저(36)를 훈련시키는 것은 (동일한 베이스 입력 데이터로) 각 마이크로-프로시저(38)를 훈련시키는 것을 포함한다. 하나 이상의, 선택적으로 모든, 마이크로-프로시저(38)는 동일한 입력 특징 데이터(input feature data)로 훈련될 수 있다. 부가적으로 또는 대안적으로, 2 이상의, 선택적으로 모든, 마이크로-프로시저(38)는 여러 입력 특징 데이터로 훈련될 수 있다(그러나 모든 입력 특징 데이터는 입력 데이터의 서브셋 및/또는 파생물이다).

개별의, 훈련된, 마이크로-프로시저(38)가 출력 데이터(결론)를 예측하는데 신뢰성이 있고, 확고하며, 및/또는 안정적이지만, 마이크로-프로시저 결론의 조합은 소정의 개별 결론 보다 더 신뢰성이 있고, 확고하며, 및/또는 안정적일 수 있다. 따라서, 매크로-프로시저(36)는 개별 마이크로-프로시저(38) 결론 보다 더 신뢰성이 있고, 확고하며, 및/또는 안정적인 결합된 결론을 생성하도록 마이크로-프로시저(38)의 결론을 결합하도록 구성될 수 있다.

매크로-프로시저(36)는 마이크로-프로시저(38)로부터 독립적이고 및/또는 구별되는 머신 러닝 알고리즘 및 관련된 파라미터 값을 포함할 수 있다. 부가적으로 또는 대안적으로, 매크로-프로시저(36)는 누적 값(cumulative value), 최대 값, 최소값, 중간 값(median value), 평균 값, 모드 값(mode value), 가장 일반적인 값(most common value) 및/또는 다수결(majority vote)에 의해 마이크로-프로시저(38)의 앙상블의 결론을 결합할 수 있다. 매크로-프로시저(36)의 예는 훈련된 의사결정 트리의 앙상블(예컨대, 랜덤 포레스트) 및 관련된 분류기의 앙상블(예컨대, 미래의 다른 시간에서 결론을 예측하도록 훈련된 분류기)을 포함한다. 관련된 분류기의 앙상블의 예가, 2015년 2월 3일자로 출원된, 발명의 명칭이 "분류기 앙상블을 통합하는 예측 항공기 유지보수 시스템 및 방법(Predictive Aircraft Maintenance Systems and Methods Incorporating Classifier Ensembles)"인, 그 개시가 여기서 모든 목적을 위해 참고문헌으로 통합되는, 미국 특허 출원 번호 14/613,015호에 개시된다.

머신 러닝 시스템(10)은 데이터 전처리기(data preprocessor; 24)를 포함할 수 있고, 또한 초기 데이터 전처리기(initial data preprocessor) 및 글로벌 전처리기(global preprocessor)로서 언급된다. 데이터 전처리기(24)는 실험 모듈(30)에 의해 처리하기 위한 입력 데이터셋(input dataset)을 준비하도록 구성된다. 데이터 전처리기(24)에 대한 입력은 데이터 입력 모듈(20)에 의해 제공된 입력 데이터셋을 포함한다. 데이터 전처리기(24)는 입력 데이터셋에 대해 하나 이상의 전처리 알고리즘(preprocessing algorithms)을 적용할 수 있다. 예컨대, 데이터 전처리기(24)는 데이터셋을 이산화(discretize)하도록, 데이터셋에 대해 독립 구성요소 분석(independent component analysis)을 적용하도록, 데이터셋에 대해 주 구성요소 분석(principal component analysis)을 적용하도록, 데이터셋으로부터 분실 데이터(missing data)를 제거하도록(예컨대, 기록을 제거하도록 및/또는 데이터를 추정하도록), 데이터셋으로부터 특징(features)을 선택하도록, 및/또는 데이터셋으로부터 특징을 추출하도록 구성될 수 있다. 몇몇 머신 러닝 모델(32)은, 데이터셋이 전처리되면, (예컨대, 강화된 일반성 및/또는 훈련 데이터에 대한 더 낮은 의존성으로) 더욱 신뢰성있게 및/또는 탄력적으로(resiliently) 수행할 수 있다. 몇몇 머신 러닝 모델(32)을 훈련시키는 것은 데이터셋이 전처리되면 강화(예컨대, 더 빠르고, 낮은 과적응(less overfit))될 수 있다. 데이터 전처리기(24)는 동일한 전처리를 데이터셋에 적용하고 처리된 데이터셋은 테스트 하에서 모든 머신 러닝 모델(32)에 의해 이용되도록 실험 모듈(30)에 전달된다. 선택적 데이터 전처리기(24) 후의 입력 데이터(예컨대, 입력 데이터셋 또는 하나 이상의 전처리 알고리즘에 의해 선택적으로 전처리됨에 따른 입력 데이터셋)는 입력 특징 데이터(input feature data) 및/또는 입력 특징 데이터셋(input feature dataset)으로 언급될 수 있다. 입력 특징 데이터는 실험 모듈(30)에 대해 데이터 전처리기(24)에 의해 제공된다.

데이터 전처리기(24)는 다수의 전처리 알고리즘을 포함하는 전처리 알고리즘 라이브러리(preprocessing algorithm library; 26)로부터 전처리 알고리즘(들)을 선택할 수 있다. 전처리 라이브러리(26)의 전처리 알고리즘 각각은, 전처리 알고리즘의 적용을 용이하게 하기 위해, 또한 상호교환 인터페이스(interchange interface)로 불리워지는, 공통 인터페이스를 따르도록 구성된다. 공통 인터페이스는 공통 입력 및/또는 출력, 데이터를 입력 및/또는 출력하기 위한 공통 방법, 및/또는 각 전처리 알고리즘을 위한 공통 절차 호출(common procedure calls)을 정의할 수 있다. 예컨대, 전처리 알고리즘은 동일한 방식으로 파라미터 값을 드러내도록 및/또는 수신하도록, 및/또는 유사한 기능을 수행하도록, (특정 파일 형태로 체계화된, 특정 행 및/또는 열 지정으로 체계화된) 공통 포맷으로 데이터셋 상에서 동작하도록 구성될 수 있다. 따라서, 전처리 알고리즘 라이브러리(26)의 전처리 알고리즘의 어느 것은 유사한 방식으로 (데이터가 유사하게 알고리즘에 대해 전송될 수 있고, 기능이 유사하게 호출될 수 있음) 및/또는 상호교환가능하게 이용될 수 있다. 더욱이, 전처리 알고리즘 라이브러리(26)는 확장가능할 수 있고, 예컨대 이용가능함에 따라 그리고 개발됨에 따라 새로운 알고리즘이 부가될 수 있다.

이산화(discretization)는 전처리 알고리즘 라이브러리(26)에서 존재할 수 있는 데이터 전처리기(24)의 공통 작업(common task) 및 알고리즘의 클래스(a class of algorithms)이다. 또한 비닝(binning)으로 불리워지는, 이산화는 이산화된, 비닝된, 및/또는 공칭 클래스 값으로 수치 가측치(numeric observables)(예컨대, 연속적인 입력 값)를 변환(converting) 및/또는 분할(partitioning)하는 프로세스이다. 예컨대, 간격의 세트 중 하나의 간격으로서 분류된 각 연속적인 값에 따라, 연속적인 값(continuous values)은 간격의 세트로 이산화될 수 있다. 연속적인 데이터의 이산화는 전형적으로 이산화 에러(discretization error)를 초래하고, 여러 알고리즘이 이산화 에러의 양을 감소시키도록 구성된다. 일반적으로, 빈(bins)의 통계적 독립성(예컨대, Ameva, Chi2, ChiMerge 등과 같은 χ² 관련 방법) 및/또는 빈의 정보 엔트로피(information entropy)(예컨대, MDLP(minimum descriptor length principle), CAIM(class-attribute interdependence maximization) 및 CACC(class-attribute contingency coefficient)와 같은 방법)를 기초로 입력 데이터를 분리한다.

특징 선택 및 특징 추출은 전처리 알고리즘 라이브러리(26)에 존재할 수 있는 알고리즘의 클래스 및 데이터 전처리기(24)의 다른 공통 작업이다. 특징 선택은 일반적으로 입력 데이터 값의 서브셋을 선택한다. 또한 차원 축소(dimensionality reduction)로서 언급될 수 있는, 특징 추출은 일반적으로 하나 이상의 입력 데이터 값을 새로운 데이터 값으로 변환(transforms)한다. 특징 선택 및 특징 추출은 단일 알고리즘으로 결합될 수 있다. 특징 선택 및/또는 특징 추출은 훈련을 간단화하도록, 용장(redundant) 또는 관련없는 데이터를 제거하도록, 중요 특징(및/또는 입력 데이터)을 식별하도록, 및/또는 특징(및/또는 입력 데이터) 관계를 식별하도록 입력 데이터를 전처리할 수 있다.

특징 추출은 입력 특징 데이터의 통계를 결정하는 것을 포함할 수 있다. 데이터셋이 시간-의존 데이터셋인 곳에서, 통계는 데이터셋의 시간-의존에 관련될 수 있고, 예컨대 통계는 시간 윈도우(time window) 동안, 예컨대 시간의 기간 동안 및/또는 하나 이상의 특정된 시간에서의 통계일 수 있다. 부가적으로 또는 대안적으로, 통계는 하나 이상의 입력 특징 데이터 값에 관련될 수 있다. 예컨대, 통계는 센서 값(sensor value)의 시간 평균 및/또는 (예컨대, 여러 시간 및/또는 여러 장소에서 측정된) 2개의 센서 값 사이의 차이일 수 있다. 더욱 일반적으로, 통계는 최대, 최소, 평균, 변동(variance), 편차(deviation), 누적 값(cumulative value), 변화율, 변화의 평균율, 합, 차이, 비율, 산출물(product), 상관(correlation)을 포함할 수 있고, 및/또는 그들로 될 수 있다. 통계는 데이터 포인트의 총 수, 시퀀셜 데이터 포인트(sequential data points)의 최대 수, 시퀀셜 데이터 포인트의 최소 수, 시퀀셜 데이터 포인트의 평균 수, 종합 시간(aggregate time), 최대 시간, 최소 시간, 및/또는 입력 특징 데이터 값이 임계 값 이상, 이하, 또는 대략 동등한 평균 시간을 포함할 수 있고, 및/또는 그들로 될 수 있다.

부가적으로 또는 대안적으로, 특징 선택 및/또는 특징 추출은 소정의 제약(constraints) 내에서 입력 특징 데이터 값을 선택, 추출 및/또는 처리하는 것을 포함할 수 있다. 예컨대, 가측치 값(observable values)은 소정의 범위 내의 경우에만 (예컨대, 이상치 데이터(outlier data)는 제외될 수 있다) 및/또는 다른 가측치 값이 소정 범위 내에 있으면 (예컨대, 하나의 센서 값이 다른 센서 값의 승인(acceptance)을 부여할 수 있음) 선택되고, 추출되고 및/또는 처리될 수 있다.

머신 러닝 시스템(10)의 실험 모듈(30)은 각 머신 러닝 모델(32)을 위한 성능 결과를 발생시키도록 데이터 입력 모듈(20)에 의해 제공된 머신 러닝 모델(32)의 선택의 머신 러닝 모델(32)의 각각을 테스트하도록 (예컨대, 훈련 및 평가하도록) 구성된다. 머신 러닝 모델(32)의 각각에 대해, 실험 모듈(30)은 동일한 데이터셋 (데이터 입력 모듈(20) 및/또는 데이터 전처리기(24)로부터 수신된 입력 특징 데이터셋, 및/또는 입력 특징 데이터셋으로부터 유래된 데이터)을 이용해서 지도 러닝(supervised learning)을 수행하도록 구성된다. 따라서, 머신 러닝 모델(32)의 각각은 머신 러닝 모델(32)의 비교를 용이하게 하도록 동일한 정보로 훈련될 수 있다.

실험 모듈(30)은 머신 러닝 모델(32)의 각각을 테스트하기 위해 특정 실험(specified experiments)(또한 시도(trials)로 불리워짐)을 자동적으로 및/또는 자율적으로 설계하고 수행하도록 구성될 수 있다. 실험의 자동 및/또는 자율 설계는 테스트에 대해 머신 러닝 모델(32)의 순서 및/또는 테스트에 대해 어느 머신 러닝 모델(32)을 결정하는 것을 포함할 수 있다. 예컨대, 데이터 입력 모듈(20)에 의해 수신된 머신 러닝 모델(32)의 선택은 특정 머신 러닝 알고리즘과 테스트에 대한 하나 이상의 관련된 파라미터의 범위 및/또는 세트를 포함할 수 있다. 실험 모듈(30)은 머신 러닝 모델(32)의 그룹을 식별하도록 이들 범위(들) 및/또는 세트(들)를 적용할 수 있다. 즉, 실험 모듈(30)은 선택에 의해 특정된 파라미터의 각 특유의 조합에 대해 머신 러닝 모델(32)을 발생시킬 수 있다. 선택이 범위를 포함하는 곳에서, 실험 모듈(30)은 범위를 샘플링하는(예컨대, 범위를 스패닝하는(span)) 값의 세트를 발생시킬 수 있다. 예로서, 머신 러닝 모델(32)의 선택은 10-20개의 노드와 0 또는 0.01의 학습률 감쇠로 머신 러닝 알고리즘(들)(중 하나) 및 관련된 파라미터로서의 인공 신경망을 식별할 수 있다. 실험 모듈(30)은 적어도 4가지 머신 러닝 모델로서 이 선택을 해석할 수 있다: 10개의 노드 및 0의 학습률 감쇠를 갖는 인공 신경망, 10개의 노드 및 0.01의 학습률 감쇠를 갖는 인공 신경망, 20개의 노드 및 0의 학습률 감쇠를 갖는 인공 신경망, 및 20개의 노드 및 0.01의 학습률 감쇠를 갖는 인공 신경망.

일반적으로, 실험 모듈(30)에서 이용된 각 머신 러닝 모델(32)은 독립적이고 독립적으로 테스트될 수 있다. 따라서, 실험 모듈(30)은 병렬로 (예컨대, 적어도 부분적으로 동시에) 하나 이상의 머신 러닝 모델(32)을 테스트하도록 구성될 수 있다.

실험 모듈(30)은 데이터셋을 훈련 데이터셋(데이터셋의 서브셋) 및 평가 데이터셋(데이터셋의 다른 서브셋)으로 분리하도록, 선택적으로 독립적으로 각 머신 러닝 모델(32)에 대해, 구성될 수 있다. 동일한 훈련 데이터셋(training dataset) 및 평가 데이터셋(evaluation dataset)이 하나 이상의, 선택적으로 모든, 머신 러닝 모델(32)에 대해 이용될 수 있다. 부가적으로 또는 대안적으로, 각 머신 러닝 모델(32)은 (각 머신 러닝 모델을 위한 특유의 분할(division)일 수 있거나 아닐 수도 있는) 데이터셋의 독립적 분할로 테스트(선택적으로 배타적으로(exclusively))될 수 있다. 실험 모듈(30)은 (훈련된 모델을 생성하도록) 각각의 훈련 데이터셋(들)으로 머신 러닝 모델(들)(32)을 훈련하고, 각각의 평가 데이터셋(들)으로 머신 러닝 모델(들)(32)을 평가하도록 구성될 수 있다. 따라서, 훈련 프로세스에서 편향(bias)을 회피하기 위해, 훈련 데이터셋(training dataset) 및 평가 데이터셋(evaluation dataset)은 독립으로 될 수 있고, 동일한 입력 데이터와 관련된 공유하는 입력 데이터 및/또는 값은 없다. 훈련 데이터셋 및 평가 데이터셋은 (예컨대, 데이터 전처리기(24)에 의해 선택적으로 처리됨에 따라) 실험 모듈(30)에 대해 입력된 데이터셋의 상보 서브셋(complementary subsets)일 수 있고, 즉, 훈련 데이터셋 및 평가 데이터셋의 합체(union)는 전체 데이터셋이다. 일반적으로, 훈련 데이터셋 및 평가 데이터셋은 동일하게 독립적으로 분포되고, 즉 훈련 데이터셋 및 평가 데이터셋은 데이터의 중첩(overlap)을 갖지 않고 실질적으로 동일한 통계적 분포를 나타낸다.

실험 모듈(30)은 데이터셋을 분할하기 전 및/또는 후에 (예컨대, 선택적 모델 전처리기(model preprocessor; 34)로) 데이터셋을 전처리하도록 구성될 수 있고, 독립적으로 훈련 데이터셋 및 평가 데이터셋을 전처리하도록 구성될 수 있다. 실험 모듈(30) 및/또는 머신 러닝 시스템(10)은 각 머신 러닝 모델(32)에 입력된 데이터(입력 특징 데이터)를 전처리하도록 구성된 모델 전처리기(34)를 포함할 수 있다. 실험 모듈(30) 및/또는 모델 전처리기(34)는 독립적으로 각 머신 러닝 모델(32)에 입력된 데이터를 전처리하도록 구성될 수 있다. 모델 전처리기(34)는, 데이터 전처리기(24)와 관련하여 설명된 바와 같이, 동일한 방식으로 구성될 수 있고, 및/또는 동일한 특징을 포함한다. 예컨대, 모델 전처리기(34)는 입력 특징 데이터에 하나 이상의 전처리 알고리즘을 적용할 수 있고 전처리 알고리즘은 전처리 알고리즘 라이브러리(26)로부터 선택될 수 있다.

전처리는 훈련 데이터셋을 편향할 수 있기 때문에(예컨대, 훈련 데이터셋은 평가 데이터셋으로부터 유래된 정보를 포함할 수 있다) 몇몇 전처리 단계는 데이터셋을 분할하기 이전에는 적용하기에 부적절할 수 있다. 예컨대, (레이블된 데이터셋(labeled dataset)에 의존하지 않는) 비지도 이산화(unsupervised discretization)는 특정 입력 데이터 값에 관계없이 및/또는 소정의 출력 데이터의 지식 없이, 소정의 알고리즘에 따라 데이터를 그룹지울 수 있고, 반면 (레이블된 데이터셋에 의존하는) 지도 이산화(supervised discretization)는 데이터(입력 데이터 및/또는 알려진 출력 데이터)의 패턴에 따라 데이터를 그룹지울 수 있다. 특정 입력 데이터 값에 관계없는 비지도 이산화는 데이터셋을 분할하기 전 및/또는 후에 수행될 수 있다. 훈련 데이터셋에서 잠재적인 편향을 회피하기 위해, 지도 이산화, 특히 특정 입력 값에 종속하는 이산화는 (예컨대, 훈련 데이터셋 및 평가 데이터셋에 대해 독립적으로) 데이터셋을 분할한 후에 수행될 수 있다.

모델 전처리기(34)가 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할한 후에 데이터를 전처리하도록 구성되는 곳에서, 모델 전처리기(34)는 독립적으로 훈련 데이터셋 및 평가 데이터셋을 전처리하고, 및/또는 (예컨대, 훈련 데이터셋을 전처리하는 것으로부터 초래하는 동일한 전처리 기법(preprocessing scheme)으로) 훈련 데이터셋과 동일한 방식으로 평가 데이터셋을 전처리하도록 구성될 수 있다. 예컨대, 비지도 이산화는 훈련 데이터셋을 기초로 그룹으로 데이터를 배열할 수 있다. 동일한 그룹이 평가 데이터셋에 대해 적용될 수 있다.

실험 모듈(30)은 각 머신 러닝 모델을 위한 훈련된 모델을 생성하도록 지도 러닝을 이용해서 각 머신 러닝 모델(32)을 훈련시키도록 구성된다. 실험 모듈(30)은 각 머신 러닝 모델을 위한 성능 결과를 생성하도록 각 훈련된 모델을 평가 및/또는 검증(validate)하도록 구성된다. 평가 및/또는 검증은 훈련된 모델을 각각의 평가 데이터셋에 적용하고 알려진 출력 값에 대해 훈련된 모델 결과를 비교하는 것에 의해 수행될 수 있다. 매크로-프로시저(36)인 머신 러닝 모델(32)에 대해, 실험 모듈(30)은 훈련된 마이크로-프로시저의 앙상블을 생성하도록 매크로-프로시저(36)의 각 마이크로-프로시저(38)를 독립적으로 훈련시키고, 매크로-프로시저(36) 자체가 머신 러닝 알고리즘을 포함하면, 훈련된 마이크로-프로시저(38)의 앙상블로 매크로-프로시저(36)를 훈련시키는 것에 의해 훈련된 매크로-프로시저를 발생시키도록 구성될 수 있다. 매크로-프로시저(36)에 대해, 실험 모듈은 훈련된 매크로-프로시저를 각각의 훈련 데이터셋에 적용하고 알려진 출력 값에 대해 훈련된 매크로-프로시저를 비교하는 것에 의해 훈련된 매크로-프로시저를 평가 및/또는 검증하도록 구성된다.

평가 및/또는 검증은 교차 검증(cross validation)(여러 차례의 검증(multiple rounds of validation)), 예컨대 LOOCV(leave-one-out cross validation), 및/또는 k겹 교차 검증(k-fold cross validation)에 의해 수행될 수 있다. 교차 검증은 (다중 훈련 데이터셋 및 대응하는 평가 데이터셋을 형성하도록) 원래의 데이터셋이 여러 번 분할되는 프로세스이고, 머신 러닝 모델(32)은 각 분할을 위한 평가 결과를 생성하도록 각 분할(각 훈련 데이터셋 및 대응하는 평가 데이터셋)로 훈련 및 평가되고, 평가 결과는 성능 결과를 생성하도록 결합된다. 예컨대, k겹 교차 검증에 있어서, 원래의 데이터셋은 k 청크(chunks)로 분할될 수 있다. 검증의 각 차례에 대해, 청크 중 하나는 평가 데이터셋이고 나머지 청크는 훈련 데이터셋이다. 검증의 각 차례에 대해, 어느 청크가 평가 데이터셋인가는 변경된다. LOOCV에 있어서, 모델에 의해 평가되어질 각 예는 그 자신의 청크이다. 따라서, LOOCV는 k겹 교차 검증의 경우이고, 여기서 k는 데이터 포인트의 수이다(각 데이터 포인트는 특징의 투플(tuple)이다). 성능 결과를 생성하기 위한 평가 결과의 조합은 평가 결과를 평균하는 것, 평가 결과를 축적하는 것(accumulating), 및/또는 평가 결과의 다른 통계적 조합에 의해 될 수 있다.

각 머신 러닝 모델(32)을 위한 성능 결과 및/또는 검증의 각 차례를 위한 개별적 평가 결과는 상관 계수(correlation coefficient), 평균 제곱 오차(mean square error), 신뢰 구간(confidence interval), 정확도(accuracy), 다수의 TP(true positives), 다수의 TN(true negatives), 다수의 FP(false positives), 다수의 FN(false negatives), 민감도(sensitivity), 양성 예측치(positive predictive value), 특이성(specificity), 음성 예측치(negative predictive value), 허위 양성률(false positive rate), FDR(false discovery rate), 허위 음성률(false negative rate), 및/또는 FOR(false omission rate)과 관련된 인디케이터(indicator), 값 및/또는 결과를 포함할 수 있다. 부가적으로 또는 대안적으로, 인디케이터, 값 및/또는 결과는 계산 효율성, 필요로 되는 메모리 및/또는 실행 속도에 관련될 수 있다. 각 머신 러닝 모델(32)을 위한 성능 결과는 동일한 형태의 적어도 하나의 인디케이터, 값 및/또는 결과를 포함할 수 있다(예컨대, 모든 성능 결과는 정확도를 포함한다). 각 머신 러닝 모델(32)을 위한 성능 결과는 여러 형태의 인디케이터, 값 및/또는 결과를 포함할 수 있다(예컨대, 하나의 성능 결과는 신뢰 구간을 포함할 수 있고, 하나의 성능 결과는 허위 양성률을 포함할 수 있다).

2가지 클래스 분류 기법(two-class classification schemes)에 대해(예컨대, 2진 값(binary values), 포지티브-네가티브(positive-negative), 참-거짓(true-false), 예스-노(yes-no) 등), TP(true positive)는 알려진 출력 값이 똑같이 "포지티브"(예컨대, "yes" 결과 및 "yes" 값)일 때 훈련된 모델로부터의 "포지티브" 결과이다. 또한 민감도(sensitivity) 및/또는 리콜(recall)로 불리워지는, TP 율(true positive rate)은 TP의 총 수를 "포지티브" 출력 값의 총 수로 나눈 것이다. 또한 정밀도(precision)로 불리워지는, 양성 예측치는 TP의 총 수를 "포지티브" 결과의 총 수로 나눈 것이다. TN(true negative)은 알려진 출력 값이 똑같이 "네가티브"일 때 훈련된 모델로부터의 "네가티브" 결과이다. 또한 특이성(specificity)으로 불리워지는, TN 율은 TN의 총 수를 "네가티브" 출력 값의 총 수로 나눈 것이다. 음성 예측치(negative predictive value)는 TN의 총 수를 "네가티브" 결과의 총 수로 나눈 것이다. (또한 타입 I 에러(type I error)로 불리워지는) FP(false positive)는 알려진 출력 값이 "네가티브"일 때 훈련된 모델로부터의 "포지티브" 결과이다. 또한 폴-아웃(fall-out)으로 불리워지는, 허위 양성률(false positive rate)은 FP의 총 수를 "네가티브" 출력 값의 총 수로 나눈 것이다. FDR(false discovery rate)은 FP의 총 수를 "포지티브" 결과의 총 수로 나눈 것이다. FN(false negative)(타입 II 에러)은 알려진 출력 값이 "포지티브"일 때 훈련된 모델로부터의 "네가티브" 결과이다. 허위 음성률(false negative rate)은 FN의 총 수를 "포지티브" 출력 값의 총 수로 나눈 것이다. FOR(false omission rate)은 FN의 총 수를 "네가티브" 결과의 총 수로 나눈 것이다.

2가지 클래스 분류 기법에 대해, 정확도(accuracy)는 TP 및 TN의 총 수를 전체 인구(total population)로 나눈 것이다. 회귀 문제(regression problems)에 대해, 정확도는 평균 제곱 오차(mean square error)와 같은 에러 측정(error measure)일 수 있다.

머신 러닝 시스템(10)의 종합 모듈(40)은 성능 비교 통계(performance comparison statistics)를 형성하도록 모든 머신 러닝 모델을 위한 성능 결과를 종합 및/또는 축적하도록 구성된다. 성능 비교 통계는 모든 머신 러닝 모델(32)의 비교를 용이하게 하기 위해 선택, 구성 및/또는 배열될 수 있다. 종합 모듈(40)은 머신 러닝 모델의 각각에 대한 성능 결과를 축적 및/또는 종합하도록 구성될 수 있다. 성능 비교 통계는 머신 러닝 모델(32)에 대응하는 각 성능 결과의 하나 이상의 인디케이터, 값 및/또는 결과를 포함할 수 있다. 성능 비교 통계는 각 머신 러닝 모델(32)을 위한 동일한 형태의 적어도 하나의 인디케이터, 값 및/또는 결과를 포함할 수 있다(예컨대, 성능 비교 통계는 각 머신 러닝 모델(32)에 대한 정확도를 포함한다). 성능 비교 통계는 각 머신 러닝 모델(32)을 위한 여러 형태의 인디케이터, 값 및/또는 결과를 포함할 수 있다(예컨대, 성능 비교 통계는 하나의 머신 러닝 모델(32)을 위한 신뢰 구간과 다른 머신 러닝 모델(32)을 위한 허위 양성률을 포함한다).

머신 러닝 시스템(10)은 머신 러닝 시스템(10)의 오퍼레이터 및/또는 사용자에게 성능 비교 통계를 제공하도록 구성된 선택적 프리젠테이션 모듈(presentation module; 44)을 포함할 수 있다. 프리젠테이션 모듈(44)은 머신 러닝 모델(32)의 비교를 용이하게 하기 위해 통일된 포맷(unified format)으로 모든 머신 러닝 모델에 대한 성능 결과를 제공하도록 구성될 수 있다. 프리젠테이션 모듈(44)은 시각(visual), 음성(audio), 및/또는 촉각(tactile) 디스플레이에 의해 성능 비교 통계를 디스플레이하도록 구성될 수 있다. 디스플레이는 영숫자 디스플레이(alphanumeric display), 비디오 모니터, 램프, LED, 스피커, 부저, 스프링(spring), 및/또는 중량물(weight)을 포함할 수 있다. 부가적으로 또는 대안적으로, 프리젠테이션 모듈(44)은 영구 저장기(18)에 성능 비교 통계를 포함하는 파일을 저장하고 및/또는 저장 유닛(14) 및/또는 사용자에게 성능 비교 통계를 포함하는 데이터 블록(data block)을 전송할 수 있다.

도 3은 시계열 데이터와 같은 데이터로 머신 러닝 알고리즘을 테스트하기 위한 방법(100)을 도식적으로 예시한다. 방법(100)은 (시간-의존 데이터셋과 같은) 데이터셋을 수신하는 것(receiving; 102), (머신 러닝 모델(32)과 같은) 머신 러닝 모델을 수신하는 것(104), 각 머신 러닝 모델을 위한 성능 결과를 생성하도록 각 머신 러닝 모델을 훈련시키는 것 및 평가하는 것(training and evaluating; 106), 성능 비교 통계를 형성하도록 모든 머신 러닝 모델을 위한 성능 결과를 종합하는 것(aggregating; 108), 및 (예컨대, 사용자에게) 성능 비교 통계를 제공하는 것(presenting; 110)을 포함한다.

방법(100)은 머신 러닝 시스템(10)을 동작시키는 것 및/또는 이용하는 것을 포함할 수 있다. 데이터셋을 수신하는 것(102)은 데이터 입력 모듈(20)을 동작시키는 것 및/또는 이용하는 것을 포함할 수 있다. 머신 러닝 모델을 수신하는 것(104)은 데이터 입력 모듈(20) 및/또는 머신 러닝 알고리즘 라이브러리(22)를 동작시키는 것 및/또는 이용하는 것을 포함할 수 있다. 훈련시키는 것 및 평가하는 것(106)은 실험 모듈(30)을 동작시키는 것 및/또는 이용하는 것을 포함할 수 있다. 종합하는 것(108)은 종합 모듈(40)을 동작시키는 것 및/또는 이용하는 것을 포함할 수 있다. 제공하는 것(110)은 프리젠테이션 모듈(44)을 동작시키는 것 및/또는 이용하는 것을 포함할 수 있다.

방법(100)은 데이터셋을 전처리하는 것(preprocessing; 112)(또한 글로벌 전처리로 불리워짐)을 포함할 수 있고, 이는 데이터 전처리기(24) 및/또는 전처리 알고리즘 라이브러리(26)를 동작시키는 것 및/또는 이용하는 것을 포함할 수 있다. 전처리하는 것(112)은 이산화(discretization), 독립 구성요소 분석(independent component analysis), 주 구성요소 분석(principal component analysis), 누락 데이터의 제거(elimination of missing data), 특징 선택(feature selection), 및/또는 특징 추출(feature extraction)을 포함할 수 있다.

훈련시키는 것 및 평가하는 것(106)은, 각 머신 러닝 모델을 위한 성능 결과를 생성하도록, 수신하는 것(102)에 의해 수신되고 및/또는 전처리하는 것(112)에 의해 수정되는 바와 같이, 동일한 입력 데이터셋, 예컨대 입력 특징 데이터셋을 이용하는 것을 포함한다. 훈련시키는 것 및 평가하는 것(106)은 입력 특징 데이터셋의 서브셋 및/또는 파생물을 이용하는 것을 포함할 수 있고 각 머신 러닝 모델은 입력 특징 데이터셋의 동일하거나 다른 서브셋 및/또는 파생물로 훈련 및 평가될 수 있다. 훈련시키는 것 및 평가하는 것(106)은 일반적으로 각 머신 러닝 알고리즘을 위한 입력 특징 데이터셋의 적어도 서브셋 및/또는 파생물로 지도 러닝을 수행하는 것을 포함한다. 각 머신 러닝 모델을 위한 동일한 정보로 훈련시키는 것 및 평가하는 것(106)은 머신 러닝 모델의 선택의 비교를 용이하게 할 수 있다.

훈련시키는 것 및 평가하는 것(106)은 머신 러닝 모델의 선택 중 각 머신 러닝 모델을 테스트하도록 실험(시도)을 설계하는 것(designing) 및 실행(수행)하는 것(carrying out (performing))을 포함할 수 있다. 훈련시키는 것 및 평가하는 것(106)은, 실험 모듈(30)에 관하여 논의된 바와 같이(도 2), 테스트하기 위한 머신 러닝 모델의 순서 및/또는 테스트하기 위한 어느 머신 러닝 모델을 결정하는 것을 포함할 수 있다.

훈련시키는 것 및 평가하는 것(106)은 독립적으로 및/또는 병렬로 (예컨대, 적어도 부분적으로 동시에) 수행되어지는 실험을 설계하는 것을 포함할 수 있다. 훈련시키는 것 및 평가하는 것(106)은 병렬로 (예컨대, 적어도 부분적으로 동시에) 하나 이상의 실험을 수행하는 것(머신 러닝 모델을 훈련시키는 것 및/또는 평가하는 것)을 포함할 수 있다.

도 4에 상세하게 나타낸 바와 같이, 훈련시키는 것 및 평가하는 것(106)은 데이터셋을 각 머신 러닝 모델을 위한 훈련 데이터셋 및 대응하는 평가 데이터셋으로 분할하는 것(120), 훈련 데이터셋으로 머신 러닝 모델을 훈련시키는 것(122), 및 평가 데이터셋으로 훈련된 모델을 평가하는 것(124)을 포함할 수 있다. 더욱이, 훈련시키는 것 및 평가하는 것(106)은, 각 머신 러닝 모델에 대해, (데이터셋을 분할하는 것(120) 전에) 데이터셋을 전처리하는 것(130) 및/또는 훈련 데이터셋을 전처리하는 것(132), 평가 데이터셋을 전처리하는 것(134)을 포함할 수 있다. 전처리하는 것(130), 전처리하는 것(132), 및 전처리하는 것(134)의 각각은 각각의 데이터셋으로 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및/또는 특징 추출을 독립적으로 포함할 수 있다. 평가 데이터셋을 전처리하는 것(134)은 훈련 데이터셋을 전처리하는 것(132)과 관계없을 수 있거나 의존(예컨대, 동일한 전처리 기법을 공유함)될 수 있다. 예컨대, 전처리하는 것(134)은 훈련 데이터셋을 전처리하는 것(132)으로부터 초래되는 것과 같이 평가 데이터셋에 동일한 그룹 카테고리(same group categories)를 적용할 수 있다.

분할하는 것(dividing; 120)은 적어도 하나의(선택적으로 각) 머신 러닝 모델에 대해 독립적으로 수행될 수 있다. 부가적으로 또는 대안적으로, 분할하는 것(120)은 하나 이상의 (선택적으로 모든) 머신 러닝 모델을 위한 동일한 훈련 데이터셋 및 동일한 대응하는 평가 데이터셋을 생성하도록 수행될 수 있다. 실험 모듈(30)에 관하여 논의된 바와 같이, 훈련 데이터셋 및 평가 데이터셋은 독립적일 수 있고, (예컨대, 훈련 프로세스에서의 편향을 회피하기 위해) 동일한 입력 데이터에 관련된 공유하는 입력 데이터 및/또는 값은 없다. 훈련 데이터셋 및 평가 데이터셋은 입력 특징 데이터셋의 상보 서브셋(complementary subsets)일 수 있고 동일하게 그리고 독립적으로 분포될 수 있으며, 예컨대 훈련 데이터셋 및 평가 데이터셋은 데이터의 중첩을 갖지 않고 실질적으로 동일한 통계 분포를 나타낸다.

훈련시키는 것(122)은 각 머신 러닝 모델을 위한 훈련된 모델을 생성하도록 훈련 데이터셋으로 (머신 러닝 모델(32)과 같은) 각 머신 러닝 모델을 훈련시키는 것을 포함한다. 머신 러닝 모델이 (매크로-프로시저(36)와 같은) 매크로-프로시저인 곳에서, 훈련시키는 것(122)은 또한 매크로-프로시저를 훈련시키는 것(140)과 매크로-프로시저의 (마이크로-프로시저(38)와 같은) 마이크로-프로시저를 훈련시키는 것(142)을 포함한다. 매크로-프로시저를 훈련시키는 것(140)은 훈련된 마이크로-프로시저의 앙상블을 생성하도록 매크로-프로시저의 각 마이크로-프로시저를 훈련시키는 것과, 매크로-프로시저 자체가 머신 러닝 알고리즘을 포함하면, 훈련된 마이크로-프로시저의 앙상블로 매크로-프로시저를 훈련시키는 것을 포함한다. 매크로-프로시저인 머신 러닝 모델이 없다면, 훈련시키는 것(122)은 훈련시키는 것(140) 또는 훈련시키는 것(142)을 포함하지 않는다.

평가하는 것(124)은, 예컨대 실험 모듈(30)에 관하여 논의된 바와 같이, 대응하는 평가 데이터셋으로 각 훈련된 모델을 평가하는 것을 포함한다. 훈련된 모델은 평가 데이터셋의 입력 값의 각각에 대한 결과(예측)를 생성하도록 평가 데이터셋에 적용되고, 결과는 평가 데이터셋의 알려진 출력 값에 비교된다. 비교는 평가 결과 및/또는 성능 결과로 언급될 수 있다.

훈련시키는 것 및 평가하는 것(106)은, 실험 모듈(30)에 관하여 논의된 바와 같이, 검증 및/또는 교차 검증(여러 차례의 검증), 예컨대 LOOCV(leave-one-out cross validation) 및/또는 k-겹 교차 검증을 포함할 수 있다. 훈련시키는 것 및 평가하는 것(106)은 여러 차례의 훈련시키는 것(122) 및 평가하는 것(124)(예컨대, 여러 번의 검증)을 수행하도록 데이터셋을 분할하는 것(120)과 각 머신 러닝 모델을 위한 성능 결과를 생성하도록 여러 차례의 훈련시키는 것(122) 및 평가하는 것(124)의 (평가) 결과를 결합하는 것(126)을 반복적으로 포함할 수 있다. 성능 결과를 생성하도록 평가 결과를 결합하는 것(126)은 평가 결과를 평균하는 것, 평가 결과를 축적하는 것, 및/또는 평가 결과의 다른 통계적 조합에 의할 수 있다.

개별적 차례의 검증의 평가 결과 및 각 머신 러닝 모델을 위한 성능 결과는 실험 모듈(30)에 관하여 설명된 바와 같다.

도 3으로 되돌아가면, 종합하는 것(108)은 성능 비교 통계를 형성하기 위해 머신 러닝 모델의 각각에 대한 성능 결과를 축적하는 것을 포함할 수 있다. 성능 비교 통계는 모든 머신 러닝 모델의 비교를 용이하게 하기 위해 선택, 구성 및/또는 배열될 수 있다. 종합하는 것은 머신 러닝 모델의 각각에 대한 성능 결과를 축적하는 것 및/또는 종합하는 것을 포함할 수 있다. 성능 비교 통계는 종합 모듈(40)에 관하여 설명된 것과 같다.

제공하는 것(110)은, 예컨대 오퍼레이터 및/또는 사용자에게 성능 비교 통계를 제공하는 것을 포함한다. 제공하는 것(110)은 머신 러닝 모델의 비교를 용이하게 하기 위해 통일된 포맷으로 모든 머신 러닝 모델에 대한 성능 결과를 제공하는 것을 포함할 수 있다. 제공하는 것(110)은 시각, 음성, 및/또는 촉각 디스플레이에 의해 성능 비교 통계를 디스플레이하는 것을 포함할 수 있다. 부가적으로 또는 대안적으로, 제공하는 것(110)은 (예컨대, 영구 저장기(18)에) 성능 비교 통계를 포함하는 파일을 저장하는 것 및/또는 (예컨대, 저장 유닛(14) 및/또는 사용자에게) 성능 비교 통계를 포함하는 데이터 블록을 전송하는 것을 포함할 수 있다.

방법(100)은 머신 러닝 모델(32) 중 하나 이상에 대응하는 배치가능 머신 러닝 모델(deployable machine learning model)을 구축하는 것(building; 114)을 포함할 수 있다. 배치가능 머신 러닝 모델을 구축하는 것(114)은 (선택적으로 전처리됨에 따라) 전체 입력 특징 데이터셋으로 대응하는 머신 러닝 모델을 훈련시키는 것을 포함한다. 따라서, 배치가능 머신 러닝 모델은 오히려 단지 서브셋(훈련 데이터셋) 보다는 모든 이용가능 데이터로 훈련된다. 구축하는 것(114)은 머신 러닝 모델을 성능 비교 통계와 비교하는 것 및 배치에 대해 머신 러닝 모델 중 하나 이상을 선택하는 것 후에 수행될 수 있다.

본 발명에 따른 발명 주제의 예가 이하 열거된 항목에 개시된다.

A1. 입력 데이터로 머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법으로, 방법이:

입력 데이터셋을 수신하는 단계와;

머신 러닝 모델의 선택을 수신하는 단계로서, 각 머신 러닝 모델은 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하는, 단계;

각 머신 러닝 모델을 위한 성능 결과를 생성하도록 각 머신 러닝 모델을 훈련시키고 평가하는 단계;

성능 비교 통계를 형성하도록 모든 머신 러닝 모델을 위한 성능 결과를 종합하는 단계; 및

성능 비교 통계를 제공하는 단계;를 갖추어 이루어지는 것을 특징으로 한다.

A2. 항목 A1의 방법으로, 입력 데이터셋이 시간-의존 데이터셋, 시-계열 데이터셋, 시간-스탬프 데이터셋, 시퀀셜 데이터셋(sequential dataset) 및 임시 데이터셋 중 적어도 하나인 것을 특징으로 한다.

A3. 항목 A1-A2 중 어느 방법으로, 입력 데이터셋이 시간의 연속적인 기간에서 측정된 가측치의 일련의 값을 포함하는 것을 특징으로 한다.

A4. 항목 A1-A3 중 어느 방법으로, 입력 데이터셋이 레이블된 데이터셋인 것을 특징으로 한다.

A5. 항목 A1-A4 중 어느 방법으로, 훈련시키고 평가하는 단계 전에, 입력 데이터셋을 글로벌 전처리하는 단계를 더 갖추어 이루어지고, 선택적으로 글로벌 전처리하는 단계가 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및 특징 추출 중 적어도 하나를 포함하는 것을 특징으로 한다.

A5.1. 항목 A5의 방법으로, 글로벌 전처리가 시간 윈도우 동안 특징 데이터의 통계를 적어도 결정하는 것에 의해 특징을 추출하는 단계를 포함하는 것을 특징으로 한다.

A5.1.1. 항목 A5.1의 방법으로, 통계는 최소, 최대, 평균, 변동, 편차, 누적 값, 변화율 및 변화의 평균율 중 적어도 하나를 포함하고, 선택적으로 그 중 적어도 하나인 것을 특징으로 한다.

A5.1.2. 항목 A5.1-A5.1.1 중 어느 방법으로, 통계가 데이터 포인트의 총 수, 시퀀셜 데이터 포인트의 최대 수, 시퀀셜 데이터 포인트의 최소 수, 시퀀셜 데이터 포인트의 평균 수, 종합 시간, 최대 시간, 최소 시간, 및 입력 특징 데이터가 임계 값 이상, 이하, 또는 대략 동등한 평균 시간 중 적어도 하나를 포함하고, 선택적으로 그 중 적어도 하나인 것을 특징으로 한다.

A6. 항목 A1-A5.1.2 중 어느 방법으로, 적어도 하나의, 선택적으로 각각의, 머신 러닝 모델은 나이브 베이즈 분류기, 트리-증강 나이브 베이즈 분류기, 동적 베이지안 네트워크, 서포트 벡터 머신, 학습된 의사결정 트리, 학습된 의사결정 트리의 앙상블 및 인공 신경망 중 적어도 하나를 포함하는 것을 특징으로 한다.

A7. 항목 A1-A6 중 어느 방법으로, 적어도 하나의, 선택적으로 각각의, 머신 러닝 모델은 마이크로-프로시저의 앙상블의 결론을 결합하는 매크로-프로시저이고, 각 마이크로-프로시저는 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하는 것을 특징으로 한다.

A7.1. 항목 A7의 방법으로, 적어도 하나의, 선택적으로 각각의, 마이크로-프로시저는 나이브 베이즈 분류기, 트리-증강 나이브 베이즈 분류기, 동적 베이지안 네트워크, 서포트 벡터 머신, 학습된 의사결정 트리, 학습된 의사결정 트리의 앙상블 및 인공 신경망 중 적어도 하나를 포함하는 것을 특징으로 한다.

A7.2. 항목 A7-A7.1 중 어느 방법으로, 매크로-프로시저가 누적 값, 최대 값, 최소값, 중간 값, 평균 값, 모드 값, 가장 일반적인 값 및 다수결 중 적어도 하나에 의해 마이크로-프로시저의 앙상블의 결론을 결합하도록 구성되는 것을 특징으로 한다.

A8. 항목 A1-A7.2 중 어느 방법으로, 머신 러닝 알고리즘은 머신 러닝 알고리즘의 확장가능 라이브러리로부터 선택되는 것을 특징으로 한다.

A9. 항목 A1-A8 중 어느 방법으로, 훈련시키고 평가하는 단계는, 선택적으로 독립적으로 각 머신 러닝 모델에 대해, 입력 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하는 단계를 포함하고, 선택적으로 훈련 데이터셋 및 평가 데이터셋은 입력 데이터셋의 상보 서브셋인 것을 특징으로 한다.

A9.1. 항목 A9의 방법으로, 훈련시키고 평가하는 단계는 분할하는 단계 이전에 입력 데이터을 전처리하는 단계를 포함하고, 선택적으로 입력 데이터셋을 전처리하는 단계는 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및 특징 추출 중 적어도 하나를 포함하는 것을 특징으로 한다.

A9.2. 항목 A9-A9.1 중 어느 방법으로, 훈련시키고 평가하는 단계는 훈련 데이터셋을 전처리하는 단계를 포함하고, 선택적으로 훈련 데이터셋을 전처리하는 단계는 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및 특징 추출 중 적어도 하나를 포함하는 것을 특징으로 한다.

A9.2.1. 항목 A9.2의 방법으로, 훈련 데이터셋을 전처리하는 단계는 전처리 기법을 발생시키는 단계를 포함하고, 훈련시키고 평가하는 단계는 전처리 기법으로 평가 데이터셋을 전처리하는 단계를 포함하는 것을 특징으로 한다.

A9.3. 항목 A9-A9.2.1 중 어느 방법으로, 훈련시키고 평가하는 단계는 평가 데이터셋을 전처리하는 단계를 포함하고, 선택적으로 평가 데이터셋을 전처리하는 단계는 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및 특징 추출 중 적어도 하나를 포함하는 것을 특징으로 한다.

A10. 항목 A1-A9.3 중 어느 방법으로, 훈련시키고 평가하는 단계는 각 머신 러닝 모델을 위한 훈련된 모델을 생성하도록 입력 데이터의 서브셋인 훈련 데이터셋으로 각 머신 러닝 모델을 훈련시키는 단계를 포함하는 것을 특징으로 한다.

A10.1. 항목 A10의 방법으로, 훈련시키고 평가하는 단계는 각 머신 러닝 모델을 위한 성능 결과를 생성하도록 입력 데이터셋의 서브셋인 평가 데이터셋으로 각 훈련된 모델을 평가하는 단계를 포함하고, 평가 데이터셋 및 훈련 데이터셋이 입력 데이터셋의 상보 서브셋인 것을 특징으로 한다.

A11. 항목 A1-A10.1 중 어느 방법으로, 훈련시키고 평가하는 단계는, 선택적으로 k겹 교차 검증을 이용해서, 각 머신 러닝 모델을 교차 검증하는 단계를 포함하는 것을 특징으로 한다.

A12. 항목 A1-A11 중 어느 방법으로, 훈련시키고 평가하는 단계는 각 머신 러닝 모델에 대해, 선택적으로 독립적으로 각 머신 러닝 모델에 대해, 입력 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하는 단계와, 훈련된 모델을 생성하도록 훈련 데이터셋으로 머신 러닝 모델을 훈련시키는 단계, 평가 결과를 생성하도록 평가 데이터셋으로 머신 러닝 모델을 평가하는 단계, 및 입력 데이터셋을 여러 훈련 데이터셋 및 여러 평가 데이터셋으로 분할하는 것에 의해 분할하고, 훈련시키고, 평가하는 단계를 반복하는 단계를 포함하는 것을 특징으로 한다.

A12.1. 항목 A12의 방법으로, 훈련시키고 평가하는 단계는 성능 결과를 생성하도록 평가 결과를 결합하는 단계를 포함하고, 선택적으로 결합하는 단계는 평가 결과를 평균하는 단계 및 평가 결과를 축적하는 단계 중 적어도 하나를 포함하는 것을 특징으로 한다.

A13. 항목 A1-A12.1 중 어느 방법으로, 훈련시키고 평가하는 단계는 지도 러닝을 이용하는 단계를 포함하는 것을 특징으로 한다.

A14. 항목 A1-A13 중 어느 방법으로, 또한, (매크로-프로시저와 관련되는) 항목 A7에 따라, 각 매크로-프로시저에 대해, 훈련시키고 평가하는 단계는, 훈련된 마이크로-프로시저의 앙상블을 생성하도록 각 마이크로-프로시저를 독립적으로 훈련시키는 것에 의해 훈련된 매크로-프로시저를 발생시키는 단계를 포함하고, 훈련된 매크로-프로시저를 평가하는 단계를 포함하며, 선택적으로 훈련된 매크로-프로시저를 발생시키는 단계는 훈련된 마이크로-프로시저의 앙상블로 매크로-프로시저를 훈련시키는 단계를 포함하는 것을 특징으로 한다.

A15. 항목 A1-A14 중 어느 방법으로, 적어도 하나의, 선택적으로 각각의, 머신 러닝 모델에 대한 성능 결과는 상관 계수, 평균 제곱 오차, 신뢰 구간, 다수의 TP(true positives), 다수의 TN(true negatives), 다수의 FP(false positives), 다수의 FN(false negatives), 정확도, 민감도, 양성 예측치, 특이성, 음성 예측치, 허위 양성률, FDR(false discovery rate), 허위 음성률, 및 FOR(false omission rate) 중 적어도 하나와 관련된 인디케이터, 값 및/또는 결과를 포함하는 것을 특징으로 한다.

A16. 항목 A1-A15 중 어느 방법으로, 종합하는 단계는 머신 러닝 모델의 각각에 대한 성능 결과를 축적하는 단계를 포함하는 것을 특징으로 한다.

A17. 항목 A1-A16 중 어느 방법으로, 성능 비교 통계는, 각 머신 러닝 모델에 대해, 상관 계수, 평균 제곱 오차, 신뢰 구간, 정확도, 다수의 TP(true positives), 다수의 TN(true negatives), 다수의 FP(false positives), 다수의 FN(false negatives), 민감도, 양성 예측치, 특이성, 음성 예측치, 허위 양성률, FDR(false discovery rate), 허위 음성률, 및 FOR(false omission rate) 중 적어도 하나와 관련된 인디케이터를 포함하는 것을 특징으로 한다.

A18. 항목 A1-A17 중 어느 방법으로, 제공하는 단계는 머신 러닝 모델의 비교를 용이하게 하기 위해 통일된 포맷으로 모든 머신 러닝 모델을 위한 성능 결과를 제공하는 단계를 포함하는 것을 특징으로 한다.

A19. 항목 A1-A18 중 어느 방법으로, 제공하는 단계는 시각, 음성, 및 촉각 디스플레이 중 적어도 하나에 의해 성능 비교 통계를 디스플레이하는 단계를 포함하는 것을 특징으로 한다.

A20. 컴퓨터-판독가능 저장 유닛과;

컴퓨터-판독가능 저장 유닛에 동작적으로 결합된 처리 유닛;을 구비하여 구성되고;

컴퓨터-판독가능 저장 유닛은, 처리 유닛에 의해 실행될 때, 머신 러닝 시스템이 항목 A1-A19 중 어느 방법을 수행하도록 하는 명령을 포함하는 것을 특징으로 하는 머신 러닝 시스템.

B1. 특정 데이터 분석 문제에 대해 후보 머신 러닝 알고리즘을 비교하기 위한 머신 러닝 시스템으로, 머신 러닝 시스템이:

공통 인터페이스로 테스트되어지도록 구성된 다수의 머신 러닝 알고리즘을 포함하는 머신 러닝 알고리즘 라이브러리와;

머신 러닝 모델의 선택 및 입력 데이터셋을 수신하도록 구성된, 각 머신 러닝 모델이 머신 러닝 알고리즘 라이브러리로부터의 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하는, 데이터 입력 모듈;

각 머신 러닝 모델에 대한 성능 결과를 생성하도록 각 머신 러닝 모델을 훈련 및 평가하도록 구성된 실험 모듈; 및

성능 비교 통계를 형성하기 위해 모든 머신 러닝 모델에 대한 성능 결과를 종합하도록 구성된 종합 모듈;을 구비하여 구성되는 것을 특징으로 하는 머신 러닝 시스템.

B2. 항목 B1의 머신 러닝 시스템으로, 다수의 머신 러닝 알고리즘이 나이브 베이즈 분류기, 트리-증강 나이브 베이즈 분류기, 동적 베이지안 네트워크, 서포트 벡터 머신, 학습된 의사결정 트리, 학습된 의사결정 트리의 앙상블 및 인공 신경망으로 구성된 그룹으로부터 선택된 적어도 하나의 알고리즘을 포함하는 것을 특징으로 한다.

B3. 항목 B1-B2 중 어느 머신 러닝 시스템으로, 공통 인터페이스는 공통 입력, 공통 출력, 데이터를 입력하기 위한 공통 방법, 데이터를 출력하기 위한 공통 방법, 및 머신 러닝 알고리즘 라이브러리의 각 머신 러닝 알고리즘을 위한 공통 절차 호출 중 적어도 하나를 정의하는 것을 특징으로 한다.

B4. 항목 B1-B3 중 어느 머신 러닝 시스템으로, 머신 러닝 알고리즘 라이브러리의 머신 러닝 알고리즘의 각각은 공통 포맷으로 데이터셋에 대해 동작하도록 구성되는 것을 특징으로 한다.

B5. 항목 B1-B4 중 어느 머신 러닝 시스템으로, 머신 러닝 알고리즘 라이브러리는 머신 러닝 알고리즘의 확장가능 라이브러리인 것을 특징으로 한다.

B6. 항목 B1-B5 중 어느 머신 러닝 시스템으로, 입력 데이터셋은 시간-의존 데이터셋, 시-계열 데이터셋, 시간-스탬프 데이터셋, 시퀀셜 데이터셋 및 임시 데이터셋 중 적어도 하나인 것을 특징으로 한다.

B7. 항목 B1-B6 중 어느 머신 러닝 시스템으로, 입력 데이터셋이 시간의 연속적인 기간에서 측정된 가측치의 일련의 값을 포함하는 것을 특징으로 한다.

B8. 항목 B1-B7 중 어느 머신 러닝 시스템으로, 입력 데이터셋이 레이블된 데이터셋인 것을 특징으로 한다.

B9. 항목 B1-B8 중 어느 머신 러닝 시스템으로, 실험 모듈에 의해 처리하기 위한 입력 데이터셋을 준비하도록 구성된 데이터 전처리기를 더 구비하여 구성되고, 데이터 전처리기는 입력 데이터셋을 이산화하고, 입력 데이터셋에 대해 독립 구성요소 분석을 적용하고, 입력 데이터셋에 대해 주 구성요소 분석을 적용하고, 입력 데이터셋으로부터 분실 데이터를 제거하고, 입력 데이터셋으로부터 특징을 선택하고, 입력 데이터셋으로부터 특징을 추출하는 것 중 적어도 하나를 하도록 구성되는 것을 특징으로 한다.

B9.1. 항목 B9의 머신 러닝 시스템으로, 데이터 전처리기가 시간 윈도우 동안 특징 데이터의 통계를 적어도 결정하는 것에 의해 특징을 추출하도록 구성되는 것을 특징으로 한다.

B9.1.1. 항목 B9.1의 머신 러닝 시스템으로, 통계는 최소, 최대, 평균, 변동, 편차, 누적 값, 변화율 및 변화의 평균율 중 적어도 하나를 포함하고, 선택적으로 그 중 적어도 하나인 것을 특징으로 한다.

B9.1.2. 항목 B9.1-B9.1.1 중 어느 머신 러닝 시스템으로, 통계가 데이터 포인트의 총 수, 시퀀셜 데이터 포인트의 최대 수, 시퀀셜 데이터 포인트의 최소 수, 시퀀셜 데이터 포인트의 평균 수, 종합 시간, 최대 시간, 최소 시간, 및 입력 특징 데이터가 임계 값에 대해 이상, 이하, 또는 대략 동등한 평균 시간 중 적어도 하나를 포함하고, 선택적으로 그 중 적어도 하나인 것을 특징으로 한다.

B10. 항목 B1-B9.1.2 중 어느 머신 러닝 시스템으로, 다수의 전처리 알고리즘을 포함하는 전처리 알고리즘 라이브러리를 더 구비하여 구성되고, 선택적으로 전처리 알고리즘이 공통 전처리 인터페이스에 따르는 것을 특징으로 한다.

B10.1. 항목 B1-B10 중 어느 머신 러닝 시스템으로, 공통 전처리 인터페이스는 공통 입력, 공통 출력, 데이터를 입력하기 위한 공통 방법, 데이터를 출력하기 위한 공통 방법, 및 머신 러닝 알고리즘 라이브러리의 각 머신 러닝 알고리즘을 위한 공통 절차 호출 중 적어도 하나를 정의하는 것을 특징으로 한다.

B10.2. 항목 B1-B10.1 중 어느 머신 러닝 시스템으로, 전처리 알고리즘 라이브러리의 전처리 알고리즘의 각각이 공통 포맷으로 데이터셋에 대해 동작하도록 구성되는 것을 특징으로 한다.

B10.3. 항목 B1-B10.2 중 어느 머신 러닝 시스템으로, 또한, (데이터 전처리기와 관련되는) 항목 B9에 따를 때, 데이터 전처리기는 전처리 알고리즘 라이브러리로부터 전처리 알고리즘을 선택하도록 구성되는 것을 특징으로 한다.

B11. 항목 B1-B10.3 중 어느 머신 러닝 시스템으로, 적어도 하나의, 선택적으로 각각의, 머신 러닝 모델은 나이브 베이즈 분류기, 트리-증강 나이브 베이즈 분류기, 동적 베이지안 네트워크, 서포트 벡터 머신, 학습된 의사결정 트리, 학습된 의사결정 트리의 앙상블 및 인공 신경망 중 적어도 하나를 포함하는 것을 특징으로 한다.

B12. 항목 B1-B11 중 어느 머신 러닝 시스템으로, 적어도 하나의, 선택적으로 각각의, 머신 러닝 모델은 마이크로-프로시저의 앙상블의 결론을 결합하는 매크로-프로시저이고, 각 마이크로-프로시저는 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하는 것을 특징으로 한다.

B12.1. 항목 B12의 머신 러닝 시스템으로, 적어도 하나의, 선택적으로 각각의, 마이크로-프로시저는 나이브 베이즈 분류기, 트리-증강 나이브 베이즈 분류기, 동적 베이지안 네트워크, 서포트 벡터 머신, 학습된 의사결정 트리, 학습된 의사결정 트리의 앙상블 및 인공 신경망 중 적어도 하나를 포함하는 것을 특징으로 한다.

B12.2. 항목 B12-B12.1 중 어느 머신 러닝 시스템으로, 매크로-프로시저가 누적 값, 최대 값, 최소값, 중간 값, 평균 값, 모드 값, 가장 일반적인 값 및 다수결 중 적어도 하나에 의해 마이크로-프로시저의 앙상블의 결론을 결합하도록 구성되는 것을 특징으로 한다.

B13. 항목 B1-B12.1 중 어느 머신 러닝 시스템으로, 실험 모듈은, 선택적으로 독립적으로 각 머신 러닝 모델에 대해, 입력 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하도록 구성되고, 선택적으로 훈련 데이터셋 및 평가 데이터셋은 입력 데이터셋의 상보 서브셋인 것을 특징으로 한다.

B13.1. 항목 B13의 머신 러닝 시스템으로, 실험 모듈은 입력 데이터셋을 분할하기 이전에 입력 데이터셋을 전처리하도록 구성되고, 선택적으로 입력 데이터셋을 전처리하는 것은 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및 특징 추출 중 적어도 하나를 포함하는 것을 특징으로 한다.

B13.2. 항목 B13-B13.1 중 어느 머신 러닝 시스템으로, 실험 모듈이 선택적으로 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및 특징 추출 중 적어도 하나에 의해 훈련 데이터셋을 전처리하도록 구성되는 것을 특징으로 한다.

B13.2.1. 항목 B13.2의 러닝 시스템으로, 실험 모듈이 전처리 기법을 초래하도록 훈련 데이터셋을 전처리하도록 구성되고, 실험 모듈이 전처리 기법으로 평가 데이터셋을 전처리하도록 구성되는 것을 특징으로 한다.

B13.3. 항목 B13-B13.2.1 중 어느 머신 러닝 시스템으로, 실험 모듈이 선택적으로 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및 특징 추출 중 적어도 하나에 의해 평가 데이터셋을 전처리하도록 구성되는 것을 특징으로 한다.

B14. 항목 B1-B13.3 중 어느 머신 러닝 시스템으로, 실험 모듈은 각 머신 러닝 모델을 위한 훈련된 모델을 생성하도록 입력 데이터셋의 서브셋인 훈련 데이터셋으로 각 머신 러닝 모델을 훈련시키도록 구성되는 것을 특징으로 한다.

B14.1. 항목 B14의 러닝 시스템으로, 실험 모듈은 각 머신 러닝 모델을 위한 성능 결과를 생성하도록 입력 데이터셋의 서브셋인 평가 데이터셋으로 각 훈련된 모델을 평가하도록 구성되고, 선택적으로 평가 데이터셋 및 훈련 데이터셋이 입력 데이터셋의 상보 서브셋인 것을 특징으로 한다.

B15. 항목 B1-B14.1 중 어느 머신 러닝 시스템으로, 실험 모듈은, 선택적으로 k겹 교차 검증을 이용해서, 각 머신 러닝 모델을 교차 검증하도록 구성되는 것을 특징으로 한다.

B16. 항목 B1-B15 중 어느 머신 러닝 시스템으로, 실험 모듈은, 각 머신 러닝 모델에 대해, 선택적으로 독립적으로 각 머신 러닝 모델에 대해, 성능 결과를 생성하기 위해 입력 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하고, 훈련된 모델을 생성하도록 훈련 데이터셋으로 머신 러닝 모델을 훈련시키고, 평가 데이터셋으로 머신 러닝 모델을 평가하도록 구성되는 것을 특징으로 한다.

B17. 항목 B1-B15 중 어느 머신 러닝 시스템으로, 실험 모듈은, 각 머신 러닝 모델에 대해, 선택적으로 독립적으로 각 머신 러닝 모델에 대해, 입력 데이터셋의 여러 분할을 위해, 입력 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하고, 훈련된 모델을 생성하도록 훈련 데이터셋으로 머신 러닝 모델을 훈련시키며, 평가 결과를 생성하도록 평가 데이터셋으로 머신 러닝 모델을 평가하는 것을 반복하고, 선택적으로 평가 결과를 평균하는 것과 평가 결과를 축적하는 것 중 적어도 하나에 의해, 성능 결과를 발생시키도록 입력 데이터셋의 여러 분할로부터 생성된 평가 결과를 결합하도록 구성되는 것을 특징으로 한다.

B18. 항목 B1-B17 중 어느 머신 러닝 시스템으로, 실험 모듈이 지도 러닝을 수행하도록 구성되는 것을 특징으로 한다.

B19. 항목 B1-B18 중 어느 머신 러닝 시스템으로, 또한 (매크로-프로시저와 관련되는) 항목 B12에 따라, 각 매크로-프로시저에 대해, 실험 모듈은 훈련된 마이크로-프로시저의 앙상블을 생성하도록 각 마이크로-프로시저를 독립적으로 훈련시키는 것에 의해 훈련된 매크로-프로시저를 발생시키도록 구성되고, 훈련된 매크로-프로시저를 평가하도록 구성되며, 선택적으로 실험 모듈이 훈련된 마이크로-프로시저의 앙상블로 매크로-프로시저를 훈련시키는 것에 의해 훈련된 매크로-프로시저를 발생시키도록 구성되는 것을 특징으로 한다.

B20. 항목 B1-B19 중 어느 머신 러닝 시스템으로, 적어도 하나의, 선택적으로 각각의, 머신 러닝 모델에 대한 성능 결과는 상관 계수, 평균 제곱 오차, 신뢰 구간, 다수의 TP(true positives), 다수의 TN(true negatives), 다수의 FP(false positives), 다수의 FN(false negatives), 정확도, 민감도, 양성 예측치, 특이성, 음성 예측치, 허위 양성률, FDR(false discovery rate), 허위 음성률, 및 FOR(false omission rate) 중 적어도 하나와 관련된 인디케이터를 포함하는 것을 특징으로 한다.

B21. 항목 B1-B20 중 어느 머신 러닝 시스템으로, 종합 모듈은 머신 러닝 모델의 각각을 위한 성능 결과를 축적하도록 구성되는 것을 특징으로 한다.

B22. 항목 B1-B21 중 어느 머신 러닝 시스템으로, 성능 비교 통계는, 각 머신 러닝 모델에 대해, 상관 계수, 평균 제곱 오차, 신뢰 구간, 다수의 TP(true positives), 다수의 TN(true negatives), 다수의 FP(false positives), 다수의 FN(false negatives), 민감도, 양성 예측치, 특이성, 음성 예측치, 허위 양성률, FDR(false discovery rate), 허위 음성률, 및 FOR(false omission rate) 중 적어도 하나와 관련된 인디케이터를 포함하는 것을 특징으로 한다.

B23. 항목 B1-B22 중 어느 머신 러닝 시스템으로, 성능 비교 통계를 제공하도록 구성된 프리젠테이션 모듈을 더 구비하여 구성되는 것을 특징으로 한다.

B23.1. 항목 B23의 머신 러닝 시스템으로, 프리젠테이션 모듈은 머신 러닝 모델의 비교를 용이하게 하기 위해 통일된 포맷으로 모든 머신 러닝 모델을 위한 성능 결과를 제공하도록 구성되는 것을 특징으로 한다.

B23.2. 항목 B23-B23.1 중 어느 머신 러닝 시스템으로, 프리젠테이션 모듈이 시각, 음성 및 촉각 디스플레이 중 적어도 하나에 의해 성능 비교 통계를 디스플레이하도록 구성되는 것을 특징으로 한다.

B24. 항목 B1-B23.2 중 어느 머신 러닝 시스템으로,

컴퓨터-판독가능 저장 유닛과;

컴퓨터-판독가능 저장 유닛에 동작적으로 결합된 처리 유닛;을 더 구비하여 구성되고;

컴퓨터-판독가능 저장 유닛은 머신 러닝 알고리즘 라이브러리, 데이터 입력 모듈, 실험 모듈 및 종합 모듈을 포함하는 것을 특징으로 한다.

여기서 이용된 바와 같이, 사용자는 사람(예컨대, 오퍼레이터 등), 클라이언트 장치(client device), 및/또는 클라이언트 모듈(client module), 에이전트(agent), 프로그램(program), 프로세스(process), 및/또는 프로시저(procedure; 절차)일 수 있다. 따라서, 머신 러닝 시스템(10)은 사용자 인터페이스 엘리먼트(user interface elements), 스크립트 파싱 엘리먼트(script parsing elements)를 포함할 수 있고, 및/또는 서버 동작에 대해 전용될 수 있다.

여기서 이용된 바와 같이, 용어 "채택된(adapted)" 및 "구성된(configured)은 엘리먼트, 구성요소 또는 다른 주제가 주어진 기능을 수행하도록 설계 및/또는 의도됨을 의미한다. 따라서, 용어 "채택된" 및 "구성된"의 이용은 주어진 엘리먼트, 구성요소, 또는 다른 주제가 단순히 주어진 기능을 수행하는 것이 "가능"하지만, 엘리먼트, 구성요소, 및/또는 다른 주제가 기능을 수행하는 목적을 위해 특별히 선택되고, 생성되고, 구현되고, 이용되고, 프로그램되고, 및/또는 설계됨을 의미하도록 해석되지 않아야 한다. 특정 기능을 수행하도록 채택되는 것으로 열거된 엘리먼트, 구성요소, 및/또는 다른 열거된 주제는 부가적으로 또는 대안적으로 해당 기능을 수행하도록 구성되는 것으로 설명될 수 있고, 반대일 수 있음이 또한 본 발명의 범위 내에 있다. 마찬가지로, 특정 기능을 수행하도록 구성되는 것으로 열거된 주제는 해당 기능을 수행하도록 동작하는 것으로 부가적으로 또는 대안적으로 설명될 수 있다. 더욱이, 여기서 이용된 바와 같이, 문맥 상 명백히 달리 나타내지 않는 한에는, 단수 형태 "하나("a", "an", "the")"는 복수 형태를 포함하도록 의도될 수 있다.

시스템 및 장치의 다양한 개시된 엘리먼트, 및 여기에 개시된 방법의 단계는 본 발명에 따른 모든 시스템, 장치 및 방법을 요구하지는 않고, 본 발명은 여기에 개시된 다양한 엘리먼트 및 단계의 모든 신규하고 자명하지 않은 조합 및 하부 조합을 포함한다. 더욱이, 여기에 개시된, 다양한 엘리먼트 및 단계의 어느 것, 또는 다양한 엘리먼트 및/또는 단계의 어떠한 조합은 개시된 시스템, 장치 또는 방법의 전부로부터 별도로 그리고 멀어지는 독립적인 발명 주제를 정의할 수 있다. 따라서, 이러한 발명 주제는 여기서 명시적으로 개시된 특정 시스템, 장치 및 방법과 관련되도록 요구되지는 않고, 이러한 발명 주제는 여기서 명시적으로 개시된 시스템 및/또는 방법에서의 이용을 찾을 수 있다.

여기서 이용된 바와 같이, 문구 "예컨대", 문구 "예로서", 및/또는 단순히 "예"는, 본 발명에 따른 하나 이상의 구성요소, 특징, 상세내용, 구조, 실시예, 및/또는 방법을 참조하여 이용될 때, 개시된 구성요소, 특징, 상세내용, 구조, 실시예, 및/또는 방법이 본 발명에 따른 구성요소, 특징, 상세내용, 구조, 실시예, 및/또는 방법의 예시적인, 비-배타적인 예임을 전달하도록 의도된다. 따라서, 개시된 구성요소, 특징, 상세내용, 구조, 실시예, 및/또는 방법은 제한하고, 요구되고, 또는 배타적/표괄적으로 되도록 의도되지는 않고; 구조적으로 및/또는 기능적으로 유사하고 및/또는 균등 구성요소, 특징, 상세내용, 구조, 실시예 및/또는 방법을 포함하는 다른 구성요소, 특징, 상세내용, 구조, 실시예, 및/또는 방법은 또한 본 발명의 범위 내에 있다.

여기서 이용된 바와 같이, 문구 "중 적어도 하나" 및 "중 하나 이상"은, 하나 이상의 엔티티의 리스트를 참조하면, 엔티티의 리스트에서 엔티티 중 어느 하나 이상을 의미하고, 엔티티의 리스트 내에서 특별히 리스트된 각각 그리고 모든 엔티티 중 적어도 하나로 제한되지는 않는다. 예컨대, "A 및 B 중 적어도 하나"(또는, 동등하게, "A 또는 B 중 적어도 하나", 또는 동등하게 "A 및/또는 B 중 적어도 하나")는 A 단독, B 단독, 또는 A 및 B의 조합을 언급할 수 있다.

더욱이, 본 발명은 이하의 조항에 따른 실시예를 구비하여 구성된다.

조항 1. 특정 데이터 분석 문제에 대해 후보 머신 러닝 알고리즘을 비교하기 위한 머신 러닝 시스템으로, 머신 러닝 시스템이:

머신 러닝 모델의 선택 및 데이터셋을 수신하도록 구성된, 각 머신 러닝 모델이 머신 러닝 알고리즘 라이브러리로부터의 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하는, 데이터 입력 모듈;

조항 2. 조항 1의 머신 러닝 시스템으로, 공통 인터페이스가 공통 입력, 공통 출력, 데이터를 입력하기 위한 공통 방법, 데이터를 출력하기 위한 공통 방법, 및 머신 러닝 알고리즘 라이브러리의 각 머신 러닝 알고리즘을 위한 공통 절차 호출 중 적어도 하나를 정의하는 것을 특징으로 한다.

조항 3. 조항 1 또는 조항 2의 머신 러닝 시스템으로, 실험 모듈에 의한 처리를 위해 데이터셋을 준비하도록 구성된 데이터 전처리기를 더 구비하여 구성되고, 데이터 전처리기는 데이터셋을 이산화하고, 데이터셋에 대해 독립 구성요소 분석을 적용하고, 데이터셋에 대해 주 구성요소 분석을 적용하고, 데이터셋으로부터 분실 데이터를 제거하고, 데이터셋으로부터 특징을 선택하고, 데이터셋으로부터 특징을 추출하는 것 중 적어도 하나에 대해 구성되는 것을 특징으로 한다.

조항 4. 조항 3의 머신 러닝 시스템으로, 데이터 전처리기는 시간 윈도우 동안 특징 데이터의 통계를 적어도 결정하는 것에 의해 특징을 추출하도록 구성되고, 통계는 최소, 최대, 평균, 변동, 편차, 누적 값, 변화율 및 변화의 평균율 중 적어도 하나를 포함하는 것을 특징으로 한다.

조항 5. 조항 1, 2, 3 또는 4의 머신 러닝 시스템으로, 다수의 전처리 알고리즘을 포함하는 전처리 알고리즘 라이브러리를 더 구비하여 구성되고, 전처리 알고리즘이 공통 전처리 인터페이스에 따르는 것을 특징으로 한다.

조항 6. 조항 1, 2, 3, 4 또는 5의 머신 러닝 시스템으로, 적어도 하나의 머신 러닝 모델이 마이크로-프로시저의 앙상블의 결론을 결합하는 매크로-프로시저이고, 각 마이크로-프로시저는 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하고, 매크로-프로시저는 누적 값, 최대 값, 최소값, 중간 값, 평균 값, 모드 값, 가장 일반적인 값 및/또는 다수결 중 적어도 하나에 의해 마이크로-프로시저의 앙상블의 결론을 결합하도록 구성되는 것을 특징으로 한다.

조항 7. 조항 6의 머신 러닝 시스템으로, 각 매크로-프로시저에 대해, 실험 모듈이 훈련된 마이크로-프로시저의 앙상블을 생성하기 위해 각 마이크로-프로시저를 독립적으로 훈련시키는 것에 의해 훈련된 매크로-프로시저를 발생시키도록 구성되고, 실험 모듈이 훈련된 매크로-프로시저를 평가하도록 구성되는 것을 특징으로 한다.

조항 8. 조항 1, 2, 3, 4, 5, 6 또는 7의 머신 러닝 시스템으로, 실험 모듈이 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하도록 구성되고, 훈련 데이터셋 및 평가 데이터셋이 데이터셋의 상보 서브셋인 것을 특징으로 한다.

조항 9. 조항 8의 머신 러닝 시스템으로, 실험 모듈이 전처리 기법을 초래하도록 훈련 데이터셋을 전처리하도록 구성되고, 실험 모듈이 전처리 기법으로 평가 데이터셋을 전처리하도록 구성되는 것을 특징으로 한다.

조항 10. 조항 1, 2, 3, 4, 5, 6, 7, 8 또는 9의 머신 러닝 시스템으로, 실험 모듈이 각 머신 러닝 모델을 위한 훈련된 모델을 생성하도록 데이터셋의 서브셋인 훈련 데이터셋으로 각 머신 러닝 모델을 훈련시키도록 구성되고, 실험 모듈이 각 머신 러닝 모델을 위한 성능 결과를 생성하도록 데이터셋의 서브셋인 평가 데이터셋으로 각 훈련된 모델을 평가하도록 구성되는 것을 특징으로 한다.

조항 11. 조항 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10의 머신 러닝 시스템으로, 실험 모듈이 LOOCV(leave-one-out cross validation) 및 k겹 교차 검증(k-fold cross validation) 중 적어도 하나를 이용해서 각 머신 러닝 모델을 교차 검증하도록 구성되는 것을 특징으로 한다.

조항 12. 조항 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 또는 11의 머신 러닝 시스템으로, 성능 비교 통계를 제공하도록 구성된 프리젠테이션 모듈을 더 구비하여 구성되고, 프리젠테이션 모듈이 머신 러닝 모델의 비교를 용이하게 하기 위해 통일된 포맷으로 모든 머신 러닝 모델을 위한 성능 결과를 제공하도록 구성되는 것을 특징으로 한다.

조항 13. 머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법으로, 방법이:

데이터셋을 수신하는 단계와;

머신 러닝 모델의 선택을 수신하는 단계로서, 각 머신 러닝 모델이 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하는, 단계;

조항 14. 조항 13의 방법으로, 데이터셋이 시간의 연속적인 기간에서 측정된 가측치의 일련의 값을 포함하는 시계열 데이터셋인 것을 특징으로 한다.

조항 15. 조항 13 또는 14의 방법으로, 훈련시키고 평가하는 단계 전에, 데이터셋을 글로벌 전처리하는 단계를 더 갖추어 이루어지고, 글로벌 전처리하는 단계가 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및/또는 특징 추출 중 적어도 하나를 포함하는 것을 특징으로 한다.

조항 16. 조항 15의 방법으로, 글로벌 전처리하는 단계는 시간 윈도우 동안 특징 데이터의 통계를 적어도 결정하는 것에 의해 특징을 추출하는 단계를 포함하고, 통계는 최소, 최대, 평균, 변동, 편차, 누적 값, 변화율 및 변화의 평균율 중 적어도 하나를 포함하는 것을 특징으로 한다.

조항 17. 조항 13, 14, 15 또는 16의 방법으로, 적어도 하나의 머신 러닝 모델이 마이크로-프로시저의 앙상블의 결론을 결합하는 매크로-프로시저이고, 각 마이크로-프로시저는 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하고, 매크로-프로시저가 누적 값, 최대 값, 최소값, 중간 값, 평균 값, 모드 값, 가장 일반적인 값 및 다수결 중 적어도 하나에 의해 마이크로-프로시저의 앙상블의 결론을 결합하도록 구성되는 것을 특징으로 한다.

조항 18. 조항 13, 14, 15, 16 또는 17의 방법으로, 훈련시키고 평가하는 단계가 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하는 단계를 포함하고, 훈련 데이터셋 및 평가 데이터셋이 데이터셋의 상보 서브셋이고, 훈련시키고 평가하는 단계가 전처리 기법을 발생시키도록 훈련 데이터셋을 전처리하는 단계를 포함하고 훈련시키고 평가하는 단계가 전처리 기법으로 평가 데이터셋을 전처리하는 단계를 포함하는 것을 특징으로 한다.

조항 19. 조항 13, 14, 15, 16, 17 또는 18의 방법으로, 훈련시키고 평가하는 단계가 각 머신 러닝 모델을 위한 훈련된 모델을 생성하도록 데이터셋의 서브셋인 훈련 데이터셋으로 각 머신 러닝 모델을 훈련시키는 단계를 포함하고, 훈련시키고 평가하는 단계가 각 머신 러닝 모델을 위한 성능 결과를 생성하도록 데이터셋의 서브셋인 평가 데이터셋으로 각 훈련된 모델을 평가하는 단계를 포함하고, 평가 데이터셋 및 훈련 데이터셋이 데이터셋의 상보 서브셋인 것을 특징으로 한다.

조항 20. 조항 13, 14, 15, 16, 17, 18 또는 19의 방법으로, 훈련시키고 평가하는 단계는, 각 머신 러닝 모델에 대해, 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하는 단계와, 훈련된 모델을 생성하도록 훈련 데이터셋으로 머신 러닝 모델을 훈련시키는 단계, 평가 결과를 생성하도록 평가 데이터셋으로 머신 러닝 모델을 평가하는 단계, 및 데이터셋을 여러 훈련 데이터셋 및 여러 평가 데이터셋으로 분할하는 것에 의해 분할하고, 훈련시키고, 평가하는 단계를 반복하는 단계를 포함하고, 훈련시키고 평가하는 단계는 성능 결과를 생성하도록 평가 결과를 결합하는 단계를 포함하는 것을 특징으로 한다.

소정의 특허, 특허 출원, 또는 다른 참고문헌이 본원에 참고문헌으로 포함되고, 본 발명의 비-통합된 부분 또는 다른 통합된 참고문헌의 어느 것 중 어느 하나와 (1) 상반되는 방식으로 용어를 정의하고 및/또는 (2) 그렇지않으면 상반되는 경우에도, 본 발명의 비-통합된 부분을 조절해야 하고, 용어 또는 그에 통합된 발명은 용어가 정의되고 및/또는 통합된 발명이 본래 존재하였던 참고문헌에 관하여 오직 조절해야 한다.

Claims

특정 데이터 분석 문제에 대해 후보 머신 러닝 알고리즘을 비교하기 위한 머신 러닝 시스템(10)으로, 머신 러닝 시스템(10)이:
공통 인터페이스로 테스트되어지도록 구성된 다수의 머신 러닝 알고리즘을 포함하는 머신 러닝 알고리즘 라이브러리(22)와;
머신 러닝 모델(32)의 선택 및 데이터셋을 수신하도록 구성된, 각 머신 러닝 모델(32)이 머신 러닝 알고리즘 라이브러리(22)로부터의 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하는, 데이터 입력 모듈(20);
각 머신 러닝 모델에 대한 성능 결과를 생성하도록 각 머신 러닝 모델(32)을 훈련 및 평가하도록 구성된 실험 모듈(30); 및
성능 비교 통계를 형성하기 위해 모든 머신 러닝 모델(32)에 대한 성능 결과를 종합하도록 구성된 종합 모듈(40);을 구비하여 구성되는 것을 특징으로 하는 머신 러닝 시스템.
제1항에 있어서,
공통 인터페이스가 공통 입력, 공통 출력, 데이터를 입력하기 위한 공통 방법, 데이터를 출력하기 위한 공통 방법, 및 머신 러닝 알고리즘 라이브러리(22)의 각 머신 러닝 알고리즘을 위한 공통 절차 호출 중 적어도 하나를 정의하는 것을 특징으로 하는 머신 러닝 시스템.
제1항 또는 제2항에 있어서,
실험 모듈(30)에 의한 처리를 위해 데이터셋을 준비하도록 구성된 데이터 전처리기(24)를 더 구비하여 구성되고, 데이터 전처리기(24)는 데이터셋을 이산화하고, 데이터셋에 대해 독립 구성요소 분석을 적용하고, 데이터셋에 대해 주 구성요소 분석을 적용하고, 데이터셋으로부터 분실 데이터를 제거하고, 데이터셋으로부터 특징을 선택하고, 데이터셋으로부터 특징을 추출하는 것 중 적어도 하나를 하도록 구성되는 것을 특징으로 하는 머신 러닝 시스템.
제1항 또는 제2항에 있어서,
다수의 전처리 알고리즘을 포함하는 전처리 알고리즘 라이브러리(26)를 더 구비하여 구성되고, 전처리 알고리즘이 공통 전처리 인터페이스에 따르는 것을 특징으로 하는 머신 러닝 시스템.
제1항 또는 제2항에 있어서,
적어도 하나의 머신 러닝 모델(32)이 마이크로-프로시저(38)의 앙상블의 결론을 결합하는 매크로-프로시저(36)이고, 각 마이크로-프로시저(38)는 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하고, 매크로-프로시저(36)는 누적 값, 최대 값, 최소값, 중간 값, 평균 값, 모드 값, 가장 일반적인 값 및/또는 다수결 중 적어도 하나에 의해 마이크로-프로시저(38)의 앙상블의 결론을 결합하도록 구성되는 것을 특징으로 하는 머신 러닝 시스템.
제1항 또는 제2항에 있어서,
실험 모듈(30)이 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하도록 구성되고, 훈련 데이터셋 및 평가 데이터셋이 데이터셋의 상보 서브셋인 것을 특징으로 하는 머신 러닝 시스템.
제1항 또는 제2항에 있어서,
실험 모듈(30)이 각 머신 러닝 모델을 위한 훈련된 모델을 생성하도록 데이터셋의 서브셋인 훈련 데이터셋으로 각 머신 러닝 모델(32)을 훈련시키도록 구성되고, 실험 모듈(30)이 각 머신 러닝 모델을 위한 성능 결과를 생성하도록 데이터셋의 서브셋인 평가 데이터셋으로 각 훈련된 모델을 평가하도록 구성되는 것을 특징으로 하는 머신 러닝 시스템.
제1항 또는 제2항에 있어서,
실험 모듈(30)이 LOOCV(leave-one-out cross validation) 및 k겹 교차 검증(k-fold cross validation) 중 적어도 하나를 이용해서 각 머신 러닝 모델(32)을 교차 검증하도록 구성되는 것을 특징으로 하는 머신 러닝 시스템.
제1항 또는 제2항에 있어서,
성능 비교 통계를 제공하도록 구성된 프리젠테이션 모듈(44)을 더 구비하여 구성되고, 프리젠테이션 모듈(44)이 머신 러닝 모델(32)의 비교를 용이하게 하기 위해 통일된 포맷으로 모든 머신 러닝 모델(32)을 위한 성능 결과를 제공하도록 구성되는 것을 특징으로 하는 머신 러닝 시스템.
머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법(100)으로, 방법이:
데이터셋을 수신하는 단계(102)와;
머신 러닝 모델(32)의 선택을 수신하는 단계(104)로서, 각 머신 러닝 모델(32)이 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하는, 단계;
각 머신 러닝 모델(32)을 위한 성능 결과를 생성하도록 각 머신 러닝 모델(32)을 훈련시키고 평가하는 단계(106);
성능 비교 통계를 형성하도록 모든 머신 러닝 모델(32)을 위한 성능 결과를 종합하는 단계(108); 및
성능 비교 통계를 제공하는 단계(110);를 갖추어 이루어지는 것을 특징으로 하는 머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법.
제10항에 있어서,
데이터셋이 시간의 연속적인 기간에서 측정된 가측치의 일련의 값을 포함하는 시계열 데이터셋인 것을 특징으로 하는 머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법.
제10항 또는 제11항에 있어서,
훈련시키고 평가하는 단계(106) 전에, 데이터셋을 글로벌 전처리하는 단계(112)를 더 갖추어 이루어지고, 글로벌 전처리하는 단계(112)가 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및/또는 특징 추출 중 적어도 하나를 포함하는 것을 특징으로 하는 머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법.
제10항 또는 제11항에 있어서,
적어도 하나의 머신 러닝 모델(32)이 마이크로-프로시저(38)의 앙상블의 결론을 결합하는 매크로-프로시저(36)이고, 각 마이크로-프로시저(38)는 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하고, 매크로-프로시저(36)가 누적 값, 최대 값, 최소값, 중간 값, 평균 값, 모드 값, 가장 일반적인 값 및 다수결 중 적어도 하나에 의해 마이크로-프로시저(38)의 앙상블의 결론을 결합하도록 구성되는 것을 특징으로 하는 머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법.
제10항 또는 제11항에 있어서,
훈련시키고 평가하는 단계(106)가 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하는 단계(120)를 포함하고, 훈련 데이터셋 및 평가 데이터셋이 데이터셋의 상보 서브셋이고, 훈련시키고 평가하는 단계(106)가 전처리 기법을 발생시키도록 훈련 데이터셋을 전처리하는 단계(132)를 포함하고, 훈련시키고 평가하는 단계(106)가 전처리 기법으로 평가 데이터셋을 전처리하는 단계(134)를 포함하는 것을 특징으로 하는 머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법.
제10항 또는 제11항에 있어서,
훈련시키고 평가하는 단계(106)가 각 머신 러닝 모델(32)을 위한 훈련된 모델을 생성하도록 데이터셋의 서브셋인 훈련 데이터셋으로 각 머신 러닝 모델(32)을 훈련시키는 단계(122)를 포함하고, 훈련시키고 평가하는 단계(106)가 각 머신 러닝 모델(32)을 위한 성능 결과를 생성하도록 데이터셋의 서브셋인 평가 데이터셋으로 각 훈련된 모델을 평가하는 단계(124)를 포함하고, 평가 데이터셋 및 훈련 데이터셋이 데이터셋의 상보 서브셋인 것을 특징으로 하는 머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법.