KR20160143512A - 머신 러닝을 위한 진보된 분석 기반시설 - Google Patents

머신 러닝을 위한 진보된 분석 기반시설 Download PDF

Info

Publication number
KR20160143512A
KR20160143512A KR1020160057309A KR20160057309A KR20160143512A KR 20160143512 A KR20160143512 A KR 20160143512A KR 1020160057309 A KR1020160057309 A KR 1020160057309A KR 20160057309 A KR20160057309 A KR 20160057309A KR 20160143512 A KR20160143512 A KR 20160143512A
Authority
KR
South Korea
Prior art keywords
machine learning
data set
training
dataset
data
Prior art date
Application number
KR1020160057309A
Other languages
English (en)
Inventor
이. 스툴라우그슨 리에스만
엠. 에딩턴 제임스
Original Assignee
더 보잉 컴파니
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 보잉 컴파니 filed Critical 더 보잉 컴파니
Publication of KR20160143512A publication Critical patent/KR20160143512A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06F15/18
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/043Distributed expert systems; Blackboards
    • G06N99/005

Abstract

후보 머신 러닝 알고리즘을 비교하기 위한 머신 러닝 시스템(10) 및 컴퓨터화된 방법(100)이 개시된다. 머신 러닝 시스템(10)은 머신 러닝 알고리즘 라이브러리(22), 머신 러닝 알고리즘 라이브러리(22)로부터 유래된 머신 러닝 모델(32)의 선택 및 데이터셋을 수신하기 위한 데이터 입력 모듈(20), 실험 모듈(30) 및 종합 모듈(40)을 구비하여 구성된다. 실험 모듈(30)은 머신 러닝 모델(32)을 위한 성능 결과를 생성하도록 각 머신 러닝 모델(32)을 훈련시키고 평가하도록(106) 구성된다. 종합 모듈(40)은 성능 비교 통계를 형성하도록 모든 머신 러닝 모델(32)을 위한 성능 결과를 종합하도록 구성된다. 컴퓨터화된 방법(100)은 데이터셋을 수신하는 단계(102)와, 머신 러닝 모델(32)의 선택을 수신하는 단계(104), 각 머신 러닝 모델(32)을 위한 성능 결과를 생성하도록 각 머신 러닝 모델(32)을 훈련시키고 평가하는 단계(106), 성능 비교 통계를 형성하도록 성능 결과를 종합하는 단계(108), 및 성능 비교 통계를 제공하는 단계(110)를 포함한다.

Description

머신 러닝을 위한 진보된 분석 기반시설{ADVANCED ANALYTICAL INFRASTRUCTURE FOR MACHINE LEARNING}
본 발명은 머신 러닝(machine learning)을 위한 진보된 분석 기반시설(advanced analytical infrastructure)에 관한 것이다.
머신 러닝은 데이터셋(dataset)이 입력 데이터(또한 설명 변수(explanatory variables) 또는 예측 변수(predictors)로 불리워짐)를 출력 데이터(또한 종속 변수(dependent variables) 또는 응답 변수(response variables)로 불리워짐)에 맵핑하는 모델(또한 규칙(rule) 또는 함수(function)로 불리워짐)을 결정하는데 이용되는 데이터를 분석하기 위한 프로세스이다. 머신 러닝의 하나의 형태는 모델이 충분한 수의 입력 데이터를 위해 알려진 출력 데이터를 포함하는 데이터셋으로 훈련되는(trained) 지도 러닝(supervised learning)이다. 모델이 훈련되면, 이는 예상된 출력을 예측하기 위해 새로운 입력 데이터에 대해 배치(deployed), 예컨대 적용(applied)될 수 있다.
머신 러닝은 (출력 데이터가 수(numeric), 예컨대 전압, 압력, 다수의 사이클인 곳에서는) 회귀 문제(regression problems)에 적용될 수 있고, (출력 데이터가 레이블(labels), 클래스(classes), 및/또는 카테고리(categories) 등, 예컨대, 합격-불합격(pass-fail), 고장 형태(failure type) 등인 곳에서는) 분류 문제(classification problems)에 적용될 수 있다. 양쪽 형태의 문제에 대해, 활발한 연구 주제를 새로운 알고리즘에 따라, 광범위한 머신 러닝 알고리즘이 이용가능하다. 예컨대, 인공 신경망(artificial neural networks), 학습된 의사결정 트리(learned decision trees) 및 서포트 벡터 머신(support vector machines)이 분류 문제에 적용될 수 있는 알고리즘의 여러 분류이다. 그리고, 이들 예의 각각은 (인공 신경망에 대한) 학습률(learning rate), (학습된 의사결정 트리의 앙상블(ensembles)에 대한) 트리의 수, 및 (서포트 벡터 머신에 대한) 커널 형태(kernel type)와 같은 특정 파라미터를 선택하는 것에 의해 맞추어질 수 있다.
문제를 처리하는데 이용가능한 다수의 머신 러닝 옵션은 최상의 옵션 또는 잘-수행 중인 옵션 조차도 선택하는 것을 어렵게 만든다. 데이터의 양, 형태 및 품질은 훈련의 정확도 및 안정성과 최종 훈련된 모델에 영향을 미친다. 더욱이, 에러 (예컨대, 가긍정적 판단(false positives), 가부정적 판단(false negatives)) 확장성(scalability)의 허용오차(tolerance) 및 실행 속도(execution speed)와 같은, 문제-특정 고려는 허용가능한 선택을 제한한다.
따라서, 다양한 특정 문제에 대한 적용가능성을 위한 머신 러닝 모델을 비교할 필요가 있다.
본 발명은 상기한 점을 감안하여 발명된 것으로, 머신 러닝을 위한 진보된 분석 기반시설을 제공함에 그 목적이 있다.
머신 러닝 시스템은 특정 데이터 분석 문제에 대해 후보 머신 러닝 알고리즘(candidate machine learning algorithms)을 비교하도록 구성될 수 있다. 머신 러닝 시스템은 머신 러닝 알고리즘 라이브러리, 데이터 입력 모듈, 실험 모듈, 및 종합 모듈을 구비하여 구성된다. 머신 러닝 알고리즘 라이브러리는 공통 인터페이스로 테스트되어지도록 구성된 다수의 머신 러닝 알고리즘을 포함한다. 데이터 입력 모듈은 머신 러닝 모델의 선택 및 데이터셋을 수신하도록 구성된다. 각 머신 러닝 모델은 머신 러닝 알고리즘 라이브러리로부터의 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함한다. 실험 모듈은 각 머신 러닝 모델을 위한 성능 결과(performance result)를 생성하도록 각 머신 러닝 모델을 훈련시키고 평가하도록 구성된다. 종합 모듈은 성능 비교 통계(performance comparison statistics)를 형성하기 위해 모든 머신 러닝 모델에 대한 성능 결과를 종합하도록 구성된다.
머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법은, 데이터셋을 수신하는 단계와, 머신 러닝 모델의 선택을 수신하는 단계, 각 머신 러닝 모델을 훈련시키고 평가하는 단계, 결과를 종합하는 단계, 및 결과를 제공하는 단계를 포함한다. 머신 러닝 모델의 선택의 각 머신 러닝 모델은 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함한다. 각 머신 러닝 모델을 훈련시키고 평가하는 단계는 각 머신 러닝 모델을 위한 성능 결과를 생성하는 단계를 포함한다. 종합하는 단계는 성능 비교 통계를 형성하도록 모든 머신 러닝 모델을 위한 성능 결과를 종합하는 단계를 포함한다. 제공하는 단계는 성능 비교 통계를 제공하는 단계를 포함한다.
도 1은 본 발명의 머신 러닝 시스템을 나타낸다.
도 2는 머신 러닝 시스템 내의 모듈을 나타낸다.
도 3은 본 발명의 방법을 나타낸다.
도 4는 머신 러닝 모듈을 훈련시키고 평가하는 방법을 나타낸다.
도 1 내지 도 4는 머신 러닝을 위한 시스템 및 방법을 예시한다. 일반적으로, 도면에 있어서, 주어진 실시예에 포함될 가능성이 있는 엘리먼트는 실선으로 예시되고, 반면 선택적이거나 대안적인 엘리먼트는 파선으로 예시된다. 그러나, 실선으로 예시된 엘리먼트는 본 발명의 모든 실시예에 대해 필수적인 것은 아니고, 실선으로 도시된 엘리먼트는 본 발명의 범위를 벗어나는 것 없이 특정 실시예로부터 생략될 수도 있다. 유사한, 또는 적어도 실질적으로 유사한 목적을 제공하는 엘리먼트는 도면 중에서 일치하는 참조부호로 표시된다. 각 도면에서 동일한 참조부호, 그리고 대응하는 엘리먼트는 각 도면을 참조하여 상세하게 논의되지 않을 수 있다. 마찬가지로, 모든 엘리먼트는 각 도면에서 표시되거나 도시되지 않을 수 있지만, 그와 관련된 참조부호는 일관성을 위해 이용될 수 있다. 하나 이상의 도면을 참조하여 논의되는 엘리먼트, 구성요소 및/또는 특징은 본 발명의 범위로부터 벗어나는 것 없이 소정의 도면에 포함되거나 및/또는 함께 이용될 수 있다.
도 1에 예시된 바와 같이, 머신 러닝 시스템(machine learning system; 10)은 저장 유닛(storage unit; 14)에 동작적으로 결합된 처리 유닛(processing unit; 12)을 포함하는 컴퓨터화된 시스템이다. 처리 유닛(12)은 소프트웨어 및/또는 펌웨어를 위한 명령을 실행하도록 구성된 하나 이상의 장치이다. 처리 유닛(12)은 하나 이상의 컴퓨터 프로세서를 포함할 수 있고 컴퓨터 프로세서의 분산 그룹(distributed group of computer processors)을 포함할 수 있다. 저장 유닛(14)(또한 컴퓨터-판독가능 저장 유닛으로 칭해짐)은 컴퓨터-판독가능 정보를 저장하도록 구성된 하나 이상의 장치이다. 저장 유닛(14)은 메모리(16)(또한 컴퓨터-판독가능 메모리로 칭해짐) 및 영구 저장기(persistent storage; 18)(또한 컴퓨터-판독가능 영구 저장기, 저장 매체, 및/또는 컴퓨터-판독가능 저장 매체로 칭해짐)를 포함할 수 있다. 영구 저장기(18)는 비-일시적(non-transitory)이고 단지 일시적인 전자기기 및/또는 전자기 신호가 아닌 하나 이상의 컴퓨터-판독가능 저장 장치이다. 영구 저장기(18)는 하나 이상의 (비-일시적) 저장 매체 및/또는 (비-일시적) 저장 매체의 분산 그룹을 포함할 수 있다. 머신 러닝 시스템(10)은 각각 독립적으로 (네트워크 연결에 의해 포함하는) 직접적으로 또는 간접적으로 상호연결될 수 있는 하나 이상의 컴퓨터, 서버, 워크스테이션 등을 포함할 수 있다. 따라서, 머신 러닝 시스템(10)은 서로 원격적으로 위치된 프로세서, 메모리(16) 및/또는 영구 저장기(18)를 포함할 수 있다.
머신 러닝 시스템(10)은 여기에 개시된 방법을 수행하도록 프로그램될 수 있고, 및/또는 여기에 개시된 방법을 수행하기 위한 명령을 저장할 수 있다. 머신 러닝 시스템(10)의 저장 유닛(14)은, 처리 유닛(12)에 의해 실행될 때, 이 여기에 개시된 방법 중 하나 이상을 수행하도록 하는 명령을 포함한다.
여기에 개시된 플로우차트 및 블록도는 다양한 예시적 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 가능한 구현의 구조, 기능성, 및 동작을 예시한다. 이와 관련하여, 플로우차트 또는 블록도의 각 블록은 특정 논리적 기능 또는 기능들을 구현하기 위한 하나 이상의 실행가능 명령을 구비하는 모듈, 세그먼트, 또는 코드의 부분을 나타낼 수 있다. 또한, 몇몇 대안적인 구현에 있어서, 블록에서 주지된 기능은 도면에서 주지된 순서를 벗어날 수도 있음을 주지해야 한다. 예컨대, 포함된 가능성에 따라, 연속적으로 도시된 2개의 블록의 기능은 실질적으로 동시에 실행될 수 있고, 또는 블록의 기능은 때때로 반대 순서로 실행될 수도 있다.
도 2에 도식적으로 나타낸 바와 같이, 머신 러닝 시스템(10)은 다양한 모듈(예컨대, 저장 유닛(14)에 저장되고 처리 유닛(12)에 의해 실행되도록 구성된 명령 및/또는 데이터)을 포함할 수 있다. (또한 에이전트(agents), 프로그램, 프로세스 및/또는 절차(procedures)로 불리워질 수 있는) 이들 모듈은 데이터 입력 모듈(data input module; 20), 머신 러닝 알고리즘 라이브러리(machine learning algorithm library; 22), 데이터 전처리기(data preprocessor; 24), 실험 모듈(experiment module; 30), 종합 모듈(aggregation module; 40) 및 프리젠테이션 모듈(presentation module; 44)을 포함할 수 있다.
머신 러닝 시스템(10)은, 예컨대 후보 머신 러닝 모델(candidate machine learning models)을 비교하기 위해, 예컨대 특정 데이터 분석 문제를 위한 적절한 머신 러닝 모델(들)(32)의 선택을 용이하게 하기 위해, 머신 러닝 모델 선택에 대해 구성된다. 일반적으로, 머신 러닝 시스템(10)은 주어진 데이터의 세트에 관하여 (또한 하이퍼-파라미터(hyper-parameters)로 언급되는) 하나 이상의 특정 파라미터와 함께 구성된 하나 이상의 머신 러닝 알고리즘의 성능을 계산 및/또는 추정(estimate)하도록 구성된다. 그 관련된 특정 파라미터 값과 함께 머신 러닝 알고리즘은, 적어도 부분적으로, 머신 러닝 모델(32)(또한 특정 머신 러닝 모델 및 후보 머신 러닝 모델로 언급되고, 도 2에서는, ML Model 1 내지 ML Model N으로 언급됨)을 형성한다.
데이터 분석 문제는 분류 문제(classification problems) 또는 회귀 문제(regression problems)일 수 있다. 데이터 분석 문제는, 시퀀스 데이터(sequence data), 시-계열 데이터(time-series data), 임시 데이터(temporal data), 및/또는 시간-스탬프 데이터(time-stamped data)일 수 있는, 시간-의존 데이터(time-dependent data)에 관련될 수 있다. 시간-의존 데이터는 (예컨대, 시간의 연속적인 기간에서 측정된) 시퀀스(sequence)에서 및/또는 시간을 통해 (또한 양(quantity), 속성(attribute), 특성(property), 또는 특징(feature)으로 칭해지는) 가측치(observable)의 진행(progression)에 관한 것이다. 예컨대, 시간-의존 데이터는 항공기 및 그 서브시스템(예컨대, 추진 시스템, 비행 제어 시스템, 환경 제어 시스템, 전기 시스템 등)과 같은 장비의 동작 건전성(operational health)에 관련될 수 있다. 관련된 가측치는 전기적, 광학적, 기계적, 유압, 유체, 공기식(pneumatic) 및/또는 공기역학(aerodynamic) 구성요소의 상태, 그에 대한 입력 및/또는 그 출력의 측정일 수 있다.
데이터 입력 모듈(20)은 머신 러닝 모델(machine learning models; 32)의 선택, 예컨대 사용자로부터의 선택과, 시간-의존 데이터셋(time-dependent dataset)과 같은, 데이터셋을 수신하도록 구성된다. 따라서, 머신 러닝 시스템(10)은 데이터셋을 수신하도록 구성된다. 또한 입력 데이터셋으로 불리워지는, 데이터셋은 머신 러닝 모델(32) 및/또는 실험 모듈(experiment module; 30)과 인터페이스되도록 공통 포맷(common format)으로 될 수 있다. 만약, 입력 데이터셋이 머신 러닝 모델(32) 및/또는 실험 모듈(30)에 대한 인터페이스와 호환가능한 포맷이 아니면, 데이터 입력 모듈(20) 및/또는 데이터 전처리기(data preprocessor; 24)는 머신 러닝 모델(32) 및/또는 실험 모듈(30)과 인터페이스하기 위해 공통 포맷으로 입력 데이터셋을 새로 포맷(reformat)하도록 구성될 수 있고, 또는 그렇지않으면 입력 데이터의 포맷을 호환가능 포맷으로 변환할 수 있다.
머신 러닝 모델(32)은 머신 러닝 알고리즘 및 머신 러닝 알고리즘을 위한 하나 이상의 관련된 파라미터 값을 포함한다. 데이터셋은 하나 이상의 가측치(예컨대, 전압 측정 및 온도 측정)를 위한 데이터를 포함한다. 데이터셋은 레이블된 데이터셋(labeled dataset) (또한 주석 데이터셋(annotated dataset), 러닝 데이터셋(learning dataset), 또는 분류 데이터셋(classified dataset)으로 불리워짐)일 수 있고, 데이터셋은 입력 데이터(예컨대, 가측치의 값, 또한 원시 데이터(raw data)로 불리워짐) 및 입력 데이터의 충분한 수 (선택적으로 모두)에 대한 알려진 출력 데이터를 포함함을 의미한다. 따라서, 레이블된 데이터셋은 지도 러닝(supervised learning) (또한 안내 러닝(guided learning))으로 불리워짐)에 대해 구성된다.
머신 러닝 알고리즘 라이브러리(machine learning algorithm library; 22)는 다수의 머신 러닝 알고리즘을 포함한다. 머신 러닝 알고리즘 각각은, 머신 러닝 알고리즘의 적용을 용이하게 하도록 (예컨대, 테스트(testing), 훈련(training), 평가(evaluation), 및/또는 배포(deployment)를 용이하게 하도록), 또한 상호교환 인터페이스(interchange interface)로 불리워지는, 공통 인터페이스(common interface)를 따르도록 구성된다. 공통 인터페이스는 공통 입력 및/또는 출력, 데이터를 입력 및/또는 출력하기 위한 공통 방법, 및/또는 각 머신 러닝 알고리즘을 위한 공통 절차 호출(common procedure calls)을 정의할 수 있다. 예컨대, 머신 러닝 알고리즘은, 동일한 방식으로 파라미터 값을 드러내도록 및/또는 수신하도록, 및/또는 유사한 기능을 수행하도록, (예컨대, 특정 파일 형태로 체계화된, 특정 행 및/또는 열 지정으로 체계화된) 공통 포맷으로 데이터셋에 대해 동작하도록 구성될 수 있다. 따라서, 머신 러닝 알고리즘 라이브러리(22)의 머신 러닝 알고리즘의 어느 것은 유사한 방식 (데이터는 유사하게 알고리즘에 대해 전송될 수 있고, 기능은 유사하게 호출될 수 있다) 및/또는 상호교환가능하게 이용될 수 있다. 더욱이, 머신 러닝 알고리즘 라이브러리(22)는 확장가능할 수 있고, 예컨대 이용가능함에 따라 그리고 개발됨에 따라 새로운 알고리즘이 부가될 수 있다.
머신 러닝 알고리즘 라이브러리(22)의 각 머신 러닝 알고리즘은 적용된 알고리즘의 특정 변동을 맞추고(tailor) 또는 명시(specify)하기 위해 특정 파라미터를 허용할 수 있다. 예컨대, 인공 신경망은 다수의 노드, 비용 기능(cost function), 학습률(learning rate), 학습률 감쇠(learning rate decay) 및 최대 반복(maximum iterations)을 명시하는 파라미터를 포함할 수 있다. 학습된 의사결정 트리는 (앙상블(ensembles) 또는 랜덤 포레스트(random forests)에 대한) 다수의 트리(the number of trees) 및 다수의 시도(the number of tries)(예컨대, 각 브랜치에서 시도하기 위한 다수의 특징/예측(features/predictions))를 명시하는(specifying) 파라미터를 포함할 수 있다. 서포트 벡터 머신은 커널 형태 및 커널 파라미터를 명시하는 파라미터를 포함할 수 있다. 모든 머신 러닝 알고리즘이 관련된 파라미터를 갖는 것은 아니다. 여기서 이용된 바와 같이, 머신 러닝 모델(32)은 적어도 머신 러닝 알고리즘 및, 만약 있다면, 그 관련된 파라미터(들)의 조합이다. 따라서, 데이터 입력 모듈(20)을 위한 머신 러닝 모델(32)의 선택은 머신 러닝 알고리즘 및 그들의 관련된 파라미터(들)의 (사용자) 선택일 수 있다. 머신 러닝 모델의 선택의 머신 러닝 알고리즘은 머신 러닝 알고리즘 라이브러리(22)로부터 선택될 수 있다. 머신 러닝 알고리즘은 나이브 베이즈 분류기(naive Bayes classifier), 트리-증강 나이브 베이즈 분류기(tree-augmented naive Bayes classifier), 동적 베이지안 네트워크(dynamic Bayesian network), 서포트 벡터 머신(support vector machine), 학습된 의사결정 트리(learned decision tree), 학습된 의사결정 트리의 앙상블(ensemble of learned decision trees) (예컨대, 학습된 의사결정 트리의 랜덤 포레스트), 인공 신경망, 및 그 조합일 수 있다.
머신 러닝 모델(32)은 마이크로-프로시저(micro-procedures; 38)의 앙상블의 결론(outcomes)을 결합하는 매크로-프로시저(macro-procedure; 36)일 수 있다. 각 마이크로-프로시저(38)는 머신 러닝 알고리즘 및 그 관련된 파라미터 값을 포함한다. 선택적으로, 각 마이크로-프로시저(38)는 머신 러닝 알고리즘 및 관련된 파라미터 값의 여러 조합을 포함한다. 마이크로-프로시저(38)는, 머신 러닝 모델(32)에 관하여 설명한 바와 같이, 동일한 방식으로 구성될 수 있고, 및/또는 동일한 특징을 포함할 수 있다. 예컨대, 마이크로-프로시저(38)는 나이브 베이즈 분류기, 트리-증강 나이브 베이즈 분류기, 동적 베이지안 네트워크, 서포트 벡터 머신, 학습된 의사결정 트리, 학습된 의사결정 트리의 앙상블 및/또는 인공 신경망을 포함할 수 있다.
매크로-프로시저(36)는 마이크로-프로시저(38)의 앙상블의 모든 마이크로-프로시저(38)에 대해 동일한 베이스 입력 데이터(base input data)(예컨대, 적어도 입력 데이터의 서브셋(subset) 및/또는 파생물(derivative))를 제공하도록 구성된다. 매크로-프로시저(36)를 훈련시키는 것은 (동일한 베이스 입력 데이터로) 각 마이크로-프로시저(38)를 훈련시키는 것을 포함한다. 하나 이상의, 선택적으로 모든, 마이크로-프로시저(38)는 동일한 입력 특징 데이터(input feature data)로 훈련될 수 있다. 부가적으로 또는 대안적으로, 2 이상의, 선택적으로 모든, 마이크로-프로시저(38)는 여러 입력 특징 데이터로 훈련될 수 있다(그러나 모든 입력 특징 데이터는 입력 데이터의 서브셋 및/또는 파생물이다).
개별의, 훈련된, 마이크로-프로시저(38)가 출력 데이터(결론)를 예측하는데 신뢰성이 있고, 확고하며, 및/또는 안정적이지만, 마이크로-프로시저 결론의 조합은 소정의 개별 결론 보다 더 신뢰성이 있고, 확고하며, 및/또는 안정적일 수 있다. 따라서, 매크로-프로시저(36)는 개별 마이크로-프로시저(38) 결론 보다 더 신뢰성이 있고, 확고하며, 및/또는 안정적인 결합된 결론을 생성하도록 마이크로-프로시저(38)의 결론을 결합하도록 구성될 수 있다.
매크로-프로시저(36)는 마이크로-프로시저(38)로부터 독립적이고 및/또는 구별되는 머신 러닝 알고리즘 및 관련된 파라미터 값을 포함할 수 있다. 부가적으로 또는 대안적으로, 매크로-프로시저(36)는 누적 값(cumulative value), 최대 값, 최소값, 중간 값(median value), 평균 값, 모드 값(mode value), 가장 일반적인 값(most common value) 및/또는 다수결(majority vote)에 의해 마이크로-프로시저(38)의 앙상블의 결론을 결합할 수 있다. 매크로-프로시저(36)의 예는 훈련된 의사결정 트리의 앙상블(예컨대, 랜덤 포레스트) 및 관련된 분류기의 앙상블(예컨대, 미래의 다른 시간에서 결론을 예측하도록 훈련된 분류기)을 포함한다. 관련된 분류기의 앙상블의 예가, 2015년 2월 3일자로 출원된, 발명의 명칭이 "분류기 앙상블을 통합하는 예측 항공기 유지보수 시스템 및 방법(Predictive Aircraft Maintenance Systems and Methods Incorporating Classifier Ensembles)"인, 그 개시가 여기서 모든 목적을 위해 참고문헌으로 통합되는, 미국 특허 출원 번호 14/613,015호에 개시된다.
머신 러닝 시스템(10)은 데이터 전처리기(data preprocessor; 24)를 포함할 수 있고, 또한 초기 데이터 전처리기(initial data preprocessor) 및 글로벌 전처리기(global preprocessor)로서 언급된다. 데이터 전처리기(24)는 실험 모듈(30)에 의해 처리하기 위한 입력 데이터셋(input dataset)을 준비하도록 구성된다. 데이터 전처리기(24)에 대한 입력은 데이터 입력 모듈(20)에 의해 제공된 입력 데이터셋을 포함한다. 데이터 전처리기(24)는 입력 데이터셋에 대해 하나 이상의 전처리 알고리즘(preprocessing algorithms)을 적용할 수 있다. 예컨대, 데이터 전처리기(24)는 데이터셋을 이산화(discretize)하도록, 데이터셋에 대해 독립 구성요소 분석(independent component analysis)을 적용하도록, 데이터셋에 대해 주 구성요소 분석(principal component analysis)을 적용하도록, 데이터셋으로부터 분실 데이터(missing data)를 제거하도록(예컨대, 기록을 제거하도록 및/또는 데이터를 추정하도록), 데이터셋으로부터 특징(features)을 선택하도록, 및/또는 데이터셋으로부터 특징을 추출하도록 구성될 수 있다. 몇몇 머신 러닝 모델(32)은, 데이터셋이 전처리되면, (예컨대, 강화된 일반성 및/또는 훈련 데이터에 대한 더 낮은 의존성으로) 더욱 신뢰성있게 및/또는 탄력적으로(resiliently) 수행할 수 있다. 몇몇 머신 러닝 모델(32)을 훈련시키는 것은 데이터셋이 전처리되면 강화(예컨대, 더 빠르고, 낮은 과적응(less overfit))될 수 있다. 데이터 전처리기(24)는 동일한 전처리를 데이터셋에 적용하고 처리된 데이터셋은 테스트 하에서 모든 머신 러닝 모델(32)에 의해 이용되도록 실험 모듈(30)에 전달된다. 선택적 데이터 전처리기(24) 후의 입력 데이터(예컨대, 입력 데이터셋 또는 하나 이상의 전처리 알고리즘에 의해 선택적으로 전처리됨에 따른 입력 데이터셋)는 입력 특징 데이터(input feature data) 및/또는 입력 특징 데이터셋(input feature dataset)으로 언급될 수 있다. 입력 특징 데이터는 실험 모듈(30)에 대해 데이터 전처리기(24)에 의해 제공된다.
데이터 전처리기(24)는 다수의 전처리 알고리즘을 포함하는 전처리 알고리즘 라이브러리(preprocessing algorithm library; 26)로부터 전처리 알고리즘(들)을 선택할 수 있다. 전처리 라이브러리(26)의 전처리 알고리즘 각각은, 전처리 알고리즘의 적용을 용이하게 하기 위해, 또한 상호교환 인터페이스(interchange interface)로 불리워지는, 공통 인터페이스를 따르도록 구성된다. 공통 인터페이스는 공통 입력 및/또는 출력, 데이터를 입력 및/또는 출력하기 위한 공통 방법, 및/또는 각 전처리 알고리즘을 위한 공통 절차 호출(common procedure calls)을 정의할 수 있다. 예컨대, 전처리 알고리즘은 동일한 방식으로 파라미터 값을 드러내도록 및/또는 수신하도록, 및/또는 유사한 기능을 수행하도록, (특정 파일 형태로 체계화된, 특정 행 및/또는 열 지정으로 체계화된) 공통 포맷으로 데이터셋 상에서 동작하도록 구성될 수 있다. 따라서, 전처리 알고리즘 라이브러리(26)의 전처리 알고리즘의 어느 것은 유사한 방식으로 (데이터가 유사하게 알고리즘에 대해 전송될 수 있고, 기능이 유사하게 호출될 수 있음) 및/또는 상호교환가능하게 이용될 수 있다. 더욱이, 전처리 알고리즘 라이브러리(26)는 확장가능할 수 있고, 예컨대 이용가능함에 따라 그리고 개발됨에 따라 새로운 알고리즘이 부가될 수 있다.
이산화(discretization)는 전처리 알고리즘 라이브러리(26)에서 존재할 수 있는 데이터 전처리기(24)의 공통 작업(common task) 및 알고리즘의 클래스(a class of algorithms)이다. 또한 비닝(binning)으로 불리워지는, 이산화는 이산화된, 비닝된, 및/또는 공칭 클래스 값으로 수치 가측치(numeric observables)(예컨대, 연속적인 입력 값)를 변환(converting) 및/또는 분할(partitioning)하는 프로세스이다. 예컨대, 간격의 세트 중 하나의 간격으로서 분류된 각 연속적인 값에 따라, 연속적인 값(continuous values)은 간격의 세트로 이산화될 수 있다. 연속적인 데이터의 이산화는 전형적으로 이산화 에러(discretization error)를 초래하고, 여러 알고리즘이 이산화 에러의 양을 감소시키도록 구성된다. 일반적으로, 빈(bins)의 통계적 독립성(예컨대, Ameva, Chi2, ChiMerge 등과 같은 χ2 관련 방법) 및/또는 빈의 정보 엔트로피(information entropy)(예컨대, MDLP(minimum descriptor length principle), CAIM(class-attribute interdependence maximization) 및 CACC(class-attribute contingency coefficient)와 같은 방법)를 기초로 입력 데이터를 분리한다.
특징 선택 및 특징 추출은 전처리 알고리즘 라이브러리(26)에 존재할 수 있는 알고리즘의 클래스 및 데이터 전처리기(24)의 다른 공통 작업이다. 특징 선택은 일반적으로 입력 데이터 값의 서브셋을 선택한다. 또한 차원 축소(dimensionality reduction)로서 언급될 수 있는, 특징 추출은 일반적으로 하나 이상의 입력 데이터 값을 새로운 데이터 값으로 변환(transforms)한다. 특징 선택 및 특징 추출은 단일 알고리즘으로 결합될 수 있다. 특징 선택 및/또는 특징 추출은 훈련을 간단화하도록, 용장(redundant) 또는 관련없는 데이터를 제거하도록, 중요 특징(및/또는 입력 데이터)을 식별하도록, 및/또는 특징(및/또는 입력 데이터) 관계를 식별하도록 입력 데이터를 전처리할 수 있다.
특징 추출은 입력 특징 데이터의 통계를 결정하는 것을 포함할 수 있다. 데이터셋이 시간-의존 데이터셋인 곳에서, 통계는 데이터셋의 시간-의존에 관련될 수 있고, 예컨대 통계는 시간 윈도우(time window) 동안, 예컨대 시간의 기간 동안 및/또는 하나 이상의 특정된 시간에서의 통계일 수 있다. 부가적으로 또는 대안적으로, 통계는 하나 이상의 입력 특징 데이터 값에 관련될 수 있다. 예컨대, 통계는 센서 값(sensor value)의 시간 평균 및/또는 (예컨대, 여러 시간 및/또는 여러 장소에서 측정된) 2개의 센서 값 사이의 차이일 수 있다. 더욱 일반적으로, 통계는 최대, 최소, 평균, 변동(variance), 편차(deviation), 누적 값(cumulative value), 변화율, 변화의 평균율, 합, 차이, 비율, 산출물(product), 상관(correlation)을 포함할 수 있고, 및/또는 그들로 될 수 있다. 통계는 데이터 포인트의 총 수, 시퀀셜 데이터 포인트(sequential data points)의 최대 수, 시퀀셜 데이터 포인트의 최소 수, 시퀀셜 데이터 포인트의 평균 수, 종합 시간(aggregate time), 최대 시간, 최소 시간, 및/또는 입력 특징 데이터 값이 임계 값 이상, 이하, 또는 대략 동등한 평균 시간을 포함할 수 있고, 및/또는 그들로 될 수 있다.
부가적으로 또는 대안적으로, 특징 선택 및/또는 특징 추출은 소정의 제약(constraints) 내에서 입력 특징 데이터 값을 선택, 추출 및/또는 처리하는 것을 포함할 수 있다. 예컨대, 가측치 값(observable values)은 소정의 범위 내의 경우에만 (예컨대, 이상치 데이터(outlier data)는 제외될 수 있다) 및/또는 다른 가측치 값이 소정 범위 내에 있으면 (예컨대, 하나의 센서 값이 다른 센서 값의 승인(acceptance)을 부여할 수 있음) 선택되고, 추출되고 및/또는 처리될 수 있다.
머신 러닝 시스템(10)의 실험 모듈(30)은 각 머신 러닝 모델(32)을 위한 성능 결과를 발생시키도록 데이터 입력 모듈(20)에 의해 제공된 머신 러닝 모델(32)의 선택의 머신 러닝 모델(32)의 각각을 테스트하도록 (예컨대, 훈련 및 평가하도록) 구성된다. 머신 러닝 모델(32)의 각각에 대해, 실험 모듈(30)은 동일한 데이터셋 (데이터 입력 모듈(20) 및/또는 데이터 전처리기(24)로부터 수신된 입력 특징 데이터셋, 및/또는 입력 특징 데이터셋으로부터 유래된 데이터)을 이용해서 지도 러닝(supervised learning)을 수행하도록 구성된다. 따라서, 머신 러닝 모델(32)의 각각은 머신 러닝 모델(32)의 비교를 용이하게 하도록 동일한 정보로 훈련될 수 있다.
실험 모듈(30)은 머신 러닝 모델(32)의 각각을 테스트하기 위해 특정 실험(specified experiments)(또한 시도(trials)로 불리워짐)을 자동적으로 및/또는 자율적으로 설계하고 수행하도록 구성될 수 있다. 실험의 자동 및/또는 자율 설계는 테스트에 대해 머신 러닝 모델(32)의 순서 및/또는 테스트에 대해 어느 머신 러닝 모델(32)을 결정하는 것을 포함할 수 있다. 예컨대, 데이터 입력 모듈(20)에 의해 수신된 머신 러닝 모델(32)의 선택은 특정 머신 러닝 알고리즘과 테스트에 대한 하나 이상의 관련된 파라미터의 범위 및/또는 세트를 포함할 수 있다. 실험 모듈(30)은 머신 러닝 모델(32)의 그룹을 식별하도록 이들 범위(들) 및/또는 세트(들)를 적용할 수 있다. 즉, 실험 모듈(30)은 선택에 의해 특정된 파라미터의 각 특유의 조합에 대해 머신 러닝 모델(32)을 발생시킬 수 있다. 선택이 범위를 포함하는 곳에서, 실험 모듈(30)은 범위를 샘플링하는(예컨대, 범위를 스패닝하는(span)) 값의 세트를 발생시킬 수 있다. 예로서, 머신 러닝 모델(32)의 선택은 10-20개의 노드와 0 또는 0.01의 학습률 감쇠로 머신 러닝 알고리즘(들)(중 하나) 및 관련된 파라미터로서의 인공 신경망을 식별할 수 있다. 실험 모듈(30)은 적어도 4가지 머신 러닝 모델로서 이 선택을 해석할 수 있다: 10개의 노드 및 0의 학습률 감쇠를 갖는 인공 신경망, 10개의 노드 및 0.01의 학습률 감쇠를 갖는 인공 신경망, 20개의 노드 및 0의 학습률 감쇠를 갖는 인공 신경망, 및 20개의 노드 및 0.01의 학습률 감쇠를 갖는 인공 신경망.
일반적으로, 실험 모듈(30)에서 이용된 각 머신 러닝 모델(32)은 독립적이고 독립적으로 테스트될 수 있다. 따라서, 실험 모듈(30)은 병렬로 (예컨대, 적어도 부분적으로 동시에) 하나 이상의 머신 러닝 모델(32)을 테스트하도록 구성될 수 있다.
실험 모듈(30)은 데이터셋을 훈련 데이터셋(데이터셋의 서브셋) 및 평가 데이터셋(데이터셋의 다른 서브셋)으로 분리하도록, 선택적으로 독립적으로 각 머신 러닝 모델(32)에 대해, 구성될 수 있다. 동일한 훈련 데이터셋(training dataset) 및 평가 데이터셋(evaluation dataset)이 하나 이상의, 선택적으로 모든, 머신 러닝 모델(32)에 대해 이용될 수 있다. 부가적으로 또는 대안적으로, 각 머신 러닝 모델(32)은 (각 머신 러닝 모델을 위한 특유의 분할(division)일 수 있거나 아닐 수도 있는) 데이터셋의 독립적 분할로 테스트(선택적으로 배타적으로(exclusively))될 수 있다. 실험 모듈(30)은 (훈련된 모델을 생성하도록) 각각의 훈련 데이터셋(들)으로 머신 러닝 모델(들)(32)을 훈련하고, 각각의 평가 데이터셋(들)으로 머신 러닝 모델(들)(32)을 평가하도록 구성될 수 있다. 따라서, 훈련 프로세스에서 편향(bias)을 회피하기 위해, 훈련 데이터셋(training dataset) 및 평가 데이터셋(evaluation dataset)은 독립으로 될 수 있고, 동일한 입력 데이터와 관련된 공유하는 입력 데이터 및/또는 값은 없다. 훈련 데이터셋 및 평가 데이터셋은 (예컨대, 데이터 전처리기(24)에 의해 선택적으로 처리됨에 따라) 실험 모듈(30)에 대해 입력된 데이터셋의 상보 서브셋(complementary subsets)일 수 있고, 즉, 훈련 데이터셋 및 평가 데이터셋의 합체(union)는 전체 데이터셋이다. 일반적으로, 훈련 데이터셋 및 평가 데이터셋은 동일하게 독립적으로 분포되고, 즉 훈련 데이터셋 및 평가 데이터셋은 데이터의 중첩(overlap)을 갖지 않고 실질적으로 동일한 통계적 분포를 나타낸다.
실험 모듈(30)은 데이터셋을 분할하기 전 및/또는 후에 (예컨대, 선택적 모델 전처리기(model preprocessor; 34)로) 데이터셋을 전처리하도록 구성될 수 있고, 독립적으로 훈련 데이터셋 및 평가 데이터셋을 전처리하도록 구성될 수 있다. 실험 모듈(30) 및/또는 머신 러닝 시스템(10)은 각 머신 러닝 모델(32)에 입력된 데이터(입력 특징 데이터)를 전처리하도록 구성된 모델 전처리기(34)를 포함할 수 있다. 실험 모듈(30) 및/또는 모델 전처리기(34)는 독립적으로 각 머신 러닝 모델(32)에 입력된 데이터를 전처리하도록 구성될 수 있다. 모델 전처리기(34)는, 데이터 전처리기(24)와 관련하여 설명된 바와 같이, 동일한 방식으로 구성될 수 있고, 및/또는 동일한 특징을 포함한다. 예컨대, 모델 전처리기(34)는 입력 특징 데이터에 하나 이상의 전처리 알고리즘을 적용할 수 있고 전처리 알고리즘은 전처리 알고리즘 라이브러리(26)로부터 선택될 수 있다.
전처리는 훈련 데이터셋을 편향할 수 있기 때문에(예컨대, 훈련 데이터셋은 평가 데이터셋으로부터 유래된 정보를 포함할 수 있다) 몇몇 전처리 단계는 데이터셋을 분할하기 이전에는 적용하기에 부적절할 수 있다. 예컨대, (레이블된 데이터셋(labeled dataset)에 의존하지 않는) 비지도 이산화(unsupervised discretization)는 특정 입력 데이터 값에 관계없이 및/또는 소정의 출력 데이터의 지식 없이, 소정의 알고리즘에 따라 데이터를 그룹지울 수 있고, 반면 (레이블된 데이터셋에 의존하는) 지도 이산화(supervised discretization)는 데이터(입력 데이터 및/또는 알려진 출력 데이터)의 패턴에 따라 데이터를 그룹지울 수 있다. 특정 입력 데이터 값에 관계없는 비지도 이산화는 데이터셋을 분할하기 전 및/또는 후에 수행될 수 있다. 훈련 데이터셋에서 잠재적인 편향을 회피하기 위해, 지도 이산화, 특히 특정 입력 값에 종속하는 이산화는 (예컨대, 훈련 데이터셋 및 평가 데이터셋에 대해 독립적으로) 데이터셋을 분할한 후에 수행될 수 있다.
모델 전처리기(34)가 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할한 후에 데이터를 전처리하도록 구성되는 곳에서, 모델 전처리기(34)는 독립적으로 훈련 데이터셋 및 평가 데이터셋을 전처리하고, 및/또는 (예컨대, 훈련 데이터셋을 전처리하는 것으로부터 초래하는 동일한 전처리 기법(preprocessing scheme)으로) 훈련 데이터셋과 동일한 방식으로 평가 데이터셋을 전처리하도록 구성될 수 있다. 예컨대, 비지도 이산화는 훈련 데이터셋을 기초로 그룹으로 데이터를 배열할 수 있다. 동일한 그룹이 평가 데이터셋에 대해 적용될 수 있다.
실험 모듈(30)은 각 머신 러닝 모델을 위한 훈련된 모델을 생성하도록 지도 러닝을 이용해서 각 머신 러닝 모델(32)을 훈련시키도록 구성된다. 실험 모듈(30)은 각 머신 러닝 모델을 위한 성능 결과를 생성하도록 각 훈련된 모델을 평가 및/또는 검증(validate)하도록 구성된다. 평가 및/또는 검증은 훈련된 모델을 각각의 평가 데이터셋에 적용하고 알려진 출력 값에 대해 훈련된 모델 결과를 비교하는 것에 의해 수행될 수 있다. 매크로-프로시저(36)인 머신 러닝 모델(32)에 대해, 실험 모듈(30)은 훈련된 마이크로-프로시저의 앙상블을 생성하도록 매크로-프로시저(36)의 각 마이크로-프로시저(38)를 독립적으로 훈련시키고, 매크로-프로시저(36) 자체가 머신 러닝 알고리즘을 포함하면, 훈련된 마이크로-프로시저(38)의 앙상블로 매크로-프로시저(36)를 훈련시키는 것에 의해 훈련된 매크로-프로시저를 발생시키도록 구성될 수 있다. 매크로-프로시저(36)에 대해, 실험 모듈은 훈련된 매크로-프로시저를 각각의 훈련 데이터셋에 적용하고 알려진 출력 값에 대해 훈련된 매크로-프로시저를 비교하는 것에 의해 훈련된 매크로-프로시저를 평가 및/또는 검증하도록 구성된다.
평가 및/또는 검증은 교차 검증(cross validation)(여러 차례의 검증(multiple rounds of validation)), 예컨대 LOOCV(leave-one-out cross validation), 및/또는 k겹 교차 검증(k-fold cross validation)에 의해 수행될 수 있다. 교차 검증은 (다중 훈련 데이터셋 및 대응하는 평가 데이터셋을 형성하도록) 원래의 데이터셋이 여러 번 분할되는 프로세스이고, 머신 러닝 모델(32)은 각 분할을 위한 평가 결과를 생성하도록 각 분할(각 훈련 데이터셋 및 대응하는 평가 데이터셋)로 훈련 및 평가되고, 평가 결과는 성능 결과를 생성하도록 결합된다. 예컨대, k겹 교차 검증에 있어서, 원래의 데이터셋은 k 청크(chunks)로 분할될 수 있다. 검증의 각 차례에 대해, 청크 중 하나는 평가 데이터셋이고 나머지 청크는 훈련 데이터셋이다. 검증의 각 차례에 대해, 어느 청크가 평가 데이터셋인가는 변경된다. LOOCV에 있어서, 모델에 의해 평가되어질 각 예는 그 자신의 청크이다. 따라서, LOOCV는 k겹 교차 검증의 경우이고, 여기서 k는 데이터 포인트의 수이다(각 데이터 포인트는 특징의 투플(tuple)이다). 성능 결과를 생성하기 위한 평가 결과의 조합은 평가 결과를 평균하는 것, 평가 결과를 축적하는 것(accumulating), 및/또는 평가 결과의 다른 통계적 조합에 의해 될 수 있다.
각 머신 러닝 모델(32)을 위한 성능 결과 및/또는 검증의 각 차례를 위한 개별적 평가 결과는 상관 계수(correlation coefficient), 평균 제곱 오차(mean square error), 신뢰 구간(confidence interval), 정확도(accuracy), 다수의 TP(true positives), 다수의 TN(true negatives), 다수의 FP(false positives), 다수의 FN(false negatives), 민감도(sensitivity), 양성 예측치(positive predictive value), 특이성(specificity), 음성 예측치(negative predictive value), 허위 양성률(false positive rate), FDR(false discovery rate), 허위 음성률(false negative rate), 및/또는 FOR(false omission rate)과 관련된 인디케이터(indicator), 값 및/또는 결과를 포함할 수 있다. 부가적으로 또는 대안적으로, 인디케이터, 값 및/또는 결과는 계산 효율성, 필요로 되는 메모리 및/또는 실행 속도에 관련될 수 있다. 각 머신 러닝 모델(32)을 위한 성능 결과는 동일한 형태의 적어도 하나의 인디케이터, 값 및/또는 결과를 포함할 수 있다(예컨대, 모든 성능 결과는 정확도를 포함한다). 각 머신 러닝 모델(32)을 위한 성능 결과는 여러 형태의 인디케이터, 값 및/또는 결과를 포함할 수 있다(예컨대, 하나의 성능 결과는 신뢰 구간을 포함할 수 있고, 하나의 성능 결과는 허위 양성률을 포함할 수 있다).
2가지 클래스 분류 기법(two-class classification schemes)에 대해(예컨대, 2진 값(binary values), 포지티브-네가티브(positive-negative), 참-거짓(true-false), 예스-노(yes-no) 등), TP(true positive)는 알려진 출력 값이 똑같이 "포지티브"(예컨대, "yes" 결과 및 "yes" 값)일 때 훈련된 모델로부터의 "포지티브" 결과이다. 또한 민감도(sensitivity) 및/또는 리콜(recall)로 불리워지는, TP 율(true positive rate)은 TP의 총 수를 "포지티브" 출력 값의 총 수로 나눈 것이다. 또한 정밀도(precision)로 불리워지는, 양성 예측치는 TP의 총 수를 "포지티브" 결과의 총 수로 나눈 것이다. TN(true negative)은 알려진 출력 값이 똑같이 "네가티브"일 때 훈련된 모델로부터의 "네가티브" 결과이다. 또한 특이성(specificity)으로 불리워지는, TN 율은 TN의 총 수를 "네가티브" 출력 값의 총 수로 나눈 것이다. 음성 예측치(negative predictive value)는 TN의 총 수를 "네가티브" 결과의 총 수로 나눈 것이다. (또한 타입 I 에러(type I error)로 불리워지는) FP(false positive)는 알려진 출력 값이 "네가티브"일 때 훈련된 모델로부터의 "포지티브" 결과이다. 또한 폴-아웃(fall-out)으로 불리워지는, 허위 양성률(false positive rate)은 FP의 총 수를 "네가티브" 출력 값의 총 수로 나눈 것이다. FDR(false discovery rate)은 FP의 총 수를 "포지티브" 결과의 총 수로 나눈 것이다. FN(false negative)(타입 II 에러)은 알려진 출력 값이 "포지티브"일 때 훈련된 모델로부터의 "네가티브" 결과이다. 허위 음성률(false negative rate)은 FN의 총 수를 "포지티브" 출력 값의 총 수로 나눈 것이다. FOR(false omission rate)은 FN의 총 수를 "네가티브" 결과의 총 수로 나눈 것이다.
2가지 클래스 분류 기법에 대해, 정확도(accuracy)는 TP 및 TN의 총 수를 전체 인구(total population)로 나눈 것이다. 회귀 문제(regression problems)에 대해, 정확도는 평균 제곱 오차(mean square error)와 같은 에러 측정(error measure)일 수 있다.
머신 러닝 시스템(10)의 종합 모듈(40)은 성능 비교 통계(performance comparison statistics)를 형성하도록 모든 머신 러닝 모델을 위한 성능 결과를 종합 및/또는 축적하도록 구성된다. 성능 비교 통계는 모든 머신 러닝 모델(32)의 비교를 용이하게 하기 위해 선택, 구성 및/또는 배열될 수 있다. 종합 모듈(40)은 머신 러닝 모델의 각각에 대한 성능 결과를 축적 및/또는 종합하도록 구성될 수 있다. 성능 비교 통계는 머신 러닝 모델(32)에 대응하는 각 성능 결과의 하나 이상의 인디케이터, 값 및/또는 결과를 포함할 수 있다. 성능 비교 통계는 각 머신 러닝 모델(32)을 위한 동일한 형태의 적어도 하나의 인디케이터, 값 및/또는 결과를 포함할 수 있다(예컨대, 성능 비교 통계는 각 머신 러닝 모델(32)에 대한 정확도를 포함한다). 성능 비교 통계는 각 머신 러닝 모델(32)을 위한 여러 형태의 인디케이터, 값 및/또는 결과를 포함할 수 있다(예컨대, 성능 비교 통계는 하나의 머신 러닝 모델(32)을 위한 신뢰 구간과 다른 머신 러닝 모델(32)을 위한 허위 양성률을 포함한다).
머신 러닝 시스템(10)은 머신 러닝 시스템(10)의 오퍼레이터 및/또는 사용자에게 성능 비교 통계를 제공하도록 구성된 선택적 프리젠테이션 모듈(presentation module; 44)을 포함할 수 있다. 프리젠테이션 모듈(44)은 머신 러닝 모델(32)의 비교를 용이하게 하기 위해 통일된 포맷(unified format)으로 모든 머신 러닝 모델에 대한 성능 결과를 제공하도록 구성될 수 있다. 프리젠테이션 모듈(44)은 시각(visual), 음성(audio), 및/또는 촉각(tactile) 디스플레이에 의해 성능 비교 통계를 디스플레이하도록 구성될 수 있다. 디스플레이는 영숫자 디스플레이(alphanumeric display), 비디오 모니터, 램프, LED, 스피커, 부저, 스프링(spring), 및/또는 중량물(weight)을 포함할 수 있다. 부가적으로 또는 대안적으로, 프리젠테이션 모듈(44)은 영구 저장기(18)에 성능 비교 통계를 포함하는 파일을 저장하고 및/또는 저장 유닛(14) 및/또는 사용자에게 성능 비교 통계를 포함하는 데이터 블록(data block)을 전송할 수 있다.
도 3은 시계열 데이터와 같은 데이터로 머신 러닝 알고리즘을 테스트하기 위한 방법(100)을 도식적으로 예시한다. 방법(100)은 (시간-의존 데이터셋과 같은) 데이터셋을 수신하는 것(receiving; 102), (머신 러닝 모델(32)과 같은) 머신 러닝 모델을 수신하는 것(104), 각 머신 러닝 모델을 위한 성능 결과를 생성하도록 각 머신 러닝 모델을 훈련시키는 것 및 평가하는 것(training and evaluating; 106), 성능 비교 통계를 형성하도록 모든 머신 러닝 모델을 위한 성능 결과를 종합하는 것(aggregating; 108), 및 (예컨대, 사용자에게) 성능 비교 통계를 제공하는 것(presenting; 110)을 포함한다.
방법(100)은 머신 러닝 시스템(10)을 동작시키는 것 및/또는 이용하는 것을 포함할 수 있다. 데이터셋을 수신하는 것(102)은 데이터 입력 모듈(20)을 동작시키는 것 및/또는 이용하는 것을 포함할 수 있다. 머신 러닝 모델을 수신하는 것(104)은 데이터 입력 모듈(20) 및/또는 머신 러닝 알고리즘 라이브러리(22)를 동작시키는 것 및/또는 이용하는 것을 포함할 수 있다. 훈련시키는 것 및 평가하는 것(106)은 실험 모듈(30)을 동작시키는 것 및/또는 이용하는 것을 포함할 수 있다. 종합하는 것(108)은 종합 모듈(40)을 동작시키는 것 및/또는 이용하는 것을 포함할 수 있다. 제공하는 것(110)은 프리젠테이션 모듈(44)을 동작시키는 것 및/또는 이용하는 것을 포함할 수 있다.
방법(100)은 데이터셋을 전처리하는 것(preprocessing; 112)(또한 글로벌 전처리로 불리워짐)을 포함할 수 있고, 이는 데이터 전처리기(24) 및/또는 전처리 알고리즘 라이브러리(26)를 동작시키는 것 및/또는 이용하는 것을 포함할 수 있다. 전처리하는 것(112)은 이산화(discretization), 독립 구성요소 분석(independent component analysis), 주 구성요소 분석(principal component analysis), 누락 데이터의 제거(elimination of missing data), 특징 선택(feature selection), 및/또는 특징 추출(feature extraction)을 포함할 수 있다.
훈련시키는 것 및 평가하는 것(106)은, 각 머신 러닝 모델을 위한 성능 결과를 생성하도록, 수신하는 것(102)에 의해 수신되고 및/또는 전처리하는 것(112)에 의해 수정되는 바와 같이, 동일한 입력 데이터셋, 예컨대 입력 특징 데이터셋을 이용하는 것을 포함한다. 훈련시키는 것 및 평가하는 것(106)은 입력 특징 데이터셋의 서브셋 및/또는 파생물을 이용하는 것을 포함할 수 있고 각 머신 러닝 모델은 입력 특징 데이터셋의 동일하거나 다른 서브셋 및/또는 파생물로 훈련 및 평가될 수 있다. 훈련시키는 것 및 평가하는 것(106)은 일반적으로 각 머신 러닝 알고리즘을 위한 입력 특징 데이터셋의 적어도 서브셋 및/또는 파생물로 지도 러닝을 수행하는 것을 포함한다. 각 머신 러닝 모델을 위한 동일한 정보로 훈련시키는 것 및 평가하는 것(106)은 머신 러닝 모델의 선택의 비교를 용이하게 할 수 있다.
훈련시키는 것 및 평가하는 것(106)은 머신 러닝 모델의 선택 중 각 머신 러닝 모델을 테스트하도록 실험(시도)을 설계하는 것(designing) 및 실행(수행)하는 것(carrying out (performing))을 포함할 수 있다. 훈련시키는 것 및 평가하는 것(106)은, 실험 모듈(30)에 관하여 논의된 바와 같이(도 2), 테스트하기 위한 머신 러닝 모델의 순서 및/또는 테스트하기 위한 어느 머신 러닝 모델을 결정하는 것을 포함할 수 있다.
훈련시키는 것 및 평가하는 것(106)은 독립적으로 및/또는 병렬로 (예컨대, 적어도 부분적으로 동시에) 수행되어지는 실험을 설계하는 것을 포함할 수 있다. 훈련시키는 것 및 평가하는 것(106)은 병렬로 (예컨대, 적어도 부분적으로 동시에) 하나 이상의 실험을 수행하는 것(머신 러닝 모델을 훈련시키는 것 및/또는 평가하는 것)을 포함할 수 있다.
도 4에 상세하게 나타낸 바와 같이, 훈련시키는 것 및 평가하는 것(106)은 데이터셋을 각 머신 러닝 모델을 위한 훈련 데이터셋 및 대응하는 평가 데이터셋으로 분할하는 것(120), 훈련 데이터셋으로 머신 러닝 모델을 훈련시키는 것(122), 및 평가 데이터셋으로 훈련된 모델을 평가하는 것(124)을 포함할 수 있다. 더욱이, 훈련시키는 것 및 평가하는 것(106)은, 각 머신 러닝 모델에 대해, (데이터셋을 분할하는 것(120) 전에) 데이터셋을 전처리하는 것(130) 및/또는 훈련 데이터셋을 전처리하는 것(132), 평가 데이터셋을 전처리하는 것(134)을 포함할 수 있다. 전처리하는 것(130), 전처리하는 것(132), 및 전처리하는 것(134)의 각각은 각각의 데이터셋으로 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및/또는 특징 추출을 독립적으로 포함할 수 있다. 평가 데이터셋을 전처리하는 것(134)은 훈련 데이터셋을 전처리하는 것(132)과 관계없을 수 있거나 의존(예컨대, 동일한 전처리 기법을 공유함)될 수 있다. 예컨대, 전처리하는 것(134)은 훈련 데이터셋을 전처리하는 것(132)으로부터 초래되는 것과 같이 평가 데이터셋에 동일한 그룹 카테고리(same group categories)를 적용할 수 있다.
분할하는 것(dividing; 120)은 적어도 하나의(선택적으로 각) 머신 러닝 모델에 대해 독립적으로 수행될 수 있다. 부가적으로 또는 대안적으로, 분할하는 것(120)은 하나 이상의 (선택적으로 모든) 머신 러닝 모델을 위한 동일한 훈련 데이터셋 및 동일한 대응하는 평가 데이터셋을 생성하도록 수행될 수 있다. 실험 모듈(30)에 관하여 논의된 바와 같이, 훈련 데이터셋 및 평가 데이터셋은 독립적일 수 있고, (예컨대, 훈련 프로세스에서의 편향을 회피하기 위해) 동일한 입력 데이터에 관련된 공유하는 입력 데이터 및/또는 값은 없다. 훈련 데이터셋 및 평가 데이터셋은 입력 특징 데이터셋의 상보 서브셋(complementary subsets)일 수 있고 동일하게 그리고 독립적으로 분포될 수 있으며, 예컨대 훈련 데이터셋 및 평가 데이터셋은 데이터의 중첩을 갖지 않고 실질적으로 동일한 통계 분포를 나타낸다.
훈련시키는 것(122)은 각 머신 러닝 모델을 위한 훈련된 모델을 생성하도록 훈련 데이터셋으로 (머신 러닝 모델(32)과 같은) 각 머신 러닝 모델을 훈련시키는 것을 포함한다. 머신 러닝 모델이 (매크로-프로시저(36)와 같은) 매크로-프로시저인 곳에서, 훈련시키는 것(122)은 또한 매크로-프로시저를 훈련시키는 것(140)과 매크로-프로시저의 (마이크로-프로시저(38)와 같은) 마이크로-프로시저를 훈련시키는 것(142)을 포함한다. 매크로-프로시저를 훈련시키는 것(140)은 훈련된 마이크로-프로시저의 앙상블을 생성하도록 매크로-프로시저의 각 마이크로-프로시저를 훈련시키는 것과, 매크로-프로시저 자체가 머신 러닝 알고리즘을 포함하면, 훈련된 마이크로-프로시저의 앙상블로 매크로-프로시저를 훈련시키는 것을 포함한다. 매크로-프로시저인 머신 러닝 모델이 없다면, 훈련시키는 것(122)은 훈련시키는 것(140) 또는 훈련시키는 것(142)을 포함하지 않는다.
평가하는 것(124)은, 예컨대 실험 모듈(30)에 관하여 논의된 바와 같이, 대응하는 평가 데이터셋으로 각 훈련된 모델을 평가하는 것을 포함한다. 훈련된 모델은 평가 데이터셋의 입력 값의 각각에 대한 결과(예측)를 생성하도록 평가 데이터셋에 적용되고, 결과는 평가 데이터셋의 알려진 출력 값에 비교된다. 비교는 평가 결과 및/또는 성능 결과로 언급될 수 있다.
훈련시키는 것 및 평가하는 것(106)은, 실험 모듈(30)에 관하여 논의된 바와 같이, 검증 및/또는 교차 검증(여러 차례의 검증), 예컨대 LOOCV(leave-one-out cross validation) 및/또는 k-겹 교차 검증을 포함할 수 있다. 훈련시키는 것 및 평가하는 것(106)은 여러 차례의 훈련시키는 것(122) 및 평가하는 것(124)(예컨대, 여러 번의 검증)을 수행하도록 데이터셋을 분할하는 것(120)과 각 머신 러닝 모델을 위한 성능 결과를 생성하도록 여러 차례의 훈련시키는 것(122) 및 평가하는 것(124)의 (평가) 결과를 결합하는 것(126)을 반복적으로 포함할 수 있다. 성능 결과를 생성하도록 평가 결과를 결합하는 것(126)은 평가 결과를 평균하는 것, 평가 결과를 축적하는 것, 및/또는 평가 결과의 다른 통계적 조합에 의할 수 있다.
개별적 차례의 검증의 평가 결과 및 각 머신 러닝 모델을 위한 성능 결과는 실험 모듈(30)에 관하여 설명된 바와 같다.
도 3으로 되돌아가면, 종합하는 것(108)은 성능 비교 통계를 형성하기 위해 머신 러닝 모델의 각각에 대한 성능 결과를 축적하는 것을 포함할 수 있다. 성능 비교 통계는 모든 머신 러닝 모델의 비교를 용이하게 하기 위해 선택, 구성 및/또는 배열될 수 있다. 종합하는 것은 머신 러닝 모델의 각각에 대한 성능 결과를 축적하는 것 및/또는 종합하는 것을 포함할 수 있다. 성능 비교 통계는 종합 모듈(40)에 관하여 설명된 것과 같다.
제공하는 것(110)은, 예컨대 오퍼레이터 및/또는 사용자에게 성능 비교 통계를 제공하는 것을 포함한다. 제공하는 것(110)은 머신 러닝 모델의 비교를 용이하게 하기 위해 통일된 포맷으로 모든 머신 러닝 모델에 대한 성능 결과를 제공하는 것을 포함할 수 있다. 제공하는 것(110)은 시각, 음성, 및/또는 촉각 디스플레이에 의해 성능 비교 통계를 디스플레이하는 것을 포함할 수 있다. 부가적으로 또는 대안적으로, 제공하는 것(110)은 (예컨대, 영구 저장기(18)에) 성능 비교 통계를 포함하는 파일을 저장하는 것 및/또는 (예컨대, 저장 유닛(14) 및/또는 사용자에게) 성능 비교 통계를 포함하는 데이터 블록을 전송하는 것을 포함할 수 있다.
방법(100)은 머신 러닝 모델(32) 중 하나 이상에 대응하는 배치가능 머신 러닝 모델(deployable machine learning model)을 구축하는 것(building; 114)을 포함할 수 있다. 배치가능 머신 러닝 모델을 구축하는 것(114)은 (선택적으로 전처리됨에 따라) 전체 입력 특징 데이터셋으로 대응하는 머신 러닝 모델을 훈련시키는 것을 포함한다. 따라서, 배치가능 머신 러닝 모델은 오히려 단지 서브셋(훈련 데이터셋) 보다는 모든 이용가능 데이터로 훈련된다. 구축하는 것(114)은 머신 러닝 모델을 성능 비교 통계와 비교하는 것 및 배치에 대해 머신 러닝 모델 중 하나 이상을 선택하는 것 후에 수행될 수 있다.
본 발명에 따른 발명 주제의 예가 이하 열거된 항목에 개시된다.
A1. 입력 데이터로 머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법으로, 방법이:
입력 데이터셋을 수신하는 단계와;
머신 러닝 모델의 선택을 수신하는 단계로서, 각 머신 러닝 모델은 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하는, 단계;
각 머신 러닝 모델을 위한 성능 결과를 생성하도록 각 머신 러닝 모델을 훈련시키고 평가하는 단계;
성능 비교 통계를 형성하도록 모든 머신 러닝 모델을 위한 성능 결과를 종합하는 단계; 및
성능 비교 통계를 제공하는 단계;를 갖추어 이루어지는 것을 특징으로 한다.
A2. 항목 A1의 방법으로, 입력 데이터셋이 시간-의존 데이터셋, 시-계열 데이터셋, 시간-스탬프 데이터셋, 시퀀셜 데이터셋(sequential dataset) 및 임시 데이터셋 중 적어도 하나인 것을 특징으로 한다.
A3. 항목 A1-A2 중 어느 방법으로, 입력 데이터셋이 시간의 연속적인 기간에서 측정된 가측치의 일련의 값을 포함하는 것을 특징으로 한다.
A4. 항목 A1-A3 중 어느 방법으로, 입력 데이터셋이 레이블된 데이터셋인 것을 특징으로 한다.
A5. 항목 A1-A4 중 어느 방법으로, 훈련시키고 평가하는 단계 전에, 입력 데이터셋을 글로벌 전처리하는 단계를 더 갖추어 이루어지고, 선택적으로 글로벌 전처리하는 단계가 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및 특징 추출 중 적어도 하나를 포함하는 것을 특징으로 한다.
A5.1. 항목 A5의 방법으로, 글로벌 전처리가 시간 윈도우 동안 특징 데이터의 통계를 적어도 결정하는 것에 의해 특징을 추출하는 단계를 포함하는 것을 특징으로 한다.
A5.1.1. 항목 A5.1의 방법으로, 통계는 최소, 최대, 평균, 변동, 편차, 누적 값, 변화율 및 변화의 평균율 중 적어도 하나를 포함하고, 선택적으로 그 중 적어도 하나인 것을 특징으로 한다.
A5.1.2. 항목 A5.1-A5.1.1 중 어느 방법으로, 통계가 데이터 포인트의 총 수, 시퀀셜 데이터 포인트의 최대 수, 시퀀셜 데이터 포인트의 최소 수, 시퀀셜 데이터 포인트의 평균 수, 종합 시간, 최대 시간, 최소 시간, 및 입력 특징 데이터가 임계 값 이상, 이하, 또는 대략 동등한 평균 시간 중 적어도 하나를 포함하고, 선택적으로 그 중 적어도 하나인 것을 특징으로 한다.
A6. 항목 A1-A5.1.2 중 어느 방법으로, 적어도 하나의, 선택적으로 각각의, 머신 러닝 모델은 나이브 베이즈 분류기, 트리-증강 나이브 베이즈 분류기, 동적 베이지안 네트워크, 서포트 벡터 머신, 학습된 의사결정 트리, 학습된 의사결정 트리의 앙상블 및 인공 신경망 중 적어도 하나를 포함하는 것을 특징으로 한다.
A7. 항목 A1-A6 중 어느 방법으로, 적어도 하나의, 선택적으로 각각의, 머신 러닝 모델은 마이크로-프로시저의 앙상블의 결론을 결합하는 매크로-프로시저이고, 각 마이크로-프로시저는 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하는 것을 특징으로 한다.
A7.1. 항목 A7의 방법으로, 적어도 하나의, 선택적으로 각각의, 마이크로-프로시저는 나이브 베이즈 분류기, 트리-증강 나이브 베이즈 분류기, 동적 베이지안 네트워크, 서포트 벡터 머신, 학습된 의사결정 트리, 학습된 의사결정 트리의 앙상블 및 인공 신경망 중 적어도 하나를 포함하는 것을 특징으로 한다.
A7.2. 항목 A7-A7.1 중 어느 방법으로, 매크로-프로시저가 누적 값, 최대 값, 최소값, 중간 값, 평균 값, 모드 값, 가장 일반적인 값 및 다수결 중 적어도 하나에 의해 마이크로-프로시저의 앙상블의 결론을 결합하도록 구성되는 것을 특징으로 한다.
A8. 항목 A1-A7.2 중 어느 방법으로, 머신 러닝 알고리즘은 머신 러닝 알고리즘의 확장가능 라이브러리로부터 선택되는 것을 특징으로 한다.
A9. 항목 A1-A8 중 어느 방법으로, 훈련시키고 평가하는 단계는, 선택적으로 독립적으로 각 머신 러닝 모델에 대해, 입력 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하는 단계를 포함하고, 선택적으로 훈련 데이터셋 및 평가 데이터셋은 입력 데이터셋의 상보 서브셋인 것을 특징으로 한다.
A9.1. 항목 A9의 방법으로, 훈련시키고 평가하는 단계는 분할하는 단계 이전에 입력 데이터을 전처리하는 단계를 포함하고, 선택적으로 입력 데이터셋을 전처리하는 단계는 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및 특징 추출 중 적어도 하나를 포함하는 것을 특징으로 한다.
A9.2. 항목 A9-A9.1 중 어느 방법으로, 훈련시키고 평가하는 단계는 훈련 데이터셋을 전처리하는 단계를 포함하고, 선택적으로 훈련 데이터셋을 전처리하는 단계는 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및 특징 추출 중 적어도 하나를 포함하는 것을 특징으로 한다.
A9.2.1. 항목 A9.2의 방법으로, 훈련 데이터셋을 전처리하는 단계는 전처리 기법을 발생시키는 단계를 포함하고, 훈련시키고 평가하는 단계는 전처리 기법으로 평가 데이터셋을 전처리하는 단계를 포함하는 것을 특징으로 한다.
A9.3. 항목 A9-A9.2.1 중 어느 방법으로, 훈련시키고 평가하는 단계는 평가 데이터셋을 전처리하는 단계를 포함하고, 선택적으로 평가 데이터셋을 전처리하는 단계는 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및 특징 추출 중 적어도 하나를 포함하는 것을 특징으로 한다.
A10. 항목 A1-A9.3 중 어느 방법으로, 훈련시키고 평가하는 단계는 각 머신 러닝 모델을 위한 훈련된 모델을 생성하도록 입력 데이터의 서브셋인 훈련 데이터셋으로 각 머신 러닝 모델을 훈련시키는 단계를 포함하는 것을 특징으로 한다.
A10.1. 항목 A10의 방법으로, 훈련시키고 평가하는 단계는 각 머신 러닝 모델을 위한 성능 결과를 생성하도록 입력 데이터셋의 서브셋인 평가 데이터셋으로 각 훈련된 모델을 평가하는 단계를 포함하고, 평가 데이터셋 및 훈련 데이터셋이 입력 데이터셋의 상보 서브셋인 것을 특징으로 한다.
A11. 항목 A1-A10.1 중 어느 방법으로, 훈련시키고 평가하는 단계는, 선택적으로 k겹 교차 검증을 이용해서, 각 머신 러닝 모델을 교차 검증하는 단계를 포함하는 것을 특징으로 한다.
A12. 항목 A1-A11 중 어느 방법으로, 훈련시키고 평가하는 단계는 각 머신 러닝 모델에 대해, 선택적으로 독립적으로 각 머신 러닝 모델에 대해, 입력 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하는 단계와, 훈련된 모델을 생성하도록 훈련 데이터셋으로 머신 러닝 모델을 훈련시키는 단계, 평가 결과를 생성하도록 평가 데이터셋으로 머신 러닝 모델을 평가하는 단계, 및 입력 데이터셋을 여러 훈련 데이터셋 및 여러 평가 데이터셋으로 분할하는 것에 의해 분할하고, 훈련시키고, 평가하는 단계를 반복하는 단계를 포함하는 것을 특징으로 한다.
A12.1. 항목 A12의 방법으로, 훈련시키고 평가하는 단계는 성능 결과를 생성하도록 평가 결과를 결합하는 단계를 포함하고, 선택적으로 결합하는 단계는 평가 결과를 평균하는 단계 및 평가 결과를 축적하는 단계 중 적어도 하나를 포함하는 것을 특징으로 한다.
A13. 항목 A1-A12.1 중 어느 방법으로, 훈련시키고 평가하는 단계는 지도 러닝을 이용하는 단계를 포함하는 것을 특징으로 한다.
A14. 항목 A1-A13 중 어느 방법으로, 또한, (매크로-프로시저와 관련되는) 항목 A7에 따라, 각 매크로-프로시저에 대해, 훈련시키고 평가하는 단계는, 훈련된 마이크로-프로시저의 앙상블을 생성하도록 각 마이크로-프로시저를 독립적으로 훈련시키는 것에 의해 훈련된 매크로-프로시저를 발생시키는 단계를 포함하고, 훈련된 매크로-프로시저를 평가하는 단계를 포함하며, 선택적으로 훈련된 매크로-프로시저를 발생시키는 단계는 훈련된 마이크로-프로시저의 앙상블로 매크로-프로시저를 훈련시키는 단계를 포함하는 것을 특징으로 한다.
A15. 항목 A1-A14 중 어느 방법으로, 적어도 하나의, 선택적으로 각각의, 머신 러닝 모델에 대한 성능 결과는 상관 계수, 평균 제곱 오차, 신뢰 구간, 다수의 TP(true positives), 다수의 TN(true negatives), 다수의 FP(false positives), 다수의 FN(false negatives), 정확도, 민감도, 양성 예측치, 특이성, 음성 예측치, 허위 양성률, FDR(false discovery rate), 허위 음성률, 및 FOR(false omission rate) 중 적어도 하나와 관련된 인디케이터, 값 및/또는 결과를 포함하는 것을 특징으로 한다.
A16. 항목 A1-A15 중 어느 방법으로, 종합하는 단계는 머신 러닝 모델의 각각에 대한 성능 결과를 축적하는 단계를 포함하는 것을 특징으로 한다.
A17. 항목 A1-A16 중 어느 방법으로, 성능 비교 통계는, 각 머신 러닝 모델에 대해, 상관 계수, 평균 제곱 오차, 신뢰 구간, 정확도, 다수의 TP(true positives), 다수의 TN(true negatives), 다수의 FP(false positives), 다수의 FN(false negatives), 민감도, 양성 예측치, 특이성, 음성 예측치, 허위 양성률, FDR(false discovery rate), 허위 음성률, 및 FOR(false omission rate) 중 적어도 하나와 관련된 인디케이터를 포함하는 것을 특징으로 한다.
A18. 항목 A1-A17 중 어느 방법으로, 제공하는 단계는 머신 러닝 모델의 비교를 용이하게 하기 위해 통일된 포맷으로 모든 머신 러닝 모델을 위한 성능 결과를 제공하는 단계를 포함하는 것을 특징으로 한다.
A19. 항목 A1-A18 중 어느 방법으로, 제공하는 단계는 시각, 음성, 및 촉각 디스플레이 중 적어도 하나에 의해 성능 비교 통계를 디스플레이하는 단계를 포함하는 것을 특징으로 한다.
A20. 컴퓨터-판독가능 저장 유닛과;
컴퓨터-판독가능 저장 유닛에 동작적으로 결합된 처리 유닛;을 구비하여 구성되고;
컴퓨터-판독가능 저장 유닛은, 처리 유닛에 의해 실행될 때, 머신 러닝 시스템이 항목 A1-A19 중 어느 방법을 수행하도록 하는 명령을 포함하는 것을 특징으로 하는 머신 러닝 시스템.
B1. 특정 데이터 분석 문제에 대해 후보 머신 러닝 알고리즘을 비교하기 위한 머신 러닝 시스템으로, 머신 러닝 시스템이:
공통 인터페이스로 테스트되어지도록 구성된 다수의 머신 러닝 알고리즘을 포함하는 머신 러닝 알고리즘 라이브러리와;
머신 러닝 모델의 선택 및 입력 데이터셋을 수신하도록 구성된, 각 머신 러닝 모델이 머신 러닝 알고리즘 라이브러리로부터의 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하는, 데이터 입력 모듈;
각 머신 러닝 모델에 대한 성능 결과를 생성하도록 각 머신 러닝 모델을 훈련 및 평가하도록 구성된 실험 모듈; 및
성능 비교 통계를 형성하기 위해 모든 머신 러닝 모델에 대한 성능 결과를 종합하도록 구성된 종합 모듈;을 구비하여 구성되는 것을 특징으로 하는 머신 러닝 시스템.
B2. 항목 B1의 머신 러닝 시스템으로, 다수의 머신 러닝 알고리즘이 나이브 베이즈 분류기, 트리-증강 나이브 베이즈 분류기, 동적 베이지안 네트워크, 서포트 벡터 머신, 학습된 의사결정 트리, 학습된 의사결정 트리의 앙상블 및 인공 신경망으로 구성된 그룹으로부터 선택된 적어도 하나의 알고리즘을 포함하는 것을 특징으로 한다.
B3. 항목 B1-B2 중 어느 머신 러닝 시스템으로, 공통 인터페이스는 공통 입력, 공통 출력, 데이터를 입력하기 위한 공통 방법, 데이터를 출력하기 위한 공통 방법, 및 머신 러닝 알고리즘 라이브러리의 각 머신 러닝 알고리즘을 위한 공통 절차 호출 중 적어도 하나를 정의하는 것을 특징으로 한다.
B4. 항목 B1-B3 중 어느 머신 러닝 시스템으로, 머신 러닝 알고리즘 라이브러리의 머신 러닝 알고리즘의 각각은 공통 포맷으로 데이터셋에 대해 동작하도록 구성되는 것을 특징으로 한다.
B5. 항목 B1-B4 중 어느 머신 러닝 시스템으로, 머신 러닝 알고리즘 라이브러리는 머신 러닝 알고리즘의 확장가능 라이브러리인 것을 특징으로 한다.
B6. 항목 B1-B5 중 어느 머신 러닝 시스템으로, 입력 데이터셋은 시간-의존 데이터셋, 시-계열 데이터셋, 시간-스탬프 데이터셋, 시퀀셜 데이터셋 및 임시 데이터셋 중 적어도 하나인 것을 특징으로 한다.
B7. 항목 B1-B6 중 어느 머신 러닝 시스템으로, 입력 데이터셋이 시간의 연속적인 기간에서 측정된 가측치의 일련의 값을 포함하는 것을 특징으로 한다.
B8. 항목 B1-B7 중 어느 머신 러닝 시스템으로, 입력 데이터셋이 레이블된 데이터셋인 것을 특징으로 한다.
B9. 항목 B1-B8 중 어느 머신 러닝 시스템으로, 실험 모듈에 의해 처리하기 위한 입력 데이터셋을 준비하도록 구성된 데이터 전처리기를 더 구비하여 구성되고, 데이터 전처리기는 입력 데이터셋을 이산화하고, 입력 데이터셋에 대해 독립 구성요소 분석을 적용하고, 입력 데이터셋에 대해 주 구성요소 분석을 적용하고, 입력 데이터셋으로부터 분실 데이터를 제거하고, 입력 데이터셋으로부터 특징을 선택하고, 입력 데이터셋으로부터 특징을 추출하는 것 중 적어도 하나를 하도록 구성되는 것을 특징으로 한다.
B9.1. 항목 B9의 머신 러닝 시스템으로, 데이터 전처리기가 시간 윈도우 동안 특징 데이터의 통계를 적어도 결정하는 것에 의해 특징을 추출하도록 구성되는 것을 특징으로 한다.
B9.1.1. 항목 B9.1의 머신 러닝 시스템으로, 통계는 최소, 최대, 평균, 변동, 편차, 누적 값, 변화율 및 변화의 평균율 중 적어도 하나를 포함하고, 선택적으로 그 중 적어도 하나인 것을 특징으로 한다.
B9.1.2. 항목 B9.1-B9.1.1 중 어느 머신 러닝 시스템으로, 통계가 데이터 포인트의 총 수, 시퀀셜 데이터 포인트의 최대 수, 시퀀셜 데이터 포인트의 최소 수, 시퀀셜 데이터 포인트의 평균 수, 종합 시간, 최대 시간, 최소 시간, 및 입력 특징 데이터가 임계 값에 대해 이상, 이하, 또는 대략 동등한 평균 시간 중 적어도 하나를 포함하고, 선택적으로 그 중 적어도 하나인 것을 특징으로 한다.
B10. 항목 B1-B9.1.2 중 어느 머신 러닝 시스템으로, 다수의 전처리 알고리즘을 포함하는 전처리 알고리즘 라이브러리를 더 구비하여 구성되고, 선택적으로 전처리 알고리즘이 공통 전처리 인터페이스에 따르는 것을 특징으로 한다.
B10.1. 항목 B1-B10 중 어느 머신 러닝 시스템으로, 공통 전처리 인터페이스는 공통 입력, 공통 출력, 데이터를 입력하기 위한 공통 방법, 데이터를 출력하기 위한 공통 방법, 및 머신 러닝 알고리즘 라이브러리의 각 머신 러닝 알고리즘을 위한 공통 절차 호출 중 적어도 하나를 정의하는 것을 특징으로 한다.
B10.2. 항목 B1-B10.1 중 어느 머신 러닝 시스템으로, 전처리 알고리즘 라이브러리의 전처리 알고리즘의 각각이 공통 포맷으로 데이터셋에 대해 동작하도록 구성되는 것을 특징으로 한다.
B10.3. 항목 B1-B10.2 중 어느 머신 러닝 시스템으로, 또한, (데이터 전처리기와 관련되는) 항목 B9에 따를 때, 데이터 전처리기는 전처리 알고리즘 라이브러리로부터 전처리 알고리즘을 선택하도록 구성되는 것을 특징으로 한다.
B11. 항목 B1-B10.3 중 어느 머신 러닝 시스템으로, 적어도 하나의, 선택적으로 각각의, 머신 러닝 모델은 나이브 베이즈 분류기, 트리-증강 나이브 베이즈 분류기, 동적 베이지안 네트워크, 서포트 벡터 머신, 학습된 의사결정 트리, 학습된 의사결정 트리의 앙상블 및 인공 신경망 중 적어도 하나를 포함하는 것을 특징으로 한다.
B12. 항목 B1-B11 중 어느 머신 러닝 시스템으로, 적어도 하나의, 선택적으로 각각의, 머신 러닝 모델은 마이크로-프로시저의 앙상블의 결론을 결합하는 매크로-프로시저이고, 각 마이크로-프로시저는 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하는 것을 특징으로 한다.
B12.1. 항목 B12의 머신 러닝 시스템으로, 적어도 하나의, 선택적으로 각각의, 마이크로-프로시저는 나이브 베이즈 분류기, 트리-증강 나이브 베이즈 분류기, 동적 베이지안 네트워크, 서포트 벡터 머신, 학습된 의사결정 트리, 학습된 의사결정 트리의 앙상블 및 인공 신경망 중 적어도 하나를 포함하는 것을 특징으로 한다.
B12.2. 항목 B12-B12.1 중 어느 머신 러닝 시스템으로, 매크로-프로시저가 누적 값, 최대 값, 최소값, 중간 값, 평균 값, 모드 값, 가장 일반적인 값 및 다수결 중 적어도 하나에 의해 마이크로-프로시저의 앙상블의 결론을 결합하도록 구성되는 것을 특징으로 한다.
B13. 항목 B1-B12.1 중 어느 머신 러닝 시스템으로, 실험 모듈은, 선택적으로 독립적으로 각 머신 러닝 모델에 대해, 입력 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하도록 구성되고, 선택적으로 훈련 데이터셋 및 평가 데이터셋은 입력 데이터셋의 상보 서브셋인 것을 특징으로 한다.
B13.1. 항목 B13의 머신 러닝 시스템으로, 실험 모듈은 입력 데이터셋을 분할하기 이전에 입력 데이터셋을 전처리하도록 구성되고, 선택적으로 입력 데이터셋을 전처리하는 것은 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및 특징 추출 중 적어도 하나를 포함하는 것을 특징으로 한다.
B13.2. 항목 B13-B13.1 중 어느 머신 러닝 시스템으로, 실험 모듈이 선택적으로 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및 특징 추출 중 적어도 하나에 의해 훈련 데이터셋을 전처리하도록 구성되는 것을 특징으로 한다.
B13.2.1. 항목 B13.2의 러닝 시스템으로, 실험 모듈이 전처리 기법을 초래하도록 훈련 데이터셋을 전처리하도록 구성되고, 실험 모듈이 전처리 기법으로 평가 데이터셋을 전처리하도록 구성되는 것을 특징으로 한다.
B13.3. 항목 B13-B13.2.1 중 어느 머신 러닝 시스템으로, 실험 모듈이 선택적으로 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및 특징 추출 중 적어도 하나에 의해 평가 데이터셋을 전처리하도록 구성되는 것을 특징으로 한다.
B14. 항목 B1-B13.3 중 어느 머신 러닝 시스템으로, 실험 모듈은 각 머신 러닝 모델을 위한 훈련된 모델을 생성하도록 입력 데이터셋의 서브셋인 훈련 데이터셋으로 각 머신 러닝 모델을 훈련시키도록 구성되는 것을 특징으로 한다.
B14.1. 항목 B14의 러닝 시스템으로, 실험 모듈은 각 머신 러닝 모델을 위한 성능 결과를 생성하도록 입력 데이터셋의 서브셋인 평가 데이터셋으로 각 훈련된 모델을 평가하도록 구성되고, 선택적으로 평가 데이터셋 및 훈련 데이터셋이 입력 데이터셋의 상보 서브셋인 것을 특징으로 한다.
B15. 항목 B1-B14.1 중 어느 머신 러닝 시스템으로, 실험 모듈은, 선택적으로 k겹 교차 검증을 이용해서, 각 머신 러닝 모델을 교차 검증하도록 구성되는 것을 특징으로 한다.
B16. 항목 B1-B15 중 어느 머신 러닝 시스템으로, 실험 모듈은, 각 머신 러닝 모델에 대해, 선택적으로 독립적으로 각 머신 러닝 모델에 대해, 성능 결과를 생성하기 위해 입력 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하고, 훈련된 모델을 생성하도록 훈련 데이터셋으로 머신 러닝 모델을 훈련시키고, 평가 데이터셋으로 머신 러닝 모델을 평가하도록 구성되는 것을 특징으로 한다.
B17. 항목 B1-B15 중 어느 머신 러닝 시스템으로, 실험 모듈은, 각 머신 러닝 모델에 대해, 선택적으로 독립적으로 각 머신 러닝 모델에 대해, 입력 데이터셋의 여러 분할을 위해, 입력 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하고, 훈련된 모델을 생성하도록 훈련 데이터셋으로 머신 러닝 모델을 훈련시키며, 평가 결과를 생성하도록 평가 데이터셋으로 머신 러닝 모델을 평가하는 것을 반복하고, 선택적으로 평가 결과를 평균하는 것과 평가 결과를 축적하는 것 중 적어도 하나에 의해, 성능 결과를 발생시키도록 입력 데이터셋의 여러 분할로부터 생성된 평가 결과를 결합하도록 구성되는 것을 특징으로 한다.
B18. 항목 B1-B17 중 어느 머신 러닝 시스템으로, 실험 모듈이 지도 러닝을 수행하도록 구성되는 것을 특징으로 한다.
B19. 항목 B1-B18 중 어느 머신 러닝 시스템으로, 또한 (매크로-프로시저와 관련되는) 항목 B12에 따라, 각 매크로-프로시저에 대해, 실험 모듈은 훈련된 마이크로-프로시저의 앙상블을 생성하도록 각 마이크로-프로시저를 독립적으로 훈련시키는 것에 의해 훈련된 매크로-프로시저를 발생시키도록 구성되고, 훈련된 매크로-프로시저를 평가하도록 구성되며, 선택적으로 실험 모듈이 훈련된 마이크로-프로시저의 앙상블로 매크로-프로시저를 훈련시키는 것에 의해 훈련된 매크로-프로시저를 발생시키도록 구성되는 것을 특징으로 한다.
B20. 항목 B1-B19 중 어느 머신 러닝 시스템으로, 적어도 하나의, 선택적으로 각각의, 머신 러닝 모델에 대한 성능 결과는 상관 계수, 평균 제곱 오차, 신뢰 구간, 다수의 TP(true positives), 다수의 TN(true negatives), 다수의 FP(false positives), 다수의 FN(false negatives), 정확도, 민감도, 양성 예측치, 특이성, 음성 예측치, 허위 양성률, FDR(false discovery rate), 허위 음성률, 및 FOR(false omission rate) 중 적어도 하나와 관련된 인디케이터를 포함하는 것을 특징으로 한다.
B21. 항목 B1-B20 중 어느 머신 러닝 시스템으로, 종합 모듈은 머신 러닝 모델의 각각을 위한 성능 결과를 축적하도록 구성되는 것을 특징으로 한다.
B22. 항목 B1-B21 중 어느 머신 러닝 시스템으로, 성능 비교 통계는, 각 머신 러닝 모델에 대해, 상관 계수, 평균 제곱 오차, 신뢰 구간, 다수의 TP(true positives), 다수의 TN(true negatives), 다수의 FP(false positives), 다수의 FN(false negatives), 민감도, 양성 예측치, 특이성, 음성 예측치, 허위 양성률, FDR(false discovery rate), 허위 음성률, 및 FOR(false omission rate) 중 적어도 하나와 관련된 인디케이터를 포함하는 것을 특징으로 한다.
B23. 항목 B1-B22 중 어느 머신 러닝 시스템으로, 성능 비교 통계를 제공하도록 구성된 프리젠테이션 모듈을 더 구비하여 구성되는 것을 특징으로 한다.
B23.1. 항목 B23의 머신 러닝 시스템으로, 프리젠테이션 모듈은 머신 러닝 모델의 비교를 용이하게 하기 위해 통일된 포맷으로 모든 머신 러닝 모델을 위한 성능 결과를 제공하도록 구성되는 것을 특징으로 한다.
B23.2. 항목 B23-B23.1 중 어느 머신 러닝 시스템으로, 프리젠테이션 모듈이 시각, 음성 및 촉각 디스플레이 중 적어도 하나에 의해 성능 비교 통계를 디스플레이하도록 구성되는 것을 특징으로 한다.
B24. 항목 B1-B23.2 중 어느 머신 러닝 시스템으로,
컴퓨터-판독가능 저장 유닛과;
컴퓨터-판독가능 저장 유닛에 동작적으로 결합된 처리 유닛;을 더 구비하여 구성되고;
컴퓨터-판독가능 저장 유닛은 머신 러닝 알고리즘 라이브러리, 데이터 입력 모듈, 실험 모듈 및 종합 모듈을 포함하는 것을 특징으로 한다.
여기서 이용된 바와 같이, 사용자는 사람(예컨대, 오퍼레이터 등), 클라이언트 장치(client device), 및/또는 클라이언트 모듈(client module), 에이전트(agent), 프로그램(program), 프로세스(process), 및/또는 프로시저(procedure; 절차)일 수 있다. 따라서, 머신 러닝 시스템(10)은 사용자 인터페이스 엘리먼트(user interface elements), 스크립트 파싱 엘리먼트(script parsing elements)를 포함할 수 있고, 및/또는 서버 동작에 대해 전용될 수 있다.
여기서 이용된 바와 같이, 용어 "채택된(adapted)" 및 "구성된(configured)은 엘리먼트, 구성요소 또는 다른 주제가 주어진 기능을 수행하도록 설계 및/또는 의도됨을 의미한다. 따라서, 용어 "채택된" 및 "구성된"의 이용은 주어진 엘리먼트, 구성요소, 또는 다른 주제가 단순히 주어진 기능을 수행하는 것이 "가능"하지만, 엘리먼트, 구성요소, 및/또는 다른 주제가 기능을 수행하는 목적을 위해 특별히 선택되고, 생성되고, 구현되고, 이용되고, 프로그램되고, 및/또는 설계됨을 의미하도록 해석되지 않아야 한다. 특정 기능을 수행하도록 채택되는 것으로 열거된 엘리먼트, 구성요소, 및/또는 다른 열거된 주제는 부가적으로 또는 대안적으로 해당 기능을 수행하도록 구성되는 것으로 설명될 수 있고, 반대일 수 있음이 또한 본 발명의 범위 내에 있다. 마찬가지로, 특정 기능을 수행하도록 구성되는 것으로 열거된 주제는 해당 기능을 수행하도록 동작하는 것으로 부가적으로 또는 대안적으로 설명될 수 있다. 더욱이, 여기서 이용된 바와 같이, 문맥 상 명백히 달리 나타내지 않는 한에는, 단수 형태 "하나("a", "an", "the")"는 복수 형태를 포함하도록 의도될 수 있다.
시스템 및 장치의 다양한 개시된 엘리먼트, 및 여기에 개시된 방법의 단계는 본 발명에 따른 모든 시스템, 장치 및 방법을 요구하지는 않고, 본 발명은 여기에 개시된 다양한 엘리먼트 및 단계의 모든 신규하고 자명하지 않은 조합 및 하부 조합을 포함한다. 더욱이, 여기에 개시된, 다양한 엘리먼트 및 단계의 어느 것, 또는 다양한 엘리먼트 및/또는 단계의 어떠한 조합은 개시된 시스템, 장치 또는 방법의 전부로부터 별도로 그리고 멀어지는 독립적인 발명 주제를 정의할 수 있다. 따라서, 이러한 발명 주제는 여기서 명시적으로 개시된 특정 시스템, 장치 및 방법과 관련되도록 요구되지는 않고, 이러한 발명 주제는 여기서 명시적으로 개시된 시스템 및/또는 방법에서의 이용을 찾을 수 있다.
여기서 이용된 바와 같이, 문구 "예컨대", 문구 "예로서", 및/또는 단순히 "예"는, 본 발명에 따른 하나 이상의 구성요소, 특징, 상세내용, 구조, 실시예, 및/또는 방법을 참조하여 이용될 때, 개시된 구성요소, 특징, 상세내용, 구조, 실시예, 및/또는 방법이 본 발명에 따른 구성요소, 특징, 상세내용, 구조, 실시예, 및/또는 방법의 예시적인, 비-배타적인 예임을 전달하도록 의도된다. 따라서, 개시된 구성요소, 특징, 상세내용, 구조, 실시예, 및/또는 방법은 제한하고, 요구되고, 또는 배타적/표괄적으로 되도록 의도되지는 않고; 구조적으로 및/또는 기능적으로 유사하고 및/또는 균등 구성요소, 특징, 상세내용, 구조, 실시예 및/또는 방법을 포함하는 다른 구성요소, 특징, 상세내용, 구조, 실시예, 및/또는 방법은 또한 본 발명의 범위 내에 있다.
여기서 이용된 바와 같이, 문구 "중 적어도 하나" 및 "중 하나 이상"은, 하나 이상의 엔티티의 리스트를 참조하면, 엔티티의 리스트에서 엔티티 중 어느 하나 이상을 의미하고, 엔티티의 리스트 내에서 특별히 리스트된 각각 그리고 모든 엔티티 중 적어도 하나로 제한되지는 않는다. 예컨대, "A 및 B 중 적어도 하나"(또는, 동등하게, "A 또는 B 중 적어도 하나", 또는 동등하게 "A 및/또는 B 중 적어도 하나")는 A 단독, B 단독, 또는 A 및 B의 조합을 언급할 수 있다.
더욱이, 본 발명은 이하의 조항에 따른 실시예를 구비하여 구성된다.
조항 1. 특정 데이터 분석 문제에 대해 후보 머신 러닝 알고리즘을 비교하기 위한 머신 러닝 시스템으로, 머신 러닝 시스템이:
공통 인터페이스로 테스트되어지도록 구성된 다수의 머신 러닝 알고리즘을 포함하는 머신 러닝 알고리즘 라이브러리와;
머신 러닝 모델의 선택 및 데이터셋을 수신하도록 구성된, 각 머신 러닝 모델이 머신 러닝 알고리즘 라이브러리로부터의 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하는, 데이터 입력 모듈;
각 머신 러닝 모델에 대한 성능 결과를 생성하도록 각 머신 러닝 모델을 훈련 및 평가하도록 구성된 실험 모듈; 및
성능 비교 통계를 형성하기 위해 모든 머신 러닝 모델에 대한 성능 결과를 종합하도록 구성된 종합 모듈;을 구비하여 구성되는 것을 특징으로 하는 머신 러닝 시스템.
조항 2. 조항 1의 머신 러닝 시스템으로, 공통 인터페이스가 공통 입력, 공통 출력, 데이터를 입력하기 위한 공통 방법, 데이터를 출력하기 위한 공통 방법, 및 머신 러닝 알고리즘 라이브러리의 각 머신 러닝 알고리즘을 위한 공통 절차 호출 중 적어도 하나를 정의하는 것을 특징으로 한다.
조항 3. 조항 1 또는 조항 2의 머신 러닝 시스템으로, 실험 모듈에 의한 처리를 위해 데이터셋을 준비하도록 구성된 데이터 전처리기를 더 구비하여 구성되고, 데이터 전처리기는 데이터셋을 이산화하고, 데이터셋에 대해 독립 구성요소 분석을 적용하고, 데이터셋에 대해 주 구성요소 분석을 적용하고, 데이터셋으로부터 분실 데이터를 제거하고, 데이터셋으로부터 특징을 선택하고, 데이터셋으로부터 특징을 추출하는 것 중 적어도 하나에 대해 구성되는 것을 특징으로 한다.
조항 4. 조항 3의 머신 러닝 시스템으로, 데이터 전처리기는 시간 윈도우 동안 특징 데이터의 통계를 적어도 결정하는 것에 의해 특징을 추출하도록 구성되고, 통계는 최소, 최대, 평균, 변동, 편차, 누적 값, 변화율 및 변화의 평균율 중 적어도 하나를 포함하는 것을 특징으로 한다.
조항 5. 조항 1, 2, 3 또는 4의 머신 러닝 시스템으로, 다수의 전처리 알고리즘을 포함하는 전처리 알고리즘 라이브러리를 더 구비하여 구성되고, 전처리 알고리즘이 공통 전처리 인터페이스에 따르는 것을 특징으로 한다.
조항 6. 조항 1, 2, 3, 4 또는 5의 머신 러닝 시스템으로, 적어도 하나의 머신 러닝 모델이 마이크로-프로시저의 앙상블의 결론을 결합하는 매크로-프로시저이고, 각 마이크로-프로시저는 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하고, 매크로-프로시저는 누적 값, 최대 값, 최소값, 중간 값, 평균 값, 모드 값, 가장 일반적인 값 및/또는 다수결 중 적어도 하나에 의해 마이크로-프로시저의 앙상블의 결론을 결합하도록 구성되는 것을 특징으로 한다.
조항 7. 조항 6의 머신 러닝 시스템으로, 각 매크로-프로시저에 대해, 실험 모듈이 훈련된 마이크로-프로시저의 앙상블을 생성하기 위해 각 마이크로-프로시저를 독립적으로 훈련시키는 것에 의해 훈련된 매크로-프로시저를 발생시키도록 구성되고, 실험 모듈이 훈련된 매크로-프로시저를 평가하도록 구성되는 것을 특징으로 한다.
조항 8. 조항 1, 2, 3, 4, 5, 6 또는 7의 머신 러닝 시스템으로, 실험 모듈이 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하도록 구성되고, 훈련 데이터셋 및 평가 데이터셋이 데이터셋의 상보 서브셋인 것을 특징으로 한다.
조항 9. 조항 8의 머신 러닝 시스템으로, 실험 모듈이 전처리 기법을 초래하도록 훈련 데이터셋을 전처리하도록 구성되고, 실험 모듈이 전처리 기법으로 평가 데이터셋을 전처리하도록 구성되는 것을 특징으로 한다.
조항 10. 조항 1, 2, 3, 4, 5, 6, 7, 8 또는 9의 머신 러닝 시스템으로, 실험 모듈이 각 머신 러닝 모델을 위한 훈련된 모델을 생성하도록 데이터셋의 서브셋인 훈련 데이터셋으로 각 머신 러닝 모델을 훈련시키도록 구성되고, 실험 모듈이 각 머신 러닝 모델을 위한 성능 결과를 생성하도록 데이터셋의 서브셋인 평가 데이터셋으로 각 훈련된 모델을 평가하도록 구성되는 것을 특징으로 한다.
조항 11. 조항 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10의 머신 러닝 시스템으로, 실험 모듈이 LOOCV(leave-one-out cross validation) 및 k겹 교차 검증(k-fold cross validation) 중 적어도 하나를 이용해서 각 머신 러닝 모델을 교차 검증하도록 구성되는 것을 특징으로 한다.
조항 12. 조항 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 또는 11의 머신 러닝 시스템으로, 성능 비교 통계를 제공하도록 구성된 프리젠테이션 모듈을 더 구비하여 구성되고, 프리젠테이션 모듈이 머신 러닝 모델의 비교를 용이하게 하기 위해 통일된 포맷으로 모든 머신 러닝 모델을 위한 성능 결과를 제공하도록 구성되는 것을 특징으로 한다.
조항 13. 머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법으로, 방법이:
데이터셋을 수신하는 단계와;
머신 러닝 모델의 선택을 수신하는 단계로서, 각 머신 러닝 모델이 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하는, 단계;
각 머신 러닝 모델을 위한 성능 결과를 생성하도록 각 머신 러닝 모델을 훈련시키고 평가하는 단계;
성능 비교 통계를 형성하도록 모든 머신 러닝 모델을 위한 성능 결과를 종합하는 단계; 및
성능 비교 통계를 제공하는 단계;를 갖추어 이루어지는 것을 특징으로 한다.
조항 14. 조항 13의 방법으로, 데이터셋이 시간의 연속적인 기간에서 측정된 가측치의 일련의 값을 포함하는 시계열 데이터셋인 것을 특징으로 한다.
조항 15. 조항 13 또는 14의 방법으로, 훈련시키고 평가하는 단계 전에, 데이터셋을 글로벌 전처리하는 단계를 더 갖추어 이루어지고, 글로벌 전처리하는 단계가 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및/또는 특징 추출 중 적어도 하나를 포함하는 것을 특징으로 한다.
조항 16. 조항 15의 방법으로, 글로벌 전처리하는 단계는 시간 윈도우 동안 특징 데이터의 통계를 적어도 결정하는 것에 의해 특징을 추출하는 단계를 포함하고, 통계는 최소, 최대, 평균, 변동, 편차, 누적 값, 변화율 및 변화의 평균율 중 적어도 하나를 포함하는 것을 특징으로 한다.
조항 17. 조항 13, 14, 15 또는 16의 방법으로, 적어도 하나의 머신 러닝 모델이 마이크로-프로시저의 앙상블의 결론을 결합하는 매크로-프로시저이고, 각 마이크로-프로시저는 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하고, 매크로-프로시저가 누적 값, 최대 값, 최소값, 중간 값, 평균 값, 모드 값, 가장 일반적인 값 및 다수결 중 적어도 하나에 의해 마이크로-프로시저의 앙상블의 결론을 결합하도록 구성되는 것을 특징으로 한다.
조항 18. 조항 13, 14, 15, 16 또는 17의 방법으로, 훈련시키고 평가하는 단계가 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하는 단계를 포함하고, 훈련 데이터셋 및 평가 데이터셋이 데이터셋의 상보 서브셋이고, 훈련시키고 평가하는 단계가 전처리 기법을 발생시키도록 훈련 데이터셋을 전처리하는 단계를 포함하고 훈련시키고 평가하는 단계가 전처리 기법으로 평가 데이터셋을 전처리하는 단계를 포함하는 것을 특징으로 한다.
조항 19. 조항 13, 14, 15, 16, 17 또는 18의 방법으로, 훈련시키고 평가하는 단계가 각 머신 러닝 모델을 위한 훈련된 모델을 생성하도록 데이터셋의 서브셋인 훈련 데이터셋으로 각 머신 러닝 모델을 훈련시키는 단계를 포함하고, 훈련시키고 평가하는 단계가 각 머신 러닝 모델을 위한 성능 결과를 생성하도록 데이터셋의 서브셋인 평가 데이터셋으로 각 훈련된 모델을 평가하는 단계를 포함하고, 평가 데이터셋 및 훈련 데이터셋이 데이터셋의 상보 서브셋인 것을 특징으로 한다.
조항 20. 조항 13, 14, 15, 16, 17, 18 또는 19의 방법으로, 훈련시키고 평가하는 단계는, 각 머신 러닝 모델에 대해, 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하는 단계와, 훈련된 모델을 생성하도록 훈련 데이터셋으로 머신 러닝 모델을 훈련시키는 단계, 평가 결과를 생성하도록 평가 데이터셋으로 머신 러닝 모델을 평가하는 단계, 및 데이터셋을 여러 훈련 데이터셋 및 여러 평가 데이터셋으로 분할하는 것에 의해 분할하고, 훈련시키고, 평가하는 단계를 반복하는 단계를 포함하고, 훈련시키고 평가하는 단계는 성능 결과를 생성하도록 평가 결과를 결합하는 단계를 포함하는 것을 특징으로 한다.
소정의 특허, 특허 출원, 또는 다른 참고문헌이 본원에 참고문헌으로 포함되고, 본 발명의 비-통합된 부분 또는 다른 통합된 참고문헌의 어느 것 중 어느 하나와 (1) 상반되는 방식으로 용어를 정의하고 및/또는 (2) 그렇지않으면 상반되는 경우에도, 본 발명의 비-통합된 부분을 조절해야 하고, 용어 또는 그에 통합된 발명은 용어가 정의되고 및/또는 통합된 발명이 본래 존재하였던 참고문헌에 관하여 오직 조절해야 한다.

Claims (15)

  1. 특정 데이터 분석 문제에 대해 후보 머신 러닝 알고리즘을 비교하기 위한 머신 러닝 시스템(10)으로, 머신 러닝 시스템(10)이:
    공통 인터페이스로 테스트되어지도록 구성된 다수의 머신 러닝 알고리즘을 포함하는 머신 러닝 알고리즘 라이브러리(22)와;
    머신 러닝 모델(32)의 선택 및 데이터셋을 수신하도록 구성된, 각 머신 러닝 모델(32)이 머신 러닝 알고리즘 라이브러리(22)로부터의 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하는, 데이터 입력 모듈(20);
    각 머신 러닝 모델에 대한 성능 결과를 생성하도록 각 머신 러닝 모델(32)을 훈련 및 평가하도록 구성된 실험 모듈(30); 및
    성능 비교 통계를 형성하기 위해 모든 머신 러닝 모델(32)에 대한 성능 결과를 종합하도록 구성된 종합 모듈(40);을 구비하여 구성되는 것을 특징으로 하는 머신 러닝 시스템.
  2. 제1항에 있어서,
    공통 인터페이스가 공통 입력, 공통 출력, 데이터를 입력하기 위한 공통 방법, 데이터를 출력하기 위한 공통 방법, 및 머신 러닝 알고리즘 라이브러리(22)의 각 머신 러닝 알고리즘을 위한 공통 절차 호출 중 적어도 하나를 정의하는 것을 특징으로 하는 머신 러닝 시스템.
  3. 제1항 또는 제2항에 있어서,
    실험 모듈(30)에 의한 처리를 위해 데이터셋을 준비하도록 구성된 데이터 전처리기(24)를 더 구비하여 구성되고, 데이터 전처리기(24)는 데이터셋을 이산화하고, 데이터셋에 대해 독립 구성요소 분석을 적용하고, 데이터셋에 대해 주 구성요소 분석을 적용하고, 데이터셋으로부터 분실 데이터를 제거하고, 데이터셋으로부터 특징을 선택하고, 데이터셋으로부터 특징을 추출하는 것 중 적어도 하나를 하도록 구성되는 것을 특징으로 하는 머신 러닝 시스템.
  4. 제1항 또는 제2항에 있어서,
    다수의 전처리 알고리즘을 포함하는 전처리 알고리즘 라이브러리(26)를 더 구비하여 구성되고, 전처리 알고리즘이 공통 전처리 인터페이스에 따르는 것을 특징으로 하는 머신 러닝 시스템.
  5. 제1항 또는 제2항에 있어서,
    적어도 하나의 머신 러닝 모델(32)이 마이크로-프로시저(38)의 앙상블의 결론을 결합하는 매크로-프로시저(36)이고, 각 마이크로-프로시저(38)는 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하고, 매크로-프로시저(36)는 누적 값, 최대 값, 최소값, 중간 값, 평균 값, 모드 값, 가장 일반적인 값 및/또는 다수결 중 적어도 하나에 의해 마이크로-프로시저(38)의 앙상블의 결론을 결합하도록 구성되는 것을 특징으로 하는 머신 러닝 시스템.
  6. 제1항 또는 제2항에 있어서,
    실험 모듈(30)이 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하도록 구성되고, 훈련 데이터셋 및 평가 데이터셋이 데이터셋의 상보 서브셋인 것을 특징으로 하는 머신 러닝 시스템.
  7. 제1항 또는 제2항에 있어서,
    실험 모듈(30)이 각 머신 러닝 모델을 위한 훈련된 모델을 생성하도록 데이터셋의 서브셋인 훈련 데이터셋으로 각 머신 러닝 모델(32)을 훈련시키도록 구성되고, 실험 모듈(30)이 각 머신 러닝 모델을 위한 성능 결과를 생성하도록 데이터셋의 서브셋인 평가 데이터셋으로 각 훈련된 모델을 평가하도록 구성되는 것을 특징으로 하는 머신 러닝 시스템.
  8. 제1항 또는 제2항에 있어서,
    실험 모듈(30)이 LOOCV(leave-one-out cross validation) 및 k겹 교차 검증(k-fold cross validation) 중 적어도 하나를 이용해서 각 머신 러닝 모델(32)을 교차 검증하도록 구성되는 것을 특징으로 하는 머신 러닝 시스템.
  9. 제1항 또는 제2항에 있어서,
    성능 비교 통계를 제공하도록 구성된 프리젠테이션 모듈(44)을 더 구비하여 구성되고, 프리젠테이션 모듈(44)이 머신 러닝 모델(32)의 비교를 용이하게 하기 위해 통일된 포맷으로 모든 머신 러닝 모델(32)을 위한 성능 결과를 제공하도록 구성되는 것을 특징으로 하는 머신 러닝 시스템.
  10. 머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법(100)으로, 방법이:
    데이터셋을 수신하는 단계(102)와;
    머신 러닝 모델(32)의 선택을 수신하는 단계(104)로서, 각 머신 러닝 모델(32)이 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하는, 단계;
    각 머신 러닝 모델(32)을 위한 성능 결과를 생성하도록 각 머신 러닝 모델(32)을 훈련시키고 평가하는 단계(106);
    성능 비교 통계를 형성하도록 모든 머신 러닝 모델(32)을 위한 성능 결과를 종합하는 단계(108); 및
    성능 비교 통계를 제공하는 단계(110);를 갖추어 이루어지는 것을 특징으로 하는 머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법.
  11. 제10항에 있어서,
    데이터셋이 시간의 연속적인 기간에서 측정된 가측치의 일련의 값을 포함하는 시계열 데이터셋인 것을 특징으로 하는 머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법.
  12. 제10항 또는 제11항에 있어서,
    훈련시키고 평가하는 단계(106) 전에, 데이터셋을 글로벌 전처리하는 단계(112)를 더 갖추어 이루어지고, 글로벌 전처리하는 단계(112)가 이산화, 독립 구성요소 분석, 주 구성요소 분석, 누락 데이터의 제거, 특징 선택, 및/또는 특징 추출 중 적어도 하나를 포함하는 것을 특징으로 하는 머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법.
  13. 제10항 또는 제11항에 있어서,
    적어도 하나의 머신 러닝 모델(32)이 마이크로-프로시저(38)의 앙상블의 결론을 결합하는 매크로-프로시저(36)이고, 각 마이크로-프로시저(38)는 머신 러닝 알고리즘 및 하나 이상의 관련된 파라미터 값을 포함하고, 매크로-프로시저(36)가 누적 값, 최대 값, 최소값, 중간 값, 평균 값, 모드 값, 가장 일반적인 값 및 다수결 중 적어도 하나에 의해 마이크로-프로시저(38)의 앙상블의 결론을 결합하도록 구성되는 것을 특징으로 하는 머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법.
  14. 제10항 또는 제11항에 있어서,
    훈련시키고 평가하는 단계(106)가 데이터셋을 훈련 데이터셋 및 평가 데이터셋으로 분할하는 단계(120)를 포함하고, 훈련 데이터셋 및 평가 데이터셋이 데이터셋의 상보 서브셋이고, 훈련시키고 평가하는 단계(106)가 전처리 기법을 발생시키도록 훈련 데이터셋을 전처리하는 단계(132)를 포함하고, 훈련시키고 평가하는 단계(106)가 전처리 기법으로 평가 데이터셋을 전처리하는 단계(134)를 포함하는 것을 특징으로 하는 머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법.
  15. 제10항 또는 제11항에 있어서,
    훈련시키고 평가하는 단계(106)가 각 머신 러닝 모델(32)을 위한 훈련된 모델을 생성하도록 데이터셋의 서브셋인 훈련 데이터셋으로 각 머신 러닝 모델(32)을 훈련시키는 단계(122)를 포함하고, 훈련시키고 평가하는 단계(106)가 각 머신 러닝 모델(32)을 위한 성능 결과를 생성하도록 데이터셋의 서브셋인 평가 데이터셋으로 각 훈련된 모델을 평가하는 단계(124)를 포함하고, 평가 데이터셋 및 훈련 데이터셋이 데이터셋의 상보 서브셋인 것을 특징으로 하는 머신 러닝 알고리즘을 테스트하기 위한 컴퓨터화된 방법.
KR1020160057309A 2015-06-04 2016-05-11 머신 러닝을 위한 진보된 분석 기반시설 KR20160143512A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/730,655 2015-06-04
US14/730,655 US20160358099A1 (en) 2015-06-04 2015-06-04 Advanced analytical infrastructure for machine learning

Publications (1)

Publication Number Publication Date
KR20160143512A true KR20160143512A (ko) 2016-12-14

Family

ID=56097016

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160057309A KR20160143512A (ko) 2015-06-04 2016-05-11 머신 러닝을 위한 진보된 분석 기반시설

Country Status (5)

Country Link
US (1) US20160358099A1 (ko)
EP (1) EP3101599A3 (ko)
JP (1) JP2017004509A (ko)
KR (1) KR20160143512A (ko)
CN (1) CN106250986A (ko)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180092213A (ko) * 2017-02-08 2018-08-17 조선대학교산학협력단 인공신경망을 이용하여 광역해를 산출하는 방법
KR20190022153A (ko) * 2017-08-25 2019-03-06 국방과학연구소 하이브리드 머신 캐릭터 기반의 기계학습 시스템 및 그 구현방법
KR101966557B1 (ko) * 2017-12-08 2019-04-05 세종대학교산학협력단 빅데이터와 머신러닝을 이용한 수리부속수요 예측 시스템 및 방법
WO2019098418A1 (ko) * 2017-11-16 2019-05-23 삼성전자 주식회사 뉴럴 네트워크 학습 방법 및 디바이스
KR102009284B1 (ko) * 2018-11-28 2019-08-09 주식회사 피엠아이지 비즈니스 프로세스의 마지막 액티비티의 수행 시점을 예측하기 위해 동적 순환신경망을 학습시키는 비즈니스 프로세스 학습 장치
KR102005952B1 (ko) * 2019-02-13 2019-10-01 이승봉 기계학습 모델링에서 잡음 데이터 제거를 위한 데이터 정제 장치 및 방법
WO2019190003A1 (ko) * 2018-03-30 2019-10-03 조선대학교 산학협력단 유가스 저류층에서 인공신경망을 이용한 복수의시추정 위치 최적화 방법
KR102037279B1 (ko) * 2019-02-11 2019-11-15 주식회사 딥노이드 딥러닝 시스템 및 그 최적 학습 모델 결정 방법
KR102069084B1 (ko) * 2019-03-28 2020-02-11 (주)위세아이텍 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법
KR20200037602A (ko) * 2018-10-01 2020-04-09 주식회사 한글과컴퓨터 인공 신경망 선택 장치 및 방법
KR102102418B1 (ko) * 2018-12-10 2020-04-20 주식회사 티포러스 인공지능 솔루션을 테스트하는 장치 및 방법
KR102103902B1 (ko) * 2019-07-03 2020-04-23 (주)위세아이텍 컴포넌트 기반의 머신러닝 자동화 예측 장치 및 방법
KR20200048474A (ko) 2018-10-30 2020-05-08 삼성에스디에스 주식회사 전이 학습을 위한 기반 모델 결정 방법 및 그 방법을 지원하는 장치
WO2021040791A1 (en) * 2019-08-23 2021-03-04 Landmark Graphics Corporation Probability distribution assessment for classifying subterranean formations using machine learning
KR102245480B1 (ko) * 2020-05-26 2021-04-28 주식회사 일루니 레이어 블록을 이용한 딥러닝 모델 생성 방법
KR102245896B1 (ko) * 2020-12-07 2021-04-29 지티원 주식회사 인공 지능 모형 기반의 어노테이션 데이터 검증 방법 및 그 시스템
KR102254178B1 (ko) * 2020-10-30 2021-05-20 주식회사 애자일소다 인공지능 모델 서비스를 위한 사용자 인터페이스를 이용한 테스트 장치 및 방법
KR20210065751A (ko) * 2019-11-27 2021-06-04 강릉원주대학교산학협력단 결측값 대체 시스템 및 결측값 대체 방법
KR102310589B1 (ko) * 2021-03-19 2021-10-13 주식회사 인피닉 스크립트를 이용한 어노테이션 결과물의 검증 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR20220049857A (ko) * 2020-10-15 2022-04-22 한화시스템 주식회사 데이터 레이블링 장치 및 방법
KR20220077311A (ko) * 2020-12-01 2022-06-09 가천대학교 산학협력단 인공지능 모델 훈련 데이터셋의 관리방법
US11481671B2 (en) 2019-05-16 2022-10-25 Visa International Service Association System, method, and computer program product for verifying integrity of machine learning models
WO2023075021A1 (ko) * 2021-10-29 2023-05-04 한국전자기술연구원 정보 인프라 모니터링 데이터 간 연관성 도출 방법
KR102631386B1 (ko) 2023-08-16 2024-01-31 메타빌드주식회사 인공지능 모델의 학습 방법, 학습 시스템 및 이를 위한컴퓨터 프로그램
US11941513B2 (en) 2018-12-06 2024-03-26 Electronics And Telecommunications Research Institute Device for ensembling data received from prediction devices and operating method thereof

Families Citing this family (201)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9773041B2 (en) 2013-03-06 2017-09-26 Oracle International Corporation Methods and apparatus of shared expression evaluation across RDBMS and storage layer
US10594763B2 (en) 2013-03-15 2020-03-17 adRise, Inc. Platform-independent content generation for thin client applications
US10356461B2 (en) 2013-03-15 2019-07-16 adRise, Inc. Adaptive multi-device content generation based on associated internet protocol addressing
US10887421B2 (en) 2013-03-15 2021-01-05 Tubi, Inc. Relevant secondary-device content generation based on associated internet protocol addressing
US9766818B2 (en) * 2014-12-31 2017-09-19 Samsung Electronics Co., Ltd. Electronic system with learning mechanism and method of operation thereof
WO2016128491A1 (en) 2015-02-11 2016-08-18 British Telecommunications Public Limited Company Validating computer resource usage
EP3329440A1 (en) 2015-07-31 2018-06-06 British Telecommunications public limited company Controlled resource provisioning in distributed computing environments
EP3329408A1 (en) 2015-07-31 2018-06-06 British Telecommunications public limited company Expendable access control
US11347876B2 (en) 2015-07-31 2022-05-31 British Telecommunications Public Limited Company Access control
US10176435B1 (en) * 2015-08-01 2019-01-08 Shyam Sundar Sarkar Method and apparatus for combining techniques of calculus, statistics and data normalization in machine learning for analyzing large volumes of data
US9699205B2 (en) * 2015-08-31 2017-07-04 Splunk Inc. Network security system
JP6558188B2 (ja) * 2015-09-30 2019-08-14 富士通株式会社 分散処理システム、学習モデル作成方法、データ処理方法、学習モデル作成プログラムおよびデータ処理プログラム
US20170154273A1 (en) * 2015-11-30 2017-06-01 Seematics Systems Ltd System and method for automatically updating inference models
US10706361B1 (en) * 2015-12-11 2020-07-07 The Boeing Company Hybrid feature selection for performance prediction of fluid control valves
US10015185B1 (en) * 2016-03-24 2018-07-03 EMC IP Holding Company LLC Risk score aggregation for automated detection of access anomalies in a computer network
WO2017167547A1 (en) 2016-03-30 2017-10-05 British Telecommunications Public Limited Company Cryptocurrencies malware based detection
US11023248B2 (en) 2016-03-30 2021-06-01 British Telecommunications Public Limited Company Assured application services
US11159549B2 (en) 2016-03-30 2021-10-26 British Telecommunications Public Limited Company Network traffic threat identification
EP3437290B1 (en) 2016-03-30 2020-08-26 British Telecommunications public limited company Detecting computer security threats
WO2017167549A1 (en) 2016-03-30 2017-10-05 British Telecommunications Public Limited Company Untrusted code distribution
US10558933B2 (en) * 2016-03-30 2020-02-11 International Business Machines Corporation Merging feature subsets using graphical representation
GB201608101D0 (en) * 2016-05-09 2016-06-22 Magic Pony Technology Ltd Multiscale 3D texture synthesis
GB2579789B (en) * 2016-06-13 2022-03-02 Geoquest Systems Bv Runtime parameter selection in simulations
US11816539B1 (en) * 2016-06-14 2023-11-14 SurgeonCheck LLC Selection system for machine learning module for determining target metrics for evaluation of health care procedures and providers
US10474789B2 (en) 2016-06-24 2019-11-12 The Boeing Company Prediction methods and systems for structural repair during heavy maintenance of aircraft
US10552002B1 (en) 2016-09-27 2020-02-04 Palantir Technologies Inc. User interface based variable machine modeling
US11064267B2 (en) * 2016-11-14 2021-07-13 Google Llc Systems and methods for providing interactive streaming media
US10769549B2 (en) * 2016-11-21 2020-09-08 Google Llc Management and evaluation of machine-learned models based on locally logged data
US20180189647A1 (en) * 2016-12-29 2018-07-05 Google, Inc. Machine-learned virtual sensor model for multiple sensors
US10205735B2 (en) 2017-01-30 2019-02-12 Splunk Inc. Graph-based network security threat detection across time and entities
KR20180096241A (ko) 2017-02-21 2018-08-29 삼성전자주식회사 보행 보조 장치의 제어 방법 및 장치
US10931694B2 (en) 2017-02-24 2021-02-23 LogRhythm Inc. Processing pipeline for monitoring information systems
US10902357B2 (en) 2017-02-28 2021-01-26 International Business Machines Corporation Dynamic cognitive issue archiving and resolution insight
US10585737B2 (en) 2017-02-28 2020-03-10 International Business Machines Corporation Dynamic cognitive issue archiving and resolution insight
US10984352B2 (en) 2017-02-28 2021-04-20 International Business Machines Corporation Dynamic cognitive issue archiving and resolution insight
CN108537340B (zh) * 2017-03-02 2021-04-27 北京君正集成电路股份有限公司 模型数据的读取方法和装置
JP6707483B2 (ja) * 2017-03-09 2020-06-10 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
JP6781956B2 (ja) * 2017-03-14 2020-11-11 オムロン株式会社 学習結果比較装置、学習結果比較方法、及びそのプログラム
US10740690B2 (en) * 2017-03-24 2020-08-11 Facebook, Inc. Automatically tagging topics in posts during composition thereof
CA3057539A1 (en) * 2017-03-28 2018-10-04 Oracle International Corporation Systems and methods for intelligently providing supporting information using machine-learning
WO2018178034A1 (en) 2017-03-30 2018-10-04 British Telecommunications Public Limited Company Anomaly detection for computer systems
WO2018178026A1 (en) 2017-03-30 2018-10-04 British Telecommunications Public Limited Company Hierarchical temporal memory for access control
EP3382591B1 (en) 2017-03-30 2020-03-25 British Telecommunications public limited company Hierarchical temporal memory for expendable access control
US11151472B2 (en) 2017-03-31 2021-10-19 At&T Intellectual Property I, L.P. Dynamic updating of machine learning models
US11416751B2 (en) * 2017-03-31 2022-08-16 H2O.Ai Inc. Time-based ensemble machine learning model
US10296831B2 (en) 2017-05-03 2019-05-21 Virginia Tech Intellectual Properties, Inc. Learning radio signals using radio signal transformers
WO2018206408A1 (en) * 2017-05-08 2018-11-15 British Telecommunications Public Limited Company Management of interoperating machine leaning algorithms
WO2018206406A1 (en) * 2017-05-08 2018-11-15 British Telecommunications Public Limited Company Adaptation of machine learning algorithms
US20210142221A1 (en) * 2017-05-08 2021-05-13 British Telecommunications Public Limited Company Autonomous logic modules
US11698818B2 (en) 2017-05-08 2023-07-11 British Telecommunications Public Limited Company Load balancing of machine learning algorithms
US11823017B2 (en) 2017-05-08 2023-11-21 British Telecommunications Public Limited Company Interoperation of machine learning algorithms
WO2018213205A1 (en) * 2017-05-14 2018-11-22 Digital Reasoning Systems, Inc. Systems and methods for rapidly building, managing, and sharing machine learning models
JP2021501384A (ja) * 2017-07-06 2021-01-14 リキッド バイオサイエンシズ,インコーポレイテッド 次元削減により計算時間を減少させるための方法
GB201710877D0 (en) 2017-07-06 2017-08-23 Nokia Technologies Oy A method and an apparatus for evaluating generative machine learning model
US11062792B2 (en) * 2017-07-18 2021-07-13 Analytics For Life Inc. Discovering genomes to use in machine learning techniques
US10817757B2 (en) * 2017-07-31 2020-10-27 Splunk Inc. Automated data preprocessing for machine learning
US10353803B2 (en) * 2017-08-21 2019-07-16 Facebook, Inc. Dynamic device clustering
US11120368B2 (en) 2017-09-27 2021-09-14 Oracle International Corporation Scalable and efficient distributed auto-tuning of machine learning and deep learning models
US11544494B2 (en) 2017-09-28 2023-01-03 Oracle International Corporation Algorithm-specific neural network architectures for automatic machine learning model selection
US11176487B2 (en) * 2017-09-28 2021-11-16 Oracle International Corporation Gradient-based auto-tuning for machine learning and deep learning models
WO2019082982A1 (ja) 2017-10-26 2019-05-02 日本電気株式会社 分散処理管理装置、分散処理方法、及びコンピュータ読み取り可能な記録媒体
JP7043596B2 (ja) * 2017-10-27 2022-03-29 グーグル エルエルシー ニューラルアーキテクチャ検索
EP3480714A1 (en) 2017-11-03 2019-05-08 Tata Consultancy Services Limited Signal analysis systems and methods for features extraction and interpretation thereof
US11164078B2 (en) * 2017-11-08 2021-11-02 International Business Machines Corporation Model matching and learning rate selection for fine tuning
EP3662418B1 (de) * 2017-11-08 2021-08-25 Siemens Aktiengesellschaft Verfahren und vorrichtung für maschinelles lernen in einer recheneinheit
US10776760B2 (en) 2017-11-17 2020-09-15 The Boeing Company Machine learning based repair forecasting
CN107766940B (zh) * 2017-11-20 2021-07-23 北京百度网讯科技有限公司 用于生成模型的方法和装置
CN107798390B (zh) 2017-11-22 2023-03-21 创新先进技术有限公司 一种机器学习模型的训练方法、装置以及电子设备
CN107729994B (zh) * 2017-11-28 2020-05-26 南京地平线机器人技术有限公司 执行卷积神经网络中的卷积层的运算的方法和装置
US11410074B2 (en) 2017-12-14 2022-08-09 Here Global B.V. Method, apparatus, and system for providing a location-aware evaluation of a machine learning model
CN108009643B (zh) * 2017-12-15 2018-10-30 清华大学 一种机器学习算法自动选择方法和系统
KR101864412B1 (ko) * 2017-12-28 2018-06-04 (주)휴톰 학습용 데이터 관리방법, 장치 및 프로그램
US11288576B2 (en) * 2018-01-05 2022-03-29 Illumina, Inc. Predicting quality of sequencing results using deep neural networks
CN108280289B (zh) * 2018-01-22 2021-10-08 辽宁工程技术大学 基于局部加权c4.5算法的冲击地压危险等级预测方法
JP6895399B2 (ja) * 2018-02-06 2021-06-30 株式会社日立製作所 機械制御装置
JP6875058B2 (ja) * 2018-02-09 2021-05-19 Kddi株式会社 複数の認識エンジンを用いてコンテキストを推定するプログラム、装置及び方法
US10592145B2 (en) 2018-02-14 2020-03-17 Commvault Systems, Inc. Machine learning-based data object storage
WO2019172956A1 (en) * 2018-03-06 2019-09-12 Tazi AI Systems, Inc. Continuously learning, stable and robust online machine learning system
EP3542721A1 (de) * 2018-03-23 2019-09-25 Siemens Healthcare GmbH Verfahren zur bearbeitung von parametern eines maschinenlernverfahrens sowie rekonstruktionsverfahren
GB201805302D0 (en) * 2018-03-29 2018-05-16 Benevolentai Tech Limited Ensemble Model Creation And Selection
US10162850B1 (en) * 2018-04-10 2018-12-25 Icertis, Inc. Clause discovery for validation of documents
US11669914B2 (en) 2018-05-06 2023-06-06 Strong Force TX Portfolio 2018, LLC Adaptive intelligence and shared infrastructure lending transaction enablement platform responsive to crowd sourced information
AU2019267454A1 (en) 2018-05-06 2021-01-07 Strong Force TX Portfolio 2018, LLC Methods and systems for improving machines and systems that automate execution of distributed ledger and other transactions in spot and forward markets for energy, compute, storage and other resources
US11544782B2 (en) 2018-05-06 2023-01-03 Strong Force TX Portfolio 2018, LLC System and method of a smart contract and distributed ledger platform with blockchain custody service
US11550299B2 (en) 2020-02-03 2023-01-10 Strong Force TX Portfolio 2018, LLC Automated robotic process selection and configuration
US20190370634A1 (en) * 2018-06-01 2019-12-05 International Business Machines Corporation Data platform to protect security of data used by machine learning models supported by blockchain
FR3082963A1 (fr) * 2018-06-22 2019-12-27 Amadeus S.A.S. Systeme et procede d'evaluation et de deploiement de modeles d'apprentissage automatique non supervises ou semi-supervises
US10928309B2 (en) 2018-06-29 2021-02-23 Viavi Solutions Inc. Cross-validation based calibration of a spectroscopic model
CN110210624A (zh) * 2018-07-05 2019-09-06 第四范式(北京)技术有限公司 执行机器学习过程的方法、装置、设备以及存储介质
US20200034665A1 (en) * 2018-07-30 2020-01-30 DataRobot, Inc. Determining validity of machine learning algorithms for datasets
US11561938B1 (en) * 2018-07-31 2023-01-24 Cerner Innovation, Inc. Closed-loop intelligence
CN109063846B (zh) * 2018-07-31 2022-05-10 北京城市网邻信息技术有限公司 机器学习的运行方法、装置、设备及存储介质
US11082438B2 (en) 2018-09-05 2021-08-03 Oracle International Corporation Malicious activity detection by cross-trace analysis and deep learning
US11451565B2 (en) 2018-09-05 2022-09-20 Oracle International Corporation Malicious activity detection by cross-trace analysis and deep learning
US11218498B2 (en) 2018-09-05 2022-01-04 Oracle International Corporation Context-aware feature embedding and anomaly detection of sequential log data using deep recurrent neural networks
CN110895718A (zh) * 2018-09-07 2020-03-20 第四范式(北京)技术有限公司 用于训练机器学习模型的方法及系统
CN112654864A (zh) * 2018-09-13 2021-04-13 株式会社岛津制作所 数据解析装置
JP6944156B2 (ja) * 2018-09-21 2021-10-06 日本電信電話株式会社 オーケストレータ装置、プログラム、情報処理システム、及び制御方法
JP6944155B2 (ja) * 2018-09-21 2021-10-06 日本電信電話株式会社 オーケストレータ装置、プログラム、情報処理システム、及び制御方法
US11501191B2 (en) 2018-09-21 2022-11-15 International Business Machines Corporation Recommending machine learning models and source codes for input datasets
CN109408583B (zh) * 2018-09-25 2023-04-07 平安科技(深圳)有限公司 数据处理方法及装置、计算机可读存储介质、电子设备
JP7172356B2 (ja) * 2018-09-25 2022-11-16 日本電気株式会社 AI(artificial intelligence)実行支援装置、方法、及びプログラム
US11270227B2 (en) * 2018-10-01 2022-03-08 Nxp B.V. Method for managing a machine learning model
CN109359770B (zh) * 2018-10-11 2022-06-24 中国疾病预防控制中心环境与健康相关产品安全所 一种基于机器学习预测中暑发生的模型及方法
US11544630B2 (en) 2018-10-15 2023-01-03 Oracle International Corporation Automatic feature subset selection using feature ranking and scalable automatic search
US11061902B2 (en) 2018-10-18 2021-07-13 Oracle International Corporation Automated configuration parameter tuning for database performance
CN109460825A (zh) * 2018-10-24 2019-03-12 阿里巴巴集团控股有限公司 用于构建机器学习模型的特征选取方法、装置以及设备
US11544493B2 (en) 2018-10-25 2023-01-03 The Boeing Company Machine learning model development with interactive exploratory data analysis
US11367016B2 (en) * 2018-10-25 2022-06-21 The Boeing Company Machine learning model development with interactive model building
US11858651B2 (en) 2018-10-25 2024-01-02 The Boeing Company Machine learning model development with interactive feature construction and selection
US11501103B2 (en) 2018-10-25 2022-11-15 The Boeing Company Interactive machine learning model development
US11263480B2 (en) 2018-10-25 2022-03-01 The Boeing Company Machine learning model development with interactive model evaluation
TWI710922B (zh) 2018-10-29 2020-11-21 安碁資訊股份有限公司 行為標記模型訓練系統及方法
CN111177802B (zh) * 2018-11-09 2022-09-13 安碁资讯股份有限公司 行为标记模型训练系统及方法
KR102271449B1 (ko) * 2018-11-17 2021-07-01 한국과학기술정보연구원 인공지능 모델 플랫폼 및 인공지능 모델 플랫폼 운영 방법
JP6799047B2 (ja) * 2018-11-19 2020-12-09 ファナック株式会社 暖機運転評価装置、暖機運転評価方法及び暖機運転評価プログラム
JP7251955B2 (ja) * 2018-11-21 2023-04-04 ファナック株式会社 検出装置及び機械学習方法
KR101990326B1 (ko) 2018-11-28 2019-06-18 한국인터넷진흥원 감가율 자동 조정 방식의 강화 학습 방법
CN109583590B (zh) * 2018-11-29 2020-11-13 深圳和而泰数据资源与云技术有限公司 数据处理方法及数据处理装置
US10936974B2 (en) 2018-12-24 2021-03-02 Icertis, Inc. Automated training and selection of models for document analysis
KR102142205B1 (ko) * 2019-01-04 2020-08-06 에스케이 주식회사 설명 가능한 인공지능 모델링 및 시뮬레이션 시스템 및 방법
US11151246B2 (en) 2019-01-08 2021-10-19 EMC IP Holding Company LLC Risk score generation with dynamic aggregation of indicators of compromise across multiple categories
US10726374B1 (en) 2019-02-19 2020-07-28 Icertis, Inc. Risk prediction based on automated analysis of documents
US11809966B2 (en) 2019-03-07 2023-11-07 International Business Machines Corporation Computer model machine learning based on correlations of training data with performance trends
CN110008121B (zh) * 2019-03-19 2022-07-12 合肥中科类脑智能技术有限公司 一种个性化测试系统及其测试方法
EP3948706A1 (en) * 2019-04-03 2022-02-09 Telefonaktiebolaget Lm Ericsson (Publ) Technique for facilitating use of machine learning models
US11922301B2 (en) 2019-04-05 2024-03-05 Samsung Display Co., Ltd. System and method for data augmentation for trace dataset
CN110070117B (zh) * 2019-04-08 2023-04-07 腾讯科技(深圳)有限公司 一种数据处理方法及装置
US11429895B2 (en) * 2019-04-15 2022-08-30 Oracle International Corporation Predicting machine learning or deep learning model training time
US11615265B2 (en) 2019-04-15 2023-03-28 Oracle International Corporation Automatic feature subset selection based on meta-learning
CN110059743B (zh) * 2019-04-15 2021-10-29 北京致远慧图科技有限公司 确定预测的可靠性度量的方法、设备和存储介质
US11620568B2 (en) 2019-04-18 2023-04-04 Oracle International Corporation Using hyperparameter predictors to improve accuracy of automatic machine learning model selection
CN109992911B (zh) * 2019-05-06 2023-04-07 福州大学 基于极限学习机和iv特性的光伏组件快速建模方法
JP7297532B2 (ja) * 2019-05-28 2023-06-26 オークマ株式会社 機械学習用データ収集システム及びデータ収集方法
US11868854B2 (en) 2019-05-30 2024-01-09 Oracle International Corporation Using metamodeling for fast and accurate hyperparameter optimization of machine learning and deep learning models
JP7393882B2 (ja) 2019-06-18 2023-12-07 キヤノンメディカルシステムズ株式会社 医用情報処理装置及び医用情報処理システム
JP7361505B2 (ja) * 2019-06-18 2023-10-16 キヤノンメディカルシステムズ株式会社 医用情報処理装置及び医用情報処理方法
EP3754550A1 (en) 2019-06-21 2020-12-23 Siemens Healthcare GmbH Method for providing an aggregate algorithm for processing medical data and method for processing medical data
US20210012239A1 (en) * 2019-07-12 2021-01-14 Microsoft Technology Licensing, Llc Automated generation of machine learning models for network evaluation
KR102290132B1 (ko) * 2019-08-19 2021-08-13 건국대학교 산학협력단 부동산 가격 예측 장치 및 방법
CN110471857B (zh) * 2019-08-22 2023-07-25 中国工商银行股份有限公司 人工智能模型性能容量的自动测试方法及装置
US20210073041A1 (en) * 2019-09-11 2021-03-11 Baidu Usa Llc Data transmission with obfuscation using an obfuscation unit for a data processing (dp) accelerator
US11562267B2 (en) 2019-09-14 2023-01-24 Oracle International Corporation Chatbot for defining a machine learning (ML) solution
US11663523B2 (en) 2019-09-14 2023-05-30 Oracle International Corporation Machine learning (ML) infrastructure techniques
US11556862B2 (en) 2019-09-14 2023-01-17 Oracle International Corporation Techniques for adaptive and context-aware automated service composition for machine learning (ML)
WO2021051917A1 (zh) * 2019-09-16 2021-03-25 华为技术有限公司 人工智能ai模型的评估方法、系统及设备
US11681931B2 (en) 2019-09-24 2023-06-20 International Business Machines Corporation Methods for automatically configuring performance evaluation schemes for machine learning algorithms
US11593642B2 (en) 2019-09-30 2023-02-28 International Business Machines Corporation Combined data pre-process and architecture search for deep learning models
US11587094B2 (en) * 2019-09-30 2023-02-21 EMC IP Holding Company LLC Customer service ticket evaluation using multiple time-based machine learning models customer
US11710045B2 (en) 2019-10-01 2023-07-25 Samsung Display Co., Ltd. System and method for knowledge distillation
CN110728047B (zh) * 2019-10-08 2023-04-07 中国工程物理研究院化工材料研究所 一种基于机器学习性能预测含能分子计算机辅助设计系统
US11886514B2 (en) * 2019-10-11 2024-01-30 Kinaxis Inc. Machine learning segmentation methods and systems
US11537825B2 (en) 2019-10-11 2022-12-27 Kinaxis Inc. Systems and methods for features engineering
CN110880014B (zh) * 2019-10-11 2023-09-05 中国平安财产保险股份有限公司 数据处理方法、装置、计算机设备及存储介质
US11526899B2 (en) 2019-10-11 2022-12-13 Kinaxis Inc. Systems and methods for dynamic demand sensing
US10963231B1 (en) * 2019-10-15 2021-03-30 UiPath, Inc. Using artificial intelligence to select and chain models for robotic process automation
US20210117800A1 (en) * 2019-10-22 2021-04-22 Mipsology SAS Multiple locally stored artificial neural network computations
CA3156623A1 (en) * 2019-10-30 2021-05-06 Jennifer Laetitia Prendki Automatic reduction of training sets for machine learning programs
US11302096B2 (en) 2019-11-21 2022-04-12 International Business Machines Corporation Determining model-related bias associated with training data
US11636386B2 (en) 2019-11-21 2023-04-25 International Business Machines Corporation Determining data representative of bias within a model
DE102019218127A1 (de) * 2019-11-25 2021-05-27 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum optimalen Bereitstellen von KI-Systemen
JP7222344B2 (ja) * 2019-12-06 2023-02-15 横河電機株式会社 判定装置、判定方法、判定プログラム、学習装置、学習方法、および、学習プログラム
US11727284B2 (en) * 2019-12-12 2023-08-15 Business Objects Software Ltd Interpretation of machine learning results using feature analysis
CN111079283B (zh) * 2019-12-13 2023-06-09 四川新网银行股份有限公司 对信息饱和度不均衡数据的处理方法
CN111210023B (zh) * 2020-01-13 2023-04-11 哈尔滨工业大学 数据集分类学习算法自动选择系统及方法
CN111190945B (zh) * 2020-01-16 2023-05-23 西安交通大学 一种基于机器学习的高温高速润滑脂设计方法
US11640556B2 (en) 2020-01-28 2023-05-02 Microsoft Technology Licensing, Llc Rapid adjustment evaluation for slow-scoring machine learning models
EP4100893A4 (en) * 2020-02-03 2024-03-20 Strong Force Tx Portfolio 2018 Llc SELECTION AND CONFIGURATION OF ARTIFICIAL INTELLIGENCE
US11394774B2 (en) * 2020-02-10 2022-07-19 Subash Sundaresan System and method of certification for incremental training of machine learning models at edge devices in a peer to peer network
JP2021134408A (ja) * 2020-02-28 2021-09-13 Jfeスチール株式会社 モデル学習方法、合金化度制御方法、合金化溶融亜鉛めっき鋼板の製造方法、モデル学習装置、合金化度制御装置および合金化溶融亜鉛めっき鋼板の製造装置
US11301351B2 (en) * 2020-03-27 2022-04-12 International Business Machines Corporation Machine learning based data monitoring
JP2021177266A (ja) * 2020-04-17 2021-11-11 株式会社鈴康 プログラム、情報処理装置、情報処理方法及び学習モデルの生成方法
US20230153685A1 (en) * 2020-04-21 2023-05-18 Telefonaktiebolaget Lm Ericsson (Publ) Methods, apparatus and machine-readable media relating to data analytics in a communications network
US11151710B1 (en) * 2020-05-04 2021-10-19 Applied Materials Israel Ltd. Automatic selection of algorithmic modules for examination of a specimen
EP3916496A1 (en) * 2020-05-29 2021-12-01 ABB Schweiz AG An industrial process model generation system
JP6908250B1 (ja) * 2020-06-08 2021-07-21 株式会社Fronteo 情報処理装置、情報処理方法、及び情報処理プログラム
WO2021262179A1 (en) * 2020-06-25 2021-12-30 Hitachi Vantara Llc Automated machine learning: a unified, customizable, and extensible system
EP4172890A1 (en) * 2020-06-30 2023-05-03 Australia and New Zealand Banking Group Limited Method and system for generating an ai model using constrained decision tree ensembles
US20220024607A1 (en) 2020-07-22 2022-01-27 The Boeing Company Predictive maintenance model design system
KR102504939B1 (ko) * 2020-09-01 2023-03-02 국민대학교산학협력단 클라우드 기반 딥러닝 작업의 수행시간 예측 시스템 및 방법
JP2022044321A (ja) 2020-09-07 2022-03-17 富士通株式会社 データ提示プログラム、データ提示方法および情報処理装置
US11914678B2 (en) 2020-09-23 2024-02-27 International Business Machines Corporation Input encoding for classifier generalization
WO2022067247A1 (en) * 2020-09-28 2022-03-31 The Trustees Of Columbia University In The City Of New York Systems and methods for electromechanical wave imaging with machine learning for automated activation map generation
US11699099B2 (en) 2020-10-28 2023-07-11 Quantico Energy Solutions Llc Confidence volumes for earth modeling using machine learning
JP2022076203A (ja) 2020-11-09 2022-05-19 富士通株式会社 データ生成プログラム、データ生成方法および情報処理装置
CN112270403B (zh) * 2020-11-10 2022-03-29 北京百度网讯科技有限公司 构建深度学习的网络模型的方法、装置、设备和存储介质
US11449517B2 (en) 2020-12-22 2022-09-20 Oracle International Corporation Kernel subsampling for an accelerated tree similarity computation
US20220215452A1 (en) * 2021-01-05 2022-07-07 Coupang Corp. Systems and method for generating machine searchable keywords
CN112801287A (zh) * 2021-01-26 2021-05-14 商汤集团有限公司 神经网络性能评估方法及装置、电子设备及存储介质
EP4290426A4 (en) 2021-02-04 2024-04-03 Fujitsu Ltd ACCURACY CALCULATION PROGRAM, ACCURACY CALCULATION METHOD AND INFORMATION PROCESSING DEVICE
JP2024507765A (ja) * 2021-02-12 2024-02-21 ワイズ ラブズ,インコーポレイテッド エッジデバイスに展開されたモデルによる機械学習への自己教師あり共同アプローチ
US20220262455A1 (en) * 2021-02-18 2022-08-18 Recursion Pharmaceuticals, Inc. Determining the goodness of a biological vector space
CN112966438A (zh) * 2021-03-05 2021-06-15 北京金山云网络技术有限公司 机器学习算法选择方法、分布式计算系统
US20220343218A1 (en) * 2021-04-26 2022-10-27 International Business Machines Corporation Input-Encoding with Federated Learning
US20220405809A1 (en) * 2021-06-21 2022-12-22 Tubi, Inc. Model serving for advanced frequency management
US11561978B2 (en) 2021-06-29 2023-01-24 Commvault Systems, Inc. Intelligent cache management for mounted snapshots based on a behavior model
KR20240035819A (ko) * 2021-07-21 2024-03-18 제니알리스 인코포레이티드 편향 및/또는 배치 효과를 해결하여 서로 다른 '오믹스 데이터세트를 조화시키는 전처리기 시스템
CN113792491A (zh) * 2021-09-17 2021-12-14 广东省科学院新材料研究所 晶粒尺寸预测模型的建立方法、装置及预测方法
WO2023097022A1 (en) * 2021-11-23 2023-06-01 Strong Force Ee Portfolio 2022, Llc Ai-based energy edge platform, systems, and methods
US11361034B1 (en) 2021-11-30 2022-06-14 Icertis, Inc. Representing documents using document keys
WO2023140841A1 (en) * 2022-01-20 2023-07-27 Visa International Service Association System, method, and computer program product for time-based ensemble learning using supervised and unsupervised machine learning models

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782976B (zh) * 2010-01-15 2013-04-10 南京邮电大学 一种云计算环境下机器学习自动选择方法
US8370280B1 (en) * 2011-07-14 2013-02-05 Google Inc. Combining predictive models in predictive analytical modeling
US10417575B2 (en) * 2012-12-14 2019-09-17 Microsoft Technology Licensing, Llc Resource allocation for machine learning

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180092213A (ko) * 2017-02-08 2018-08-17 조선대학교산학협력단 인공신경망을 이용하여 광역해를 산출하는 방법
KR20190022153A (ko) * 2017-08-25 2019-03-06 국방과학연구소 하이브리드 머신 캐릭터 기반의 기계학습 시스템 및 그 구현방법
WO2019098418A1 (ko) * 2017-11-16 2019-05-23 삼성전자 주식회사 뉴럴 네트워크 학습 방법 및 디바이스
US11681912B2 (en) 2017-11-16 2023-06-20 Samsung Electronics Co., Ltd. Neural network training method and device
KR101966557B1 (ko) * 2017-12-08 2019-04-05 세종대학교산학협력단 빅데이터와 머신러닝을 이용한 수리부속수요 예측 시스템 및 방법
WO2019190003A1 (ko) * 2018-03-30 2019-10-03 조선대학교 산학협력단 유가스 저류층에서 인공신경망을 이용한 복수의시추정 위치 최적화 방법
KR20200037602A (ko) * 2018-10-01 2020-04-09 주식회사 한글과컴퓨터 인공 신경망 선택 장치 및 방법
KR20200048474A (ko) 2018-10-30 2020-05-08 삼성에스디에스 주식회사 전이 학습을 위한 기반 모델 결정 방법 및 그 방법을 지원하는 장치
KR102009284B1 (ko) * 2018-11-28 2019-08-09 주식회사 피엠아이지 비즈니스 프로세스의 마지막 액티비티의 수행 시점을 예측하기 위해 동적 순환신경망을 학습시키는 비즈니스 프로세스 학습 장치
US11941513B2 (en) 2018-12-06 2024-03-26 Electronics And Telecommunications Research Institute Device for ensembling data received from prediction devices and operating method thereof
KR102102418B1 (ko) * 2018-12-10 2020-04-20 주식회사 티포러스 인공지능 솔루션을 테스트하는 장치 및 방법
KR102037279B1 (ko) * 2019-02-11 2019-11-15 주식회사 딥노이드 딥러닝 시스템 및 그 최적 학습 모델 결정 방법
KR102005952B1 (ko) * 2019-02-13 2019-10-01 이승봉 기계학습 모델링에서 잡음 데이터 제거를 위한 데이터 정제 장치 및 방법
KR102069084B1 (ko) * 2019-03-28 2020-02-11 (주)위세아이텍 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법
US11481671B2 (en) 2019-05-16 2022-10-25 Visa International Service Association System, method, and computer program product for verifying integrity of machine learning models
KR102103902B1 (ko) * 2019-07-03 2020-04-23 (주)위세아이텍 컴포넌트 기반의 머신러닝 자동화 예측 장치 및 방법
WO2021040791A1 (en) * 2019-08-23 2021-03-04 Landmark Graphics Corporation Probability distribution assessment for classifying subterranean formations using machine learning
US11954567B2 (en) 2019-08-23 2024-04-09 Landmark Graphics Corporation Probability distribution assessment for classifying subterranean formations using machine learning
GB2599881A (en) * 2019-08-23 2022-04-13 Landmark Graphics Corp Probability distribution assessment for classifying subterranean formations using machine learning
GB2599881B (en) * 2019-08-23 2023-06-14 Landmark Graphics Corp Probability distribution assessment for classifying subterranean formations using machine learning
KR20210065751A (ko) * 2019-11-27 2021-06-04 강릉원주대학교산학협력단 결측값 대체 시스템 및 결측값 대체 방법
KR102245480B1 (ko) * 2020-05-26 2021-04-28 주식회사 일루니 레이어 블록을 이용한 딥러닝 모델 생성 방법
KR20220049857A (ko) * 2020-10-15 2022-04-22 한화시스템 주식회사 데이터 레이블링 장치 및 방법
KR102254178B1 (ko) * 2020-10-30 2021-05-20 주식회사 애자일소다 인공지능 모델 서비스를 위한 사용자 인터페이스를 이용한 테스트 장치 및 방법
KR20220077311A (ko) * 2020-12-01 2022-06-09 가천대학교 산학협력단 인공지능 모델 훈련 데이터셋의 관리방법
KR102245896B1 (ko) * 2020-12-07 2021-04-29 지티원 주식회사 인공 지능 모형 기반의 어노테이션 데이터 검증 방법 및 그 시스템
KR102310589B1 (ko) * 2021-03-19 2021-10-13 주식회사 인피닉 스크립트를 이용한 어노테이션 결과물의 검증 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
WO2023075021A1 (ko) * 2021-10-29 2023-05-04 한국전자기술연구원 정보 인프라 모니터링 데이터 간 연관성 도출 방법
KR102631386B1 (ko) 2023-08-16 2024-01-31 메타빌드주식회사 인공지능 모델의 학습 방법, 학습 시스템 및 이를 위한컴퓨터 프로그램

Also Published As

Publication number Publication date
EP3101599A2 (en) 2016-12-07
CN106250986A (zh) 2016-12-21
JP2017004509A (ja) 2017-01-05
EP3101599A3 (en) 2017-03-15
US20160358099A1 (en) 2016-12-08

Similar Documents

Publication Publication Date Title
KR20160143512A (ko) 머신 러닝을 위한 진보된 분석 기반시설
US11921566B2 (en) Abnormality detection system, abnormality detection method, abnormality detection program, and method for generating learned model
de Pater et al. Alarm-based predictive maintenance scheduling for aircraft engines with imperfect Remaining Useful Life prognostics
US20190057307A1 (en) Deep long short term memory network for estimation of remaining useful life of the components
US11397633B2 (en) Unifying semi-supervised approach for machine condition monitoring and fault diagnosis
EP3497527B1 (en) Generation of failure models for embedded analytics and diagnostics
US10810508B1 (en) Methods and apparatus for classifying and discovering historical and future operational states based on Boolean and numerical sensor data
JP2004531815A (ja) 予測的状態監視のための診断システムおよび方法
US20140188778A1 (en) Computer-Implemented System for Detecting Anomaly Conditions in a Fleet of Assets and Method of Using the Same
US20230289568A1 (en) Providing an alarm relating to an accuracy of a trained function method and system
US20200175380A1 (en) Automated feature generation for sensor subset selection
WO2019012653A1 (ja) 学習システム、分析システム、学習方法及び記憶媒体
US20180018570A1 (en) Information processing system, change point detection method, and recording medium
US20190188574A1 (en) Ground truth generation framework for determination of algorithm accuracy at scale
Patel et al. Doctor for machines: a failure pattern analysis solution for industry 4.0
Kuvayskova et al. Recognition and forecasting of a technical object state based on its operation indicators monitoring results
Aremu et al. Kullback-leibler divergence constructed health indicator for data-driven predictive maintenance of multi-sensor systems
Bond et al. A hybrid learning approach to prognostics and health management applied to military ground vehicles using time-series and maintenance event data
Kirschenmann et al. Decision dependent stochastic processes
CN112433952B (zh) 深度神经网络模型公平性测试方法、系统、设备及介质
CN114139589A (zh) 故障诊断方法、装置、设备与计算机可读存储介质
WO2022058177A1 (en) Device, computing platform and method of analyzing log files of an industrial plant
KR101971553B1 (ko) 사물인터넷 기반 기기 관리 시스템 및 방법
Singh et al. Software fault prediction model for embedded systems: A novel finding
US20240085274A1 (en) Hybrid bearing fault prognosis with fault detection and multiple model fusion