KR20220066163A

KR20220066163A - 머신 러닝 기술의 예측 정확도 향상을 위한 최적의 가중치 식별

Info

Publication number: KR20220066163A
Application number: KR1020227013741A
Authority: KR
Inventors: 징 쉬; 시 어 한; 스티븐 조지 바비; 쉐 잉 장; 지 희 양
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2019-11-14
Filing date: 2020-11-10
Publication date: 2022-05-23
Also published as: AU2020385049A1; DE112020005610T5; JP7471408B2; GB202207662D0; WO2021094923A1; GB2603445A; US20210150407A1; US11443235B2; CN114616577A; JP2023501257A; US20220292401A1; AU2020385049B2

Abstract

머신 러닝 기술들에서 예측 정확도를 향상하기 위한 컴퓨터 구현 방법, 시스템 및 컴퓨터 프로그램 제품. 교사 모델이 구성되며, 여기서 교사 모델은 각 데이터 케이스에 대한 가중치를 생성한다. 그런 후 현재 학생 모델은 훈련 데이터 및 교사 모델에 의해 생성된 가중치들을 사용하여 훈련된다. 현재 학생 모델을 훈련한 후, 현재 학생 모델은 상태 특징들을 생성하고, 이는 교사 모델에 의해 새로운 가중치들을 생성하는 데 사용된다. 그런 후 훈련 데이터 및 이러한 새로운 가중치들을 사용하여 후보 학생 모델이 훈련된다. 훈련 및 시험 데이터를 사용하여 현재 학생 모델과 후보 학생 모델을 비교함으로써 리워드가 생성되고, 이는 정지 규칙이 충족되지 않은 경우 교사 모델을 업데이트하는 데 사용된다. 정지 규칙이 충족되면, 교사 모델에 의해 생성된 가중치들은 사용자에게 리턴되는 “최적”의 가중치들로 간주된다.

Description

머신 러닝 기술의 예측 정확도 향상을 위한 최적의 가중치 식별

[0001] 본 발명은 일반적으로 예측 모델링(predictive modeling)에 관한 것으로, 더 자세하게는 머신 러닝 기술(machine learning techniques)의 예측 정확도 향상을 위한 최적의 가중치들을 식별하는 것에 관한 것이다.

[0002] 예측 모델링은 통계를 사용하여 결과를 예측한다. 대부분의 경우 예측하려는 이벤트는 미래에 발생하지만 예측 모델링은 언제 발생했는지에 관계없이 모든 유형의 알려지지 않은 이벤트에 적용될 수 있다. 예를 들어, 예측 모델링은 이벤트가 발생한 후 이벤트를 검출하고 이벤트와 관련된 사람을 식별하는 데 자주 사용된다.

[0003] 많은 경우에, 모델은 정해진 입력 데이터가 주어졌을 때, 예를 들어 스팸일 가능성을 결정하는 이메일이 주어졌을 때, 결과의 확률을 추측하기 위해 검출 이론에 기초하여 선택된다.

[0004] 모델은 하나의 데이터세트가 다른 세트에 속할 확률을 결정하는 데 하나 이상의 분류자(classifier)를 사용할 수 있다. 예를 들어, 이메일이 스팸인지 또는 “햄”(스팸이 아님)인지 결정하기 위해 모델이 사용될 수도 있다.

[0005] 정의를 내리는 경계에 따라서, 예측 모델링은 학문적 또는 연구 개발 맥락에서 더 일반적으로 언급되는 머신 러닝 분야와 동의어이거나 크게 겹친다. 상업적으로 활용될 때, 예측 모델링은 자주 예측 분석이라 일컬어진다.

[0006] 더 나은 예측 모델을 달성하는 것이 머신 러닝 기술의 연구 및 실습의 목표이다. 예를 들어, 앙상블 방법들(ensemble methods)은 구성 학습 알고리즘 단독으로 얻을 수 있는 것보다 더 나은 예측 성능을 얻기 위해 여러 학습 알고리즘을 사용한다. 이러한 앙상블 방법에는 부트스트랩 집계(bootstrap aggregating, 배깅이라고도 함), 부스팅(boosting) 등이 포함된다.

[0007] 부트스트랩 집계는 통계 분류 및 회귀에 사용되는 머신 러닝 알고리즘의 안정성과 정확성을 향상시키기 위해 설계된 머신 러닝 앙상블 메타 알고리즘이다. 부스팅은 주로 지도형 학습(supervised learning)의 편향과 분산을 줄이기 위한 머신 러닝 앙상블 메타 알고리즘이며 약한 학습자를 강한 학습자로 변환하는 머신 러닝 알고리즘 군이다.

[0008] 부스팅과 같은, 그러한 기술들에서, 모델링 프로세스 중에 잘못 분류된 케이스들의 가중치들은 증가하고 올바르게 분류된 케이스들의 가중치들은 감소한다. 그러한 전략(휴리스틱)은 많은 경우에 더 나은 예측을 달성하지만, 이상치/노이즈(outliers/noises)를 과적합(overfitting)할 가능성이 있다. 이상치/노이즈를 과적합하면 그 결과 예측 정확도가 떨어진다.

[0009] 따라서, 잘못 분류된 케이스들의 가중치들을 높이고 올바르게 분류된 케이스들의 가중치들을 줄이는 휴리스틱 전략은 모델의 예측 정확도를 향상시키기 위한 최선의 전략이 아닐 수 있다.

[0010] 예를 들어, 때때로, 올바르게 분류된 케이스들의 가중치들을 높이는 것이 더 나을 수 있는데, 그러한 케이스들에는 머신 러닝 알고리즘이 학습해야 하는 매우 중요한 패턴들이 포함되어 있기 때문이다. 유사한 이유로 이상치 케이스들과 같이 잘못 분류된 케이스들의 가중치들을 줄이는 것이 더 나을 수도 있다.

[0011] 결과적으로, 부스팅과 같은 그러한 기술들은 분류된 케이스들에 대한 최적의 가중치들을 식별하지 못하므로 머신 러닝 기술들에서 최적의 예측 정확도를 달성하지 못한다.

[0012] 본 발명의 일 실시예에서, 머신 러닝 기술들에서 예측 정확도를 향상하기 위한 컴퓨터 구현 방법은 교사 모델을 구성하는 단계를 포함하고, 여기서 교사 모델은 각 데이터 케이스에 대한 가중치를 생성한다. 본 방법은 훈련 데이터 및 교사 모델에 의해 생성된 가중치들을 사용하여 현재 학생 모델을 훈련하는 단계를 더 포함한다. 본 방법은 현재 학생 모델에 의해 상태 특징들을 생성하는 단계를 추가로 포함한다. 또한, 본 방법은 교사 모델에 의해 상태 특징들을 사용하여 새로운 가중치들을 생성하는 단계를 포함한다. 추가로, 본 방법은 훈련 데이터 및 새로운 가중치들을 사용하여 후보 학생 모델을 훈련하는 단계를 포함한다. 또한, 본 방법은 훈련 데이터 및 시험 데이터를 사용하여 현재 학생 모델과 후보 학생 모델을 비교하여 어느 것이 관찰된 목표를 예측하는 데 더 나은지 결정하는 리워드를 생성하는 단계를 포함한다. 본 방법은 정지 규칙이 충족되지 않은 것에 응답하여 교사 모델을 리워드로 업데이트하는 단계를 더 포함한다. 본 방법은 정지 규칙이 충족된 것에 응답하여 새로운 가중치들과 현재 학생 모델을 사용자에게 리턴하는 단계를 추가로 포함하고, 여기서 리턴된 학생 모델은 관찰된 목표의 예측을 제공한다.

[0013] 본 발명의 다른 실시예에서, 머신 러닝 기술들에서 예측 정확도를 향상하기 위한 컴퓨터 프로그램 제품에 있어서, 상기 컴퓨터 프로그램 제품은 프로그램 코드가 구현된 컴퓨터 판독 가능 스토리지 매체를 포함하고, 상기 프로그램 코드는 교사 모델을 구성하기 위한 프로그래밍 명령들을 포함하되, 상기 교사 모델은 각 데이터 케이스에 대한 가중치를 생성한다. 프로그램 코드는 훈련 데이터 및 교사 모델에 의해 생성된 가중치들을 사용하여 현재 학생 모델을 훈련하는 단계를 위한 프로그래밍 명령들을 더 포함한다. 프로그램 코드는 현재 학생 모델에 의해 상태 특징들을 생성하는 단계를 위한 프로그래밍 명령들을 추가로 포함한다. 또한, 프로그램 코드는 교사 모델에 의해 상태 특징들을 사용하여 새로운 가중치들을 생성하는 단계를 위한 프로그래밍 명령들을 포함한다. 추가로, 프로그램 코드는 훈련 데이터 및 새로운 가중치들을 사용하여 후보 학생 모델을 훈련하는 단계를 위한 프로그래밍 명령들을 포함한다. 또한, 프로그램 코드는 훈련 데이터 및 시험 데이터를 사용하여 현재 학생 모델과 후보 학생 모델을 비교하여 어느 것이 관찰된 목표를 예측하는 데 더 나은지 결정하는 리워드를 생성하는 단계를 위한 프로그래밍 명령들을 포함한다. 프로그램 코드는 정지 규칙이 충족되지 않은 것에 응답하여 교사 모델을 리워드로 업데이트하는 단계를 위한 프로그래밍 명령들을 더 포함한다. 프로그램 코드는 정지 규칙이 충족된 것에 응답하여 새로운 가중치들과 현재 학생 모델을 사용자에게 리턴하는 단계를 위한 프로그래밍 명령들을 추가로 포함하고, 여기서 리턴된 학생 모델은 관찰된 목표의 예측을 제공한다.

[0014] 본 발명의 추가 실시예에서, 시스템은 머신 러닝 기술들에서 예측 정확도를 향상하기 위한 컴퓨터 프로그램을 저장하기 위한 메모리, 및 상기 메모리에 연결된 프로세서를 포함하되, 상기 프로세서는 교사 모델을 구성하는 단계를 포함하는 컴퓨터 프로그램의 프로그램 명령들을 실행하도록 구성되고, 교사 모델은 각 데이터 케이스에 대한 가중치를 생성한다. 컴퓨터 프로그램의 프로그램 명령들은 훈련 데이터 및 교사 모델에 의해 생성된 가중치들을 사용하여 현재 학생 모델을 훈련하는 단계를 더 포함한다. 컴퓨터 프로그램의 프로그램 명령들은 현재 학생 모델에 의해 상태 특징들을 생성하는 단계를 추가로 포함한다. 또한, 컴퓨터 프로그램의 프로그램 명령들은 교사 모델에 의해 상태 특징들을 사용하여 새로운 가중치들을 생성하는 단계를 포함한다. 추가로, 컴퓨터 프로그램의 프로그램 명령들은 훈련 데이터 및 새로운 가중치들을 사용하여 후보 학생 모델을 훈련하는 단계를 포함한다. 또한, 컴퓨터 프로그램의 프로그램 명령들은 훈련 데이터 및 시험 데이터를 사용하여 현재 학생 모델과 후보 학생 모델을 비교하여 어느 것이 관찰된 목표를 예측하는 데 더 나은지 결정하는 리워드를 생성하는 단계를 포함한다. 컴퓨터 프로그램의 프로그램 명령들은 정지 규칙이 충족되지 않은 것에 응답하여 교사 모델을 리워드로 업데이트하는 단계를 더 포함한다. 컴퓨터 프로그램의 프로그램 명령들은 정지 규칙이 충족된 것에 응답하여 새로운 가중치들과 현재 학생 모델을 사용자에게 리턴하는 단계를 추가로 포함하고, 여기서 리턴된 학생 모델은 관찰된 목표의 예측을 제공한다.

[0015] 이러한 방식으로, 본 발명은 예측 모델링 분야에서 “가르치는 학습”의 개념을 구현하는 프레임워크를 고안한다. 이러한 프레임워크는 각 데이터 케이스에 대한 가중치를 생성하는 교사 모델을 포함한다. 생성된 가중치들과 함께 훈련 데이터 케이스들은 학생 모델을 재훈련하는 데 사용된다. 예측 정확도 측면에서 홀드아웃 데이터세트(시험 데이터)에 대해 훈련된 학생 모델을 평가함으로써 리워드가 리턴된다. 그러면 교사 모델은 리워드를 활용하여 정책 경사법들, 예를 들어 강화 학습을 통해 그 파라미터들을 업데이트한다. 이러한 프로세스는 학생 모델이 원하는 성능을 달성할 때까지 반복된다.

[0016] 이전에 사용된 휴리스틱 방법들(예를 들어, 부스팅)과 비교하여, 본 발명의 접근법은 최적의 방식으로 케이스 가중치들을 결정한다. 이를 통해 앙상블 모델을 사용하는 대신 기본 학습자들, 예를 들어 결정 트리, 신경망 등을 통해 더 나은 학생 모델을 구축할 수 있다.

[0017] 케이스 가중치들을 학생 모델에 대한 활동들로 사용함으로써, 학습자가 훈련에서 케이스 가중치들을 지원하는 것을 고려하면 임의의 종류의 머신 러닝자가 학생 모델로 사용될 수 있다.

[0018] 또한, 훈련 데이터가 편향된 샘플링에서 오는 경우 훈련 데이터 내 데이터 케이스들의 분포를 생성된 가중치들에 의해 정정할 수 있다.

[0019] 전술한 내용은 이어지는 본 발명의 상세한 설명을 더 잘 이해할 수 있도록 하기 위하여 본 발명의 하나 이상의 실시예들의 특징들 및 기술적 이점들을 개략적으로 설명한 것이다. 본 발명의 청구 범위의 주제를 형성할 수 있는 본 발명의 추가적인 특징들 및 이점들이 이하에서 설명될 것이다.

[0020] 다음의 상세한 설명을 다음 도면들과 함께 고려할 때 본 발명을 더 잘 이해할 수 있다:
도 1은 본 발명의 일 실시예에 따른 본 발명의 원리를 실시하기 위한 통신 시스템을 도시한다.
도 2는 본 발명을 실시하기 위한 하드웨어 환경을 나타내는 예측 분석 시스템의 하드웨어 구성에 대한 본 발명의 일 실시예를 도시한다.
도 3은 본 발명의 일 실시예에 따른 예측들을 생성하기 위한 예측 모델에 의해 사용될 최적의 가중치들을 식별하는 데 사용되는 예측 분석 시스템의 소프트웨어 컴포넌트들의 도면이다.
도 4는 본 발명의 일 실시예에 따른 학생 모델에 의해 생성되는 상태 특성들을 도시한다.
도 5는 본 발명의 일 실시예에 따른 리워드 생성기에 의해 생성되는 리워드들을 도시한다.
도 6은 본 발명의 일 실시예에 따른 머신 러닝 기술들에서 예측 정확도를 향상하기 위한 방법의 흐름도이다.

[0021] 본 발명은 머신 러닝 기술들에서 예측 정확도를 향상하기 위한 컴퓨터 구현 방법, 시스템 및 컴퓨터 프로그램 제품을 포함한다. 본 발명의 일 실시예에서, 교사 모델(teacher model)이 구성되며, 여기서 교사 모델은 각 데이터 케이스에 대한 가중치를 생성한다. 본원에서 사용되는 “교사 모델”은 학생 모델의 학습을 촉진하기 위한 적절한 데이터, 손실 함수 및 가설 공간을 결정하는 통계 모델을 지칭한다. 그런 후 현재 학생 모델은 훈련 데이터 및 교사 모델에 의해 생성된 가중치들을 사용하여 훈련된다. 본원에서 사용되는 “학생 모델”은 훈련 데이터를 사용하여 예측을 제공하기 위해 훈련되는 통계 모델을 지칭한다. 본원에서 사용되는 “현재” 학생 모델은 훈련 데이터를 사용하여 예측을 제공하기 위해 현재 훈련되는 학생 모델을 지칭한다. 현재 학생 모델은 상태 특징들(예를 들어, 데이터 특징들, 케이스 가중치들, 학생 모델 특징들 및 데이터와 학생 모델 둘 모두의 조합을 나타내기 위한 특징들)을 생성하고, 이는 교사 모델에 의해 새로운 가중치들을 생성하는 데 사용된다. 그런 후 훈련 데이터 및 이러한 새로운 가중치들을 사용하여 후보 학생 모델이 훈련된다. 본원에서 사용되는 “후보 학생 모델”은 현재 학생 모델보다 더 나은 학생 모델인지(관찰된 목표를 예측하는 데 더 나은지)를 결정하기 위해 검사되는 학생 모델을 지칭한다. 그런 후 훈련 및 시험 데이터를 사용하여 현재 학생 모델과 후보 학생 모델을 비교하여 어느 것이 관찰된 목표를 예측하는 데 더 나은지 결정하기 위해 리워드(reward)가 생성된다. 본원에서 사용되는 “리워드”는 강화 학습에 사용되는 함수(리워드 함수)에 의해 생성되는 값을 지칭한다. 후보 학생 모델이 현재 학생 모델보다 관찰된 목표를 예측하는 데 더 나은 경우 포지티브 리워드가 리턴될 수 있다. 반대로, 현재 학생 모델이 후보 학생 모델보다 관찰된 목표를 예측하는 데 더 나은 경우 네거티브 리워드가 리턴될 수 있다. 그런 후 교사 모델이 리워드로 업데이트된다. 교사 모델은, 강화 학습과 같은, 정책 경사법들(policy gradient methods, such as reinforcement learning)을 통해 그 파라미터들을 업데이트하기 위해 리워드들을 활용한다. 후보 학생 모델이 현재 학생 모델보다 관찰된 목표를 예측하는 데 더 나으면, 현재 학생 모델이 후보 학생 모델로 업데이트되고 현재 가중치들은 교사 모델에 의해 생성된 새로운 가중치들로 업데이트된다. 현재 가중치들을 새로운 가중치들로 업데이트하면, 현재 학생 모델은 새로운 상태 특징들(new state features)을 생성한다. 하지만, 만일 후보 학생 모델이 현재 학생 모델보다 관찰된 목표를 예측하는 데 더 낫지 않으면, 업데이트된 교사 모델은 현재 학생 모델의 현재 가중치들과 현재 학생 특징들을 사용하여 새로운 가중치들을 생성한다. 정지 규칙들(stopping rules) 중 하나라도 충족되면(예를 들어, 지정된 시도 횟수에 도달, 지정된 훈련 타이밍에 도달, 예측 정확도의 수렴 및 사용자-개시 종결), 교사 모델에 의해 생성된 가중치들은 해당 학생 모델과 함께 사용자에게 리턴되는 “최적” 가중치들로 간주된다. 이러한 방식으로, 예측 정확도를 향상하기 위한 최적의 가중치들을 식별한다.

[0022] 다음 설명에서, 본 발명의 완전한 이해를 제공하기 위해 다수의 구체적인 세부 사항이 제시된다. 그러나, 본 발명이 이러한 구체적인 세부 사항 없이 실시될 수 있음은 당업자에게 자명할 것이다. 다른 예들에서, 본 발명을 불필요한 세부 사항으로 모호하게 하지 않기 위해 잘 알려진 회로가 블록도 형태로 도시되어 있다. 대부분의 경우, 타이밍 등을 고려한 세부 사항은 본 발명을 완전히 이해하는 데 필요하지 않으며 관련 기술 분야에서 통상의 지식을 가진 자에게 속하는 기술이므로 생략하였다.

[0023] 이제 도면을 상세히 참조하면, 도 1은 머신 러닝 기술을 사용하여 예측을 하기 위한 통신 시스템(100)을 도시한다. 일 실시예에서, 시스템(100)은 훈련 데이터(103) 및 시험 데이터(104)(본원에서 “홀드아웃 데이터(hold-out data)”로도 지칭됨)와 같은 데이터를 사용하여 예측들(102)을 생성하기 위한 예측 분석 시스템(101)을 포함한다. 훈련 및 시험 데이터(103, 104)를 사용하여 예측을 하기 위한 예측 분석 시스템(101)에 대한 추가 설명은 도 3 내지 6과 관련하여 아래에서 더 논의된다.

[0024] 일 실시예에서, 예측 분석 시스템(101)은 미래에 대해 예측을 수행하기 위해 현재 데이터를 분석하고 데이터 마이닝, 통계, 모델링, 머신 러닝 및 인공 지능의 많은 기술을 사용하여 알려지지 않은 미래 이벤트에 대한 예측을 수행한다.

[0025] 일 실시예에서, 예측 분석 시스템(101)은 2개의 지능형 에이전트, 즉 교사 모델 및 학생 모델을 포함하는 “가르치는 학습(learning to teach)”의 개념을 활용한다. 훈련 단계에는 교사 모델과 학생 모델 간의 순차적 상호작용에 대한 여러 에피소드가 포함된다. 학생 모델에 의해 생성된 상태 정보에 기초하여, 교사 모델은 학생 모델의 머신 러닝 문제를 개선하기 위해 자신의 교육 활동들을 업데이트한다. 그러면 학생 모델은 교사 모델로부터 받은 입력들에 기초하여 자신의 학습 프로세스를 수행하고 나중에 교사 모델에 리워드 신호들(예를 들어, 훈련 데이터에 대한 정확도)을 제공한다. 그러면 교사 모델은 이러한 리워드들을 활용하여 강화 학습 기술의 일종인 정책 경사법들을 통해 자신의 파라미터들을 업데이트한다. 이 상호작용 프로세스는 종단 간(end-to-end) 훈련이 가능하며, 인간이 정의한 휴리스틱스의 한계들에서 벗어날 수 있게 한다. 일 실시예에서, “가르치는 학습”의 개념은 케이스들(데이터 케이스들)의 가중치들을 학생 모델에 대한 활동으로 활용하는 접근 방식을 고안하여 구현된다. 예측 분석 시스템(101)의 하드웨어 구성도에 대한 설명이 도 2와 관련하여 아래에 제공된다.

[0026] 이제 도 2를 참조하면, 도 2는 본 발명을 실시하기 위한 하드웨어 환경을 나타내는 예측 분석 시스템(101, 도 1)의 하드웨어 구성에 대한 본 발명의 일 실시예를 도시한다. 예측 분석 시스템(101)은 머신 러닝 기술의 예측 정확도 향상을 위한 최적의 가중치들을 식별하는 기능으로 구성된 모든 유형의 분석 시스템(예를 들어, 휴대용 컴퓨팅 장치, PDA(Personal Digital Assistant), 랩톱 컴퓨터, 모바일 디바이스, 태블릿 개인용 컴퓨터, 스마트폰, 휴대폰, 내비게이션 디바이스, 게임 장치, 데스크톱 컴퓨터 시스템, 워크스테이션, 인터넷 기기 등)일 수 있다.

[0027] 도 2를 참조하면, 예측 분석 시스템(101)은 시스템 버스(202)에 의해 다양한 다른 컴포넌트들에 연결된 프로세서(201)를 가질 수 있다. 운영 체제(203)가 프로세서(201) 상에서 실행되고 제어를 제공하며 도 2의 여러 컴포넌트들의 기능들을 조정할 수 있다. 본 발명의 원리에 따른 애플리케이션(204)이 운영 체제(203)와 함께 실행되고 운영 체제(203)에 호출을 제공할 수 있으며, 이 호출은 애플리케이션(204)에 의해 수행될 여러 기능들 또는 서비스들을 구현한다. 애플리케이션(204)은, 예를 들어, 도 3 내지 6과 관련하여 아래에서 논의되는 바와 같이 머신 러닝 기술들에서 예측 정확도 향상을 위해 최적의 가중치들을 식별하기 위한 프로그램을 포함할 수 있다.

[0028] 도 2를 다시 참조하면, 읽기 전용 메모리(“ROM”, 205)가 시스템 버스(202)에 연결될 수 있고 예측 분석 시스템(101)의 특정 기본 기능들을 제어하는 기본 입출력 시스템(“BIOS”)을 포함할 수 있다. 랜덤 액세스 메모리(“RAM”, 206)와 디스크 어댑터(207) 또한 시스템 버스(202)에 연결될 수 있다. 운영 체제(203)와 애플리케이션(204)를 포함한 소프트웨어 컴포넌트들은, 실행을 위한 예측 분석 시스템(101)의 메인 메모리일 수 있는, RAM(206)에 로드될 수 있다는 점에 유의해야 한다. 디스크 어댑터(207)는 디스크 유닛(208), 예를 들어 디스크 드라이브와 통신하는 IDE(“integrated drive electronics”) 어댑터일 수 있다. 도 3 내지 6과 관련하여 아래에서 논의되는 바와 같이 머신 러닝 기술의 예측 정확도를 향상하기 위해 최적의 가중치들을 식별하기 위한 프로그램은 디스크 유닛(208) 내 또는 애플리케이션(204) 내에 상주할 수 있다는 점에 유의한다.

[0029] 예측 분석 시스템(101)은 버스(202)에 연결된 통신 어댑터(209)를 더 포함할 수 있다. 통신 어댑터(209)는 버스(202)를 외부 네트워크와 상호 연결함으로써 예측 분석 시스템(101)이 다른 디바이스들과 통신할 수 있게 한다.

[0030] I/O 디바이스들 또한 사용자 인터페이스 어댑터(210) 및 디스플레이 어댑터(211)를 통해 예측 분석 시스템(101)에 연결될 수 있다. 키보드(212), 마우스(213) 및 스피커(214) 모두 사용자 인터페이스 어댑터(210)를 통해 버스(202)에 상호 연결될 수 있다. 디스플레이 모니터(215)가 디스플레이 어댑터(211)에 의해 시스템 버스(202)에 연결될 수 있다. 이런 식으로, 사용자는 키보드(212) 또는 마우스(213)를 통해 예측 분석 시스템(101)에 입력할 수 있고 디스플레이(215) 또는 스피커(214)를 통해 예측 분석 시스템(101)으로부터 출력을 수신할 수 있다. 예측 분석 시스템(101)에 데이터를 입력하는 데 터치스크린 기능이 있는 디스플레이(215)와 가상 키보드인 키보드(212)와 같이, 도 2에 도시되지 않은 다른 입력 메커니즘이 사용될 수 있다. 도 2의 예측 분석 시스템(101)은 도 2에 도시된 구성요소로 범위가 제한되지 않으며 도 2에 도시된 것보다 더 적거나 추가의 구성요소를 포함할 수 있다.

[0031] 본 발명의 실시예들은 시스템, 방법, 및/또는 통합의 모든 가능한 기술적 세부 수준에서 컴퓨터 프로그램 제품이 될 수 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독 가능 스토리지 매체를 포함할 수 있으며, 이 매체 상에 프로세서가 본 발명의 실시예들을 수행하도록 하는 컴퓨터 판독 가능 프로그램 명령들을 갖는다.

[0032] 상기 컴퓨터 판독 가능 스토리지 매체는 명령 실행 디바이스에 의해 사용될 명령들을 유지 및 저장할 수 있는 유형의(tangible) 디바이스일 수 있다. 상기 컴퓨터 판독 가능 스토리지 매체는, 예를 들면, 전자 스토리지 디바이스, 자기 스토리지 디바이스, 광 스토리지 디바이스, 전자기 스토리지 디바이스, 반도체 스토리지 디바이스, 또는 전술한 것들의 모든 적절한 조합일 수 있으며, 그러나 이에 한정되지는 않는다. 컴퓨터 판독 가능 스토리지 매체의 더 구체적인 예들의 비포괄적인 목록에는 다음이 포함될 수 있다: 휴대용 컴퓨터 디스켓, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 및 프로그램가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 정적 랜덤 액세스 메모리(SRAM), 휴대용 컴팩트 디스크 읽기 전용 메모리(CD-ROM), 디지털 다용도 디스크(DVD), 메모리 스틱, 플로피 디스크, 천공-카드들 또는 명령들이 기록된 홈에 있는 융기된 구조들 같이 기계적으로 인코드된 디바이스, 및 전술한 것들의 모든 적절한 조합. 본원에서 사용될 때, 컴퓨터 판독 가능 스토리지 매체는 무선 전파들이나 다른 자유롭게 전파되는 전자기파들, 도파관이나 기타 전송 매체(예를 들어, 광섬유 케이블을 통해 전달되는 광 펄스들)를 통해 전파되는 전자기파들, 또는 선(wire)을 통해 전송되는 전기 신호들 같이 그 자체로 일시적인(transitory) 신호들로 해석되지는 않는다.

[0033] 본원에 기술되는 컴퓨터 판독 가능 명령들은, 예를 들어, 인터넷, 근거리 통신망, 광역 통신망 및/또는 무선 네트워크 등의 통신망(네트워크)을 통해 컴퓨터 판독 가능 스토리지 매체로부터 각각 컴퓨팅/처리 디바이스들로 또는 외부 컴퓨터 또는 외부 스토리지 디바이스로 다운로드될 수 있다. 상기 통신망은 구리 전송 케이블들, 광 전송 섬유들, 무선 전송, 라우터들, 방화벽들, 스위치들, 게이트웨이 컴퓨터들 및/또는 엣지 서버들을 포함할 수 있다. 각 컴퓨팅/처리 디바이스 내 네트워크 어댑터 카드 또는 네트워크 인터페이스는 상기 통신망으로부터 컴퓨터 판독 가능 프로그램 명령들을 수신하고 그 컴퓨터 판독 가능 프로그램 명령들을 각각의 컴퓨팅/처리 디바이스 내의 컴퓨터 판독 가능 스토리지 매체에 저장하기 위해 전송한다.

[0034] 본 발명의 동작들을 실행하기 위한 컴퓨터 판독 가능 프로그램 명령들은 Smalltalk, C++ 또는 그와 유사 언어 등의 객체 지향 프로그래밍 언어와 “C” 프로그래밍 언어 또는 그와 유사한 언어 등의 종래의 절차적 프로그래밍 언어들을 포함하여, 하나 또는 그 이상의 프로그래밍 언어들을 조합하여 작성된(written) 어셈블러 명령들, 명령-세트-아키텍처(ISA) 명령들, 머신 명령들, 머신 종속 명령들, 마이크로코드, 펌웨어 명령들, 상태-셋팅 데이터, 집적회로를 위한 구성 데이터, 또는 소스 코드나 목적 코드일 수 있다. 상기 컴퓨터 판독 가능 프로그램 명령들은 전적으로 사용자의 컴퓨터상에서, 부분적으로 사용자의 컴퓨터상에서, 독립형(stand-alone) 소프트웨어 패키지로서, 부분적으로 사용자의 컴퓨터상에서 그리고 부분적으로 원격 컴퓨터상에서 또는 전적으로 원격 컴퓨터나 서버상에서 실행될 수 있다. 위에서 마지막의 경우에, 원격 컴퓨터는 근거리 통신망(LAN) 또는 광역 통신망(WAN)을 포함한 모든 종류의 네트워크를 통해서 사용자의 컴퓨터에 접속될 수 있고, 또는 이 접속은 (예를 들어, 인터넷 서비스 제공자를 이용한 인터넷을 통해서) 외부 컴퓨터에 이루어질 수도 있다. 일부 실시예들에서, 예를 들어 프로그램 가능 논리 회로, 필드-프로그램 가능 게이트 어레이들(FPGA), 또는 프로그램 가능 논리 어레이들(PLA)을 포함한 전자 회로는 본 발명의 실시예들을 수행하기 위해 전자 회로를 맞춤화하도록 상기 컴퓨터 판독 가능 프로그램 명령들의 상태 정보를 활용하여 상기 컴퓨터 판독 가능 프로그램 명령들을 실행할 수 있다.

[0035] 여기에서는 본 발명의 실시예들에 따른 방법들, 장치들(시스템들), 및 컴퓨터 프로그램 제품들의 흐름 예시도들 및/또는 블록도들을 참조하여 본 발명의 실시예들을 기술한다. 흐름 예시도들 및/또는 블록도들의 각 블록과 흐름 예시도들 및/또는 블록도들 내 블록들의 조합들은 컴퓨터 판독 가능 프로그램 명령들에 의해 구현될 수 있다는 것을 이해할 수 있을 것이다.

[0036] 이들 컴퓨터 판독 가능 프로그램 명령들은 컴퓨터, 또는 기타 프로그램가능 데이터 처리 장치의 프로세서에 제공되어 머신(machine)을 생성하고, 그렇게 하여 그 명령들이 상기 컴퓨터 또는 기타 프로그램가능 데이터 처리 장치의 프로세서를 통해서 실행되어, 상기 흐름도 및/또는 블록도의 블록 또는 블록들에 명시된 기능들/동작들을 구현하기 위한 수단을 생성할 수 있다. 이들 컴퓨터 판독 가능 프로그램 명령들은 또한 컴퓨터 판독 가능 스토리지 매체에 저장될 수 있으며, 컴퓨터, 프로그램가능 데이터 처리 장치 및/또는 기타 디바이스들에 지시하여 명령들이 저장된 상기 컴퓨터 판독 가능 스토리지 매체가 상기 흐름도 및/또는 블록도의 블록 또는 블록들에 명시된 기능/동작의 특징들을 구현하는 명령들을 포함하는 제조품(an article of manufacture)을 포함하도록 특정한 방식으로 기능하게 할 수 있다.

[0037] 상기 컴퓨터 판독 가능 프로그램 명령들은 또한 컴퓨터, 기타 프로그램가능 데이터 처리 장치, 또는 다른 디바이스에 로드 되어, 상기 컴퓨터, 기타 프로그램가능 장치 또는 다른 디바이스에서 일련의 연산 단계들이 수행되게 하여 컴퓨터 구현 프로세스를 생성하며, 그렇게 하여 상기 컴퓨터, 기타 프로그램가능 장치, 또는 다른 디바이스 상에서 실행되는 명령들이 흐름도 및/또는 블록도의 블록 또는 블록들에 명시된 기능들/동작들을 구현할 수 있다.

[0038] 도면들 내 흐름도 및 블록도들은 본 발명의 여러 실시예들에 따른 시스템들, 방법들 및 컴퓨터 프로그램 제품들의 가능한 구현들의 아키텍처, 기능(functionality), 및 연산(operation)을 예시한다. 이와 관련하여, 상기 흐름도 또는 블록도들 내 각 블록은 상기 명시된 논리적 기능(들)을 구현하기 위한 하나 또는 그 이상의 실행 가능한 명령들을 포함한 모듈, 세그먼트 또는 명령들의 일부분을 나타낼 수 있다. 일부 다른 구현들에서, 상기 블록에 언급되는 기능들은 도면들에 언급된 순서와 다르게 일어날 수도 있다. 예를 들면, 연속으로 도시된 두 개의 블록들은 실제로는 동시에, 사실상 동시에, 부분적 또는 전체적으로 일시적으로 겹치는 방식으로 실행되어 하나의 단계로 이루어질 수도 있고, 또는 이 두 블록들은 때때로 관련된 기능에 따라서는 역순으로 실행될 수도 있다. 블록도들 및/또는 흐름 예시도의 각 블록, 및 블록도들 및/또는 순서 예시도 내 블록들의 조합들은 특수목적용 하드웨어 및 컴퓨터 명령들의 명시된 기능들 또는 동작들, 또는 이들의 조합들을 수행하는 특수목적용 하드웨어-기반 시스템들에 의해 구현될 수 있다는 것에 또한 주목해야 한다.

[0039] 배경기술 부분에 언급했듯이 더 나은 예측 모델을 달성하는 것이 머신 러닝 기술의 연구 및 실습의 목표이다. 예를 들어, 앙상블 방법들은 구성 학습 알고리즘 단독으로 얻을 수 있는 것보다 더 나은 예측 성능을 얻기 위해 여러 학습 알고리즘들을 사용한다. 이러한 앙상블 방법들에는 부트스트랩 집계(bootstrap aggregating, 배깅이라고도 함), 부스팅(boosting) 등이 포함된다. 부트스트랩 집계는 통계 분류 및 회귀에 사용되는 머신 러닝 알고리즘의 안정성과 정확성을 향상시키기 위해 설계된 머신 러닝 앙상블 메타 알고리즘이다. 부스팅은 주로 지도형 학습(supervised learning)의 편향과 분산을 줄이기 위한 머신 러닝 앙상블 메타 알고리즘이며 약한 학습자를 강한 학습자로 변환하는 머신 러닝 알고리즘 군이다. 부스팅과 같은,그러한 기술들에서, 모델링 프로세스 중에 잘못 분류된 케이스들의 가중치들은 증가하고 올바르게 분류된 케이스들의 가중치들은 감소한다. 이러한 전략(휴리스틱)은 많은 경우에 더 나은 예측을 달성하지만, 이상치/노이즈를 과적합할 가능성이 있다. 이상치/노이즈를 과적합하면 그 결과 예측 정확도가 떨어진다. 따라서, 잘못 분류된 케이스들의 가중치들을 높이고 올바르게 분류된 케이스들의 가중치들을 줄이는 휴리스틱 전략은 모델의 예측 정확도를 향상시키기 위한 최선의 전략이 아닐 수 있다. 예를 들어, 때때로, 올바르게 분류된 케이스들의 가중치들을 높이는 것이 더 나을 수 있는데, 그러한 케이스들에는 머신 러닝 알고리즘이 학습해야 하는 매우 중요한 패턴들이 포함되어 있기 때문이다. 유사한 이유로, 이상치 케이스들과 같이 잘못 분류된 케이스들의 가중치들을 줄이는 것이 더 나을 수도 있다. 결과적으로, 부스팅과 같은 이러한 기술들은 분류된 케이스들에 대한 최적의 가중치들을 식별하지 못하므로 머신 러닝 기술들에서 최적의 예측 정확도를 달성하지 못한다.

[0040] 본 발명의 실시예들은 도 3 내지 6과 관련하여 아래에서 논의되는 바와 같이 2개의 지능형 에이전트(교사 모델 및 학생 모델)를 포함하는 가르치는 학습의 개념을 사용하여 최적의 가중치들을 식별함으로써 머신 러닝 기술들에서 최적의 예측 정확도를 달성하기 위한 수단을 제공한다. 도 3은 예측들을 생성하기 위한 예측 모델에 의해 사용될 최적의 가중치들을 식별하는 데 사용되는 예측 분석 시스템(101)의 소프트웨어 컴포넌트들의 도면이다. 도 4는 학생 모델에 의해 생성되는 상태 특징들을 도시한다. 도 5는 리워드 생성기에 의해 생성되는 리워드들을 도시한다. 도 6은 머신 러닝 기술들에서 예측 정확도를 향상하기 위한 방법의 흐름도이다.

[0041] 훈련 데이터 {<X_k, f_k, y_k>|k=1, …, N}이 주어지면, 본 발명은 각 케이스 k에 대한 최적의 케이스 가중치들 f_k^opt를 생성하는데, 여기서 X_k는 케이스 k에서 예측자(predictor)들의 벡터이고, y_k는 관찰된 목표이며, f_k는 선택적인 케이스 가중치(케이스 가중치가 없으면 f_k=1로 설정)이다. 최적의 케이스 가중치를 사용하여 학생 모델은 아래에 설명된 대로 홀드아웃 데이터세트(the held-out dataset)를 사용하여 정확한 예측들을 제공하도록 훈련된다.

[0042] 위에서 언급한 바와 같이, 도 3은 본 발명의 일 실시예에 따른 예측들을 생성하기 위한 예측 모델에 의해 사용될 최적의 가중치들을 식별하는 데 사용되는 예측 분석 시스템(101)의 소프트웨어 컴포넌트들의 도면이다. 일 실시예에서, 이들 소프트웨어 컴포넌트들은 예측 분석 시스템(101)의 애플리케이션(204, 도 2)에 상주할 수 있다.

[0043] 다음은 이러한 소프트웨어 컴포넌트들의 간단한 설명을 제공한다. 이들 소프트웨어 컴포넌트들(해당 기능들 포함)에 대한 자세한 설명이 도 4 내지 6과 관련하여 아래에 제공된다.

[0044] 도 3을 참조하면, 도 1 내지 2와 관련하여, 예측 분석 시스템(101)은 본원에서 “교사 모델”(301)로 지칭되는 모듈을 포함한다. 일 실시예에서, 교사 모델(301)은 상태 특징들을 입력으로 수신하고 각 데이터 케이스에 대한 가중치를 생성하도록 구성된 신경망이다. 일 실시예에서, 신경망의 가중치 파라미터들은 훈련 프로세스 전에 무작위로 초기화된다.

[0045] 예측 분석 시스템(101)은, 교사 모델(301)에 의해 생성된 가중치들을 수신하고 도 4에 도시된 것과 같은 상태 특징들을 생성하는, “현재 학생 모델(302)”로 지칭되는 모듈을 더 포함한다. 본원에서 사용되는 “학생 모델”은 훈련 데이터(103)를 사용하여 예측을 제공하기 위해 훈련되는 통계 모델을 지칭한다. 본원에서 사용되는 “현재” 학생 모델(302)은 훈련 데이터(103)를 사용하여 예측을 제공하기 위해 예측 분석 시스템(101)에 의해 현재 훈련되는 학생 모델을 지칭한다. 일 실시예에서, 학생 모델(302)은 결정 트리 또는 신경망과 같은 학습자에 해당한다. 일 실시예에서, 결정 트리 학습은 어떤 항목에 관한 관찰들(가지들로 표시)에서 그 항목의 목표 값에 관한 결론들(잎들로 표시)로 이동하는 예측 모델로서 결정 트리를 사용한다. 일 실시예에서, 신경망은 뉴런들(인공 뉴런들) 또는 노드들의 네트워크 또는 회로이다.

[0046] 도 4는 본 발명의 일 실시예에 따른 학생 모델(302)에 의해 생성되는 상태 특성들을 도시한다.

[0047] 도 4를 참조하면, 이러한 상태 특징들은 예측자들(401), 이들의 해당 가중치(402) 및 이들의 예측값(403)을 포함할 수 있다. 일 실시예에서, 예측자(401)는 관찰된 목표와 같은 결과 변수(the outcome variable)에 해당한다. 가중치(402)는 교사 모델(301)로부터 획득된 그러한 예측자에 할당된 가중치에 해당한다. 일 실시예에서, 그러한 가중치들(402)은 예측자(401)의 해당 예측값(403)의 정확함의 신뢰도를 나타낸다. 상기 값이 높을수록 해당 예측값(403)의 정확함의 신뢰도가 커진다.

[0048] 일 실시예에서, 그러한 상태 특징들은 또한 위한 데이터 특징들, 케이스 가중치들, 학생 모델 특징들 및 데이터와 학생 모델 둘 모두의 조합을 나타내는 특징들을 포함할 수 있다.

[0049] 일 실시예에서, 그러한 상태 특징들은 후보 학생 모델(303)을 훈련하는 데 사용되는 새로운 가중치들을 생성하기 위해 교육 모델(301)에 의해 활용될 수 있다. 본원에서 사용되는 “후보 학생 모델(303)”은 현재 학생 모델보다 더 나은 학생 모델인지(관찰된 목표를 예측하는 데 더 나은지) 결정하기 위해 검사되는 학생 모델을 지칭한다.

[0050] 일 실시예에서, 후보 학생 모델(303)은 훈련 데이터(103) 및 교사 모델(301)에 의해 생성된 새로운 가중치들을 사용하여 훈련된다.

[0051] 도 3에 도시된 바와 같이, 본원에서 “리워드 생성기(304)”로 지칭되는 모듈은 훈련 데이터(103) 및 시험 데이터(104)(“홀드아웃 데이터”)를 사용하여 현재 및 후보 학생 모델(302, 303)을 비교함으로써 리워드들을 생성한다. 일 실시예에서, 교사 모델(301)은 상기 리워드들로 업데이트된다. 일 실시예에서, 교사 모델(301)은 리워드들을 활용하여 강화 학습 등의 정책 경사법들을 통해 그 파라미터들을 업데이트한다.

[0052] 본원에서 사용되는 “리워드”는 강화 학습에 사용되는 함수(리워드 함수)에 의해 생성되는 값을 지칭한다. 강화 학습 에이전트(예측 분석 시스템 101)의 목표는 가능한 한 많은 리워드를 수집하는 것이다. 일 실시예에서, 후보 학생 모델(303)이 현재 학생 모델(302)보다 관찰된 목표를 예측하는 데 더 나은 경우 리워드 생성기(304)에 의해 포지티브 리워드가 리턴된다. 반대로, 현재 학생 모델(302)이 후보 학생 모델(303)보다 관찰된 목표를 예측하는 데 더 나은 경우 리워드 생성기(304)에 의해 네거티브 리워드가 리턴된다. 일 실시예에서, 리워드 생성기(304)는 후보 학생 모델(303)의 일부이다.

[0053] 일 실시예에서, 그러한 리워드들은 도 5에 도시된 바와 같이 훈련 데이터(103), 시험 데이터(104)를 학생 모델들(302, 303)에 적용함으로써 리워드 생성기(304)에 의해 생성된다.

[0054] 도 5는 본 발명의 일 실시예에 따른 리워드 생성기(304)에 의해 생성되는 리워드들을 도시한다.

[0055] 도 5를 참조하면, 리워드 생성기(304)는 모델 레벨 리워드(501) 및 케이스 레벨 리워드(502)를 생성한다. 일 실시예에서, 모델 레벨 리워드(501)는 시험 데이터(104)에 기초하여 관찰된 목표에 대한 예측을 생성하는 학생 모델들(302, 303)과 연관된 리워드를 지칭한다. 예를 들어, 리워드(501)는 후보 학생 모델(303)이 시험 데이터(104)를 사용하여 현재 학생 모델(302)보다 관찰된 목표를 예측하는 데 얼마나 더 나은지에 기초하여 생성된다. 후보 학생 모델(303)이 시험 데이터(104)를 사용하여 현재 학생 모델(302)보다 관찰된 목표를 예측하는 데 더 나은 경우 리워드 생성기(304)에 의해 포지티브 리워드(501)가 리턴된다. 반대로, 현재 학생 모델(302)이 시험 데이터(104)를 사용하여 후보 학생 모델(303)보다 관찰된 목표를 예측하는 데 더 나은 경우 리워드 생성기(304)에 의해 네거티브 리워드(501)가 리턴된다.

[0056] 케이스 레벨 리워드(502)는 학생 모델들(302, 303)에 의해 훈련 데이터(103)를 사용하여 데이터 케이스를 정확하게 분류하는 것에 기초한 리워드를 지칭한다. 학생 모델(302, 303)이 데이터 케이스를 정확하게 분류했다면, 리워드 생성기(304)에 의해 포지티브 리워드(502)가 리턴된다. 반대로, 학생 모델(302, 303)이 데이터 케이스를 정확하게 분류하지 못했다면, 리워드 생성기(304)에 의해 네거티브 리워드(502)가 리턴된다.

[0057] 일 실시예에서, 리워드 생성기(304)는 모델 레벨 리워드(501)와 케이스 레벨 리워드(502)의 조합인, 예컨대 두 리워드들의 평균인 최종 리워드(503)를 생성한다.

[0058] 도 3을 참조하면, 리워드들을 활용하여, 본원에서 “업데이터(305)”라 지칭되는 모듈이 해당 리워드로 교사 모델(301)을 업데이트한다. 일 실시예에서, 교사 모델(301)은 연합 즉시-강화 학습 과제(associative immediate-reinforcement learning task)에 직면한다. 각 시도(each trial)에서 강화 값에 대한 리워드를 r이라고 하면, 네트워크 내 파라미터 w_ij는

의 양만큼 증가되며(incremented), 여기서 α는 학습률 계수이고, N은 양의 정수이며, g_k는 케이스 k에 대한 교사 모델의 출력이다.

[0059] 교사 모델(301)이 업데이트되면, 의사 결정자(306)에 의해 후보 학생 모델(303)이 현재 학생 모델(302)보다 관찰된 목표의 더 나은 예측자인지 아닌지에 대한 결정이 이루어진다. 일 실시예에서, 후보 학생 모델(303)이 현재 학생 모델(302)보다 관찰된 목표를 예측하는 데 더 나으면, 의사 결정자(306)는 현재 학생 모델(302)을 후보 학생 모델(303)로 업데이트하고 또한 현재 가중치들을 새로운 가중치들로 업데이트한다. 그러면 업데이트된 학생 모델(302)는 교사 모델(301)에 입력되는 새로운 상태 특징들을 생성한다.

[0060] 그렇지 않고, 후보 학생 모델(303)이 현재 학생 모델(302)보다 관찰된 목표를 예측하는 데 더 낫지 않으면, 의사 결정자(306)는 업데이트된 교사 모델(301)(상기 논의된 대로 리워드들로 업데이트됨)에 현재 학생 모델(302)로부터 현재 학생 특징들을 사용하여 새로운 가중치들을 생성하라고 직접 요청한다.

[0061] 상기 논의된 소프트웨어 컴포넌트들을 사용하여 머신 러닝 기술들에서 예측 정확도를 향상하는 프로세스에 관한 더 상세한 논의가 도 6과 관련하여 아래에 제공된다.

[0062] 도 6은 본 발명의 일 실시예에 따른 머신 러닝 기술들에서 예측 정확도를 향상하기 위한 방법(600)의 흐름도이다.

[0063] 도 1 내지 5와 함께 도 6을 참조하면, 단계(601)에서, 예측 분석 시스템(101)은 각 데이터 케이스에 대한 가중치를 생성하는 교사 모델(301)을 구성한다. 본원에서 사용되는 “교사 모델”은 학생 모델의 학습을 촉진하기 위한 적절한 데이터, 손실 함수 및 가설 공간을 결정하는 통계 모델을 지칭한다. 일 실시예에서, 교사 모델(301)은 신경망이다. 일 실시예에서, 교사 모델(301)은 현재 학생 모델(302)로부터 상태 특징들을 입력으로 수신하고 각 데이터 케이스에 대한 가중치를 생성한다. 본원에서 사용되는 “데이터 케이스”는 관찰된 목표를 예측하는 데 사용되는 데이터를 지칭한다. 일 실시예에서, 가중치 파라미터들은 훈련 프로세스가 시작하기 전에 무작위로 초기화된다(아래에서 더 논의됨).

[0064] 일 실시예에서, 교사 모델(301)은 여러 층들로 구성된 네트워크들을 포함한다. 일 실시예에서, 층들은 노드들로 이루어지는데, 여기서 노드는, 충분한 자극(stimuli)을 만나면 발화되는(fire), 인간 두뇌의 뉴런에 느슨하게 패턴화된 계산이 이루어지는 장소이다. 노드는 현재 학생 모델(302)로부터 온 (아래에서 더 논의되는) 상태 특징들과 같은 데이터로부터의 입력과 그 입력을 증폭 또는 감쇠하는 계수들 또는 가중치들의 세트와 조합하여, 알고리즘이 학습하려고 하는 과제와 관련하여 입력들에 유의도(significance)를 할당한다(예를 들어, 어느 입력이 오류 없이 데이터를 분류하는 데 가장 유용한지). 이들 입력-가중치 결과물들은 합계되고 그 후 합계는 해당 신호가 최종 결과(예를 들어, 분류 행위)에 영향을 미치기 위해 네트워크를 통해 더 진행되어야 하는지 여부와 그 정도를 결정하기 위해 노드의 소위 활성화 함수(activation function)를 통과한다. 신호들이 통과하면, 뉴런은 “활성화”된 것이다.

[0065] 일 실시예에서, 노드 층(node layer)은 입력이 네트워크를 통해 공급될 때 켜지거나 꺼지는 뉴런과 같은 스위치들의 행(a row of neuron-like switches)이다. 데이터를 수신하는 초기 입력 층부터 시작하여, 각 층의 출력은 동시에 후속 층의 입력이다.

[0066] 일 실시예에서, 모델의 조정 가능한 가중치들이 입력 특징들과 짝을 이루어 신경망이 입력을 어떻게 분류하고 군집화하는지에 관하여 그 특징들에 유의도(significance)를 할당한다.

[0067] 일 실시예에서, 그러한 생성된 가중치들은 훈련 데이터(103)가 편향된 샘플링에서 오는 경우 훈련 데이터(103) 내 데이터 케이스들의 분포를 정정하기 위해 사용된다.

[0068] 단계(602)에서, 예측 분석 시스템(101)은 훈련 데이터(103) 및 교사 모델(301)에 의해 생성된 가중치들(각 데이터 케이스에 대한 현재 가중치)을 사용하여 현재 학생 모델(302)을 훈련한다. 앞서 논의된 바와 같이, 현재 학생 모델(302)은 훈련 데이터(103)를 사용하여 예측을 제공하도록 예측 분석 시스템(101)에 의해 현재 훈련되는 학생 모델(훈련 데이터를 사용하여 관찰된 목표를 예측하는 것과 같이 예측을 제공하도록 훈련되는 통계 모델)을 지칭한다. 또한 앞서 논의된 바와 같이, 일 실시예에서, 현재 학생 모델(302)은 결정 트리 또는 신경망과 같은 학습자에 해당한다. 일 실시예에서, 결정 트리 학습은 어떤 항목에 관한 관찰들(가지들로 표시)에서 그 항목의 목표 값에 관한 결론들(잎들로 표시)로 이동하는 예측 모델로서 결정 트리를 사용한다. 일 실시예에서, 신경망은 뉴런들(인공 뉴런들) 또는 노드들의 네트워크 또는 회로이다.

[0069] 일 실시예에서, 케이스 가중치들은 현재 학생 모델(302)에 대한 (또한 아래에서 더 논의되는 후보 학생 모델(303)에 대한) 활동들로 사용된다. 이러한 방법은 학습자가 훈련에서 케이스 가중치를 지원하는 것을 고려하면 모든 종류의 머신 러닝자를 학생 모델(학생 모델들(302, 303))로 사용을 가능하게 한다.

[0070] 일 실시예에서, 그러한 훈련은, 교사 모델(301)에 의해 생성된 가중치들과 같은 훈련 데이터세트(103), 즉 파라미터들을 맞추는 데 사용되는 예들의 세트에 현재 학생 모델(302)을 맞추는 것을 포함한다. 일 실시예에서, 현재 학생 모델(302)은 지도형 학습 방법(a supervised learning method)(예를 들어, 경사 하강법 또는 확률적 경사 하강법(gradient descent or stochastic gradient descent))을 사용하여 훈련된다. 일 실시예에서, 훈련 데이터세트(103)는 입력 벡터(또는 스칼라)와 목표로 표시될 수 있는 해당 출력 벡터(또는 스칼라)의 쌍들로 구성된다. 현재 학생 모델(302)은 훈련 데이터세트(103)와 실행되어 결과를 산출하고, 그 후 이 결과는 훈련 데이터세트(103) 내 각 입력 벡터에 대해, 목표와 비교된다. 비교의 결과와 사용되는 특정 학습 알고리즘에 기초하여, 학생 모델(302)의 파라미터들이 조정된다.

[0071] 단계(603)에서, 현재 학생 모델(302)을 훈련한 후, 훈련된 현재 학생 모델(302)은 상태 특징들을 생성한다. 일 실시예에서, 상태 특징들은 현재 학생 모델(302)에 기초하여 각 데이터 케이스에 대해 정의된다. 상태 특징들은 예측자들, 목표, 등과 같은, 데이터 케이스에 대한 정보를 담고 있는 데이터 특징들; 교사 모델(301)에 의해 생성된 케이스 가중치; 현재 학생 모델(302)이 얼마나 잘 훈련되는지를 반영하는 측정치들을 포함한 학생 모델 특징들; 및 데이터와 학생 모델(302) 둘 모두의 조합, 예컨대 예측된 목표들, 각 목표 범주의 확률들 등을 나타내는 특징들을 포함할 수 있으나 이에 한정되지 않는다.

[0072] 일 실시예에서, 케이스 레벨 상태 특징들(case-level state features)이 또한 해당 케이스 가중치를 포함하여 학생 모델(302)에 의해 생성된다.

[0073] 일 실시예에서, 현재 학생 모델(302)은 이전에 논의된 상태 특징들을 포함하는 데이터를 생성한다. 그러한 특징들은 교사 모델(301)로부터의 수신 훈련 데이터(103) 및 가중치들에 기초한 통계적 가정들의 세트를 사용하여 생성된다.

[0074] 단계(604)에서, 교사 모델(301)은 현재 학생 모델(302)에 의해 생성된 상태 특징들을 사용하여 새로운 가중치들을 생성한다. 일 실시예에서, 이러한 상태 특징들은 교사 모델(301)에 입력되고 이는 위에서 논의된 바와 같이 교사 모델(301)에 의해 가중치들을 생성하는 데 사용된다.

[0075] 단계(605)에서, 예측 분석 시스템(101)은 훈련 데이터(103) 및 교사 모델(301)에 의해 생성된 새로운 가중치들을 사용하여 후보 학생 모델(303)을 훈련한다. 일 실시예에서, 후보 학생 모델(303)을 훈련하는 것은 단계(602)와 관련하여 위에서 논의된 바와 같이 현재 학생 모델(302)을 훈련하는 것과 동일한 방식으로 수행된다.

[0076] 단계(606)에서, 리워드 생성기(304)는 훈련 데이터(103) 및 시험 데이터(104)(“홀드아웃 데이터”)를 사용하여 (학생 모델들(302, 303)을 훈련한 후) 현재 및 후보 학생 모델들(302, 303)을 비교함으로써 어느 것이 관찰된 목표를 예측하는 데 더 나은지를 결정하는 리워드를 생성한다. 본원에서 사용되는 “리워드”는 강화 학습에 사용되는 함수(리워드 함수)에 의해 생성되는 값을 지칭한다. 강화 학습 에이전트(예측 분석 시스템 101)의 목표는 가능한 한 많은 리워드를 수집하는 것이다. 일 실시예에서, 후보 학생 모델(303)이 시험 데이터(104)를 사용하여 현재 학생 모델(302)보다 관찰된 목표를 예측하는 데 더 나은 경우 리워드 생성기(304)에 의해 포지티브 모델 레벨 리워드(501)가 리턴된다. 반대로, 현재 학생 모델(302)이 시험 데이터(104)를 사용하여 후보 학생 모델(303)보다 관찰된 목표를 예측하는 데 더 나은 경우 리워드 생성기(304)에 의해 네거티브 모델 레벨 리워드(501)가 리턴된다.

[0077] 케이스 레벨 리워드(502)는 학생 모델들(302, 303)에 의해 훈련 데이터(103)를 사용하여 데이터 케이스를 정확기 분류하는 것에 기초한 리워드를 지칭한다. 학생 모델(302, 303)이 데이터 케이스를 정확하게 분류했다면, 리워드 생성기(304)에 의해 포지티브 리워드(502)가 리턴된다. 반대로, 학생 모델(302, 303)이 데이터 케이스를 정확하게 분류하지 못했다면, 리워드 생성기(304)에 의해 네거티브 리워드(502)가 리턴된다.

[0078] 일 실시예에서, 리워드 생성기(304)는 모델 레벨 리워드(501)와 케이스 레벨 리워드(502)의 조합인, 예컨대 두 리워드의 평균인 최종 리워드(503)를 생성한다.

[0079] 단계(607)에서, 정지 규칙이 충족되었는지에 대한 결정이 예측 분석 시스템(101)에 의해 이루어진다. 본원에서 사용되는 “정지 규칙들”은 학생 모델의 훈련이 완료되었는지를 결정하는 규칙들을 지칭한다. 데이터 케이스들에 대한 최적의 가중치들이 식별되었다고 결정될 때 이러한 훈련은 완료된 것이다.

[0080] 일 실시예에서, 이러한 정지 규칙들은: 지정된 시도 횟수에 도달, 지정된 훈련 타이밍에 도달, 예측 정확도의 수렴 및 사용자 개시 종결을 포함하나, 이에 한정되지 않는다.

[0081] 이 정지 규칙들 중 어느 것이든 충족되면, 단계(608)에서, 최적의 가중치들(교사 모델(301)에 의해 생성된 가중치들)과 해당 학생 모델(302)이 예컨대 예측 분석 시스템(101) 상의 사용자 인터페이스를 통해 사용자에게 리턴된다. 리턴된 학생 모델은 관찰된 목표의 정확한 예측을 제공할 수 있다. 또한, 교사 모델(301)에 의해 생성된 리턴된 가중치들(604 단계 참조)은 예컨대 정지 규칙이 충족될 때(예를 들어, 예측 정확도가 수렴할 때) “최적”의 가중치들로 간주된다. 이러한 방식으로, 예측 정확도를 향상하기 위한 최적의 가중치들을 식별한다.

[0082] 그러나 정지 규칙들 중 하나도 충족되지 않으면,단계(609)에서, 업데이터(305)는 교사 모델(301)을 리워드(단계(606)의 리워드)로 업데이트한다. 일 실시예에서, 교사 모델(301)은 리워드들을 활용하여, 강화 학습과 같은, 정책 경사법들을 통해 그 파라미터들을 업데이트한다.

[0083] 앞서 논의된 바와 같이, 일 실시예에서, 교사 모델(301)은 연합 즉시-강화 학습 과제(associative immediate-reinforcement learning task)에 직면한다. 각 시도(each trial)마다의 강화 값에 대한 리워드를 r이라고 하면, 네트워크 내 파라미터 w_ij는

의 양만큼 증가되며, 여기서 α는 학습률 계수이고, N은 양의 정수이고, g_k는 케이스 k에 대한 교사 모델의 출력이다. 증가된 양 △w (이에 따라 교사 모델(301)이 업데이트됨)은 또한 다음과 같이 도시될 수 있다:

여기서, r은 각 시도 시의 강화 값이고, w _ij 는 네트워크에서 양 △w _ij 만큼 증가된 파라미터이고, α는 학습률 계수이고, N은 양의 정수이고, g _k 는 케이스 k에 대한 교사 모델의 출력이다.

[0084] 교사 모델(301)을 업데이트하면, 610 단계에서, 후보 학생 모델(303)이 현재 학생 모델(302)보다 관찰된 목표의 더 나은 예측을 생성하는지에 대한 결정이 의사 결정자(306)에 의해 이루어진다. 이러한 결정은 예측이 관찰된 목표에 얼마나 가까운지에 기초한다.

[0085] 후보 학생 모델(303)이 현재 학생 모델(302)보다 관찰된 목표를 예측하는 데 더 나으면, 단계(611)에서, 현재 학생 모델(302)이 후보 학생 모델(303)로 업데이트된다. 즉, 단계(611)에서, 현재 학생 모델(302)은 본질적으로 후보 학생 모델(303)로 대체된다.

[0086] 또한, 후보 학생 모델(303)이 현재 학생 모델(302)보다 관찰된 목표를 예측하는 데 더 나으면, 단계(612)에서, 현재 가중치들은 새로운 가중치들(604 단계에서 교사 모델(301)에 의해 생성된 새로운 가중치들)로 업데이트된다.

[0087] 현재 가중치들을 새로운 가중치들로 업데이트하면, 업데이트된 학생 모델(302)(단계(611)에서 업데이트됨)은 단계(603)에서 새로운 가중치들을 사용하여 상태 특징들을 생성한다.

[0088] 그렇지 않고, 후보 학생 모델(303)이 현재 학생 모델(302)보다 관찰된 목표를 예측하는 데 더 낫지 않으면, 의사 결정자(306)는 업데이트된 교사 모델(301)(609 단계에서 업데이트됨)에 현재 학생 모델(302)로부터 현재 학생 특징들 및 현재 가중치들을 사용하여 단계(604)에서 새로운 가중치들을 생성하라고 직접 요청한다.

[0089] 이러한 방식으로, 본 발명은 예측 모델링 분야에서 “가르치는 학습”의 개념을 구현하는 프레임워크를 고안한다. 이러한 프레임워크는 각 데이터 케이스에 대한 가중치를 생성하는 교사 모델을 포함한다. 생성된 가중치들과 함께 훈련 데이터 케이스들은 학생 모델을 재훈련하는 데 사용된다. 예측 정확도 측면에서 홀드아웃 데이터세트에 대해 훈련된 학생 모델을 평가함으로써 리워드가 리턴된다. 그러면 교사 모델은 리워드를 활용하여 정책 경사법들, 예를 들어 강화 학습을 통해 그 파라미터들을 업데이트한다. 이러한 프로세스는 학생 모델이 원하는 성능을 달성할 때까지 반복된다.

[0090] 이전에 사용된 휴리스틱 방법들(예를 들어, 부스팅)과 비교하여, 본 발명의 접근법은 최적의 방식으로 케이스 가중치들을 결정한다. 이를 통해 앙상블 모델을 사용하는 대신 기본 학습자들, 예를 들어 결정 트리, 신경망 등을 통해 더 나은 학생 모델을 구축할 수 있다.

[0091] 케이스 가중치들을 학생 모델에 대한 활동들로 사용함으로써, 학습자가 훈련에서 케이스 가중치를 지원하는 것을 고려하면 모든 종류의 머신 러닝 학습자가 학생 모델로 사용될 수 있다.

[0092] 또한, 본 발명은 예측 모델링을 수반하는 기술 또는 기술 분야를 향상한다. 위에서 논의된 바와 같이, 더 나은 예측 모델을 달성하는 것이 머신 러닝 기술의 연구 및 실습의 목표이다. 예를 들어, 앙상블 방법들은 구성 학습 알고리즘 단독으로 얻을 수 있는 것보다 더 나은 예측 성능을 얻기 위해 여러 학습 알고리즘을 사용한다. 그러한 앙상블 방법들에는 부트스트랩 집계(bootstrap aggregating, 배깅이라고도 함), 부스팅(boosting) 등이 포함된다. 부트스트랩 집계는 통계 분류 및 회귀에 사용되는 머신 러닝 알고리즘의 안정성과 정확성을 향상시키기 위해 설계된 머신 러닝 앙상블 메타 알고리즘이다. 부스팅은 주로 지도형 학습(supervised learning)의 편향과 분산을 줄이기 위한 머신 러닝 앙상블 메타 알고리즘이며 약한 학습자를 강한 학습자로 변환하는 머신 러닝 알고리즘 군이다. 부스팅과 같은, 그러한 기술들에서, 모델링 프로세스 중에 잘못 분류된 케이스들의 가중치들은 증가하고 올바르게 분류된 케이스들의 가중치들은 감소한다. 그러한 전략(휴리스틱)은 많은 경우에 더 나은 예측을 달성하지만, 이상치/노이즈를 과적합할 가능성이 있다. 이상치/노이즈를 과적합하면 그 결과 예측 정확도가 떨어진다. 따라서, 잘못 분류된 케이스들의 가중치들을 높이고 올바르게 분류된 케이스들의 가중치들을 줄이는 휴리스틱 전략은 모델의 예측 정확도를 향상시키기 위한 최선의 전략이 아닐 수 있다. 예를 들어, 때때로, 올바르게 분류된 케이스들의 가중치들을 높이는 것이 더 나을 수 있는데, 그러한 케이스들에는 머신 러닝 알고리즘이 학습해야 하는 매우 중요한 패턴들이 포함되어 있기 때문이다. 유사한 이유로 이상치 케이스들과 같이 잘못 분류된 케이스들의 가중치들을 줄이는 것이 더 나을 수도 있다. 결과적으로, 부스팅과 같은 이러한 기술들은 분류된 케이스들에 대한 최적의 가중치들을 식별하지 못하므로 머신 러닝 기술들에서 최적의 예측 정확도를 달성하지 못한다.

[0093] 본 발명은 교사 모델을 구성하여 이러한 기술을 향상하고, 여기서 교사 모델은 각 데이터 케이스에 대한 가중치를 생성한다. 본원에서 사용되는 “교사 모델”은 학생 모델의 학습을 촉진하기 위한 적절한 데이터, 손실 함수 및 가설 공간을 결정하는 통계 모델을 지칭한다. 그런 후 현재 학생 모델은 훈련 데이터 및 교사 모델에 의해 생성된 가중치들을 사용하여 훈련된다. 본원에서 사용되는 “학생 모델”은 훈련 데이터를 사용하여 예측을 제공하기 위해 훈련되는 통계 모델을 지칭한다. 본원에서 사용되는 “현재” 학생 모델은 훈련 데이터를 사용하여 예측을 제공하기 위해 현재 훈련되는 학생 모델을 지칭한다. 현재 학생 모델은 상태 특징들(예를 들어, 데이터 특징들, 케이스 가중치들, 학생 모델 특징들 및 데이터와 학생 모델 둘 모두의 조합을 나타내기 위한 특징들)을 생성하고, 이는 교사 모델에 의해 새로운 가중치들을 생성하는 데 사용된다. 그런 후 훈련 데이터 및 이러한 새로운 가중치들을 사용하여 후보 학생 모델이 훈련된다. 본원에서 사용되는 “후보 학생 모델”은 현재 학생 모델보다 더 나은 학생 모델인지(관찰된 목표를 예측하는 데 더 나은지) 결정하기 위해 검사되는 학생 모델을 지칭한다. 그런 후 훈련 및 시험 데이터를 사용하여 현재 학생 모델과 후보 학생 모델을 비교하여 어느 것이 관찰된 목표를 예측하는 데 더 나은지 결정하는 리워드가 생성된다. 본원에서 사용되는 “리워드”는 강화 학습에 사용되는 함수(리워드 함수)에 의해 생성되는 값을 지칭한다. 후보 학생 모델이 현재 학생 모델보다 관찰된 목표를 예측하는 데 더 나은 경우 포지티브 리워드가 리턴될 수 있다. 반대로, 현재 학생 모델이 후보 학생 모델보다 관찰된 목표를 예측하는 데 더 나은 경우 네거티브 리워드가 리턴될 수 있다. 그런 후 교사 모델이 리워드로 업데이트된다. 교사 모델은 리워드들을 활용하여 강화 학습 등의 정책 경사법들을 통해 그 파라미터들을 업데이트한다. 후보 학생 모델이 현재 학생 모델보다 관찰된 목표를 예측하는 데 더 나으면, 현재 학생 모델이 후보 학생 모델로 업데이트되고 현재 가중치들은 교사 모델에 의해 생성된 새로운 가중치들로 업데이트된다. 현재 가중치들을 새로운 가중치들로 업데이트하면, 현재 학생 모델은 새로운 상태 특징들을 생성한다. 하지만, 후보 학생 모델이 현재 학생 모델보다 관찰된 목표를 예측하는 데 더 낫지 않으면, 업데이트된 교사 모델은 현재 학생 모델의 현재 가중치들과 현재 학생 특징들을 사용하여 새로운 가중치들을 생성한다. 정지 규칙들 중 하나라도 충족되면(예를 들어, 지정된 시도 횟수에 도달, 지정된 훈련 타이밍에 도달, 예측 정확도의 수렴 및 사용자-개시 종결), 교사 모델에 의해 생성된 가중치들은 해당 학생 모델과 함께 사용자에게 반환되는 “최적” 가중치들로 간주된다. 이러한 방식으로, 예측 정확도를 향상하기 위한 최적의 가중치들을 식별한다. 또한, 이러한 방식으로, 예측 모델링 기술 분야가 향상된다.

[0094] 본 발명에 의해 제공되는 기술적 해결방법은 인간의 마음으로 또는 펜과 종이를 사용하여 인간에 의해 수행될 수 없다. 즉, 본 발명에 의해 제공되는 기술적 해결방법은 컴퓨터를 사용하지 않고는 합리적인 시간과 정확성에 대한 합리적인 기대를 가지고 인간의 마음으로 또는 펜과 종이를 사용하여 인간에 의해 달성될 수 없다.

[0095] 본 발명의 일 실시예에서, 머신 러닝 기술들에서 예측 정확도를 향상하기 위한 컴퓨터 구현 방법은 교사 모델을 구성하는 단계를 포함하고, 여기서 교사 모델은 각 데이터 케이스에 대한 가중치를 생성한다. 본 방법은 훈련 데이터 및 교사 모델에 의해 생성된 가중치들을 사용하여 현재 학생 모델을 훈련하는 단계를 더 포함한다. 본 방법은 현재 학생 모델에 의해 상태 특징들을 생성하는 단계를 추가로 포함한다. 또한, 본 방법은 교사 모델에 의해 상태 특징들을 사용하여 새로운 가중치들을 생성하는 단계를 포함한다. 추가로, 본 방법은 훈련 데이터 및 새로운 가중치들을 사용하여 후보 학생 모델을 훈련하는 단계를 포함한다. 또한, 본 방법은 훈련 데이터 및 시험 데이터를 사용하여 현재 학생 모델과 후보 학생 모델을 비교하여 어느 것이 관찰된 목표를 예측하는 데 더 나은지 결정하는 리워드를 생성하는 단계를 포함한다. 본 방법은 정지 규칙이 충족되지 않은 것에 응답하여 교사 모델을 리워드로 업데이트하는 단계를 더 포함한다. 본 방법은 정지 규칙이 충족된 것에 응답하여 새로운 가중치들과 현재 학생 모델을 사용자에게 리턴하는 단계를 추가로 포함하고, 여기서 리턴된 학생 모델은 관찰된 목표의 예측을 제공한다.

[0096] 본 발명의 일 실시예에서, 본 방법은 예측이 관찰된 목표에 얼마나 가까운지에 기초하여 후보 학생 모델이 현재 학생 모델보다 관찰된 목표의 더 나은 예측을 생성하는지 결정하는 단계를 더 포함한다.

[0097] 일 실시예에서, 본 방법은 후보 학생 모델이 현재 학생 모델보다 관찰된 목표의 더 나은 예측을 생성하는 것에 응답하여 현재 학생 모델을 후보 학생 모델로 업데이트하고 현재 가중치들을 새로운 가중치들로 업데이트하는 단계를 더 포함한다.

[0098] 일 실시예에서, 본 방법은 새로운 가중치들을 사용하여, 업데이트된 학생 모델에 의해 새로운 상태 특징들을 생성하고 새로운 상태 특징들을 사용하여 교사 모델에 의해 제2 세트의 새로운 가중치들을 생성하는 단계를 추가로 포함한다.

[0099] 또한, 일 실시예에서, 본 방법은 훈련 데이터 및 제2 세트의 새로운 가중치들을 사용하여 후보 학생 모델을 훈련하고 훈련 데이터 및 시험 데이터를 사용하여, 업데이트된 학생 모델과 후보 학생 모델을 비교함으로써 어느 것이 관찰된 목표를 예측하는 데 더 나은지 결정하는 리워드를 생성하는 단계를 추가로 포함한다.

[0100] 추가로, 일 실시예에서, 본 방법은 후보 학생 모델이 현재 학생 모델보다 관찰된 목표의 더 나은 예측을 생성하지 않는 것에 응답하여 상태 특징들을 사용하여, 업데이트된 교사 모델에 의해 제2 세트의 새로운 가중치들을 생성하는 단계를 더 포함한다.

[0101] 일 실시예에서, 본 방법은 훈련 데이터 및 제2 세트의 새로운 가중치들을 사용하여 후보 학생 모델을 훈련하고 훈련 데이터 및 시험 데이터를 사용하여, 현재 학생 모델과 후보 학생 모델을 비교함으로써 어느 것이 관찰된 목표를 예측하는 데 더 나은지 결정하는 리워드를 생성하는 단계를 더 포함한다.

[0102] 일 실시예에서, 본 방법은 정지 규칙이 다음: 지정된 시도 횟수에 도달, 지정된 훈련 타이밍에 도달, 예측 정확도의 수렴 및 사용자 개시 종결 중 하나 이상을 포함하게 하는 단계를 추가로 포함한다.

[0103] 일 실시예에서, 본 방법은 교사 모델이 신경망을 포함하게 하는 단계, 및 학생 모델이 다음: 결정 트리 및 신경망 중 하나를 포함하게 하는 단계를 더 포함한다.

[0104] 위에서 설명된 방법의 실시예들의 다른 형태들은 시스템 및 컴퓨터 프로그램 제품에 있다.

[0105] 본 발명의 다양한 실시예에 대한 설명은 예시의 목적으로 제시되었으며, 완전하거나 개시된 실시예들로 제한하려는 의도가 있는 것은 아니다. 이 기술 분야에서 통상의 지식을 가진 자라면 개시된 실시예들의 범위와 정신을 벗어나지 않으면서 많은 수정들 및 변형들이 있을 수 있다는 것을 명백히 알 수 있을 것이다. 본원에 사용된 용어는 실시예들의 원리, 시장에서 발견되는 기술에 대한 실질적인 응용 또는 기술적 개선을 가장 잘 설명하거나, 또는 당업자가 본원에 개시된 실시예들을 이해할 수 있도록 하기 위해 선택되었다.

Claims

머신 러닝 기술들에서 예측 정확도를 향상하기 위한 컴퓨터 구현 방법에 있어서, 상기 방법은:
교사 모델을 구성하는 단계(constructing a teacher model)―상기 교사 모델은 각 데이터 케이스에 대한 가중치를 생성함―;
훈련 데이터 및 상기 교사 모델에 의해 생성된 가중치들을 사용하여 현재 학생 모델을 훈련하는 단계(training a current student model);
상기 현재 학생 모델에 의해 상태 특징들을 생성하는 단계(generating state features);
상기 상태 특징들을 사용하여 상기 교사 모델에 의해 새로운 가중치들을 생성하는 단계(generating new weights);
상기 훈련 데이터 및 상기 새로운 가중치들을 사용하여 후보 학생 모델을 훈련하는 단계(training a candidate student model);
상기 훈련 데이터 및 시험 데이터를 사용하여 상기 현재 학생 모델과 상기 후보 학생 모델을 비교하여 어느 것이 관찰된 목표(an observed target)를 예측하는 데 더 나은지 결정하는 리워드를 생성하는 단계(generating a reward);
정지 규칙(a stopping rule)이 충족되지 않은 것에 응답하여 상기 교사 모델을 상기 리워드로 업데이트하는 단계; 및
상기 정지 규칙이 충족된 것에 응답하여 상기 새로운 가중치들과 상기 현재 학생 모델을 사용자에게 리턴하는 단계―상기 리턴된 학생 모델은 상기 관찰된 목표의 예측을 제공함―를 포함하는, 방법.
제1항에 있어서, 상기 방법은:
상기 예측이 상기 관찰된 목표에 얼마나 가까운지에 기초하여 상기 후보 학생 모델이 상기 현재 학생 모델보다 상기 관찰된 목표의 더 나은 예측을 생성하는지 결정하는 단계를 더 포함하는, 방법.
제2항에 있어서, 상기 방법은:
상기 후보 학생 모델이 상기 현재 학생 모델보다 상기 관찰된 목표의 더 나은 예측을 생성하는 것에 응답하여 상기 현재 학생 모델을 상기 후보 학생 모델로 업데이트하고 현재 가중치들을 상기 새로운 가중치들로 업데이트하는 단계를 더 포함하는, 방법.
제3항에 있어서, 상기 방법은:
상기 새로운 가중치들을 사용하여 상기 업데이트된 학생 모델에 의해 새로운 상태 특징들을 생성하는 단계; 및
상기 상태 특징들을 사용하여 상기 교사 모델에 의해 제2 세트의 새로운 가중치들을 생성하는 단계를 더 포함하는, 방법.
제4항에 있어서, 상기 방법은:
상기 훈련 데이터 및 상기 제2 세트의 새로운 가중치들을 사용하여 상기 후보 학생 모델을 훈련하는 단계; 및
상기 훈련 데이터 및 상기 시험 데이터를 사용하여, 상기 업데이트된 학생 모델과 상기 후보 학생 모델을 비교하여 어느 것이 상기 관찰된 목표를 예측하는 데 더 나은지 결정하는 리워드를 생성하는 단계를 더 포함하는, 방법.
제2항에 있어서, 상기 방법은:
상기 후보 학생 모델이 상기 현재 학생 모델보다 상기 관찰된 목표의 더 나은 예측을 생성하지 않는 것에 응답하여 상기 상태 특징들을 사용하여, 상기 업데이트된 교사 모델에 의해 제2 세트의 새로운 가중치들을 생성하는 단계를 더 포함하는, 방법.
제6항에 있어서, 상기 방법은:
상기 훈련 데이터 및 상기 제2 세트의 새로운 가중치들을 사용하여 상기 후보 학생 모델을 훈련하는 단계; 및
상기 훈련 데이터 및 상기 시험 데이터를 사용하여, 상기 현재 학생 모델과 상기 후보 학생 모델을 비교하여 어느 것이 상기 관찰된 목표를 예측하는 데 더 나은지 결정하는 리워드를 생성하는 단계를 더 포함하는, 방법.
제1항에 있어서, 상기 정지 규칙은: 지정된 시도 횟수에 도달, 지정된 훈련 타이밍에 도달, 예측 정확도의 수렴 및 사용자 개시 종결 중 하나 이상을 포함하는, 방법.
제1항에 있어서, 상기 교사 모델은 신경망을 포함하고, 상기 학생 모델은: 결정 트리 및 신경망 중 하나를 포함하는, 방법.
머신 러닝 기술들에서 예측 정확도를 향상하기 위한 컴퓨터 프로그램 제품에 있어서, 상기 컴퓨터 프로그램 제품은 프로그램 코드가 구현된 컴퓨터 판독 가능 스토리지 매체를 포함하고, 상기 프로그램 코드는:
교사 모델을 구성하는 단계―상기 교사 모델은 각 데이터 케이스에 대한 가중치를 생성함―;
훈련 데이터 및 상기 교사 모델에 의해 생성된 가중치들을 사용하여 현재 학생 모델을 훈련하는 단계;
상기 현재 학생 모델에 의해 상태 특징들을 생성하는 단계;
상기 상태 특징들을 사용하여 상기 교사 모델에 의해 새로운 가중치들을 생성하는 단계;
상기 훈련 데이터 및 상기 새로운 가중치들을 사용하여 후보 학생 모델을 훈련하는 단계;
상기 훈련 데이터 및 시험 데이터를 사용하여 상기 현재 학생 모델과 상기 후보 학생 모델을 비교하여 어느 것이 관찰된 목표를 예측하는 데 더 나은지 결정하는 리워드를 생성하는 단계;
정지 규칙이 충족되지 않은 것에 응답하여 상기 교사 모델을 상기 리워드로 업데이트하는 단계; 및
상기 정지 규칙이 충족된 것에 응답하여 상기 새로운 가중치들과 상기 현재 학생 모델을 사용자에게 리턴하는 단계―상기 리턴된 학생 모델은 상기 관찰된 목표의 예측을 제공함―를 위한 프로그래밍 명령들을 포함하는, 컴퓨터 프로그램 제품.
제10항에 있어서, 상기 프로그램 코드는:
상기 예측이 상기 관찰된 목표에 얼마나 가까운지에 기초하여 상기 후보 학생 모델이 상기 현재 학생 모델보다 상기 관찰된 목표의 더 나은 예측을 생성하는지 결정하는 단계를 위한 프로그래밍 명령들을 더 포함하는, 컴퓨터 프로그램 제품.
제11항에 있어서, 상기 프로그램 코드는:
상기 후보 학생 모델이 상기 현재 학생 모델보다 상기 관찰된 목표의 더 나은 예측을 생성하는 것에 응답하여 상기 현재 학생 모델을 상기 후보 학생 모델로 업데이트하고 현재 가중치들을 상기 새로운 가중치들로 업데이트하는 단계를 위한 프로그래밍 명령들을 더 포함하는, 컴퓨터 프로그램 제품.
제12항에 있어서, 상기 프로그램 코드는:
상기 새로운 가중치들을 사용하여 상기 업데이트된 학생 모델에 의해 새로운 상태 특징들을 생성하는 단계; 및
상기 상태 특징들을 사용하여 상기 교사 모델에 의해 제2 세트의 새로운 가중치들을 생성하는 단계를 위한 프로그래밍 명령들을 더 포함하는, 컴퓨터 프로그램 제품.
제13항에 있어서, 상기 프로그램 코드는:
상기 훈련 데이터 및 상기 제2 세트의 새로운 가중치들을 사용하여 상기 후보 학생 모델을 훈련하는 단계; 및
상기 훈련 데이터 및 상기 시험 데이터를 사용하여, 상기 업데이트된 학생 모델과 상기 후보 학생 모델을 비교하여 어느 것이 상기 관찰된 목표를 예측하는 데 더 나은지 결정하는 리워드를 생성하는 단계를 위한 프로그래밍 명령들을 더 포함하는, 컴퓨터 프로그램 제품.
제11항에 있어서, 상기 프로그램 코드는:
상기 후보 학생 모델이 상기 현재 학생 모델보다 상기 관찰된 목표의 더 나은 예측을 생성하지 않는 것에 응답하여 상기 상태 특징들을 사용하여, 상기 업데이트된 교사 모델에 의해 제2 세트의 새로운 가중치들을 생성하는 단계를 위한 프로그래밍 명령들을 더 포함하는, 컴퓨터 프로그램 제품.
제15항에 있어서, 상기 프로그램 코드는:
상기 훈련 데이터 및 상기 제2 세트의 새로운 가중치들을 사용하여 상기 후보 학생 모델을 훈련하는 단계; 및
상기 훈련 데이터 및 상기 시험 데이터를 사용하여, 상기 현재 학생 모델과 상기 후보 학생 모델을 비교하여 어느 것이 상기 관찰된 목표를 예측하는 데 더 나은지 결정하는 리워드를 생성하는 단계를 더 포함하는, 컴퓨터 프로그램 제품.
제10항에 있어서,
상기 정지 규칙은: 지정된 시도 횟수에 도달, 지정된 훈련 타이밍에 도달, 예측 정확도의 수렴 및 사용자 개시 종결 중 하나 이상을 포함하는, 컴퓨터 프로그램 제품.
시스템에 있어서, 상기 시스템은:
머신 러닝 기술들에서 예측 정확도를 향상하기 위한 컴퓨터 프로그램을 저장하기 위한 메모리; 및 상기 메모리에 연결된 프로세서를 포함하고, 상기 프로세서는 상기 컴퓨터 프로그램의 프로그램 명령들을 실행하도록 구성되며, 상기 컴퓨터 프로그램의 프로그램 명령들은:
교사 모델을 구성하는 단계―상기 교사 모델은 각 데이터 케이스에 대한 가중치를 생성함―;
훈련 데이터 및 상기 교사 모델에 의해 생성된 가중치들을 사용하여 현재 학생 모델을 훈련하는 단계;
상기 현재 학생 모델에 의해 상태 특징들을 생성하는 단계;
상기 상태 특징들을 사용하여 상기 교사 모델에 의해 새로운 가중치들을 생성하는 단계;
상기 훈련 데이터 및 상기 새로운 가중치들을 사용하여 후보 학생 모델을 훈련하는 단계;
상기 훈련 데이터 및 시험 데이터를 사용하여 상기 현재 학생 모델과 상기 후보 학생 모델을 비교하여 어느 것이 관찰된 목표를 예측하는 데 더 나은지 결정하는 리워드를 생성하는 단계;
정지 규칙이 충족되지 않은 것에 응답하여 상기 교사 모델을 상기 리워드로 업데이트하는 단계; 및
상기 정지 규칙이 충족된 것에 응답하여 상기 새로운 가중치들과 상기 현재 학생 모델을 사용자에게 리턴하는 단계―상기 리턴된 학생 모델은 상기 관찰된 목표의 예측을 제공함―를 포함하는, 시스템.
제18항에 있어서, 상기 컴퓨터 프로그램의 프로그램 명령들은:
상기 예측이 상기 관찰된 목표에 얼마나 가까운지에 기초하여 상기 후보 학생 모델이 상기 현재 학생 모델보다 상기 관찰된 목표의 더 나은 예측을 생성하는지 결정하는 단계를 더 포함하는, 시스템.
제19항에 있어서, 상기 컴퓨터 프로그램의 프로그램 명령들은:
상기 후보 학생 모델이 상기 현재 학생 모델보다 상기 관찰된 목표의 더 나은 예측을 생성하는 것에 응답하여 상기 현재 학생 모델을 상기 후보 학생 모델로 업데이트하고 현재 가중치들을 상기 새로운 가중치들로 업데이트하는 단계를 더 포함하는, 시스템.
제20항에 있어서, 상기 컴퓨터 프로그램의 프로그램 명령들은:
상기 새로운 가중치들을 사용하여 상기 업데이트된 학생 모델에 의해 새로운 상태 특징들을 생성하는 단계; 및
상기 상태 특징들을 사용하여 상기 교사 모델에 의해 제2 세트의 새로운 가중치들을 생성하는 단계를 더 포함하는, 시스템.
제21항에 있어서, 상기 컴퓨터 프로그램의 프로그램 명령들은:
상기 훈련 데이터 및 상기 제2 세트의 새로운 가중치들을 사용하여 상기 후보 학생 모델을 훈련하는 단계; 및
상기 훈련 데이터 및 상기 시험 데이터를 사용하여, 상기 업데이트된 학생 모델과 상기 후보 학생 모델을 비교하여 어느 것이 상기 관찰된 목표를 예측하는 데 더 나은지 결정하는 리워드를 생성하는 단계를 더 포함하는, 시스템.
제19항에 있어서, 상기 컴퓨터 프로그램의 프로그램 명령들은:
상기 후보 학생 모델이 상기 현재 학생 모델보다 상기 관찰된 목표의 더 나은 예측을 생성하지 않는 것에 응답하여 상기 상태 특징들을 사용하여, 상기 업데이트된 교사 모델에 의해 제2 세트의 새로운 가중치들을 생성하는 단계를 더 포함하는, 시스템.
제23항에 있어서, 상기 컴퓨터 프로그램의 프로그램 명령들은:
상기 훈련 데이터 및 상기 제2 세트의 새로운 가중치들을 사용하여 상기 후보 학생 모델을 훈련하는 단계; 및
상기 훈련 데이터 및 상기 시험 데이터를 사용하여, 상기 현재 학생 모델과 상기 후보 학생 모델을 비교하여 어느 것이 상기 관찰된 목표를 예측하는 데 더 나은지 결정하는 리워드를 생성하는 단계를 더 포함하는, 시스템.
제18항에 있어서, 상기 정지 규칙은: 지정된 시도 횟수에 도달, 지정된 훈련 타이밍에 도달, 예측 정확도의 수렴 및 사용자 개시 종결 중 하나 이상을 포함하는, 시스템.