KR20160127100A - 머신 러닝에서의 대안 트레이닝 분포 데이터 - Google Patents

머신 러닝에서의 대안 트레이닝 분포 데이터 Download PDF

Info

Publication number
KR20160127100A
KR20160127100A KR1020167026705A KR20167026705A KR20160127100A KR 20160127100 A KR20160127100 A KR 20160127100A KR 1020167026705 A KR1020167026705 A KR 1020167026705A KR 20167026705 A KR20167026705 A KR 20167026705A KR 20160127100 A KR20160127100 A KR 20160127100A
Authority
KR
South Korea
Prior art keywords
training
data
input
determining
machine learning
Prior art date
Application number
KR1020167026705A
Other languages
English (en)
Other versions
KR101933916B1 (ko
Inventor
야세르 사이드 아부-모스타파
카를로스 로베르토 곤잘레스
Original Assignee
캘리포니아 인스티튜트 오브 테크놀로지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 캘리포니아 인스티튜트 오브 테크놀로지 filed Critical 캘리포니아 인스티튜트 오브 테크놀로지
Publication of KR20160127100A publication Critical patent/KR20160127100A/ko
Application granted granted Critical
Publication of KR101933916B1 publication Critical patent/KR101933916B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N99/005
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)
  • Debugging And Monitoring (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)

Abstract

머신 러닝 환경에서의 방법과 시스템에 대한 기술이 일반적으로 설명된다. 일부 예시에서, 방법은 메모리로부터 트레이닝 데이터를 회수하는 단계를 포함할 수 있다. 트레이닝 데이터는 트레이닝 입력과 트레이닝 레이블을 포함할 수 있다. 방법은 트레이닝 입력에 기초하여 데이터세트의 집합을 결정하는 단계를 더 포함할 수 있다. 방법은 트레이닝 입력에 기초하고 테스트 데이터에 기초하여 표본 외 오류의 집합을 결정하는 단계를 더 포함할 수 있다. 각각의 표본 외 오류는 데이터세트의 집합에서 각각의 데이터세트에 대응할 수 있다. 방법은 표본 외 오류의 집합에 기초하여 대안 분포 데이터를 생성하는 단계를 더 포함할 수 있다. 대안 분포 데이터는 트레이닝 데이터에 적용될 가중치를 결정하는 데에 사용될 수 있다.

Description

머신 러닝에서의 대안 트레이닝 분포 데이터{ALTERNATIVE TRAINING DISTRIBUTION DATA IN MACHINE LEARNING}
본 출원은 2014년 3월 10일에 출원된 미국 가출원 61/950,358, 2014년 6월 20일에 출원된 미국 가출원 62/015,218 및 2014년 8월 5일에 출원된 미국 출원 14/451,935를 우선권 주장한다. 이 출원들의 개시는 전체가 여기에 참조로서 포함된다. 본 출원은 2014년 8월 5일에 출원된 트레이닝 데이터를 위한 가중치 이득 평가기(WEIGHT BENEFIT EVALUATOR FOR TRAINING DATA)라는 표제의 미국 출원 번호 14/451,859, 2014년 8월 5일에 출원된 머신 러닝에서의 가중치의 생성(GENERATION OF WEIGHTS IN MACHINE LEARNING)이라는 표제의 미국 출원 번호 14/451,870, 및 2014년 8월 5일에 출원된 머신 러닝에서의 가중치 생성(WEIGHT GENERATION IN MACHINE LEARNING)이라는 표제의 미국 출원 번호 14/451,899에 관련된다.
여기에서 달리 명시되지 않는 한, 본 섹션에서 설명되는 내용은 본 출원에서 청구범위에 대한 종래 기술이 아니며, 본 섹션에 포함함으로써 선행 기술로 인정되지 않는다.
머신 러닝(machine learning) 환경에서, 트레이닝 입력(training input) 및 트레이닝 레이블(training label)을 포함하는 트레이닝 데이터가 학습 함수(learned function)를 결정하는 데에 사용될 수 있다. 학습 함수는 트레이닝 입력과 트레이닝 레이블 사이의 관계를 나타내는 데에 효과가 있을 수 있다. 학습 함수는 머신 러닝 시스템에 배치될 수 있다. 머신 러닝 시스템은 테스트 입력(test input)을 수신할 수 있고 학습 함수를 테스트 입력에 적용하여 테스트 레이블(test label)을 산출할 수 있다.
일부 예시에서, 머신 러닝 환경에서의 방법이 일반적으로 설명된다. 방법은 컴퓨팅 장치에 의하여 머신 러닝 모듈을 위한 트레이닝 데이터에 기초하여 입력 공간(input space)에서 데이터세트의 집합을 결정하는 단계를 포함할 수 있다. 트레이닝 데이터는 입력 공간에서 트레이닝 입력과 트레이닝 레이블을 포함할 수 있다. 방법은 트레이닝 입력에 기초하여 표본 외 오류(out of sample error)의 집합을 결정하는 단계도 포함할 수 있다. 각각의 표본 외 오류는 데이터세트의 집합에서 각각의 데이터세트에 대응할 수 있다. 방법은 표본 외 오류의 집합에 가초하여 머신 러닝 모듈을 위한 대안 분포 데이터를 생성하는 단계도 포함할 수 잇다.
일부 예시에서, 머신 러닝 환경에서 대안 분포 데이터를 생성하는 데에 효과가 있는 시스템이 일반적으로 설명된다. 일부 예시에서, 시스템은 머신 러닝 모듈을 위한 트레이닝 데이터에 기초하여 입력 공간에서 데이터세트의 집합을 결정하도록 구성되는 프로세싱 모듈을 포함할 수 있다. 트레이닝 데이터는 입력 공간에서 트레이닝 입력과 트레이닝 레이블을 포함할 수 있다. 시스템은 프로세싱 모듈과 통신하도록 구성되는 평가 모듈을 포함할 수 있다. 평가 모듈은 트레이닝 입력에 기초하여 표본 외 오류의 집합을 결정하도록 구성될 수 있다. 각각의 표본 외 오류는 데이터세트의 집합에서의 각각의 데이터세트에 대응할 수 있다. 프로세싱 모듈은 표본 외 오류의 집합에 기초하여 대안 분포 데이터를 생성하도록 더 구성될 수 있다.
일부 예시에서, 머신 러닝 환경에서의 대안 분포 데이터를 생성하기 위한 방법이 일반적으로 설명된다. 방법은 제1 장치에 의하여 제2 장치로부터 머신 러닝 모듈을 위한 트레이닝 데이터를 수신하는 단계를 포함할 수 있다. 트레이닝 데이터는 입력 공간에서 트레이닝 입력과 트레이닝 레이블을 포함할 수 있다. 방법은 트레이닝 입력에 기초하여 데이터세트의 집합을 결정하는 단계를 포함할 수 있다. 방법은 제2 장치로부터 머신 러닝 모듈을 위한 테스트 입력을 수신하는 단계도 포함할 수 있다. 방법은 트레이닝 입력에 기초하고 테스트 입력에 기초하여 표본 외 오류의 집합을 결정하는 단계도 포함할 수 있다. 각각의 표본 외 오류는 데이터세트의 집합에서의 각각의 데이터세트에 대응할 수 있다. 방법은 표본 외 오류의 집합에 기초하여 대안 분포 데이터를 생성하는 단계도 포함할 수 있다.
이상의 요약은 단지 예시적인 것으로서 어떠한 방식으로든 제한적으로 의도된 것이 아니다. 이하의 상세한 설명과 도면을 참조함으로써, 위에서 설명된 예시적인 양태들, 실시예들 및 특징들에 더하여, 추가적인 양태들, 실시예들 및 특징들이 명확해질 것이다.
본 개시의 전술한 특징들 및 다른 특징들은 첨부 도면과 함께, 다음의 설명 및 첨부된 청구범위로부터 더욱 명확해질 것이다. 이들 도면은 본 개시에 따른 단지 몇 개의 실시예들을 묘사할 뿐이고, 따라서 그 범위를 제한하는 것으로 간주되어서는 안될 것임을 이해하면서, 본 개시는 첨부 도면을 사용하여 더 구체적이고 상세하게 설명될 것이다.
도 1은 머신 러닝에서의 대안 트레이닝 분포 데이터를 구현하는 데에 이용될 수 있는 예시적인 시스템을 도시하고,
도 2는 목적 함수(objective function)의 생성에 관련하여 도 1의 예시적인 시스템을 더 상세히 도시하고,
도 3은 머신 러닝에서의 대안 트레이닝 분포 데이터를 구현하기 위한 예시적인 프로세스에 대한 흐름도를 도시하고,
도 4는 머신 러닝에서의 대안 트레이닝 분포 데이터를 구현하는 데에 이용될 수 있는 예시적인 컴퓨터 프로그램 제품을 도시하고,
도 5는 머신 러닝에서의 대안 트레이닝 분포 데이터를 구현하도록 배열되는 예시적인 컴퓨팅 장치를 도시하는 블록도이며,
모두 여기에 설명되는 적어도 일부 실시예에 따라 배열된다.
이하의 상세한 설명에서, 여기의 일부를 이루는 첨부 도면에 대한 참조가 이루어진다. 문맥에서 달리 지시하고 있지 않은 한, 도면에서 유사한 부호는 통상적으로 유사한 컴포넌트를 나타낸다. 상세한 설명, 도면 및 청구범위에서 설명되는 예시적인 실시예들은 제한적으로 여겨지지 않는다. 여기에서 제시되는 대상의 범위 또는 사상에서 벗어나지 않으면서 다른 실시예가 이용될 수 있고 다른 변경이 이루어질 수 있다. 여기에서 일반적으로 설명되고 도면에 도시되는 본 개시의 양태들이 다양한 다른 구성들로 배열, 대체, 조합, 분리 및 설계될 수 있으며 그 모두가 여기에서 명시적으로 고려됨이 기꺼이 이해될 것이다.
본 개시는 일반적으로, 그 중에서도 특히, 머신 러닝에서의 대안 트레이닝 분포 데이터의 생성에 관련되는 방법, 기기, 시스템, 장치 및 컴퓨터 프로그램 제품에 관한 것이다.
간단히 말해, 머신 러닝 환경에서 대안 트레이닝 분포 데이터를 생성하기 위한 방법 및 시스템에 대한 기술이 일반적으로 설명된다. 일부 예시에서, 방법은 장치에 의하여 메모리로부터 트레이닝 데이터를 회수(retrieving)하는 단계를 포함할 수 있다. 트레이닝 데이터는 짝 데이터(paired data)의 집합일 수 있고, 각각의 짝 데이터는 트레이닝 입력과 트레이닝 레이블을 포함할 수 있다. 각각의 트레이닝 입력은 벡터일 수 있다. 트레이닝 데이터는 예컨대 머신 러닝 모듈에 의해 함수를 학습(learn)하는 데에 사용될 수 있다. 방법은 장치에 의하여 트레이닝 입력에 기초하여 데이터세트의 집합을 결정하는 단계를 더 포함할 수 있다. 데이터세트는 입력 공간에서 데이터의 가능한 집합을 나타낼 수 있다. 방법은 장치에 의하여 트레이닝 입력에 기초하고 테스트 데이터에 기초하여 표본 외 오류의 집합을 결정하는 단계를 더 포함할 수 있다. 각각의 표본 외 오류는 데이터세트의 집합에서 각각의 데이터세트에 대응할 수 있다. 방법은 장치에 의하여 표본 외 오류의 집합에 기초하여 대안 분포 데이터를 생성하는 단계를 더 포함할 수 있다. 대안 분포 데이터는 트레이닝 데이터에 적용될 가중치를 결정하는 데에 사용될 수 있다. 대안 분포 데이터는 트레이닝 데이터 및 테스트 데이터 둘 다와 다를 수 있고, 테스트 데이터는 학습 함수의 성능을 테스트하는 데에 사용될 수 있다.
도 1은 여기에 설명되는 적어도 일부 실시예에 따라 배열되는, 머신 러닝에서의 대안 트레이닝 분포 데이터를 구현하는 데에 이용될 수 있는 예시적인 시스템(100)을 도시한다. 아래에서 더 상세히 설명될 바와 같이, 시스템(100)은 머신 러닝 시스템으로 구현될 수 있다. 시스템(100)은 ((xi, yi)로 표시되는) 트레이닝 데이터(160)에 기초하여 (g로 표시되는) 학습 함수(162)를 결정하도록 구현될 수 있다. 예시적인 학습 함수는 신용 점수를 결정하기 위한 함수일 수 있다. 예시에서, 트레이닝 데이터(160)는 나이, 성별, 급여 및 연관된 신용 점수를 포함하는 데이터의 집합일 수 있다. 트레이닝 데이터(160)는 트레이닝 입력(xi)과 (yi로 표시되는) 트레이닝 레이블을 포함하는 짝 데이터의 집합과 연관될 수 있다. 시스템(100)은 대안 분포 데이터(180)를 생성하도록 더 구현될 수 있다. 대안 분포 데이터(180)는 ((ui, vi)로 표시되는) 대안 트레이닝 데이터(182)의 확률 분포와 같은 분포일 수 있다. 대안 분포는 트레이닝 분포와 테스트 분포 둘 다와 다른 입력 값의 분포일 수 있다(아래에서 더 상세히 설명됨). 시스템(100)은 대안 트레이닝 데이터(182)에 기초하여 (gA로 표시되는) 대안 함수(184)를 결정하도록 더 구현될 수 있으며, 대안 함수(184)는 학습 함수(162)의 오류율보다 낮은 (수신된 입력과 생성된 출력에 대한) 오류율로 수행할 수 있다. 대안 함수(184)는 유사하게 신용 점수의 결정일 수 있다.
시스템(100)은 컴퓨팅 장치(102)로 구현될 수 있고 컴퓨팅 장치(102)는 컴퓨터 또는 서버일 수 있다. 컴퓨팅 장치(102)는 프로세싱 모듈(110), 머신 러닝 모듈(120), 평가 모듈(130) 및/또는 최적화 모듈(150)을 포함할 수 있다. 일부 예시에서, 컴퓨팅 장치(102)는 가중치 생성 모듈(140)을 더 포함할 수 있다. 프로세싱 모듈(110), 머신 러닝 모듈(120), 평가 모듈(130), 가중치 생성 모듈(140) 및/또는 최적화 모듈(150)은 서로 통신하도록 구성될 수 있다. 컴퓨팅 장치(102)는 프로세싱 모듈(110), 머신 러닝 모듈(120), 평가 모듈(130) 및/또는 최적화 모듈(150)과 통신하도록 구성되는 메모리(104)를 더 포함할 수 있다. 일부 예시에서, 컴퓨팅 장치(102) 내 각각의 모듈은 FPGA(Field Programmable Gate Array), SoC(System on Chip) 등과 같은 집적 회로를 포함하는 내장형(embedded) 시스템 또는 하드웨어 컴포넌트일 수 있다. 일부 예시에서, 제1 모듈은 제2 모듈에 내장될 수 있다. 예를 들어, 최적화 모듈(150)은 평가 모듈(130)에 내장될 수 있다. 일부 예시에서, 프로세싱 모듈(110), 머신 러닝 모듈(120), 평가 모듈(130) 및/또는 최적화 모듈(150)은 컴퓨팅 장치(102)의 프로세서의 컴포넌트일 수 있다.
메모리(104)는 머신 러닝 명령어(122), (fO로 표시되는) 목적 함수(176), 트레이닝 데이터(160) 및/또는 테스트 입력(140)을 저장하도록 구성될 수 있다. 머신 러닝 명령어(122)는 학습 함수(162) 및/또는 대안 함수(184) 등과 같은 함수의 생성을 용이하게 하는 데에 효과가 있는 명령어를 포함할 수 있다. 머신 러닝 명령어(122)는 평가 모듈(130) 및/또는 최적화 모듈(150)의 동작에 연관되는 명령어를 더 포함할 수 있다. 일부 예시에서, 머신 러닝 명령어(122)는 머신 러닝 모듈(120)에 저장될 수 있다. 목적 함수(176)는 파라미터(174)의 집합에 기초하고 표본 외 오류(172)의 집합에 기초하는 함수일 수 있다(아래에서 설명됨).
전술한 바와 같이, 트레이닝 데이터(160)는 트레이닝 입력(xi) 및 트레이닝 레이블(yi)을 포함하는 짝 데이터의 집합과 연관될 수 있다. 트레이닝 입력(xi)은 벡터의 집합일 수 있으며, 각각의 벡터는 포인트 i에서의 하나 이상의 좌표에 대응할 수 있다. 좌표는 벡터의 차원일 수 있다. 예를 들어, 학습 함수(162)가 신용 점수의 생성에 관련할 경우, 좌표는 소득, 급여 등에 관련할 수 있다. 프로세싱 모듈(110)은 주어진 입력 공간에서 가능할 수 있는 (Di로 표시되는) 데이터세트(170)의 집합을 결정하도록 구성될 수 있으며, 각각의 데이터세트는 트레이닝 데이터(160)에서 트레이닝 입력의 가능한 조합일 수 있다. (si로 표시되는) 테스트 입력(140)은 입력의 집합일 수 있으며, 각각의 테스트 입력은 하나 이상의 좌표에 대응하는 벡터일 수 있다. 테스트 입력(140)은 학습 함수(162)의 동작을 테스트하는 데에 사용될 수 있다. 평가 모듈(130)은 메모리(104)로부터 테스트 입력(140)을 회수할 수 있다. 일부 예시에서, 테스트 입력(140)은 시스템(100)의 외부의 장치로부터 수신될 수 있다.
평가 모듈(130)은 테스트 입력(140)과 트레이닝 데이터(160) 내 트레이닝 입력에 기초하여 (Ei로 표시되는) 표본 외 오류(172)의 집합을 최소화하도록 구성될 수 있다. 각각의 표본 외 오류는 데이터세트(170) 중 각각의 데이터세트에 대응할 수 있다. 예를 들어, 표본 외 오류 E14는 데이터세트 D14와 연관되는 모든 가능한 오류의 합일 수 있다. 가중치 생성 모듈(140)은 대안 트레이닝 데이터(182)를 산출하기 위해 트레이닝 데이터(160)에 적용할 가중치를 생성하도록 구성될 수 있다(아래에서 설명됨). 아래에서 더 상세히 논의되는 바와 같이, 최적화 모듈(150)은 컨벡스(convex) 최적화 명령어(152)의 사용을 통해서와 같이 목적 함수(176)의 파라미터(174)를 결정함으로써 모든 가능한 데이터세트에 대해 표본 외 오류(172)를 최소화할 수 있다. 파라미터(174)는 목적 함수(176)의 값을 최소화할 수 있는 계수(coefficient)일 수 있고, 각각의 파라미터는 데이터세트(170)에서 대응하는 데이터세트의 발생(occurrence)의 확률에 대응할 수 있다.
프로세싱 모듈(110)은 파라미터(174)의 결정에 응답하여 대안 분포 데이터(180)를 생성할 수 있다. 프로세싱 모듈(110)은 대안 분포 데이터(180)에 기초하여 ((ui, vi)로 표시되는) 대안 트레이닝 데이터(182)를 생성할 수 있다. 일 예시에서, 프로세싱 모듈(110)은 머신 러닝 모듈(120)에 대안 트레이닝 데이터(182)를 적용할 수 있다. 머신 러닝 모듈(120)은 대안 트레이닝 데이터(182)에 기초하여 (gA로 표시되는) 대안 함수(184)를 결정할 수 있다. 표본 외 오류(172)에 기초하는 대안 분포 데이터(180)의 생성의 결과로서, 대안 함수(184)는 학습 함수(162)의 성능과 비교할 때 더 바람직한 오류율(예컨대, 더 적은 표본 외 오류)에서 수행할 수 있다.
도 2는 여기에 설명되는 적어도 일부 실시예에 따라 배열되는, 머신 러닝에서의 대안 트레이닝 분포 데이터에 관하여 도 1의 예시적인 시스템(100)을 더 상세히 도시한다. 도 2는 도 1의 시스템(100)과 실질적으로 유사하며 더 상세하다. 도 1의 컴포넌트와 동일하게 식별된 도 2의 컴포넌트는 명료성의 목적을 위해 다시 설명되지 않을 것이다.
일부 예시에서, 트레이닝 입력을 위한 입력 공간은 잠재적으로 연속 값을 포함할 수 있다. 프로세싱 모듈(110)은 연속 값을 이산 값으로 변환하기 위해 입력 공간을 이산화(discretize)할 수 있다. 프로세싱 모듈(110)은 이산 입력 공간에서 트레이닝 입력 및 출력의 다수의 가능한 조합을 결정함으로써 데이터세트(170)를 결정할 수 있다. 일 예시에서, 트레이닝 데이터(160)가 N 포인트를 포함하고 이산 입력 공간의 원소 개수(cardinality)가 d에 대응하는 경우, 데이터 개수의 총 개수는 다음에 의하여 주어질 수 있다.
Figure pct00001
평가 모듈(130)은 변환 명령어(230)에 기초하여 트레이닝 입력 xi를 변환하여 변환된 입력 zi를 생성할 수 있다. 일 예시에서, 변환 명령어(230)는 변환
Figure pct00002
을 사용하여 트레이닝 입력 xi를 변환하기 위한 평가 모듈(130)을 위한 명령어를 포함할 수 있다. 변환
Figure pct00003
Figure pct00004
와 같은 비선형 변환일 수 있다.
최적화 모듈(150)은 목적 함수(176)의 값을 최소화할 수 있다. 목적 함수(176)는 다음과 같이 파라미터(174)에 기초하는 표본 외 오류(172)의 선형 조합일 수 있다.
Figure pct00005
일부 예시적인 머신 러닝 문제는 선형 회귀(regression), 로지스틱(logistic) 회귀, 서포트 벡터 머신(Support Vector Machines), 신경망(Neural Networks), 에이다부스트(AdaBoost) 등을 포함할 수 있다. 일 예시에서, 머신 러닝 명령어(122)는 로지스틱 회귀 문제에 관련할 수 있다. 표본 외 오류(172)는 트레이닝 데이터(160)의 특정 부분집합에 기초하여 결정될 수 있다. 표본 외 오류(172)의 예시적인 추정에서, 프로세싱 모듈(110)은 {(x1,y1), (x3,y3)}과 같은 트레이닝 데이터(160)의 특정 부분집합을 식별할 수 있다. 프로세싱 모듈(110)은 임의로 트레이닝 데이터(160)의 특정 부분집합을 식별할 수 있다. 머신 러닝 모듈(120)에 의한 학습 함수(162)의 결정 후에, 프로세싱 모듈(110)은 학습 함수(162)를 트레이닝 입력 {x1, x3}에 적용하여 특정 레이블을 생성할 수 있다. 평가 모듈(130)은 트레이닝 레이블 {y1, y3}로 특정 레이블을 평가하여 표본 외 오류(172)를 추정할 수 있다.
다른 예시에서, 머신 러닝 명령어(122)는 선형 회귀 문제에 관련할 수 있다. 머신 러닝 알고리즘(122)이 선형 회귀 문제에 관련하는 경우, 표본 외 오류(172)는 다음과 같이 선형 회귀 문제의 닫힌 형태(closed-form)의 해(solution)에 기초하여 결정될 수 있다.
Figure pct00006
여기에서
Figure pct00007
는 잡음 파라미터일 수 있고, zi는 포인트 i에서의 (변환된 입력(232) 중에서) 변환된 입력일 수 있고, Ps(xi)는 테스트 입력(140)의 분포일 수 있고, Z는 Z의 각각의 행(row)이 포인트 i에서의 (변환된 입력(232) 중에서) 대응하는 변환된 입력일 수 있는 행렬일 수 있다. 예를 들어, Z의 행 i=1은 변환된 입력 z1일 수 있고, Z의 행 i=2는 변환된 입력 z2일 수 있는 등이다.
최적화 모듈(150)은 목적 함수(176) 상에 컨벡스 최적화 명령어(152)를 실행함으로써와 같이 파라미터(174)를 결정할 수 있다. 파라미터(174)를 결정한 후에, 최적화 모듈(150)은 파라미터(174)를 프로세싱 모듈(110)로 전송할 수 있다. 파라미터(174)의 각각의 값은 각각의 데이터세트 i에 대하여 입력 포인트의 각각의 집합이 발생할 수 있는 확률을 가리킬 수 있다. 위의 예시에서,파라미터(174)는 변수 p에 대응할 수 있다. 일 예시에서, 파라미터(174)의 각각의 파라미터는 특정 데이터세트에서 입력의 확률에 대응할 수 있다. 예를 들어, 파라미터 p27=0.25는 데이터세트 2에서 입력 7의 0.25의 발생의 확률을 가짐을 가리킬 수 있다. 프로세싱 모듈(110)은 파라미터(174)를 사용하여 대안 분포 데이터(180)를 만들어낼 수 있다. 프로세싱 모듈(110)은 대안 분포 데이터(180)에 기초하여 대안 트레이닝 데이터(182)를 생성할 수 있다.
대안 트레이닝 데이터(182)를 생성하기 위한 예시에서, 프로세싱 모듈(110)은 가중치 생성 모듈(140)에 의해 생성된 가중치(240)를 수신할 수 있다. 일부 예시에서, 가중치 생성 모듈(140)은 파라미터(174)에 기초하여 가중치(240)를 생성할 수 있다. 가중치(240)는 프로세싱 모듈(110)에 의해서와 같이 트레이닝 데이터(160)에 적용될 수 있는 벡터의 집합일 수 있다. 트레이닝 데이터(160)에 대한 가중치(240)의 적용의 결과로서, 대안 트레이닝 데이터(182)가 생성될 수 있다.
머신 러닝 모듈(120)은 대안 트레이닝 데이터(182)에 기초하여 대안 함수(184)를 결정할 수 있다. 대안 함수(184)는 트레이닝 데이터(160)에 기초하여 생성된 학습 함수(162)의 오류보다 나을 수 있는 오류율에서 수행할 수 있다. 일부 예시에서, 프로세싱 모듈(110) 또는 컴퓨팅 장치(102)의 추가적인 모듈은 대안 함수(184)를 생성하기 위해 머신 러닝 모듈(120)에 의해 사용되기 전에 대안 트레이닝 데이터(182)를 더 수정하도록 가중치를 대안 트레이닝 데이터(182)에 적용할 수 있다.
본 개시에 따르는 시스템은 머신 러닝 시스템에 이로울 수 있다. 시스템은 머신 러닝 시스템을 훈련하기 위한 대안 트레이닝 데이터를 제공할 수 있다. 표본 외 오류에 관련되는 목적 함수를 최소화하는 것에 기초하여 생성될 수 있는 대안 트레이닝 데이터는 머신 러닝 시스템으로 하여금 더 나은 오류율에서 수행할 수 있는 함수를 학습하게 할 수 있다.
도 3은 여기에 제시되는 적어도 일부 실시예에 따라 배열되는, 머신 러닝에서의 대안 트레이닝 분포 데이터를 구현하기 위한 예시적인 프로세스에 대한 흐름도를 도시한다. 도 3의 프로세스는 예컨대 위에서 논의된 시스템(100)을 사용하여 구현될 수 있다. 예시적인 프로세스는 블록(S2, S4 및/또는 S6) 중 하나 이상에 의해 도시된 하나 이상의 동작, 작용 또는 기능을 포함할 수 있다. 별개의 블록으로 도시되어 있으나, 요구되는 구현에 따라 다양한 블록들이 추가적인 블록들로 분할되거나 더 적은 블록들로 조합되거나 제거될 수 있다.
프로세싱은 블록 S2 "머신 러닝 모듈을 위한 트레이닝 데이터에 기초하여 입력 공간에서 데이터세트의 집합을 결정 - 트레이닝 데이터는 입력 공간에서 트레이닝 입력 및 트레이닝 레이블을 포함할 수 있음"에서 시작할 수 있다. 블록 S2에서, 컴퓨팅 장치는 트레이닝 데이터에 기초하여 데이터세트의 집합을 결정할 수 있다. 트레이닝 데이터는 머신 러닝 모듈을 위한 트레이닝 입력 및 트레이닝 레이블을 포함할 수 있다.
프로세싱은 블록 S2에서 블록 S4 "트레이닝 입력에 기초하여 표본 외 오류의 집합을 결정 - 각각의 표본 외 오류는 데이터세트의 집합에서 각각의 데이터세트에 대응할 수 있음"으로 계속할 수 있다. 블록 S4에서, 컴퓨팅 장치는 트레이닝 입력에 기초하여 표본 외 오류의 집합을 결정할 수 있다. 각각의 표본 외 오류는 데이터세트의 집합에서 각각의 데이터세트에 대응할 수 있다. 표본 외 오류의 집합의 결정은 변환을 트레이닝 입력에 적용하여 변환된 입력을 산출하는 것을 포함할 수 있다. 표본 외 오류의 집합의 결정은 변환된 데이터에 기초하고 머신 러닝 모듈을 위한 테스트 입력에 기초하여 오류 함수를 결정하는 것을 더 포함할 수 있다. 표본 외 오류의 집합의 결정은 오류 함수에 기초하여 표본 외 오류의 집합을 결정하는 것을 더 포함할 수 있다.
프로세싱은 블록 S4에서 블록 S6 "표본 외 오류의 집합에 기초하여 머신 러닝 모듈을 위한 대안 분포 데이터를 생성"으로 계속할 수 있다. 블록 S6에서, 컴퓨팅 장치는 표본 외 오류의 집합에 기초하여 대안 분포 데이터를 생성할 수 있다. 대안 분포 데이터의 생성은 표본 외 오류의 집합에 기초하여 목적 함수를 결정하는 것을 포함할 수 있다. 대안 분포 데이터의 생성은 목적 함수의 파라미터의 집합을 결정하는 것을 더 포함할 수 있다. 대안 분포 데이터의 생성은 파라미터의 집합을 사용하여 대안 분포를 생성하는 것을 더 포함할 수 있다. 일부 예시에서, 컴퓨팅 장치는 목적 함수에 컨벡스 최적화 기법을 적용함으로써 목적 함수의 파라미터의 집합을 결정할 수 있다.
도 4는 여기에 제시되는 적어도 일부 실시예에 따라 배열되는, 머신 러닝에서의 대안 트레이닝 분포 데이터를 구현하는 데에 이용될 수 있는 예시적인 컴퓨터 프로그램 제품을 도시한다. 프로그램 제품(400)은 신호 포함 매체(signal bearing medium)(402)를 포함할 수 있다. 신호 포함 매체(402)는, 예컨대 프로세서에 의해 실행되는 경우 도 1 내지 3에 관하여 앞서 설명된 기능을 제공할 수 있는 하나 이상의 명령어(404)를 포함할 수 있다. 따라서, 예를 들어, 시스템(100)을 참조하면, 컴퓨팅 장치(102)는 매체(402)에 의해 시스템(100)으로 전달되는 명령어(404)에 응답하여 도 4에 도시된 블록 중 하나 이상을 착수할 수 있다.
일부 구현예에서, 신호 포함 매체(402)는 하드 디스크 드라이브, CD(Compact Disc), DVD(Digital Versatile Disk), 디지털 테이프, 메모리 등과 같은 컴퓨터 판독 가능 매체(406)를 포함할 수 있으나, 이에 제한되지는 않는다. 일부 구현예에서, 신호 포함 매체(402)는 메모리, 읽기/쓰기(R/W) CD, R/W DVD 등과 같은 기록 가능 매체(408)를 포함할 수 있으나, 이에 제한되지는 않는다. 일부 구현예에서, 신호 포함 매체(402)는 디지털 및/또는 아날로그 통신 매체(예컨대, 광섬유 케이블, 도파관(waveguide), 유선 통신 링크, 무선 통신 링크 등)와 같은 통신 매체(410)를 포함할 수 있으나, 이에 제한되지는 않는다. 따라서, 예를 들어, 프로그램 제품(400)은, 신호 포함 매체(402)가 무선 통신 매체(410)(예컨대, IEEE 802.11 표준에 따르는 무선 통신 매체)에 의해 전달되는 RF 신호 포함 매체(402)에 의하여 시스템(100)의 하나 이상의 모듈로 전달될 수 있다.
도 5는 여기에 제시되는 적어도 일부 실시예에 따라 배열되는, 머신 러닝에서의 대안 트레이닝 분포 데이터를 구현하도록 배열되는 예시적인 컴퓨팅 장치를 도시하는 블록도이다. 매우 기본적인 구성(basic configuration)(502)에서, 컴퓨팅 장치(500)는 전형적으로 하나 이상의 프로세서(504) 및 시스템 메모리(506)를 포함한다. 메모리 버스(508)가 프로세서(504)와 시스템 메모리(506) 사이의 통신을 위해 사용될 수 있다.
요구되는 구성에 따라, 프로세서(504)는 마이크로프로세서(μP), 마이크로컨트롤러(μC), 디지털 신호 프로세서(DSP) 또는 그 임의의 조합을 포함하나 이에 한정되지 않는 임의의 유형의 것일 수 있다. 프로세서(504)는 레벨 1 캐시(510) 및 레벨 2 캐시(512)와 같은 하나 이상의 레벨의 캐싱, 프로세서 코어(514) 및 레지스터(516)를 포함할 수 있다. 예시적인 프로세서 코어(514)는 ALU(arithmetic logic unit), FPU(floating point unit), DSP 코어(digital signal processing core), 또는 그 임의의 조합을 포함할 수 있다. 예시적인 메모리 컨트롤러(518)는 또한 프로세서(504)와 사용될 수 있거나, 또는 일부 구현예에서, 메모리 컨트롤러(518)는 프로세서(504)의 내부 부품일 수 있다.
요구되는 구성에 따라, 시스템 메모리(506)는 (RAM과 같은) 휘발성 메모리, (ROM, 플래시 메모리 등과 같은) 비휘발성 메모리, 또는 그 임의의 조합을 포함하나 이에 한정되지 않는 임의의 유형의 것일 수 있다. 시스템 메모리(506)는 운영 체제(520), 하나 이상의 애플리케이션(522) 및 프로그램 데이터(524)를 포함할 수 있다. 애플리케이션(522)은 도 1-4에 관하여 이전에 설명된 것을 포함하여 여기에 설명된 기능을 수행하도록 배열되는 대안 분포 생성 알고리즘(526)을 포함할 수 있다. 프로그램 데이터(524)는 여기에서 설명된 바와 같은 머신 러닝에서의 대안 분포 트레이닝 데이터에 유용할 수 있는 대안 분포 생성 데이터(528)를 포함할 수 있다. 일부 실시예에서, 머신 러닝에서의 대안 분포 트레이닝 데이터가 제공될 수 있도록 애플리케이션(522)은 운영 체제(520) 상에서 프로그램 데이터(524)와 동작하도록 배열될 수 있다. 이러한 설명된 기본 구성(502)은 내부 파선 내의 컴포넌트들에 의해 도 5에 도시된다.
컴퓨팅 장치(500)는 추가적인 특징 또는 기능, 및 기본 구성(502)과 임의의 요구되는 장치와 인터페이스 사이의 통신을 용이하게 하기 위한 추가적인 인터페이스를 가질 수 있다. 예를 들어, 버스/인터페이스 컨트롤러(530)는 저장 인터페이스 버스(534)를 통한 기본 구성(502)과 하나 이상의 데이터 저장 장치(532) 간의 통신을 용이하게 하는 데에 사용될 수 있다. 데이터 저장 장치(532)는 분리형 저장 장치(536), 비분리형 저장 장치(538), 또는 그 조합일 수 있다. 분리형 저장 장치 및 비분리형 저장 장치의 예로는, 몇 가지 말하자면, 플렉서블 디스크 드라이브 및 하드 디스크 드라이브(HDD)와 같은 자기 디스크 장치, 컴팩트 디스크(CD) 드라이브 또는 디지털 다기능 디스크(DVD) 드라이브와 같은 광 디스크 드라이브, 고체 상태 드라이브(solid state drive(SSD)) 및 테이프 드라이브를 포함한다. 예시적인 컴퓨터 저장 매체는, 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성의, 분리형 및 비분리형 매체를 포함할 수 있다.
시스템 메모리(506), 분리형 저장 장치(536) 및 비분리형 저장 장치(538)는 컴퓨터 저장 매체의 예시이다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다기능 디스크(DVD) 또는 다른 광학 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 다른 자기 저장 장치, 또는 원하는 정보를 저장하는 데에 사용될 수 있고 컴퓨팅 장치(500)에 의해 액세스될 수 있는 임의의 다른 매체를 포함하지만, 이에 한정되는 것은 아니다. 임의의 그러한 컴퓨터 저장 매체는 컴퓨팅 장치(500)의 일부일 수 있다.
컴퓨팅 장치(500)는 버스/인터페이스 컨트롤러(530)를 통한 다양한 인터페이스 장치(예컨대, 출력 장치(542), 주변 인터페이스(544) 및 통신 장치(546))로부터 기본 구성(502)으로의 통신을 용이하게 하기 위한 인터페이스 버스(540)도 포함할 수 있다. 예시적인 출력 장치(542)는 그래픽 처리 유닛(548) 및 오디오 처리 유닛(550)을 포함하며, 이는 하나 이상의 A/V 포트(552)를 통해 디스플레이 또는 스피커와 같은 다양한 외부 장치로 통신하도록 구성될 수 있다. 예시적인 주변 인터페이스(544)는 직렬 인터페이스 컨트롤러(554) 또는 병렬 인터페이스 컨트롤러(556)를 포함하며, 이는 하나 이상의 I/O 포트(558)를 통해 입력 장치(예컨대, 키보드, 마우스, 펜, 음성 입력 장치, 터치 입력 장치 등) 또는 다른 주변 장치(예컨대, 프린터, 스캐너 등)와 같은 외부 장치와 통신하도록 구성될 수 있다. 예시적인 통신 장치(546)는 네트워크 컨트롤러(560)를 포함하며, 이는 하나 이상의 통신 포트(564)를 통해 네트워크 통신 링크 상에서의 하나 이상의 다른 컴퓨팅 장치(562)와의 통신을 용이하게 하도록 배열될 수 있다.
네트워크 통신 링크는 통신 매체의 일례일 수 있다. 통신 매체는 전형적으로 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파 또는 다른 전송 메커니즘 같은 변조된 데이터 신호 내의 다른 데이터에 의해 구현될 수 있고, 임의의 정보 전달 매체를 포함할 수 있다. "변조된 데이터 신호"는 신호 내에 정보를 인코딩하기 위한 방식으로 설정되거나 변경된 특성 중 하나 이상을 갖는 신호일 수 있다. 제한적인지 않은 예시로서, 통신 매체는 유선 네트워크 또는 직접 유선 접속과 같은 유선 매체, 및 음향(acoustic), 무선 주파수(RF), 마이크로파(microwave), 적외선(IR) 및 다른 무선 매체와 같은 무선 매체를 포함할 수 있다. 여기에서 사용되는 컴퓨터 판독 가능 매체라는 용어는 저장 매체 및 통신 매체 둘 다를 포함할 수 있다.
컴퓨팅 장치(500)는 휴대 전화, PDA(personal data assistant), 개인용 미디어 플레이어 장치, 무선 웹-워치(web-watch) 장치, 개인용 헤드셋 장치, 특수 용도 장치, 또는 위 기능 중 임의의 것을 포함하는 하이브리드(hybrid) 장치와 같은 소형 폼 팩터(small-form factor)의 휴대용 (또는 모바일) 전자 장치의 일부로서 구현될 수 있다. 컴퓨팅 장치(500)는 또한 랩탑 컴퓨터 및 랩탑이 아닌 컴퓨터 구성을 모두 포함하는 개인용 컴퓨터로서 구현될 수 있다.
본 개시는 다양한 태양의 예시로서 의도된 본 출원에 기술된 특정 실시예들에 제한되지 않을 것이다. 당업자에게 명백할 바와 같이, 많은 수정과 변형이 그 사상과 범위를 벗어나지 않으면서 이루어질 수 있다. 여기에 열거된 것들에 더하여, 본 개시의 범위 안에서 기능적으로 균등한 방법과 장치가 위의 설명으로부터 당업자에게 명백할 것이다. 그러한 수정과 변형은 첨부된 청구항의 범위에 들어가도록 의도된 것이다. 본 개시는 첨부된 청구항의 용어에 의해서만, 그러한 청구항에 부여된 균등물의 전 범위와 함께, 제한될 것이다. 본 개시가 물론 다양할 수 있는 특정 방법, 시약, 화합물, 조성 또는 생물학적 시스템에 제한되지 않는 것으로 이해될 것이다. 또한, 여기에서 사용된 용어는 단지 특정 실시예들을 설명하기 위한 목적이고, 제한하는 것으로 의도되지 않음이 이해될 것이다.
여기에서 실질적으로 임의의 복수 및/또는 단수의 용어의 사용에 대하여, 당업자는 맥락 및/또는 응용에 적절하도록, 복수를 단수로 및/또는 단수를 복수로 해석할 수 있다. 다양한 단수/복수의 치환은 명확성을 위해 여기에서 명시적으로 기재될 수 있다.
당업자라면, 일반적으로 여기에 사용되며 특히 첨부된 청구범위(예를 들어, 첨부된 청구범위 본문)에 사용된 용어들이 일반적으로 "개방적(open)" 용어로 의도됨을 이해할 것이다(예를 들어, 용어 "포함하는"은 "포함하지만 이에 제한되지 않는"으로, 용어 "갖는"는 "적어도 갖는"으로, 용어 "포함하다"는 "포함하지만 이에 제한되지 않는다" 등으로 해석되어야 한다). 또한, 당업자라면, 도입된 청구항의 기재사항의 특정 수가 의도된 경우, 그러한 의도가 청구항에 명시적으로 기재될 것이며, 그러한 기재사항이 없는 경우, 그러한 의도가 없음을 이해할 것이다. 예를 들어, 이해를 돕기 위해, 이하의 첨부된 청구범위는 "적어도 하나" 및 "하나 이상" 등의 도입 구절의 사용을 포함하여 청구항 기재사항을 도입할 수 있다. 그러나, 그러한 구절의 사용이, 부정관사 "하나"("a" 또는 "an")에 의한 청구항 기재사항의 도입이, 그러한 하나의 기재사항을 포함하는 실시예로, 그러한 도입된 청구항 기재사항을 포함하는 임의의 특정 청구항을 제한함을 암시하는 것으로 해석되어서는 안되며, 동일한 청구항이 도입 구절인 "하나 이상" 또는 "적어도 하나" 및 "하나"("a" 또는 "an")와 같은 부정관사를 포함하는 경우에도 마찬가지로 해석되어야 한다(예를 들어, "하나"는 "적어도 하나" 또는 "하나 이상"을 의미하는 것으로 해석되어야 한다). 이는 청구항 기재사항을 도입하기 위해 사용된 정관사의 경우에도 적용된다. 또한, 도입된 청구항 기재사항의 특정 수가 명시적으로 기재되는 경우에도, 당업자라면 그러한 기재가 전형적으로 적어도 기재된 수를 의미하도록 해석되어야 함을 이해할 것이다(예를 들어, 다른 수식어가 없이 "두 개의 기재사항"을 단순히 기재한 것은, 적어도 두 개의 기재사항 또는 두 개 이상의 기재사항을 의미한다). 또한, "A, B 및 C 등 중의 적어도 하나"와 유사한 규칙이 사용된 경우에는, 일반적으로 그러한 해석은 당업자가 그 규칙을 이해할 것이라는 전제가 의도된 것이다(예를 들어, "A, B 및 C 중의 적어도 하나를 갖는 시스템"은, A만을 갖거나, B만을 갖거나, C만을 갖거나, A 및 B를 함께 갖거나, A 및 C를 함께 갖거나, B 및 C를 함께 갖거나, A, B 및 C를 함께 갖는 시스템 등을 포함하지만 이에 제한되지 않는다). "A, B 또는 C 등 중의 적어도 하나"와 유사한 규칙이 사용된 경우에는, 일반적으로 그러한 해석은 당업자가 그 규칙을 이해할 것이라는 전제가 의도된 것이다(예를 들어, "A, B 또는 C 중의 적어도 하나를 갖는 시스템"은, A만을 갖거나, B만을 갖거나, C만을 갖거나, A 및 B를 함께 갖거나, A 및 C를 함께 갖거나, B 및 C를 함께 갖거나, A, B 및 C를 함께 갖는 시스템 등을 포함하지만 이에 제한되지 않는다). 또한 당업자라면, 실질적으로 임의의 이접 접속어(disjunctive word) 및/또는 두 개 이상의 대안적인 용어들을 나타내는 구절은, 그것이 상세한 설명, 청구범위 또는 도면에 있는지와 상관없이, 그 용어들 중의 하나, 그 용어들 중의 어느 하나, 또는 그 용어들 두 개 모두를 포함하는 가능성을 고려하는 것으로 이해되어야 함을 이해할 것이다. 예를 들어, "A 또는 B"라는 구절은 "A" 또는 "B" 또는 "A 및 B"의 가능성을 포함하는 것으로 이해될 것이다.
당업자에게 이해될 것과 같이, 서면의 설명을 제공하는 측면에서와 같은 임의의 그리고 모든 목적에서, 여기에 개시되어 있는 모든 범위는 임의의 그리고 모든 가능한 하위범위와 그러한 하위범위의 조합을 또한 포함한다. 임의의 열거된 범위는 적어도 1/2, 1/3, 1/4, 1/5, 1/10 등으로 나누어지는 동일한 범위를 충분히 설명하고 실시가능하게 하는 것으로서 쉽게 인식될 수 있다. 제한하지 않는 예시로서, 여기서 논의되는 각각의 범위는 하위 1/3, 중앙 1/3, 상위 1/3 등으로 나누어질 수 있다. 또한, "까지", "적어도", "초과", "미만" 등과 같은 모든 언어가 기재된 수를 포함하며, 전술한 하위범위로 후속적으로 나누어질 수 있는 범위를 지칭함이 당업자에게 이해되어야 한다. 마지막으로, 범위는 각각의 개별 요소를 포함함이 이해되어야 한다. 따라서, 예를 들어, 1-3개의 셀을 갖는 그룹은 1, 2 또는 3개의 셀을 갖는 그룹들을 지칭한다. 유사하게, 1-5개의 셀을 갖는 그룹은 1, 2, 3, 4 또는 5개의 셀을 갖는 그룹을 지칭하는 등이다.
다양한 양태 및 실시예가 여기에 개시되었으나, 다른 양태 및 실시예가 가능하다. 여기에서 개시된 다양한 양태 및 실시예는 예시의 목적이고 제한하려고 의도된 것이 아니며, 진정한 범위와 사상은 이하의 청구범위에서 나타난다.

Claims (20)

  1. 머신 러닝(machine learning) 환경에서의 방법으로서, 컴퓨팅 장치에 의하여,
    머신 러닝 모듈을 위한 트레이닝 데이터(training data)에 기초하여 입력 공간(input space)에서 데이터세트의 집합을 결정하는 단계 - 상기 트레이닝 데이터는 상기 입력 공간에서 트레이닝 입력(training input) 및 트레이닝 레이블(training label)을 포함함 -;
    상기 트레이닝 입력에 기초하여 표본 외 오류(out of sample error)의 집합을 결정하는 단계 - 각각의 표본 외 오류는 상기 데이터세트의 집합에서 각각의 데이터세트에 대응함 -; 및
    상기 표본 외 오류의 집합에 기초하여 상기 머신 러닝 모듈을 위한 대안 분포 데이터(alternative distribution data)를 생성하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 대안 분포 데이터를 생성하는 단계는,
    상기 표본 외 오류의 집합에 기초하여 목적 함수(objective function)를 결정하는 단계;
    상기 목적 함수의 파라미터의 집합을 결정하는 단계; 및
    상기 파라미터의 집합을 사용하여 상기 대안 분포 데이터를 생성하는 단계
    를 포함하는, 방법.
  3. 제2항에 있어서,
    상기 목적 함수의 상기 파라미터의 집합을 결정하는 단계는 상기 목적 함수에 컨벡스 최적화(convex optimization) 기법을 적용하는 단계를 포함하는, 방법.
  4. 제2항에 있어서,
    상기 파라미터의 집합은 상기 목적 함수의 값을 최소화하는 파라미터인, 방법.
  5. 제1항에 있어서,
    상기 대안 분포 데이터에 기초하여 상기 트레이닝 데이터를 위한 가중치를 생성하는 단계를 더 포함하는 방법.
  6. 제1항에 있어서,
    상기 표본 외 오류의 집합을 결정하는 단계는,
    변환을 상기 트레이닝 입력에 적용하여 변환된 입력을 산출하는 단계;
    상기 변환된 입력에 기초하고 상기 머신 러닝 모듈을 위한 테스트 입력에 기초하여 오류 함수를 결정하는 단계; 및
    상기 오류 함수에 기초하여 상기 표본 외 오류의 집합을 결정하는 단계
    를 포함하는, 방법.
  7. 제6항에 있어서,
    잡음 파라미터를 상기 변환된 입력 및 상기 테스트 입력과 조합하여 상기 오류 함수를 결정하는 단계를 더 포함하는, 방법.
  8. 머신 러닝 환경에서 대안 분포 데이터를 생성하는 데에 효과가 있는 시스템으로서,
    머신 러닝 모듈을 위한 트레이닝 데이터에 기초하여 입력 공간에서 데이터세트의 집합을 결정하도록 구성되는 프로세싱 모듈 - 상기 트레이닝 데이터는 상기 입력 공간에서 트레이닝 입력 및 트레이닝 레이블을 포함함 -;
    상기 프로세싱 모듈과 통신하도록 구성되고 상기 트레이닝 입력에 기초하여 표본 외 오류의 집합을 결정하도록 구성되는 평가 모듈 - 각각의 표본 외 오류는 상기 데이터세트의 집합에서 각각의 데이터세트에 대응함 -
    을 포함하고,
    상기 프로세싱 모듈은 상기 표본 외 오류의 집합에 기초하여 상기 대안 분포 데이터를 생성하도록 더 구성되는, 시스템.
  9. 제8항에 있어서,
    상기 메모리, 상기 프로세싱 모듈 및 상기 평가 모듈과 통신하도록 구성되고, 상기 표본 외 오류의 집합에 기초하여 목적 함수를 결정, 상기 목적 함수의 파라미터의 집합을 결정, 및 상기 프로세싱 모듈로 상기 파라미터의 집합을 전송하도록 구성되는 최적화 모듈을 더 포함하고,
    상기 프로세싱 모듈은 상기 파라미터의 집합을 사용하여 상기 대안 분포 데이터를 생성하도록 더 구성되는, 시스템.
  10. 제9항에 있어서,
    상기 최적화 모듈은 상기 목적 함수에 컨벡스 최적화 기법을 적용하여 상기 파라미터의 집합을 결정하도록 더 구성되는, 시스템.
  11. 제9항에 있어서,
    상기 파라미터의 집합은 상기 목적 함수의 값을 최소화하는 파라미터인, 시스템.
  12. 제8항에 있어서,
    상기 프로세싱 모듈은 상기 대안 분포 데이터에 기초하여 상기 트레이닝 데이터를 위한 가중치를 생성하도록 더 구성되는, 시스템.
  13. 제8항에 있어서,
    상기 평가 모듈은,
    상기 트레이닝 입력에 변환을 적용하여 변환된 입력을 산출;
    상기 변환된 입력에 기초하고 상기 머신 러닝 모듈을 위한 상기 테스트 입력에 기초하여 오류 함수를 결정; 및
    상기 오류 함수에 기초하여 상기 표본 외 오류의 집합을 결정
    하도록 더 구성되는, 시스템.
  14. 제13항에 있어서,
    상기 오류 함수는 잡음 파라미터를 더 포함하는, 시스템.
  15. 머신 러닝 환경에서 대안 분포 데이터를 생성하기 위한 방법으로서, 제1 장치에 의하여,
    제2 장치로부터 머신 러닝 모듈을 위한 트레이닝 데이터를 수신하는 단계 - 상기 트레이닝 데이터는 입력 공간에서 트레이닝 입력 및 트레이닝 레이블을 포함함 -;
    상기 트레이닝 입력에 기초하여 데이터세트의 집합을 결정하는 단계;
    상기 제2 장치로부터 상기 머신 러닝 모듈을 위한 테스트 입력을 수신하는 단계;
    상기 트레이닝 입력에 기초하고 상기 테스트 입력에 기초하여 표본 외 오류의 집합을 결정하는 단계 - 각각의 표본 외 오류는 상기 데이터세트의 집합에서 각각의 데이터세트에 대응함 -; 및
    상기 표본 외 오류의 집합에 기초하여 상기 대안 분포 데이터를 생성하는 단계
    를 포함하는 방법.
  16. 제15항에 있어서,
    상기 대안 분포 데이터를 생성하는 단계는,
    상기 표본 외 오류의 집합에 기초하여 목적 함수를 결정하는 단계;
    상기 목적 함수의 파라미터의 집합을 결정하는 단계; 및
    상기 파라미터의 집합을 사용하여 상기 대안 분포를 생성하는 단계
    를 포함하는, 방법.
  17. 제16항에 있어서,
    상기 파라미터의 집합을 결정하는 단계는 상기 목적 함수에 컨벡스 최적화 기법을 적용하는 단계를 포함하는, 방법.
  18. 제16항에 있어서,
    상기 파라미터의 집합은 상기 목적 함수의 값을 최소화하는 파라미터인, 방법.
  19. 제15항에 있어서,
    상기 대안 분포 데이터에 기초하여 상기 트레이닝 데이터를 위한 가중치를 생성하는 단계를 더 포함하는 방법.
  20. 제15항에 있어서,
    상기 표본 외 오류의 집합을 결정하는 단계는,
    상기 트레이닝 입력에 변환을 적용하여 변환된 입력을 산출하는 단계;
    상기 변환된 입력에 기초하고 상기 테스트 입력에 기초하여 오류 함수를 결정하는 단계; 및
    상기 오류 함수에 기초하여 상기 표본 외 오류의 집합을 결정하는 단계
    를 포함하는, 방법.
KR1020167026705A 2014-03-10 2015-02-12 머신 러닝에서의 대안 트레이닝 분포 데이터 KR101933916B1 (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201461950358P 2014-03-10 2014-03-10
US61/950,358 2014-03-10
US201462015218P 2014-06-20 2014-06-20
US62/015,218 2014-06-20
US14/451,935 2014-08-05
US14/451,935 US10535014B2 (en) 2014-03-10 2014-08-05 Alternative training distribution data in machine learning
PCT/US2015/015669 WO2015138082A1 (en) 2014-03-10 2015-02-12 Alternative training distribution data in machine learning

Publications (2)

Publication Number Publication Date
KR20160127100A true KR20160127100A (ko) 2016-11-02
KR101933916B1 KR101933916B1 (ko) 2019-03-12

Family

ID=54017698

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167026705A KR101933916B1 (ko) 2014-03-10 2015-02-12 머신 러닝에서의 대안 트레이닝 분포 데이터

Country Status (4)

Country Link
US (1) US10535014B2 (ko)
EP (1) EP3117338A4 (ko)
KR (1) KR101933916B1 (ko)
WO (1) WO2015138082A1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018175130A1 (en) * 2017-03-22 2018-09-27 Micron Technology, Inc. Apparatuses and methods for operating neural networks
US10535014B2 (en) 2014-03-10 2020-01-14 California Institute Of Technology Alternative training distribution data in machine learning
KR20200138413A (ko) * 2018-11-21 2020-12-09 상하이 캠브리콘 인포메이션 테크놀로지 컴퍼니 리미티드 네트워크 온칩 데이터 처리 방법 및 장치
KR20210011797A (ko) * 2019-07-23 2021-02-02 주식회사 카이 머신러닝 기반의 비디오 분류 장치, 방법 및 컴퓨터 프로그램
US11797467B2 (en) 2018-10-18 2023-10-24 Shanghai Cambricon Information Technology Co., Ltd. Data processing device with transmission circuit

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10558935B2 (en) * 2013-11-22 2020-02-11 California Institute Of Technology Weight benefit evaluator for training data
US9858534B2 (en) 2013-11-22 2018-01-02 California Institute Of Technology Weight generation in machine learning
US9953271B2 (en) 2013-11-22 2018-04-24 California Institute Of Technology Generation of weights in machine learning
EP3443508B1 (en) * 2017-03-09 2023-10-04 Huawei Technologies Co., Ltd. Computer system for distributed machine learning
US11562230B2 (en) * 2017-03-22 2023-01-24 Visa International Service Association Privacy-preserving machine learning
EP3807821A1 (en) 2018-09-28 2021-04-21 Apple Inc. Distributed labeling for supervised learning
CN111612167B (zh) * 2019-02-26 2024-04-16 京东科技控股股份有限公司 机器学习模型的联合训练方法、装置、设备及存储介质
US11847691B2 (en) * 2020-02-27 2023-12-19 BlueOwl, LLC Systems and methods for generating a credit score based at least in part upon telematics data
CN113962568B (zh) * 2021-10-26 2024-09-20 天元大数据信用管理有限公司 基于支持向量机的模型标签标注方法、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050216426A1 (en) * 2001-05-18 2005-09-29 Weston Jason Aaron E Methods for feature selection in a learning machine

Family Cites Families (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2167748A1 (en) 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
US6119083A (en) 1996-02-29 2000-09-12 British Telecommunications Public Limited Company Training process for the classification of a perceptual signal
US6373483B1 (en) 1997-01-13 2002-04-16 Silicon Graphics, Inc. Method, system and computer program product for visually approximating scattered data using color to represent values of a categorical variable
US6594586B1 (en) 1997-10-28 2003-07-15 California Institute Of Technology Incorporation of contextual information in object identification
US6453307B1 (en) 1998-03-03 2002-09-17 At&T Corp. Method and apparatus for multi-class, multi-label information categorization
US6789069B1 (en) 1998-05-01 2004-09-07 Biowulf Technologies Llc Method for enhancing knowledge discovered from biological data using a learning machine
AU764897B2 (en) 1998-05-01 2003-09-04 Health Discovery Corporation Pre-processing and post-processing for enhancing knowledge discovery using support vector machines
US6850873B1 (en) 1999-09-29 2005-02-01 Eric T Bax Using validation by inference to select a hypothesis function
US6701311B2 (en) 2001-02-07 2004-03-02 International Business Machines Corporation Customer self service system for resource search and selection
EP1449108A4 (en) 2001-11-07 2006-11-22 Health Discovery Corp CLASSIFICATION OF CHARACTERISTICS PRETRATED FOR A SUPPORT VECTOR MACHINE
US6876955B1 (en) 2001-12-28 2005-04-05 Fannie Mae Method and apparatus for predicting and reporting a real estate value based on a weighted average of predicted values
JP2005044330A (ja) 2003-07-24 2005-02-17 Univ Of California San Diego 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置
JP2005107743A (ja) 2003-09-29 2005-04-21 Nec Corp 学習システム
US7356187B2 (en) 2004-04-12 2008-04-08 Clairvoyance Corporation Method and apparatus for adjusting the model threshold of a support vector machine for text classification and filtering
US7426497B2 (en) 2004-08-31 2008-09-16 Microsoft Corporation Method and apparatus for analysis and decomposition of classifier data anomalies
US7480667B2 (en) 2004-12-24 2009-01-20 Microsoft Corporation System and method for using anchor text as training data for classifier-based search systems
US7689520B2 (en) 2005-02-25 2010-03-30 Microsoft Corporation Machine learning system and method for ranking sets of data using a pairing cost function
US7877383B2 (en) 2005-04-27 2011-01-25 Microsoft Corporation Ranking and accessing definitions of terms
US7472096B2 (en) 2005-07-18 2008-12-30 Microsoft Corporation Training a learning system with arbitrary cost functions
US7561158B2 (en) 2006-01-11 2009-07-14 International Business Machines Corporation Method and apparatus for presenting feature importance in predictive modeling
EP1818746A1 (en) 2006-02-10 2007-08-15 ALSTOM Technology Ltd Method of condition monitoring
US8019763B2 (en) 2006-02-27 2011-09-13 Microsoft Corporation Propagating relevance from labeled documents to unlabeled documents
US8001121B2 (en) 2006-02-27 2011-08-16 Microsoft Corporation Training a ranking function using propagated document relevance
US7617164B2 (en) 2006-03-17 2009-11-10 Microsoft Corporation Efficiency of training for ranking systems based on pairwise training with aggregated gradients
AU2006201210A1 (en) 2006-03-23 2007-10-11 Canon Information Systems Research Australia Pty Ltd Motion characterisation
US7720830B2 (en) 2006-07-31 2010-05-18 Microsoft Corporation Hierarchical conditional random fields for web extraction
US20080169975A1 (en) 2007-01-12 2008-07-17 Young Paul Yee Process for generating spatially continuous wind profiles from wind profiler measurements
US8005771B2 (en) 2007-10-04 2011-08-23 Siemens Corporation Segment-based change detection method in multivariate data stream
US20090132515A1 (en) 2007-11-19 2009-05-21 Yumao Lu Method and Apparatus for Performing Multi-Phase Ranking of Web Search Results by Re-Ranking Results Using Feature and Label Calibration
US8175384B1 (en) 2008-03-17 2012-05-08 Adobe Systems Incorporated Method and apparatus for discriminative alpha matting
JP2009282685A (ja) 2008-05-21 2009-12-03 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US8386401B2 (en) 2008-09-10 2013-02-26 Digital Infuzion, Inc. Machine learning methods and systems for identifying patterns in data using a plurality of learning machines wherein the learning machine that optimizes a performance function is selected
JP2010092266A (ja) 2008-10-08 2010-04-22 Nec Corp 学習装置、学習方法及びプログラム
US20100169243A1 (en) 2008-12-27 2010-07-01 Kibboko, Inc. Method and system for hybrid text classification
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
US20110011921A1 (en) 2009-07-14 2011-01-20 Joseph Sorensen Collapsible Support Apparatus
CA2781734A1 (en) 2009-11-27 2011-06-03 New Ideas Company Pty Ltd Method and system for consumer centred care management
AU2011283193B2 (en) 2010-07-29 2014-07-17 Exxonmobil Upstream Research Company Methods and systems for machine-learning based simulation of flow
US8924314B2 (en) 2010-09-28 2014-12-30 Ebay Inc. Search result ranking using machine learning
US8504392B2 (en) 2010-11-11 2013-08-06 The Board Of Trustees Of The Leland Stanford Junior University Automatic coding of patient outcomes
US20120271821A1 (en) 2011-04-20 2012-10-25 Microsoft Corporation Noise Tolerant Graphical Ranking Model
US8798984B2 (en) 2011-04-27 2014-08-05 Xerox Corporation Method and system for confidence-weighted learning of factored discriminative language models
US20120330971A1 (en) 2011-06-26 2012-12-27 Itemize Llc Itemized receipt extraction using machine learning
GB2507217A (en) 2011-07-25 2014-04-23 Ibm Information identification method, program and system
US20130066452A1 (en) 2011-09-08 2013-03-14 Yoshiyuki Kobayashi Information processing device, estimator generating method and program
US9916538B2 (en) 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US8873813B2 (en) 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US20130097103A1 (en) * 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set
US9031897B2 (en) 2012-03-23 2015-05-12 Nuance Communications, Inc. Techniques for evaluation, building and/or retraining of a classification model
US8788439B2 (en) 2012-12-21 2014-07-22 InsideSales.com, Inc. Instance weighted learning machine learning model
US20140180738A1 (en) 2012-12-21 2014-06-26 Cloudvu, Inc. Machine learning for systems management
US10423889B2 (en) 2013-01-08 2019-09-24 Purepredictive, Inc. Native machine learning integration for a data management product
WO2014151351A1 (en) 2013-03-15 2014-09-25 The Echo Nest Corporation Demographic and media preference prediction using media content data analysis
US9355088B2 (en) * 2013-07-12 2016-05-31 Microsoft Technology Licensing, Llc Feature completion in computer-human interactive learning
US9679258B2 (en) 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
US10535014B2 (en) 2014-03-10 2020-01-14 California Institute Of Technology Alternative training distribution data in machine learning
US9953271B2 (en) 2013-11-22 2018-04-24 California Institute Of Technology Generation of weights in machine learning
US10558935B2 (en) 2013-11-22 2020-02-11 California Institute Of Technology Weight benefit evaluator for training data
US9858534B2 (en) 2013-11-22 2018-01-02 California Institute Of Technology Weight generation in machine learning
US20170011307A1 (en) 2015-07-07 2017-01-12 California Institute Of Technology Alternative training distribution based on density modification

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050216426A1 (en) * 2001-05-18 2005-09-29 Weston Jason Aaron E Methods for feature selection in a learning machine

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Bootkrajang, Jakramate, and Ata Kabán. "Boosting in the presence of label noise." arXiv preprint arXiv:1309.6818, 2013. *
Boris Babenko, "Note: A Derivation of Discrete AdaBoost.", http://vision.ucsd.edu/~bbabenko/data/boosting_note.pdf, 2011.* *
Bylander, Tom, and Lisa Tate. "Using Validation Sets to Avoid Overfitting in AdaBoost." Flairs conference, 2006.* *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10535014B2 (en) 2014-03-10 2020-01-14 California Institute Of Technology Alternative training distribution data in machine learning
US11222260B2 (en) 2017-03-22 2022-01-11 Micron Technology, Inc. Apparatuses and methods for operating neural networks
WO2018175130A1 (en) * 2017-03-22 2018-09-27 Micron Technology, Inc. Apparatuses and methods for operating neural networks
US11769053B2 (en) 2017-03-22 2023-09-26 Micron Technology, Inc. Apparatuses and methods for operating neural networks
US11841816B2 (en) 2018-10-18 2023-12-12 Shanghai Cambricon Information Technology Co., Ltd. Network-on-chip data processing method and device
US11797467B2 (en) 2018-10-18 2023-10-24 Shanghai Cambricon Information Technology Co., Ltd. Data processing device with transmission circuit
US11809360B2 (en) 2018-10-18 2023-11-07 Shanghai Cambricon Information Technology Co., Ltd. Network-on-chip data processing method and device
US11868299B2 (en) 2018-10-18 2024-01-09 Shanghai Cambricon Information Technology Co., Ltd. Network-on-chip data processing method and device
US11880330B2 (en) 2018-10-18 2024-01-23 Shanghai Cambricon Information Technology Co., Ltd. Network-on-chip data processing method and device
US11880328B2 (en) 2018-10-18 2024-01-23 Shanghai Cambricon Information Technology Co., Ltd. Network-on-chip data processing method and device
US11880329B2 (en) 2018-10-18 2024-01-23 Shanghai Cambricon Information Technology Co., Ltd. Arbitration based machine learning data processor
US11960431B2 (en) 2018-10-18 2024-04-16 Guangzhou University Network-on-chip data processing method and device
US11971836B2 (en) 2018-10-18 2024-04-30 Shanghai Cambricon Information Technology Co., Ltd. Network-on-chip data processing method and device
US12061564B2 (en) 2018-10-18 2024-08-13 Shanghai Cambricon Information Technology Co., Ltd. Network-on-chip data processing based on operation field and opcode
KR20200138413A (ko) * 2018-11-21 2020-12-09 상하이 캠브리콘 인포메이션 테크놀로지 컴퍼니 리미티드 네트워크 온칩 데이터 처리 방법 및 장치
KR20210011797A (ko) * 2019-07-23 2021-02-02 주식회사 카이 머신러닝 기반의 비디오 분류 장치, 방법 및 컴퓨터 프로그램

Also Published As

Publication number Publication date
US20150254573A1 (en) 2015-09-10
EP3117338A4 (en) 2017-09-27
KR101933916B1 (ko) 2019-03-12
EP3117338A1 (en) 2017-01-18
US10535014B2 (en) 2020-01-14
WO2015138082A1 (en) 2015-09-17

Similar Documents

Publication Publication Date Title
KR101933916B1 (ko) 머신 러닝에서의 대안 트레이닝 분포 데이터
KR101868830B1 (ko) 머신 러닝에서의 가중치 생성
KR101889451B1 (ko) 트레이닝 데이터를 위한 가중치 이득 평가기
US11853879B2 (en) Generating vector representations of documents
KR101868829B1 (ko) 머신 러닝에서의 가중치의 생성
CN109313720B (zh) 具有稀疏访问的外部存储器的增强神经网络
US9037464B1 (en) Computing numeric representations of words in a high-dimensional space
US10803380B2 (en) Generating vector representations of documents
KR101982674B1 (ko) 밀도 수정에 기초한 대체 트레이닝 분포
US9811383B2 (en) Processing a composite task based on a semantic relation graph
US20230385649A1 (en) Linguistic schema mapping via semi-supervised learning

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant