KR20140092805A - 동적 특이치 바이어스 감소 시스템 및 방법 - Google Patents

동적 특이치 바이어스 감소 시스템 및 방법 Download PDF

Info

Publication number
KR20140092805A
KR20140092805A KR1020147007293A KR20147007293A KR20140092805A KR 20140092805 A KR20140092805 A KR 20140092805A KR 1020147007293 A KR1020147007293 A KR 1020147007293A KR 20147007293 A KR20147007293 A KR 20147007293A KR 20140092805 A KR20140092805 A KR 20140092805A
Authority
KR
South Korea
Prior art keywords
values
data
error
bias
value
Prior art date
Application number
KR1020147007293A
Other languages
English (en)
Other versions
KR102024953B1 (ko
Inventor
리차드 브레들리 존스
Original Assignee
하트포드 스팀 보일러 인스펙션 앤드 인슈어런스 컴퍼니
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 하트포드 스팀 보일러 인스펙션 앤드 인슈어런스 컴퍼니 filed Critical 하트포드 스팀 보일러 인스펙션 앤드 인슈어런스 컴퍼니
Publication of KR20140092805A publication Critical patent/KR20140092805A/ko
Application granted granted Critical
Publication of KR102024953B1 publication Critical patent/KR102024953B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/0004Gaseous mixtures, e.g. polluted air
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/58Random or pseudo-random number generators
    • G06F7/588Random number generators, i.e. based on natural stochastic processes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Pathology (AREA)
  • Combustion & Propulsion (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Food Science & Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Transition And Organic Metals Composition Catalysts For Addition Polymerization (AREA)

Abstract

기능 및 추세 선 특이치 바이어스를 감소시키기 위한 데이터 필터링을 위한 시스템 및 방법이 본원에 기재된다. 객관적 통계 방법을 통해 데이터 세트로부터 특이치가 제거된다. 바이어스는 절대 오차, 상대 오차, 또는 이 둘 모두를 기초로 결정된다. 오차 값이 데이터, 모델 계수, 또는 추세 선 계산으로부터 계산된다. 오차 값이 사용자-제공 기준보다 크거나 같을 때 특이치 데이터 레코드가 제거된다. 최적화 방법 또는 그 밖의 다른 반복 계산을 위해, 각각의 반복마다 제거된 데이터가 모델에 다시 적용되어 새로운 결과를 계산한다. 완전한 데이터 세트에 대한 모델 값을 이용하여, 새로운 오차 값이 계산되고 특이치 바이어스 감소 절차가 다시 적용된다. 사용자 정의 오차 개선 한계에 도달할 때까지, 반복 방식으로 모델 계수 및 특이치 제거 데이터를 위해 전체 오차가 최소화된다. 필터링된 데이터는 검증, 특이치 바이어스 감소, 및 데이터 품질 작업을 위해 사용될 수 있다.

Description

동적 특이치 바이어스 감소 시스템 및 방법{DYNAMIC OUTLIER BIAS REDUCTION SYSTEM AND METHOD}
관련 출원의 상호 참조
이 출원은 2011년 08월 19일자로 출원된 미국 정규 특허 출원 13/213,780호, 발명의 명칭 "Dynamic Outlier Bias Reduction System And Method"을 기초로 우선권 주장하며, 상기 미국 정규 특허 출원은 그 전체가 본원에 참조로서 포함된다.
발명의 기술 분야
본 발명은 분석 개발(analysis development)에서 특이적 요소(outlier element)가 제거된(또는 필터링된) 데이터의 분석에 관한 것이다. 상기 분석은 단순한 통계치의 계산 또는 이의 개발에서 데이터를 이용하는 수학적 모델과 관련된 보다 복잡한 연산과 관련될 수 있다. 특이 데이터 필터링의 목적은 데이터 품질 및 데이터 검증 동작을 수행하려는 것 또는 차후의 분석, 회귀 분석, 시계열 분석에서 적용되는 대표 표준, 통계치, 데이터 그룹 또는 수학적 모델 개발을 위한 적절한 데이터를 계산하기 위한 것이다.
표준 모델 또는 데이터 구동 모델(data-driven model)에서 특이 데이터(outlier data)를 제거하는 것은, 대표적이며 타당한 분석이 기저 데이터로부터 개발됨을 보장하기 위한 사전 분석 작업의 중요한 부분이다. 예를 들어, 이산화탄소(CO2), 오존(O3), 수증기(H2O), 히드로플루오로카본(HFC), 퍼플루오로카본(PFC), 클로로플루오로카본(CFC), 설퍼 헥사플루오라이드(SF6), 메탄(CH4), 아산화질소(N2O), 일산화탄소(CO), 질소 산화물(NOx), 및 비-메탄 휘발성 유기 화합물(NMVOC) 방출에 대한 온실 가스 표준의 공정한 벤치마킹을 개발하는 것이 표준 개발에서 사용되는 수집된 산업 데이터가 특정 속성을 보임을 요구한다. 산업 장소 중 몇 개에 의한 극히 우수하거나 나쁜 수행이 그 밖의 다른 장소에 대해 계산된 표준을 치우치게 만들어선 안 된다. 표준 계산에 이러한 수행 결과를 포함시키는 것은 불공평하거나 비대표적이라고 판단될 수 있다. 과거에, 수행 특이치(performance outlier)는 대상 입력을 요구하는 반-정량적 프로세서(semi-quantitative process)를 통해 제거되었다. 본 발명의 시스템 및 방법은 이러한 작업을 사전-분석 또는 사전-모델 개발 스테이지에서가 아니라 모델 개발에 통합된 부분으로 수행하며, 데이터-구동식 접근법이다.
바이어스의 제거는 정당화(justification)가 데이터 변경을 입증하기 위한 일부 형태로 자료화된 주관적인 프로세스(documented subjective process)일 수 있다. 그러나 임의의 형태의 특이치 제거는 계산 결과를 변경하기 위한 가능성을 지니는 데이터 중도절단(data censoring)의 형태이다. 이러한 데이터 필터링은 계산에서 바이어스나 오차를 감소시킬 수도 있고 감소시키지 않을 수도 있으며, 전체 분석 공개의 사상에서, 엄격한 데이터 제거 가이드라인 및 특이치 제거를 위한 자료화가 분석 결과에 포함될 필요가 있다. 따라서 데이터 품질 작업, 데이터 검증, 통계 계산 또는 수학적 모델 개발 등의 목적으로, 동적 통계 프로세스를 이용해 특이 데이터 바이어스를 객관적으로 제거하기 위한 새로운 시스템 및 방법을 제공할 필요가 있다. 상기 특이 바이어스 제거 시스템 및 방법은 또한 데이터를 대표 카테고리로 그룹짓기 위해 사용될 수 있으여, 여기서 각각의 그룹에 커스텀화된 수학적 모델의 개별에 데이터가 적용된다. 바람직한 실시예에서, 수학적 모델에서의 곱셈 및 덧셈 팩터로서의 계수(coefficient)가 정의되고, 비선형 속성을 갖는 그 밖의 다른 수치 파라미터도 정의된다. 예를 들어, f(x,y,z) = a*x + b*yc + d*sin(ez) + f인 수학적 모델에서, a, b, c, d, e, 및 f는 모두 계수로 정의된다. 이들 항의 값은 고정 값이거나, 수학적 모델의 개발의 일부일 수 있다.
선호되는 실시예는, 바이어스 기준을 선택하는 단계와, 데이터 세트를 제공하는 단계와, 한 세트의 모델 계수를 제공하는 단계와, 한 세트의 타깃 값을 선택하는 단계와, (1) 완전 데이터 세트에 대한 한 세트의 예측 값을 발생시키는 단계와, (2) 데이터세트에 대한 오차 세트를 발생시키는 단계와, (3) 오차 세트 및 바이어스 기준에 기초하여 한 세트의 오차 임계 값을 발생시키는 단계와, (4) 오차 세트와 한 세트의 오차 임계 값에 기초하여 중도절단 데이터 세트(a censored data set)를 프로세서에 의해 발생시키는 단계와, (5) 한 세트의 새 모델 계수를 프로세서에 의해 발생시키는 단계와, (6) 중도절단 성능 종료 기준이 충족되지 않을 경우, 한 세트의 새 모델 계수를 이용하여 단계(1)-(5)를 반복하는 단계를 포함하는, 특이치 바이어스 감소를 위한 컴퓨터-구현 방법을 포함한다. 선호되는 실시예에서, 한 세트의 예측 값은 데이터 세트 및 한 세트의 모델 계수에 기초하여 발생될 수 있다. 선호되는 실시예에서, 오차 세트는 한 세트의 예측 값과 한 세트의 타깃 값에 기초하여 발생되는 한 세트의 절대 오차와 한 세트의 상대 오차를 포함할 수 있다. 다른 실시예에서, 오차 세트는 한 세트의 예측 값과 한 세트의 타깃 값 사이의 차이로 연산되는 값들을 포함할 수 있다. 다른 실시예에서, 한 세트의 새 계수를 발생시키는 단계는, 선형 또는 비선형 최적화 모델을 이용하여 실현될 수 있는, 한 세트의 예측 값과 한 세트의 실제 값 사이의 한 세트의 오차를 최소화시키는 단계를 더 포함할 수 있다. 선호되는 실시예에서, 중도절단 성능 종료 기준은 표준 오차 및 결정 계수에 기초할 수 있다.
다른 실시예는, 오차 기준을 선택하는 단계와, 데이터 세트를 선택하는 단계와, 한 세트의 실제 값을 선택하는 단계와, 하나의 초기 세트의 모델 계수를 선택하는 단계와, 완전 데이터 세트 및 하나의 초기 세트의 모델 계수에 기초하여 한 세트의 모델 예측 값을 발생시키는 단계와, (1) 완전 데이터 세트에 대한 한 세트의 실제 값 및 모델 예측 값에 기초하여 한 세트의 오차를 발생시키는 단계와, (2) 완전 데이터 세트에 대한 오차 기준과 완전한 한 세트의 오차에 기초하여 한 세트의 오차 임계 값을 발생시키는 단계와, (3) 완전 데이터 세트와 한 세트의 오차 임계 값에 기초하여 필터링이 이루어지도록 특이치 제거된 데이터 세트를 발생시키는 단계와, (4) 한 세트의 새 계수의 발생이 컴퓨터 프로세서에 의해 수행되도록, 필터링된 데이터 세트 및 한 세트의 이전 계수에 기초하여 한 세트의 새 계수를 발생시키는 단계와, (5) 한 세트의 특이치 바이어스 감소 모델 예측 값들의 발생이 컴퓨터 프로세서에 의해 수행되도록, 필터링된 데이터 세트 및 한 세트의 새 모델 계수에 기초하여 한 세트의 특이치 바이어스 감소 모델 예측 값들을 발생시키는 단계와, (6) 모델 예측 값과 한 세트의 실제 값에 기초하여 한 세트의 모델 성능 값을 발생시키는 단계와, 성능 종료 기준이 충족되지 않을 경우, 이전 반복으로부터의 한 세트의 계수를 한 세트의 새 계수로 대체하면서, 단계 (1)-(6)를 반복할 수 있는 반복 단계와, 그리고, 컴퓨터 데이터 매체에 한 세트의 모델 예측 값을 저장하는 단계를 포함하는, 특이치 바이어스 감소를 위한 컴퓨터-구현 방법을 포함한다.
다른 실시예는, 설비용 타깃 변수를 선택하는 단계와, 타깃 변수의 한 세트의 실제 값을 선택하는 단계와, 타깃 변수에 관련된 설비에 대한 복수의 변수를 식별하는 단계와, 복수의 변수에 대한 값들을 포함하는, 설비에 대한 데이터 세트를 획득하는 단계와, 바이어스 기준을 선택하는 단계와, 한 세트의 모델 계수를 선택하는 단계와, (1) 완전 데이터 세트 및 한 세트의 모델 계수에 기초하여 한 세트의 예측 값을 발생시키는 단계와, (2) 한 세트의 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 중도절단 모델 성능 값을 발생시키는 단계와, (3) 타깃 변수에 대한 한 세트의 실제 값 및 한 세트의 예측 값에 기초하여 오차 세트를 발생시키는 단계와, (4) 오차 세트 및 바이어스 기준에 기초하여 한 세트의 오차 임계 값을 발생시키는 단계와, (5) 데이터 세트 및 한 세트의 오차 임계값에 기초하여 중도절단 데이터 세트를 프로세서에 의해 발생시키는 단계와, (6) 중도절단 데이터 세트 및 한 세트의 모델 계수에 기초하여 한 세트의 새 모델 계수를 프로세서에 의해 발생시키는 단계와, (7) 데이터 세트 및 한 세트의 새 모델 계수에 기초하여 한 세트의 새 예측 값을 프로세서에 의해 발생시키는 단계와, (8) 한 세트의 새 예측 값과 한 세트의 실제 값에 기초하여 한 세트의 새 중도절단 모델 성능 값을 발생시키는 단계와, 한 세트의 새 계수를 이용하여 중도절단 성능 종료 기준이 충족되지 않을 경우, 단계 (1)-(8)을 반복하는 단계와, 컴퓨터 데이터 매체에 한 세트의 새 모델 예측 값을 저장하는 단계를 포함하는, 특이치 바이어스 감소를 위한 컴퓨터-구현 방법을 포함한다.
다른 실시예는, 생산, 경제적 효과, 또는 성과에 관한 산업적 설비에 대한 척도인 설비용 타깃 변수를 결정하는 단계와, 설비에 대한 복수의 변수를 식별하는 단계 - 상기 복수의 변수는 타깃 변수에 영향을 미치는 설비에 대한 복수의 직접 변수와, 설비에 대한 한 세트의 변환 변수를 포함하며, 각각의 변환 변수는 타깃 변수에 영향을 미치는 적어도 한자의 직접 설비 변수의 함수임 - 와, 절대 오차 및 상대 오차를 포함하는 오차 기준을 선택하는 단계와, 복수의 변수에 대한 값을 포함하는, 설비에 대한 데이터 세트를 획득하는 단계와, 타깃 변수의 한 세트의 실제 값을 선택하는 단계와, 초기 한 세트의 모델 계수를 선택하는 단계와, 완전 데이터 세트와 초기 한 세트의 모델 계수에 기초하여 한 세트의 모델 예측 값을 발생시키는 단계와, 한 세트의 모델 예측 값과 한 세트의 실제 값에 기초하여 완전한 한 세트의 오차를 발생시키는 단계 - 상대 오차는 공식:
상대 오차m = ((예측 값m - 실제 값m)/실제 값m)2
를 이용하여 연산되고, 'm'은 참조 수치이고, 절대 오차는 공식:
절대 오차m = (예측 값m - 실제 값m)2
를 이용하여 연산됨 - 와, 한 세트의 모델 예측 값과 한 세트의 실제 값에 기초하여 한 세트의 모델 성능 값을 발생시키는 단계- 한 세트의 전체 모델 성능 값은 제 1 표준 오차 및 제 1 결정 계수를 포함함 - 와, (1) 완전 데이터 세트에 대한 한 세트의 실제 값과 모델 예측 값에 기초하여 한 세트의 오차를 발생시키는 단계와, (2) 완전 데이터 세트에 대한 오차 기준과 완전한 한 세트의 오차에 기초하여 한 세트의 오차 임계 값을 발생시키는 단계와, (3) 완전 데이터 세트 및 한 세트의 오차 임계 값에 기초하여 필터링이 이루어지도록, 오차 임계 값보다 크거나 동일한 오차 값을 갖는 데이터를 제거함으로써 특이치 제거 데이터 세트를 발생시키는 단계와, (4) 새 모델 예측 값의 발생이 컴퓨터 프로세서에 의해 수행되도록, 선형 최적화 모델 및 비선형 최적화 모델 중 적어도 하나를 이용하여 한 세트의 예측 값과 한 세트의 실제 값 사이의 오차를 최소화시킴으로써 특히치 제거 데이터 세트와 한 세트의 모델 계수에 기초하여 한 세트의 특이치 바이어스 감소 모델 예측 값을 발생시키는 단계와, (5) 한 세트의 새 계수의 발생이 컴퓨터 프로세서에 의해 수행되도록, 특이치 제거 데이터 세트와 이전 한 세트의 계수에 기초하여 한 세트의 새 계수를 발생시키는 단계와, (6) 한 세트의 모델 성능 값이 제 2 표준 오차, 및 제 2 결정 계수를 포함하도록, 한 세트의 새 예측 모델 값과 한 세트의 실제 값에 기초하여 한 세트의 전체 모델 성능 값을 발생시키는 단계와, 성능 종료 기준이 충족되지 않을 경우, 이전 반복으로부터 한 세트의 계수를 한 세트의 새 계수로 대체하면서, 단계 (1)-(6)을 반복하는 단계 - 상기 성능 종료 기준은 표준 오차 종료 값과 결정 계수 종료 값를 포함하고, 성능 종료 기준의 충족은 표준 오차 종료 값이 제 1 및 제 2 표준 오차 사이의 차이보다 큰 경우와, 결정 계수 종료 값가 제 1 및 제 2 결정 계수 사이의 차이보다 큰 경우를 포함함 - 와, 컴퓨터 데이터 매체에 한 세트의 새 모델 예측 값을 저장하는 단계를 포함하는, 특이치 바이어스 감소를 위한 컴퓨터-구현 방법을 포함한다.
다른 실시예는, 오차 기준을 선택하는 단계와, 데이터 세트를 선택하는 단계와, 한 세트의 실제 값을 선택하는 단계와, 초기 한 세트의 모델 예측 값을 선택하는 단계와, 한 세트의 모델 예측 값과 한 세트의 실제 값에 기초하여 한 세트의 오차를 결정하는 단계와, (1) 완전한 한 세트의 오차 및 오차 기준에 기초하여 한 세트의 오차 임계 값을 결정하는 단계와, (2) 필터링이 데이터 세트 및 한 세트의 오차 임계 값에 기초하여 이루어지도록, 특이치 제거 데이터 세트를 발생시키는 단계와, (3) 한 세트의 특이치 바이어스 감소 모델 예측 값의 발생이 컴퓨터 프로세서에 의해 수행되도록, 특이치 제거 데이터 세트 및 이전 모델 예측 값에 기초하여 한 세트의 특이치 바이어스 감소 모델 예측 값을 발생시키는 단계와, (4) 한 세트의 새 모델 예측 값과 한 세트의 실제 값에 기초하여 한 세트의 오차를 결정하는 단계와, 이전 반복으로부터 한 세트의 모델 예측 값을 한 세트의 새 모델 예측 값으로 대체하면서, 성능 종료 기준이 충족되지 않을 경우, 단계 (1)-(4)를 반복하는 단계와, 컴퓨터 데이터 매체에 한 세트의 특이치 바이어스 감소 모델 예측 값을 저장하는 단계를 포함하는, 특이치 바이어스 감소를 위한 컴퓨터-구현 방법을 포함한다.
다른 실시예는, 설비용 타깃 변수를 결정하는 단계와, 설비에 대한 복수의 변수를 식별하는 단계 - 상기 복수의 변수는 타깃 변수에 영향을 미치는 설비에 대한 복수의 직접 변수와, 설비에 대한 한 세트의 변환 변수를 포함하며, 각각의 변환 변수는 타깃 변수에 영향을 미치는 적어도 하나의 직접 설비 변수의 함수임 - 와, 절대 오차 및 상대 오차를 포함하는 오차 기준을 선택하는 단계와, 복수의 변수에 대한 값을 포함하는 데이터 세트를 획득하는 단계와, 타깃 변수의 한 세트의 실제 값을 선택하는 단계와, 초기 한 세트의 모델 계수를 선택하는 단계와, 데이터 세트에 한 세트의 모델 계수를 적용함으로써 한 세트의 모델 예측 값을 발생시키는 단계와, 한 세트의 성능 값이 제 1 표준 오차와 제 1 결정 계수를 포함하도록, 한 세트의 모델 예측 값과 한 세트의 실제 값에 기초하여 한 세트의 성능 값을 발생시키는 단계와, (1) 완전 데이터 세트에 대한 한 세트의 모델 예측 값과 한 세트의 실제 값에 기초하여 한 세트의 오차를 발생시키는 단계 - 상대 오차는 공식:
상대 오차m = ((예측 값m - 실제 값m)/실제 값m)2
을 이용하여 연산되고, 'm'은 참조 수치이고, 절대 오차는 공식:
절대 오차m = (예측 값m - 실제 값m)2
를 이용하여 연산됨 - 와, (2) 완전 데이터 세트에 대한 완전한 한 세트의 오차 및 오차 기준에 기초하여 한 세트의 오차 임계 값을 발생시키는 단계와, (3) 필터링이 데이터 세트 및 한 세트의 오차 임계 값에 기초하여 이루어지도록, 한 세트의 오차 임계 값보다 크거나 동일한 오차 값을 갖는 데이터를 제거함으로써 특이치 제거 데이터 세트를 발생시키는 단계와, (4) 특이치 제거 데이터 세트 및 한 세트의 이전 계수에 기초하여 한 세트의 새 계수를 발생시키는 단계와, (5) 모델 예측 값의 발생이 컴퓨터 프로세서에 의해 수행되도록, 선형 최적화 모델 및 비선형 최적화 모델 중 적어도 하나를 이용하여 한 세트의 예측 값과 한 세트의 실제 값 사이의 오차를 최소화시킴으로써 한 세트의 새 모델 계수와 특이치 제거 데이터 세트에 기초하여 한 세트의 특이치 바이어스 감소 모델 예측 값을 발생시키는 단계와, (6) 한 세트의 특이치 바이어스 감소 모델 예측 값과 한 세트의 실제 값에 기초하여 한 세트의 업데이트된 성능 값을 발생시키는 단계 - 한 세트의 업데이트된 성능 값은 제 2 표준 오차 및 제 2 결정 계수를 포함함 - 와, 성능 종료 기준이 충족되지 않을 경우, 이전 반복으로부터의 한 세트의 계수를 한 세트의 새 계수로 대체하면서, 단계 (1)-(6)을 반복하는 단계 - 상기 성능 종료 기준은 표준 오차 종료 기준과 결정 계수 종료 값를 포함하고, 성능 종료 기준의 충족은 표준 오차 종료 값이 제 1 및 제 2 표준 오차 사이의 차이보다 큰 경우와, 결정 계수 종료 값가 제 1 및 제 2 결정 계수 사이의 차이보다 큰 경우를 포함함 - 와, 컴퓨터 데이터 매체에 한 세트의 특이치 바이어스 감소 인자를 저장하는 단계를 포함하는, 특이치 바이어스 감소를 위한 컴퓨터-구현 방법을 포함한다.
다른 실시예는, 복수의 데이터 값을 포함하는 타깃 데이터 세트를 제공하는 단계와, 타깃 데이터세트에 기초하여 무작위적 타깃 데이터 세트를 발생시키는 단계와, 한 세트의 바이어스 기준 값을 선택하는 단계와, 데이터 세트 및 선택된 바이어스 기준 값 각각에 기초하여 특이치 바이어스 감소 타깃 데이터 세트를 프로세서에 의해 발생시키는 단계와, 랜덤 데이터 세트 및 각각의 선택된 바이어스 기준 값에 기초하여 특이치 바이어스 감소 랜덤 데이터 세트를 프로세서에 의해 발생시키는 단계와, 특이치 바이어스 감소 데이터 세트 및 특이치 바이어스 감소 랜덤 데이터 세트에 대한 한 세트의 오차 값을 연산하는 단계와, 특이치 바이어스 감소 데이터 세트 및 특이치 바이어스 감소 랜덤 데이터 세트에 대한 한 세트의 상관 계수를 연산하는 단계와, 선택된 바이어스 기준 값 및 대응하는 오차 값 및 상관 계수에 기초하여 데이터 세트 및 랜덤 데이터 세트에 대한 바이어스 기준 곡선을 발생시키는 단계와, 데이터 세트에 대한 바이어스 기준 곡선을 랜덤 데이터 세트에 대한 바이어스 기준 곡선에 비교하는 단계를 포함하는, 모델 개발에 사용되는 데이터 세트의 생존 가능성을 평가하기 위한, 컴퓨터-구현 방법을 포함한다. 특이치 바이어스 감소 타깃 데이터 세트 및 특이치 바이어스 감소 랜덤 타깃 데이터 세트는 동적 특이치 바이어스 제거 방법을 이용하여 발생된다. 랜덤 타깃 데이터 세트는 복수의 데이터 값들의 범위 내의 값으로부터 발전된 무작위화된 데이터 값들로 구성될 수 있다. 또한, 한 세트의 오차 값은 한 세트의 표준 오차를 포함할 수 있고, 한 세트의 상관 계수는 한 세트의 결정 값 계수를 포함한다. 다른 실시예는 타깃 데이터 세트에 대한 바이어스 기준 곡선을 랜덤 타깃 데이터 세트에 대한 바이어스 기준 곡선과 비교함에 기초하여, 개발 모델을 지원하기 위해 타깃 데이터 세트의 생존 가능성에 관한 자동 어드바이스를 발생(역방향도 가능)시키는 단계를 더 포함할 수 있다. 어드바이스는 상관 계수 임계치 및/또는 오차 임계치와 같은, 분석가에 의해 선택되는 파라미터에 기초하여 발생될 수 있다. 또 다른 실시예는 모델 예측 값에 대응하는 복수의 실제 데이터 값을 포함하는 실제 데이터 세트를 제공하는 단계와, 실제 데이터 세트에 기초하여 랜덤 실제 데이터 세트를 발생시키는 단계와, 실제 데이터 세트 및 각각의 선택된 바이어스 기준 값에 기초하여 특이치 바이어스 감소 실제 데이터 세트를 프로세서에 의해 발생시키는 단계와, 랜덤 실제 데이터 세트 및 각각의 선택된 바이어스 기준 값에 기초하여 특이치 바이어스 감소 랜덤 실제 데이터 세트를 프로세서에 의해 발생시키는 단계와, 특이치 바이어스 감소 랜덤 타깃 데이터 세트 및 특이치 바이어스 감소 랜덤 실제 데이터에 기초하여 랜덤 데이터 플롯을 각각의 선택된 바이어스 기준에 대하여 발생시키는 단계와, 특이치 바이어스 감소 타깃 데이터 세트 및 특이치 바이어스 감소 실제 타깃 데이터 세트에 기초하여 현실 데이터 플롯을 각각의 선택된 바이어스 기준에 대해 발생시키는 단계와, 각각의 선택된 바이어스 기준에 대응하는 현실 데이터 플롯에 랜덤 데이터 플롯을 비교하는 단계를 더 포함한다.
선호되는 실시예는 프로세서 및 저장 서브시스템을 포함하는 서버와, 데이터세트를 포함하는 저장 서브시스템에 의해 저장되는 데이터베이스와, 명령어를 포함하는 저장 서브시스템에 의해 저장되는 컴퓨터 프로그램을 포함하는 시스템을 포함하며, 상기 명령어는 실행될 때, 바이어스 기준을 선택하는 단계와, 한 세트의 모델 계수를 제공하는 단계와, 한 세트의 타깃 값을 선택하는 단계와, (1) 데이터 세트에 대해 한 세트의 예측 값을 발생시키는 단계와, (2) 데이터세트에 대한 오차 세트를 발생시키는 단계와, (3) 오차 세트 및 바이어스 기준에 기초하여 한 세트의 오차 임계 값을 발생시키는 단계와, (4) 오차 세트 및 한 세트의 오차 임계 값에 기초하여 중도절단 데이터 세트를 발생시키는 단계와, (5) 한 세트의 새 모델 계수를 발생시키는 단계와, (6) 중도절단 성능 종료 기준이 충족되지 않을 경우, 한 세트의 새 모델 계수를 이용하여 단계 (1)-(5)를 반복하는 단계를, 프로세서로 하여금 수행하게 한다. 선호되는 실시예에서, 한 세트의 예측 값은 데이터 세트 및 한 세트의 모델 계수에 기초하여 발생될 수 있다. 선호되는 실시예에서, 오차 세트는 한 세트의 예측 값 및 한 세트의 타깃 값에 기초하여 발생되는, 한 세트의 절대 오차 및 한 세트의 상대 오차를 포함할 수 있다. 다른 실시예에서, 오차 세트는 한 세트의 예측 값과 한 세트의 타깃 값 사이의 차이로 연산되는 값을 포함할 수 있다. 다른 실시예에서, 한 세트의 새 계수를 발생시키는 단계는, 선형 또는 비선형 최적화 모델을 이용하여 실현될 수 있는, 한 세트의 예측 값 및 한 세트의 실제 값 사이의 한 세트의 오차를 최소화시키는 단계를 더 포함할 수 있다. 선호되는 실시예에서, 중도절단 성능 종료 기준은 표준 오차 및 결정 계수에 기초할 수 있다.
본 발명의 다른 실시예는 프로세서 및 저장 서브시스템을 포함하는 서버와, 데이터 세트를 포함하는 저장 서브시스템에 의해 저장되는 데이터베이스와, 명령어를 포함하는 저장 서브시스템에 의해 저장되는 컴퓨터 프로그램을 포함하는 시스템을 포함하며, 상기 명령어는, 실행될 때, 오차 기준을 선택하는 단계와, 한 세트의 실제 값을 선택하는 단계와, 초기 한 세트의 계수를 선택하는 단계와, 완전한 한 세트의 모델 예측 값을 데이터 세트 및 초기 한 세트의 계수로부터 발생시키는 단계와, (1) 완전한 데이터세트에 대한 한 세트의 실제 값 및 모델 예측 값에 기초하여 한 세트의 오차를 발생시키는 단계와, (2) 완전한 데이터 세트에 대한 오차 기준 및 완전한 한 세트의 오차에 기초하여 한 세트의 오차 임계 값을 발생시키는 단계와, (3) 완전한 데이터 세트 및 한 세트의 오차 임계 값에 기초하여 필터링이 이루어지도록 특이치 제거 데이터 세트를 발생시키는 단계와, (4) 한 세트의 특이치 바이어스 감소 모델 예측 값의 발생이 컴퓨터 프로세서에 의해 수행되도록, 특이치 제거 데이터 세트 및 한 세트의 계수에 기초하여 한 세트의 특이치 바이어스 감소 모델 예측 값을 발생시키는 단계와, (5) 한 세트의 새 계수 발생이 컴퓨터 프로세서에 의해 수행되도록, 특이치 제거 데이터 세트 및 한 세트의 이전 계수에 기초하여 한 세트의 새 계수를 발생시키는 단계와, (6) 특이치 바이어스 감소 모델 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 모델 성능 값을 발생시키는 단계와, 성능 종료 기준이 충족되지 않을 경우, 이전 반복으로부터 한 세트의 계수를 한 세트의 새 계수로 대체하면서, 단계 (1)-(6)을 반복하는 단계와, 컴퓨터 데이터 매체에 한 세트의 전체 특이치 바이어스 감소 모델 예측 값을 저장하는 단계를 프로세서로 하여금 수행하게 한다.
또 다른 실시예는 프로세서 및 저장 서브시스템을 포함하는 서버와, 설비에 대한 타깃 변수와, 타깃 변수의 한 세트의 실제 값과, 타깃 변수에 관련된 설비용 복수의 변수와, 복수의 변수에 대한 값들을 포함하는 설비용의 데이터 세트를 포함하는 저장 서브시스템에 의해 저장되는 데이터베이스와, 명령어를 포함하는 저장 서브시스템에 의해 저장되는 컴퓨터 프로그램을 포함하는 시스템을 포함하며, 상기 명령어는 실행될 때, 바이어스 기준을 선택하는 단계와, 한 세트의 모델 계수를 선택하는 단계와, (1) 데이터 세트 및 한 세트의 모델 계수에 기초하여 한 세트의 예측 값을 발생시키는 단계와, (2) 한 세트의 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 중도절단 모델 성능 값을 발생시키는 단계와, (3) 타깃 변수에 대한 한 세트의 예측 값 및 한 세트의 실제 값에 기초하여 오차 세트를 발생시키는 단계와, (4) 오차 세트 및 바이어스 기준에 기초하여 한 세트의 오차 임계 값을 발생시키는 단계와, (5) 데이터 세트 및 한 세트의 오차 임계치에 기초하여 중도절단 데이터 세트를 발생시키는 단계와, (6) 중도절단 데이터 세트 및 한 세트의 모델 계수에 기초하여 한 세트의 새 모델 계수를 발생시키는 단계와, (7) 데이터 세트 및 한 세트의 새 모델 계수에 기초하여 한 세트의 새 예측 값을 발생시키는 단계와, (8) 한 세트의 새 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 새 중도절단 모델 성능 값을 발생시키는 단계와, 한 세트의 새 계수를 이용하여, 중도절단 성능 종료 기준이 충족되지 않을 경우 단계 (1)-(8)을 반복하는 단계와, 저장 서브시스템에 한 세트의 새 모델 예측 값을 저장하는 단계를, 프로세서로 하여금 수행하게 한다.
다른 실시예는 프로세서 및 저장 서브시스템을 포함하는 서버와, 설비에 대한 데이터 세트를 포함하는 저장 서브시스템에 의해 저장되는 데이터베이스와, 명령어를 포함하는 저장 서브시스템에 의해 저장되는 컴퓨터 프로그램을 포함하는 시스템을 포함하며, 상기 명령어는 실행될 때, 타깃 변수를 결정하는 단계와, 복수의 변수를 식별하는 단계 - 상기 복수의 변수는 타깃 변수에 영향을 미치는 설비에 대한 복수의 직접 변수와, 설비에 대한 한 세트의 변환 변수를 포함하며, 각각의 변환 변수는 타깃 변수에 영향을 미치는 적어도 하나의 직접 변수의 함수임 - 와, 절대 오차 및 상대 오차를 포함하는 오차 기준을 선택하는 단계와, 타깃 변수의 한 세트의 실제 값을 선택하는 단계와, 초기 한 세트의 계수를 선택하는 단계와, 데이터 세트 및 초기 한 세트의 계수에 기초하여 한 세트의 모델 예측 값을 발생시키는 단계와, 한 세트의 모델 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 오차를 결정하는 단계 - 상대 오차는 공식:
상대 오차m = ((예측 값m - 실제 값m)/실제 값m)2
을 이용하여 연산되고, 'm'은 참조 수치이고, 절대 오차는 공식:
절대 오차m = (예측 값m - 실제 값m)2
를 이용하여 연산됨 - 와, 한 세트의 모델 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 성능 값을 결정하는 단계 - 상기 한 세트의 성능 값은 제 1 표준 오차 및 제 1 결정 계수를 포함함 - 와, (1) 모델 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 오차를 발생시키는 단계와, (2) 완전한 데이터 세트에 대한 완전한 한 세트의 오차 및 오차 기준에 기초하여 한 세트의 오차 임계 값을 발생시키는 단계와, (3) 데이터 세트 및 한 세트의 오차 임계 값에 기초하여 필터링이 이루어지도록, 한 세트의 오차 임계 값 바깥의 오차 값을 갖는 데이터를 필터링함으로써 특이치 제거 데이터 세트를 발생시키는 단계와, (4) 특이치 바이어스 감소 모델 예측 값의 발생이 컴퓨터 프로세서에 의해 수행되도록, 선형 최적화 모델 및 비선형 최적화 모델 중 적어도 하나를 이용하여 한 세트의 모델 예측 값 및 한 세트의 실제 값 사이의 오차를 최소화시킴으로써 특이치 제거 데이터 세트 및 한 세트의 계수에 기초하여 한 세트의 새 모델 예측 값을 발생시키는 단계와, (5) 한 세트의 새 계수의 발생이 컴퓨터 프로세서에 의해 수행되도록, 특이치 제거 데이터 세트 및 한 세트의 이전 계수에 기초하여 한 세트의 새 계수를 발생시키는 단계와, (6) 한 세트의 모델 성능 값이 제 2 표준 오차 및 제 2 결정 계수를 포함하도록, 한 세트의 새 모델 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 성능 값을 발생시키는 단계와, 이전 반복으로부터의 한 세트의 계수를 한 세트의 새 계수로 대체하면서, 성능 종료 기준이 충족되지 않을 경우, 단계 (1)-(6)를 반복하는 단계 - 성능 종료 기준은 표준 오차 및 결정 계수를 포함하고, 성능 종료 기준의 충족은 표준 오차 종료 값이 제 1 및 제 2 표준 오차 사이의 차이보다 큰 경우와, 결정 계수 종료 값가 제 1 및 제 2 결정 계수 사이의 차이보다 큰 경우를 포함함 - 와, 컴퓨터 데이터 매체에 한 세트의 새 모델 예측 값을 저장하는 단계를, 프로세서로 하여금 수행하게 한다.
본 발명의 다른 실시예는 프로세서 및 저장 서브시스템을 포함하는 서버와, 데이터 세트를 포함하는 저장 서브시스템에 의해 저장되는 데이터베이스와, 명령어를 포함하는 저장 서브시스템에 의해 저장되는 컴퓨터 프로그램을 포함하는 시스템을 포함하며, 상기 명령어는 실행될 때, 오차 기준을 선택하는 단계와, 데이터 세트를 선택하는 단계와, 한 세트의 실제 값을 선택하는 단계와, 초기 한 세트의 모델 예측 값을 선택하는 단계와, 한 세트의 모델 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 오차를 결정하는 단계와, (1) 완전한 한 세트의 오차 및 오차 기준에 기초하여 한 세트의 오차 임계 값을 결정하는 단계와, (2) 데이터 세트 및 한 세트의 오차 임계 값에 기초하여 필터링이 이루어지도록, 특이치 제거 데이터 세트를 발생시키는 단계와, (3) 특이치 제거 데이터 세트 및 완전한 한 세트의 모델 예측 값에 기초하여 한 세트의 특이치 바이어스 감소 모델 예측 값을 발생시키는 단계 - 한 세트의 특이치 바이어스 감소 모델 예측 값의 발생은 컴퓨터 프로세서에 의해 이루어짐 - 와, (4) 한 세트의 특이치 바이어스 감소 모델 예측 값 및 대응하는 한 세트의 실제 값에 기초하여 한 세트의 오차를 결정하는 단계와, 한 세트의 모델 예측 값을 한 세트의 특이치 바이어스 감소 모델 예측 값으로 대체하면서, 성능 종료 기준이 충족되지 않을 경우, 단계 (1)-(4)를 반복하는 단계와, 컴퓨터 데이터 매체에 한 세트의 특이치 바이어스 감소 인자를 저장하는 단계를, 프로세서에 의해 수행하게 한다.
본 발명의 다른 실시예는 프로세서 및 저장 서브시스템을 포함하는 서버와, 데이터 세트를 포함하는 저장 서브시스템에 의해 저장되는 데이터베이스와, 명령어를 포함하는 저장 서브시스템에 의해 저장되는 컴퓨터 프로그램을 포함하는 시스템을 포함하며, 상기 명령어는 실행될 때, 타깃 변수를 결정하는 단계와, 설비에 대한 복수의 변수를 식별하는 단계 - 상기 복수의 변수는 타깃 변수에 영향을 미치는 설비용의 복수의 직접 변수와, 설비용 한 세트의 변환 변수를 포함하고, 각각의 변환 변수는 타깃 변수에 영향을 미치는 적어도 하나의 주 설비 변수의 함수임 - 와, 절대 오차 및 상대 오차를 포함하는 오차 기준을 선택하는 단계와, 복수의 변수에 대한 값을 포함하는 데이터 세트를 획득하는 단계와, 타깃 변수의 한 세트의 실제 값을 선택하는 단계와, 데이터 세트에 한 세트의 모델 계수를 적용함으로써 한 세트의 모델 예측 값을 발생시키는 단계와, 한 세트의 모델 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 성능 값을 결정하는 단계 - 상기 한 세트의 성능 값은 제 1 표준 오차 및 제 1 결정 계수를 포함함 - 와, (1) 한 세트의 모델 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 오차를 결정하는 단계 - 상대 오차는 공식:
상대 오차m = ((예측 값m - 실제 값m)/실제 값m)2
을 이용하여 연산되고, 'k'는 참조 수치이고, 절대 오차는 공식:
절대 오차m = (예측 값m - 실제 값m)2
를 이용하여 연산됨 - 와, (2) 완전한 데이터 세트에 대한 한 세트의 오차 및 오차 기준에 기초하여 한 세트의 오차 임계 값을 결정하는 단계와, (3) 데이터 세트 및 한 세트의 오차 임계 값에 기초하여 필터링이 이루어지도록 오차 임계 값보다 크거나 동일한 오차 값을 갖는 데이터를 제거함으로써 특이치 제거 데이터 세트를 발생시키는 단계와, (4) 특이치 제거 데이터세트 및 한 세트의 이전 계수에 기초하여 한 세트의 새 계수를 발생시키는 단계와, (5) 특이치 제거 데이터 세트 및 한 세트의 계수에 기초하여 한 세트의 특이치 바이어스 감소 모델 값을 발생시키고, 선형 최적화 모델 및 비선형 최적화 모델 중 적어도 하나를 이용하여 한 세트의 예측값과 한 세트의 실제 값 사이의 오차를 최소화시키는 단계와, (5) 한 세트의 특이치 바이어스 감소 모델 예측 값과 한 세트의 실제 값에 기초하여 한 세트의 업데이트된 성능 값을 결정하는 단계 - 상기 한 세트의 업데이트된 성능 값은 제 2 표준 오차 및 제 2 결정 계수를 포함함 - 와, 이전 반복으로부터 한 세트의 계수를 한 세트의 새 계수로 대체하면서, 성능 종료 기준이 충족되지 않을 경우, 단계 (1)-(5)를 반복하는 단계 - 성능 종료 기준은 표준 오차 종료 값과 결정 계수 종료 값을 포함하고, 성능 종료 기준의 충족은 표준 오차 종료 값이 제 1 및 제 2 표준 오차 사이의 차이보다 큰 경우와, 결정 계수 종료 값이 제 1 및 제 2 결정 계수의 차이보다 큰 경우를 포함함 - 와, 컴퓨터 데이터 매체에 한 세트의 특이치 바이어스 감소 인자를 저장하는 단계를 프로세서에 의해 수행하게 한다.
또 다른 실시예는 프로세서 및 저장 서브시스템을 포함하는 서버와, 복수의 모델 예측 값을 포함하는 타깃 데이터 세트를 포함하는 저장 서브시스템에 의해 저장되는 데이터베이스와, 명령어를 포함하는 저장 서브시스템에 의해 저장되는 컴퓨터 프로그램을 포함하는 모델의 개발에 사용되는 데이터 세트의 생존 가능성을 평가하기 위한 시스템을 포함하며, 상기 명령어는, 랜덤 타깃 데이터 세트를 발생시키는 단계와, 한 세트의 바이어스 기준 값을 선택하는 단계와, 타깃 데이터 세트 및 각각의 선택된 바이어스 기준 값에 기초하여 특이치 바이어스 감소 데이터 세트를 발생시키는 단계와, 랜덤 타깃 데이터 세트 및 각각의 선택된 바이어스 기준 값에 기초하여 특이치 바이어스 감소 랜덤 타깃 데이터 세트를 발생시키는 단계와, 특이치 바이어스 감소 타깃 데이터 세트 및 특이치 바이어스 감소 랜덤 타깃 데이터 세트에 대한 한 세트의 오차 값을 연산하는 단계와, 특이치 바이어스 감소 타깃 데이터 세트 및 특이치 바이어스 감소 랜덤 타깃 데이터 세트에 대해 한 세트의 상관 계수를 연산하는 단계와, 각각의 선택된 바이어스 기준에 대한 대응하는 오차 값 및 상관 계수에 기초하여 타깃 데이터 세트 및 랜덤 타깃 데이터 세트에 대한 바이어스 기준 곡선을 발생시키는 단계와, 랜덤 타깃 데이터 세트에 대한 바이어스 기준 곡선에 타깃 데이터 세트에 대한 바이어스 기준 곡선을 비교하는 단계를, 프로세서로 하여금 수행하게 한다. 프로세서는 동적 특이치 바이어스 제거 방법을 이용하여 특이치 바이어스 감소 타깃 데이터 세트 및 특이치 바이어스 감소 랜덤 타깃 데이터 세트를 발생시킨다. 랜덤 타깃 데이터 세트는 복수의 데이터 값의 범위 내의 값들로부터 발전되는 랜덤화된 데이터 값으로 구성될 수 있다. 또한, 한 세트의 오차 값은 한 세트의 표준 오차를 포함할 수 있고, 한 세트의 상관 계수는 한 세트의 결정 계수 값을 포함한다. 다른 실시예에서, 프로그램은 실행될 때, 랜덤 타깃 데이터 세트에 대한 바이어스 기준 곡선에 타깃 데이터 세트에 대한 바이어스 기준 곡선을 비교함에 기초하여 자동화된 어드바이스를 발생시키는 단계를 프로세서에 의해 수행하게 하는 명령어를 더 포함한다. 어드바이스는 상관 계수 임계치 및/또는 오차 임계치와 같이, 분석가에 의해 선택되는 파라미터에 기초하여 발생될 수 있다. 또 다른 실시예에서, 시스템의 데이터베이스는 모델 예측 값에 대응하는 복수의 실제 데이터 값을 포함하는 실제 데이터 세트를 더 포함하며, 프로그램은 실행될 때, 실제 데이터 세트에 기초하여 랜덤 실제 데이터 세트를 발생시키는 단계와, 실제 데이터 세트 및 각각의 선택된 바이어스 기준 값에 기초하여 특이치 바이어스 감소 실제 데이터 세트를 발생시키는 단계와, 랜덤 실제 데이터 세트 및 각각의 선택된 바이어스 기준 값에 기초하여 특이치 바이어스 감소 랜덤 실제 데이터 세트를 발생시키는 단계와, 각각의 선택된 바이어스 기준에 대하여, 특이치 바이어스 감소 랜덤 타깃 데이터 세트 및 특이치 바이어스 감소 랜덤 실제 데이터에 기초하여 랜덤 데이터 플롯을 발생시키는 단계와, 각각의 선택된 바이어스 기준에 대하여, 특이치 바이어스 감소 타깃 데이터 세트 및 특이치 바이어스 감소 실제 데이터 세트에 기초하여 현실 데이터 플롯을 발생시키는 단계와, 랜덤 데이터 플롯을 각각의 선택된 바이어스 기준에 대응하는 현실 데이터 플롯과 비교하는 단계를 프로세서에 의해 수행하게 하는 명령어를 더 포함한다.
도 1은 데이터 특이치 식별 및 제거 방법의 일 실시예를 예시하는 순서도다.
도 2는 데이터 품질 작동에 대한 데이터 특이치 식별 및 제거 방법의 일 실시예를 예시하는 순서도다.
도 3은 데이터 비준에 대한 데이터 특이치 식별 및 제거 방법의 일 실시예를 예시하는 순서도다.
도 4는 발명의 방법을 구현하기 위한 예시적 노드다.
도 5는 데이터 세트의 정량적 평가를 위한 예시적 그래프다.
도 6A 및 6B는 전체 데이터 세트에 대해 각각 랜덤화된 그리고 현실의 데이터 세트를 예시하는, 도 5의 데이터 세트의 정량적 평가를 위한 예시적 그래프다.
도 7A 및 7B는 데이터의 30%를 특이치로 제거한 후, 각각 랜덤화된, 그리고 현실의, 데이터 세트를 예시하는, 도 5의 데이터 세트의 정량적 평가를 위한 예시적 그래프다.
도 8A 및 8B는 데이터의 50%를 특이치로 제거한 후, 각각 랜덤화된, 그리고 현실의, 데이터 세트를 예시하는, 도 5의 데이터 세트의 정량적 평가를 위한 예시적 그래프다.
다음의 기재는 구조화된 내용을 액세스 및 관리하기 위한 시스템 및 방법의 여러 다른 특징들을 구현하기 위한 여러 다른 실시예, 또는 예시를 제공한다. 구성요소, 프로세서, 및 구현예의 특정 예시가 본 발명을 명확화하는 데 도움이 되도록 기재된다. 이들은 예에 불과하며, 청구항에 기재된 본 발명을 제한하려는 의도는 갖지 않는다. 공지된 요소들은 상세한 기재 없이 제시되어, 불필요한 세부사항으로 본 발명의 바람직한 실시예를 모호하게 하지 않는다. 대부분의 경우, 본 발명의 바람직한 실시예의 완전한 이해를 획득하기 위해 필요하지 않은 세부사항은 본 발명이 속하는 분야의 통상의 기술자의 지식의 범위내에 있는 한, 생략되었다.
동적 특이 바이어스 감소(Dynamic Outlier Bias Reduction)의 한 가지 실시예의 수학적 설명은 다음과 같다:
명명법:
Figure pct00001
초기 계산, k=0
초기 단계 1: 초기 모델 계수 추정치
Figure pct00002
를 이용해, 모델을 완전한 데이터 세트:
Figure pct00003
에 적용시킴으로써, 초기 모델 예측 값을 계산한다.
초기 단계 2: 초기 모델 수행 결과를 계산한다:
Figure pct00004
, 표준 오차 등
Figure pct00005
초기 단계 3: 모델 오차 임계 값을 계산한다:
Figure pct00006
초기 단계 4: 데이터 레코드를 필터링하여 특이치를 제거한다:
Figure pct00007
반복 계산, k > 0
반복 단계 1: 모델을 수락된 데이터 세트로 적용시킴으로써 예측 값을 계산한다:
Figure pct00009
Figure pct00010
반복 단계 2: 모델 수행 결과를 계산한다:
Figure pct00011
, 표준 오차 등
Figure pct00012
종료 기준이 얻어진 경우, 중단하고, 그렇지 않은 경우 단계 3으로 진행한다:
반복 단계 3: 현재 모델을 이용해 제거된 데이터
Figure pct00013
에 대한 결과를 계산한다:
Figure pct00014
반복 단계 4: 모델 오차 임계 값을 계산한다:
Figure pct00015
반복 단계 5: 데이터 레코드를 필터링하여 특이치를 제거한다:
Figure pct00016
동적 특이 바이어스 감소의 또 다른 수학적 설명이 이하에서 제공된다:
명명법:
Figure pct00017
초기 계산, k=0
초기 단계 1: 초기 모델 계수 추정치,
Figure pct00018
를 이용해, 모델을 완전한 데이터 세트에 적용시킴으로써 초기 모델 예측 값 결과를 계산한다:
Figure pct00019
Figure pct00020
Figure pct00021
초기 단계 2: 초기 모델 수행 결과를 계산한다:
Figure pct00022
, 표준 오차 등
Figure pct00023
초기 단계 3: 모델 오차 임계 값을 계산한다:
Figure pct00024
초기 단계 4: 데이터 레코드를 필터링하여 특이치를 제거한다:
Figure pct00025
반복 계산, k > 0
반복 단계 1: 모델을 특이치가 제거된 데이터 세트에 적용시킴으로써 모델 예측 값을 계산한다:
Figure pct00026
Figure pct00027
Figure pct00028
반복 단계 2: 모델 수행 결과를 계산한다:
Figure pct00029
, 표준 오차 등
Figure pct00030
종료 기준이 얻어진 경우, 중단하고, 그렇지 않은 경우 단계 3으로 진행한다:
반복 단계 3: 현재 모델을 이용해 제거된 데이터,
Figure pct00031
에 대한 결과를 계산한다 :
Figure pct00032
반복 단계 4: 모델 오차 임계 값을 계산한다:
Figure pct00033
반복 단계 5: 데이터 레코드를 필터링하여 특이치를 제거한다:
Figure pct00034
k를 증분시키고 반복 단계 1로 진행한다.
현재의 중도절단된 데이터 세트(censored dataset)로부터 새로운 모델 계수가 계산되는 각각의 반복 후, 이전 반복으로부터의 제거된 데이터와 현재의 중도절단된 데이터가 재조합된다. 이 조합은 완전한 데이터 세트 내 모든 데이터 값을 포함한다. 그 후 현재의 모델 계수가 완전한 데이터 세트로 적용되어, 예측 값의 완전한 세트를 계산할 수 있다. 예측 값의 완전한 세트에 대해 절대 오차 및 상대 오차가 계산되고, 새로운 바이어스 기준 백분위수 임계값이 계산된다. 절대 또는 상대 오차가 임계 값보다 큰 경우 모든 데이터 값을 제거함으로써, 새로운 중도절단된 데이터 세트가 생성되고 그 후 비선형 최적화 모델(nonlinear optimization model)이 상기 새롭게 중도절단된 데이터 세트에 적용되어 새로운 모델 계수를 계산한다. 이 프로세스에 의해 모든 데이터 값이, 모델 데이터 세트에 이들이 포함 가능한지에 대해 매 반복(iteration)마다 검토된다. 모델 계수가 데이터에 가장 잘 맞는 값으로 수렴하기 때문에, 이전 반복에서 배제됐던 일부 데이터 값이 차후의 반복에 포함되는 것이 가능하다.
하나의 실시예에서, GHG 방출의 변차가 방출 결과의 과대평가 또는 과소평가를 초래해 모델 예측 값의 바이어스를 야기할 수 있다. 모델 예측 값의 바이어스가 제거되지 않는 한, 이들 비-산업적 영향, 가령, 계산 절차에서의 환경적 조건 및 오차에 의해 특정 설비에 대한 결과가 유사한 설비와 상당히 상이하게 될 수 있다. 모델 예측 값의 바이어스는 또한 특유의 동작 조건 때문에 존재할 수도 있다.
분석가가 설비의 계산에 오차가 있고 특유의 참작할만한 특성을 가진다고 확신할만한 경우, 계산에서 설비의 데이터를 단순히 제거함으로써, 상기 바이어스는 수동으로 제거될 수 있다. 그러나 여러 다른 회사, 지역, 및 국가에서 설비의 성능을 측정할 때, 데이터 세부사항에 대한 정확한 선험적 지식은 있기 힘들다. 따라서 임의의 분석-기반 데이터 제거 절차는 모델 결과의 자료화되지 않은(undocumented), 비-데이터 지원 바이어스에 대한 가능성을 가진다.
하나의 실시예에서, 동적 특이치 바이어스 감소가, 통계적 특이치를 결정하고 모델 계수 계산으로부터 이를 제거하기 위해 데이터 및 규정된 전체 오차 기준을 사용하는 절차에 적용된다. 이는 예를 들어 백분위수 함수를 이용하는 데이터 생성 전역 오차 기준(data produced global error criteria)을 이용해 특이치를 식별하는 데이터-구동 프로세스(data-driven process)이다. 동적 특이치 바이어스 감소의 용도는 모델 예측 값에서의 바이어스의 감소에 국한되지 않고, 이 실시예에서의 용도는 단지 예에 불과하다. 또한 동적 특이치 바이어스 감소는 임의의 통계적 데이터 세트로부터 특이치를 제거하도록 사용될 수 있으며, 비-제한적 예를 들면, 산술 평균, 선형 회귀, 및 추세선(trend line)의 계산에서 사용될 수 있다. 특이적 설비들은 계산 결과에 여전히 나타나지만 모델 계수 또는 통계적 결과를 계산하기 위해 적용되는 필터링된 데이터 세트에서는 특이치들이 사용되지 않는다.
일반적으로 특이치를 제거하기 위해 사용되는 표준 절차는 데이터 세트의 표준 편차 (σ)를 계산하고 단순히 평균의 2σ 구간 외부의 모든 데이터를, 가령, 특이치라고 정의하는 것이다. 이 절차는, 일반적으로, 실제로 시험될 수 없는 통계적 가정을 가진다. 본 발명의 실시예에서 적용되는 동적 특이치 바이어스 감소법의 설명은 도 1에 대략적으로 나와 있으며, 상대 오차와 절대 오차 모두를 사용한다. 예를 들어, 한 설비 'm'에 대해 다음과 같다:
상대 오차m = ((예측 값m - 실제 값m)/실제 값m)2 (1)
절대 오차m = (예측 값m - 실제 값m)2 (2)
단계(110)에서, 분석가가 계산에서 제거될 특이치를 정의할 오차 임계 기준을 특정한다. 예를 들어, 오차 함수로서 백분위수 연산을 이용해, 상대 오차와 절대 오차에 대한 80퍼센트의 백분위수 값이 설정될 수 있다. 이는 상대 오차에 대한 80번째 미만의 백분위수 값과 절대 오차 계산에 대한 80번째 미만의 백분위수 값이 포함될 것이며, 나머지 값은 제거, 즉 특이치로서 간주됨을 의미한다. 이 예시에서, 데이터 값이 제거되는 것을 피하기 위해, 데이터 값은 상대 오차와 절대 오차의 80번째 백분위수 값 모두 미만이어야 한다. 그러나 상대 오차 및 절대 오차에 대한 백분위수 임계치는 독립적으로 달라질 수 있으며, 또 다른 실시예에서, 백분위수 임계치들 중 하나만 사용될 수 있다.
단계(120)에서, 모델 표준 오차 및 결정 계수(r2) 퍼센트 변화 기준이 특정된다. 이들 통계치의 값은 모델별로 달라질 것이며, 선행 반복 절차에서의 퍼센트 변화는, 가령, 5 퍼센트로, 사전 설정될 수 있다. 이들 값은 반복 절차를 종료하기 위해 사용될 수 있다. 또 다른 종료 기준은 단순한 반복 카운트(iteration count)일 수 있다.
단계(130)에서 각각의 설비에 대해 모델 계수 및 예측 값을 생성하는 최적화 계산이 수행된다.
단계(140)에서, 모든 설비에 대한 상대 오차와 절대 오차가 수학식 (1) 및 (2)를 이용해 계산된다.
단계(150)에서, 단계(110)에서 임계 기준이 특정된 오차 함수가 단계(140)에서 계산된 데이터에 적용되어, 특이치 임계 값을 결정할 수 있다.
단계(160)에서, 선택된 구성에 따라, 상대 오차, 절대 오차, 또는 이 둘 모두가 단계(150)에서 계산된 오차 임계 값 미만인 경우 데이터가 필터링된다.
단계(170)에서, 특이치가 제거된 데이터 세트만 이용해 최적화 계산이 수행된다.
단계(180)에서, 표준 오차 및 r2의 퍼센트 변화가 단계(120)에서 특정된 기준에 비교된다. 퍼센트 변화가 기준보다 큰 경우, 프로세스는 단계(140)로 복귀함으로써 반복된다. 그렇지 않은 경우, 단계(190)에서 반복 절차가 종료되고, 이 동적 특이치 바이어스 감소 기준 절차에서 계산된 최종 모델이 완성된다. 현재의 반복을 지나 제거된 데이터 상태인지 또는 인정된 데이터 상태인지에 관계 없이, 상기 모델 결과는 모든 설비에 적용된다.
또 다른 실시예에서, 프로세스는 다음과 같은 특정 반복 파라미터(iterative parameter)의 선택으로 시작된다:
(1) 절대 오차 및 상대 오차 백분위수 값으로서, 둘 중 적어도 하나가 반복 프로세스에서 사용될 수 있음
(2) 결정 계수(r2라고도 알려져 있음) 개선 값, 및
(3) 표준 오차 개선 값.
프로세스는 원본 데이터 세트(original data set), 실제 데이터의 세트, 및 상기 원본 데이터 세트를 기초로 하는 예측 값을 계산하기 위한 적어도 하나의 계수 또는 팩터로 시작한다. 하나의 계수 또는 계수의 세트가 원본 데이터 세트에 적용되어, 예측 값의 세트를 만들 수 있다. 계수의 세트의 비-제한적 예를 들면, 스칼라, 지수, 파라미터, 및 주기 함수가 있을 수 있다. 그 후 예측 데이터의 세트가 실제 데이터의 세트에 비교된다. 표준 오차 및 결정 계수가 예측 데이터와 실제 데이터 간의 차이를 기초로 계산된다. 데이터 점(data point)들 각각과 연관된 상기 절대 오차 및 상대 오차가 사용자-선택 절대 오차 및 상대 오차 백분위수 값을 기초로 데이터 특이치를 제거하기 위해 사용된다. 절대 오차 및/또는 상대 오차에 대한 백분위수 값과 연관된 범위 외부에 있는 모든 데이터가 원본 데이터 세트로부터 제거되기 때문에 데이터를 순위화(ranking)하는 것은 불필요하다. 본 방법은 절대 오차 또는 상대 오차, 또는 또 다른 함수와 함께 수행될 수 있기 때문에, 데이터를 필터링하기 위해 절대 오차 및 상대 오차의 사용은 단지 예시에 불과하다.
사용자-선택 백분위수 범위 내에 있는 절대 오차 및 상대 오차와 연관된 데이터는 특이치가 제거된 데이터 세트이며, 프로세스의 각각의 반복은 자신의 고유의 필터링된 데이터 세트를 가질 것이다. 이 제 1 특이치가 제거된 데이터 세트(outlier removed data set)는 실제 값과 비교될 예측 값을 결정하도록 사용된다. 적어도 하나의 계수는 오차를 최적화함으로써 결정되고, 그 후 계수는 제 1 특이치가 제거된 데이터 세트를 기초로 예측 값을 생성하도록 사용된다. 특이치 바이어스 감소된 계수는 하나의 반복에서 다음 반복으로 지식이 전달될 때 사용하는 메커니즘으로서 역할한다.
제 1 특이치가 제거된 데이터 세트가 생성된 후, 표준 오차 및 결정 계수가 계산되고 원본 데이터 세트의 표준 오차 및 결정 계수에 비교된다. 표준 오차의 차이 및 결정 계수의 차이가 모두 그들 각자의 개선 값(imporvement value) 보다 낮은 경우, 프로세스는 중단된다. 그러나 개선 기준들 중 적어도 하나가 충족되지 않은 경우, 프로세스는 또 한 번의 반복을 계속한다. 표준 오차 및 결정 계수를 반복 프로세스에 대한 체크(check)로서 사용하는 것은 단지 예에 불과하면, 표준 오차만, 또는 결정 계수만 이용하는 체크가 수행될 수 있고, 여러 다른 통계적 체크 또는 그 밖의 다른 성능 종료 기준(가령, 반복 횟수)이 이용될 수 있다.
제 1 반복이 개선 기준을 충족하는 데 실패했다고 가정하면, 제 2 반복이 예측 값의 새로운 세트를 결정하기 위해 제 1 특이치 바이어스 감소 데이터 계수를 원본 데이터에 적용시킴으로써 시작된다. 그 후 원본 데이터가 다시 처리되어, 제 1 특이치가 제거된 데이터 세트 계수를 이용하면서 데이터 점에 대한 절대 오차 및 상대 오차뿐 아니라 원본 데이터 세트에 대한 표준 오차와 결정 계수 값까지 확립한다. 그 후 데이터가 필터링되어 제 2 특이치가 제거된 데이터 세트를 형성하고 상기 제 2 특이치가 제거된 데이터 세트를 기초로 계수를 결정할 수 있다.
그러나 상기 제 2 특이치가 제거된 데이터 세트는 제 1 특이치가 제거된 데이터 세트의 서브세트일 필요는 없으며, 특이치 바이어스 감소 모델 계수의 제 2 세트, 제 2 표준 오차, 및 제 2 결정 계수와 연관된다. 이들 값이 결정되면, 제 2 표준 오차가 제 1 표준 오차에 비교되고 제 2 결정 계수는 제 1 결정 계수에 대해 비교될 것이다.
(표준 오차 및 결정 계수에 대한) 개선 값이 이들 파라미터의 차이를 초과하는 경우, 프로세스가 종료될 것이다. 그렇지 않은 경우, 원본 데이터를 다시 프로세싱함으로써, 또 하나의 반복이 시작될 것이며, 이번엔 제 2 특이치 바이어스 감소 계수를 이용해 원본 데이터 세트를 프로세싱하고 예측 값의 새로운 세트를 생성할 것이다. 절대 오차와 상대 오차에 대한 사용자-선택 백분위수 값을 기초로 하는 필터링이, 제 3 특이치 바이어스 감소 계수의 세트를 결정하기 위해 최적화될 제 3 특이치가 제거된 데이터 세트를 생성할 것이다. 상기 프로세스는 오차 개선 또는 그 밖의 다른 종료 기준(가령, 수렴 기준(convergence criteria) 또는 특정된 반복 횟수)이 충족될 때까지 계속될 것이다.
이 프로세스의 출력은 계수 또는 모델 파라미터의 세트일 것이며, 여기서 계소 또는 모델 파라미터는 수학적 값(또는 값들의 세트)이며, 비-제한적 예를 들면, 데이터를 비교하기 위한 모델 예측 값, 선형 수식의 기울기와 절편 값, 다항식의 지수 또는 계수가 있다. 동적 특이치 바이어스 감소의 출력은 이의 우변에서의 출력 값이 아니고, 오히려, 출력 값을 결정하기 위해 데이터를 수정할 계수일 것이다.
도 2에 도시된 또 하나의 실시예에서, 동적 특이치 바이어스 감소가 데이터 품질 기법으로서 적용되어, 데이터의 일관성(consistency) 및 정확도(accuracy)를 평가함으로써, 데이터가 특정 용도에 적절한지를 검증할 수 있다. 데이터 품질 작업을 위해, 본 방법은 반복 절차를 포함하지 않을 수 있다. 이 프로세스 동안 동적 특이치 바이어스 감소와 함께 그 밖의 다른 데이터 품질 기법이 사용될 수 있다. 상기 방법은 특정 데이터 세트의 산술 평균 계산에 적용된다. 이 예시에서 데이터 품질 기준은 연속 데이터 값(successive data value)이 일부 범위 내에 포함되는 것이다. 따라서 너무 멀리 떨어진 임의의 값은 열악한 품질의 데이터가 될 것이다. 그 후 오차 항(error term)이 함수의 연속 값으로 구성되고, 동적 특이치 바이어스 감소가 이들 오차 값에 적용된다.
단계(210)에서 초기 데이터가 임의의 순서로 나열된다.
단계(220)는 데이터 세트에 대해 수행되는 함수 또는 연산을 구성한다. 이 실시예에서, 상기 함수 및 연산은 데이터의 오름차순 순위화(ascending ranking) 및 이에 뒤 따르는 연속 산술 평균 계산이며, 여기서 각각의 선(line)은 상기 선 상의 그리고 상기 선 위의 모든 데이터의 평균에 대응한다.
단계(230)에서, 단계(220)의 결과로부터의 연속 값을 이용해 데이터로부터 값 상대 오차 및 절대 오차가 계산된다.
단계(240)에서 분석가가 원하는 특이치 제거 오차 기준(%)을 입력할 수 있다. 품질 기준 값은 단계(220)의 데이터를 기초로 한 단계(230)의 오차 계산으로부터의 최종 값이다.
단계(250)에서 데이터 품질 특이치가 필터링된 데이터 세트가 나타난다. 상대 오차 및 절대 오차가 단계(240)에서 제공된 특정 오차 기준을 초과하는 경우 특정 값이 제거된다.
단계(260)는 특이치가 제거된 완전한 데이터 세트들 간 산술 평균 계산 비교를 보여준다. 모든 적용된 수학적 또는 통계적 계산 시, 식별된 특이치 제거 데이터 요소가 실제로 열악한 품질을 갖는지 여부를 판단하기 때문에 분석가가 최종 단계이다. 동적 특이치 바이어스 감소 시스템 및 방법은 분석가가 데이터를 직접 제거하지 않게 하지만, 최적 실시 가이드라인이 실용적 타당성(practical relevance)에 대한 분석가 검토와 결과 체크를 제안한다.
도 3에 도시된 또 하나의 실시예에서, 동적 특이치 바이어스 감소가 데이터 세트의 합리적인 정확도를 시험하여 데이터가 특정 용도에 적절한지 여부를 결정하는 데이터 검증 기법으로서 적용된다. 데이터 검증 작업을 위해, 본 방법은 반복 절차를 포함하지 않을 수 있다. 이 예시에서, 동적 특이치 바이어스 감소가 2개의 데이터 세트 간 피어슨 상관 계수(Pearson Correlation Coefficient)의 계산에 적용된다. 상기 피어슨 상관 계수는 데이터 세트에서 타 데이터 점과 비교적 상이한 값에 반응할 수 있다. 이 통계치와 관련하여 데이터 세트를 검증하는 것은 결과가 극단적 값의 영향보다는 데이터의 대다수가 무엇인지를 나타냄을 보장하기 위해 중요하다. 이 예시의 데이터 검증 프로세스는 연속 데이터 값이 특정 범위 내에 있다는 것이다. 따라서 너무 멀리 떨어져 있는 임의의 값(가령, 특정 범위를 벗어난 값)은 열악한 품질의 데이터를 의미할 것이다. 이는 함수의 연속 값의 오차 항을 구성함으로써 이뤄진다. 동적 특이치 바이어스 감소가 이들 오차 값에 적용되고, 특이치가 제거된 데이터 세트가 검증된 데이터이다.
단계(310)에서, 데이터 쌍(paired data)이 임의의 순서로 나열된다.
단계(320)에서 데이터 세트 내 각각의 순서화된 쌍(ordered pair)에 대한 상대 오차 및 절대 오차가 계산된다.
단계(330)에서 분석가가 원하는 데이터 검증 기준을 입력할 수 있다. 이 예시에서, 모두 90%인 상대 오차 및 절대 오차가 선택된다. 단계(330)에서의 품질 기준 값 항목이 단계(320)에서 나타난 데이터에 대한 최종 절대 오차 및 상대 오차 백분위수 값이다.
단계(340)는 특이치 제거 프로세스를 나타내며, 여기서, 상대 오차 및 절대 오차 값 모두 단계(330)에서 입력된 사용자 선택 백분위수 값에 대응하는 값을 초과하는 기준을 이용해 유효하지 않을 수 있는(invalid) 데이터가 데이터 세트로부터 제거된다. 실시될 때, 그 밖의 다른 오차 기준이 사용될 수 있으며 복수의 기준이 이 예시에서 나타나는 것처럼 적용될 때, 오차 값의 임의의 조합이 적용되어 특이치 제거 규칙을 결정할 수 있다.
단계(350)에서, 검증된 데이터 및 원본 데이터 값 통계치 결과가 계산된다. 이 경우, 피어슨 상관 계수이다. 그 후 이들 결과가 분석가에 의한 실용적 타당성에 대해 검토된다.
또 하나의 실시예에서, 동적 특이치 바이어스 감소가 전체 데이터 세트의 검증을 수행하기 위해 사용된다. 표준 오차 개선 값, 결정 계수 개선 값, 및 절대 및 상대 오차 임계치가 선택되고, 그 후 데이터 세트가 오차 기준에 따라 필터링된다. 원본 데이터 세트가 높은 품질을 갖는 경우라도, 절대 및 상대 오차 임계치를 벗어난 오차 값을 가질 일부 데이터가 여전히 존재할 것이다. 따라서 데이터의 임의의 제거가 필요하지 여부를 결정하는 것이 중요하다. 제 1 반복 후, 특이치가 제거된 데이터 세트가 표준 오차 개선 및 결정 계수 개선 기준을 통과했다면, 필터링된 데이터 세트가 유의미하다고 간주되기 너무 작은(가령, 선택된 개선 값 미만의) 표준 오차 및 결정 계수를 생성했기 때문에, 원본 데이터 세트는 검증된 것이다.
또 다른 실시예에서, 데이터 특이치 제거의 반복이 계산에 어떻게 영향을 미치는지에 대한 통찰을 제공하기 위해 동적 특이치 바이어스 감소가 사용된다. 사용자가 각각의 반복이 수행될 때마다의 데이터 특이치 제거 계산의 진행을 관측할 수 있게 하는 그래프 또는 데이터 테이블이 제공된다. 이 단계별 접근법에 의해, 분석가가 계산의 특유의 속성을 관측할 수 있고, 이는 결과에 가치와 지식을 더할 수 있다. 예를 들어, 수렴의 속도와 속성이 동적 특이치 바이어스 감소가 다차원 데이터 세트에 대한 대표적 팩터를 계산하는 데 미치는 영향을 나타낼 수 있다.
도시된 바와 같이, 87개의 레코드의 열악한 품질의 데이터 세트에 대한 선형 회귀 계산을 고려하자. 회귀되는 수식의 형태는 y = mx + b이다. 표 1은 5번의 반복에 대한 반복 프로세스의 결과를 보여준다. 95%의 상대 및 절대 오차 기준을 이용할 때, 수렴은 3회 반복 내에 이뤄짐을 주목하라. 회귀 계수(regression coefficient)의 변화가 관측될 수 있고 동적 특이치 바이어스 감소 방법이 79개의 레코드를 기초로 하는 계산 데이터 세트를 감소시킨다. 비교적 낮은 결정 계수(r2=39%)가 r2 통계치와 계산된 회귀 계수에 미치는 추가 특이치 제거 영향을 연구하기 위해서는 더 낮은(<95%) 기준이 시험되어야 함을 암시한다.
Figure pct00035
표 2에서, 80%의 상대 및 절대 오차 기준을 이용해 동적 특이치 바이어스 검소를 적용한 결과가 나타난다. 특이치 오차 기준의 15% 점(95% 내지 80%) 변화가 r2의 35 퍼센트 포인트 증가(39%에서 74%)와 용인된 데이터(admitted data)의 35% 추가 감소(포함된 레코드가 79개에서 51개로 감소)를 생성했음에 주목할 수 있다. 분석가는 특이치가 제거된 결과를 더 많은 청중들에게 전달하고 데이터 가변성이 분석 결과에 미치는 영향과 관련된 더 많은 통찰을 제공하기 위해 분석 프로세스에서 특이치가 제거된 데이터를 포함하는 회귀 선(regression line)의 변화, 표 1 및 2의 수치 결과의 그래픽 뷰를 이용할 수 있다.
Figure pct00036
도 4에서 도시된 바와 같이, 본 방법을 수행하기 위해 사용되는 시스템의 하나의 실시예가 컴퓨팅 시스템을 포함한다. 하드웨어는 필요한 수치 계산을 수행하기 위해 적절한 시스템 메모리(420)를 포함하는 프로세서(410)를 포함한다. 상기 프로세서(410)는 시스템 메모리(420) 내에 위치하는 컴퓨터 프로그램을 실행시켜 방법을 수행하게 한다. 디스플레이(440)의 동작을 활성화시키도록 비디오 및 저장장치 제어기(430)가 사용될 수 있다. 시스템은 데이터 입력을 위한 다양한 데이터 저장 장치, 가령, 플로피 디스크 유닛(450), 내부/외부 디스크 드라이브(460), 내부 CD/DVD(470), 테이프 유닛(480), 및 그 밖의 다른 유형의 전자 저장 매체(490)를 포함한다. 앞서 언급된 데이터 저장 장치는 단지 예시에 불과하다. 이들 저장 매체는 데이터 세트 및 특이치 제거 기준을 시스템에 입력하고, 특이치가 제거된 데이터 세트를 저장하며, 계산된 팩터를 저장하고, 시스템이 생성한 추세 선(trend line) 및 추세 선 반복 그래프를 저장하도록 사용된다. 계산은 통계 소프트웨어 패키지를 적용하거나, 가령, Microsoft Excel을 이용한 스프레드시트 포맷으로 입력된 데이터로부터 수행될 수 있다. 상기 계산은 회사 특정적 시스템 구현예를 위해 설계된 커스텀화된 소프트웨어 프로그램을 이용해 또는 Excel이나 그 밖의 다른 데이터베이스 및 스프레드시트 프로그램과 호환가능한 상용화된 소프트웨어를 이용해 수행된다. 또한 시스템은 다른 데이터베이스와 링크되어 동적 특이치 바이어스 감소 시스템 및 방법 계산에서 사용될 데이터를 제공하기 위해 사설 또는 공중 외부 저장 매체(300)와 인터페이싱할 수 있다. 출력 장치는 계산 워크시트 및 그 밖의 다른 시스템 생성 그래프 및 리포트를 인트라넷 또는 인터넷을 통해 관리자나 그 밖의 다른 사람에게 전송하기 위한 원격통신 장치(510), 프린터(520), 입력 장치(450, 460, 470, 480, 490)로서 앞서 언급된 전자 저장 매체 및 사설 저장 데이터베이스(530)일 수 있다. 본원에서 사용되는 이들 출력 장치는 예시에 불과하다.
도 5, 6A, 6B, 7A, 7B, 8A, 및 8B에 도시되어 있는 바와 같이, 하나의 실시예에서, 동적 특이치 바이어스 감소는, 적절 범위 내에서 형성된 랜덤 데이터 값으로 구성된 벤치마크 데이터 세트의 오차 및 상관에 비교되는, 오차 및 데이터 세트의 데이터 값들의 상관을 기초로 하여 데이터 세트의 품질을 정량적 및 정성적으로 평가하기 위해 사용될 수 있다. 하나의 실시예에서, 오차가 데이터 세트의 표준 오차로 지정될 수 있고, 상관은 데이터 세트의 결정 계수(r2)로 지정될 수 있다. 하나의 실시예에서, 상관은 켄달 순위 상관 계수(Kendall rank correlation coefficient)(일반적으로 켄달의 타우(τ) 계수라고 일컬어짐)이도록 지정될 수 있다. 또 다른 실시예에서, 상관이 스피어맨 순위 상관 계수(Spearman's rank correlation coefficient), 즉, 스피어맨의 로(ρ) 계수로 지정될 수 있다. 앞서 설명한 바와 같이, 동적 특이치 바이어스 감소는 기술된 기저 모델 또는 프로세스를 나타내지 않는 특이치로 식별된 데이터 값을 체계적으로 제거하도록 사용된다. 일반적으로 특이치는 비교적 적은 개수의 데이터 값과 연관된다. 그러나 실시될 때, 데이터 세트는 의사 값(spurious value) 또는 랜덤 노이즈(random noise)에 의해 알지 못하게 오염될 수 있다. 도 5, 6A, 6B, 7A, 7B, 8A, 및 8B의 그래픽 표현이 기저 모델이 데이터에 의해 뒷받침되지 않는 상황을 식별하기 위해 동적 특이치 바이어스 감소 시스템 및 방법이 적용될 수 있는 방식을 도시한다. 예측된 모델과 실제 데이터 값 간에 계산된 상대 및/또는 절대 오차가 백분위수-기반 바이어스 기준, 가령, 80%보다 큰 경우 데이터 값을 제거함으로써 특이치 감소가 수행된다. 이는 상대 또는 절대 오차 백분위수 값이 80번째 백분위수와 연관된 백분위수 임계 값보다 큰 경우(데이터 값의 80%가 이 값 미만의 오차를 갖는 경우) 데이터 값이 제거됨을 의미한다.
도 5에 도시된 바와 같이, 사실 모델(realistic model) 개발 데이터 세트와 실제 데이터세ㅌ의 범위 내에서 개발된 랜덤 값의 데이터 세트가 비교된다. 실제로는 분석가가 임의의 데이터 세트 오염에 대한 사전 지식을 갖지 않기 때문에, 이러한 사실화(realization) 동적 특이치 바이어스 감소 시스템 및 방법을 이용해 몇 개의 모델 계산으로부터의 반복 결과를 관측하는 것으로부터 이뤄져야 한다. 도 5는 두 데이터 세트 모두에 대한 예시적 모델 개발 계산 결과를 도시한다. 표준 오차, 모델의 설명되지 않는 오차의 크기의 측정치가 결정 계수(%) 즉 r2에 대해 도표로 그려져서, 얼마나 많은 데이터 변차가 모델에 의해 설명되는지를 나타낸다. 각각의 점들 옆의 백분위수 값은 바이어스 기준을 나타낸다. 예를 들어, 90%는 90번째 백분위수보다 큰 절대 또는 상대 오차 값에 대한 데이터 값이 특이치로서 모델로부터 제거되는 것을 의미한다. 이는 각각의 반복에서 가장 높은 오차를 갖는 데이터 값의 10%를 제거하는 것에 대응한다.
도 5는 랜덤 데이터 세트 모델과 사실 데이터 세트 모델 모두에 대해, 바이어스 기준을 증가시킴으로써 오차가 감소됨, 즉, 두 데이터 세트 모두에 대해 표준 오차 및 결정 계수가 개선됨을 도시한다. 그러나 랜덤 데이터 세트에 대한 표준 오차는 사실 모델 데이터 세트보다 2 내지 3배 더 크다. 분석가는 80%의 결정 계수 요건을 예를 들어, 모델 파라미터를 결정하기 위해 수락 가능한 정확도 레벨로서 이용할 수 있다. 도 5에서, 랜덤 데이터 세트의 경우 70% 바이어스 기준에서, 그리고 사실 데이터의 경우 대략 85% 바이어스 기준에서 80%의 r2가 얻어진다. 그러나 랜덤 데이터 세트에 대한 대응하는 표준 오차가 사실 데이터 세트보다 2배 이상 크다. 따라서 서로 다른 바이어스 기준을 갖는 모델 데이터 세트 분석을 체계적으로 실행시키고 대표적인 의사 데이터 세트(spurious dataset)에 대한 계산을 반복하고 도 5에 도시된 것처럼 결과를 도표로 그림으로써, 분석가는 데이터 세트에 대한 수락 가능한 바이어스 기준(즉, 제거되는 데이터 값의 수락 가능한 퍼센트율), 그리고 따라서 전체 데이터 세트 품질을 평가할 수 있다. 덧붙여, 이러한 체계적 모델 데이터 세트 분석은 파라미터의 구성 가능한 세트를 기초로 모델을 개발할 때 사용되는 데이터 세트의 생존 가능성(viability)에 대한 조언을 자동으로 렌더링하도록 사용될 수 있다. 예를 들어, 데이터 세트에 대해 동적 특이치 바이어스 제거를 이용해 모델이 개발되는 하나의 실시예에서, 서로 다른 바이어스 기준 하에서 계산된 모델 데이터 세트 및 대표적인 의사 데이터 세트에 대한 오차 및 상관 계수 값이 사용되어 개발된 모델을 뒷받침하는 데 있어 데이터 세트의 생존 가능성, 및 내재적으로, 데이터 세트를 뒷받침하는 데 있어 개발된 모델의 생존 가능성(viability)에 대한 조언을 자동으로 렌더링할 수 있다.
도 5에서 도시된 바와 같이, 몇 가지 경우에 대해 이들 모델 수행의 거동을 관측하는 것은 데이터 값이 모델링되는 프로세싱을 대표하는지 여부를 결정하기 위한 정량적 토대를 제공한다. 예를 들어, 도 5를 참조하면, 사실 데이터 세트의 경우의 100% 바이어스 기준(즉, 바이어스 감소가 없음)에서의 표준 오차가, 랜덤 데이터 세트의 경우의 약 65% 바이어스 기준(즉, 데이터 값 중 가장 높은 오차를 갖는 35%가 제거됨)에서의 표준 오차에 대응한다. 이러한 발견은 데이터가 오염되지 않았다는 결론을 뒷받침한다.
도 5의 도시된 그래프에 의해 촉진된 앞서 기재된 정량적 분석에 추가로, 데이터 세트의 품질을 평가하는 데 도움이 되기 위한 주관적인 절차에서 동적 특이치 바이어스 감소가, 더 강력하진 않더라도, 동등하게 활용될 수 있다. 이는 특이치와 포함된 결과 모두에 대해 데이터의 실제 타깃 값에 대해 모델 예측 값을 도표로 그림으로써 이뤄진다.
도 6A 및 6B는 도 5의 사실 곡선과 랜덤 곡선 모두의 100% 점에 대한 이들 도표를 도시한다. 도 6A에서의 넓은 산포도가 임의의 타깃 값과, 이러한 의도적 랜덤성(randomness)에 들어 맞을 수 없는 모델의 최종 불능(inability)과 일치한다. 도 6B는 실제 데이터 수집과 모델 정확도 및 실제 값이 모델 예측 값이 실제 타깃 값과 동일한 선(이하, 실제 = 예측 선)을 부근에서 그룹지어 진다는 점에서 일치하고 공통적이다.
도 7A 및 7B는 도 5에서의 70% 점들로부터의 결과를 도시한다(즉, 데이터의 30%가 특이치로서 제거됨). 도 7A 및 7B에서, 특이치 바이어스 감소는 실제-예측 선으로부터 가장 멀리 떨어진 점을 제거하는 것으로 나타나지만, 도 7A와 7B 간의 모델 정확도의 큰 변차가 이 데이터 세트가 모델링된 프로세스를 대표함을 암시한다.
도 8A 및 8B는 도 5에서의 50% 점들로부터의 결과를 도시한다(즉, 데이터의 50%가 특이치로서 제거됨). 이 경우, 데이터의 약 절반이 특이치로서 식별되며, 도 8A에서 모델로부터 이러한 많은 변차가 제거되는 경우에도, 여전히 랜덤 데이터 세트를 엄밀하게 기술하지 않는다. 실제 = 예측 선 부근에서의 일반적인 변차가, 각각의 경우에서 제거된 데이터를 고려하면, 도 6A 및 7A에서의 것과 거의 동일하다. 도 8B는 변산도의 50%가 제거된 경우, 모델이 실제 데이터와 밀접하게 매칭되는 예측 결과를 생성할 수 있었음을 보여준다. 도 5에 도시된 수행 기준의 분석에 추가로 이들 유형의 시각적 도표를 분석하는 것이 분석가에 의해 사용되어 모델 개발을 위해 현장에서 실제 데이터 세트의 품질을 평가할 수 있다. 도 5, 6A, 6B, 7A, 7B, 8A, 및 8B가 시각적 도표를 도시하지만, 분석은 다양한 바이어스 기준 값에 대응하는 수행 기준 추세를 기초로 하며, 또 다른 실시예에서, 분석은 바이어스 기준 값에 대응하는 다른 변수, 가령, 분석가에 의해 선택된 다양한 바이어스 기준에 대응하는 모델 계수 추세를 기초로 할 수 있다.
본 발명의 바람직한 실시예의 상기의 개시 내용 및 기재는 예시에 불과하고 도시된 시스템 및 방법의 세부사항의 다양한 변화가 본 발명의 범위 내에서 이뤄질 수 있다.

Claims (60)

  1. 특이치 바이어스(outlier bias)를 감소시키기 위한 컴퓨터-구현 방법으로서, 상기 방법은,
    바이어스 기준을 선택하는 단계,
    데이터 세트를 제공하는 단계,
    모델 계수(model coefficient)의 세트를 제공하는 단계,
    타깃 값의 세트를 선택하는 단계,
    (1) 상기 데이터 세트에 대한 예측 값의 세트를 생성하는 단계,
    (2) 상기 데이터 세트에 대한 오차 세트(error set)를 생성하는 단계,
    (3) 상기 오차 세트 및 상기 바이어스 기준을 기초로 오차 임계값의 세트를 생성하는 단계,
    (4) 프로세서에 의해, 상기 오차 세트 및 오차 임계값의 세트를 기초로 중도절단된 데이터 세트(censored data set)를 생성하는 단계,
    (5) 상기 프로세서에 의해, 새 모델 계수의 세트를 생성하는 단계, 및
    (6) 상기 새 모델 계수의 세트를 이용해, 중도절단 성능 종료 기준(censoring performance termination criteria)이 만족되지 않는 한, 단계(1)-(5)를 반복하는 단계
    를 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  2. 제1항에 있어서, 상기 데이터 세트 및 모델 계수의 세트를 기초로 예측 값의 세트가 생성되는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  3. 제1항에 있어서, 상기 오차 세트는 예측 값의 세트 및 타깃 값의 세트를 기초로 생성되는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  4. 제3항에 있어서, 상기 오차 세트는 공식
    상대 오차m = ((예측 값m - 실제 값m)/실제 값m)2
    을 이용해 생성된 상대 오차의 세트이며, 여기서 'm'은 참조 번호인, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  5. 제3항에 있어서, 상기 오차 세트는 공식
    절대 오차m = (예측 값m - 실제 값m)2
    을 이용해 생성된 절대 오차이며, 여기서 'm'은 참조 번호인, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  6. 제3항에 있어서, 상기 오차 세트는 절대 오차의 세트 및 상대 오차의 세트인, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  7. 제3항에 있어서, 상기 오차 세트는 타깃 값의 세트와 예측 값의 세트의 차이인, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  8. 제1항에 있어서, 새 모델 계수의 세트는 중도절단된 데이터 세트 및 모델 계수의 세트를 기초로 생성되는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  9. 제1항에 있어서, 상기 중도절단된 데이터 세트를 생성하는 단계는
    오차 임계값의 세트 밖의 값을 갖는 데이터를 제거하는 단계를 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  10. 제1항에 있어서,
    모델 계수의 세트와 타깃 값의 세트를 기초로 성능 값(performance value)의 세트를 생성하는 단계,
    새 모델 계수의 세트와 타깃 값의 세트를 기초로 새 성능 값의 세트를 생성하는 단계를 더 포함하며,
    중도절단 수행 종료를 만족시키는 것은 성능 값의 세트 및 새 성능 값의 세트를 기초로 하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  11. 제10항에 있어서,
    성능 값의 세트는, 제 1 표준 오차 값 및 제 1 결정 계수 값 중 적어도 하나를 포함하고,
    새 성능 값의 세트는, 제 2 표준 오차 값 및 제 2 결정 계수 값 중 적어도 하나를 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  12. 제1항에 있어서, 상기 중도절단 성능 종료 기준은 표준 오차를 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  13. 제1항에 있어서, 상기 중도절단 성능 종료 기준은 결정 계수를 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  14. 제1항에 있어서, 새 계수의 세트를 생성하는 단계는
    예측 값의 세트와 실제 값의 세트 간의 오차의 세트를 최소화하는 단계를 더 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  15. 제14항에 있어서, 예측 값의 세트와 실제 값의 세트 간의 오차의 세트는 비선형 최적화 모델(nonlinear optimization model)을 이용해 최소화되는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  16. 제14항에 있어서, 선형 최적화 모델을 이용해 예측 값의 세트와 실제 값의 세트 간의 오차의 세트가 최소화되는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  17. 제1항에 있어서, 데이터 세트는 설비(facility)에 대한 성능 값을 포함하고, 상기 설비는, 산업 공장 설비, 발전 설비, 및 정유 설비 중 적어도 하나인, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  18. 제1항에 있어서,
    상기 데이터 세트를 기초로 랜덤 데이터 세트를 생성하는 단계,
    상기 중도절단 성능 종료 기준이 만족될 때까지 상기 랜덤 데이터에 대해 단계 (1)-(6)를 반복하는 단계,
    상기 바이어스 기준에 대응하는 데이터 세트 및 랜덤 데이터 세트에 대한 최종 성능 값의 세트를 생성하는 단계,
    제 2 바이어스 기준을 선택하는 단계,
    중도절단 성능 종료 기준이 만족될 때까지 제 2 바이어스 기준을 이용해 데이터 세트 및 랜덤 데이터 세트에 대해 단계(1)-(6)를 반복하는 단계,
    제 2 바이어스 기준을 기초로 하여 데이터 세트 및 랜덤 데이터 세트에 대해 최종 성능 값의 제 2 세트를 생성하는 단계, 및
    데이터 세트에 대한 최종 성능 값의 세트 및 최종 성능 값의 제 2 세트를 랜덤 데이터 세트에 대한 최종 성능 값의 세트 및 최종 성능 값의 제 2 세트에 비교하는 단계
    를 더 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  19. 제18항에 있어서, 상기 랜덤 데이터 세트는 데이터 세트 내 값들의 범위 내 값들로부터 개발된 랜덤화된 데이터 값을 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  20. 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법으로서, 상기 방법은
    설비(facility)에 대한 타깃 변수(target variable)를 선택하는 단계,
    상기 타깃 변수의 실제 값들의 세트를 선택하는 단계,
    상기 타깃 변수와 관련된 상기 설비에 대한 복수의 변수를 식별하는 단계,
    상기 설비에 대한 데이터 세트를 획득하는 단계 - 상기 데이터 세트는 복수의 변수에 대한 값을 포함함 - ,
    바이어스 기준을 선택하는 단계,
    모델 계수의 세트를 선택하는 단계,
    (1) 데이터 세트 및 모델 계수의 세트를 기초로 하여 예측 값의 세트를 생성하는 단계,
    (2) 예측 값의 세트 및 실제 값의 세트를 기초로 하여 중도절단 모델 성능 값의 세트를 생성하는 단계,
    (3) 타깃 변수에 대한 예측 값의 세트와 실제 값의 세트를 기초로 오차 세트를 생성하는 단계,
    (4) 상기 오차 세트 및 상기 바이어스 기준을 기초로 오차 임계값의 세트를 생성하는 단계,
    (5) 프로세서에 의해, 데이터 세트 및 오차 임계값의 세트를 기초로 하여 중도절단된 데이터 세트를 생성하는 단계,
    (6) 프로세서에 의해, 중도절단된 데이터 세트 및 모델 계수의 세트를 기초로 새 모델 계수의 세트를 생성하는 단계,
    (7) 프로세서에 의해, 상기 데이터 세트 및 새 모델 계수의 세트를 기초로 새 예측 값의 세트를 생성하는 단계,
    (8) 새 예측 값의 세트 및 실제 값의 세트를 기초로 새 중도절단 모델 성능 값의 세트를 생성하는 단계,
    새 계수의 세트를 이용해, 중도절단 성능 종료 기준이 만족되지 않는 한, 단계(1)-(8)을 반복하는 단계, 및
    새 모델 예측 값의 세트를 컴퓨터 데이터 매체에 저장하는 단계
    를 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  21. 제20항에 있어서, 바이어스 기준은 상대 오차, 및 절대 오차 중 적어도 하나를 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  22. 제20항에 있어서, 중도절단 모델 성능 값의 세트는, 제 1 표준 오차 및 제 1 결정 계수를 포함하며,
    새 중도절단 모델 성능 값의 세트는, 제 2 표준 오차 및 제 2 결정 계수를 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  23. 제20항에 있어서, 상기 오차 세트는 상대 오차 및 절대 오차 중 적어도 하나를 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  24. 제20항에 있어서, 상기 중도절단된 데이터 세트는 오차 임계값의 세트 밖의 오차 값을 갖는 데이터를 제거함으로써 생성되는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  25. 제20항에 있어서, 새 모델 계수의 세트는, 선형 최적화 모델과 비선형 최적화 모델 중 적어도 하나를 이용해 예측 값의 세트와 실제 값의 세트 간의 오차를 최소화함으로써 생성되는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  26. 제20항에 있어서,
    상기 중도절단 성능 종료 기준은
    표준 오차 종료 값 및 결정 계수 종료 값을 포함하고,
    중도절단 성능 종료 기준의 만족은,
    상기 표준 오차 종료 값이 제 1 표준 오차와 제 2 표준 오차 간의 차이보다 큰 것,
    상기 결정 계수 종료 값이 제 1 결정 계수와 제 2 결정 계수 간 차이보다 큰 것을 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
  27. 모델을 개발할 때 사용되는 데이터 세트의 생존 가능성(viability)을 평가하기 위한 컴퓨터-구현 방법으로서, 상기 방법은
    복수의 모델 예측 값을 포함하는 타깃 데이터 세트를 제공하는 단계,
    타깃 데이터 세트를 기초로 랜덤 타깃 데이터 세트를 생성하는 단계,
    바이어스 기준 값의 세트를 선택하는 단계,
    프로세서에 의해, 타깃 데이터 세트 및 선택된 바이어스 기준 값 각각을 기초로 특이치 바이어스(outlier bias)가 감소된 타깃 데이터 세트를 생성하는 단계,
    프로세서에 의해, 랜덤 타깃 데이터 세트 및 선택된 바이어스 기준 값 각각을 기초로 특이치 바이어스가 감소된 랜덤 타깃 데이터 세트를 생성하는 단계,
    상기 특이치 바이어스가 감소된 데이터 세트와 상기 특이치 바이어스가 감소된 랜덤 데이터 세트에 대한 오차 값의 세트를 계산하는 단계,
    상기 특이치 바이어스가 감소된 데이터 세트 및 상기 특이치 바이어스 감소된 랜덤 데이터 세트에 대한 상관 계수(correlation coefficient)의 세트를 계산하는 단계,
    프로세서에 의해, 각각의 선택된 바이어스 기준에 대한 대응하는 오차 값 및 상관 계수를 기초로 타깃 데이터 세트에 대한 바이어스 기준 곡선 및 랜덤 타깃 데이터 세트에 대한 바이어스 기준 곡선을 생성하는 단계, 및
    상기 타깃 데이터 세트에 대한 상기 바이어스 기준 곡선을 상기 랜덤 타깃 데이터 세트에 대한 바이어스 기준 곡선에 비교하는 단계
    를 포함하는, 데이터 세트의 생존 가능성을 평가하기 위한 컴퓨터-구현 방법.
  28. 제27항에 있어서,
    상기 랜덤 타깃 데이터 세트는 복수의 모델 예측 값의 범위 내의 값들로부터 개발된 랜덤화된 데이터 값으로 구성되며, 상기 방법은
    상기 타깃 데이터 세트에 대한 바이어스 기준 곡선을 랜덤 타깃 데이터 세트에 대한 바이어스 기준 값에 비교한 것을 기초로 자동 어드바이스(automated advice)를 생성하는 단계를 더 포함하는, 데이터 세트의 생존 가능성을 평가하기 위한 컴퓨터-구현 방법.
  29. 제27항에 있어서, 오차 값의 세트는 표준 오차의 세트를 포함하고, 상관 계수의 세트는 결정 계수 값의 세트를 포함하는, 데이터 세트의 생존 가능성을 평가하기 위한 컴퓨터-구현 방법.
  30. 제27항에 있어서,
    모델 예측 값에 대응하는 복수의 실제 데이터 값을 포함하는 실제 데이터 세트를 제공하는 단계,
    상기 실제 데이터 세트를 기초로 하여 랜덤 실제 데이터 세트를 생성하는 단계,
    프로세서에 의해, 실제 데이터 세트 및 선택된 바이어스 기준 값 각각을 기초로 특이치 바이어스가 감소된 실제 데이터 세트를 생성하는 단계,
    프로세서에 의해, 랜덤 실제 데이터 세트 및 선택된 바이어스 기준 값 각가을 기초로 특이치 바이어스가 감소된 랜덤 실제 데이터 세트를 생성하는 단계,
    각각의 선택된 바이어스 기준에 대해, 특이치 바이어스가 감소된 랜덤 타깃 데이터 세트 및 특이치 바이어스가 감소된 랜덤 실제 데이터를 기초로 랜덤 데이터 플롯(random data plot)을 생성하는 단계,
    각각의 선택된 바이어스 기준에 대해, 특이치 바이어스가 감소된 타깃 데이터 세트 및 특이치 바이어스가 감소된 실제 타깃 데이터 세트를 기초로 실제 데이터 플롯(realistic data plot)을 생성하는 단계, 및
    상기 랜덤 데이터 플롯을 선택된 바이어스 기준 각각에 대응하는 상기 실제 데이터 플롯에 비교하는 단계
    를 더 포함하는 데이터 세트의 생존 가능성을 평가하기 위한 컴퓨터-구현 방법.
  31. 시스템으로서, 상기 시스템은
    프로세서 및 저장 서브시스템을 포함하는 서버,
    데이터 세트를 포함하며 저장 서브시스템에 의해 저장되는 데이터베이스,
    저장 서브시스템에 의해 저장되는 컴퓨터 프로그램
    을 포함하며, 상기 컴퓨터 프로그램은, 실행될 때, 상기 프로세서로 하여금
    바이어스 기준을 선택하고,
    모델 계수의 세트를 제공하며,
    타깃 값의 세트를 선택하고,
    (1) 상기 데이터 세트에 대한 예측 값의 세트를 생성하며,
    (2) 상기 데이터 세트에 대한 오차 세트를 생성하고,
    (3) 오차 세트 및 바이어스 기준을 기초로 오차 임계값의 세트를 생성하고,
    (4) 상기 오차 세트 및 오차 임계값의 세트를 기초로 중도절단된 데이터 세트를 생성하며,
    (5) 새 모델 계수의 세트를 생성하고,
    (6) 새 모델 계수의 세트를 이용해, 중도절단 성능 종료 기준(censoring performance termination criteria)이 만족되지 않는 한, (1)-(5)를 반복하게 하는 명령을 포함하는, 시스템.
  32. 제31항에 있어서, 예측 값의 세트는 데이터 세트 및 모델 계수의 세트를 기초로 생성되는, 시스템.
  33. 제31항에 있어서, 상기 오차 세트는 예측 값의 세트 및 타깃 값의 세트를 기초로 생성되는, 시스템.
  34. 제33항에 있어서, 상기 오차 세트는 공식
    상대 오차m = ((예측 값m - 실제 값m)/실제 값m)2
    을 이용해 생성된 상대 오차의 세트이며, 여기서 'm'은 참조 번호인, 시스템.
  35. 제33항에 있어서, 상기 오차 세트는 공식
    절대 오차m = (예측 값m - 실제 값m)2
    을 이용해 생성된 절대 오차의 세트이며, 여기서 'm'은 참조 번호인, 시스템.
  36. 제33항에 있어서, 상기 오차 세트는 절대 오차의 세트 및 상대 오차의 세트인, 시스템.
  37. 제33항에 있어서, 상기 오차 세트는 타깃 값의 세트와 예측 값의 세트 간의 차이인, 시스템.
  38. 제31항에 있어서, 새 모델 계수의 세트는 중도절단된 데이터 세트 및 모델 계수의 세트를 기초로 생성되는, 시스템.
  39. 제31항에 있어서, 중도절단된 데이터 세트는 오차 임계값의 세트 밖의 값을 갖는 데이터를 제거함으로써 생성되는, 시스템.
  40. 제31항에 있어서, 상기 프로그램은, 실행될 때, 프로세서로 하여금,
    모델 계수의 세트 및 타깃 값의 세트를 기초로 성능 값의 세트를 생성하고,
    새 모델 계수의 세트 및 타깃 값의 세트를 기초로 새 성능 값의 세트를 생성하도록 하는 명령을 더 포함하며,
    중도절단 성능 종료를 만족시키는 것은 성능 값의 세트와 새 성능 값의 세트을 기초로 하는, 시스템.
  41. 제40항에 있어서, 성능 값의 세트는 제 1 표준 오차 값과 제 1 결정 계수 값 중 적어도 하나를 포함하고,
    새 성능 값의 세트는 제 2 표준 오차 값과 제 2 결정 계수 값 중 적어도 하나를 포함하는, 시스템.
  42. 제31항에 있어서, 상기 중도절단 성능 종료 기준(censoring performance termination criteria)은 표준 오차를 포함하는, 시스템.
  43. 제31항에 있어서, 상기 중도절단 성능 종료 기준은 결정 계수를 포함하는, 시스템.
  44. 제31항에 있어서, 새 모델 계수의 세트를 생성하는 것은 예측 값의 세트와 실제 값의 세트 간의 오차의 세트를 최소화하는 것을 포함하는, 시스템.
  45. 제44항에 있어서, 예측 값의 세트와 실제 값의 세트 간의 오차의 세트는 비선형 최적화 모델을 이용해 최소화되는, 시스템.
  46. 제44항에 있어서, 예측 값의 세트와 실제 값의 세트 간의 오차의 세트는 선형 최적화 모델을 이용해 최소화되는, 시스템.
  47. 제31항에 있어서, 데이터 세트는 설비(facility)에 대한 성능 값을 포함하고, 상기 설비는, 산업 공장 설비, 발전 설비, 및 정유 설비 중 적어도 하나인, 시스템.
  48. 제31항에 있어서, 상기 프로그램은, 실행될 때 프로세서로 하여금
    데이터 세트를 기초로 랜덤 데이터 세트를 생성하고,
    중도절단 성능 종료 기준이 만족될 때까지 상기 랜덤 데이터 세트에 대해 (1)-(6)를 반복하며,
    데이터 세트와 대응하는 바이어스 기준에 대응하는 랜덤 데이터 세트에 대해 최종 성능 값의 세트를 생성하고,
    제 2 바이어스 기준을 선택하며,
    중도절단 성능 종료 기준이 만족될 때까지 제 2 바이어스 기준을 이용해 데이터 세트 및 랜덤 데이터 세트에 대해 (1)-(6)를 반복하고,
    데이터 세트 및 랜덤 데이터 세트에 대해 상기 제 2 바이어스 기준을 기초로 최종 성능 값의 제 2 세트를 생성하고,
    데이터 세트에 대한 최종 성능 값의 세트와 최종 성능 값의 제 2 세트를 랜덤 데이터 세트에 대한 최종 성능 값의 세트와 최종 성능 값의 제 2 세트에 비교하게 하는 명령을 더 포함하는, 시스템.
  49. 제48항에 있어서, 상기 랜덤 데이터 세트는 데이터 세트 내 값들의 범위 내 값에서부터 개발된 랜덤화된 데이터 값으로 구성된, 시스템.
  50. 시스템으로서, 상기 시스템은
    프로세서와 저장 서브시스템을 포함하는 서버,
    저장 서브시스템에 의해 저장되는 데이터베이스 - 상기 데이터베이스는
    설비(facility)에 대한 타깃 변수,
    타깃 변수의 실제 값의 세트,
    상기 타깃 변수와 관련된 설비에 대한 복수의 변수,
    복수의 변수에 대한 값들을 포함하는 상기 설비에 대한 데이터 세트를 포함함 - ,
    상기 저장 서브시스템에 의해 저장되는 컴퓨터 프로그램
    을 포함하며, 상기 컴퓨터 프로그램은, 실행될 때 프로세서로 하여금,
    바이어스 기준을 선택하고,
    모델 계수의 세트를 선택하며,
    (1) 데이터 세트 및 모델 계수의 세트를 기초로 예측 값의 세트를 생성하고,
    (2) 예측 값의 세트 및 실제 값의 세트를 기초로 중도절단 모델 성능 값의 세트를 생성하며,
    (3) 예측 값의 세트 및 타깃 변수에 대한 실제 값의 세트를 기초로 오차 세트를 생성하고,
    (4) 오차 세트 및 바이어스 기준을 기초로 오차 임계치의 세트를 생성하고,
    (5) 데이터 세트 및 오차 임계치의 세트를 기초로 중도절단된 데이터 세트를 생성하며,
    (6) 중도절단된 데이터 세트 및 모델 계수의 세트를 기초로 새 모델 계수의 세트를 생성하고,
    (7) 데이터 세트 및 새 모델 계수의 세트를 기초로 새 예측 값의 세트를 생성하며,
    (8) 새 예측 값의 세트 및 실제 값의 세트를 기초로 새 중도절단 모델 성능 값의 세트를 생성하고,
    새 계수의 세트를 이용해, 중도절단 성능 종료 기준(censoring performance termination criteria)이 만족되지 않는 한, (1)-(8)를 반복하고,
    새 모델 예측 값의 세트를 저장 서브시스템에 저장하게 하는 명령을 포함하는, 시스템.
  51. 제50항에 있어서, 상기 바이어스 기준은, 상대 오차 및 절대 오차 중 적어도 하나를 포함하는, 시스템.
  52. 제50항에 있어서, 중도절단 모델 성능 값의 세트는 제 1 표준 오차 및 제 1 결정 계수를 포함하고, 새 중도절단 모델 성능 값의 세트는 제 2 표준 오차 및 제 2 결정 계수를 포함하는, 시스템.
  53. 제50항에 있어서, 상기 오차 세트는 상대 오차 및 절대 오차 중 적어도 하나를 포함하는, 시스템.
  54. 제50항에 있어서, 오차 임계값의 세트 밖의 오차 값을 갖는 데이터를 제거함으로써, 중도절단된 데이터 세트가 생성되는, 시스템.
  55. 제50항에 있어서, 중도절단 계수(censored factor)의 생성은, 예측 값의 세트와 실제 값의 세트 간의 오차의 세트를 최소화하는 것을 포함하는, 시스템.
  56. 제50항에 있어서, 상기 중도절단 성능 종료 기준은,
    표준 오차 결정 값, 및
    결정 계수 종료 값을 포함하고,
    중도절단 성능 종료 기준의 만족은,
    표준 오차 결정 값이 제 1 표준 오차와 제 2 표준 오차 간의 차이보다 큰 것, 및
    결정 계수 결정 값이 제 1 결정 계수와 제 2 결정 계수 간의 차이보다 큰 것을 포함하는, 시스템.
  57. 모델을 개발할 때 사용되는 데이터 세트의 생존 가능성(viability)을 평가하기 위한 시스템으로서, 상기 시스템은,
    프로세서 및 저장 서브시스템을 포함하는 서버,
    복수의 모델 예측 값을 포함하는 타깃 데이터 세트를 포함하는 상기 저장 서브시스템에 의해 저장되는 데이터베이스,
    저장 서브시스템에 의해 저장되는 컴퓨터 프로그램
    을 포함하며, 상기 컴퓨터 프로그램은, 실행될 때 상기 프로세서로 하여금,
    랜덤 타깃 데이터 세트를 생성하고,
    바이어스 기준 값의 세트를 선택하며,
    타깃 데이터 세트 및 선택된 바이어스 기준 값 각각을 기초로 특이치 바이어스가 감소된 데이터 세트를 생성하고,
    랜덤 타깃 데이터 세트 및 선택된 바이어스 기준 값 각각을 기초로 특이치 바이어스가 감소된 랜덤 타깃 데이터 세트를 생성하며,
    상기 특이치 바이어스가 감소된 타깃 데이터 세트 및 특이치 바이어스가 감소된 랜덤 타깃 데이터 세트에 대한 오차 값의 세트를 계산하고,
    특이치 바이어스가 감소된 타깃 데이터 세트와 특이치 바이어스가 감소된 랜덤 타깃 데이터 세트에 대한 상관 계수의 세트를 계산하며,
    각각의 선택된 바이어스 기준에 대한 대응하는 오차 값과 상관 계수를 기초로 타깃 데이터 세트 및 랜덤 타깃 데이터 세트에 대한 바이어스 기준 곡선을 생성하고,
    타깃 데이터 세트에 대한 바이어스 기준 곡선을 랜덤 타깃 데이터 세트에 대한 바이어스 기준 곡선에 비교하게 하는 명령을 포함하는, 데이터 세트의 생존 가능성을 평가하기 위한 시스템.
  58. 제57항에 있어서, 상기 랜덤 데이터 세트는 복수의 데이터 값의 범위 내의 값으로부터 개발된 랜덤화된 데이터 값을 포함하고, 상기 프로그램은, 실행될 때 상기 프로세서로 하여금,
    상기 타깃 데이터 세트에 대한 바이어스 기준 곡선을 랜덤 타깃 데이터 세트에 대한 바이어스 기준 값에 비교한 것을 기초로 자동 어드바이스(automated advice)를 생성하게 하는 명령을 더 포함하는, 데이터 세트의 생존 가능성을 평가하기 위한 시스템.
  59. 제57항에 있어서, 오차 값의 세트는 표준 오차의 세트를 포함하며, 상관 계수의 세트는 결정 계수 값의 세트를 포함하는, 데이터 세트의 생존 가능성을 평가하기 위한 시스템.
  60. 제57항에 있어서, 상기 데이터베이스는 모델 예측 값에 대응하는 복수의 실제 데이터 값을 포함하는 실제 데이터 세트를 더 포함하며, 상기 프로그램은, 실행될 때 상기 프로세서로 하여금,
    상기 실제 데이터 세트를 기초로 랜덤 실제 데이터 세트를 생성하고,
    실제 데이터 세트 및 선택된 바이어스 기준 값 각각을 기초로 특이치 바이어스가 감소된 실제 데이터 세트를 생성하며,
    랜덤 실제 데이터 세트 및 선택된 바이어스 기준 값 각각을 기초로 특이치 바이어스가 감소된 랜덤 실제 데이터 세트를 생성하고,
    각각의 선택된 바이어스 기준에 대해, 특이치 바이어스가 감소된 랜덤 타깃 데이터 세트 및 상기 특이치 바이어스가 감소된 랜덤 실제 데이터를 기초로 랜덤 데이터 플롯을 생성하며,
    각각의 선택된 바이어스 기준에 대해, 상기 특이치 바이어스가 감소된 타깃 데이터 세트 및 상기 특이치 바이어스가 감소된 실제 타깃 데이터 세트를 기초로 실제 데이터 플롯(realistic data plot)을 생성하고,
    선택된 바이어스 기준 각각에 대응하는 실제 데이터 플롯에 랜덤 데이터 플롯을 비교하게 하는 명령을 더 포함하는, 데이터 세트의 생존 가능성을 평가하기 위한 시스템.
KR1020147007293A 2011-08-19 2012-08-17 동적 특이치 바이어스 감소 시스템 및 방법 KR102024953B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/213,780 2011-08-19
US13/213,780 US9069725B2 (en) 2011-08-19 2011-08-19 Dynamic outlier bias reduction system and method
PCT/US2012/051390 WO2013028532A1 (en) 2011-08-19 2012-08-17 Dynamic outlier bias reduction system and method

Publications (2)

Publication Number Publication Date
KR20140092805A true KR20140092805A (ko) 2014-07-24
KR102024953B1 KR102024953B1 (ko) 2019-11-04

Family

ID=46981069

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147007293A KR102024953B1 (ko) 2011-08-19 2012-08-17 동적 특이치 바이어스 감소 시스템 및 방법

Country Status (7)

Country Link
US (6) US9069725B2 (ko)
EP (2) EP2745213A1 (ko)
JP (1) JP5982489B2 (ko)
KR (1) KR102024953B1 (ko)
CN (3) CN104254848B (ko)
CA (2) CA3197787A1 (ko)
WO (1) WO2013028532A1 (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10409891B2 (en) 2014-04-11 2019-09-10 Hartford Steam Boiler Inspection And Insurance Company Future reliability prediction based on system operational and performance data modelling
US10557840B2 (en) 2011-08-19 2020-02-11 Hartford Steam Boiler Inspection And Insurance Company System and method for performing industrial processes across facilities
WO2021040396A1 (ko) * 2019-08-29 2021-03-04 주식회사 엘지화학 온도 추정 모델 결정 방법 및 장치, 온도 추정 모델이 적용된 배터리 관리 시스템
US11288602B2 (en) 2019-09-18 2022-03-29 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11328177B2 (en) 2019-09-18 2022-05-10 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11334645B2 (en) 2011-08-19 2022-05-17 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US11615348B2 (en) 2019-09-18 2023-03-28 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11636292B2 (en) 2018-09-28 2023-04-25 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785890B2 (en) * 2012-08-10 2017-10-10 Fair Isaac Corporation Data-driven product grouping
US9606055B2 (en) * 2013-01-09 2017-03-28 Ppg Industries Ohio, Inc. Systems and methods for statistical measurement control of spectrophotometric data
US11321775B2 (en) * 2013-06-27 2022-05-03 Euroclear Sa/Nv Asset inventory system
EP2854045B1 (de) 2013-09-27 2016-04-06 Deutsche Telekom AG Verfahren und System zum Bewerten von erhobenen Messwerten eines Systems
US10162345B2 (en) 2015-04-21 2018-12-25 International Business Machines Corporation Enhanced emergency reporting system
CN104897537B (zh) * 2015-06-11 2017-08-08 杭州电子科技大学 基于无人机的pm2.5浓度采集装置和数据过滤方法
EP3107000A3 (en) * 2015-06-17 2016-12-28 Tata Consultancy Services Limited System and method for detecting outliers in real-time for a univariate time-series signal
US10884999B2 (en) * 2015-10-28 2021-01-05 Qomplx, Inc. Distributable model with biases contained within distributed data
US10860951B2 (en) 2015-10-28 2020-12-08 Qomplx, Inc. System and method for removing biases within a distributable model
US10628456B2 (en) 2015-10-30 2020-04-21 Hartford Fire Insurance Company Universal analytical data mart and data structure for same
US11244401B2 (en) 2015-10-30 2022-02-08 Hartford Fire Insurance Company Outlier system for grouping of characteristics
US10942929B2 (en) 2015-10-30 2021-03-09 Hartford Fire Insurance Company Universal repository for holding repeatedly accessible information
US10102241B2 (en) 2016-05-20 2018-10-16 Microsoft Technology Licensing, Llc Detecting errors in spreadsheets
CN108510068A (zh) * 2017-02-27 2018-09-07 顾泽苍 一种超深度回归分析学习方法
CN108510070A (zh) * 2017-02-27 2018-09-07 顾泽苍 一种穿越不同空间的模糊事件概率测度值的获得方法
US10706028B2 (en) * 2017-04-25 2020-07-07 Citrix Systems, Inc. Detecting outliers in server transaction time as a form of time series data
CN107943582B (zh) * 2017-11-14 2020-08-04 Oppo广东移动通信有限公司 特征处理方法、装置、存储介质及电子设备
CN109995573B (zh) * 2018-01-02 2022-04-01 中国移动通信有限公司研究院 确定用于预测计算资源的样本空间的方法、计算资源分配方法及装置
US11860971B2 (en) * 2018-05-24 2024-01-02 International Business Machines Corporation Anomaly detection
US10831592B1 (en) * 2018-09-27 2020-11-10 Juniper Networks, Inc Apparatus, system, and method for correcting slow field-replaceable units in network devices
US11507859B2 (en) 2019-01-08 2022-11-22 Colorado State University Research Foundation Trackable reasoning and analysis for crowdsourcing and evaluation
CN110458416B (zh) * 2019-07-17 2023-06-27 创新先进技术有限公司 风控方法及风控装置
CN111125909B (zh) * 2019-12-24 2023-03-31 奇瑞汽车股份有限公司 一种一维汽车热管理模型的自动化标定方法
US20220067122A1 (en) * 2020-08-26 2022-03-03 Coupang Corp. System and method for capping outliers during an experiment test
US12051110B2 (en) * 2020-09-09 2024-07-30 Chicago Mercantile Exchange Inc. Linear model partitioner
CN114781085B (zh) * 2022-04-20 2023-07-04 江苏大学镇江流体工程装备技术研究院 一种实时动态迭代优化的叶轮设计方法
CN117330987B (zh) * 2023-12-01 2024-02-20 国网山西省电力公司营销服务中心 基于时间的电池健康状态评估的方法、系统、介质和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100153328A1 (en) * 2008-12-12 2010-06-17 Graham Cormode Methods and apparatus to construct histogram and wavelet synopses for probabilistic data
US8346691B1 (en) * 2007-02-20 2013-01-01 Sas Institute Inc. Computer-implemented semi-supervised learning systems and methods

Family Cites Families (144)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0227976Y2 (ko) 1986-03-19 1990-07-27
US5339392A (en) 1989-07-27 1994-08-16 Risberg Jeffrey S Apparatus and method for creation of a user definable video displayed document showing changes in real time data
ES2202433T3 (es) 1995-10-12 2004-04-01 Yazaki Corporation Dispositivo para calcular una mala distribucion de la carga en un vehiculo y dispositivo para calcular la carga del vehiculo.
US7010336B2 (en) 1997-08-14 2006-03-07 Sensys Medical, Inc. Measurement site dependent data preprocessing method for robust calibration and prediction
US6085216A (en) 1997-12-31 2000-07-04 Xerox Corporation Method and system for efficiently allocating resources for solving computationally hard problems
JP2001318745A (ja) 2000-05-11 2001-11-16 Sony Corp データ処理装置およびデータ処理方法、並びに記録媒体
US6847976B1 (en) * 2000-06-15 2005-01-25 Terrence B. Peace Method and apparatus for significance testing and confidence interval construction based on user-specified distribution
US20040172401A1 (en) * 2000-06-15 2004-09-02 Peace Terrence B. Significance testing and confidence interval construction based on user-specified distributions
US6832205B1 (en) 2000-06-30 2004-12-14 General Electric Company System and method for automatically predicting the timing and costs of service events in a life cycle of a product
US7124059B2 (en) 2000-10-17 2006-10-17 Accenture Global Services Gmbh Managing maintenance for an item of equipment
US6988092B1 (en) 2000-12-28 2006-01-17 Abb Research Ltd. Method for evaluation of energy utilities
US7043461B2 (en) 2001-01-19 2006-05-09 Genalytics, Inc. Process and system for developing a predictive model
US7039654B1 (en) 2002-09-12 2006-05-02 Asset Trust, Inc. Automated bot development system
US20030171879A1 (en) 2002-03-08 2003-09-11 Pittalwala Shabbir H. System and method to accomplish pipeline reliability
US7313550B2 (en) 2002-03-27 2007-12-25 Council Of Scientific & Industrial Research Performance of artificial neural network models in the presence of instrumental noise and measurement errors
US20070219741A1 (en) * 2005-05-20 2007-09-20 Emilio Miguelanez Methods and apparatus for hybrid outlier detection
JP4042492B2 (ja) 2002-08-07 2008-02-06 トヨタ自動車株式会社 エンジン制御パラメータの適合方法及び適合システム
US20040122625A1 (en) 2002-08-07 2004-06-24 Nasser Loren A. Apparatus and method for predicting total ownership cost
JP4109527B2 (ja) * 2002-10-01 2008-07-02 新日本製鐵株式会社 制御モデルの学習方法、制御モデルの学習装置、コンピュータプログラム、及びコンピュータ読み取り可能な記憶媒体
JP2004145496A (ja) 2002-10-23 2004-05-20 Hitachi Ltd 機器設備の保守支援方法
JP2004191359A (ja) 2002-10-24 2004-07-08 Mitsubishi Heavy Ind Ltd リスクマネージメント装置
JP3968039B2 (ja) 2003-03-06 2007-08-29 東京電力株式会社 保守計画立案支援方法及び装置
US7634384B2 (en) 2003-03-18 2009-12-15 Fisher-Rosemount Systems, Inc. Asset optimization reporting in a process plant
WO2004111201A2 (en) 2003-06-11 2004-12-23 Research Foundation Of State University Of New York Data classification using point-wise tests
DE10331207A1 (de) 2003-07-10 2005-01-27 Daimlerchrysler Ag Verfahren und Vorrichtung zur Vorhersage einer Ausfall-Häufigkeit
CN1209724C (zh) * 2003-08-04 2005-07-06 西安交通大学 基于概率模型的设备状态动态自适应报警方法
WO2005015476A2 (en) 2003-08-07 2005-02-17 Hsb Solomon Associates, Llc System and method for determining equivalency factors for use in comparative performance analysis of industrial facilities
US20050125322A1 (en) 2003-11-21 2005-06-09 General Electric Company System, method and computer product to detect behavioral patterns related to the financial health of a business entity
US20050131794A1 (en) 2003-12-15 2005-06-16 Lifson Kalman A. Stock portfolio and method
EP1548623A1 (en) 2003-12-23 2005-06-29 Sap Ag Outlier correction
SG149899A1 (en) 2004-02-06 2009-02-27 Test Advantage Inc Methods and apparatus for data analysis
EP1718962B1 (en) 2004-02-13 2016-04-13 Waters Technologies Corporation System and method for tracking and quantitating chemical entities
US7469228B2 (en) 2004-02-20 2008-12-23 General Electric Company Systems and methods for efficient frontier supplementation in multi-objective portfolio analysis
CA2501003C (en) 2004-04-23 2009-05-19 F. Hoffmann-La Roche Ag Sample analysis to provide characterization data
AU2005253651A1 (en) 2004-06-21 2005-12-29 Intersection Medical, Inc. Cardiac monitoring system
DE102004032822A1 (de) 2004-07-06 2006-03-23 Micro-Epsilon Messtechnik Gmbh & Co Kg Verfahren zur Verarbeitung von Messwerten
US20060069667A1 (en) 2004-09-30 2006-03-30 Microsoft Corporation Content evaluation
US20060247798A1 (en) 2005-04-28 2006-11-02 Subbu Rajesh V Method and system for performing multi-objective predictive modeling, monitoring, and update for an asset
US7536364B2 (en) 2005-04-28 2009-05-19 General Electric Company Method and system for performing model-based multi-objective asset optimization and decision-making
US8195484B2 (en) 2005-06-15 2012-06-05 Hartford Steam Boiler Inspection And Insurance Company Insurance product, rating system and method
US7966150B2 (en) 2005-11-17 2011-06-21 Florida Power & Light Company Data analysis applications
US8290753B2 (en) 2006-01-24 2012-10-16 Vextec Corporation Materials-based failure analysis in design of electronic devices, and prediction of operating life
EP2013844A4 (en) 2006-04-07 2010-07-07 Hsb Solomon Associates Llc EMISSIONS TRADING PRODUCT AND METHOD
US7447611B2 (en) 2006-05-09 2008-11-04 Hsb Solomon Associates, Llc Power generation performance analysis system and method
US20100262442A1 (en) 2006-07-20 2010-10-14 Standard Aero, Inc. System and method of projecting aircraft maintenance costs
CN101616629A (zh) 2006-08-31 2009-12-30 非线性医药有限公司 用于预测心律失常死亡的自动降噪系统
WO2008033439A2 (en) 2006-09-13 2008-03-20 Aurilab, Llc Robust pattern recognition system and method using socratic agents
US20080104624A1 (en) 2006-11-01 2008-05-01 Motorola, Inc. Method and system for selection and scheduling of content outliers
JP4702851B2 (ja) * 2006-12-07 2011-06-15 Kddi株式会社 トラヒック量変動の上限値を予測するトラヒック量予測装置、プログラム及び方法
KR100877061B1 (ko) 2006-12-14 2009-01-08 엘에스산전 주식회사 다변수 예측제어 시스템 및 방법
JP5116307B2 (ja) 2007-01-04 2013-01-09 ルネサスエレクトロニクス株式会社 集積回路装置異常検出装置、方法およびプログラム
JP2008191900A (ja) 2007-02-05 2008-08-21 Toshiba Corp プラントの信頼性重視保全運用支援システム及び運用支援方法
WO2008126209A1 (ja) 2007-03-27 2008-10-23 Fujitsu Limited 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム
US20080300888A1 (en) 2007-05-30 2008-12-04 General Electric Company Systems and Methods for Providing Risk Methodologies for Performing Supplier Design for Reliability
JP2009098093A (ja) 2007-10-19 2009-05-07 Gyoseiin Genshino Iinkai Kakuno Kenkyusho 設備の有効メンテナンスモニタ装置
US8040246B2 (en) 2007-12-04 2011-10-18 Avaya Inc. Systems and methods for facilitating a first response mission at an incident scene
JP5003566B2 (ja) 2008-04-01 2012-08-15 三菱電機株式会社 ネットワーク性能予測システム、ネットワーク性能予測方法およびプログラム
JP4991627B2 (ja) 2008-05-16 2012-08-01 株式会社日立製作所 計画執行管理装置およびそのプログラム
US8352148B2 (en) 2008-05-21 2013-01-08 General Electric Company System for controlling input profiles of combined cycle power generation system
US20160239749A1 (en) 2008-10-28 2016-08-18 Sas Institute Inc. Use of object group models and hierarchies for output predictions
US8509990B2 (en) 2008-12-15 2013-08-13 Panasonic Avionics Corporation System and method for performing real-time data analysis
US9111212B2 (en) 2011-08-19 2015-08-18 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
JP2010250674A (ja) 2009-04-17 2010-11-04 Nec Corp 作業時間予測装置、方法、およびプログラム
US10739741B2 (en) 2009-06-22 2020-08-11 Johnson Controls Technology Company Systems and methods for detecting changes in energy usage in a building
JP2011048688A (ja) 2009-08-27 2011-03-10 Hitachi Ltd プラントライフサイクル評価装置及び方法
GB2486965B (en) 2009-10-21 2016-08-03 Ibm Method and system for improving software execution time by optimizing a performance model
KR101010717B1 (ko) 2009-11-10 2011-01-24 한국동서발전(주) 상태기반 발전소 운전 및 정비 관리 시스템
US8311772B2 (en) 2009-12-21 2012-11-13 Teradata Us, Inc. Outlier processing
CN102117731B (zh) * 2009-12-31 2013-01-02 中芯国际集成电路制造(上海)有限公司 半导体工艺生产流程中的测量数据的监测方法和装置
RU2523191C2 (ru) 2009-12-31 2014-07-20 Абб Рисерч Лтд Способ и система управления для планирования нагрузки электростанции
JP5581965B2 (ja) * 2010-01-19 2014-09-03 オムロン株式会社 Mppt制御器、太陽電池制御装置、太陽光発電システム、mppt制御プログラム、およびmppt制御器の制御方法
US20110246409A1 (en) * 2010-04-05 2011-10-06 Indian Statistical Institute Data set dimensionality reduction processes and machines
CN102081765A (zh) 2011-01-19 2011-06-01 西安交通大学 输电设备状态检修的系统性控制方法
JP5592813B2 (ja) 2011-01-28 2014-09-17 株式会社日立ソリューションズ東日本 生涯需要予測方法、プログラムおよび生涯需要予測装置
US9069725B2 (en) 2011-08-19 2015-06-30 Hartford Steam Boiler Inspection & Insurance Company Dynamic outlier bias reduction system and method
US10557840B2 (en) 2011-08-19 2020-02-11 Hartford Steam Boiler Inspection And Insurance Company System and method for performing industrial processes across facilities
WO2013082724A1 (en) 2011-12-08 2013-06-13 Copperleaf Technologies Inc. Capital asset investment planning apparatus, systems and methods
US9158303B2 (en) 2012-03-27 2015-10-13 General Electric Company Systems and methods for improved reliability operations
US8812331B2 (en) 2012-04-27 2014-08-19 Richard B. Jones Insurance product, rating and credit enhancement system and method for insuring project savings
KR101329395B1 (ko) 2012-06-04 2013-11-14 한국남동발전 주식회사 발전설비 관리 시스템 및 그 제어방법
DE102013009033A1 (de) 2012-07-18 2014-01-23 Tesona Gmbh & Co. Kg Hochtemperaturmesssensoranordnung
US8686364B1 (en) 2012-09-17 2014-04-01 Jp3 Measurement, Llc Method and system for determining energy content and detecting contaminants in a fluid stream
CN103077428B (zh) 2012-12-25 2016-04-06 上海发电设备成套设计研究院 一种厂级多台发电机组可靠性在线预测方法
EP3514700A1 (en) 2013-02-20 2019-07-24 Hartford Steam Boiler Inspection and Insurance Company Dynamic outlier bias reduction system and method
US9536364B2 (en) 2013-02-25 2017-01-03 GM Global Technology Operations LLC Vehicle integration of BLE nodes to enable passive entry and passive start features
US9646262B2 (en) 2013-06-17 2017-05-09 Purepredictive, Inc. Data intelligence using machine learning
CN104254880B (zh) 2013-11-26 2016-03-30 株式会社日本功勒克斯 纸张类处理装置
US10409891B2 (en) 2014-04-11 2019-09-10 Hartford Steam Boiler Inspection And Insurance Company Future reliability prediction based on system operational and performance data modelling
US9568519B2 (en) 2014-05-15 2017-02-14 International Business Machines Corporation Building energy consumption forecasting procedure using ambient temperature, enthalpy, bias corrected weather forecast and outlier corrected sensor data
JP6444494B2 (ja) 2014-05-23 2018-12-26 データロボット, インコーポレイテッド 予測データ分析のためのシステムおよび技術
US10452992B2 (en) 2014-06-30 2019-10-22 Amazon Technologies, Inc. Interactive interfaces for machine learning model evaluations
CN105436180B (zh) 2015-12-15 2017-12-15 洛阳兰迪玻璃机器股份有限公司 一种真空玻璃等离子体清洗方法和设备
US9996933B2 (en) 2015-12-22 2018-06-12 Qualcomm Incorporated Methods and apparatus for outlier detection and correction of structured light depth maps
US9760690B1 (en) 2016-03-10 2017-09-12 Siemens Healthcare Gmbh Content-based medical image rendering based on machine learning
JP6457421B2 (ja) 2016-04-04 2019-01-23 ファナック株式会社 シミュレーション結果を利用して学習を行う機械学習装置,機械システム,製造システムおよび機械学習方法
US10198339B2 (en) 2016-05-16 2019-02-05 Oracle International Corporation Correlation-based analytic for time-series data
US20190213446A1 (en) 2016-06-30 2019-07-11 Intel Corporation Device-based anomaly detection using random forest models
WO2018004661A1 (en) 2016-07-01 2018-01-04 Intel Corporation Monitoring electrical substation networks
US11429859B2 (en) 2016-08-15 2022-08-30 Cangrade, Inc. Systems and processes for bias removal in a predictive performance model
US20190287039A1 (en) 2016-10-20 2019-09-19 Consolidated Research, Inc. System and method for dynamically evaluating service provider performance
US11315045B2 (en) 2016-12-29 2022-04-26 Intel Corporation Entropy-based weighting in random forest models
US20180307741A1 (en) 2017-04-25 2018-10-25 Intel Corporation Filtering training data for simpler rbf models
CN107391569B (zh) 2017-06-16 2020-09-15 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备
US10638979B2 (en) 2017-07-10 2020-05-05 Glysens Incorporated Analyte sensor data evaluation and error reduction apparatus and methods
US10474667B2 (en) 2017-07-29 2019-11-12 Vmware, Inc Methods and systems to detect and correct outliers in a dataset stored in a data-storage device
WO2019033055A1 (en) 2017-08-10 2019-02-14 Clearag, Inc. DEVELOPING COMPLEX AGRICULTURAL SIMULATIONS MODELS FROM LIMITED DATA SETS
JP6837949B2 (ja) 2017-09-08 2021-03-03 株式会社日立製作所 予測システム及び方法
CA3075861A1 (en) 2017-09-15 2019-03-21 Tandemlaunch Inc. System and method for classifying passive human-device interactions through ongoing device context awareness
US11023826B2 (en) 2017-09-29 2021-06-01 Oracle International Corporation System and method for data visualization using machine learning and automatic insight of facts associated with a set of data
US20190108561A1 (en) 2017-10-05 2019-04-11 Mindtree Ltd. Purchase Intent Determination And Real Time In-store Shopper Assistance
EP3483797A1 (en) 2017-11-13 2019-05-15 Accenture Global Solutions Limited Training, validating, and monitoring artificial intelligence and machine learning models
US11423336B2 (en) 2018-03-29 2022-08-23 Nec Corporation Method and system for model integration in ensemble learning
US10521654B2 (en) 2018-03-29 2019-12-31 Fmr Llc Recognition of handwritten characters in digital images using context-based machine learning
US20190313963A1 (en) 2018-04-17 2019-10-17 VideaHealth, Inc. Dental Image Feature Detection
CN109299156A (zh) 2018-08-21 2019-02-01 平安科技(深圳)有限公司 电子装置、基于XGBoost的电力数据异常预测方法及存储介质
US12001949B2 (en) 2018-09-05 2024-06-04 Sartorius Stedim Data Analytics Ab Computer-implemented method, computer program product and system for data analysis
US11636292B2 (en) 2018-09-28 2023-04-25 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US20200160229A1 (en) 2018-11-15 2020-05-21 Adobe Inc. Creating User Experiences with Behavioral Information and Machine Learning
US11461702B2 (en) 2018-12-04 2022-10-04 Bank Of America Corporation Method and system for fairness in artificial intelligence based decision making engines
US11204847B2 (en) 2018-12-21 2021-12-21 Microsoft Technology Licensing, Llc Machine learning model monitoring
US11797550B2 (en) 2019-01-30 2023-10-24 Uptake Technologies, Inc. Data science platform
CN113614756A (zh) 2019-03-26 2021-11-05 Hrl实验室有限责任公司 用于具有可编程人机混合集成学习的预报警报的系统和方法
US11593650B2 (en) 2019-03-27 2023-02-28 GE Precision Healthcare LLC Determining confident data samples for machine learning models on unseen data
WO2020219685A1 (en) 2019-04-23 2020-10-29 Sciencelogic, Inc. Distributed learning anomaly detector
US20200364583A1 (en) 2019-05-14 2020-11-19 Robert D. Pedersen Iot sensor network artificial intelligence warning, control and monitoring systems and methods
US11354602B2 (en) 2019-06-04 2022-06-07 Bank Of America Corporation System and methods to mitigate poisoning attacks within machine learning systems
US20200387836A1 (en) 2019-06-04 2020-12-10 Accenture Global Solutions Limited Machine learning model surety
US20200402665A1 (en) 2019-06-19 2020-12-24 GE Precision Healthcare LLC Unplanned readmission prediction using an interactive augmented intelligent (iai) system
CN110378386B (zh) 2019-06-20 2024-09-06 平安科技(深圳)有限公司 基于有监督的无标记异常识别方法、装置及存储介质
EP3987444A1 (en) 2019-06-24 2022-04-27 Telefonaktiebolaget LM Ericsson (publ) Method for detecting uncommon input
US11954610B2 (en) 2019-08-09 2024-04-09 GE Precision Healthcare LLC Active surveillance and learning for machine learning model authoring and deployment
CN110458374A (zh) 2019-08-23 2019-11-15 山东浪潮通软信息科技有限公司 一种基于arima和svm的企业用电最大需量预测方法
CN110411957B (zh) 2019-08-28 2021-11-19 北京农业质量标准与检测技术研究中心 水果货架期及新鲜程度的无损快速预测方法及装置
CN110543618A (zh) 2019-09-05 2019-12-06 上海应用技术大学 基于概率密度函数估计的圆度不确定度评定方法
US11328177B2 (en) 2019-09-18 2022-05-10 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11615348B2 (en) 2019-09-18 2023-03-28 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11288602B2 (en) 2019-09-18 2022-03-29 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US20210136178A1 (en) 2019-11-06 2021-05-06 Centurylink Intellectual Property Llc Predictive resource allocation in an edge computing network utilizing geolocation for orchestration
CN110909822B (zh) 2019-12-03 2022-11-11 中国科学院微小卫星创新研究院 一种基于改进的高斯过程回归模型的卫星异常检测方法
CN111080502B (zh) 2019-12-17 2023-09-08 清华苏州环境创新研究院 一种区域企业数据异常行为的大数据识别方法
CN111157698B (zh) 2019-12-24 2022-10-21 核工业北京地质研究院 一种利用发射率数据获取黑土土壤全钾含量的反演方法
CN111709447A (zh) 2020-05-14 2020-09-25 中国电力科学研究院有限公司 电网异常检测方法、装置、计算机设备和存储介质
US11007891B1 (en) 2020-10-01 2021-05-18 Electricfish Energy Inc. Fast electric vehicle charging and distributed grid resource adequacy management system
CN112257963B (zh) 2020-11-20 2023-08-29 北京轩宇信息技术有限公司 基于航天软件缺陷数据分布离群点的缺陷预测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8346691B1 (en) * 2007-02-20 2013-01-01 Sas Institute Inc. Computer-implemented semi-supervised learning systems and methods
US20100153328A1 (en) * 2008-12-12 2010-06-17 Graham Cormode Methods and apparatus to construct histogram and wavelet synopses for probabilistic data

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11334645B2 (en) 2011-08-19 2022-05-17 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US10557840B2 (en) 2011-08-19 2020-02-11 Hartford Steam Boiler Inspection And Insurance Company System and method for performing industrial processes across facilities
US11868425B2 (en) 2011-08-19 2024-01-09 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US10409891B2 (en) 2014-04-11 2019-09-10 Hartford Steam Boiler Inspection And Insurance Company Future reliability prediction based on system operational and performance data modelling
US11550874B2 (en) 2014-04-11 2023-01-10 Hartford Steam Boiler Inspection And Insurance Company Future reliability prediction based on system operational and performance data modelling
US11636292B2 (en) 2018-09-28 2023-04-25 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
US11803612B2 (en) 2018-09-28 2023-10-31 Hartford Steam Boiler Inspection And Insurance Company Systems and methods of dynamic outlier bias reduction in facility operating data
KR20210026238A (ko) * 2019-08-29 2021-03-10 주식회사 엘지화학 온도 추정 모델 결정 방법 및 장치, 온도 추정 모델이 적용된 배터리 관리 시스템
US11754630B2 (en) 2019-08-29 2023-09-12 Lg Energy Solution, Ltd. Method and device for determining temperature estimating model, and battery management system to which the temperature estimating model is applied
WO2021040396A1 (ko) * 2019-08-29 2021-03-04 주식회사 엘지화학 온도 추정 모델 결정 방법 및 장치, 온도 추정 모델이 적용된 배터리 관리 시스템
US11328177B2 (en) 2019-09-18 2022-05-10 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11288602B2 (en) 2019-09-18 2022-03-29 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11615348B2 (en) 2019-09-18 2023-03-28 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models

Also Published As

Publication number Publication date
CN106933779A (zh) 2017-07-07
EP2745213A1 (en) 2014-06-25
KR102024953B1 (ko) 2019-11-04
US11868425B2 (en) 2024-01-09
US20220277058A1 (en) 2022-09-01
CN104254848B (zh) 2017-04-12
US11334645B2 (en) 2022-05-17
CN104254848A (zh) 2014-12-31
US20180329865A1 (en) 2018-11-15
CN106919539A (zh) 2017-07-04
EP3493079A1 (en) 2019-06-05
US20240152571A1 (en) 2024-05-09
CA3197787A1 (en) 2013-02-28
JP5982489B2 (ja) 2016-08-31
JP2014524629A (ja) 2014-09-22
US20150278160A1 (en) 2015-10-01
WO2013028532A1 (en) 2013-02-28
CA2845827C (en) 2023-06-27
US9069725B2 (en) 2015-06-30
US20130046727A1 (en) 2013-02-21
US20150309963A1 (en) 2015-10-29
CA2845827A1 (en) 2013-02-28

Similar Documents

Publication Publication Date Title
KR102208210B1 (ko) 동적 특이치 바이어스 감소 시스템 및 방법
KR20140092805A (ko) 동적 특이치 바이어스 감소 시스템 및 방법
US11803612B2 (en) Systems and methods of dynamic outlier bias reduction in facility operating data
US20130231904A1 (en) Dynamic outlier bias reduction system and method

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant