KR20140092805A

KR20140092805A - 동적 특이치 바이어스 감소 시스템 및 방법

Info

Publication number: KR20140092805A
Application number: KR1020147007293A
Authority: KR
Inventors: 리차드 브레들리 존스
Original assignee: 하트포드 스팀 보일러 인스펙션 앤드 인슈어런스 컴퍼니
Priority date: 2011-08-19
Filing date: 2012-08-17
Publication date: 2014-07-24
Also published as: CN106933779A; EP2745213A1; KR102024953B1; US11868425B2; US20220277058A1; CN104254848B; US11334645B2; CN104254848A; US20180329865A1; CN106919539A; EP3493079A1; US20240152571A1; CA3197787A1; JP5982489B2; JP2014524629A; US20150278160A1; WO2013028532A1; CA2845827C; US9069725B2; US20130046727A1

Abstract

기능 및 추세 선 특이치 바이어스를 감소시키기 위한 데이터 필터링을 위한 시스템 및 방법이 본원에 기재된다. 객관적 통계 방법을 통해 데이터 세트로부터 특이치가 제거된다. 바이어스는 절대 오차, 상대 오차, 또는 이 둘 모두를 기초로 결정된다. 오차 값이 데이터, 모델 계수, 또는 추세 선 계산으로부터 계산된다. 오차 값이 사용자-제공 기준보다 크거나 같을 때 특이치 데이터 레코드가 제거된다. 최적화 방법 또는 그 밖의 다른 반복 계산을 위해, 각각의 반복마다 제거된 데이터가 모델에 다시 적용되어 새로운 결과를 계산한다. 완전한 데이터 세트에 대한 모델 값을 이용하여, 새로운 오차 값이 계산되고 특이치 바이어스 감소 절차가 다시 적용된다. 사용자 정의 오차 개선 한계에 도달할 때까지, 반복 방식으로 모델 계수 및 특이치 제거 데이터를 위해 전체 오차가 최소화된다. 필터링된 데이터는 검증, 특이치 바이어스 감소, 및 데이터 품질 작업을 위해 사용될 수 있다.

Description

동적 특이치 바이어스 감소 시스템 및 방법{DYNAMIC OUTLIER BIAS REDUCTION SYSTEM AND METHOD}

관련 출원의 상호 참조

이 출원은 2011년 08월 19일자로 출원된 미국 정규 특허 출원 13/213,780호, 발명의 명칭 "Dynamic Outlier Bias Reduction System And Method"을 기초로 우선권 주장하며, 상기 미국 정규 특허 출원은 그 전체가 본원에 참조로서 포함된다.

발명의 기술 분야

본 발명은 분석 개발(analysis development)에서 특이적 요소(outlier element)가 제거된(또는 필터링된) 데이터의 분석에 관한 것이다. 상기 분석은 단순한 통계치의 계산 또는 이의 개발에서 데이터를 이용하는 수학적 모델과 관련된 보다 복잡한 연산과 관련될 수 있다. 특이 데이터 필터링의 목적은 데이터 품질 및 데이터 검증 동작을 수행하려는 것 또는 차후의 분석, 회귀 분석, 시계열 분석에서 적용되는 대표 표준, 통계치, 데이터 그룹 또는 수학적 모델 개발을 위한 적절한 데이터를 계산하기 위한 것이다.

표준 모델 또는 데이터 구동 모델(data-driven model)에서 특이 데이터(outlier data)를 제거하는 것은, 대표적이며 타당한 분석이 기저 데이터로부터 개발됨을 보장하기 위한 사전 분석 작업의 중요한 부분이다. 예를 들어, 이산화탄소(CO₂), 오존(O₃), 수증기(H₂O), 히드로플루오로카본(HFC), 퍼플루오로카본(PFC), 클로로플루오로카본(CFC), 설퍼 헥사플루오라이드(SF₆), 메탄(CH₄), 아산화질소(N₂O), 일산화탄소(CO), 질소 산화물(NO_x), 및 비-메탄 휘발성 유기 화합물(NMVOC) 방출에 대한 온실 가스 표준의 공정한 벤치마킹을 개발하는 것이 표준 개발에서 사용되는 수집된 산업 데이터가 특정 속성을 보임을 요구한다. 산업 장소 중 몇 개에 의한 극히 우수하거나 나쁜 수행이 그 밖의 다른 장소에 대해 계산된 표준을 치우치게 만들어선 안 된다. 표준 계산에 이러한 수행 결과를 포함시키는 것은 불공평하거나 비대표적이라고 판단될 수 있다. 과거에, 수행 특이치(performance outlier)는 대상 입력을 요구하는 반-정량적 프로세서(semi-quantitative process)를 통해 제거되었다. 본 발명의 시스템 및 방법은 이러한 작업을 사전-분석 또는 사전-모델 개발 스테이지에서가 아니라 모델 개발에 통합된 부분으로 수행하며, 데이터-구동식 접근법이다.

바이어스의 제거는 정당화(justification)가 데이터 변경을 입증하기 위한 일부 형태로 자료화된 주관적인 프로세스(documented subjective process)일 수 있다. 그러나 임의의 형태의 특이치 제거는 계산 결과를 변경하기 위한 가능성을 지니는 데이터 중도절단(data censoring)의 형태이다. 이러한 데이터 필터링은 계산에서 바이어스나 오차를 감소시킬 수도 있고 감소시키지 않을 수도 있으며, 전체 분석 공개의 사상에서, 엄격한 데이터 제거 가이드라인 및 특이치 제거를 위한 자료화가 분석 결과에 포함될 필요가 있다. 따라서 데이터 품질 작업, 데이터 검증, 통계 계산 또는 수학적 모델 개발 등의 목적으로, 동적 통계 프로세스를 이용해 특이 데이터 바이어스를 객관적으로 제거하기 위한 새로운 시스템 및 방법을 제공할 필요가 있다. 상기 특이 바이어스 제거 시스템 및 방법은 또한 데이터를 대표 카테고리로 그룹짓기 위해 사용될 수 있으여, 여기서 각각의 그룹에 커스텀화된 수학적 모델의 개별에 데이터가 적용된다. 바람직한 실시예에서, 수학적 모델에서의 곱셈 및 덧셈 팩터로서의 계수(coefficient)가 정의되고, 비선형 속성을 갖는 그 밖의 다른 수치 파라미터도 정의된다. 예를 들어, f(x,y,z) = a*x + b*y^c+ d*sin(ez) + f인 수학적 모델에서, a, b, c, d, e, 및 f는 모두 계수로 정의된다. 이들 항의 값은 고정 값이거나, 수학적 모델의 개발의 일부일 수 있다.

선호되는 실시예는, 바이어스 기준을 선택하는 단계와, 데이터 세트를 제공하는 단계와, 한 세트의 모델 계수를 제공하는 단계와, 한 세트의 타깃 값을 선택하는 단계와, (1) 완전 데이터 세트에 대한 한 세트의 예측 값을 발생시키는 단계와, (2) 데이터세트에 대한 오차 세트를 발생시키는 단계와, (3) 오차 세트 및 바이어스 기준에 기초하여 한 세트의 오차 임계 값을 발생시키는 단계와, (4) 오차 세트와 한 세트의 오차 임계 값에 기초하여 중도절단 데이터 세트(a censored data set)를 프로세서에 의해 발생시키는 단계와, (5) 한 세트의 새 모델 계수를 프로세서에 의해 발생시키는 단계와, (6) 중도절단 성능 종료 기준이 충족되지 않을 경우, 한 세트의 새 모델 계수를 이용하여 단계(1)-(5)를 반복하는 단계를 포함하는, 특이치 바이어스 감소를 위한 컴퓨터-구현 방법을 포함한다. 선호되는 실시예에서, 한 세트의 예측 값은 데이터 세트 및 한 세트의 모델 계수에 기초하여 발생될 수 있다. 선호되는 실시예에서, 오차 세트는 한 세트의 예측 값과 한 세트의 타깃 값에 기초하여 발생되는 한 세트의 절대 오차와 한 세트의 상대 오차를 포함할 수 있다. 다른 실시예에서, 오차 세트는 한 세트의 예측 값과 한 세트의 타깃 값 사이의 차이로 연산되는 값들을 포함할 수 있다. 다른 실시예에서, 한 세트의 새 계수를 발생시키는 단계는, 선형 또는 비선형 최적화 모델을 이용하여 실현될 수 있는, 한 세트의 예측 값과 한 세트의 실제 값 사이의 한 세트의 오차를 최소화시키는 단계를 더 포함할 수 있다. 선호되는 실시예에서, 중도절단 성능 종료 기준은 표준 오차 및 결정 계수에 기초할 수 있다.

다른 실시예는, 오차 기준을 선택하는 단계와, 데이터 세트를 선택하는 단계와, 한 세트의 실제 값을 선택하는 단계와, 하나의 초기 세트의 모델 계수를 선택하는 단계와, 완전 데이터 세트 및 하나의 초기 세트의 모델 계수에 기초하여 한 세트의 모델 예측 값을 발생시키는 단계와, (1) 완전 데이터 세트에 대한 한 세트의 실제 값 및 모델 예측 값에 기초하여 한 세트의 오차를 발생시키는 단계와, (2) 완전 데이터 세트에 대한 오차 기준과 완전한 한 세트의 오차에 기초하여 한 세트의 오차 임계 값을 발생시키는 단계와, (3) 완전 데이터 세트와 한 세트의 오차 임계 값에 기초하여 필터링이 이루어지도록 특이치 제거된 데이터 세트를 발생시키는 단계와, (4) 한 세트의 새 계수의 발생이 컴퓨터 프로세서에 의해 수행되도록, 필터링된 데이터 세트 및 한 세트의 이전 계수에 기초하여 한 세트의 새 계수를 발생시키는 단계와, (5) 한 세트의 특이치 바이어스 감소 모델 예측 값들의 발생이 컴퓨터 프로세서에 의해 수행되도록, 필터링된 데이터 세트 및 한 세트의 새 모델 계수에 기초하여 한 세트의 특이치 바이어스 감소 모델 예측 값들을 발생시키는 단계와, (6) 모델 예측 값과 한 세트의 실제 값에 기초하여 한 세트의 모델 성능 값을 발생시키는 단계와, 성능 종료 기준이 충족되지 않을 경우, 이전 반복으로부터의 한 세트의 계수를 한 세트의 새 계수로 대체하면서, 단계 (1)-(6)를 반복할 수 있는 반복 단계와, 그리고, 컴퓨터 데이터 매체에 한 세트의 모델 예측 값을 저장하는 단계를 포함하는, 특이치 바이어스 감소를 위한 컴퓨터-구현 방법을 포함한다.

다른 실시예는, 설비용 타깃 변수를 선택하는 단계와, 타깃 변수의 한 세트의 실제 값을 선택하는 단계와, 타깃 변수에 관련된 설비에 대한 복수의 변수를 식별하는 단계와, 복수의 변수에 대한 값들을 포함하는, 설비에 대한 데이터 세트를 획득하는 단계와, 바이어스 기준을 선택하는 단계와, 한 세트의 모델 계수를 선택하는 단계와, (1) 완전 데이터 세트 및 한 세트의 모델 계수에 기초하여 한 세트의 예측 값을 발생시키는 단계와, (2) 한 세트의 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 중도절단 모델 성능 값을 발생시키는 단계와, (3) 타깃 변수에 대한 한 세트의 실제 값 및 한 세트의 예측 값에 기초하여 오차 세트를 발생시키는 단계와, (4) 오차 세트 및 바이어스 기준에 기초하여 한 세트의 오차 임계 값을 발생시키는 단계와, (5) 데이터 세트 및 한 세트의 오차 임계값에 기초하여 중도절단 데이터 세트를 프로세서에 의해 발생시키는 단계와, (6) 중도절단 데이터 세트 및 한 세트의 모델 계수에 기초하여 한 세트의 새 모델 계수를 프로세서에 의해 발생시키는 단계와, (7) 데이터 세트 및 한 세트의 새 모델 계수에 기초하여 한 세트의 새 예측 값을 프로세서에 의해 발생시키는 단계와, (8) 한 세트의 새 예측 값과 한 세트의 실제 값에 기초하여 한 세트의 새 중도절단 모델 성능 값을 발생시키는 단계와, 한 세트의 새 계수를 이용하여 중도절단 성능 종료 기준이 충족되지 않을 경우, 단계 (1)-(8)을 반복하는 단계와, 컴퓨터 데이터 매체에 한 세트의 새 모델 예측 값을 저장하는 단계를 포함하는, 특이치 바이어스 감소를 위한 컴퓨터-구현 방법을 포함한다.

다른 실시예는, 생산, 경제적 효과, 또는 성과에 관한 산업적 설비에 대한 척도인 설비용 타깃 변수를 결정하는 단계와, 설비에 대한 복수의 변수를 식별하는 단계 - 상기 복수의 변수는 타깃 변수에 영향을 미치는 설비에 대한 복수의 직접 변수와, 설비에 대한 한 세트의 변환 변수를 포함하며, 각각의 변환 변수는 타깃 변수에 영향을 미치는 적어도 한자의 직접 설비 변수의 함수임 - 와, 절대 오차 및 상대 오차를 포함하는 오차 기준을 선택하는 단계와, 복수의 변수에 대한 값을 포함하는, 설비에 대한 데이터 세트를 획득하는 단계와, 타깃 변수의 한 세트의 실제 값을 선택하는 단계와, 초기 한 세트의 모델 계수를 선택하는 단계와, 완전 데이터 세트와 초기 한 세트의 모델 계수에 기초하여 한 세트의 모델 예측 값을 발생시키는 단계와, 한 세트의 모델 예측 값과 한 세트의 실제 값에 기초하여 완전한 한 세트의 오차를 발생시키는 단계 - 상대 오차는 공식:

상대 오차_m = ((예측 값_m - 실제 값_m)/실제 값_m)²

를 이용하여 연산되고, 'm'은 참조 수치이고, 절대 오차는 공식:

절대 오차_m = (예측 값_m - 실제 값_m)²

를 이용하여 연산됨 - 와, 한 세트의 모델 예측 값과 한 세트의 실제 값에 기초하여 한 세트의 모델 성능 값을 발생시키는 단계- 한 세트의 전체 모델 성능 값은 제 1 표준 오차 및 제 1 결정 계수를 포함함 - 와, (1) 완전 데이터 세트에 대한 한 세트의 실제 값과 모델 예측 값에 기초하여 한 세트의 오차를 발생시키는 단계와, (2) 완전 데이터 세트에 대한 오차 기준과 완전한 한 세트의 오차에 기초하여 한 세트의 오차 임계 값을 발생시키는 단계와, (3) 완전 데이터 세트 및 한 세트의 오차 임계 값에 기초하여 필터링이 이루어지도록, 오차 임계 값보다 크거나 동일한 오차 값을 갖는 데이터를 제거함으로써 특이치 제거 데이터 세트를 발생시키는 단계와, (4) 새 모델 예측 값의 발생이 컴퓨터 프로세서에 의해 수행되도록, 선형 최적화 모델 및 비선형 최적화 모델 중 적어도 하나를 이용하여 한 세트의 예측 값과 한 세트의 실제 값 사이의 오차를 최소화시킴으로써 특히치 제거 데이터 세트와 한 세트의 모델 계수에 기초하여 한 세트의 특이치 바이어스 감소 모델 예측 값을 발생시키는 단계와, (5) 한 세트의 새 계수의 발생이 컴퓨터 프로세서에 의해 수행되도록, 특이치 제거 데이터 세트와 이전 한 세트의 계수에 기초하여 한 세트의 새 계수를 발생시키는 단계와, (6) 한 세트의 모델 성능 값이 제 2 표준 오차, 및 제 2 결정 계수를 포함하도록, 한 세트의 새 예측 모델 값과 한 세트의 실제 값에 기초하여 한 세트의 전체 모델 성능 값을 발생시키는 단계와, 성능 종료 기준이 충족되지 않을 경우, 이전 반복으로부터 한 세트의 계수를 한 세트의 새 계수로 대체하면서, 단계 (1)-(6)을 반복하는 단계 - 상기 성능 종료 기준은 표준 오차 종료 값과 결정 계수 종료 값를 포함하고, 성능 종료 기준의 충족은 표준 오차 종료 값이 제 1 및 제 2 표준 오차 사이의 차이보다 큰 경우와, 결정 계수 종료 값가 제 1 및 제 2 결정 계수 사이의 차이보다 큰 경우를 포함함 - 와, 컴퓨터 데이터 매체에 한 세트의 새 모델 예측 값을 저장하는 단계를 포함하는, 특이치 바이어스 감소를 위한 컴퓨터-구현 방법을 포함한다.

다른 실시예는, 오차 기준을 선택하는 단계와, 데이터 세트를 선택하는 단계와, 한 세트의 실제 값을 선택하는 단계와, 초기 한 세트의 모델 예측 값을 선택하는 단계와, 한 세트의 모델 예측 값과 한 세트의 실제 값에 기초하여 한 세트의 오차를 결정하는 단계와, (1) 완전한 한 세트의 오차 및 오차 기준에 기초하여 한 세트의 오차 임계 값을 결정하는 단계와, (2) 필터링이 데이터 세트 및 한 세트의 오차 임계 값에 기초하여 이루어지도록, 특이치 제거 데이터 세트를 발생시키는 단계와, (3) 한 세트의 특이치 바이어스 감소 모델 예측 값의 발생이 컴퓨터 프로세서에 의해 수행되도록, 특이치 제거 데이터 세트 및 이전 모델 예측 값에 기초하여 한 세트의 특이치 바이어스 감소 모델 예측 값을 발생시키는 단계와, (4) 한 세트의 새 모델 예측 값과 한 세트의 실제 값에 기초하여 한 세트의 오차를 결정하는 단계와, 이전 반복으로부터 한 세트의 모델 예측 값을 한 세트의 새 모델 예측 값으로 대체하면서, 성능 종료 기준이 충족되지 않을 경우, 단계 (1)-(4)를 반복하는 단계와, 컴퓨터 데이터 매체에 한 세트의 특이치 바이어스 감소 모델 예측 값을 저장하는 단계를 포함하는, 특이치 바이어스 감소를 위한 컴퓨터-구현 방법을 포함한다.

다른 실시예는, 설비용 타깃 변수를 결정하는 단계와, 설비에 대한 복수의 변수를 식별하는 단계 - 상기 복수의 변수는 타깃 변수에 영향을 미치는 설비에 대한 복수의 직접 변수와, 설비에 대한 한 세트의 변환 변수를 포함하며, 각각의 변환 변수는 타깃 변수에 영향을 미치는 적어도 하나의 직접 설비 변수의 함수임 - 와, 절대 오차 및 상대 오차를 포함하는 오차 기준을 선택하는 단계와, 복수의 변수에 대한 값을 포함하는 데이터 세트를 획득하는 단계와, 타깃 변수의 한 세트의 실제 값을 선택하는 단계와, 초기 한 세트의 모델 계수를 선택하는 단계와, 데이터 세트에 한 세트의 모델 계수를 적용함으로써 한 세트의 모델 예측 값을 발생시키는 단계와, 한 세트의 성능 값이 제 1 표준 오차와 제 1 결정 계수를 포함하도록, 한 세트의 모델 예측 값과 한 세트의 실제 값에 기초하여 한 세트의 성능 값을 발생시키는 단계와, (1) 완전 데이터 세트에 대한 한 세트의 모델 예측 값과 한 세트의 실제 값에 기초하여 한 세트의 오차를 발생시키는 단계 - 상대 오차는 공식:

상대 오차_m = ((예측 값_m - 실제 값_m)/실제 값_m)²

을 이용하여 연산되고, 'm'은 참조 수치이고, 절대 오차는 공식:

절대 오차_m = (예측 값_m - 실제 값_m)²

를 이용하여 연산됨 - 와, (2) 완전 데이터 세트에 대한 완전한 한 세트의 오차 및 오차 기준에 기초하여 한 세트의 오차 임계 값을 발생시키는 단계와, (3) 필터링이 데이터 세트 및 한 세트의 오차 임계 값에 기초하여 이루어지도록, 한 세트의 오차 임계 값보다 크거나 동일한 오차 값을 갖는 데이터를 제거함으로써 특이치 제거 데이터 세트를 발생시키는 단계와, (4) 특이치 제거 데이터 세트 및 한 세트의 이전 계수에 기초하여 한 세트의 새 계수를 발생시키는 단계와, (5) 모델 예측 값의 발생이 컴퓨터 프로세서에 의해 수행되도록, 선형 최적화 모델 및 비선형 최적화 모델 중 적어도 하나를 이용하여 한 세트의 예측 값과 한 세트의 실제 값 사이의 오차를 최소화시킴으로써 한 세트의 새 모델 계수와 특이치 제거 데이터 세트에 기초하여 한 세트의 특이치 바이어스 감소 모델 예측 값을 발생시키는 단계와, (6) 한 세트의 특이치 바이어스 감소 모델 예측 값과 한 세트의 실제 값에 기초하여 한 세트의 업데이트된 성능 값을 발생시키는 단계 - 한 세트의 업데이트된 성능 값은 제 2 표준 오차 및 제 2 결정 계수를 포함함 - 와, 성능 종료 기준이 충족되지 않을 경우, 이전 반복으로부터의 한 세트의 계수를 한 세트의 새 계수로 대체하면서, 단계 (1)-(6)을 반복하는 단계 - 상기 성능 종료 기준은 표준 오차 종료 기준과 결정 계수 종료 값를 포함하고, 성능 종료 기준의 충족은 표준 오차 종료 값이 제 1 및 제 2 표준 오차 사이의 차이보다 큰 경우와, 결정 계수 종료 값가 제 1 및 제 2 결정 계수 사이의 차이보다 큰 경우를 포함함 - 와, 컴퓨터 데이터 매체에 한 세트의 특이치 바이어스 감소 인자를 저장하는 단계를 포함하는, 특이치 바이어스 감소를 위한 컴퓨터-구현 방법을 포함한다.

다른 실시예는, 복수의 데이터 값을 포함하는 타깃 데이터 세트를 제공하는 단계와, 타깃 데이터세트에 기초하여 무작위적 타깃 데이터 세트를 발생시키는 단계와, 한 세트의 바이어스 기준 값을 선택하는 단계와, 데이터 세트 및 선택된 바이어스 기준 값 각각에 기초하여 특이치 바이어스 감소 타깃 데이터 세트를 프로세서에 의해 발생시키는 단계와, 랜덤 데이터 세트 및 각각의 선택된 바이어스 기준 값에 기초하여 특이치 바이어스 감소 랜덤 데이터 세트를 프로세서에 의해 발생시키는 단계와, 특이치 바이어스 감소 데이터 세트 및 특이치 바이어스 감소 랜덤 데이터 세트에 대한 한 세트의 오차 값을 연산하는 단계와, 특이치 바이어스 감소 데이터 세트 및 특이치 바이어스 감소 랜덤 데이터 세트에 대한 한 세트의 상관 계수를 연산하는 단계와, 선택된 바이어스 기준 값 및 대응하는 오차 값 및 상관 계수에 기초하여 데이터 세트 및 랜덤 데이터 세트에 대한 바이어스 기준 곡선을 발생시키는 단계와, 데이터 세트에 대한 바이어스 기준 곡선을 랜덤 데이터 세트에 대한 바이어스 기준 곡선에 비교하는 단계를 포함하는, 모델 개발에 사용되는 데이터 세트의 생존 가능성을 평가하기 위한, 컴퓨터-구현 방법을 포함한다. 특이치 바이어스 감소 타깃 데이터 세트 및 특이치 바이어스 감소 랜덤 타깃 데이터 세트는 동적 특이치 바이어스 제거 방법을 이용하여 발생된다. 랜덤 타깃 데이터 세트는 복수의 데이터 값들의 범위 내의 값으로부터 발전된 무작위화된 데이터 값들로 구성될 수 있다. 또한, 한 세트의 오차 값은 한 세트의 표준 오차를 포함할 수 있고, 한 세트의 상관 계수는 한 세트의 결정 값 계수를 포함한다. 다른 실시예는 타깃 데이터 세트에 대한 바이어스 기준 곡선을 랜덤 타깃 데이터 세트에 대한 바이어스 기준 곡선과 비교함에 기초하여, 개발 모델을 지원하기 위해 타깃 데이터 세트의 생존 가능성에 관한 자동 어드바이스를 발생(역방향도 가능)시키는 단계를 더 포함할 수 있다. 어드바이스는 상관 계수 임계치 및/또는 오차 임계치와 같은, 분석가에 의해 선택되는 파라미터에 기초하여 발생될 수 있다. 또 다른 실시예는 모델 예측 값에 대응하는 복수의 실제 데이터 값을 포함하는 실제 데이터 세트를 제공하는 단계와, 실제 데이터 세트에 기초하여 랜덤 실제 데이터 세트를 발생시키는 단계와, 실제 데이터 세트 및 각각의 선택된 바이어스 기준 값에 기초하여 특이치 바이어스 감소 실제 데이터 세트를 프로세서에 의해 발생시키는 단계와, 랜덤 실제 데이터 세트 및 각각의 선택된 바이어스 기준 값에 기초하여 특이치 바이어스 감소 랜덤 실제 데이터 세트를 프로세서에 의해 발생시키는 단계와, 특이치 바이어스 감소 랜덤 타깃 데이터 세트 및 특이치 바이어스 감소 랜덤 실제 데이터에 기초하여 랜덤 데이터 플롯을 각각의 선택된 바이어스 기준에 대하여 발생시키는 단계와, 특이치 바이어스 감소 타깃 데이터 세트 및 특이치 바이어스 감소 실제 타깃 데이터 세트에 기초하여 현실 데이터 플롯을 각각의 선택된 바이어스 기준에 대해 발생시키는 단계와, 각각의 선택된 바이어스 기준에 대응하는 현실 데이터 플롯에 랜덤 데이터 플롯을 비교하는 단계를 더 포함한다.

선호되는 실시예는 프로세서 및 저장 서브시스템을 포함하는 서버와, 데이터세트를 포함하는 저장 서브시스템에 의해 저장되는 데이터베이스와, 명령어를 포함하는 저장 서브시스템에 의해 저장되는 컴퓨터 프로그램을 포함하는 시스템을 포함하며, 상기 명령어는 실행될 때, 바이어스 기준을 선택하는 단계와, 한 세트의 모델 계수를 제공하는 단계와, 한 세트의 타깃 값을 선택하는 단계와, (1) 데이터 세트에 대해 한 세트의 예측 값을 발생시키는 단계와, (2) 데이터세트에 대한 오차 세트를 발생시키는 단계와, (3) 오차 세트 및 바이어스 기준에 기초하여 한 세트의 오차 임계 값을 발생시키는 단계와, (4) 오차 세트 및 한 세트의 오차 임계 값에 기초하여 중도절단 데이터 세트를 발생시키는 단계와, (5) 한 세트의 새 모델 계수를 발생시키는 단계와, (6) 중도절단 성능 종료 기준이 충족되지 않을 경우, 한 세트의 새 모델 계수를 이용하여 단계 (1)-(5)를 반복하는 단계를, 프로세서로 하여금 수행하게 한다. 선호되는 실시예에서, 한 세트의 예측 값은 데이터 세트 및 한 세트의 모델 계수에 기초하여 발생될 수 있다. 선호되는 실시예에서, 오차 세트는 한 세트의 예측 값 및 한 세트의 타깃 값에 기초하여 발생되는, 한 세트의 절대 오차 및 한 세트의 상대 오차를 포함할 수 있다. 다른 실시예에서, 오차 세트는 한 세트의 예측 값과 한 세트의 타깃 값 사이의 차이로 연산되는 값을 포함할 수 있다. 다른 실시예에서, 한 세트의 새 계수를 발생시키는 단계는, 선형 또는 비선형 최적화 모델을 이용하여 실현될 수 있는, 한 세트의 예측 값 및 한 세트의 실제 값 사이의 한 세트의 오차를 최소화시키는 단계를 더 포함할 수 있다. 선호되는 실시예에서, 중도절단 성능 종료 기준은 표준 오차 및 결정 계수에 기초할 수 있다.

본 발명의 다른 실시예는 프로세서 및 저장 서브시스템을 포함하는 서버와, 데이터 세트를 포함하는 저장 서브시스템에 의해 저장되는 데이터베이스와, 명령어를 포함하는 저장 서브시스템에 의해 저장되는 컴퓨터 프로그램을 포함하는 시스템을 포함하며, 상기 명령어는, 실행될 때, 오차 기준을 선택하는 단계와, 한 세트의 실제 값을 선택하는 단계와, 초기 한 세트의 계수를 선택하는 단계와, 완전한 한 세트의 모델 예측 값을 데이터 세트 및 초기 한 세트의 계수로부터 발생시키는 단계와, (1) 완전한 데이터세트에 대한 한 세트의 실제 값 및 모델 예측 값에 기초하여 한 세트의 오차를 발생시키는 단계와, (2) 완전한 데이터 세트에 대한 오차 기준 및 완전한 한 세트의 오차에 기초하여 한 세트의 오차 임계 값을 발생시키는 단계와, (3) 완전한 데이터 세트 및 한 세트의 오차 임계 값에 기초하여 필터링이 이루어지도록 특이치 제거 데이터 세트를 발생시키는 단계와, (4) 한 세트의 특이치 바이어스 감소 모델 예측 값의 발생이 컴퓨터 프로세서에 의해 수행되도록, 특이치 제거 데이터 세트 및 한 세트의 계수에 기초하여 한 세트의 특이치 바이어스 감소 모델 예측 값을 발생시키는 단계와, (5) 한 세트의 새 계수 발생이 컴퓨터 프로세서에 의해 수행되도록, 특이치 제거 데이터 세트 및 한 세트의 이전 계수에 기초하여 한 세트의 새 계수를 발생시키는 단계와, (6) 특이치 바이어스 감소 모델 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 모델 성능 값을 발생시키는 단계와, 성능 종료 기준이 충족되지 않을 경우, 이전 반복으로부터 한 세트의 계수를 한 세트의 새 계수로 대체하면서, 단계 (1)-(6)을 반복하는 단계와, 컴퓨터 데이터 매체에 한 세트의 전체 특이치 바이어스 감소 모델 예측 값을 저장하는 단계를 프로세서로 하여금 수행하게 한다.

또 다른 실시예는 프로세서 및 저장 서브시스템을 포함하는 서버와, 설비에 대한 타깃 변수와, 타깃 변수의 한 세트의 실제 값과, 타깃 변수에 관련된 설비용 복수의 변수와, 복수의 변수에 대한 값들을 포함하는 설비용의 데이터 세트를 포함하는 저장 서브시스템에 의해 저장되는 데이터베이스와, 명령어를 포함하는 저장 서브시스템에 의해 저장되는 컴퓨터 프로그램을 포함하는 시스템을 포함하며, 상기 명령어는 실행될 때, 바이어스 기준을 선택하는 단계와, 한 세트의 모델 계수를 선택하는 단계와, (1) 데이터 세트 및 한 세트의 모델 계수에 기초하여 한 세트의 예측 값을 발생시키는 단계와, (2) 한 세트의 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 중도절단 모델 성능 값을 발생시키는 단계와, (3) 타깃 변수에 대한 한 세트의 예측 값 및 한 세트의 실제 값에 기초하여 오차 세트를 발생시키는 단계와, (4) 오차 세트 및 바이어스 기준에 기초하여 한 세트의 오차 임계 값을 발생시키는 단계와, (5) 데이터 세트 및 한 세트의 오차 임계치에 기초하여 중도절단 데이터 세트를 발생시키는 단계와, (6) 중도절단 데이터 세트 및 한 세트의 모델 계수에 기초하여 한 세트의 새 모델 계수를 발생시키는 단계와, (7) 데이터 세트 및 한 세트의 새 모델 계수에 기초하여 한 세트의 새 예측 값을 발생시키는 단계와, (8) 한 세트의 새 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 새 중도절단 모델 성능 값을 발생시키는 단계와, 한 세트의 새 계수를 이용하여, 중도절단 성능 종료 기준이 충족되지 않을 경우 단계 (1)-(8)을 반복하는 단계와, 저장 서브시스템에 한 세트의 새 모델 예측 값을 저장하는 단계를, 프로세서로 하여금 수행하게 한다.

다른 실시예는 프로세서 및 저장 서브시스템을 포함하는 서버와, 설비에 대한 데이터 세트를 포함하는 저장 서브시스템에 의해 저장되는 데이터베이스와, 명령어를 포함하는 저장 서브시스템에 의해 저장되는 컴퓨터 프로그램을 포함하는 시스템을 포함하며, 상기 명령어는 실행될 때, 타깃 변수를 결정하는 단계와, 복수의 변수를 식별하는 단계 - 상기 복수의 변수는 타깃 변수에 영향을 미치는 설비에 대한 복수의 직접 변수와, 설비에 대한 한 세트의 변환 변수를 포함하며, 각각의 변환 변수는 타깃 변수에 영향을 미치는 적어도 하나의 직접 변수의 함수임 - 와, 절대 오차 및 상대 오차를 포함하는 오차 기준을 선택하는 단계와, 타깃 변수의 한 세트의 실제 값을 선택하는 단계와, 초기 한 세트의 계수를 선택하는 단계와, 데이터 세트 및 초기 한 세트의 계수에 기초하여 한 세트의 모델 예측 값을 발생시키는 단계와, 한 세트의 모델 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 오차를 결정하는 단계 - 상대 오차는 공식:

상대 오차_m = ((예측 값_m - 실제 값_m)/실제 값_m)²

절대 오차_m = (예측 값_m - 실제 값_m)²

를 이용하여 연산됨 - 와, 한 세트의 모델 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 성능 값을 결정하는 단계 - 상기 한 세트의 성능 값은 제 1 표준 오차 및 제 1 결정 계수를 포함함 - 와, (1) 모델 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 오차를 발생시키는 단계와, (2) 완전한 데이터 세트에 대한 완전한 한 세트의 오차 및 오차 기준에 기초하여 한 세트의 오차 임계 값을 발생시키는 단계와, (3) 데이터 세트 및 한 세트의 오차 임계 값에 기초하여 필터링이 이루어지도록, 한 세트의 오차 임계 값 바깥의 오차 값을 갖는 데이터를 필터링함으로써 특이치 제거 데이터 세트를 발생시키는 단계와, (4) 특이치 바이어스 감소 모델 예측 값의 발생이 컴퓨터 프로세서에 의해 수행되도록, 선형 최적화 모델 및 비선형 최적화 모델 중 적어도 하나를 이용하여 한 세트의 모델 예측 값 및 한 세트의 실제 값 사이의 오차를 최소화시킴으로써 특이치 제거 데이터 세트 및 한 세트의 계수에 기초하여 한 세트의 새 모델 예측 값을 발생시키는 단계와, (5) 한 세트의 새 계수의 발생이 컴퓨터 프로세서에 의해 수행되도록, 특이치 제거 데이터 세트 및 한 세트의 이전 계수에 기초하여 한 세트의 새 계수를 발생시키는 단계와, (6) 한 세트의 모델 성능 값이 제 2 표준 오차 및 제 2 결정 계수를 포함하도록, 한 세트의 새 모델 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 성능 값을 발생시키는 단계와, 이전 반복으로부터의 한 세트의 계수를 한 세트의 새 계수로 대체하면서, 성능 종료 기준이 충족되지 않을 경우, 단계 (1)-(6)를 반복하는 단계 - 성능 종료 기준은 표준 오차 및 결정 계수를 포함하고, 성능 종료 기준의 충족은 표준 오차 종료 값이 제 1 및 제 2 표준 오차 사이의 차이보다 큰 경우와, 결정 계수 종료 값가 제 1 및 제 2 결정 계수 사이의 차이보다 큰 경우를 포함함 - 와, 컴퓨터 데이터 매체에 한 세트의 새 모델 예측 값을 저장하는 단계를, 프로세서로 하여금 수행하게 한다.

본 발명의 다른 실시예는 프로세서 및 저장 서브시스템을 포함하는 서버와, 데이터 세트를 포함하는 저장 서브시스템에 의해 저장되는 데이터베이스와, 명령어를 포함하는 저장 서브시스템에 의해 저장되는 컴퓨터 프로그램을 포함하는 시스템을 포함하며, 상기 명령어는 실행될 때, 오차 기준을 선택하는 단계와, 데이터 세트를 선택하는 단계와, 한 세트의 실제 값을 선택하는 단계와, 초기 한 세트의 모델 예측 값을 선택하는 단계와, 한 세트의 모델 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 오차를 결정하는 단계와, (1) 완전한 한 세트의 오차 및 오차 기준에 기초하여 한 세트의 오차 임계 값을 결정하는 단계와, (2) 데이터 세트 및 한 세트의 오차 임계 값에 기초하여 필터링이 이루어지도록, 특이치 제거 데이터 세트를 발생시키는 단계와, (3) 특이치 제거 데이터 세트 및 완전한 한 세트의 모델 예측 값에 기초하여 한 세트의 특이치 바이어스 감소 모델 예측 값을 발생시키는 단계 - 한 세트의 특이치 바이어스 감소 모델 예측 값의 발생은 컴퓨터 프로세서에 의해 이루어짐 - 와, (4) 한 세트의 특이치 바이어스 감소 모델 예측 값 및 대응하는 한 세트의 실제 값에 기초하여 한 세트의 오차를 결정하는 단계와, 한 세트의 모델 예측 값을 한 세트의 특이치 바이어스 감소 모델 예측 값으로 대체하면서, 성능 종료 기준이 충족되지 않을 경우, 단계 (1)-(4)를 반복하는 단계와, 컴퓨터 데이터 매체에 한 세트의 특이치 바이어스 감소 인자를 저장하는 단계를, 프로세서에 의해 수행하게 한다.

본 발명의 다른 실시예는 프로세서 및 저장 서브시스템을 포함하는 서버와, 데이터 세트를 포함하는 저장 서브시스템에 의해 저장되는 데이터베이스와, 명령어를 포함하는 저장 서브시스템에 의해 저장되는 컴퓨터 프로그램을 포함하는 시스템을 포함하며, 상기 명령어는 실행될 때, 타깃 변수를 결정하는 단계와, 설비에 대한 복수의 변수를 식별하는 단계 - 상기 복수의 변수는 타깃 변수에 영향을 미치는 설비용의 복수의 직접 변수와, 설비용 한 세트의 변환 변수를 포함하고, 각각의 변환 변수는 타깃 변수에 영향을 미치는 적어도 하나의 주 설비 변수의 함수임 - 와, 절대 오차 및 상대 오차를 포함하는 오차 기준을 선택하는 단계와, 복수의 변수에 대한 값을 포함하는 데이터 세트를 획득하는 단계와, 타깃 변수의 한 세트의 실제 값을 선택하는 단계와, 데이터 세트에 한 세트의 모델 계수를 적용함으로써 한 세트의 모델 예측 값을 발생시키는 단계와, 한 세트의 모델 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 성능 값을 결정하는 단계 - 상기 한 세트의 성능 값은 제 1 표준 오차 및 제 1 결정 계수를 포함함 - 와, (1) 한 세트의 모델 예측 값 및 한 세트의 실제 값에 기초하여 한 세트의 오차를 결정하는 단계 - 상대 오차는 공식:

상대 오차_m = ((예측 값_m - 실제 값_m)/실제 값_m)²

을 이용하여 연산되고, 'k'는 참조 수치이고, 절대 오차는 공식:

절대 오차_m = (예측 값_m - 실제 값_m)²

를 이용하여 연산됨 - 와, (2) 완전한 데이터 세트에 대한 한 세트의 오차 및 오차 기준에 기초하여 한 세트의 오차 임계 값을 결정하는 단계와, (3) 데이터 세트 및 한 세트의 오차 임계 값에 기초하여 필터링이 이루어지도록 오차 임계 값보다 크거나 동일한 오차 값을 갖는 데이터를 제거함으로써 특이치 제거 데이터 세트를 발생시키는 단계와, (4) 특이치 제거 데이터세트 및 한 세트의 이전 계수에 기초하여 한 세트의 새 계수를 발생시키는 단계와, (5) 특이치 제거 데이터 세트 및 한 세트의 계수에 기초하여 한 세트의 특이치 바이어스 감소 모델 값을 발생시키고, 선형 최적화 모델 및 비선형 최적화 모델 중 적어도 하나를 이용하여 한 세트의 예측값과 한 세트의 실제 값 사이의 오차를 최소화시키는 단계와, (5) 한 세트의 특이치 바이어스 감소 모델 예측 값과 한 세트의 실제 값에 기초하여 한 세트의 업데이트된 성능 값을 결정하는 단계 - 상기 한 세트의 업데이트된 성능 값은 제 2 표준 오차 및 제 2 결정 계수를 포함함 - 와, 이전 반복으로부터 한 세트의 계수를 한 세트의 새 계수로 대체하면서, 성능 종료 기준이 충족되지 않을 경우, 단계 (1)-(5)를 반복하는 단계 - 성능 종료 기준은 표준 오차 종료 값과 결정 계수 종료 값을 포함하고, 성능 종료 기준의 충족은 표준 오차 종료 값이 제 1 및 제 2 표준 오차 사이의 차이보다 큰 경우와, 결정 계수 종료 값이 제 1 및 제 2 결정 계수의 차이보다 큰 경우를 포함함 - 와, 컴퓨터 데이터 매체에 한 세트의 특이치 바이어스 감소 인자를 저장하는 단계를 프로세서에 의해 수행하게 한다.

또 다른 실시예는 프로세서 및 저장 서브시스템을 포함하는 서버와, 복수의 모델 예측 값을 포함하는 타깃 데이터 세트를 포함하는 저장 서브시스템에 의해 저장되는 데이터베이스와, 명령어를 포함하는 저장 서브시스템에 의해 저장되는 컴퓨터 프로그램을 포함하는 모델의 개발에 사용되는 데이터 세트의 생존 가능성을 평가하기 위한 시스템을 포함하며, 상기 명령어는, 랜덤 타깃 데이터 세트를 발생시키는 단계와, 한 세트의 바이어스 기준 값을 선택하는 단계와, 타깃 데이터 세트 및 각각의 선택된 바이어스 기준 값에 기초하여 특이치 바이어스 감소 데이터 세트를 발생시키는 단계와, 랜덤 타깃 데이터 세트 및 각각의 선택된 바이어스 기준 값에 기초하여 특이치 바이어스 감소 랜덤 타깃 데이터 세트를 발생시키는 단계와, 특이치 바이어스 감소 타깃 데이터 세트 및 특이치 바이어스 감소 랜덤 타깃 데이터 세트에 대한 한 세트의 오차 값을 연산하는 단계와, 특이치 바이어스 감소 타깃 데이터 세트 및 특이치 바이어스 감소 랜덤 타깃 데이터 세트에 대해 한 세트의 상관 계수를 연산하는 단계와, 각각의 선택된 바이어스 기준에 대한 대응하는 오차 값 및 상관 계수에 기초하여 타깃 데이터 세트 및 랜덤 타깃 데이터 세트에 대한 바이어스 기준 곡선을 발생시키는 단계와, 랜덤 타깃 데이터 세트에 대한 바이어스 기준 곡선에 타깃 데이터 세트에 대한 바이어스 기준 곡선을 비교하는 단계를, 프로세서로 하여금 수행하게 한다. 프로세서는 동적 특이치 바이어스 제거 방법을 이용하여 특이치 바이어스 감소 타깃 데이터 세트 및 특이치 바이어스 감소 랜덤 타깃 데이터 세트를 발생시킨다. 랜덤 타깃 데이터 세트는 복수의 데이터 값의 범위 내의 값들로부터 발전되는 랜덤화된 데이터 값으로 구성될 수 있다. 또한, 한 세트의 오차 값은 한 세트의 표준 오차를 포함할 수 있고, 한 세트의 상관 계수는 한 세트의 결정 계수 값을 포함한다. 다른 실시예에서, 프로그램은 실행될 때, 랜덤 타깃 데이터 세트에 대한 바이어스 기준 곡선에 타깃 데이터 세트에 대한 바이어스 기준 곡선을 비교함에 기초하여 자동화된 어드바이스를 발생시키는 단계를 프로세서에 의해 수행하게 하는 명령어를 더 포함한다. 어드바이스는 상관 계수 임계치 및/또는 오차 임계치와 같이, 분석가에 의해 선택되는 파라미터에 기초하여 발생될 수 있다. 또 다른 실시예에서, 시스템의 데이터베이스는 모델 예측 값에 대응하는 복수의 실제 데이터 값을 포함하는 실제 데이터 세트를 더 포함하며, 프로그램은 실행될 때, 실제 데이터 세트에 기초하여 랜덤 실제 데이터 세트를 발생시키는 단계와, 실제 데이터 세트 및 각각의 선택된 바이어스 기준 값에 기초하여 특이치 바이어스 감소 실제 데이터 세트를 발생시키는 단계와, 랜덤 실제 데이터 세트 및 각각의 선택된 바이어스 기준 값에 기초하여 특이치 바이어스 감소 랜덤 실제 데이터 세트를 발생시키는 단계와, 각각의 선택된 바이어스 기준에 대하여, 특이치 바이어스 감소 랜덤 타깃 데이터 세트 및 특이치 바이어스 감소 랜덤 실제 데이터에 기초하여 랜덤 데이터 플롯을 발생시키는 단계와, 각각의 선택된 바이어스 기준에 대하여, 특이치 바이어스 감소 타깃 데이터 세트 및 특이치 바이어스 감소 실제 데이터 세트에 기초하여 현실 데이터 플롯을 발생시키는 단계와, 랜덤 데이터 플롯을 각각의 선택된 바이어스 기준에 대응하는 현실 데이터 플롯과 비교하는 단계를 프로세서에 의해 수행하게 하는 명령어를 더 포함한다.

도 1은 데이터 특이치 식별 및 제거 방법의 일 실시예를 예시하는 순서도다.
도 2는 데이터 품질 작동에 대한 데이터 특이치 식별 및 제거 방법의 일 실시예를 예시하는 순서도다.
도 3은 데이터 비준에 대한 데이터 특이치 식별 및 제거 방법의 일 실시예를 예시하는 순서도다.
도 4는 발명의 방법을 구현하기 위한 예시적 노드다.
도 5는 데이터 세트의 정량적 평가를 위한 예시적 그래프다.
도 6A 및 6B는 전체 데이터 세트에 대해 각각 랜덤화된 그리고 현실의 데이터 세트를 예시하는, 도 5의 데이터 세트의 정량적 평가를 위한 예시적 그래프다.
도 7A 및 7B는 데이터의 30%를 특이치로 제거한 후, 각각 랜덤화된, 그리고 현실의, 데이터 세트를 예시하는, 도 5의 데이터 세트의 정량적 평가를 위한 예시적 그래프다.
도 8A 및 8B는 데이터의 50%를 특이치로 제거한 후, 각각 랜덤화된, 그리고 현실의, 데이터 세트를 예시하는, 도 5의 데이터 세트의 정량적 평가를 위한 예시적 그래프다.

다음의 기재는 구조화된 내용을 액세스 및 관리하기 위한 시스템 및 방법의 여러 다른 특징들을 구현하기 위한 여러 다른 실시예, 또는 예시를 제공한다. 구성요소, 프로세서, 및 구현예의 특정 예시가 본 발명을 명확화하는 데 도움이 되도록 기재된다. 이들은 예에 불과하며, 청구항에 기재된 본 발명을 제한하려는 의도는 갖지 않는다. 공지된 요소들은 상세한 기재 없이 제시되어, 불필요한 세부사항으로 본 발명의 바람직한 실시예를 모호하게 하지 않는다. 대부분의 경우, 본 발명의 바람직한 실시예의 완전한 이해를 획득하기 위해 필요하지 않은 세부사항은 본 발명이 속하는 분야의 통상의 기술자의 지식의 범위내에 있는 한, 생략되었다.

동적 특이 바이어스 감소(Dynamic Outlier Bias Reduction)의 한 가지 실시예의 수학적 설명은 다음과 같다:

명명법:

초기 계산, k=0

초기 단계 1: 초기 모델 계수 추정치

를 이용해, 모델을 완전한 데이터 세트:

에 적용시킴으로써, 초기 모델 예측 값을 계산한다.

초기 단계 2: 초기 모델 수행 결과를 계산한다:

, 표준 오차 등

초기 단계 3: 모델 오차 임계 값을 계산한다:

초기 단계 4: 데이터 레코드를 필터링하여 특이치를 제거한다:

반복 계산, k > 0

반복 단계 1: 모델을 수락된 데이터 세트로 적용시킴으로써 예측 값을 계산한다:

반복 단계 2: 모델 수행 결과를 계산한다:

, 표준 오차 등

종료 기준이 얻어진 경우, 중단하고, 그렇지 않은 경우 단계 3으로 진행한다:

반복 단계 3: 현재 모델을 이용해 제거된 데이터

에 대한 결과를 계산한다:

반복 단계 4: 모델 오차 임계 값을 계산한다:

반복 단계 5: 데이터 레코드를 필터링하여 특이치를 제거한다:

동적 특이 바이어스 감소의 또 다른 수학적 설명이 이하에서 제공된다:

명명법:

초기 계산, k=0

초기 단계 1: 초기 모델 계수 추정치,

를 이용해, 모델을 완전한 데이터 세트에 적용시킴으로써 초기 모델 예측 값 결과를 계산한다:

초기 단계 2: 초기 모델 수행 결과를 계산한다:

, 표준 오차 등

초기 단계 3: 모델 오차 임계 값을 계산한다:

반복 계산, k > 0

반복 단계 1: 모델을 특이치가 제거된 데이터 세트에 적용시킴으로써 모델 예측 값을 계산한다:

반복 단계 2: 모델 수행 결과를 계산한다:

, 표준 오차 등

반복 단계 3: 현재 모델을 이용해 제거된 데이터,

에 대한 결과를 계산한다 :

반복 단계 4: 모델 오차 임계 값을 계산한다:

k를 증분시키고 반복 단계 1로 진행한다.

현재의 중도절단된 데이터 세트(censored dataset)로부터 새로운 모델 계수가 계산되는 각각의 반복 후, 이전 반복으로부터의 제거된 데이터와 현재의 중도절단된 데이터가 재조합된다. 이 조합은 완전한 데이터 세트 내 모든 데이터 값을 포함한다. 그 후 현재의 모델 계수가 완전한 데이터 세트로 적용되어, 예측 값의 완전한 세트를 계산할 수 있다. 예측 값의 완전한 세트에 대해 절대 오차 및 상대 오차가 계산되고, 새로운 바이어스 기준 백분위수 임계값이 계산된다. 절대 또는 상대 오차가 임계 값보다 큰 경우 모든 데이터 값을 제거함으로써, 새로운 중도절단된 데이터 세트가 생성되고 그 후 비선형 최적화 모델(nonlinear optimization model)이 상기 새롭게 중도절단된 데이터 세트에 적용되어 새로운 모델 계수를 계산한다. 이 프로세스에 의해 모든 데이터 값이, 모델 데이터 세트에 이들이 포함 가능한지에 대해 매 반복(iteration)마다 검토된다. 모델 계수가 데이터에 가장 잘 맞는 값으로 수렴하기 때문에, 이전 반복에서 배제됐던 일부 데이터 값이 차후의 반복에 포함되는 것이 가능하다.

하나의 실시예에서, GHG 방출의 변차가 방출 결과의 과대평가 또는 과소평가를 초래해 모델 예측 값의 바이어스를 야기할 수 있다. 모델 예측 값의 바이어스가 제거되지 않는 한, 이들 비-산업적 영향, 가령, 계산 절차에서의 환경적 조건 및 오차에 의해 특정 설비에 대한 결과가 유사한 설비와 상당히 상이하게 될 수 있다. 모델 예측 값의 바이어스는 또한 특유의 동작 조건 때문에 존재할 수도 있다.

분석가가 설비의 계산에 오차가 있고 특유의 참작할만한 특성을 가진다고 확신할만한 경우, 계산에서 설비의 데이터를 단순히 제거함으로써, 상기 바이어스는 수동으로 제거될 수 있다. 그러나 여러 다른 회사, 지역, 및 국가에서 설비의 성능을 측정할 때, 데이터 세부사항에 대한 정확한 선험적 지식은 있기 힘들다. 따라서 임의의 분석-기반 데이터 제거 절차는 모델 결과의 자료화되지 않은(undocumented), 비-데이터 지원 바이어스에 대한 가능성을 가진다.

하나의 실시예에서, 동적 특이치 바이어스 감소가, 통계적 특이치를 결정하고 모델 계수 계산으로부터 이를 제거하기 위해 데이터 및 규정된 전체 오차 기준을 사용하는 절차에 적용된다. 이는 예를 들어 백분위수 함수를 이용하는 데이터 생성 전역 오차 기준(data produced global error criteria)을 이용해 특이치를 식별하는 데이터-구동 프로세스(data-driven process)이다. 동적 특이치 바이어스 감소의 용도는 모델 예측 값에서의 바이어스의 감소에 국한되지 않고, 이 실시예에서의 용도는 단지 예에 불과하다. 또한 동적 특이치 바이어스 감소는 임의의 통계적 데이터 세트로부터 특이치를 제거하도록 사용될 수 있으며, 비-제한적 예를 들면, 산술 평균, 선형 회귀, 및 추세선(trend line)의 계산에서 사용될 수 있다. 특이적 설비들은 계산 결과에 여전히 나타나지만 모델 계수 또는 통계적 결과를 계산하기 위해 적용되는 필터링된 데이터 세트에서는 특이치들이 사용되지 않는다.

일반적으로 특이치를 제거하기 위해 사용되는 표준 절차는 데이터 세트의 표준 편차 (σ)를 계산하고 단순히 평균의 2σ 구간 외부의 모든 데이터를, 가령, 특이치라고 정의하는 것이다. 이 절차는, 일반적으로, 실제로 시험될 수 없는 통계적 가정을 가진다. 본 발명의 실시예에서 적용되는 동적 특이치 바이어스 감소법의 설명은 도 1에 대략적으로 나와 있으며, 상대 오차와 절대 오차 모두를 사용한다. 예를 들어, 한 설비 'm'에 대해 다음과 같다:

상대 오차_m = ((예측 값_m - 실제 값_m)/실제 값_m)² (1)

절대 오차_m = (예측 값_m - 실제 값_m)² (2)

단계(110)에서, 분석가가 계산에서 제거될 특이치를 정의할 오차 임계 기준을 특정한다. 예를 들어, 오차 함수로서 백분위수 연산을 이용해, 상대 오차와 절대 오차에 대한 80퍼센트의 백분위수 값이 설정될 수 있다. 이는 상대 오차에 대한 80번째 미만의 백분위수 값과 절대 오차 계산에 대한 80번째 미만의 백분위수 값이 포함될 것이며, 나머지 값은 제거, 즉 특이치로서 간주됨을 의미한다. 이 예시에서, 데이터 값이 제거되는 것을 피하기 위해, 데이터 값은 상대 오차와 절대 오차의 80번째 백분위수 값 모두 미만이어야 한다. 그러나 상대 오차 및 절대 오차에 대한 백분위수 임계치는 독립적으로 달라질 수 있으며, 또 다른 실시예에서, 백분위수 임계치들 중 하나만 사용될 수 있다.

단계(120)에서, 모델 표준 오차 및 결정 계수(r²) 퍼센트 변화 기준이 특정된다. 이들 통계치의 값은 모델별로 달라질 것이며, 선행 반복 절차에서의 퍼센트 변화는, 가령, 5 퍼센트로, 사전 설정될 수 있다. 이들 값은 반복 절차를 종료하기 위해 사용될 수 있다. 또 다른 종료 기준은 단순한 반복 카운트(iteration count)일 수 있다.

단계(130)에서 각각의 설비에 대해 모델 계수 및 예측 값을 생성하는 최적화 계산이 수행된다.

단계(140)에서, 모든 설비에 대한 상대 오차와 절대 오차가 수학식 (1) 및 (2)를 이용해 계산된다.

단계(150)에서, 단계(110)에서 임계 기준이 특정된 오차 함수가 단계(140)에서 계산된 데이터에 적용되어, 특이치 임계 값을 결정할 수 있다.

단계(160)에서, 선택된 구성에 따라, 상대 오차, 절대 오차, 또는 이 둘 모두가 단계(150)에서 계산된 오차 임계 값 미만인 경우 데이터가 필터링된다.

단계(170)에서, 특이치가 제거된 데이터 세트만 이용해 최적화 계산이 수행된다.

단계(180)에서, 표준 오차 및 r²의 퍼센트 변화가 단계(120)에서 특정된 기준에 비교된다. 퍼센트 변화가 기준보다 큰 경우, 프로세스는 단계(140)로 복귀함으로써 반복된다. 그렇지 않은 경우, 단계(190)에서 반복 절차가 종료되고, 이 동적 특이치 바이어스 감소 기준 절차에서 계산된 최종 모델이 완성된다. 현재의 반복을 지나 제거된 데이터 상태인지 또는 인정된 데이터 상태인지에 관계 없이, 상기 모델 결과는 모든 설비에 적용된다.

또 다른 실시예에서, 프로세스는 다음과 같은 특정 반복 파라미터(iterative parameter)의 선택으로 시작된다:

(1) 절대 오차 및 상대 오차 백분위수 값으로서, 둘 중 적어도 하나가 반복 프로세스에서 사용될 수 있음

(2) 결정 계수(r²라고도 알려져 있음) 개선 값, 및

(3) 표준 오차 개선 값.

프로세스는 원본 데이터 세트(original data set), 실제 데이터의 세트, 및 상기 원본 데이터 세트를 기초로 하는 예측 값을 계산하기 위한 적어도 하나의 계수 또는 팩터로 시작한다. 하나의 계수 또는 계수의 세트가 원본 데이터 세트에 적용되어, 예측 값의 세트를 만들 수 있다. 계수의 세트의 비-제한적 예를 들면, 스칼라, 지수, 파라미터, 및 주기 함수가 있을 수 있다. 그 후 예측 데이터의 세트가 실제 데이터의 세트에 비교된다. 표준 오차 및 결정 계수가 예측 데이터와 실제 데이터 간의 차이를 기초로 계산된다. 데이터 점(data point)들 각각과 연관된 상기 절대 오차 및 상대 오차가 사용자-선택 절대 오차 및 상대 오차 백분위수 값을 기초로 데이터 특이치를 제거하기 위해 사용된다. 절대 오차 및/또는 상대 오차에 대한 백분위수 값과 연관된 범위 외부에 있는 모든 데이터가 원본 데이터 세트로부터 제거되기 때문에 데이터를 순위화(ranking)하는 것은 불필요하다. 본 방법은 절대 오차 또는 상대 오차, 또는 또 다른 함수와 함께 수행될 수 있기 때문에, 데이터를 필터링하기 위해 절대 오차 및 상대 오차의 사용은 단지 예시에 불과하다.

사용자-선택 백분위수 범위 내에 있는 절대 오차 및 상대 오차와 연관된 데이터는 특이치가 제거된 데이터 세트이며, 프로세스의 각각의 반복은 자신의 고유의 필터링된 데이터 세트를 가질 것이다. 이 제 1 특이치가 제거된 데이터 세트(outlier removed data set)는 실제 값과 비교될 예측 값을 결정하도록 사용된다. 적어도 하나의 계수는 오차를 최적화함으로써 결정되고, 그 후 계수는 제 1 특이치가 제거된 데이터 세트를 기초로 예측 값을 생성하도록 사용된다. 특이치 바이어스 감소된 계수는 하나의 반복에서 다음 반복으로 지식이 전달될 때 사용하는 메커니즘으로서 역할한다.

제 1 특이치가 제거된 데이터 세트가 생성된 후, 표준 오차 및 결정 계수가 계산되고 원본 데이터 세트의 표준 오차 및 결정 계수에 비교된다. 표준 오차의 차이 및 결정 계수의 차이가 모두 그들 각자의 개선 값(imporvement value) 보다 낮은 경우, 프로세스는 중단된다. 그러나 개선 기준들 중 적어도 하나가 충족되지 않은 경우, 프로세스는 또 한 번의 반복을 계속한다. 표준 오차 및 결정 계수를 반복 프로세스에 대한 체크(check)로서 사용하는 것은 단지 예에 불과하면, 표준 오차만, 또는 결정 계수만 이용하는 체크가 수행될 수 있고, 여러 다른 통계적 체크 또는 그 밖의 다른 성능 종료 기준(가령, 반복 횟수)이 이용될 수 있다.

제 1 반복이 개선 기준을 충족하는 데 실패했다고 가정하면, 제 2 반복이 예측 값의 새로운 세트를 결정하기 위해 제 1 특이치 바이어스 감소 데이터 계수를 원본 데이터에 적용시킴으로써 시작된다. 그 후 원본 데이터가 다시 처리되어, 제 1 특이치가 제거된 데이터 세트 계수를 이용하면서 데이터 점에 대한 절대 오차 및 상대 오차뿐 아니라 원본 데이터 세트에 대한 표준 오차와 결정 계수 값까지 확립한다. 그 후 데이터가 필터링되어 제 2 특이치가 제거된 데이터 세트를 형성하고 상기 제 2 특이치가 제거된 데이터 세트를 기초로 계수를 결정할 수 있다.

그러나 상기 제 2 특이치가 제거된 데이터 세트는 제 1 특이치가 제거된 데이터 세트의 서브세트일 필요는 없으며, 특이치 바이어스 감소 모델 계수의 제 2 세트, 제 2 표준 오차, 및 제 2 결정 계수와 연관된다. 이들 값이 결정되면, 제 2 표준 오차가 제 1 표준 오차에 비교되고 제 2 결정 계수는 제 1 결정 계수에 대해 비교될 것이다.

(표준 오차 및 결정 계수에 대한) 개선 값이 이들 파라미터의 차이를 초과하는 경우, 프로세스가 종료될 것이다. 그렇지 않은 경우, 원본 데이터를 다시 프로세싱함으로써, 또 하나의 반복이 시작될 것이며, 이번엔 제 2 특이치 바이어스 감소 계수를 이용해 원본 데이터 세트를 프로세싱하고 예측 값의 새로운 세트를 생성할 것이다. 절대 오차와 상대 오차에 대한 사용자-선택 백분위수 값을 기초로 하는 필터링이, 제 3 특이치 바이어스 감소 계수의 세트를 결정하기 위해 최적화될 제 3 특이치가 제거된 데이터 세트를 생성할 것이다. 상기 프로세스는 오차 개선 또는 그 밖의 다른 종료 기준(가령, 수렴 기준(convergence criteria) 또는 특정된 반복 횟수)이 충족될 때까지 계속될 것이다.

이 프로세스의 출력은 계수 또는 모델 파라미터의 세트일 것이며, 여기서 계소 또는 모델 파라미터는 수학적 값(또는 값들의 세트)이며, 비-제한적 예를 들면, 데이터를 비교하기 위한 모델 예측 값, 선형 수식의 기울기와 절편 값, 다항식의 지수 또는 계수가 있다. 동적 특이치 바이어스 감소의 출력은 이의 우변에서의 출력 값이 아니고, 오히려, 출력 값을 결정하기 위해 데이터를 수정할 계수일 것이다.

도 2에 도시된 또 하나의 실시예에서, 동적 특이치 바이어스 감소가 데이터 품질 기법으로서 적용되어, 데이터의 일관성(consistency) 및 정확도(accuracy)를 평가함으로써, 데이터가 특정 용도에 적절한지를 검증할 수 있다. 데이터 품질 작업을 위해, 본 방법은 반복 절차를 포함하지 않을 수 있다. 이 프로세스 동안 동적 특이치 바이어스 감소와 함께 그 밖의 다른 데이터 품질 기법이 사용될 수 있다. 상기 방법은 특정 데이터 세트의 산술 평균 계산에 적용된다. 이 예시에서 데이터 품질 기준은 연속 데이터 값(successive data value)이 일부 범위 내에 포함되는 것이다. 따라서 너무 멀리 떨어진 임의의 값은 열악한 품질의 데이터가 될 것이다. 그 후 오차 항(error term)이 함수의 연속 값으로 구성되고, 동적 특이치 바이어스 감소가 이들 오차 값에 적용된다.

단계(210)에서 초기 데이터가 임의의 순서로 나열된다.

단계(220)는 데이터 세트에 대해 수행되는 함수 또는 연산을 구성한다. 이 실시예에서, 상기 함수 및 연산은 데이터의 오름차순 순위화(ascending ranking) 및 이에 뒤 따르는 연속 산술 평균 계산이며, 여기서 각각의 선(line)은 상기 선 상의 그리고 상기 선 위의 모든 데이터의 평균에 대응한다.

단계(230)에서, 단계(220)의 결과로부터의 연속 값을 이용해 데이터로부터 값 상대 오차 및 절대 오차가 계산된다.

단계(240)에서 분석가가 원하는 특이치 제거 오차 기준(%)을 입력할 수 있다. 품질 기준 값은 단계(220)의 데이터를 기초로 한 단계(230)의 오차 계산으로부터의 최종 값이다.

단계(250)에서 데이터 품질 특이치가 필터링된 데이터 세트가 나타난다. 상대 오차 및 절대 오차가 단계(240)에서 제공된 특정 오차 기준을 초과하는 경우 특정 값이 제거된다.

단계(260)는 특이치가 제거된 완전한 데이터 세트들 간 산술 평균 계산 비교를 보여준다. 모든 적용된 수학적 또는 통계적 계산 시, 식별된 특이치 제거 데이터 요소가 실제로 열악한 품질을 갖는지 여부를 판단하기 때문에 분석가가 최종 단계이다. 동적 특이치 바이어스 감소 시스템 및 방법은 분석가가 데이터를 직접 제거하지 않게 하지만, 최적 실시 가이드라인이 실용적 타당성(practical relevance)에 대한 분석가 검토와 결과 체크를 제안한다.

도 3에 도시된 또 하나의 실시예에서, 동적 특이치 바이어스 감소가 데이터 세트의 합리적인 정확도를 시험하여 데이터가 특정 용도에 적절한지 여부를 결정하는 데이터 검증 기법으로서 적용된다. 데이터 검증 작업을 위해, 본 방법은 반복 절차를 포함하지 않을 수 있다. 이 예시에서, 동적 특이치 바이어스 감소가 2개의 데이터 세트 간 피어슨 상관 계수(Pearson Correlation Coefficient)의 계산에 적용된다. 상기 피어슨 상관 계수는 데이터 세트에서 타 데이터 점과 비교적 상이한 값에 반응할 수 있다. 이 통계치와 관련하여 데이터 세트를 검증하는 것은 결과가 극단적 값의 영향보다는 데이터의 대다수가 무엇인지를 나타냄을 보장하기 위해 중요하다. 이 예시의 데이터 검증 프로세스는 연속 데이터 값이 특정 범위 내에 있다는 것이다. 따라서 너무 멀리 떨어져 있는 임의의 값(가령, 특정 범위를 벗어난 값)은 열악한 품질의 데이터를 의미할 것이다. 이는 함수의 연속 값의 오차 항을 구성함으로써 이뤄진다. 동적 특이치 바이어스 감소가 이들 오차 값에 적용되고, 특이치가 제거된 데이터 세트가 검증된 데이터이다.

단계(310)에서, 데이터 쌍(paired data)이 임의의 순서로 나열된다.

단계(320)에서 데이터 세트 내 각각의 순서화된 쌍(ordered pair)에 대한 상대 오차 및 절대 오차가 계산된다.

단계(330)에서 분석가가 원하는 데이터 검증 기준을 입력할 수 있다. 이 예시에서, 모두 90%인 상대 오차 및 절대 오차가 선택된다. 단계(330)에서의 품질 기준 값 항목이 단계(320)에서 나타난 데이터에 대한 최종 절대 오차 및 상대 오차 백분위수 값이다.

단계(340)는 특이치 제거 프로세스를 나타내며, 여기서, 상대 오차 및 절대 오차 값 모두 단계(330)에서 입력된 사용자 선택 백분위수 값에 대응하는 값을 초과하는 기준을 이용해 유효하지 않을 수 있는(invalid) 데이터가 데이터 세트로부터 제거된다. 실시될 때, 그 밖의 다른 오차 기준이 사용될 수 있으며 복수의 기준이 이 예시에서 나타나는 것처럼 적용될 때, 오차 값의 임의의 조합이 적용되어 특이치 제거 규칙을 결정할 수 있다.

단계(350)에서, 검증된 데이터 및 원본 데이터 값 통계치 결과가 계산된다. 이 경우, 피어슨 상관 계수이다. 그 후 이들 결과가 분석가에 의한 실용적 타당성에 대해 검토된다.

또 하나의 실시예에서, 동적 특이치 바이어스 감소가 전체 데이터 세트의 검증을 수행하기 위해 사용된다. 표준 오차 개선 값, 결정 계수 개선 값, 및 절대 및 상대 오차 임계치가 선택되고, 그 후 데이터 세트가 오차 기준에 따라 필터링된다. 원본 데이터 세트가 높은 품질을 갖는 경우라도, 절대 및 상대 오차 임계치를 벗어난 오차 값을 가질 일부 데이터가 여전히 존재할 것이다. 따라서 데이터의 임의의 제거가 필요하지 여부를 결정하는 것이 중요하다. 제 1 반복 후, 특이치가 제거된 데이터 세트가 표준 오차 개선 및 결정 계수 개선 기준을 통과했다면, 필터링된 데이터 세트가 유의미하다고 간주되기 너무 작은(가령, 선택된 개선 값 미만의) 표준 오차 및 결정 계수를 생성했기 때문에, 원본 데이터 세트는 검증된 것이다.

또 다른 실시예에서, 데이터 특이치 제거의 반복이 계산에 어떻게 영향을 미치는지에 대한 통찰을 제공하기 위해 동적 특이치 바이어스 감소가 사용된다. 사용자가 각각의 반복이 수행될 때마다의 데이터 특이치 제거 계산의 진행을 관측할 수 있게 하는 그래프 또는 데이터 테이블이 제공된다. 이 단계별 접근법에 의해, 분석가가 계산의 특유의 속성을 관측할 수 있고, 이는 결과에 가치와 지식을 더할 수 있다. 예를 들어, 수렴의 속도와 속성이 동적 특이치 바이어스 감소가 다차원 데이터 세트에 대한 대표적 팩터를 계산하는 데 미치는 영향을 나타낼 수 있다.

도시된 바와 같이, 87개의 레코드의 열악한 품질의 데이터 세트에 대한 선형 회귀 계산을 고려하자. 회귀되는 수식의 형태는 y = mx + b이다. 표 1은 5번의 반복에 대한 반복 프로세스의 결과를 보여준다. 95%의 상대 및 절대 오차 기준을 이용할 때, 수렴은 3회 반복 내에 이뤄짐을 주목하라. 회귀 계수(regression coefficient)의 변화가 관측될 수 있고 동적 특이치 바이어스 감소 방법이 79개의 레코드를 기초로 하는 계산 데이터 세트를 감소시킨다. 비교적 낮은 결정 계수(r2=39%)가 r²통계치와 계산된 회귀 계수에 미치는 추가 특이치 제거 영향을 연구하기 위해서는 더 낮은(<95%) 기준이 시험되어야 함을 암시한다.

표 2에서, 80%의 상대 및 절대 오차 기준을 이용해 동적 특이치 바이어스 검소를 적용한 결과가 나타난다. 특이치 오차 기준의 15% 점(95% 내지 80%) 변화가 r²의 35 퍼센트 포인트 증가(39%에서 74%)와 용인된 데이터(admitted data)의 35% 추가 감소(포함된 레코드가 79개에서 51개로 감소)를 생성했음에 주목할 수 있다. 분석가는 특이치가 제거된 결과를 더 많은 청중들에게 전달하고 데이터 가변성이 분석 결과에 미치는 영향과 관련된 더 많은 통찰을 제공하기 위해 분석 프로세스에서 특이치가 제거된 데이터를 포함하는 회귀 선(regression line)의 변화, 표 1 및 2의 수치 결과의 그래픽 뷰를 이용할 수 있다.

도 4에서 도시된 바와 같이, 본 방법을 수행하기 위해 사용되는 시스템의 하나의 실시예가 컴퓨팅 시스템을 포함한다. 하드웨어는 필요한 수치 계산을 수행하기 위해 적절한 시스템 메모리(420)를 포함하는 프로세서(410)를 포함한다. 상기 프로세서(410)는 시스템 메모리(420) 내에 위치하는 컴퓨터 프로그램을 실행시켜 방법을 수행하게 한다. 디스플레이(440)의 동작을 활성화시키도록 비디오 및 저장장치 제어기(430)가 사용될 수 있다. 시스템은 데이터 입력을 위한 다양한 데이터 저장 장치, 가령, 플로피 디스크 유닛(450), 내부/외부 디스크 드라이브(460), 내부 CD/DVD(470), 테이프 유닛(480), 및 그 밖의 다른 유형의 전자 저장 매체(490)를 포함한다. 앞서 언급된 데이터 저장 장치는 단지 예시에 불과하다. 이들 저장 매체는 데이터 세트 및 특이치 제거 기준을 시스템에 입력하고, 특이치가 제거된 데이터 세트를 저장하며, 계산된 팩터를 저장하고, 시스템이 생성한 추세 선(trend line) 및 추세 선 반복 그래프를 저장하도록 사용된다. 계산은 통계 소프트웨어 패키지를 적용하거나, 가령, Microsoft Excel을 이용한 스프레드시트 포맷으로 입력된 데이터로부터 수행될 수 있다. 상기 계산은 회사 특정적 시스템 구현예를 위해 설계된 커스텀화된 소프트웨어 프로그램을 이용해 또는 Excel이나 그 밖의 다른 데이터베이스 및 스프레드시트 프로그램과 호환가능한 상용화된 소프트웨어를 이용해 수행된다. 또한 시스템은 다른 데이터베이스와 링크되어 동적 특이치 바이어스 감소 시스템 및 방법 계산에서 사용될 데이터를 제공하기 위해 사설 또는 공중 외부 저장 매체(300)와 인터페이싱할 수 있다. 출력 장치는 계산 워크시트 및 그 밖의 다른 시스템 생성 그래프 및 리포트를 인트라넷 또는 인터넷을 통해 관리자나 그 밖의 다른 사람에게 전송하기 위한 원격통신 장치(510), 프린터(520), 입력 장치(450, 460, 470, 480, 490)로서 앞서 언급된 전자 저장 매체 및 사설 저장 데이터베이스(530)일 수 있다. 본원에서 사용되는 이들 출력 장치는 예시에 불과하다.

도 5, 6A, 6B, 7A, 7B, 8A, 및 8B에 도시되어 있는 바와 같이, 하나의 실시예에서, 동적 특이치 바이어스 감소는, 적절 범위 내에서 형성된 랜덤 데이터 값으로 구성된 벤치마크 데이터 세트의 오차 및 상관에 비교되는, 오차 및 데이터 세트의 데이터 값들의 상관을 기초로 하여 데이터 세트의 품질을 정량적 및 정성적으로 평가하기 위해 사용될 수 있다. 하나의 실시예에서, 오차가 데이터 세트의 표준 오차로 지정될 수 있고, 상관은 데이터 세트의 결정 계수(r²)로 지정될 수 있다. 하나의 실시예에서, 상관은 켄달 순위 상관 계수(Kendall rank correlation coefficient)(일반적으로 켄달의 타우(τ) 계수라고 일컬어짐)이도록 지정될 수 있다. 또 다른 실시예에서, 상관이 스피어맨 순위 상관 계수(Spearman's rank correlation coefficient), 즉, 스피어맨의 로(ρ) 계수로 지정될 수 있다. 앞서 설명한 바와 같이, 동적 특이치 바이어스 감소는 기술된 기저 모델 또는 프로세스를 나타내지 않는 특이치로 식별된 데이터 값을 체계적으로 제거하도록 사용된다. 일반적으로 특이치는 비교적 적은 개수의 데이터 값과 연관된다. 그러나 실시될 때, 데이터 세트는 의사 값(spurious value) 또는 랜덤 노이즈(random noise)에 의해 알지 못하게 오염될 수 있다. 도 5, 6A, 6B, 7A, 7B, 8A, 및 8B의 그래픽 표현이 기저 모델이 데이터에 의해 뒷받침되지 않는 상황을 식별하기 위해 동적 특이치 바이어스 감소 시스템 및 방법이 적용될 수 있는 방식을 도시한다. 예측된 모델과 실제 데이터 값 간에 계산된 상대 및/또는 절대 오차가 백분위수-기반 바이어스 기준, 가령, 80%보다 큰 경우 데이터 값을 제거함으로써 특이치 감소가 수행된다. 이는 상대 또는 절대 오차 백분위수 값이 80번째 백분위수와 연관된 백분위수 임계 값보다 큰 경우(데이터 값의 80%가 이 값 미만의 오차를 갖는 경우) 데이터 값이 제거됨을 의미한다.

도 5에 도시된 바와 같이, 사실 모델(realistic model) 개발 데이터 세트와 실제 데이터세ㅌ의 범위 내에서 개발된 랜덤 값의 데이터 세트가 비교된다. 실제로는 분석가가 임의의 데이터 세트 오염에 대한 사전 지식을 갖지 않기 때문에, 이러한 사실화(realization) 동적 특이치 바이어스 감소 시스템 및 방법을 이용해 몇 개의 모델 계산으로부터의 반복 결과를 관측하는 것으로부터 이뤄져야 한다. 도 5는 두 데이터 세트 모두에 대한 예시적 모델 개발 계산 결과를 도시한다. 표준 오차, 모델의 설명되지 않는 오차의 크기의 측정치가 결정 계수(%) 즉 r²에 대해 도표로 그려져서, 얼마나 많은 데이터 변차가 모델에 의해 설명되는지를 나타낸다. 각각의 점들 옆의 백분위수 값은 바이어스 기준을 나타낸다. 예를 들어, 90%는 90번째 백분위수보다 큰 절대 또는 상대 오차 값에 대한 데이터 값이 특이치로서 모델로부터 제거되는 것을 의미한다. 이는 각각의 반복에서 가장 높은 오차를 갖는 데이터 값의 10%를 제거하는 것에 대응한다.

도 5는 랜덤 데이터 세트 모델과 사실 데이터 세트 모델 모두에 대해, 바이어스 기준을 증가시킴으로써 오차가 감소됨, 즉, 두 데이터 세트 모두에 대해 표준 오차 및 결정 계수가 개선됨을 도시한다. 그러나 랜덤 데이터 세트에 대한 표준 오차는 사실 모델 데이터 세트보다 2 내지 3배 더 크다. 분석가는 80%의 결정 계수 요건을 예를 들어, 모델 파라미터를 결정하기 위해 수락 가능한 정확도 레벨로서 이용할 수 있다. 도 5에서, 랜덤 데이터 세트의 경우 70% 바이어스 기준에서, 그리고 사실 데이터의 경우 대략 85% 바이어스 기준에서 80%의 r²가 얻어진다. 그러나 랜덤 데이터 세트에 대한 대응하는 표준 오차가 사실 데이터 세트보다 2배 이상 크다. 따라서 서로 다른 바이어스 기준을 갖는 모델 데이터 세트 분석을 체계적으로 실행시키고 대표적인 의사 데이터 세트(spurious dataset)에 대한 계산을 반복하고 도 5에 도시된 것처럼 결과를 도표로 그림으로써, 분석가는 데이터 세트에 대한 수락 가능한 바이어스 기준(즉, 제거되는 데이터 값의 수락 가능한 퍼센트율), 그리고 따라서 전체 데이터 세트 품질을 평가할 수 있다. 덧붙여, 이러한 체계적 모델 데이터 세트 분석은 파라미터의 구성 가능한 세트를 기초로 모델을 개발할 때 사용되는 데이터 세트의 생존 가능성(viability)에 대한 조언을 자동으로 렌더링하도록 사용될 수 있다. 예를 들어, 데이터 세트에 대해 동적 특이치 바이어스 제거를 이용해 모델이 개발되는 하나의 실시예에서, 서로 다른 바이어스 기준 하에서 계산된 모델 데이터 세트 및 대표적인 의사 데이터 세트에 대한 오차 및 상관 계수 값이 사용되어 개발된 모델을 뒷받침하는 데 있어 데이터 세트의 생존 가능성, 및 내재적으로, 데이터 세트를 뒷받침하는 데 있어 개발된 모델의 생존 가능성(viability)에 대한 조언을 자동으로 렌더링할 수 있다.

도 5에서 도시된 바와 같이, 몇 가지 경우에 대해 이들 모델 수행의 거동을 관측하는 것은 데이터 값이 모델링되는 프로세싱을 대표하는지 여부를 결정하기 위한 정량적 토대를 제공한다. 예를 들어, 도 5를 참조하면, 사실 데이터 세트의 경우의 100% 바이어스 기준(즉, 바이어스 감소가 없음)에서의 표준 오차가, 랜덤 데이터 세트의 경우의 약 65% 바이어스 기준(즉, 데이터 값 중 가장 높은 오차를 갖는 35%가 제거됨)에서의 표준 오차에 대응한다. 이러한 발견은 데이터가 오염되지 않았다는 결론을 뒷받침한다.

도 5의 도시된 그래프에 의해 촉진된 앞서 기재된 정량적 분석에 추가로, 데이터 세트의 품질을 평가하는 데 도움이 되기 위한 주관적인 절차에서 동적 특이치 바이어스 감소가, 더 강력하진 않더라도, 동등하게 활용될 수 있다. 이는 특이치와 포함된 결과 모두에 대해 데이터의 실제 타깃 값에 대해 모델 예측 값을 도표로 그림으로써 이뤄진다.

도 6A 및 6B는 도 5의 사실 곡선과 랜덤 곡선 모두의 100% 점에 대한 이들 도표를 도시한다. 도 6A에서의 넓은 산포도가 임의의 타깃 값과, 이러한 의도적 랜덤성(randomness)에 들어 맞을 수 없는 모델의 최종 불능(inability)과 일치한다. 도 6B는 실제 데이터 수집과 모델 정확도 및 실제 값이 모델 예측 값이 실제 타깃 값과 동일한 선(이하, 실제 = 예측 선)을 부근에서 그룹지어 진다는 점에서 일치하고 공통적이다.

도 7A 및 7B는 도 5에서의 70% 점들로부터의 결과를 도시한다(즉, 데이터의 30%가 특이치로서 제거됨). 도 7A 및 7B에서, 특이치 바이어스 감소는 실제-예측 선으로부터 가장 멀리 떨어진 점을 제거하는 것으로 나타나지만, 도 7A와 7B 간의 모델 정확도의 큰 변차가 이 데이터 세트가 모델링된 프로세스를 대표함을 암시한다.

도 8A 및 8B는 도 5에서의 50% 점들로부터의 결과를 도시한다(즉, 데이터의 50%가 특이치로서 제거됨). 이 경우, 데이터의 약 절반이 특이치로서 식별되며, 도 8A에서 모델로부터 이러한 많은 변차가 제거되는 경우에도, 여전히 랜덤 데이터 세트를 엄밀하게 기술하지 않는다. 실제 = 예측 선 부근에서의 일반적인 변차가, 각각의 경우에서 제거된 데이터를 고려하면, 도 6A 및 7A에서의 것과 거의 동일하다. 도 8B는 변산도의 50%가 제거된 경우, 모델이 실제 데이터와 밀접하게 매칭되는 예측 결과를 생성할 수 있었음을 보여준다. 도 5에 도시된 수행 기준의 분석에 추가로 이들 유형의 시각적 도표를 분석하는 것이 분석가에 의해 사용되어 모델 개발을 위해 현장에서 실제 데이터 세트의 품질을 평가할 수 있다. 도 5, 6A, 6B, 7A, 7B, 8A, 및 8B가 시각적 도표를 도시하지만, 분석은 다양한 바이어스 기준 값에 대응하는 수행 기준 추세를 기초로 하며, 또 다른 실시예에서, 분석은 바이어스 기준 값에 대응하는 다른 변수, 가령, 분석가에 의해 선택된 다양한 바이어스 기준에 대응하는 모델 계수 추세를 기초로 할 수 있다.

본 발명의 바람직한 실시예의 상기의 개시 내용 및 기재는 예시에 불과하고 도시된 시스템 및 방법의 세부사항의 다양한 변화가 본 발명의 범위 내에서 이뤄질 수 있다.

Claims

특이치 바이어스(outlier bias)를 감소시키기 위한 컴퓨터-구현 방법으로서, 상기 방법은,
바이어스 기준을 선택하는 단계,
데이터 세트를 제공하는 단계,
모델 계수(model coefficient)의 세트를 제공하는 단계,
타깃 값의 세트를 선택하는 단계,
(1) 상기 데이터 세트에 대한 예측 값의 세트를 생성하는 단계,
(2) 상기 데이터 세트에 대한 오차 세트(error set)를 생성하는 단계,
(3) 상기 오차 세트 및 상기 바이어스 기준을 기초로 오차 임계값의 세트를 생성하는 단계,
(4) 프로세서에 의해, 상기 오차 세트 및 오차 임계값의 세트를 기초로 중도절단된 데이터 세트(censored data set)를 생성하는 단계,
(5) 상기 프로세서에 의해, 새 모델 계수의 세트를 생성하는 단계, 및
(6) 상기 새 모델 계수의 세트를 이용해, 중도절단 성능 종료 기준(censoring performance termination criteria)이 만족되지 않는 한, 단계(1)-(5)를 반복하는 단계
를 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제1항에 있어서, 상기 데이터 세트 및 모델 계수의 세트를 기초로 예측 값의 세트가 생성되는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제1항에 있어서, 상기 오차 세트는 예측 값의 세트 및 타깃 값의 세트를 기초로 생성되는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제3항에 있어서, 상기 오차 세트는 공식
상대 오차_m = ((예측 값_m - 실제 값_m)/실제 값_m)²
을 이용해 생성된 상대 오차의 세트이며, 여기서 'm'은 참조 번호인, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제3항에 있어서, 상기 오차 세트는 공식
절대 오차_m = (예측 값_m - 실제 값_m)²
을 이용해 생성된 절대 오차이며, 여기서 'm'은 참조 번호인, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제3항에 있어서, 상기 오차 세트는 절대 오차의 세트 및 상대 오차의 세트인, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제3항에 있어서, 상기 오차 세트는 타깃 값의 세트와 예측 값의 세트의 차이인, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제1항에 있어서, 새 모델 계수의 세트는 중도절단된 데이터 세트 및 모델 계수의 세트를 기초로 생성되는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제1항에 있어서, 상기 중도절단된 데이터 세트를 생성하는 단계는
오차 임계값의 세트 밖의 값을 갖는 데이터를 제거하는 단계를 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제1항에 있어서,
모델 계수의 세트와 타깃 값의 세트를 기초로 성능 값(performance value)의 세트를 생성하는 단계,
새 모델 계수의 세트와 타깃 값의 세트를 기초로 새 성능 값의 세트를 생성하는 단계를 더 포함하며,
중도절단 수행 종료를 만족시키는 것은 성능 값의 세트 및 새 성능 값의 세트를 기초로 하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제10항에 있어서,
성능 값의 세트는, 제 1 표준 오차 값 및 제 1 결정 계수 값 중 적어도 하나를 포함하고,
새 성능 값의 세트는, 제 2 표준 오차 값 및 제 2 결정 계수 값 중 적어도 하나를 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제1항에 있어서, 상기 중도절단 성능 종료 기준은 표준 오차를 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제1항에 있어서, 상기 중도절단 성능 종료 기준은 결정 계수를 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제1항에 있어서, 새 계수의 세트를 생성하는 단계는
예측 값의 세트와 실제 값의 세트 간의 오차의 세트를 최소화하는 단계를 더 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제14항에 있어서, 예측 값의 세트와 실제 값의 세트 간의 오차의 세트는 비선형 최적화 모델(nonlinear optimization model)을 이용해 최소화되는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제14항에 있어서, 선형 최적화 모델을 이용해 예측 값의 세트와 실제 값의 세트 간의 오차의 세트가 최소화되는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제1항에 있어서, 데이터 세트는 설비(facility)에 대한 성능 값을 포함하고, 상기 설비는, 산업 공장 설비, 발전 설비, 및 정유 설비 중 적어도 하나인, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제1항에 있어서,
상기 데이터 세트를 기초로 랜덤 데이터 세트를 생성하는 단계,
상기 중도절단 성능 종료 기준이 만족될 때까지 상기 랜덤 데이터에 대해 단계 (1)-(6)를 반복하는 단계,
상기 바이어스 기준에 대응하는 데이터 세트 및 랜덤 데이터 세트에 대한 최종 성능 값의 세트를 생성하는 단계,
제 2 바이어스 기준을 선택하는 단계,
중도절단 성능 종료 기준이 만족될 때까지 제 2 바이어스 기준을 이용해 데이터 세트 및 랜덤 데이터 세트에 대해 단계(1)-(6)를 반복하는 단계,
제 2 바이어스 기준을 기초로 하여 데이터 세트 및 랜덤 데이터 세트에 대해 최종 성능 값의 제 2 세트를 생성하는 단계, 및
데이터 세트에 대한 최종 성능 값의 세트 및 최종 성능 값의 제 2 세트를 랜덤 데이터 세트에 대한 최종 성능 값의 세트 및 최종 성능 값의 제 2 세트에 비교하는 단계
를 더 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제18항에 있어서, 상기 랜덤 데이터 세트는 데이터 세트 내 값들의 범위 내 값들로부터 개발된 랜덤화된 데이터 값을 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법으로서, 상기 방법은
설비(facility)에 대한 타깃 변수(target variable)를 선택하는 단계,
상기 타깃 변수의 실제 값들의 세트를 선택하는 단계,
상기 타깃 변수와 관련된 상기 설비에 대한 복수의 변수를 식별하는 단계,
상기 설비에 대한 데이터 세트를 획득하는 단계 - 상기 데이터 세트는 복수의 변수에 대한 값을 포함함 - ,
바이어스 기준을 선택하는 단계,
모델 계수의 세트를 선택하는 단계,
(1) 데이터 세트 및 모델 계수의 세트를 기초로 하여 예측 값의 세트를 생성하는 단계,
(2) 예측 값의 세트 및 실제 값의 세트를 기초로 하여 중도절단 모델 성능 값의 세트를 생성하는 단계,
(3) 타깃 변수에 대한 예측 값의 세트와 실제 값의 세트를 기초로 오차 세트를 생성하는 단계,
(4) 상기 오차 세트 및 상기 바이어스 기준을 기초로 오차 임계값의 세트를 생성하는 단계,
(5) 프로세서에 의해, 데이터 세트 및 오차 임계값의 세트를 기초로 하여 중도절단된 데이터 세트를 생성하는 단계,
(6) 프로세서에 의해, 중도절단된 데이터 세트 및 모델 계수의 세트를 기초로 새 모델 계수의 세트를 생성하는 단계,
(7) 프로세서에 의해, 상기 데이터 세트 및 새 모델 계수의 세트를 기초로 새 예측 값의 세트를 생성하는 단계,
(8) 새 예측 값의 세트 및 실제 값의 세트를 기초로 새 중도절단 모델 성능 값의 세트를 생성하는 단계,
새 계수의 세트를 이용해, 중도절단 성능 종료 기준이 만족되지 않는 한, 단계(1)-(8)을 반복하는 단계, 및
새 모델 예측 값의 세트를 컴퓨터 데이터 매체에 저장하는 단계
를 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제20항에 있어서, 바이어스 기준은 상대 오차, 및 절대 오차 중 적어도 하나를 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제20항에 있어서, 중도절단 모델 성능 값의 세트는, 제 1 표준 오차 및 제 1 결정 계수를 포함하며,
새 중도절단 모델 성능 값의 세트는, 제 2 표준 오차 및 제 2 결정 계수를 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제20항에 있어서, 상기 오차 세트는 상대 오차 및 절대 오차 중 적어도 하나를 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제20항에 있어서, 상기 중도절단된 데이터 세트는 오차 임계값의 세트 밖의 오차 값을 갖는 데이터를 제거함으로써 생성되는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제20항에 있어서, 새 모델 계수의 세트는, 선형 최적화 모델과 비선형 최적화 모델 중 적어도 하나를 이용해 예측 값의 세트와 실제 값의 세트 간의 오차를 최소화함으로써 생성되는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
제20항에 있어서,
상기 중도절단 성능 종료 기준은
표준 오차 종료 값 및 결정 계수 종료 값을 포함하고,
중도절단 성능 종료 기준의 만족은,
상기 표준 오차 종료 값이 제 1 표준 오차와 제 2 표준 오차 간의 차이보다 큰 것,
상기 결정 계수 종료 값이 제 1 결정 계수와 제 2 결정 계수 간 차이보다 큰 것을 포함하는, 특이치 바이어스를 감소시키기 위한 컴퓨터-구현 방법.
모델을 개발할 때 사용되는 데이터 세트의 생존 가능성(viability)을 평가하기 위한 컴퓨터-구현 방법으로서, 상기 방법은
복수의 모델 예측 값을 포함하는 타깃 데이터 세트를 제공하는 단계,
타깃 데이터 세트를 기초로 랜덤 타깃 데이터 세트를 생성하는 단계,
바이어스 기준 값의 세트를 선택하는 단계,
프로세서에 의해, 타깃 데이터 세트 및 선택된 바이어스 기준 값 각각을 기초로 특이치 바이어스(outlier bias)가 감소된 타깃 데이터 세트를 생성하는 단계,
프로세서에 의해, 랜덤 타깃 데이터 세트 및 선택된 바이어스 기준 값 각각을 기초로 특이치 바이어스가 감소된 랜덤 타깃 데이터 세트를 생성하는 단계,
상기 특이치 바이어스가 감소된 데이터 세트와 상기 특이치 바이어스가 감소된 랜덤 데이터 세트에 대한 오차 값의 세트를 계산하는 단계,
상기 특이치 바이어스가 감소된 데이터 세트 및 상기 특이치 바이어스 감소된 랜덤 데이터 세트에 대한 상관 계수(correlation coefficient)의 세트를 계산하는 단계,
프로세서에 의해, 각각의 선택된 바이어스 기준에 대한 대응하는 오차 값 및 상관 계수를 기초로 타깃 데이터 세트에 대한 바이어스 기준 곡선 및 랜덤 타깃 데이터 세트에 대한 바이어스 기준 곡선을 생성하는 단계, 및
상기 타깃 데이터 세트에 대한 상기 바이어스 기준 곡선을 상기 랜덤 타깃 데이터 세트에 대한 바이어스 기준 곡선에 비교하는 단계
를 포함하는, 데이터 세트의 생존 가능성을 평가하기 위한 컴퓨터-구현 방법.
제27항에 있어서,
상기 랜덤 타깃 데이터 세트는 복수의 모델 예측 값의 범위 내의 값들로부터 개발된 랜덤화된 데이터 값으로 구성되며, 상기 방법은
상기 타깃 데이터 세트에 대한 바이어스 기준 곡선을 랜덤 타깃 데이터 세트에 대한 바이어스 기준 값에 비교한 것을 기초로 자동 어드바이스(automated advice)를 생성하는 단계를 더 포함하는, 데이터 세트의 생존 가능성을 평가하기 위한 컴퓨터-구현 방법.
제27항에 있어서, 오차 값의 세트는 표준 오차의 세트를 포함하고, 상관 계수의 세트는 결정 계수 값의 세트를 포함하는, 데이터 세트의 생존 가능성을 평가하기 위한 컴퓨터-구현 방법.
제27항에 있어서,
모델 예측 값에 대응하는 복수의 실제 데이터 값을 포함하는 실제 데이터 세트를 제공하는 단계,
상기 실제 데이터 세트를 기초로 하여 랜덤 실제 데이터 세트를 생성하는 단계,
프로세서에 의해, 실제 데이터 세트 및 선택된 바이어스 기준 값 각각을 기초로 특이치 바이어스가 감소된 실제 데이터 세트를 생성하는 단계,
프로세서에 의해, 랜덤 실제 데이터 세트 및 선택된 바이어스 기준 값 각가을 기초로 특이치 바이어스가 감소된 랜덤 실제 데이터 세트를 생성하는 단계,
각각의 선택된 바이어스 기준에 대해, 특이치 바이어스가 감소된 랜덤 타깃 데이터 세트 및 특이치 바이어스가 감소된 랜덤 실제 데이터를 기초로 랜덤 데이터 플롯(random data plot)을 생성하는 단계,
각각의 선택된 바이어스 기준에 대해, 특이치 바이어스가 감소된 타깃 데이터 세트 및 특이치 바이어스가 감소된 실제 타깃 데이터 세트를 기초로 실제 데이터 플롯(realistic data plot)을 생성하는 단계, 및
상기 랜덤 데이터 플롯을 선택된 바이어스 기준 각각에 대응하는 상기 실제 데이터 플롯에 비교하는 단계
를 더 포함하는 데이터 세트의 생존 가능성을 평가하기 위한 컴퓨터-구현 방법.
시스템으로서, 상기 시스템은
프로세서 및 저장 서브시스템을 포함하는 서버,
데이터 세트를 포함하며 저장 서브시스템에 의해 저장되는 데이터베이스,
저장 서브시스템에 의해 저장되는 컴퓨터 프로그램
을 포함하며, 상기 컴퓨터 프로그램은, 실행될 때, 상기 프로세서로 하여금
바이어스 기준을 선택하고,
모델 계수의 세트를 제공하며,
타깃 값의 세트를 선택하고,
(1) 상기 데이터 세트에 대한 예측 값의 세트를 생성하며,
(2) 상기 데이터 세트에 대한 오차 세트를 생성하고,
(3) 오차 세트 및 바이어스 기준을 기초로 오차 임계값의 세트를 생성하고,
(4) 상기 오차 세트 및 오차 임계값의 세트를 기초로 중도절단된 데이터 세트를 생성하며,
(5) 새 모델 계수의 세트를 생성하고,
(6) 새 모델 계수의 세트를 이용해, 중도절단 성능 종료 기준(censoring performance termination criteria)이 만족되지 않는 한, (1)-(5)를 반복하게 하는 명령을 포함하는, 시스템.
제31항에 있어서, 예측 값의 세트는 데이터 세트 및 모델 계수의 세트를 기초로 생성되는, 시스템.
제31항에 있어서, 상기 오차 세트는 예측 값의 세트 및 타깃 값의 세트를 기초로 생성되는, 시스템.
제33항에 있어서, 상기 오차 세트는 공식
상대 오차_m = ((예측 값_m - 실제 값_m)/실제 값_m)²
을 이용해 생성된 상대 오차의 세트이며, 여기서 'm'은 참조 번호인, 시스템.
제33항에 있어서, 상기 오차 세트는 공식
절대 오차_m = (예측 값_m - 실제 값_m)²
을 이용해 생성된 절대 오차의 세트이며, 여기서 'm'은 참조 번호인, 시스템.
제33항에 있어서, 상기 오차 세트는 절대 오차의 세트 및 상대 오차의 세트인, 시스템.
제33항에 있어서, 상기 오차 세트는 타깃 값의 세트와 예측 값의 세트 간의 차이인, 시스템.
제31항에 있어서, 새 모델 계수의 세트는 중도절단된 데이터 세트 및 모델 계수의 세트를 기초로 생성되는, 시스템.
제31항에 있어서, 중도절단된 데이터 세트는 오차 임계값의 세트 밖의 값을 갖는 데이터를 제거함으로써 생성되는, 시스템.
제31항에 있어서, 상기 프로그램은, 실행될 때, 프로세서로 하여금,
모델 계수의 세트 및 타깃 값의 세트를 기초로 성능 값의 세트를 생성하고,
새 모델 계수의 세트 및 타깃 값의 세트를 기초로 새 성능 값의 세트를 생성하도록 하는 명령을 더 포함하며,
중도절단 성능 종료를 만족시키는 것은 성능 값의 세트와 새 성능 값의 세트을 기초로 하는, 시스템.
제40항에 있어서, 성능 값의 세트는 제 1 표준 오차 값과 제 1 결정 계수 값 중 적어도 하나를 포함하고,
새 성능 값의 세트는 제 2 표준 오차 값과 제 2 결정 계수 값 중 적어도 하나를 포함하는, 시스템.
제31항에 있어서, 상기 중도절단 성능 종료 기준(censoring performance termination criteria)은 표준 오차를 포함하는, 시스템.
제31항에 있어서, 상기 중도절단 성능 종료 기준은 결정 계수를 포함하는, 시스템.
제31항에 있어서, 새 모델 계수의 세트를 생성하는 것은 예측 값의 세트와 실제 값의 세트 간의 오차의 세트를 최소화하는 것을 포함하는, 시스템.
제44항에 있어서, 예측 값의 세트와 실제 값의 세트 간의 오차의 세트는 비선형 최적화 모델을 이용해 최소화되는, 시스템.
제44항에 있어서, 예측 값의 세트와 실제 값의 세트 간의 오차의 세트는 선형 최적화 모델을 이용해 최소화되는, 시스템.
제31항에 있어서, 데이터 세트는 설비(facility)에 대한 성능 값을 포함하고, 상기 설비는, 산업 공장 설비, 발전 설비, 및 정유 설비 중 적어도 하나인, 시스템.
제31항에 있어서, 상기 프로그램은, 실행될 때 프로세서로 하여금
데이터 세트를 기초로 랜덤 데이터 세트를 생성하고,
중도절단 성능 종료 기준이 만족될 때까지 상기 랜덤 데이터 세트에 대해 (1)-(6)를 반복하며,
데이터 세트와 대응하는 바이어스 기준에 대응하는 랜덤 데이터 세트에 대해 최종 성능 값의 세트를 생성하고,
제 2 바이어스 기준을 선택하며,
중도절단 성능 종료 기준이 만족될 때까지 제 2 바이어스 기준을 이용해 데이터 세트 및 랜덤 데이터 세트에 대해 (1)-(6)를 반복하고,
데이터 세트 및 랜덤 데이터 세트에 대해 상기 제 2 바이어스 기준을 기초로 최종 성능 값의 제 2 세트를 생성하고,
데이터 세트에 대한 최종 성능 값의 세트와 최종 성능 값의 제 2 세트를 랜덤 데이터 세트에 대한 최종 성능 값의 세트와 최종 성능 값의 제 2 세트에 비교하게 하는 명령을 더 포함하는, 시스템.
제48항에 있어서, 상기 랜덤 데이터 세트는 데이터 세트 내 값들의 범위 내 값에서부터 개발된 랜덤화된 데이터 값으로 구성된, 시스템.
시스템으로서, 상기 시스템은
프로세서와 저장 서브시스템을 포함하는 서버,
저장 서브시스템에 의해 저장되는 데이터베이스 - 상기 데이터베이스는
설비(facility)에 대한 타깃 변수,
타깃 변수의 실제 값의 세트,
상기 타깃 변수와 관련된 설비에 대한 복수의 변수,
복수의 변수에 대한 값들을 포함하는 상기 설비에 대한 데이터 세트를 포함함 - ,
상기 저장 서브시스템에 의해 저장되는 컴퓨터 프로그램
을 포함하며, 상기 컴퓨터 프로그램은, 실행될 때 프로세서로 하여금,
바이어스 기준을 선택하고,
모델 계수의 세트를 선택하며,
(1) 데이터 세트 및 모델 계수의 세트를 기초로 예측 값의 세트를 생성하고,
(2) 예측 값의 세트 및 실제 값의 세트를 기초로 중도절단 모델 성능 값의 세트를 생성하며,
(3) 예측 값의 세트 및 타깃 변수에 대한 실제 값의 세트를 기초로 오차 세트를 생성하고,
(4) 오차 세트 및 바이어스 기준을 기초로 오차 임계치의 세트를 생성하고,
(5) 데이터 세트 및 오차 임계치의 세트를 기초로 중도절단된 데이터 세트를 생성하며,
(6) 중도절단된 데이터 세트 및 모델 계수의 세트를 기초로 새 모델 계수의 세트를 생성하고,
(7) 데이터 세트 및 새 모델 계수의 세트를 기초로 새 예측 값의 세트를 생성하며,
(8) 새 예측 값의 세트 및 실제 값의 세트를 기초로 새 중도절단 모델 성능 값의 세트를 생성하고,
새 계수의 세트를 이용해, 중도절단 성능 종료 기준(censoring performance termination criteria)이 만족되지 않는 한, (1)-(8)를 반복하고,
새 모델 예측 값의 세트를 저장 서브시스템에 저장하게 하는 명령을 포함하는, 시스템.
제50항에 있어서, 상기 바이어스 기준은, 상대 오차 및 절대 오차 중 적어도 하나를 포함하는, 시스템.
제50항에 있어서, 중도절단 모델 성능 값의 세트는 제 1 표준 오차 및 제 1 결정 계수를 포함하고, 새 중도절단 모델 성능 값의 세트는 제 2 표준 오차 및 제 2 결정 계수를 포함하는, 시스템.
제50항에 있어서, 상기 오차 세트는 상대 오차 및 절대 오차 중 적어도 하나를 포함하는, 시스템.
제50항에 있어서, 오차 임계값의 세트 밖의 오차 값을 갖는 데이터를 제거함으로써, 중도절단된 데이터 세트가 생성되는, 시스템.
제50항에 있어서, 중도절단 계수(censored factor)의 생성은, 예측 값의 세트와 실제 값의 세트 간의 오차의 세트를 최소화하는 것을 포함하는, 시스템.
제50항에 있어서, 상기 중도절단 성능 종료 기준은,
표준 오차 결정 값, 및
결정 계수 종료 값을 포함하고,
중도절단 성능 종료 기준의 만족은,
표준 오차 결정 값이 제 1 표준 오차와 제 2 표준 오차 간의 차이보다 큰 것, 및
결정 계수 결정 값이 제 1 결정 계수와 제 2 결정 계수 간의 차이보다 큰 것을 포함하는, 시스템.
모델을 개발할 때 사용되는 데이터 세트의 생존 가능성(viability)을 평가하기 위한 시스템으로서, 상기 시스템은,
프로세서 및 저장 서브시스템을 포함하는 서버,
복수의 모델 예측 값을 포함하는 타깃 데이터 세트를 포함하는 상기 저장 서브시스템에 의해 저장되는 데이터베이스,
저장 서브시스템에 의해 저장되는 컴퓨터 프로그램
을 포함하며, 상기 컴퓨터 프로그램은, 실행될 때 상기 프로세서로 하여금,
랜덤 타깃 데이터 세트를 생성하고,
바이어스 기준 값의 세트를 선택하며,
타깃 데이터 세트 및 선택된 바이어스 기준 값 각각을 기초로 특이치 바이어스가 감소된 데이터 세트를 생성하고,
랜덤 타깃 데이터 세트 및 선택된 바이어스 기준 값 각각을 기초로 특이치 바이어스가 감소된 랜덤 타깃 데이터 세트를 생성하며,
상기 특이치 바이어스가 감소된 타깃 데이터 세트 및 특이치 바이어스가 감소된 랜덤 타깃 데이터 세트에 대한 오차 값의 세트를 계산하고,
특이치 바이어스가 감소된 타깃 데이터 세트와 특이치 바이어스가 감소된 랜덤 타깃 데이터 세트에 대한 상관 계수의 세트를 계산하며,
각각의 선택된 바이어스 기준에 대한 대응하는 오차 값과 상관 계수를 기초로 타깃 데이터 세트 및 랜덤 타깃 데이터 세트에 대한 바이어스 기준 곡선을 생성하고,
타깃 데이터 세트에 대한 바이어스 기준 곡선을 랜덤 타깃 데이터 세트에 대한 바이어스 기준 곡선에 비교하게 하는 명령을 포함하는, 데이터 세트의 생존 가능성을 평가하기 위한 시스템.
제57항에 있어서, 상기 랜덤 데이터 세트는 복수의 데이터 값의 범위 내의 값으로부터 개발된 랜덤화된 데이터 값을 포함하고, 상기 프로그램은, 실행될 때 상기 프로세서로 하여금,
상기 타깃 데이터 세트에 대한 바이어스 기준 곡선을 랜덤 타깃 데이터 세트에 대한 바이어스 기준 값에 비교한 것을 기초로 자동 어드바이스(automated advice)를 생성하게 하는 명령을 더 포함하는, 데이터 세트의 생존 가능성을 평가하기 위한 시스템.
제57항에 있어서, 오차 값의 세트는 표준 오차의 세트를 포함하며, 상관 계수의 세트는 결정 계수 값의 세트를 포함하는, 데이터 세트의 생존 가능성을 평가하기 위한 시스템.
제57항에 있어서, 상기 데이터베이스는 모델 예측 값에 대응하는 복수의 실제 데이터 값을 포함하는 실제 데이터 세트를 더 포함하며, 상기 프로그램은, 실행될 때 상기 프로세서로 하여금,
상기 실제 데이터 세트를 기초로 랜덤 실제 데이터 세트를 생성하고,
실제 데이터 세트 및 선택된 바이어스 기준 값 각각을 기초로 특이치 바이어스가 감소된 실제 데이터 세트를 생성하며,
랜덤 실제 데이터 세트 및 선택된 바이어스 기준 값 각각을 기초로 특이치 바이어스가 감소된 랜덤 실제 데이터 세트를 생성하고,
각각의 선택된 바이어스 기준에 대해, 특이치 바이어스가 감소된 랜덤 타깃 데이터 세트 및 상기 특이치 바이어스가 감소된 랜덤 실제 데이터를 기초로 랜덤 데이터 플롯을 생성하며,
각각의 선택된 바이어스 기준에 대해, 상기 특이치 바이어스가 감소된 타깃 데이터 세트 및 상기 특이치 바이어스가 감소된 실제 타깃 데이터 세트를 기초로 실제 데이터 플롯(realistic data plot)을 생성하고,
선택된 바이어스 기준 각각에 대응하는 실제 데이터 플롯에 랜덤 데이터 플롯을 비교하게 하는 명령을 더 포함하는, 데이터 세트의 생존 가능성을 평가하기 위한 시스템.