KR20080002941A

KR20080002941A - 적응형 데이터 크리닝 프로세스 및 시스템

Info

Publication number: KR20080002941A
Application number: KR1020077026008A
Authority: KR
Inventors: 엘. 브래들리 랜돌프
Original assignee: 더 보잉 컴파니
Priority date: 2005-04-20
Filing date: 2006-04-17
Publication date: 2008-01-04
Also published as: WO2006113707A3; EP1883922A2; IL186958A0; CA2604694A1; JP2008537266A; US20060238919A1; EP1883922A4; WO2006113707A2; AU2006236390A1

Abstract

본 발명에 따른 데이터 크리닝 프로세스는, 적어도 2개의 소스 시스템으로부터 로드된 데이터를 타당성 있게 하는 단계와; 정규화된 데이터 크리닝 저장소에 타당성이 있게 된 데이터를 추가하는 단계; 소스 시스템의 우선권을 선택하는 단계; 크린 데이터베이스를 생성하는 단계; 데이터를 이용해서 데이터 시스템 및 소프트웨어 도구에 의해 요구된 포맷으로 크린 데이터베이스로부터 일관성 있고, 정규화되며, 크리닝된 데이터를 로딩하는 단계 및; 소스 시스템을 갱신하는 것 없이 사용자에 의해 크린 데이터베이스를 갱신하는 단계를 포함한다. 데이터 크리닝 프로세스는 일관성 있는 분석을 인에이블링하는 최적화 모델을 위해 다른 소스로부터 데이터를 수집 및 분석하는 프로세스를 정규화한다. 데이터 크리닝 프로세스는 동적 데이터 세트를 이용하는 데이터 시스템 및 소프트웨어의 입력 및 출력에 대해 완전한 감사성을 더 제공한다. 데이터 크리닝 프로세스는 항공기 산업의 응용에 한정되는 것은 아니지만, 예컨대 공급 체인 관리를 위한 군사적 및 상업적 양쪽의 항공기 산업을 위해 적절하다.

Description

적응형 데이터 크리닝 프로세스 및 시스템{ADAPTIVE DATA CLEANING}

본 발명은 일반적으로 데이터 처리 및 관리 프로세스에 관한 것으로, 특히 적응형 데이터 크리닝 프로세스 및 시스템에 관한 것이다.

큰 실제 세계 데이터 세트(world data set)의 품질은 몇몇 이슈(issues)에 의존하지만, 데이터의 소스는 중대한 요소이다. 데이터 입력 및 획득은 본질적으로 간단함과 복잡성의 양면에서 에러를 일으키기 쉽다. 많은 노력이 입력 에러의 감소와 관련하여 이러한 전단 처리(front-end process)에 종종 부여되지만, 여전히 큰 데이터 세트에서의 에러가 통상적임이 현실이다. 큰 데이터 세트에 대한 필드 에러율(field error rate)은 전형적으로 약 5% 이상이다. 데이터 분석을 위해 필요로 되는 시간의 반 까지가 전형적으로 데이터를 크리닝(cleaning)하는데 소비된다. 일반적으로, 데이터 크리닝은 큰 데이터 세트에 대해 적용된다. 데이터 크리닝은 큰 데이터 세트의 정확도를 개선하도록 데이터를 스크러빙(scrubbing)하는 처리이다. 이상적으로, 데이터 크리닝은 오류 부품 번호나 무효 코드와 같은 오류 엔트리들을 정정하고, 가격 책정이나 리드 타임(lead time)과 같은 부재 데이터 를 갱신하며, 데이터의 다중 소스 및 정의가 존재할 수 있다는 것을 인식하도록, 명백한 옮겨쓰기 에러(transcription errors)를 제거할 수 있다. 효과적인 데이터 크리닝은 규칙을 기초로 하거나 수동 선택을 위한 합당성을 설명하도록 전자적 주석을 통합하여야 하고, 감사 추적(audit trail)을 제공하여야 하며, 동작하기에 쉬워야 한다.

데이터 크리닝은 종종 수동 프로세스를 이용해서 수행되는 바, 이는 고되고, 시간 소모 및, 에러를 야기시키게 된다. 결과적으로, 큰 데이터 세트의 에러를 자동으로 검출할 수 있거나 에러를 검출하는데 도움을 줄 수 있는 방법이 크게 관심을 끌고 있다. 자동화된 데이터 크리닝의 프로세스는 전형적으로 많은 문제를 가지고 있고 많은 문제가 소정의 특정 데이터 크리닝 문제를 해결하도록 접근되어야만 한다. 일반적으로, 가능한 에러 형태가 정의 및 결정되는데 필요로 되고, 에러를 위한 검색이 수행하는데 필요로 됨과 더불어 에러가 식별되어지는데 필요로 되며, 그리고 감추어지지 않은 에러가 정정되어지는데 필요로 된다.

예컨대, i2 Technologies, IBM, Manugistics, MCA Solutions, Systems Exchange와 같은 전류 공급 체인 소프트웨어 솔류션 벤더(current supply chain software solution vendors), 또는 Xelus는 내부 데이터 구조를 잘 개발하고 있음과 더불어 생각해 내고 있다. 이러한 구조는 소비자의 소스 시스템에 맵핑되어야만 하고 주기적으로 갱신되어야만 한다. 맵핑(mapping)은 구현하는 동안에는 "배선화(hardwired)"이고, 소스나 사업 규칙이 변화될 때에는 기록을 요구한다. 더욱이, 공급 체인 소프트웨어로 로딩되기 이전에 소비자 데이터를 저장하는 중간 데 이터베이스의 개발이 종종 필요로 된다. 또한, 현재의 공급 체인 소프트웨어 솔루션은 저장(archiving) 결과, 결과를 유도하는 입력의 보관, 또는 시간이 지남에 따른 버전닝 데이터를 지원하지 않는다. 이는 예컨대 항공기, 트럭, 배 또는 기계장치와 같은 중장비의 한 부분을 위한 비축 권고를 유도하는 결정 프로세스를 감사하는 것으로부터 소비자를 보호한다. 긴 수명을 갖는 중장비와 같은 수리가능 항목을 위한 서비스 부품 비축 레벨에 따라, 수백만 달러로 되는 경향으로 실행되어, 감사성(auditability)은 많은 소비자들에 대해 중요한 요구이다.

ETL(Extract, Transform, and Load) 도구는 전형적으로 소스 시스템과 중간 데이터베이스 사이의 갭을 메우는데 이용된다. ETL 도구는 데이터베이스 소프트웨어의 하나의 운용 시스템과 브랜드로부터 다른 것으로 데이터를 변환하는데 이용된다. ETL 도구는 데이터를 변환하고 필터링하도록 제한된 사업 규칙을 적용한다. ETL 도구는 동일 데이터의 다중 소스를 취급하도록 설계되지는 않는다. 더욱이, 사업 규칙이 데이터의 다중 소스에 적용될 때, 그들은 데이터 수집 프로세스 동안 적용되고, 이는 하나 이상의 데이터 소스에 대한 변화의 후 가시성(later visibility)을 배제한다. ETL 도구는 또한 데이터를 버전닝하는 것을 지원하지 않고, 이는 시간이 지남에 따른 데이터에서의 변화를 추적하는 것을 포함한다.

2000년도에, 미국 매사추세츠 하버드에 주소를 둔 Ventana Systems, Inc.는 C-17 항공기 프로그램을 위한 공급 소프트웨어 솔루션을 위해 미국, 캘리포니아, 롱비치에 주소를 둔 TheBoeing Company를 위해 데이터 크리닝 솔루션을 개발하였다. 이러한 종래의 크리닝 솔루션은 Excel과 같은 사용자 인터페이스를 갖는 Oracle 및 C⁺⁺로 쓰여졌다. 데이터 크리닝 솔루션은, 데이터베이스의 데이터를 변경시키고 변경된 데이터를 컬러-코딩하도록 사용자를 허용하는 것에 의해, 간단한 결정 트리 논리를 이용해서 시간이 지남에 따라 지속하도록 데이터에 대한 변경을 허용하는 방법으로 개발하는 것에 의해, 그리고 크리닝을 원하는 데이터 엘리먼트를 선택하도록 사용자를 허용하는 것에 의해, 종래 기술을 진보시킨다. 아직도 이러한 종래 기술 데이터 크리닝 솔루션은 몇몇 제한을 통합하고 있다. 예컨대, 공급 체인 소프트웨어 솔류션은 데이터 요약화(data encapsulation)를 이용하는 것에 대해 소정 루틴에 의해 변화될 수 있는 글로벌 변수(global variables)를 이용하고, 데이터 크리닝 솔루션은 유지를 어렵게 하는 복잡한 내부 데이터 구조를 이용하며, 응용에 의한 데이터의 로딩은 엄격한 절차로 고수되어야만 하거나 데이터가 훼손되어질 수 있다.

알 수 있는 바와 같이, 다중 소스로부터 데이터의 선택을 자동적으로 할 수 있는 데이터 크리닝을 위한 방법이 필요로 된다. 더욱이, 저장(archiving) 결과, 결과를 유도하는 입력의 보관, 또는 시간이 지남에 따라 버전닝 데이터를 위한 지원을 허용하는 데이터 크리닝 프로세스가 필요로 된다. 더욱이, 존재하는 데이터 관리 시스템으로 용이하게 권한을 부여할 수 있는 데이터 크리닝 프로세스가 필요로 된다.

따라서, 표준화된 절차를 제공하고, 통합 공통 데이터 저장소 프로젝트를 보충하며, 다중 소스로부터 데이터를 선택하는 데이터 크리닝을 위한 프로세스를 제 공하는 필요성이 제기된다. 더욱이, 다른 소비자들이 명시적으로 동일 데이터 엘리먼트의 다른 소스를 보는 것을 필요로 하고, 무엇이 이론적으로 동일한 데이터로 되는지의 다중 버전이 존재한다는 것을 인식하는 데이터 크리닝을 위한 프로세스를 제공하는 필요성이 제기된다. 더욱이, 분석을 위해 이용된 데이터와 분석 결과 양쪽을 저장할 수 있는 적응형 데이터 크리닝을 위한 프로세스를 제공하는 필요성이 제기된다.

본 발명의 1실시예에 따른 데이터 크리닝 프로세스는, 데이터 포맷팅 유틸리티와 데이터 크리닝 유틸리티를 이용해서 적어도 2개의 소스 시스템으로부터 로드된 데이터를 타당성 있게 하는 단계와; 정규화된 데이터 크리닝 저장소에 타당성이 있게 된 데이터를 추가하는 단계; 소스 시스템의 우선권을 선택하는 단계; 크린 데이터베이스를 생성하는 단계; 유일 데이터 식별자 간의 교차-참조를 생성 및 유지하는 단계; 데이터를 이용해서 데이터 시스템 및 소프트웨어 도구에 의해 요구된 포맷으로 크린 데이터베이스로부터 일관성 있고, 정규화되며, 크리닝된 데이터를 로딩하는 단계; 일관성 있고, 정규화되며, 크리닝된 데이터를 이용해서 표준화된 데이터 크리닝 및 관리 리포트를 생성하는 단계 및; 소스 시스템을 갱신하는 것 없이 사용자에 의해 상기 일관성 있고, 정규화되며, 크리닝된 데이터를 갱신하는 단계를 갖추어 이루어진다. 크린 데이터베이스는 적어도 2개의 소스 시스템으로부터 각 데이터 엘리먼트를 위한 유일 데이터 식별자를 포함한다.

본 발명의 다른 실시예에 따른 공급 체인을 위한 데이터 크리닝 프로세스는, 다중 소스 시스템으로부터 데이터 엘리먼트 및 소스의 마스터 테이블로 데이터를 로딩하는 단계와; 소스 시스템의 우선순위를 선택하는 단계; 데이터 엘리먼트 및 소스의 마스터 테이블에 포함된 논리적 데이터를 크리닝하는 단계; 데이터 엘리먼트 및 소스의 마스터 테이블의 일관성 있고, 정규화되며, 크리닝된 데이터를 승인함과 더불어 데이터를 이용해서 데이터 시스템 및 소프트웨어 도구에 대해 상기 크리닝된 데이터를 제공하는 단계; 크리닝된 데이터를 이용하는 전략적 재고 최적화 모델을 이용해서 비축 레벨 및 재주문 시점의 재고 최적화를 초기화하는 단계; 비축 레벨 및 재주문 시점 요구를 포함하는 예비 부품 분석을 제공하는 단계; 소비자 감사 추적을 위한 지원 데이터를 저장하는 단계; 리포트를 생성하는 단계 및; 리포트에 따라 부족분을 커버하도록 예비 부품을 구매하는 단계를 갖추어 이루어진다.

본 발명의 또 다른 실시예에 따른 데이터 크리닝 시스템은, 데이터 포맷팅 유틸리티와, 데이터 크리닝 유틸리티, 정규화 데이터 크리닝 저장소, 소스 우선화 유틸리티, 크린 데이터베이스, 교차-참조 유틸리티 및, 데이터 크리닝 사용자 인터페이스를 포함한다. 데이터 포맷팅 유틸리티는 적어도 2개의 소스 시스템으로부터 다운로드된 데이터를 타당성 있게 하는데 이용된다. 데이터 크리닝 유틸리티는 데이터를 크리닝하는데 이용된다. 소스 우선화 유틸리티는 적어도 2개의 소스 시스템의 우선권을 선택하는데 이용된다. 정규화 데이터 크리닝 저장소는 포맷팅 및 크리닝된 데이터를 수신한다. 크린 데이터베이스는 크리닝 및 우선화된 데이터를 결합한다. 크린 데이터베이스는 각 데이터 엘리먼트를 위한 최선의 값과 유일 데이터 식별자를 포함하는 아이템 데이터의 단일 소스이다. 교차-참조 유틸리티는 유일 데이터 식별자 간의 교차-참조를 생성 및 유지하는데 이용된다. 데이터 크리닝 사용자 인터페이스는 크린 데이터베이스를 갱신하도록 사용자를 인에이블한다.

도 1은 본 발명의 1실시예에 따른 데이터 크리닝 하이-레벨 구조의 플로우차트,

도 2는 본 발명의 1실시예에 따른 데이터 크리닝 테이블 레이아웃,

도 3은 본 발명의 1실시예에 따른 하이 드라이버 분석 매트릭스(high driver analysis matrix),

도 4는 본 발명의 1실시예에 따른 데이터 크리닝 프로세스의 플로우차트

도 5는 본 발명의 다른 실시예에 따른 공급 체인의 데이터 크리닝 응용의 블록도,

도 6은 본 발명의 1실시예에 따른 공급 체인을 위한 데이터 크리닝 프로세스의 플로우차트,

도 7은 본 발명의 다른 실시예에 따른 예비 부품 모델링 프로세스(spares modeling process)의 플로우차트이다.

이하, 예시도면을 참조하면서 본 발명에 따른 실시예를 상세히 설명한다.

명백히, 본 발명은 최적화 모델을 위한 다른 소스로부터 데이터를 수집하여 분석하는 프로세스를 표준화하는 적응형 데이터 크리닝 프로세스 및 시스템을 제공한다. 더욱이, 본 발명은 일반적으로 최적화 모델 또는 다른 도구 또는 시간이 지남에 따라 변화되는 동적 데이터 세트를 이용해서 주기적으로 실행되는 모델의 입력 및 출력에 대해 완전한 감사성(auditability)을 제공하는 데이터 크리닝 프로세스를 제공한다. 본 발명의 1실시예로서의 적응형 데이터 크리닝 프로세스 및 시스템은 일관성 있는 분석을 할 수 있고, 하나의 시간 데이터베이스 코딩을 배제하며, 데이터 소스를 변화시키는 조절에 요구되는 시간을 감소시키고, 예컨대 재고 조사 최적화 모델이나 공급 체인 제안의 개발 동안에 이용되어질 수 있다. 본 발명의 1실시예는 예컨대 공급 체인 관리를 위한 군사적 및 상업적인 항공기 산업에 응용을 위해 적절하지만 이에 한정되지는 않는 데이터 크리닝 프로세스를 제공한다. 본 발명의 1실시예는 긴 수명을 갖는 중장비를 이용하는 산업에서의 응용을 위해 더욱 적절하지만 이에 한정되지는 않는 데이터 크리닝 프로세스를 제공한다. 본 발명의 1실시예로서의 데이터 크리닝 프로세스는, 관리의 필요성이 있는 큰 데이터베이스와, 여러 하부 조직으로부터의 데이터를 결합할 필요가 있는 큰 회사 및, 운송 산업의 중장비와 같은 고가치 상품과 관련하여 관리되어지는 데이터에서 이용되어질 수 있다. 본 발명의 1실시예로서의 데이터 크리닝 프로세스는, 예컨대 재고 관리, 주문 관리, 소비자 데이터 관리, 또는 산업 유지보수 관련을 위해 더욱 이용되어 질 수 있다.

1실시예에 있어서, 본 발명은 다중 소스로부터 최선의 소스를 선택함과 더불어 예측을 위한 최선의 값을 선택하도록 우선순위(precedence)를 기초로 다중 소스로부터 데이터를 선택하고 발견적 지도법(heuristics)을 이용하는 데이터 크리닝 프로세스를 제공한다. 존재하는 ETL(Extract, Transform 및, Load) 도구는 동일한 데이터의 다중 소스를 취급하도록 설계되지는 않는다. 현재의 ETL 도구는 다중 소스로부터 데이터를 로드시키지만, 다른 소스를 지나 하나의 소스를 선택하기 위한 커스텀 로직을 생성하는 소프트웨어 개발자나 사용자를 요구한다. 더욱이, 소스는 소프트웨어 개발자나 이용자의 수동 개재 없이는 전형적인 ETL 도구의 초기 구현 후에는 부가 또는 삭제되어질 수 없게 된다. 종래 기술과는 반대로, 본 발명의 1실시예에서와 같이, 데이터 크리닝 프로세스는 언제라도 부가 또는 드롭되어지는 무제한의 수의 데이터 엘리먼트 및 소스를 허용한다. 종래의 데이터 크리닝 프로세스와는 반대로, 본 발명의 1실시예로서의 데이터 크리닝 프로세스는 소비자와 같은 다른 사용자를 인식할 수 있고, 단가(unit price)와 같은 부품을 구매하기 위한 내부 값과 부품을 판매하기 위한 외부 값을 갖는 명시적으로 동일한 데이터 엘리먼트의 다른 소스를 볼 필요가 있다. 이러한 예에 대해, 가격의 양쪽 값이 유효하고 어느 하나가 적용에 따라 이용된다. 본 발명의 1실시예로서의 데이터 크리닝 프로세스는 다른 소스로부터의 선택된 데이터 엘리먼트를 위한 다중 값을 디스플레이하는 능력을 갖을 수 있다. 사용자는 소스 시스템의 정보 보다 더욱 정확하게 될 수 있는 정보에 따라 원래의 선택을 무시할 수 있다. 각 데이터 엘리먼트를 위한 단지 하나의 값 만이 보이는 전통적인 데이터베이스와는 달리, 본 발명의 1실시예로서의 데이터 크리닝 프로세스는 이전의 값에 대한 버전닝과 다른 소스 시스템으로부터 가능한 각 데이터 엘리먼트의 모든 버전에 대한 추적성을 제공할 수 있다.

1실시예에 있어서, 데이터 저장 영역의 데이터 엘리먼트에 대해 이루어지는 모든 변화를 캡쳐 및 인식하고, 이용자에게 되돌려 변화들을 다시 디스플레이하는 능력을 갖춘 데이터 크리닝 프로세스를 제공한다. 변화가 스크린 변화나 다량 갱신임에 상관 없이, 데이터 엘리먼트에 대한 변화와 관련한 정보는 데이터를 변화시키는 사용자, 변화의 데이터, 왜 변화가 수행되었는지를 포함하는 코멘트를 추적함으로써 캡쳐되어질 수 있다. 이는 종래의 데이터 크리닝 프로세스를 뛰어 넘는 잇점으로, 이는 일반적으로 의심이 있었던 데이터만을 플래깅(flagging)하는 것을 허용하고, 일반적으로 기록의 시스템에 대해 이루어지는 변화를 요구한다. 많은 경우에 있어서, 기록의 시스템은, 데이터 크리너가 갱신 권한을 갖고 있지 않은, 소비자 데이터베이스, 또는 부서 데이터 베이스이다. 결과적으로, 이용자가 기록의 시스템을 갱신하는 종래의 데이터 크리닝 솔루션은 종종 비현실적이다. 종래 기술과는 반대로, 본 발명의 1실시예로서의 데이터 크리닝 프로세스는 컴퓨터 모델에 대한 입력 및 출력 양쪽에 대해 날짜가 적힌 버전닝을 제공하고, 추적이 시간이 지남에 따라 데이터에 대해 변화한다. 현존하는 ETL 도구는 시간이 지남에 따른 버전닝 데이터를 지원하지는 않는다. 본 발명의 1실시예로서의 데이터 크리닝 프로세스는, 결과 및 데이터와 결과가 기초로 되는 데이터 소스의 양쪽의 감사성을 허용한다. 본 발명의 1실시예로서의 데이터 크리닝 프로세스는, 사용자 정의 가 능 사업 규칙을 스크리닝하는 것에 의해 데이터 무결성(integrity)을 확보한다. 더욱이, 본 발명의 1실시예로서의 데이터 크리닝 프로세스는, 예컨대 소스 시스템으로부터의 부품 번호들에 대한 사용자 첨가 및 삭제를 허용하고, 데이터를 물리적으로 삭제하는 것 보다는 무엇이 부가되었는가에 대한 추적성을 유지함과 더불어 추적성을 위한 삭제된 데이터를 플래깅한다. 결과적으로, 데이터가 삭제된 것으로서 전자적으로 태그되지만, 데이터 저장소로부터 물리적으로 제거되지는 않는다. 더욱이, 본 발명의 1실시예로서의 데이터 크리닝 프로세스는, 자동화된 주석을 부가하고, 각 데이터 엘리먼트에 부착될 수 있음과 더불어 자동화된 처리, 포맷 변환 및, 다른 데이터 품질 정보 상에 정보를 제공하는 수동 주석을 허용한다. 이는 예컨대 영국 파운드에서 미국 달러로 현금을 맞출 경우, 데이터가 분석을 위해 변환되어야만 할 때 감사성을 제공한다.

1실시예에 있어서, 본 발명은 예컨대 공급 체인 소프트웨어 도구와 관련하여 이용되어질 수 있고, 이러한 공급 체인 소프트웨어 도구의 결과를 보관 및 할당하는 것을 허용하는 데이터 크리닝 프로세스를 제공한다. 현재 존재하는 데이터 저장소는 분석을 수행하는데 요구되는 현재의 입력 데이터를 저장하게 된다. 본 발명의 1실시예로서의 데이터 크리닝 프로세스는, 분석이 수행되었을 때 이용된 데이터와, 분석의 결과 양쪽을 저장하는 것을 허용한다. 이는 데이터의 소스와 해당 데이터를 기초로 하는 모델 결과에 대해 완전한 감사성을 제공한다. 이는 값 비싼 유지보수 예비 부품의 구매 배후의 합리성에 대한 감사성이 요구되는 곳인, 예컨대 정부 공급 체인 계약 및 상업적 계약을 위해 중요하다. 데이터 및 결과의 저장을 지원하는 알려진 공급 체인 도구는 없다. 더욱이, 본 발명의 1실시예로서의 데이터 크리닝 프로세스는, 예컨대 특정 데이터 엘리먼트가 의심됨과 더불어 검토되어야 한다는 것을 자산 관리자 및 데이터를 위해 통지하는 경고를 제공하는 데이터 엘리먼트 레벨에서 확립되어지는 임계 및 트리거를 허용한다. 이러한 임계는, 물리적으로 불가능할 뿐만 아니라 에러는 에러들을 위한 각각 및 모든 데이터 엘리먼트를 스캔하는 경향이 있음에 따라, 큰 양의 데이터가 갱신될 때 특히 중요하다. 더욱이, 본 발명의 1실시예로서의 데이터 크리닝 프로세스는 수동 재검토를 위해 부재 데이터(missing data)를 플래깅하는 동안 임계적 부재 데이터(critical missing data)에 채우도록 디폴트를 제공한다. 이는 해당 아이템을 위한 소정의 데이터 엘리먼트가 부재 또는 무효이면 전제 아이템을 삭제하는 종래의 솔루션에 비해, 모든 부품이 분석에 포함되어진다는 것을 더욱 가능하게 만든다. 본 발명의 1실시예로서의 데이터 크리닝 프로세스는 디폴트(defaults)가 이용되어진 모든 데이터 엘리먼트에 대해 추적성이 제공된다.

도 1을 참조하면, 본 발명의 1실시예에 따른 데이터 크리닝 하이-레벨 구조(10; data cleaning high-level architecture)가 도시된다. 데이터 크리닝 하이-레벨 구조(10)는 현존하는 인터페이스(11)에서 구현된 데이터 크리닝 시스템(20)을 포함한다. 데이터 크리닝 시스템(20)은 ETL(Extract, Transform, and Load) 도구(21), 데이터 포맷팅 유틸리티(22), 데이터 크리닝 유틸리티(23), 정규화 데이터 크리닝 저장소(24), 소스 우선화 유틸리티(26), 데이터 엘리먼트 및 소스의 마스터 테이블(30)(또한 도 2에 도시됨), 교차 참조 유틸리티(27; cross reference utilities), 리포트(28) 및, 데이터 크리닝 사용자 인터페이스(29)를 포함할 수 있다. 현존하는 인터페이스(11)는, 법인과 소비자 및 공급자 데이터(12), ETL 도구(13), 데이터 저장소(14), 외부 데이터 소스(15) 및, 공급 체인 재고 최적화 시스템(161)과 통합 정보 시스템(162), 재고 관리 시스템(163), 계약 및 가격 책정 시스템(164), 엔지니어링 시스템(165) 및 시뮬레이션 시스템(166)과 같은 데이터 시스템 및 소프트웨어 도구(16)를 포함할 수 있다. 법인과 소비자 및 공급자 데이터(12)는 ETL 도구(13)를 이용해서 데이터 저장소에 로드될 수 있다.

ETL 도구(21)는 데이터 저장소(14)로부터 또는 외부 데이터 소스(15)로부터 데이터를 추출할 수 있고, 추출된 데이터를 데이터 크리닝을 위해 공통 포맷으로 변환할 수 있으며, 변환된 데이터를 데이터 크리닝 시스템(20)에 로드할 수 있다. 이러한 동작은 또한 커스텀 데이터베이스 쿼리를 이용해서 수행될 수 있다. 데이터 저장소(14)와 외부 데이터 소스(15)는 소스 시스템이나 소스 데이터를 위한 소스일 수 있다. 데이터 포맷팅 유틸리티(22)는 데이터 타당성 검사의 일부로서 공통 포맷에 대해 유일 데이터 식별자들을 조절하는데 이용될 수 있다.

데이터 포맷팅 유틸리티(22)는 대시 또는 브랭크 스페이스의 포함과 같은 유일 데이터 식별자에서의 근소한 변동이 그들이 존재하지 않을 때 다른 아이템으로서 해석되어지는 식별자들을 야기시키 수 있는 데이터 엔트리 이슈를 설명할 수 있다.

데이터 크리닝 유틸리티(23)는 데이터 타당성 검사의 일부로서 데이터 저장 소(14)와 외부 데이터 소스(15)와 같은 소스 시스템으로부터의 데이터를 크리닝하는데 이용될 수 있다. 데이터 크리닝 유틸리티(23)는 각 소스 시스템[데이터 저장소(14) 또는 외부 데이터 소스(15)]으로부터 데이터 크리닝 포맷으로 로드된 데이터의 타당성을 보증하는데 이용될 수 있다.

정규화 데이터 크리닝 저장소(24)는 다른 소스 시스템으로부터 포맷팅 및 크리닝된 데이터를 수신한다. 표준화 데이터 크리닝 저장소(24)는 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 다른 소스 시스템으로부터 마스터 데이터 테이블로 크리닝된 데이터를 로드할 수 있다.

소스 우선화 유틸리티(26)는 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 데이터 소스의 우선권을 선택하는데 이용될 수 있다. 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 소스 시스템은 전형적으로 무엇인가 명시적으로 동일한 데이터 엘리먼트(32)를 위해 저장된 다른 값을 유도하는 다른 기관에 의해 로드 및 유지될 수 있다. 이는 다중 부서를 갖는 큰 기관 내 및, 소비자, 공급자 및, 정부 기관 전역의 양쪽에서 공통이다.

데이터 엘리먼트 및 소스의 마스터 테이블(30)(또한 도 2에 도시됨)은 다중 소스로부터 크리닝 및 우선화된 데이터를 결합하는 크린 데이터베이스로서 생성될 수 있다. 데이터 엘리먼트 및 소스의 마스터 테이블(30)은 각 데이터 엘리먼트(32)의 최선의 값을 포함하는 아이템 데이터의 단일 소스일 수 있다.

교차-참조 유틸리티(27)는 유일 데이터 식별자(31) 사이에서 교차-참조를 생성 및 유지하는데 이용될 수 있다. 다른 데이터 소스는 섹션 참조, NSN[NATO(North Atlantic Treaty Organization) 비축 번호(stock number) 또는 국가 비축 번호(national stock number)로서 언급된], 또는 부품 번호 및 제조자 코드와 같은 다른 유일 데이터 식별자(31)를 이용할 수 있다. 종종, 유일 데이터 식별자(31)는 특정 데이터 소스 내의 교차-참조(cross-reference)가 될 수 있다. 이는 크린 데이터베이스가 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 다중 소스로부터 생성됨에 따라 개발되는 교차 참조를 허용할 수 있다. 이는 각 아이템의 유일 참조 번호를 생성하는 것이 또한 가능하다. 교차 참조에서의 1 대 다, 다 대 1, 또는 다 대 다 관계는 하나의 구조 상의 유일 데이터 식별자(31)가 다른 구조 상의 다중 유일 데이터 식별자(31)에 맵핑되고 그리고 그 반대의 경유일 때 야기될 수 있다. 결과적으로, 데이터 엘리먼트 및 소스의 우선화 데이터 크리닝 마스터 테이블(30)은 종종 중복 유일 데이터 식별자(31)를 포함할 수 있다. 교차-참조 유틸리티(27)는 원하지 않은 중복을 삭제하고 교차-참조에서의 불일치를 정정하도록 유틸리티를 제공할 수 있다. 더욱이, 유일 참조 번호가 올바르게 유일 데이터 식별자 번호를 수신하도록 데이터 크리닝 시스템(20)으로부터 데이터를 공급하는 데이터 시스템(16)을 인에이블하기 위해 생성될 수 있다. 이는 교차-참조가 완전하다는 요구 없이 실행하도록 데이터 시스템(16) 및 연결된 응용을 인에이블시킨다. 예컨대, 4개의 타이어에다 예비 타이어를 갖는 자동차를 위한 몇몇 응용은 다중 횟수 이용되어지는 유일 아이템 식별자를 인에이블할 수 있다. 다른 응용, 예컨대 특정 모델 타이어는 우선권이 있는 공급자와 가장 최근에 매겨진 가격만을 목록으로 만드는 것을 요구하는 구매 시스템은 오직 한번 만 발생되도록 유 일 아이템 식별자를 요구할 수 있다. 이러한 문제를 해결하기 위해, 약정 마스터 데이터 아이템 리스트가 생성되어 유지될 수 있다. 요구될 때, 마스터 데이터 아이템 리스트는 다중 횟수 이용되어지도록 유일 아이템 식별자를 허용한다. 예는 군사용 항공기의 부품의 리스트이다. 예컨대, 헬리콥터는 6개의 로터 블레이드와, 전방 파일론(pylon) 어셈블리의 부품으로서 3개 및, 후미 파일론 어셈블리의 부품으로서 3개를 포함한다. 구매 시스템(61)은 로터 블레이드를 위한 년간 구매를 아는 것만을 필요로 하는 반면, 재고 최적화 시스템(163)은 블레이드 당 요구된 수요와, 어셈블리에 따른 블레이드의 양을 알기를 원한다. 유틸리티의 세트는 데이터 엘리먼트 및 소스의 마스터 테이블(30)(도 2에 도시됨)의 유일 아이템 데이터와 합체된 마스터 데이터 아이템 리스트의 중복 데이터를 인에이블할 수 있게 된다. 적절한 비율이 수요 율과 같은 데이터 엘리먼트(32)를 위한 요소로 될 수 있다. 이러한 데이터는 예컨대 공급 체인 소프트웨어(161)인 적절한 소프트웨어 도구에서 이용하기 위해 제공되어질 수 있다.

ETL 도구(21) 또는 소비자 데이터베이스 쿼리는, 데이터 엘리먼트 및 소스의 마스터 테이블(30)로부터, 공급 체인 소프트웨어(161)와 통합 정보 시스템(162), 재고 관리 시스템(163), 계약 및 가격 책정 시스템(164), 엔지니어링(165) 및 시뮬레이션(166)과 같은 데이터 시스템 및 소프트웨어 도구(16)를 위해 요구된 포맷으로, 일관성 있고, 정규화되며, 크리닝된 데이터를 로드하는데 이용될 수 있다.

또한, 표준화된 데이터 크리닝 및 관리 리포트(28)가 생성될 수 있다. 종종, 하나의 시스템에서의 관리 리포트는 다른 시스템의 관리 리포트와 유사하거나 동일하기까지도 하다. 데이터 크리닝 시스템(20)은 엘리먼트 및 소스의 마스터 테이블(30)에 대해 몇몇 가장 공통인 리포트를 제공할 수 있다. 예컨대, 엘리먼트 및 소스의 마스터 테이블(30)(도 2에 도시됨)에서의 유일 아이템 식별자(31)의 수를 탤리(tally)할 수 있는 라인 카운트 리포트가 생성되어질 수 있다. 라인 카운트는 다른 데이터 엘리먼트(32)에 대해 교차 도표 작성될 수 있다. 예컨대, 재고 관리 시스템(163)이 소비 가능 부품의 전체 수와 수리 가능 부품의 전체 수를 알기를 원한다면, 이러한 정보가 라인 카운트 리포트로부터 초래될 수 있다. 더욱이, 표준화 하이 드라이버 리포트(40)(도 3에 도시됨)가 생성될 수 있다. 표준화 하이 드라이버 리포트(40)는 검토를 위해 우선화되어지는 데이터를 인에이블 할 수 있다. 우선화는 일치성과 정확성을 위한 데이터를 검토할 때 빠르게 위치되도록 변칙적인 것들을 인에이블 할 수 있다.

데이터 크리닝 사용자 인터페이스(29)는 폐쇄 루프 데이터 크리닝을 가능하게 한다. 데이터 크리닝은 재고 관리(163)와 같은 실행 시스템[데이터 시스템 및 소프트웨어 도구(16)]의 사용자에 의해 "프론트 라인(front line)" 상에서 가장 흔히 수행된다. 이들 사용자는 새로운 시세를 위해 진행하거나 예컨대 소비자, 공급자 또는 수리점과 함께 작업하는 동안 데이터에 대한 정정을 마킹하는 동안 종종 데이터를 갱신한다. 사용자는 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 소스 시스템을 갱신하는 것 없이 데이터 크리닝 시스템(20)을 갱신하는 방법을 갖고 있어야만 한다. 이는 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 소스 시스템이 다른 기관 또는 다른 소비자나 공급자까지의 제어 하에 있기 때 문에 필요로 될 수 있다. 결과적으로, 이는 소스 시스템(14 및/또는 15)을 갱신하는데 실제적이거나 또는 실행할 수 있게는 될 수 없게 된다. 데이터 크리닝 사용자 인터페이스(29)는 데이터 크리닝 시스템(20)을 갱신하도록 데이터 크리닝 시스템(20)에 의해 제공된 크리닝된 데이터를 기초로 결정을 만드는 데이터 시스템 및 소프트웨어 도구(16)의 사용자를 인에이블시킬 수 있다. 이는 크리닝된 데이터에 대한 갱신을 기초로 일관성을 유지하도록 모든 데이터 시스템 및 소프트웨어 도구(16), 예컨대 공급 체인 소프트웨어(161)를 인에이블시킨다. 수동 갱신은 날짜 및 시간이 날인될 수 있고, 갱신을 만드는 사용자에 대한 추적성을 포함할 수 있으며, 사용자에 있어 중요하게 간주되는 정보를 캡쳐하도록 공통 분야를 포함할 수 있다. 데이터 크리닝 사용자 인터페이스(29)는 인에이블된 웹(web)일 수 있다. 소스 우선화 유틸리티(26)는 특정 요구를 기초로 이러한 사용자[또는 공급 체인 소프트웨어(161)와 같은 특정 소프트웨어 도구의 사용자]로부터 갱신을 선택하거나 선택하지 않도록 데이터 크리닝 시스템(20)으로부터의 정보에 응답하는 데이터 시스템 및 소프트웨어 도구(16)를 인에이블시킬 수 있다. 수동 갱신은 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 소스 시스템에 대한 연속적인 갱신 동안 시간이 지남에 따라 계속될 수 있다. 소스 데이터가 데이터 크리닝 값(사용자 특정화 오차 대역 내의)과 동일한 값으로 변화되면, 소스 데이터가 선택되고 데이터 크리닝 값이 갱신된 소스 시스템으로서 플래그된다. 소스 데이터가 변하지만 사용자 특정화 오차 대역 외 이라면, 데이터 엘리먼트(32)는 수동 검토를 위해 플래그될 수 있다.

데이터 크리닝 시스템(20)은 컴퓨터 시스템(도시되지 않았음)에 일체화될 수 있다. 컴퓨터 시스템은 상기한 ETL(Extract, Transform, and Load) 도구(21), 데이터 포맷팅 유틸리티(22), 데이터 크리닝 유틸리티(23), 정규화 데이터 크리닝 저장소(24), 소스 우선화 유틸리티(26), 데이터 엘리먼트 및 소스의 마스터 테이블(30)(또한 도 2에 도시됨), 교차 참조 유틸리티(27)와 같은 유틸리티를 실행시키기 위해 이용될 수 있다. 데이터 크리닝 시스템(20)을 이용하는 데이터 크리닝은 Microsoft Excel 파일, 또는 Microsoft Access 또는 FoxPro 테이블과 같은 데이터베이스 테이블을 이용하거나, 또는 데이터 크리닝 사용자 인터페이스(29)를 매개로 수행될 수 있다.

도 2를 참조하면, 본 발명의 1실시예에 따른 데이터 엘리먼트 및 소스의 마스터 테이블(30)의 데이터 크리닝 테이블 레이아웃이 도시되어 있다. 데이터 엘리먼트 및 소스의 마스터 테이블(30)은 필드 번호를 포함하는 필드(35)와, 필드 명을 포함하는 열(36), 엔트리 타입을 포함하는 열(37), 엔트리 폭을 포함하는 열(38) 및, 설명을 포함하는 열(39)을 포함할 수 있다. 테이블의 첫 번째 행은 하나 이상의 색인 구조로부터 유일 데이터 식별자(31)를 포함할 수 있다. 도 2에 도시된 바와 같이, 주어진 예에 대해, 부품은 (a) DMC(국내 관리 코드) 및 IIN(아이템 식별 번호), (b) NSC[NATO(또는 국가) 공급 분류 코드]와 NCB(국가 법전 편찬 기구용 코드) 및 IIN(아이템 식별 번호)로 이루어진 NSN(NATO 비축 번호 또는 국가 비축 번호), 또는 (c) 비록 오직 하나의 유일한 참조가 요구될지라도 Part no.(부품 번호) 및 CAGE(상업적 및 정부 엔티티 코드)에 의해 유일하게 식별된다. 유일 데이터 식별자(31)에 따르면, 데이터 엘리먼트(32; ELEMENT)는 예비 부품 프로그램(110)(도 7에 도시됨)과 같은 프로그램 명(33; PROGRAM)에 따라 목록화될 수 있다. 데이터 엘리먼트 및 소스의 마스터 테이블(30)에서의 더욱 목록을 만드는 것은 데이터 엘리먼트(32)의 값(321; VALUE)과, 데이터 엘리먼트(32)의 소스(322; SOURCE)[도 1에 도시된 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은], 갱신 정보(34; UPDATE) 및, 데이터 엘리먼트(32)에 부착될 수 있고 데이터 프로세싱 동안 이용될 수 있는 플래그(323; FLAG)일 수 있다. 데이터 엘리먼트 및 소스의 마스터 테이블(30)의 마지막 행은 텍스트 명령(341; COMMENT)을 포함한다. 데이터 엘리먼트 및 소스의 마스터 테이블(30)은 코드를 변경시키는 것 없이 데이터 엘리먼트 및 소스를 인에이블할 수 있다. 데이터 저장소로서, 참조적 무결성은 신중하게 강요되지는 않는다.

도 3을 참조하면, 본 발명의 1실시예에 따른 하이 드라이버 리포트의 하이 브라이버 분석 매트릭스(40)가 도시된다. 하이 드라이버 리포트(40)는 도 1에 도시된 바와 같이 데이터 크리닝 시스템(20)에 의해 생성된 리포트(28) 중 하나일 수 있다. 하이 드라이버 리포트(40)는 검토를 위한 아이템을 우선화하는데 이용되어질 수 있다. 이는 급격히 식별되어진 가장 명백한 에러를 인에이블 할 수 있고, 종종 제한된 가능한 검토 시간을 최대화한다. 하이 드라이버는, 도 3에 도시된 바와 같이, 년간 이용, 년간 소비, 가중된 수리 소요 시간, 조달 리드 타임, 폐품 발생/폐기 율 및, 예비 부품 부족분의 비용과 같은 키 데이터 드라이버에 따라 데이터 엘리먼트(32)를 소트한다.

도 4를 참조하면, 본 발명의 1실시예에 따른 데이터 크리닝 프로세스(50)가 도시되어 있다. 데이터 크리닝 프로세스(50)는 먼저 단계(51)에서 데이터 저장소(14)와 같은 기업, 소비자, 공급자 소스 시스템, 또는 외부 데이터 소스(15)(도 1에 도시됨)로부터 데이터 크리닝을 위한 공통 포맷으로 데이터를 로드하는 것을 포함한다. 소정의 상업적으로 가능한 ETL 도구(21) 또는 커스텀 데이터 베이스 쿼리가 단계(51)를 수행하는데 이용될 수 있다.

단계(52)에서, 데이터 크리닝 시스템(20)의 데이터 포맷팅 유틸리티(22)(도 1에 도시됨)가 데이터 타당성 검사 프로세스의 일부로서 공통 포맷으로 유일 데이터 유틸리티(31)를 조절하는데 이용될 수 있다. 단계(52)는 리딩 브랭크(leading branks)를 삭제하고, 요구에 따라 숫자 필드에서 문자 필드로 유일 데이터 유틸리티(31)(도 2에 도시됨)를 변환하며, 데이터가 숫자로서 로드되면 띠로 된 리딩 제로(leading zeros)를 대체하는 것을 포함한다. 단계(52)는 검토를 위해 무효, 비인식 및, 부재 아이템 식별자를 플래깅하는 것을 더 포함할 수 있다. 단계(52)는 공통 포맷으로 데이터를 정규화하는 것을 또한 더 포함할 수 있다. 예컨대, 외국 통화를 US 달러로 변환하고, 역사적 비용 데이터를 금년의 가격으로 상승시키며, 또는 패키지 양에 대한 요구를 하나의 유니트 당의 요구로 변환한다.

데이터 크리닝 시스템(20)의 데이터 크리닝 유틸리티(23)(도 1에 도시됨)는 데이터 타당성 검사 프로세스의 부분으로서 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 소스 시스템으로부터 로드된 데이터를 크리닝하도록 단계(53)에서 이용될 수 있다. 단계(53)는 중복 엔트리 검토, 다른 리포트 검토, 데이터의 변 화를 유효하게 하고 데이터 변환을 검출하도록 소스 시스템으로부터 로그된 데이터와 로딩 에러 사이의 차이의 검토, 크리닝된 데이터를 이용하고, 입력 데이터에서의 변화에 의해 야기된 결과에서 스윙(swings)을 식별하고 이해하도록 소프트웨어의 입력과 출력(소스 데이터와 결과)에서의 차이 검토를 포함할 수 있다. 단계(53) 동안, 중복 엔트리가 플래그될 수 있고, 데이터 엘리먼트를 위한 충돌 값이 데이터 엘리먼트(32)(도 2)에 의해 검토되며, 소스 데이터를 무시(override)하는 수동 정정 또는 갱신이 허용될 수 있다. 단계(53)에서, 유일 데이터 식별자에 의한 2개의 데이터 테이블 사이의 차이를 강조하는 자동화 리포트가 생성될 수 있다. 또한 단계(53)에서, 이러한 리포트는 가장 큰 재정 영향력을 갖춘 하이 드라이버 상에서 데이터 검토를 집중하도록 특정 데이터 엘리먼트(32)에 의해 우선화되어질 수 있다.

단계(54)에서, 유효화 및 크리닝된 데이터는 정규화 데이터 크리닝 저장소(24)(도 1)에 추가될 수 있다. 데이터는 정규화 데이터 크리닝 저장소(24)(도 1)의 마스터 테이블에 로드될 수 있다. 데이터는 각 데이터 엘리먼트(32)(도 2)에 대해, 그리고 데이터 저장소(14) 및 외부 데이터 소스(15)(도 1)와 같은 각 소스 시스템에 대해 로드될 수 있다. 동일한 데이터가 동일한 소스 시스템으로부터 미리 로드되었다면 데이터는 로드되지 않는다 결과적으로, 변화만이 로드된다. 로드된 데이터의 데이터는 식별되어지는 가장 현재의 데이터를 인에이블하도록 소스 데이터에 부가될 수 있다. 로드된 데이터와 함께 에러가 있다면, 특정 데이터 소스를 위한 모든 데이터를 소거하여 그를 리로드(reload)하도록 조건이 존재할 수 있다. 소거된 데이터는 먼저 검증을 위해 디스플레이될 수 있다. 사용자에게는 데이터 크리닝 시스템(20)(도 1)의 무결성을 확보하도록 데이터를 삭제할 수 있는 관리자로서의 권한이 주어질 수 있다. 데이터 크리닝 시스템(20)(도 1에 도시됨)은 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 각 소스 시스템으로부터 데이터의 모든 버전에 대한 추적성을 제공한다. 이는 데이터의 이전 값에 대해 감사 추적을 제공하고 시간의 역사적 지점(버전)으로서 획득되어지는 데이터를 허용한다.

단계(55)에서, 데이터 소스의 우선권이 선택될 수 있다. 단계(55)는 유일 데이터 엘리먼트(32)(도 2)의 수를 결정함과 더불어 각 데이터 엘리먼트(32)에 대한 [데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은] 소스 시스템의 수를 결정하는 것을 포함한다. 개별 데이터 엘리먼트는 응용에 따라 변할 수 있고 시간이 지남에 따라 완성되는 데이터의 이용에 따라 변할 수 있다. 데이터 소스는 응용에 따라 변할 수 있고 시간이 지남에 따라 변하는 데이터의 품질의 이용 및 이해에 따라 변할 수 있다. 데이터 크리닝 시스템(20)(도 1)은 소프트웨어 소스 코드에 대한 변화를 요구하는 것 없이 데이터 엘리먼트(32)(도 2)의 부가나 삭제에 적합하다. 단계(55)는 데이터가 이전에 우선화되었다면, 특정 데이터를 끌어 당기기 위한 데이터 소스의 우선권을 갱신하는 것에 대해 사용자를 허용한다. 한편, 단계(55)는 도 1에 도시된 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 각 데이터 소스의 우선권을 특정화하는데 사용자를 허용할 수 있다. 제1우선권 소스로부터의 데이터가 유효하다면, 이는 사용되어지게 된다. 한편, 제2우선권 소스로부터의 데이터가 선택되게 된다. 단계(55)는 데이터를 선택(예컨대, 소스 A, B, C로부터 가장 높은 값을 선택)하기 위한 조건적 문장(statement)을 특정화하는데 사용자를 허용하고 데이터가 [데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은] 소정의 소스 시스템으로부터 유효하지 않게 되는 경우 이용되어지는 디폴트를 선택하도록 사용자를 허용하는 것을 더 포함한다. 해당 소스로부터의 데이터가 고려되지 않으면 특정 데이터 소스는 선택될 필요가 없게 된다. 단계(55)는 과거의 시점에서 이용된 데이터 선택 구조가 예컨대 감사 목적을 위해 이용되어 질 수 있도록 이전 우선화의 역사적 기록을 유지하는 것을 더 포함한다.

단계(56)에서, [데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은, 도 1] 다중 소스로부터의 크린 데이터베이스는 데이터 엘리먼트 및 소스의 마스터 테이블(30)(도 2에 도시됨)의 형태로 생성될 수 있다. 데이터 엘리먼트 및 소스의 마스터 테이블(30)은 아이템 데이터의 단일 소스일 수 있고, 이는 각 데이터 엘리먼트(32)의 최상의 값을 포함한다. 단계(56)는 각 데이터 엘리먼트의 소스에 대한 추적성을 유지하고, 소스가 유일 데이터 식별자(31)에 의해 변할 수 있다는 것을 인식하며, 데이터의 부가적 이해를 제공하도록 각 데이터 엘리먼트에 부착되어지는 주석을 유지하는 것을 포함할 수 있다. 제1우선권 소스로부터의 데이터가 유효하다면 이는 이용되어질 수 있다. 한편, 다음의 가장 높은 우선권 소스로부터의 유효한 데이터가 선택될 수 있다. 각 유일 데이터 식별자(31)를 위해 선택된 [데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은] 데이터 소스의 로그(log)를 유지하는 것은 단계(56)에 포함될 수 있다. 유효한 데이터가 데이터 엘리먼트(32)를 위해 존재하지 않으면, 사용자 특정화 디폴트가 선택될 수 있다. 이어, 데이터 기록은 디폴트가 적용되었다는 주석을 달게 된다. 또한 단계(56)에서, 공급 체인 재고 최적화 시스템(161)과, 재고 관리 시스템(163), 계약 및 가격 책정 시스템(164), 통합 정보 시스템(162), 시뮬레이션 시스템(166), 또는 엔지니어링 시스템(165)(도 1에 도시됨)과 같은 다른 응용은 우선화의 다른 시퀀스와 함께 데이터 엘리먼트(32)(도 2)를 선택할 수 있도록 된다. 각 데이터 엘리먼트(32)는 도 2에 도시된 바와 같이, 최선의 값(321), 최선의 값의 소스(322), 코멘트(341)와 같은 각 유일 데이터 식별자(31)를 위한 예컨대 3부분의 정보를 포함할 수 있다.

단계(57)에서, 교차-참조가 유일 데이터 식별자(31) 사이에서 생성될 수 있다. 단계(57)는 유일 데이터 식별자를 기초로 우선화 교차-참조 데이터를 포함할 수 있다. 예컨대, 구조는 NSN(NATO 비축 번호 또는 국가 비축 번호)에 의해 따르고, 부품 번호와 제조자의 코드에 의해 따르는, 유일하게 아이템을 설명하기 위한 최선의 값으로서의 섹션 참조를 식별할 수 있다.

단계(58)에서, 유일 데이터 식별자(31) 간의 교차-참조는 유틸리티에 의해 유지될 수 있다. 단계(58)는 [데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은, 도 1] 다중 소스로부터 데이터베이스 [데이터 엘리먼트 및 소스의 마스터 테이블(30), 도 2]를 생성할 때 개발된 불일치를 검토하고, 각 식별 구조를 위한 주요(primary) 유일 데이터 식별자를 식별하는 것을 포함할 수 있다. 부품을 위한 가장 늦은 설계 구성, 예컨대 폐기 부품 구성을 위한 부품 번호가 가장 늦은 설계 구성으로 변환되거나 가장 늦은 구성이 판매된 것을 검토하는 것은 단계(58)의 부분으로 될 수 있다. 더욱이, 유틸리티에는 데이터 저장소의 데이터를 기초로 교차-참조를 위한 모든 조건을 식별하는 것이 제공되는 바, 예컨대 부품 번호 및 제조자 코드는 다중 NSN에 대해 맵핑되고, NSN은 NSN의 명세에 부합되는 부품을 제공하는 다른 제조자의 번호 부여 구조를 기초로 많은 다른 부품 번호에 맵핑될 수 있다. 단계(58)는 유일 데이터 식별자 변화에 따른 인덱스 테이블을 유지하고, 부품 번호와 제조자 코드가 개정된 부품 번호 및 제조자 코드에 의해 대체됨에 따른 인덱스 테이블을 유지하며, 부품 번호가 유효 공급자에 대해 부정확하게 교차-참조되지 않게 보증하도록 중복 부품 번호 및 제조자 코드를 검토하고, 유효화된 유일 데이터 식별자(31)의 리스트일 수 있는 마스터 데이터 아이템 리스트를 유지하는 것을 더 포함한다. 마스터 데이터 아이템 리스트에 포함되지 않은 아이템은 의심스러운 것으로서 검토하기 위해 플래그되어질 수 있다.

단계(59)에서, 데이터 크리닝 시스템(20)(도 1)으로부터 공급된 데이터일 수 있는 유일 참조 번호가 진정한 유일 아이템 식별 번호를 수신하기 위해, 데이터 시스템 및 소프트웨어 도구(16)(도 1)를 인에이블하도록 각 데이터 엘리먼트(32)(도 2)에 대해 생성될 수 있다. 단계(59)는 원하지 않은 중복(duplicate)을 삭제하도록 유틸리티를 제공하고 교차-참조에서 불일치를 정정하도록 유틸리티를 제공하는 것을 더 포함할 수 있다. 단계(59)에서, 데이터 시스템 및 소프트웨어 도구(16)(도 1)와 같은 응용이 교차-참조가 완벽하게 될 필요가 있다는 요구 없이 실행하도록 인에이블될 수 있다.

단계(61)에서, 유일 아이템 식별 번호를 포함하는 계약된 마스터 데이터 아이템이 유지될 수 있다. 요구될 때, 마스터 데이터 아이템 리스트는 다수 회 이용되어지는 유일 아이템 식별 번호를 허용할 수 있다. 단계(61)는 데이터 엘리먼트 및 소스의 마스터 테이블(30)(도 2)의 유일 아이템 데이터를 갖는 마스터 데이터 아이템 리스트에서의 복사 아이템 데이터를 통합하는 것을 포함할 수 있다.

단계(62)에서, 일관성 있고, 정규화되며, 크리닝된 데이터가 데이터 엘리먼트 및 소스의 마스터 테이블(30)(도 2)로부터 이러한 데이터를 이용할 수 있는 데이터 시스템 및 소프트웨어 도구(16)(도 1)에 의해 요구된 포맷으로 로드될 수 있다. 소정의 상업적으로 유용한 ETL 도구(21)(도 1), 또는 소비자 데이터 쿼리가 단계(62)를 수행하는데 이용될 수 있다. 결과적으로, 측정의 일관성 있는 유니트에 대해 정규화되고, 동일한 일관성이 있는 소스로부터의 크리닝된 데이터는 도 1에 도시된 데이터 시스템 및 소프트웨어 도구(16)와 같은 다중 결정 작성 시스템에 의해 이용하기 위해 유용하다. 모든 결정 작성 시스템이 도 1에 도시된 데이터 크리닝 시스템(20)에 의해 제공된 동일한 입력 데이터에 따라 착수되므로, 결과가 일관성이 있고 유효한 비교가, 공급 체인 재고 최적화 시스템(161)과, 재고 관리 시스템(163), 계약 및 가격 책정 시스템(164), 통합 정보 시스템(162), 시뮬레이션 시스템(166), 또는 엔지니어링 시스템(165)(도 1에 도시됨)과 같은 시스템 간에서 만들어질 수 있다. 예컨대 개별 부품 번호와 관련하여 만들어지는 결정을 인에이블할 수 있는 전술 결정 작성 도구는 더 긴 범위 또는 그로벌 계획 시스템 도구로서 작용할 수 있는 전략상 결정 작성 도구와 동일한 데이터에 대해 억세스할 수 있 다.

단계(63)에서, 라인 카운트 리포트 및 하이 드라이버 리포트(40)(도 3)와 같은 표준화된 데이터 크리닝 및 관리 리포트가 생성될 수 있다. 라인 카운트 리포트는 데이터 엘리먼트 및 소스의 마스터 테이블(30)(도 2)의 번호 또는 유일 데이터 식별자(31)를 탤링(tallying)함으로써 생성될 수 있고, 다른 데이터 엘리먼트(32)에 대해 교차 도표 작성되어질 수 있다. 도 3에 도시된 하이 드라이버 리포트(40)와 같은 하이 드라이버 리포트는 검토를 위해 아이템을 우선화하고 가장 명백한 에러를 빠르게 식별하는 것을 인에이블할 수 있다.

단계(64)에서, 데이터 크리닝 시스템(20)(도 1)은 데이터 저장소(14) 및 외부 데이터 소스(15)(도 1)와 같은 소스 시스템을 갱신하는 것 없이 사용자에 의해 갱신되어질 수 있다. 단계(64)는 폐쇄 루프 데이터 크리닝을 가능하게 한다.

도 5를 참조하면, 본 발명의 다른 실시예에 따른 공급 체인(70)의 데이터 크리닝 응용이 도시되어 있다. 공급 체인(70)의 데이터 크리닝 응용은 데이터 크리닝 시스템(20)(도 1에 도시됨)과 데이터 크리닝 프로세스(50)(도 4에 도시됨)의 응용에 대한 일례일 수 있다. 공급 체인(71)은 내장된 데이터 크리닝 시스템(20)(도 1에 도시된 바와 같은)을 갖는 통합 정보 시스템(71)과, 데이터 크리닝 사용자 인터페이스(29)(도 1에 도시된 바와 같은), 통계 요구 예측 유틸리티(72), 전략적 재고 최적화 도구(73), 시뮬레이션 도구(74), 전술적 분석 유틸리티(75), 웹 포탈(76), 재고 관리 시스템(77), 통제된 프로세스(78; disciplined processes) 및, 분배 네트워크 최적화 도구(79)를 포함할 수 있다. 통합 정보 시스템(71)은 데이터 크리닝 사용자 인터페이스(29)(또한 도1 에 도시됨), 통계 요구 예측 유틸리티(72), 전략적 재고 최적화 도구(73), 시뮬레이션 도구(74), 전술적 분석 유틸리티(75), 웹 포탈(76), 재고 관리 시스템(77)으로부터 데이터를 수신함과 더불어 이들에 대해 데이터를 제공한다. 효율적인 데이터 크리닝은 통합 정보 시스템(71) 내에 내장된 (도 1에 도시된 바와 같은) 데이터 크리닝 시스템(20)에 의해 제공될 수 있다. (도 4에 도시된 바와 같은) 데이터 크리닝 프로세스(50)는 정규화되고, 크리닝된 데이터의 일관성 있는 소스를 매개로 결정 지원(78,72), 최적화(73,79), 시뮬레이션(74), 리포팅(75,76) 및, 재고 관리 도구(77)를 연결함으로써 공급 체인(70)을 동기화할 수 있다.

도 6을 참조하면, 본 발명의 1실시예에 따른 공급 체인(70)을 위한 데이터 크리닝 프로세스(80)가 도시되어 있다. 공급 체인(70)을 위한 데이터 크리닝 프로세스(80)는, 단게(81)에서 [데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은, 도 1] 소스 시스템으로부터 데이터의 추출을 초기화하고, ETL 도구(21)(도 1)을 이용해서 단계(82)에서 데이터 변환을 실행하는 것을 포함한다. 데이터 엘리먼트 및 소스의 마스터 테이블(30)(도 2)에 대해 데이터를 로딩하는 것은 단계(83)에 따른다. 단계(84)는 소스 우선화 유틸리티(26)(도 1)를 이용해서 소스 데이터의 우선순위를 선택하는 것을 포함할 수 있다. 하이 드라이버 및 에러 리포트를 검토하는 것과 논리적 데이터를 스크러빙(scrubbing)하는 것은 단계(85)에서 수행되어진다. 단계(86)는 단계(87)에서의 통계적 모델을 이용함으로써 비축 레벨 및 재주문 시점의 재고 최적화를 초기화하는 것에 의해 따르는 예비 분석 최적화 계산 을 위한 데이터를 승인하는 것을 포함할 수 있다. 리포트(28)(도 1)와 웹 관찰(web viewed)에 따른 예비 부품 분석이 단계(88)에서 검토되어질 수 있고 재고 최적화가 단계(89)에서 승인되어질 수 있다. 단계(91)는 공급 체인 소프트웨어(161)(도 1)의 일부일 수 있는 전략적 모델(73)(도 5)로부터 데이터 저장소(24)(도 1)로 비축 레벨 및 재주문 시점 요구, 전략 모델 입력, 소스 및, 코멘트를 보내는(exporting) 것과, 소비자 감사 추적을 위한 지원 데이터를 유지하기 위해 모든 입력 및 출력을 저장하는 것을 포함한다. 저장소, 공급자 등에 의해 부품, 공급자, 비축 레벨, 재주문 시점 등의 리포트(28)(도 1)를 생성하는 것은 단계(92)에서 수행될 수 있다. 단계(93)에서는 소정의 재고 부족분을 커버하도록 요구된 예비 부품이 구매되어질 수 있고, 단계(94)에서는 비축 레벨 및 재주문 시점 요구가 재고 관리 시스템(163)(도 1)으로 보내질 수 있게 된다. 마지막 단계(95)에서는, 재고 관리 시스템(163)(도 1)에 대한 갱신이 매일 매일의 자산 관리를 위한 재정 테이블에서 발견되는 기록을 위해 초기화되어질 수 있다.

도 7을 참조하면, 본 발명의 다른 실시예에 따른 예비 부품 모델링 프로세스(110)가 도시되어 있다. 예비 부품 모델링 프로세스(110)는 데이터 크리닝 프로세스(50)(도 4)의 구현의 예일 수 있다. 재고 관리 시스템(163)(도 1)의 부분일 수 있는 예비 부품 모델링 프로세스(110)는, 단계(111)에서 장비 모델과 계획안을 식별하고; 단계(112)에서 목표를 결정하며; 단계(113)에서 매매 연구 기회를 결정하는 것을 포함할 수 있다. 단계(114)는 단계(115)에서의 데이터 크리닝 프로세스(도 4)를 실행하는 것에 의해 따르는 논리화 데이터를 수집하는 것을 포함한 다. 비축 레벨의 전략적 재고 최적화는 단계(116)에서 보내질 수 있고, 위험을 감소시키기 위한 시뮬레이션(166)(도 1)이 단계(117)에서 실행되며, 내부 검토가 단계(118)에서 수행될 수 있다. 단계(119)는 모델이 단계(120)에서 반복되어야만 한다면 결심에 의해 따르는 소비자 검토를 수행하는 것을 포함한다. 모델의 반복이 요구된다면, 단계(120)는 단계(114)로 되돌아가는 것을 포함한다. 모델의 반복이 필요로 되지 않는다면, 제안 리포트를 생성하는 것은 단계(122)에서의 인도 제안, 획득 제안 및, 건전 프로그램 실행에 의해 따르는 단계(121)에서 수행될 수 있다. 예비 부품 모델링 프로세스(110)는 단계(115)에서 데이터 크리닝 프로세스(50)(도 4)에 의해 제공된 일관성 있고, 정규화되며, 크리닝된 데이터에 기인하여 신뢰성 및 기소 가능성 결과를 제공할 수 있다.

한편, 본 발명은 상기 실시예로 한정되는 것은 아니고, 본 발명의 요지를 벗어나지 않는 범위 내에서 다양하게 변형하여 실시할 수 있음은 물론이다.

Claims

데이터 포맷팅 유틸리티와 데이터 크리닝 유틸리티를 이용해서 적어도 2개의 소스 시스템으로부터 로드된 데이터를 타당성 있게 하는 단계와;

정규화된 데이터 크리닝 저장소에 상기 타당성이 있게 된 데이터를 추가하는 단계;

상기 소스 시스템의 우선권을 선택하는 단계;

상기 적어도 2개의 소스 시스템으로부터의 각 데이터 엘리먼트를 위한 유일 데이터 식별자를 포함하는 크린 데이터베이스를 생성하는 단계;

상기 유일 데이터 식별자 간의 교차-참조를 생성 및 유지하는 단계;

상기 데이터를 이용해서 데이터 시스템 및 소프트웨어 도구에 의해 요구된 포맷으로 상기 크린 데이터베이스로부터 일관성 있고, 정규화되며, 크리닝된 데이터를 로딩하는 단계;

상기 일관성 있고, 정규화되며, 크리닝된 데이터를 이용해서 표준화된 데이터 크리닝 및 관리 리포트를 생성하는 단계 및;

상기 소스 시스템을 갱신하는 것 없이 사용자에 의해 상기 일관성 있고, 정규화되며, 크리닝된 데이터를 갱신하는 단계를 갖추어 이루어진 것을 특징으로 하는 데이터 크리닝 프로세스.
제1항에 있어서, 추출, 변환 및, 로드 도구를 이용해서 데이터 크리닝을 위한 공통 포맷으로 상기 적어도 2개의 소스 시스템으로부터 데이터를 로딩하는 단계와;

상기 각 데이터 엘리먼트의 최선의 값을 포함하는 아이템 데이터의 단일 소스로서 데이터 엘리먼트 및 소스의 마스터 테이블을 생성하는 단계;

상기 데이터 엘리먼트의 부가적 이해를 제공하는 상기 각 데이터 엘리먼트에 대해 주석을 부착함과 더불어 상기 데이터 엘리먼트 및 소스의 마스터 테이블에 주석을 유지하는 단계;

상기 각 데이터 엘리먼트의 상기 소스 시스템에 대해 추적성을 유지하는 단계;

유일 아이템 식별 번호를 수신하도록 상기 데이터 시스템 및 소프트웨어 도구를 인에이블링하는 상기 각 데이터 엘리먼트를 위한 유일 참조 번호를 생성하는 단계 및;

상기 유일 아이템 식별 번호를 포함하는 계약된 마스터 데이터 아이템 리스트를 유지하는 단계를 더 포함하여 이루어진 것을 특징으로 하는 데이터 크리닝 프로세스.
제1항에 있어서, 상기 데이터를 타당성 있게 하는 단계가,

공통 포맷으로 적어도 2개의 소스 시스템으로부터 로드된 상기 데이터를 정 규화하는 단계와;

공통 포맷으로 유일 데이터 식별자를 조절하는 단계;

검토를 위해 무효, 비인식 및, 부재 아이템 식별자를 플래깅하는 단계 및;

적어도 2개의 소스 시스템으로부터 로드된 상기 데이터를 크리닝하는 단계를 더 포함하는 것을 특징으로 하는 데이터 크리닝 프로세스.
제1항에 있어서, 상기 각 소스 시스템으로부터의 데이터의 모든 버전에 대해 추적성을 제공하는 단계와;

시간의 역사적 시점으로서 획득되어지는 데이터의 이전의 값에 대해 감사 추적을 제공하는 단계를 더 갖추어 이루어진 것을 특징으로 하는 데이터 크리닝 프로세스.
제1항에 있어서, 유일 데이터 엘리먼트의 수를 결정하는 단계와;

상기 각 유일 데이터 엘리먼트를 위한 상기 소스 시스템의 수를 결정하는 단계;

사용자 특정화 우선권에 따라 상기 각 유일 데이터 엘리먼트를 위한 상기 소스 시스템을 선택하는 단계;

사용자에 의해 특정 데이터 획득을 위해 상기 우선권을 갱신하는 단계 및;

모든 우선화의 역사적 기록을 유지하는 단계를 더 갖추어 이루어진 것을 특징으로 하는 데이터 크리닝 프로세스.
제1항에 있어서, 라인 카운트 리포트를 생성하는 단계와;

상기 데이터 엘리먼트 및 소스의 마스터 테이블의 상기 유일 아이템 식별자의 수를 탤링하는 단계 및;

다른 데이터 엘리먼트에 대해 상기 유일 아이템 식별자를 교차 도표 작성하는 단계를 더 갖추어 이루어진 것을 특징으로 하는 데이터 크리닝 프로세스.
제1항에 있어서, 하이 드라이버 리포트를 생성하는 단계와;

검토를 위해 아이템을 우선화하는 단계 및;

빠르게 명백한 에러를 식별하는 단계를 더 갖추어 이루어진 것을 특징으로 하는 데이터 크리닝 프로세스.
제1항에 있어서, 상기 데이터 엘리먼트 및 소스의 마스터 테이블을 갱신하도록 상기 사용자를 인에이블하는 데이터 크리닝 사용자 인터페이스를 제공함으로써 폐쇄 루프 데이터 크리닝을 인에이블링하는 단계를 더 갖추어 이루어진 것을 특징 으로 하는 데이터 크리닝 프로세스.
다중 소스 시스템으로부터 데이터 엘리먼트 및 소스의 마스터 테이블로 데이터를 로딩하는 단계와;

상기 소스 시스템의 우선순위를 선택하는 단계;

하이 드라이버 및 에러 리포트를 기초로 상기 데이터 엘리먼트 및 소스의 마스터 테이블에 포함된 논리적 데이터를 크리닝하는 단계;

상기 데이터 엘리먼트 및 소스의 마스터 테이블의 일관성 있고, 정규화되며, 크리닝된 데이터를 승인함과 더불어 상기 데이터를 이용해서 데이터 시스템 및 소프트웨어 도구에 대해 상기 크리닝된 데이터를 제공하는 단계;

상기 크리닝된 데이터를 이용하는 전략적 재고 최적화 모델을 이용해서 비축 레벨 및 재주문 시점의 재고 최적화를 초기화하는 단계;

비축 레벨 및 재주문 시점 요구를 포함하는 예비 부품 분석을 제공하는 단계;

소비자 감사 추적을 위한 지원 데이터를 저장하는 단계;

리포트를 생성하는 단계 및;

상기 리포트에 따라 부족분을 커버하도록 예비 부품을 구매하는 단계를 갖추어 이루어진 것을 특징으로 하는 공급 체인을 위한 데이터 크리닝 프로세스.
제9항에 있어서, 상기 소스 시스템으로부터 상기 데이터를 추출하는 단계와;

데이터 크리닝을 위한 공통 포맷으로 상기 데이터의 변환을 실행하는 단계 및;

상기 하이 드라이버 및 에러 리포트를 검토하는 단계를 더 포함하는 것을 특징으로 하는 공급 체인을 위한 데이터 크리닝 프로세스.
제9항에 있어서, 상기 전략적 재고 최적화 모델을 위한 상기 데이터 엘리먼트 및 소스의 마스터 테이블로부터 데이터를 추출하고 변환하는 단계와;

상기 예비 부품 분석을 위해 상기 전략적 재고 관리 모델로부터 상기 리포트로 상기 데이터를 보내는 단계를 더 포함하는 것을 특징으로 하는 공급 체인을 위한 데이터 크리닝 프로세스.
제9항에 있어서, 재고 최적화를 승인하는 단계와;

리포트와 웹 관찰을 이용해서 상기 예비 부품 분석을 검토하는 단계 및;

상기 전략적 재고 최적화 모델로부터 데이터 저장소로 상기 비축 레벨 및 재주문 시점 요구, 전략적 모델 입력, 소스 시스템 정보, 코멘트를 보내는 단계를 더 포함하는 것을 특징으로 하는 공급 체인을 위한 데이터 크리닝 프로세스.
제9항에 있어서, 상기 비축 레벨 및 상기 재주문 시점을 재고 관리 시스템으로 보내는 단계와;

자산 관리를 위해 재고 관리 데이터 저장소에 대해 상기 비축 레벨 및 재주문 시점을 위한 상기 재고 관리 시스템을 갱신하는 단계를 더 포함하는 것을 특징으로 하는 공급 체인을 위한 데이터 크리닝 프로세스.
적어도 2개의 소스 시스템으로부터 다운로드된 데이터를 타당성 있게 하는데 이용되는 데이터 포맷팅 유틸리티와;

상기 데이터를 크리닝하는데 이용되는 데이터 크리닝 유틸리티;

상기 포맷팅 및 크리닝된 데이터를 수신하는 정규화 데이터 크리닝 저장소;

상기 적어도 2개의 소스 시스템의 우선권을 선택하는데 이용되는 소스 우선화 유틸리티;

상기 크리닝 및 우선화된 데이터를 결합하고, 각 데이터 엘리먼트를 위한 최선의 값과 유일 데이터 식별자를 포함하는 아이템 데이터의 단일 소스인 크린 데이터베이스,

상기 유일 데이터 식별자 간의 교차-참조를 생성 및 유지하는데 이용되는 교차-참조 유틸리티 및;

상기 크린 데이터베이스를 갱신하도록 사용자를 인에이블하는 데이터 크리닝 사용자 인터페이스를 갖추어 이루어진 것을 특징으로 하는 데이터 크리닝 시스템.
제14항에 있어서, 상기 적어도 2개의 소스 시스템으로부터 상기 데이터를 추출하고, 데이터 크리닝을 위해 공통 포맷으로 상기 데이터를 변환하며, 상기 데이터 크리닝 시스템으로 상기 데이터를 로드하는 추출, 변환 및, 로드 도구를 더 갖추어 이루어진 것을 특징으로 하는 데이터 크리닝 시스템.
제15항에 있어서, 상기 추출, 변환 및, 로드 도구가 상기 크린 데이터베이스로부터 상기 데이터를 이용해서 데이터 시스템 및 소프트웨어 도구를 위해 요구된 포맷으로 상기 데이터를 로드하는데 이용되는 것을 특징으로 하는 데이터 크리닝 시스템.
제14항에 있어서, 상기 크린 데이터베이스가 데이터 엘리먼트 및 소스의 마스터 테이블인 것을 특징으로 하는 데이터 크리닝 시스템.
제17항에 있어서, 표준화 데이터 크리닝 및 관리 리포트를 더 갖추어 이루어지고, 상기 리포트가 상기 데이터 엘리먼트 및 소스의 마스터 테이블에 포함된 상기 데이터로부터 생성되는 것을 특징으로 하는 데이터 크리닝 시스템.
제14항에 있어서, 상기 데이터 크리닝 유틸리티가 상기 데이터 크리닝 포맷으로 상기 소스 시스템으로부터 로드된 데이터의 타당성을 보증하는데 이용되는 것을 특징으로 하는 데이터 크리닝 시스템.
제14항에 있어서, 상기 소스 우선화 유틸리티가 이전의 우선화의 역사적 기록을 유지하는 것을 특징으로 하는 데이터 크리닝 시스템.
제14항에 있어서, 상기 데이터 엘리먼트 및 소스의 마스터 테이블이 각 데이터 엘리먼트의 소스에 대해 추적성을 유지하는 것을 특징으로 하는 데이터 크리닝 시스템.
제14항에 있어서, 상기 데이터 크리닝 시스템이 상기 적어도 2개의 소스 시 스템으로부터 데이터를 수신하고, 상기 데이터 크리닝 시스템이 상기 데이터 시스템에 대해 일관성 있고, 정규화되며, 크리닝된 데이터를 제공하며, 사용자가 상기 소스 시스템을 갱신하는 것 없이 상기 데이터 크리닝 시스템을 갱신하는 것을 특징으로 하는 데이터 크리닝 시스템.
제22항에 있어서, 상기 소프트웨어 도구가 공급 체인 소프트웨어인 것을 특징으로 하는 데이터 크리닝 시스템.
제22항에 있어서, 상기 데이터 시스템이 재고 관리 시스템인 것을 특징으로 하는 데이터 크리닝 시스템.