KR20080002941A - 적응형 데이터 크리닝 프로세스 및 시스템 - Google Patents

적응형 데이터 크리닝 프로세스 및 시스템 Download PDF

Info

Publication number
KR20080002941A
KR20080002941A KR1020077026008A KR20077026008A KR20080002941A KR 20080002941 A KR20080002941 A KR 20080002941A KR 1020077026008 A KR1020077026008 A KR 1020077026008A KR 20077026008 A KR20077026008 A KR 20077026008A KR 20080002941 A KR20080002941 A KR 20080002941A
Authority
KR
South Korea
Prior art keywords
data
source
cleaning
unique
sources
Prior art date
Application number
KR1020077026008A
Other languages
English (en)
Inventor
엘. 브래들리 랜돌프
Original Assignee
더 보잉 컴파니
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 보잉 컴파니 filed Critical 더 보잉 컴파니
Publication of KR20080002941A publication Critical patent/KR20080002941A/ko

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B5/00Recording by magnetisation or demagnetisation of a record carrier; Reproducing by magnetic means; Record carriers therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

본 발명에 따른 데이터 크리닝 프로세스는, 적어도 2개의 소스 시스템으로부터 로드된 데이터를 타당성 있게 하는 단계와; 정규화된 데이터 크리닝 저장소에 타당성이 있게 된 데이터를 추가하는 단계; 소스 시스템의 우선권을 선택하는 단계; 크린 데이터베이스를 생성하는 단계; 데이터를 이용해서 데이터 시스템 및 소프트웨어 도구에 의해 요구된 포맷으로 크린 데이터베이스로부터 일관성 있고, 정규화되며, 크리닝된 데이터를 로딩하는 단계 및; 소스 시스템을 갱신하는 것 없이 사용자에 의해 크린 데이터베이스를 갱신하는 단계를 포함한다. 데이터 크리닝 프로세스는 일관성 있는 분석을 인에이블링하는 최적화 모델을 위해 다른 소스로부터 데이터를 수집 및 분석하는 프로세스를 정규화한다. 데이터 크리닝 프로세스는 동적 데이터 세트를 이용하는 데이터 시스템 및 소프트웨어의 입력 및 출력에 대해 완전한 감사성을 더 제공한다. 데이터 크리닝 프로세스는 항공기 산업의 응용에 한정되는 것은 아니지만, 예컨대 공급 체인 관리를 위한 군사적 및 상업적 양쪽의 항공기 산업을 위해 적절하다.

Description

적응형 데이터 크리닝 프로세스 및 시스템{ADAPTIVE DATA CLEANING}
본 발명은 일반적으로 데이터 처리 및 관리 프로세스에 관한 것으로, 특히 적응형 데이터 크리닝 프로세스 및 시스템에 관한 것이다.
큰 실제 세계 데이터 세트(world data set)의 품질은 몇몇 이슈(issues)에 의존하지만, 데이터의 소스는 중대한 요소이다. 데이터 입력 및 획득은 본질적으로 간단함과 복잡성의 양면에서 에러를 일으키기 쉽다. 많은 노력이 입력 에러의 감소와 관련하여 이러한 전단 처리(front-end process)에 종종 부여되지만, 여전히 큰 데이터 세트에서의 에러가 통상적임이 현실이다. 큰 데이터 세트에 대한 필드 에러율(field error rate)은 전형적으로 약 5% 이상이다. 데이터 분석을 위해 필요로 되는 시간의 반 까지가 전형적으로 데이터를 크리닝(cleaning)하는데 소비된다. 일반적으로, 데이터 크리닝은 큰 데이터 세트에 대해 적용된다. 데이터 크리닝은 큰 데이터 세트의 정확도를 개선하도록 데이터를 스크러빙(scrubbing)하는 처리이다. 이상적으로, 데이터 크리닝은 오류 부품 번호나 무효 코드와 같은 오류 엔트리들을 정정하고, 가격 책정이나 리드 타임(lead time)과 같은 부재 데이터 를 갱신하며, 데이터의 다중 소스 및 정의가 존재할 수 있다는 것을 인식하도록, 명백한 옮겨쓰기 에러(transcription errors)를 제거할 수 있다. 효과적인 데이터 크리닝은 규칙을 기초로 하거나 수동 선택을 위한 합당성을 설명하도록 전자적 주석을 통합하여야 하고, 감사 추적(audit trail)을 제공하여야 하며, 동작하기에 쉬워야 한다.
데이터 크리닝은 종종 수동 프로세스를 이용해서 수행되는 바, 이는 고되고, 시간 소모 및, 에러를 야기시키게 된다. 결과적으로, 큰 데이터 세트의 에러를 자동으로 검출할 수 있거나 에러를 검출하는데 도움을 줄 수 있는 방법이 크게 관심을 끌고 있다. 자동화된 데이터 크리닝의 프로세스는 전형적으로 많은 문제를 가지고 있고 많은 문제가 소정의 특정 데이터 크리닝 문제를 해결하도록 접근되어야만 한다. 일반적으로, 가능한 에러 형태가 정의 및 결정되는데 필요로 되고, 에러를 위한 검색이 수행하는데 필요로 됨과 더불어 에러가 식별되어지는데 필요로 되며, 그리고 감추어지지 않은 에러가 정정되어지는데 필요로 된다.
예컨대, i2 Technologies, IBM, Manugistics, MCA Solutions, Systems Exchange와 같은 전류 공급 체인 소프트웨어 솔류션 벤더(current supply chain software solution vendors), 또는 Xelus는 내부 데이터 구조를 잘 개발하고 있음과 더불어 생각해 내고 있다. 이러한 구조는 소비자의 소스 시스템에 맵핑되어야만 하고 주기적으로 갱신되어야만 한다. 맵핑(mapping)은 구현하는 동안에는 "배선화(hardwired)"이고, 소스나 사업 규칙이 변화될 때에는 기록을 요구한다. 더욱이, 공급 체인 소프트웨어로 로딩되기 이전에 소비자 데이터를 저장하는 중간 데 이터베이스의 개발이 종종 필요로 된다. 또한, 현재의 공급 체인 소프트웨어 솔루션은 저장(archiving) 결과, 결과를 유도하는 입력의 보관, 또는 시간이 지남에 따른 버전닝 데이터를 지원하지 않는다. 이는 예컨대 항공기, 트럭, 배 또는 기계장치와 같은 중장비의 한 부분을 위한 비축 권고를 유도하는 결정 프로세스를 감사하는 것으로부터 소비자를 보호한다. 긴 수명을 갖는 중장비와 같은 수리가능 항목을 위한 서비스 부품 비축 레벨에 따라, 수백만 달러로 되는 경향으로 실행되어, 감사성(auditability)은 많은 소비자들에 대해 중요한 요구이다.
ETL(Extract, Transform, and Load) 도구는 전형적으로 소스 시스템과 중간 데이터베이스 사이의 갭을 메우는데 이용된다. ETL 도구는 데이터베이스 소프트웨어의 하나의 운용 시스템과 브랜드로부터 다른 것으로 데이터를 변환하는데 이용된다. ETL 도구는 데이터를 변환하고 필터링하도록 제한된 사업 규칙을 적용한다. ETL 도구는 동일 데이터의 다중 소스를 취급하도록 설계되지는 않는다. 더욱이, 사업 규칙이 데이터의 다중 소스에 적용될 때, 그들은 데이터 수집 프로세스 동안 적용되고, 이는 하나 이상의 데이터 소스에 대한 변화의 후 가시성(later visibility)을 배제한다. ETL 도구는 또한 데이터를 버전닝하는 것을 지원하지 않고, 이는 시간이 지남에 따른 데이터에서의 변화를 추적하는 것을 포함한다.
2000년도에, 미국 매사추세츠 하버드에 주소를 둔 Ventana Systems, Inc.는 C-17 항공기 프로그램을 위한 공급 소프트웨어 솔루션을 위해 미국, 캘리포니아, 롱비치에 주소를 둔 TheBoeing Company를 위해 데이터 크리닝 솔루션을 개발하였다. 이러한 종래의 크리닝 솔루션은 Excel과 같은 사용자 인터페이스를 갖는 Oracle 및 C++로 쓰여졌다. 데이터 크리닝 솔루션은, 데이터베이스의 데이터를 변경시키고 변경된 데이터를 컬러-코딩하도록 사용자를 허용하는 것에 의해, 간단한 결정 트리 논리를 이용해서 시간이 지남에 따라 지속하도록 데이터에 대한 변경을 허용하는 방법으로 개발하는 것에 의해, 그리고 크리닝을 원하는 데이터 엘리먼트를 선택하도록 사용자를 허용하는 것에 의해, 종래 기술을 진보시킨다. 아직도 이러한 종래 기술 데이터 크리닝 솔루션은 몇몇 제한을 통합하고 있다. 예컨대, 공급 체인 소프트웨어 솔류션은 데이터 요약화(data encapsulation)를 이용하는 것에 대해 소정 루틴에 의해 변화될 수 있는 글로벌 변수(global variables)를 이용하고, 데이터 크리닝 솔루션은 유지를 어렵게 하는 복잡한 내부 데이터 구조를 이용하며, 응용에 의한 데이터의 로딩은 엄격한 절차로 고수되어야만 하거나 데이터가 훼손되어질 수 있다.
알 수 있는 바와 같이, 다중 소스로부터 데이터의 선택을 자동적으로 할 수 있는 데이터 크리닝을 위한 방법이 필요로 된다. 더욱이, 저장(archiving) 결과, 결과를 유도하는 입력의 보관, 또는 시간이 지남에 따라 버전닝 데이터를 위한 지원을 허용하는 데이터 크리닝 프로세스가 필요로 된다. 더욱이, 존재하는 데이터 관리 시스템으로 용이하게 권한을 부여할 수 있는 데이터 크리닝 프로세스가 필요로 된다.
따라서, 표준화된 절차를 제공하고, 통합 공통 데이터 저장소 프로젝트를 보충하며, 다중 소스로부터 데이터를 선택하는 데이터 크리닝을 위한 프로세스를 제 공하는 필요성이 제기된다. 더욱이, 다른 소비자들이 명시적으로 동일 데이터 엘리먼트의 다른 소스를 보는 것을 필요로 하고, 무엇이 이론적으로 동일한 데이터로 되는지의 다중 버전이 존재한다는 것을 인식하는 데이터 크리닝을 위한 프로세스를 제공하는 필요성이 제기된다. 더욱이, 분석을 위해 이용된 데이터와 분석 결과 양쪽을 저장할 수 있는 적응형 데이터 크리닝을 위한 프로세스를 제공하는 필요성이 제기된다.
본 발명의 1실시예에 따른 데이터 크리닝 프로세스는, 데이터 포맷팅 유틸리티와 데이터 크리닝 유틸리티를 이용해서 적어도 2개의 소스 시스템으로부터 로드된 데이터를 타당성 있게 하는 단계와; 정규화된 데이터 크리닝 저장소에 타당성이 있게 된 데이터를 추가하는 단계; 소스 시스템의 우선권을 선택하는 단계; 크린 데이터베이스를 생성하는 단계; 유일 데이터 식별자 간의 교차-참조를 생성 및 유지하는 단계; 데이터를 이용해서 데이터 시스템 및 소프트웨어 도구에 의해 요구된 포맷으로 크린 데이터베이스로부터 일관성 있고, 정규화되며, 크리닝된 데이터를 로딩하는 단계; 일관성 있고, 정규화되며, 크리닝된 데이터를 이용해서 표준화된 데이터 크리닝 및 관리 리포트를 생성하는 단계 및; 소스 시스템을 갱신하는 것 없이 사용자에 의해 상기 일관성 있고, 정규화되며, 크리닝된 데이터를 갱신하는 단계를 갖추어 이루어진다. 크린 데이터베이스는 적어도 2개의 소스 시스템으로부터 각 데이터 엘리먼트를 위한 유일 데이터 식별자를 포함한다.
본 발명의 다른 실시예에 따른 공급 체인을 위한 데이터 크리닝 프로세스는, 다중 소스 시스템으로부터 데이터 엘리먼트 및 소스의 마스터 테이블로 데이터를 로딩하는 단계와; 소스 시스템의 우선순위를 선택하는 단계; 데이터 엘리먼트 및 소스의 마스터 테이블에 포함된 논리적 데이터를 크리닝하는 단계; 데이터 엘리먼트 및 소스의 마스터 테이블의 일관성 있고, 정규화되며, 크리닝된 데이터를 승인함과 더불어 데이터를 이용해서 데이터 시스템 및 소프트웨어 도구에 대해 상기 크리닝된 데이터를 제공하는 단계; 크리닝된 데이터를 이용하는 전략적 재고 최적화 모델을 이용해서 비축 레벨 및 재주문 시점의 재고 최적화를 초기화하는 단계; 비축 레벨 및 재주문 시점 요구를 포함하는 예비 부품 분석을 제공하는 단계; 소비자 감사 추적을 위한 지원 데이터를 저장하는 단계; 리포트를 생성하는 단계 및; 리포트에 따라 부족분을 커버하도록 예비 부품을 구매하는 단계를 갖추어 이루어진다.
본 발명의 또 다른 실시예에 따른 데이터 크리닝 시스템은, 데이터 포맷팅 유틸리티와, 데이터 크리닝 유틸리티, 정규화 데이터 크리닝 저장소, 소스 우선화 유틸리티, 크린 데이터베이스, 교차-참조 유틸리티 및, 데이터 크리닝 사용자 인터페이스를 포함한다. 데이터 포맷팅 유틸리티는 적어도 2개의 소스 시스템으로부터 다운로드된 데이터를 타당성 있게 하는데 이용된다. 데이터 크리닝 유틸리티는 데이터를 크리닝하는데 이용된다. 소스 우선화 유틸리티는 적어도 2개의 소스 시스템의 우선권을 선택하는데 이용된다. 정규화 데이터 크리닝 저장소는 포맷팅 및 크리닝된 데이터를 수신한다. 크린 데이터베이스는 크리닝 및 우선화된 데이터를 결합한다. 크린 데이터베이스는 각 데이터 엘리먼트를 위한 최선의 값과 유일 데이터 식별자를 포함하는 아이템 데이터의 단일 소스이다. 교차-참조 유틸리티는 유일 데이터 식별자 간의 교차-참조를 생성 및 유지하는데 이용된다. 데이터 크리닝 사용자 인터페이스는 크린 데이터베이스를 갱신하도록 사용자를 인에이블한다.
도 1은 본 발명의 1실시예에 따른 데이터 크리닝 하이-레벨 구조의 플로우차트,
도 2는 본 발명의 1실시예에 따른 데이터 크리닝 테이블 레이아웃,
도 3은 본 발명의 1실시예에 따른 하이 드라이버 분석 매트릭스(high driver analysis matrix),
도 4는 본 발명의 1실시예에 따른 데이터 크리닝 프로세스의 플로우차트
도 5는 본 발명의 다른 실시예에 따른 공급 체인의 데이터 크리닝 응용의 블록도,
도 6은 본 발명의 1실시예에 따른 공급 체인을 위한 데이터 크리닝 프로세스의 플로우차트,
도 7은 본 발명의 다른 실시예에 따른 예비 부품 모델링 프로세스(spares modeling process)의 플로우차트이다.
이하, 예시도면을 참조하면서 본 발명에 따른 실시예를 상세히 설명한다.
명백히, 본 발명은 최적화 모델을 위한 다른 소스로부터 데이터를 수집하여 분석하는 프로세스를 표준화하는 적응형 데이터 크리닝 프로세스 및 시스템을 제공한다. 더욱이, 본 발명은 일반적으로 최적화 모델 또는 다른 도구 또는 시간이 지남에 따라 변화되는 동적 데이터 세트를 이용해서 주기적으로 실행되는 모델의 입력 및 출력에 대해 완전한 감사성(auditability)을 제공하는 데이터 크리닝 프로세스를 제공한다. 본 발명의 1실시예로서의 적응형 데이터 크리닝 프로세스 및 시스템은 일관성 있는 분석을 할 수 있고, 하나의 시간 데이터베이스 코딩을 배제하며, 데이터 소스를 변화시키는 조절에 요구되는 시간을 감소시키고, 예컨대 재고 조사 최적화 모델이나 공급 체인 제안의 개발 동안에 이용되어질 수 있다. 본 발명의 1실시예는 예컨대 공급 체인 관리를 위한 군사적 및 상업적인 항공기 산업에 응용을 위해 적절하지만 이에 한정되지는 않는 데이터 크리닝 프로세스를 제공한다. 본 발명의 1실시예는 긴 수명을 갖는 중장비를 이용하는 산업에서의 응용을 위해 더욱 적절하지만 이에 한정되지는 않는 데이터 크리닝 프로세스를 제공한다. 본 발명의 1실시예로서의 데이터 크리닝 프로세스는, 관리의 필요성이 있는 큰 데이터베이스와, 여러 하부 조직으로부터의 데이터를 결합할 필요가 있는 큰 회사 및, 운송 산업의 중장비와 같은 고가치 상품과 관련하여 관리되어지는 데이터에서 이용되어질 수 있다. 본 발명의 1실시예로서의 데이터 크리닝 프로세스는, 예컨대 재고 관리, 주문 관리, 소비자 데이터 관리, 또는 산업 유지보수 관련을 위해 더욱 이용되어 질 수 있다.
1실시예에 있어서, 본 발명은 다중 소스로부터 최선의 소스를 선택함과 더불어 예측을 위한 최선의 값을 선택하도록 우선순위(precedence)를 기초로 다중 소스로부터 데이터를 선택하고 발견적 지도법(heuristics)을 이용하는 데이터 크리닝 프로세스를 제공한다. 존재하는 ETL(Extract, Transform 및, Load) 도구는 동일한 데이터의 다중 소스를 취급하도록 설계되지는 않는다. 현재의 ETL 도구는 다중 소스로부터 데이터를 로드시키지만, 다른 소스를 지나 하나의 소스를 선택하기 위한 커스텀 로직을 생성하는 소프트웨어 개발자나 사용자를 요구한다. 더욱이, 소스는 소프트웨어 개발자나 이용자의 수동 개재 없이는 전형적인 ETL 도구의 초기 구현 후에는 부가 또는 삭제되어질 수 없게 된다. 종래 기술과는 반대로, 본 발명의 1실시예에서와 같이, 데이터 크리닝 프로세스는 언제라도 부가 또는 드롭되어지는 무제한의 수의 데이터 엘리먼트 및 소스를 허용한다. 종래의 데이터 크리닝 프로세스와는 반대로, 본 발명의 1실시예로서의 데이터 크리닝 프로세스는 소비자와 같은 다른 사용자를 인식할 수 있고, 단가(unit price)와 같은 부품을 구매하기 위한 내부 값과 부품을 판매하기 위한 외부 값을 갖는 명시적으로 동일한 데이터 엘리먼트의 다른 소스를 볼 필요가 있다. 이러한 예에 대해, 가격의 양쪽 값이 유효하고 어느 하나가 적용에 따라 이용된다. 본 발명의 1실시예로서의 데이터 크리닝 프로세스는 다른 소스로부터의 선택된 데이터 엘리먼트를 위한 다중 값을 디스플레이하는 능력을 갖을 수 있다. 사용자는 소스 시스템의 정보 보다 더욱 정확하게 될 수 있는 정보에 따라 원래의 선택을 무시할 수 있다. 각 데이터 엘리먼트를 위한 단지 하나의 값 만이 보이는 전통적인 데이터베이스와는 달리, 본 발명의 1실시예로서의 데이터 크리닝 프로세스는 이전의 값에 대한 버전닝과 다른 소스 시스템으로부터 가능한 각 데이터 엘리먼트의 모든 버전에 대한 추적성을 제공할 수 있다.
1실시예에 있어서, 데이터 저장 영역의 데이터 엘리먼트에 대해 이루어지는 모든 변화를 캡쳐 및 인식하고, 이용자에게 되돌려 변화들을 다시 디스플레이하는 능력을 갖춘 데이터 크리닝 프로세스를 제공한다. 변화가 스크린 변화나 다량 갱신임에 상관 없이, 데이터 엘리먼트에 대한 변화와 관련한 정보는 데이터를 변화시키는 사용자, 변화의 데이터, 왜 변화가 수행되었는지를 포함하는 코멘트를 추적함으로써 캡쳐되어질 수 있다. 이는 종래의 데이터 크리닝 프로세스를 뛰어 넘는 잇점으로, 이는 일반적으로 의심이 있었던 데이터만을 플래깅(flagging)하는 것을 허용하고, 일반적으로 기록의 시스템에 대해 이루어지는 변화를 요구한다. 많은 경우에 있어서, 기록의 시스템은, 데이터 크리너가 갱신 권한을 갖고 있지 않은, 소비자 데이터베이스, 또는 부서 데이터 베이스이다. 결과적으로, 이용자가 기록의 시스템을 갱신하는 종래의 데이터 크리닝 솔루션은 종종 비현실적이다. 종래 기술과는 반대로, 본 발명의 1실시예로서의 데이터 크리닝 프로세스는 컴퓨터 모델에 대한 입력 및 출력 양쪽에 대해 날짜가 적힌 버전닝을 제공하고, 추적이 시간이 지남에 따라 데이터에 대해 변화한다. 현존하는 ETL 도구는 시간이 지남에 따른 버전닝 데이터를 지원하지는 않는다. 본 발명의 1실시예로서의 데이터 크리닝 프로세스는, 결과 및 데이터와 결과가 기초로 되는 데이터 소스의 양쪽의 감사성을 허용한다. 본 발명의 1실시예로서의 데이터 크리닝 프로세스는, 사용자 정의 가 능 사업 규칙을 스크리닝하는 것에 의해 데이터 무결성(integrity)을 확보한다. 더욱이, 본 발명의 1실시예로서의 데이터 크리닝 프로세스는, 예컨대 소스 시스템으로부터의 부품 번호들에 대한 사용자 첨가 및 삭제를 허용하고, 데이터를 물리적으로 삭제하는 것 보다는 무엇이 부가되었는가에 대한 추적성을 유지함과 더불어 추적성을 위한 삭제된 데이터를 플래깅한다. 결과적으로, 데이터가 삭제된 것으로서 전자적으로 태그되지만, 데이터 저장소로부터 물리적으로 제거되지는 않는다. 더욱이, 본 발명의 1실시예로서의 데이터 크리닝 프로세스는, 자동화된 주석을 부가하고, 각 데이터 엘리먼트에 부착될 수 있음과 더불어 자동화된 처리, 포맷 변환 및, 다른 데이터 품질 정보 상에 정보를 제공하는 수동 주석을 허용한다. 이는 예컨대 영국 파운드에서 미국 달러로 현금을 맞출 경우, 데이터가 분석을 위해 변환되어야만 할 때 감사성을 제공한다.
1실시예에 있어서, 본 발명은 예컨대 공급 체인 소프트웨어 도구와 관련하여 이용되어질 수 있고, 이러한 공급 체인 소프트웨어 도구의 결과를 보관 및 할당하는 것을 허용하는 데이터 크리닝 프로세스를 제공한다. 현재 존재하는 데이터 저장소는 분석을 수행하는데 요구되는 현재의 입력 데이터를 저장하게 된다. 본 발명의 1실시예로서의 데이터 크리닝 프로세스는, 분석이 수행되었을 때 이용된 데이터와, 분석의 결과 양쪽을 저장하는 것을 허용한다. 이는 데이터의 소스와 해당 데이터를 기초로 하는 모델 결과에 대해 완전한 감사성을 제공한다. 이는 값 비싼 유지보수 예비 부품의 구매 배후의 합리성에 대한 감사성이 요구되는 곳인, 예컨대 정부 공급 체인 계약 및 상업적 계약을 위해 중요하다. 데이터 및 결과의 저장을 지원하는 알려진 공급 체인 도구는 없다. 더욱이, 본 발명의 1실시예로서의 데이터 크리닝 프로세스는, 예컨대 특정 데이터 엘리먼트가 의심됨과 더불어 검토되어야 한다는 것을 자산 관리자 및 데이터를 위해 통지하는 경고를 제공하는 데이터 엘리먼트 레벨에서 확립되어지는 임계 및 트리거를 허용한다. 이러한 임계는, 물리적으로 불가능할 뿐만 아니라 에러는 에러들을 위한 각각 및 모든 데이터 엘리먼트를 스캔하는 경향이 있음에 따라, 큰 양의 데이터가 갱신될 때 특히 중요하다. 더욱이, 본 발명의 1실시예로서의 데이터 크리닝 프로세스는 수동 재검토를 위해 부재 데이터(missing data)를 플래깅하는 동안 임계적 부재 데이터(critical missing data)에 채우도록 디폴트를 제공한다. 이는 해당 아이템을 위한 소정의 데이터 엘리먼트가 부재 또는 무효이면 전제 아이템을 삭제하는 종래의 솔루션에 비해, 모든 부품이 분석에 포함되어진다는 것을 더욱 가능하게 만든다. 본 발명의 1실시예로서의 데이터 크리닝 프로세스는 디폴트(defaults)가 이용되어진 모든 데이터 엘리먼트에 대해 추적성이 제공된다.
도 1을 참조하면, 본 발명의 1실시예에 따른 데이터 크리닝 하이-레벨 구조(10; data cleaning high-level architecture)가 도시된다. 데이터 크리닝 하이-레벨 구조(10)는 현존하는 인터페이스(11)에서 구현된 데이터 크리닝 시스템(20)을 포함한다. 데이터 크리닝 시스템(20)은 ETL(Extract, Transform, and Load) 도구(21), 데이터 포맷팅 유틸리티(22), 데이터 크리닝 유틸리티(23), 정규화 데이터 크리닝 저장소(24), 소스 우선화 유틸리티(26), 데이터 엘리먼트 및 소스의 마스터 테이블(30)(또한 도 2에 도시됨), 교차 참조 유틸리티(27; cross reference utilities), 리포트(28) 및, 데이터 크리닝 사용자 인터페이스(29)를 포함할 수 있다. 현존하는 인터페이스(11)는, 법인과 소비자 및 공급자 데이터(12), ETL 도구(13), 데이터 저장소(14), 외부 데이터 소스(15) 및, 공급 체인 재고 최적화 시스템(161)과 통합 정보 시스템(162), 재고 관리 시스템(163), 계약 및 가격 책정 시스템(164), 엔지니어링 시스템(165) 및 시뮬레이션 시스템(166)과 같은 데이터 시스템 및 소프트웨어 도구(16)를 포함할 수 있다. 법인과 소비자 및 공급자 데이터(12)는 ETL 도구(13)를 이용해서 데이터 저장소에 로드될 수 있다.
ETL 도구(21)는 데이터 저장소(14)로부터 또는 외부 데이터 소스(15)로부터 데이터를 추출할 수 있고, 추출된 데이터를 데이터 크리닝을 위해 공통 포맷으로 변환할 수 있으며, 변환된 데이터를 데이터 크리닝 시스템(20)에 로드할 수 있다. 이러한 동작은 또한 커스텀 데이터베이스 쿼리를 이용해서 수행될 수 있다. 데이터 저장소(14)와 외부 데이터 소스(15)는 소스 시스템이나 소스 데이터를 위한 소스일 수 있다. 데이터 포맷팅 유틸리티(22)는 데이터 타당성 검사의 일부로서 공통 포맷에 대해 유일 데이터 식별자들을 조절하는데 이용될 수 있다.
데이터 포맷팅 유틸리티(22)는 대시 또는 브랭크 스페이스의 포함과 같은 유일 데이터 식별자에서의 근소한 변동이 그들이 존재하지 않을 때 다른 아이템으로서 해석되어지는 식별자들을 야기시키 수 있는 데이터 엔트리 이슈를 설명할 수 있다.
데이터 크리닝 유틸리티(23)는 데이터 타당성 검사의 일부로서 데이터 저장 소(14)와 외부 데이터 소스(15)와 같은 소스 시스템으로부터의 데이터를 크리닝하는데 이용될 수 있다. 데이터 크리닝 유틸리티(23)는 각 소스 시스템[데이터 저장소(14) 또는 외부 데이터 소스(15)]으로부터 데이터 크리닝 포맷으로 로드된 데이터의 타당성을 보증하는데 이용될 수 있다.
정규화 데이터 크리닝 저장소(24)는 다른 소스 시스템으로부터 포맷팅 및 크리닝된 데이터를 수신한다. 표준화 데이터 크리닝 저장소(24)는 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 다른 소스 시스템으로부터 마스터 데이터 테이블로 크리닝된 데이터를 로드할 수 있다.
소스 우선화 유틸리티(26)는 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 데이터 소스의 우선권을 선택하는데 이용될 수 있다. 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 소스 시스템은 전형적으로 무엇인가 명시적으로 동일한 데이터 엘리먼트(32)를 위해 저장된 다른 값을 유도하는 다른 기관에 의해 로드 및 유지될 수 있다. 이는 다중 부서를 갖는 큰 기관 내 및, 소비자, 공급자 및, 정부 기관 전역의 양쪽에서 공통이다.
데이터 엘리먼트 및 소스의 마스터 테이블(30)(또한 도 2에 도시됨)은 다중 소스로부터 크리닝 및 우선화된 데이터를 결합하는 크린 데이터베이스로서 생성될 수 있다. 데이터 엘리먼트 및 소스의 마스터 테이블(30)은 각 데이터 엘리먼트(32)의 최선의 값을 포함하는 아이템 데이터의 단일 소스일 수 있다.
교차-참조 유틸리티(27)는 유일 데이터 식별자(31) 사이에서 교차-참조를 생성 및 유지하는데 이용될 수 있다. 다른 데이터 소스는 섹션 참조, NSN[NATO(North Atlantic Treaty Organization) 비축 번호(stock number) 또는 국가 비축 번호(national stock number)로서 언급된], 또는 부품 번호 및 제조자 코드와 같은 다른 유일 데이터 식별자(31)를 이용할 수 있다. 종종, 유일 데이터 식별자(31)는 특정 데이터 소스 내의 교차-참조(cross-reference)가 될 수 있다. 이는 크린 데이터베이스가 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 다중 소스로부터 생성됨에 따라 개발되는 교차 참조를 허용할 수 있다. 이는 각 아이템의 유일 참조 번호를 생성하는 것이 또한 가능하다. 교차 참조에서의 1 대 다, 다 대 1, 또는 다 대 다 관계는 하나의 구조 상의 유일 데이터 식별자(31)가 다른 구조 상의 다중 유일 데이터 식별자(31)에 맵핑되고 그리고 그 반대의 경유일 때 야기될 수 있다. 결과적으로, 데이터 엘리먼트 및 소스의 우선화 데이터 크리닝 마스터 테이블(30)은 종종 중복 유일 데이터 식별자(31)를 포함할 수 있다. 교차-참조 유틸리티(27)는 원하지 않은 중복을 삭제하고 교차-참조에서의 불일치를 정정하도록 유틸리티를 제공할 수 있다. 더욱이, 유일 참조 번호가 올바르게 유일 데이터 식별자 번호를 수신하도록 데이터 크리닝 시스템(20)으로부터 데이터를 공급하는 데이터 시스템(16)을 인에이블하기 위해 생성될 수 있다. 이는 교차-참조가 완전하다는 요구 없이 실행하도록 데이터 시스템(16) 및 연결된 응용을 인에이블시킨다. 예컨대, 4개의 타이어에다 예비 타이어를 갖는 자동차를 위한 몇몇 응용은 다중 횟수 이용되어지는 유일 아이템 식별자를 인에이블할 수 있다. 다른 응용, 예컨대 특정 모델 타이어는 우선권이 있는 공급자와 가장 최근에 매겨진 가격만을 목록으로 만드는 것을 요구하는 구매 시스템은 오직 한번 만 발생되도록 유 일 아이템 식별자를 요구할 수 있다. 이러한 문제를 해결하기 위해, 약정 마스터 데이터 아이템 리스트가 생성되어 유지될 수 있다. 요구될 때, 마스터 데이터 아이템 리스트는 다중 횟수 이용되어지도록 유일 아이템 식별자를 허용한다. 예는 군사용 항공기의 부품의 리스트이다. 예컨대, 헬리콥터는 6개의 로터 블레이드와, 전방 파일론(pylon) 어셈블리의 부품으로서 3개 및, 후미 파일론 어셈블리의 부품으로서 3개를 포함한다. 구매 시스템(61)은 로터 블레이드를 위한 년간 구매를 아는 것만을 필요로 하는 반면, 재고 최적화 시스템(163)은 블레이드 당 요구된 수요와, 어셈블리에 따른 블레이드의 양을 알기를 원한다. 유틸리티의 세트는 데이터 엘리먼트 및 소스의 마스터 테이블(30)(도 2에 도시됨)의 유일 아이템 데이터와 합체된 마스터 데이터 아이템 리스트의 중복 데이터를 인에이블할 수 있게 된다. 적절한 비율이 수요 율과 같은 데이터 엘리먼트(32)를 위한 요소로 될 수 있다. 이러한 데이터는 예컨대 공급 체인 소프트웨어(161)인 적절한 소프트웨어 도구에서 이용하기 위해 제공되어질 수 있다.
ETL 도구(21) 또는 소비자 데이터베이스 쿼리는, 데이터 엘리먼트 및 소스의 마스터 테이블(30)로부터, 공급 체인 소프트웨어(161)와 통합 정보 시스템(162), 재고 관리 시스템(163), 계약 및 가격 책정 시스템(164), 엔지니어링(165) 및 시뮬레이션(166)과 같은 데이터 시스템 및 소프트웨어 도구(16)를 위해 요구된 포맷으로, 일관성 있고, 정규화되며, 크리닝된 데이터를 로드하는데 이용될 수 있다.
또한, 표준화된 데이터 크리닝 및 관리 리포트(28)가 생성될 수 있다. 종종, 하나의 시스템에서의 관리 리포트는 다른 시스템의 관리 리포트와 유사하거나 동일하기까지도 하다. 데이터 크리닝 시스템(20)은 엘리먼트 및 소스의 마스터 테이블(30)에 대해 몇몇 가장 공통인 리포트를 제공할 수 있다. 예컨대, 엘리먼트 및 소스의 마스터 테이블(30)(도 2에 도시됨)에서의 유일 아이템 식별자(31)의 수를 탤리(tally)할 수 있는 라인 카운트 리포트가 생성되어질 수 있다. 라인 카운트는 다른 데이터 엘리먼트(32)에 대해 교차 도표 작성될 수 있다. 예컨대, 재고 관리 시스템(163)이 소비 가능 부품의 전체 수와 수리 가능 부품의 전체 수를 알기를 원한다면, 이러한 정보가 라인 카운트 리포트로부터 초래될 수 있다. 더욱이, 표준화 하이 드라이버 리포트(40)(도 3에 도시됨)가 생성될 수 있다. 표준화 하이 드라이버 리포트(40)는 검토를 위해 우선화되어지는 데이터를 인에이블 할 수 있다. 우선화는 일치성과 정확성을 위한 데이터를 검토할 때 빠르게 위치되도록 변칙적인 것들을 인에이블 할 수 있다.
데이터 크리닝 사용자 인터페이스(29)는 폐쇄 루프 데이터 크리닝을 가능하게 한다. 데이터 크리닝은 재고 관리(163)와 같은 실행 시스템[데이터 시스템 및 소프트웨어 도구(16)]의 사용자에 의해 "프론트 라인(front line)" 상에서 가장 흔히 수행된다. 이들 사용자는 새로운 시세를 위해 진행하거나 예컨대 소비자, 공급자 또는 수리점과 함께 작업하는 동안 데이터에 대한 정정을 마킹하는 동안 종종 데이터를 갱신한다. 사용자는 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 소스 시스템을 갱신하는 것 없이 데이터 크리닝 시스템(20)을 갱신하는 방법을 갖고 있어야만 한다. 이는 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 소스 시스템이 다른 기관 또는 다른 소비자나 공급자까지의 제어 하에 있기 때 문에 필요로 될 수 있다. 결과적으로, 이는 소스 시스템(14 및/또는 15)을 갱신하는데 실제적이거나 또는 실행할 수 있게는 될 수 없게 된다. 데이터 크리닝 사용자 인터페이스(29)는 데이터 크리닝 시스템(20)을 갱신하도록 데이터 크리닝 시스템(20)에 의해 제공된 크리닝된 데이터를 기초로 결정을 만드는 데이터 시스템 및 소프트웨어 도구(16)의 사용자를 인에이블시킬 수 있다. 이는 크리닝된 데이터에 대한 갱신을 기초로 일관성을 유지하도록 모든 데이터 시스템 및 소프트웨어 도구(16), 예컨대 공급 체인 소프트웨어(161)를 인에이블시킨다. 수동 갱신은 날짜 및 시간이 날인될 수 있고, 갱신을 만드는 사용자에 대한 추적성을 포함할 수 있으며, 사용자에 있어 중요하게 간주되는 정보를 캡쳐하도록 공통 분야를 포함할 수 있다. 데이터 크리닝 사용자 인터페이스(29)는 인에이블된 웹(web)일 수 있다. 소스 우선화 유틸리티(26)는 특정 요구를 기초로 이러한 사용자[또는 공급 체인 소프트웨어(161)와 같은 특정 소프트웨어 도구의 사용자]로부터 갱신을 선택하거나 선택하지 않도록 데이터 크리닝 시스템(20)으로부터의 정보에 응답하는 데이터 시스템 및 소프트웨어 도구(16)를 인에이블시킬 수 있다. 수동 갱신은 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 소스 시스템에 대한 연속적인 갱신 동안 시간이 지남에 따라 계속될 수 있다. 소스 데이터가 데이터 크리닝 값(사용자 특정화 오차 대역 내의)과 동일한 값으로 변화되면, 소스 데이터가 선택되고 데이터 크리닝 값이 갱신된 소스 시스템으로서 플래그된다. 소스 데이터가 변하지만 사용자 특정화 오차 대역 외 이라면, 데이터 엘리먼트(32)는 수동 검토를 위해 플래그될 수 있다.
데이터 크리닝 시스템(20)은 컴퓨터 시스템(도시되지 않았음)에 일체화될 수 있다. 컴퓨터 시스템은 상기한 ETL(Extract, Transform, and Load) 도구(21), 데이터 포맷팅 유틸리티(22), 데이터 크리닝 유틸리티(23), 정규화 데이터 크리닝 저장소(24), 소스 우선화 유틸리티(26), 데이터 엘리먼트 및 소스의 마스터 테이블(30)(또한 도 2에 도시됨), 교차 참조 유틸리티(27)와 같은 유틸리티를 실행시키기 위해 이용될 수 있다. 데이터 크리닝 시스템(20)을 이용하는 데이터 크리닝은 Microsoft Excel 파일, 또는 Microsoft Access 또는 FoxPro 테이블과 같은 데이터베이스 테이블을 이용하거나, 또는 데이터 크리닝 사용자 인터페이스(29)를 매개로 수행될 수 있다.
도 2를 참조하면, 본 발명의 1실시예에 따른 데이터 엘리먼트 및 소스의 마스터 테이블(30)의 데이터 크리닝 테이블 레이아웃이 도시되어 있다. 데이터 엘리먼트 및 소스의 마스터 테이블(30)은 필드 번호를 포함하는 필드(35)와, 필드 명을 포함하는 열(36), 엔트리 타입을 포함하는 열(37), 엔트리 폭을 포함하는 열(38) 및, 설명을 포함하는 열(39)을 포함할 수 있다. 테이블의 첫 번째 행은 하나 이상의 색인 구조로부터 유일 데이터 식별자(31)를 포함할 수 있다. 도 2에 도시된 바와 같이, 주어진 예에 대해, 부품은 (a) DMC(국내 관리 코드) 및 IIN(아이템 식별 번호), (b) NSC[NATO(또는 국가) 공급 분류 코드]와 NCB(국가 법전 편찬 기구용 코드) 및 IIN(아이템 식별 번호)로 이루어진 NSN(NATO 비축 번호 또는 국가 비축 번호), 또는 (c) 비록 오직 하나의 유일한 참조가 요구될지라도 Part no.(부품 번호) 및 CAGE(상업적 및 정부 엔티티 코드)에 의해 유일하게 식별된다. 유일 데이터 식별자(31)에 따르면, 데이터 엘리먼트(32; ELEMENT)는 예비 부품 프로그램(110)(도 7에 도시됨)과 같은 프로그램 명(33; PROGRAM)에 따라 목록화될 수 있다. 데이터 엘리먼트 및 소스의 마스터 테이블(30)에서의 더욱 목록을 만드는 것은 데이터 엘리먼트(32)의 값(321; VALUE)과, 데이터 엘리먼트(32)의 소스(322; SOURCE)[도 1에 도시된 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은], 갱신 정보(34; UPDATE) 및, 데이터 엘리먼트(32)에 부착될 수 있고 데이터 프로세싱 동안 이용될 수 있는 플래그(323; FLAG)일 수 있다. 데이터 엘리먼트 및 소스의 마스터 테이블(30)의 마지막 행은 텍스트 명령(341; COMMENT)을 포함한다. 데이터 엘리먼트 및 소스의 마스터 테이블(30)은 코드를 변경시키는 것 없이 데이터 엘리먼트 및 소스를 인에이블할 수 있다. 데이터 저장소로서, 참조적 무결성은 신중하게 강요되지는 않는다.
도 3을 참조하면, 본 발명의 1실시예에 따른 하이 드라이버 리포트의 하이 브라이버 분석 매트릭스(40)가 도시된다. 하이 드라이버 리포트(40)는 도 1에 도시된 바와 같이 데이터 크리닝 시스템(20)에 의해 생성된 리포트(28) 중 하나일 수 있다. 하이 드라이버 리포트(40)는 검토를 위한 아이템을 우선화하는데 이용되어질 수 있다. 이는 급격히 식별되어진 가장 명백한 에러를 인에이블 할 수 있고, 종종 제한된 가능한 검토 시간을 최대화한다. 하이 드라이버는, 도 3에 도시된 바와 같이, 년간 이용, 년간 소비, 가중된 수리 소요 시간, 조달 리드 타임, 폐품 발생/폐기 율 및, 예비 부품 부족분의 비용과 같은 키 데이터 드라이버에 따라 데이터 엘리먼트(32)를 소트한다.
도 4를 참조하면, 본 발명의 1실시예에 따른 데이터 크리닝 프로세스(50)가 도시되어 있다. 데이터 크리닝 프로세스(50)는 먼저 단계(51)에서 데이터 저장소(14)와 같은 기업, 소비자, 공급자 소스 시스템, 또는 외부 데이터 소스(15)(도 1에 도시됨)로부터 데이터 크리닝을 위한 공통 포맷으로 데이터를 로드하는 것을 포함한다. 소정의 상업적으로 가능한 ETL 도구(21) 또는 커스텀 데이터 베이스 쿼리가 단계(51)를 수행하는데 이용될 수 있다.
단계(52)에서, 데이터 크리닝 시스템(20)의 데이터 포맷팅 유틸리티(22)(도 1에 도시됨)가 데이터 타당성 검사 프로세스의 일부로서 공통 포맷으로 유일 데이터 유틸리티(31)를 조절하는데 이용될 수 있다. 단계(52)는 리딩 브랭크(leading branks)를 삭제하고, 요구에 따라 숫자 필드에서 문자 필드로 유일 데이터 유틸리티(31)(도 2에 도시됨)를 변환하며, 데이터가 숫자로서 로드되면 띠로 된 리딩 제로(leading zeros)를 대체하는 것을 포함한다. 단계(52)는 검토를 위해 무효, 비인식 및, 부재 아이템 식별자를 플래깅하는 것을 더 포함할 수 있다. 단계(52)는 공통 포맷으로 데이터를 정규화하는 것을 또한 더 포함할 수 있다. 예컨대, 외국 통화를 US 달러로 변환하고, 역사적 비용 데이터를 금년의 가격으로 상승시키며, 또는 패키지 양에 대한 요구를 하나의 유니트 당의 요구로 변환한다.
데이터 크리닝 시스템(20)의 데이터 크리닝 유틸리티(23)(도 1에 도시됨)는 데이터 타당성 검사 프로세스의 부분으로서 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 소스 시스템으로부터 로드된 데이터를 크리닝하도록 단계(53)에서 이용될 수 있다. 단계(53)는 중복 엔트리 검토, 다른 리포트 검토, 데이터의 변 화를 유효하게 하고 데이터 변환을 검출하도록 소스 시스템으로부터 로그된 데이터와 로딩 에러 사이의 차이의 검토, 크리닝된 데이터를 이용하고, 입력 데이터에서의 변화에 의해 야기된 결과에서 스윙(swings)을 식별하고 이해하도록 소프트웨어의 입력과 출력(소스 데이터와 결과)에서의 차이 검토를 포함할 수 있다. 단계(53) 동안, 중복 엔트리가 플래그될 수 있고, 데이터 엘리먼트를 위한 충돌 값이 데이터 엘리먼트(32)(도 2)에 의해 검토되며, 소스 데이터를 무시(override)하는 수동 정정 또는 갱신이 허용될 수 있다. 단계(53)에서, 유일 데이터 식별자에 의한 2개의 데이터 테이블 사이의 차이를 강조하는 자동화 리포트가 생성될 수 있다. 또한 단계(53)에서, 이러한 리포트는 가장 큰 재정 영향력을 갖춘 하이 드라이버 상에서 데이터 검토를 집중하도록 특정 데이터 엘리먼트(32)에 의해 우선화되어질 수 있다.
단계(54)에서, 유효화 및 크리닝된 데이터는 정규화 데이터 크리닝 저장소(24)(도 1)에 추가될 수 있다. 데이터는 정규화 데이터 크리닝 저장소(24)(도 1)의 마스터 테이블에 로드될 수 있다. 데이터는 각 데이터 엘리먼트(32)(도 2)에 대해, 그리고 데이터 저장소(14) 및 외부 데이터 소스(15)(도 1)와 같은 각 소스 시스템에 대해 로드될 수 있다. 동일한 데이터가 동일한 소스 시스템으로부터 미리 로드되었다면 데이터는 로드되지 않는다 결과적으로, 변화만이 로드된다. 로드된 데이터의 데이터는 식별되어지는 가장 현재의 데이터를 인에이블하도록 소스 데이터에 부가될 수 있다. 로드된 데이터와 함께 에러가 있다면, 특정 데이터 소스를 위한 모든 데이터를 소거하여 그를 리로드(reload)하도록 조건이 존재할 수 있다. 소거된 데이터는 먼저 검증을 위해 디스플레이될 수 있다. 사용자에게는 데이터 크리닝 시스템(20)(도 1)의 무결성을 확보하도록 데이터를 삭제할 수 있는 관리자로서의 권한이 주어질 수 있다. 데이터 크리닝 시스템(20)(도 1에 도시됨)은 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 각 소스 시스템으로부터 데이터의 모든 버전에 대한 추적성을 제공한다. 이는 데이터의 이전 값에 대해 감사 추적을 제공하고 시간의 역사적 지점(버전)으로서 획득되어지는 데이터를 허용한다.
단계(55)에서, 데이터 소스의 우선권이 선택될 수 있다. 단계(55)는 유일 데이터 엘리먼트(32)(도 2)의 수를 결정함과 더불어 각 데이터 엘리먼트(32)에 대한 [데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은] 소스 시스템의 수를 결정하는 것을 포함한다. 개별 데이터 엘리먼트는 응용에 따라 변할 수 있고 시간이 지남에 따라 완성되는 데이터의 이용에 따라 변할 수 있다. 데이터 소스는 응용에 따라 변할 수 있고 시간이 지남에 따라 변하는 데이터의 품질의 이용 및 이해에 따라 변할 수 있다. 데이터 크리닝 시스템(20)(도 1)은 소프트웨어 소스 코드에 대한 변화를 요구하는 것 없이 데이터 엘리먼트(32)(도 2)의 부가나 삭제에 적합하다. 단계(55)는 데이터가 이전에 우선화되었다면, 특정 데이터를 끌어 당기기 위한 데이터 소스의 우선권을 갱신하는 것에 대해 사용자를 허용한다. 한편, 단계(55)는 도 1에 도시된 데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은 각 데이터 소스의 우선권을 특정화하는데 사용자를 허용할 수 있다. 제1우선권 소스로부터의 데이터가 유효하다면, 이는 사용되어지게 된다. 한편, 제2우선권 소스로부터의 데이터가 선택되게 된다. 단계(55)는 데이터를 선택(예컨대, 소스 A, B, C로부터 가장 높은 값을 선택)하기 위한 조건적 문장(statement)을 특정화하는데 사용자를 허용하고 데이터가 [데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은] 소정의 소스 시스템으로부터 유효하지 않게 되는 경우 이용되어지는 디폴트를 선택하도록 사용자를 허용하는 것을 더 포함한다. 해당 소스로부터의 데이터가 고려되지 않으면 특정 데이터 소스는 선택될 필요가 없게 된다. 단계(55)는 과거의 시점에서 이용된 데이터 선택 구조가 예컨대 감사 목적을 위해 이용되어 질 수 있도록 이전 우선화의 역사적 기록을 유지하는 것을 더 포함한다.
단계(56)에서, [데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은, 도 1] 다중 소스로부터의 크린 데이터베이스는 데이터 엘리먼트 및 소스의 마스터 테이블(30)(도 2에 도시됨)의 형태로 생성될 수 있다. 데이터 엘리먼트 및 소스의 마스터 테이블(30)은 아이템 데이터의 단일 소스일 수 있고, 이는 각 데이터 엘리먼트(32)의 최상의 값을 포함한다. 단계(56)는 각 데이터 엘리먼트의 소스에 대한 추적성을 유지하고, 소스가 유일 데이터 식별자(31)에 의해 변할 수 있다는 것을 인식하며, 데이터의 부가적 이해를 제공하도록 각 데이터 엘리먼트에 부착되어지는 주석을 유지하는 것을 포함할 수 있다. 제1우선권 소스로부터의 데이터가 유효하다면 이는 이용되어질 수 있다. 한편, 다음의 가장 높은 우선권 소스로부터의 유효한 데이터가 선택될 수 있다. 각 유일 데이터 식별자(31)를 위해 선택된 [데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은] 데이터 소스의 로그(log)를 유지하는 것은 단계(56)에 포함될 수 있다. 유효한 데이터가 데이터 엘리먼트(32)를 위해 존재하지 않으면, 사용자 특정화 디폴트가 선택될 수 있다. 이어, 데이터 기록은 디폴트가 적용되었다는 주석을 달게 된다. 또한 단계(56)에서, 공급 체인 재고 최적화 시스템(161)과, 재고 관리 시스템(163), 계약 및 가격 책정 시스템(164), 통합 정보 시스템(162), 시뮬레이션 시스템(166), 또는 엔지니어링 시스템(165)(도 1에 도시됨)과 같은 다른 응용은 우선화의 다른 시퀀스와 함께 데이터 엘리먼트(32)(도 2)를 선택할 수 있도록 된다. 각 데이터 엘리먼트(32)는 도 2에 도시된 바와 같이, 최선의 값(321), 최선의 값의 소스(322), 코멘트(341)와 같은 각 유일 데이터 식별자(31)를 위한 예컨대 3부분의 정보를 포함할 수 있다.
단계(57)에서, 교차-참조가 유일 데이터 식별자(31) 사이에서 생성될 수 있다. 단계(57)는 유일 데이터 식별자를 기초로 우선화 교차-참조 데이터를 포함할 수 있다. 예컨대, 구조는 NSN(NATO 비축 번호 또는 국가 비축 번호)에 의해 따르고, 부품 번호와 제조자의 코드에 의해 따르는, 유일하게 아이템을 설명하기 위한 최선의 값으로서의 섹션 참조를 식별할 수 있다.
단계(58)에서, 유일 데이터 식별자(31) 간의 교차-참조는 유틸리티에 의해 유지될 수 있다. 단계(58)는 [데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은, 도 1] 다중 소스로부터 데이터베이스 [데이터 엘리먼트 및 소스의 마스터 테이블(30), 도 2]를 생성할 때 개발된 불일치를 검토하고, 각 식별 구조를 위한 주요(primary) 유일 데이터 식별자를 식별하는 것을 포함할 수 있다. 부품을 위한 가장 늦은 설계 구성, 예컨대 폐기 부품 구성을 위한 부품 번호가 가장 늦은 설계 구성으로 변환되거나 가장 늦은 구성이 판매된 것을 검토하는 것은 단계(58)의 부분으로 될 수 있다. 더욱이, 유틸리티에는 데이터 저장소의 데이터를 기초로 교차-참조를 위한 모든 조건을 식별하는 것이 제공되는 바, 예컨대 부품 번호 및 제조자 코드는 다중 NSN에 대해 맵핑되고, NSN은 NSN의 명세에 부합되는 부품을 제공하는 다른 제조자의 번호 부여 구조를 기초로 많은 다른 부품 번호에 맵핑될 수 있다. 단계(58)는 유일 데이터 식별자 변화에 따른 인덱스 테이블을 유지하고, 부품 번호와 제조자 코드가 개정된 부품 번호 및 제조자 코드에 의해 대체됨에 따른 인덱스 테이블을 유지하며, 부품 번호가 유효 공급자에 대해 부정확하게 교차-참조되지 않게 보증하도록 중복 부품 번호 및 제조자 코드를 검토하고, 유효화된 유일 데이터 식별자(31)의 리스트일 수 있는 마스터 데이터 아이템 리스트를 유지하는 것을 더 포함한다. 마스터 데이터 아이템 리스트에 포함되지 않은 아이템은 의심스러운 것으로서 검토하기 위해 플래그되어질 수 있다.
단계(59)에서, 데이터 크리닝 시스템(20)(도 1)으로부터 공급된 데이터일 수 있는 유일 참조 번호가 진정한 유일 아이템 식별 번호를 수신하기 위해, 데이터 시스템 및 소프트웨어 도구(16)(도 1)를 인에이블하도록 각 데이터 엘리먼트(32)(도 2)에 대해 생성될 수 있다. 단계(59)는 원하지 않은 중복(duplicate)을 삭제하도록 유틸리티를 제공하고 교차-참조에서 불일치를 정정하도록 유틸리티를 제공하는 것을 더 포함할 수 있다. 단계(59)에서, 데이터 시스템 및 소프트웨어 도구(16)(도 1)와 같은 응용이 교차-참조가 완벽하게 될 필요가 있다는 요구 없이 실행하도록 인에이블될 수 있다.
단계(61)에서, 유일 아이템 식별 번호를 포함하는 계약된 마스터 데이터 아이템이 유지될 수 있다. 요구될 때, 마스터 데이터 아이템 리스트는 다수 회 이용되어지는 유일 아이템 식별 번호를 허용할 수 있다. 단계(61)는 데이터 엘리먼트 및 소스의 마스터 테이블(30)(도 2)의 유일 아이템 데이터를 갖는 마스터 데이터 아이템 리스트에서의 복사 아이템 데이터를 통합하는 것을 포함할 수 있다.
단계(62)에서, 일관성 있고, 정규화되며, 크리닝된 데이터가 데이터 엘리먼트 및 소스의 마스터 테이블(30)(도 2)로부터 이러한 데이터를 이용할 수 있는 데이터 시스템 및 소프트웨어 도구(16)(도 1)에 의해 요구된 포맷으로 로드될 수 있다. 소정의 상업적으로 유용한 ETL 도구(21)(도 1), 또는 소비자 데이터 쿼리가 단계(62)를 수행하는데 이용될 수 있다. 결과적으로, 측정의 일관성 있는 유니트에 대해 정규화되고, 동일한 일관성이 있는 소스로부터의 크리닝된 데이터는 도 1에 도시된 데이터 시스템 및 소프트웨어 도구(16)와 같은 다중 결정 작성 시스템에 의해 이용하기 위해 유용하다. 모든 결정 작성 시스템이 도 1에 도시된 데이터 크리닝 시스템(20)에 의해 제공된 동일한 입력 데이터에 따라 착수되므로, 결과가 일관성이 있고 유효한 비교가, 공급 체인 재고 최적화 시스템(161)과, 재고 관리 시스템(163), 계약 및 가격 책정 시스템(164), 통합 정보 시스템(162), 시뮬레이션 시스템(166), 또는 엔지니어링 시스템(165)(도 1에 도시됨)과 같은 시스템 간에서 만들어질 수 있다. 예컨대 개별 부품 번호와 관련하여 만들어지는 결정을 인에이블할 수 있는 전술 결정 작성 도구는 더 긴 범위 또는 그로벌 계획 시스템 도구로서 작용할 수 있는 전략상 결정 작성 도구와 동일한 데이터에 대해 억세스할 수 있 다.
단계(63)에서, 라인 카운트 리포트 및 하이 드라이버 리포트(40)(도 3)와 같은 표준화된 데이터 크리닝 및 관리 리포트가 생성될 수 있다. 라인 카운트 리포트는 데이터 엘리먼트 및 소스의 마스터 테이블(30)(도 2)의 번호 또는 유일 데이터 식별자(31)를 탤링(tallying)함으로써 생성될 수 있고, 다른 데이터 엘리먼트(32)에 대해 교차 도표 작성되어질 수 있다. 도 3에 도시된 하이 드라이버 리포트(40)와 같은 하이 드라이버 리포트는 검토를 위해 아이템을 우선화하고 가장 명백한 에러를 빠르게 식별하는 것을 인에이블할 수 있다.
단계(64)에서, 데이터 크리닝 시스템(20)(도 1)은 데이터 저장소(14) 및 외부 데이터 소스(15)(도 1)와 같은 소스 시스템을 갱신하는 것 없이 사용자에 의해 갱신되어질 수 있다. 단계(64)는 폐쇄 루프 데이터 크리닝을 가능하게 한다.
도 5를 참조하면, 본 발명의 다른 실시예에 따른 공급 체인(70)의 데이터 크리닝 응용이 도시되어 있다. 공급 체인(70)의 데이터 크리닝 응용은 데이터 크리닝 시스템(20)(도 1에 도시됨)과 데이터 크리닝 프로세스(50)(도 4에 도시됨)의 응용에 대한 일례일 수 있다. 공급 체인(71)은 내장된 데이터 크리닝 시스템(20)(도 1에 도시된 바와 같은)을 갖는 통합 정보 시스템(71)과, 데이터 크리닝 사용자 인터페이스(29)(도 1에 도시된 바와 같은), 통계 요구 예측 유틸리티(72), 전략적 재고 최적화 도구(73), 시뮬레이션 도구(74), 전술적 분석 유틸리티(75), 웹 포탈(76), 재고 관리 시스템(77), 통제된 프로세스(78; disciplined processes) 및, 분배 네트워크 최적화 도구(79)를 포함할 수 있다. 통합 정보 시스템(71)은 데이터 크리닝 사용자 인터페이스(29)(또한 도1 에 도시됨), 통계 요구 예측 유틸리티(72), 전략적 재고 최적화 도구(73), 시뮬레이션 도구(74), 전술적 분석 유틸리티(75), 웹 포탈(76), 재고 관리 시스템(77)으로부터 데이터를 수신함과 더불어 이들에 대해 데이터를 제공한다. 효율적인 데이터 크리닝은 통합 정보 시스템(71) 내에 내장된 (도 1에 도시된 바와 같은) 데이터 크리닝 시스템(20)에 의해 제공될 수 있다. (도 4에 도시된 바와 같은) 데이터 크리닝 프로세스(50)는 정규화되고, 크리닝된 데이터의 일관성 있는 소스를 매개로 결정 지원(78,72), 최적화(73,79), 시뮬레이션(74), 리포팅(75,76) 및, 재고 관리 도구(77)를 연결함으로써 공급 체인(70)을 동기화할 수 있다.
도 6을 참조하면, 본 발명의 1실시예에 따른 공급 체인(70)을 위한 데이터 크리닝 프로세스(80)가 도시되어 있다. 공급 체인(70)을 위한 데이터 크리닝 프로세스(80)는, 단게(81)에서 [데이터 저장소(14) 또는 외부 데이터 소스(15)와 같은, 도 1] 소스 시스템으로부터 데이터의 추출을 초기화하고, ETL 도구(21)(도 1)을 이용해서 단계(82)에서 데이터 변환을 실행하는 것을 포함한다. 데이터 엘리먼트 및 소스의 마스터 테이블(30)(도 2)에 대해 데이터를 로딩하는 것은 단계(83)에 따른다. 단계(84)는 소스 우선화 유틸리티(26)(도 1)를 이용해서 소스 데이터의 우선순위를 선택하는 것을 포함할 수 있다. 하이 드라이버 및 에러 리포트를 검토하는 것과 논리적 데이터를 스크러빙(scrubbing)하는 것은 단계(85)에서 수행되어진다. 단계(86)는 단계(87)에서의 통계적 모델을 이용함으로써 비축 레벨 및 재주문 시점의 재고 최적화를 초기화하는 것에 의해 따르는 예비 분석 최적화 계산 을 위한 데이터를 승인하는 것을 포함할 수 있다. 리포트(28)(도 1)와 웹 관찰(web viewed)에 따른 예비 부품 분석이 단계(88)에서 검토되어질 수 있고 재고 최적화가 단계(89)에서 승인되어질 수 있다. 단계(91)는 공급 체인 소프트웨어(161)(도 1)의 일부일 수 있는 전략적 모델(73)(도 5)로부터 데이터 저장소(24)(도 1)로 비축 레벨 및 재주문 시점 요구, 전략 모델 입력, 소스 및, 코멘트를 보내는(exporting) 것과, 소비자 감사 추적을 위한 지원 데이터를 유지하기 위해 모든 입력 및 출력을 저장하는 것을 포함한다. 저장소, 공급자 등에 의해 부품, 공급자, 비축 레벨, 재주문 시점 등의 리포트(28)(도 1)를 생성하는 것은 단계(92)에서 수행될 수 있다. 단계(93)에서는 소정의 재고 부족분을 커버하도록 요구된 예비 부품이 구매되어질 수 있고, 단계(94)에서는 비축 레벨 및 재주문 시점 요구가 재고 관리 시스템(163)(도 1)으로 보내질 수 있게 된다. 마지막 단계(95)에서는, 재고 관리 시스템(163)(도 1)에 대한 갱신이 매일 매일의 자산 관리를 위한 재정 테이블에서 발견되는 기록을 위해 초기화되어질 수 있다.
도 7을 참조하면, 본 발명의 다른 실시예에 따른 예비 부품 모델링 프로세스(110)가 도시되어 있다. 예비 부품 모델링 프로세스(110)는 데이터 크리닝 프로세스(50)(도 4)의 구현의 예일 수 있다. 재고 관리 시스템(163)(도 1)의 부분일 수 있는 예비 부품 모델링 프로세스(110)는, 단계(111)에서 장비 모델과 계획안을 식별하고; 단계(112)에서 목표를 결정하며; 단계(113)에서 매매 연구 기회를 결정하는 것을 포함할 수 있다. 단계(114)는 단계(115)에서의 데이터 크리닝 프로세스(도 4)를 실행하는 것에 의해 따르는 논리화 데이터를 수집하는 것을 포함한 다. 비축 레벨의 전략적 재고 최적화는 단계(116)에서 보내질 수 있고, 위험을 감소시키기 위한 시뮬레이션(166)(도 1)이 단계(117)에서 실행되며, 내부 검토가 단계(118)에서 수행될 수 있다. 단계(119)는 모델이 단계(120)에서 반복되어야만 한다면 결심에 의해 따르는 소비자 검토를 수행하는 것을 포함한다. 모델의 반복이 요구된다면, 단계(120)는 단계(114)로 되돌아가는 것을 포함한다. 모델의 반복이 필요로 되지 않는다면, 제안 리포트를 생성하는 것은 단계(122)에서의 인도 제안, 획득 제안 및, 건전 프로그램 실행에 의해 따르는 단계(121)에서 수행될 수 있다. 예비 부품 모델링 프로세스(110)는 단계(115)에서 데이터 크리닝 프로세스(50)(도 4)에 의해 제공된 일관성 있고, 정규화되며, 크리닝된 데이터에 기인하여 신뢰성 및 기소 가능성 결과를 제공할 수 있다.
한편, 본 발명은 상기 실시예로 한정되는 것은 아니고, 본 발명의 요지를 벗어나지 않는 범위 내에서 다양하게 변형하여 실시할 수 있음은 물론이다.

Claims (24)

  1. 데이터 포맷팅 유틸리티와 데이터 크리닝 유틸리티를 이용해서 적어도 2개의 소스 시스템으로부터 로드된 데이터를 타당성 있게 하는 단계와;
    정규화된 데이터 크리닝 저장소에 상기 타당성이 있게 된 데이터를 추가하는 단계;
    상기 소스 시스템의 우선권을 선택하는 단계;
    상기 적어도 2개의 소스 시스템으로부터의 각 데이터 엘리먼트를 위한 유일 데이터 식별자를 포함하는 크린 데이터베이스를 생성하는 단계;
    상기 유일 데이터 식별자 간의 교차-참조를 생성 및 유지하는 단계;
    상기 데이터를 이용해서 데이터 시스템 및 소프트웨어 도구에 의해 요구된 포맷으로 상기 크린 데이터베이스로부터 일관성 있고, 정규화되며, 크리닝된 데이터를 로딩하는 단계;
    상기 일관성 있고, 정규화되며, 크리닝된 데이터를 이용해서 표준화된 데이터 크리닝 및 관리 리포트를 생성하는 단계 및;
    상기 소스 시스템을 갱신하는 것 없이 사용자에 의해 상기 일관성 있고, 정규화되며, 크리닝된 데이터를 갱신하는 단계를 갖추어 이루어진 것을 특징으로 하는 데이터 크리닝 프로세스.
  2. 제1항에 있어서, 추출, 변환 및, 로드 도구를 이용해서 데이터 크리닝을 위한 공통 포맷으로 상기 적어도 2개의 소스 시스템으로부터 데이터를 로딩하는 단계와;
    상기 각 데이터 엘리먼트의 최선의 값을 포함하는 아이템 데이터의 단일 소스로서 데이터 엘리먼트 및 소스의 마스터 테이블을 생성하는 단계;
    상기 데이터 엘리먼트의 부가적 이해를 제공하는 상기 각 데이터 엘리먼트에 대해 주석을 부착함과 더불어 상기 데이터 엘리먼트 및 소스의 마스터 테이블에 주석을 유지하는 단계;
    상기 각 데이터 엘리먼트의 상기 소스 시스템에 대해 추적성을 유지하는 단계;
    유일 아이템 식별 번호를 수신하도록 상기 데이터 시스템 및 소프트웨어 도구를 인에이블링하는 상기 각 데이터 엘리먼트를 위한 유일 참조 번호를 생성하는 단계 및;
    상기 유일 아이템 식별 번호를 포함하는 계약된 마스터 데이터 아이템 리스트를 유지하는 단계를 더 포함하여 이루어진 것을 특징으로 하는 데이터 크리닝 프로세스.
  3. 제1항에 있어서, 상기 데이터를 타당성 있게 하는 단계가,
    공통 포맷으로 적어도 2개의 소스 시스템으로부터 로드된 상기 데이터를 정 규화하는 단계와;
    공통 포맷으로 유일 데이터 식별자를 조절하는 단계;
    검토를 위해 무효, 비인식 및, 부재 아이템 식별자를 플래깅하는 단계 및;
    적어도 2개의 소스 시스템으로부터 로드된 상기 데이터를 크리닝하는 단계를 더 포함하는 것을 특징으로 하는 데이터 크리닝 프로세스.
  4. 제1항에 있어서, 상기 각 소스 시스템으로부터의 데이터의 모든 버전에 대해 추적성을 제공하는 단계와;
    시간의 역사적 시점으로서 획득되어지는 데이터의 이전의 값에 대해 감사 추적을 제공하는 단계를 더 갖추어 이루어진 것을 특징으로 하는 데이터 크리닝 프로세스.
  5. 제1항에 있어서, 유일 데이터 엘리먼트의 수를 결정하는 단계와;
    상기 각 유일 데이터 엘리먼트를 위한 상기 소스 시스템의 수를 결정하는 단계;
    사용자 특정화 우선권에 따라 상기 각 유일 데이터 엘리먼트를 위한 상기 소스 시스템을 선택하는 단계;
    사용자에 의해 특정 데이터 획득을 위해 상기 우선권을 갱신하는 단계 및;
    모든 우선화의 역사적 기록을 유지하는 단계를 더 갖추어 이루어진 것을 특징으로 하는 데이터 크리닝 프로세스.
  6. 제1항에 있어서, 라인 카운트 리포트를 생성하는 단계와;
    상기 데이터 엘리먼트 및 소스의 마스터 테이블의 상기 유일 아이템 식별자의 수를 탤링하는 단계 및;
    다른 데이터 엘리먼트에 대해 상기 유일 아이템 식별자를 교차 도표 작성하는 단계를 더 갖추어 이루어진 것을 특징으로 하는 데이터 크리닝 프로세스.
  7. 제1항에 있어서, 하이 드라이버 리포트를 생성하는 단계와;
    검토를 위해 아이템을 우선화하는 단계 및;
    빠르게 명백한 에러를 식별하는 단계를 더 갖추어 이루어진 것을 특징으로 하는 데이터 크리닝 프로세스.
  8. 제1항에 있어서, 상기 데이터 엘리먼트 및 소스의 마스터 테이블을 갱신하도록 상기 사용자를 인에이블하는 데이터 크리닝 사용자 인터페이스를 제공함으로써 폐쇄 루프 데이터 크리닝을 인에이블링하는 단계를 더 갖추어 이루어진 것을 특징 으로 하는 데이터 크리닝 프로세스.
  9. 다중 소스 시스템으로부터 데이터 엘리먼트 및 소스의 마스터 테이블로 데이터를 로딩하는 단계와;
    상기 소스 시스템의 우선순위를 선택하는 단계;
    하이 드라이버 및 에러 리포트를 기초로 상기 데이터 엘리먼트 및 소스의 마스터 테이블에 포함된 논리적 데이터를 크리닝하는 단계;
    상기 데이터 엘리먼트 및 소스의 마스터 테이블의 일관성 있고, 정규화되며, 크리닝된 데이터를 승인함과 더불어 상기 데이터를 이용해서 데이터 시스템 및 소프트웨어 도구에 대해 상기 크리닝된 데이터를 제공하는 단계;
    상기 크리닝된 데이터를 이용하는 전략적 재고 최적화 모델을 이용해서 비축 레벨 및 재주문 시점의 재고 최적화를 초기화하는 단계;
    비축 레벨 및 재주문 시점 요구를 포함하는 예비 부품 분석을 제공하는 단계;
    소비자 감사 추적을 위한 지원 데이터를 저장하는 단계;
    리포트를 생성하는 단계 및;
    상기 리포트에 따라 부족분을 커버하도록 예비 부품을 구매하는 단계를 갖추어 이루어진 것을 특징으로 하는 공급 체인을 위한 데이터 크리닝 프로세스.
  10. 제9항에 있어서, 상기 소스 시스템으로부터 상기 데이터를 추출하는 단계와;
    데이터 크리닝을 위한 공통 포맷으로 상기 데이터의 변환을 실행하는 단계 및;
    상기 하이 드라이버 및 에러 리포트를 검토하는 단계를 더 포함하는 것을 특징으로 하는 공급 체인을 위한 데이터 크리닝 프로세스.
  11. 제9항에 있어서, 상기 전략적 재고 최적화 모델을 위한 상기 데이터 엘리먼트 및 소스의 마스터 테이블로부터 데이터를 추출하고 변환하는 단계와;
    상기 예비 부품 분석을 위해 상기 전략적 재고 관리 모델로부터 상기 리포트로 상기 데이터를 보내는 단계를 더 포함하는 것을 특징으로 하는 공급 체인을 위한 데이터 크리닝 프로세스.
  12. 제9항에 있어서, 재고 최적화를 승인하는 단계와;
    리포트와 웹 관찰을 이용해서 상기 예비 부품 분석을 검토하는 단계 및;
    상기 전략적 재고 최적화 모델로부터 데이터 저장소로 상기 비축 레벨 및 재주문 시점 요구, 전략적 모델 입력, 소스 시스템 정보, 코멘트를 보내는 단계를 더 포함하는 것을 특징으로 하는 공급 체인을 위한 데이터 크리닝 프로세스.
  13. 제9항에 있어서, 상기 비축 레벨 및 상기 재주문 시점을 재고 관리 시스템으로 보내는 단계와;
    자산 관리를 위해 재고 관리 데이터 저장소에 대해 상기 비축 레벨 및 재주문 시점을 위한 상기 재고 관리 시스템을 갱신하는 단계를 더 포함하는 것을 특징으로 하는 공급 체인을 위한 데이터 크리닝 프로세스.
  14. 적어도 2개의 소스 시스템으로부터 다운로드된 데이터를 타당성 있게 하는데 이용되는 데이터 포맷팅 유틸리티와;
    상기 데이터를 크리닝하는데 이용되는 데이터 크리닝 유틸리티;
    상기 포맷팅 및 크리닝된 데이터를 수신하는 정규화 데이터 크리닝 저장소;
    상기 적어도 2개의 소스 시스템의 우선권을 선택하는데 이용되는 소스 우선화 유틸리티;
    상기 크리닝 및 우선화된 데이터를 결합하고, 각 데이터 엘리먼트를 위한 최선의 값과 유일 데이터 식별자를 포함하는 아이템 데이터의 단일 소스인 크린 데이터베이스,
    상기 유일 데이터 식별자 간의 교차-참조를 생성 및 유지하는데 이용되는 교차-참조 유틸리티 및;
    상기 크린 데이터베이스를 갱신하도록 사용자를 인에이블하는 데이터 크리닝 사용자 인터페이스를 갖추어 이루어진 것을 특징으로 하는 데이터 크리닝 시스템.
  15. 제14항에 있어서, 상기 적어도 2개의 소스 시스템으로부터 상기 데이터를 추출하고, 데이터 크리닝을 위해 공통 포맷으로 상기 데이터를 변환하며, 상기 데이터 크리닝 시스템으로 상기 데이터를 로드하는 추출, 변환 및, 로드 도구를 더 갖추어 이루어진 것을 특징으로 하는 데이터 크리닝 시스템.
  16. 제15항에 있어서, 상기 추출, 변환 및, 로드 도구가 상기 크린 데이터베이스로부터 상기 데이터를 이용해서 데이터 시스템 및 소프트웨어 도구를 위해 요구된 포맷으로 상기 데이터를 로드하는데 이용되는 것을 특징으로 하는 데이터 크리닝 시스템.
  17. 제14항에 있어서, 상기 크린 데이터베이스가 데이터 엘리먼트 및 소스의 마스터 테이블인 것을 특징으로 하는 데이터 크리닝 시스템.
  18. 제17항에 있어서, 표준화 데이터 크리닝 및 관리 리포트를 더 갖추어 이루어지고, 상기 리포트가 상기 데이터 엘리먼트 및 소스의 마스터 테이블에 포함된 상기 데이터로부터 생성되는 것을 특징으로 하는 데이터 크리닝 시스템.
  19. 제14항에 있어서, 상기 데이터 크리닝 유틸리티가 상기 데이터 크리닝 포맷으로 상기 소스 시스템으로부터 로드된 데이터의 타당성을 보증하는데 이용되는 것을 특징으로 하는 데이터 크리닝 시스템.
  20. 제14항에 있어서, 상기 소스 우선화 유틸리티가 이전의 우선화의 역사적 기록을 유지하는 것을 특징으로 하는 데이터 크리닝 시스템.
  21. 제14항에 있어서, 상기 데이터 엘리먼트 및 소스의 마스터 테이블이 각 데이터 엘리먼트의 소스에 대해 추적성을 유지하는 것을 특징으로 하는 데이터 크리닝 시스템.
  22. 제14항에 있어서, 상기 데이터 크리닝 시스템이 상기 적어도 2개의 소스 시 스템으로부터 데이터를 수신하고, 상기 데이터 크리닝 시스템이 상기 데이터 시스템에 대해 일관성 있고, 정규화되며, 크리닝된 데이터를 제공하며, 사용자가 상기 소스 시스템을 갱신하는 것 없이 상기 데이터 크리닝 시스템을 갱신하는 것을 특징으로 하는 데이터 크리닝 시스템.
  23. 제22항에 있어서, 상기 소프트웨어 도구가 공급 체인 소프트웨어인 것을 특징으로 하는 데이터 크리닝 시스템.
  24. 제22항에 있어서, 상기 데이터 시스템이 재고 관리 시스템인 것을 특징으로 하는 데이터 크리닝 시스템.
KR1020077026008A 2005-04-20 2006-04-17 적응형 데이터 크리닝 프로세스 및 시스템 KR20080002941A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US67342005P 2005-04-20 2005-04-20
US60/673,420 2005-04-20
US11/139,407 2005-05-27
US11/139,407 US20060238919A1 (en) 2005-04-20 2005-05-27 Adaptive data cleaning

Publications (1)

Publication Number Publication Date
KR20080002941A true KR20080002941A (ko) 2008-01-04

Family

ID=37115859

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077026008A KR20080002941A (ko) 2005-04-20 2006-04-17 적응형 데이터 크리닝 프로세스 및 시스템

Country Status (8)

Country Link
US (1) US20060238919A1 (ko)
EP (1) EP1883922A4 (ko)
JP (1) JP2008537266A (ko)
KR (1) KR20080002941A (ko)
AU (1) AU2006236390A1 (ko)
CA (1) CA2604694A1 (ko)
IL (1) IL186958A0 (ko)
WO (1) WO2006113707A2 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210015527A (ko) * 2019-08-02 2021-02-10 사회복지법인 삼성생명공익재단 의료 데이터 웨어하우스 실시간 자동 업데이트 시스템, 방법 및 이의 기록매체
KR20220083147A (ko) * 2020-12-11 2022-06-20 인피니텀주식회사 혼합학습 모니터링 방법 및 시스템
KR20230138193A (ko) 2022-03-23 2023-10-05 코리아에어터보 주식회사 소음감소를 위한 에어콤프레셔 설치용 소음방지장치

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865519B2 (en) 2004-11-17 2011-01-04 Sap Aktiengesellschaft Using a controlled vocabulary library to generate business data component names
US8244689B2 (en) 2006-02-17 2012-08-14 Google Inc. Attribute entropy as a signal in object normalization
US7769579B2 (en) 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
US8682913B1 (en) 2005-03-31 2014-03-25 Google Inc. Corroborating facts extracted from multiple sources
US9208229B2 (en) 2005-03-31 2015-12-08 Google Inc. Anchor text summarization for corroboration
US8996470B1 (en) 2005-05-31 2015-03-31 Google Inc. System for ensuring the internal consistency of a fact repository
US8306986B2 (en) * 2005-09-30 2012-11-06 American Express Travel Related Services Company, Inc. Method, system, and computer program product for linking customer information
US8260785B2 (en) 2006-02-17 2012-09-04 Google Inc. Automatic object reference identification and linking in a browseable fact repository
US7991797B2 (en) 2006-02-17 2011-08-02 Google Inc. ID persistence through normalization
US8700568B2 (en) 2006-02-17 2014-04-15 Google Inc. Entity normalization via name normalization
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US7627595B2 (en) * 2006-12-06 2009-12-01 Verizon Data Services Inc. Apparatus, method, and computer program product for synchronizing data sources
US20080208735A1 (en) * 2007-02-22 2008-08-28 American Expresstravel Related Services Company, Inc., A New York Corporation Method, System, and Computer Program Product for Managing Business Customer Contacts
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US7739212B1 (en) * 2007-03-28 2010-06-15 Google Inc. System and method for updating facts in a fact repository
US8239350B1 (en) 2007-05-08 2012-08-07 Google Inc. Date ambiguity resolution
US20080301016A1 (en) * 2007-05-30 2008-12-04 American Express Travel Related Services Company, Inc. General Counsel's Office Method, System, and Computer Program Product for Customer Linking and Identification Capability for Institutions
US20080307262A1 (en) * 2007-06-05 2008-12-11 Siemens Medical Solutions Usa, Inc. System for Validating Data for Processing and Incorporation in a Report
US7966291B1 (en) 2007-06-26 2011-06-21 Google Inc. Fact-based object merging
US8086646B2 (en) * 2007-07-20 2011-12-27 Sap Ag Scheme-based identifier
US7970766B1 (en) 2007-07-23 2011-06-28 Google Inc. Entity type assignment
US8738643B1 (en) 2007-08-02 2014-05-27 Google Inc. Learning synonymous object names from anchor texts
US8170998B2 (en) * 2007-09-12 2012-05-01 American Express Travel Related Services Company, Inc. Methods, systems, and computer program products for estimating accuracy of linking of customer relationships
US8060502B2 (en) 2007-10-04 2011-11-15 American Express Travel Related Services Company, Inc. Methods, systems, and computer program products for generating data quality indicators for relationships in a database
US8812435B1 (en) 2007-11-16 2014-08-19 Google Inc. Learning objects and facts from documents
US8838652B2 (en) * 2008-03-18 2014-09-16 Novell, Inc. Techniques for application data scrubbing, reporting, and analysis
JP2009282772A (ja) * 2008-05-22 2009-12-03 Hitachi Ltd 監査証跡ファイル作成方法及びその実施装置
US8688622B2 (en) * 2008-06-02 2014-04-01 The Boeing Company Methods and systems for loading data into a temporal data warehouse
US8195645B2 (en) * 2008-07-23 2012-06-05 International Business Machines Corporation Optimized bulk computations in data warehouse environments
US8744994B2 (en) * 2008-12-23 2014-06-03 International Business Machines Corporation Data filtering and optimization for ETL (extract, transform, load) processes
US8458148B2 (en) * 2009-09-22 2013-06-04 Oracle International Corporation Data governance manager for master data management hubs
US9372917B1 (en) 2009-10-13 2016-06-21 The Boeing Company Advanced logistics analysis capabilities environment
US9734228B2 (en) * 2010-10-26 2017-08-15 Accenture Global Services Limited Digital analytics system
US20120150825A1 (en) * 2010-12-13 2012-06-14 International Business Machines Corporation Cleansing a Database System to Improve Data Quality
DE102012210794A1 (de) 2011-07-01 2013-02-07 International Business Machines Corporation System und Verfahren zur Datenqualitätsüberwachung
US9354968B2 (en) * 2011-09-30 2016-05-31 Johnson Controls Technology Company Systems and methods for data quality control and cleansing
US20130117202A1 (en) * 2011-11-03 2013-05-09 Microsoft Corporation Knowledge-based data quality solution
US8812411B2 (en) 2011-11-03 2014-08-19 Microsoft Corporation Domains for knowledge-based data quality solution
JP5797583B2 (ja) * 2012-02-27 2015-10-21 株式会社日立システムズ データクレンジングシステム及びプログラム
EP2648116A3 (en) * 2012-04-03 2014-05-28 Tata Consultancy Services Limited Automated system and method of data scrubbing
US10120916B2 (en) 2012-06-11 2018-11-06 International Business Machines Corporation In-querying data cleansing with semantic standardization
US9652776B2 (en) 2012-06-18 2017-05-16 Greg Olsen Visual representations of recurring revenue management system data and predictions
EP2862055A4 (en) * 2012-06-18 2016-01-06 Servicesource Internat Inc SYSTEM AND METHOD FOR SERVICE ASSET MANAGEMENT
US9646066B2 (en) 2012-06-18 2017-05-09 ServiceSource International, Inc. Asset data model for recurring revenue asset management
US9582555B2 (en) * 2012-09-06 2017-02-28 Sap Se Data enrichment using business compendium
WO2014122295A2 (en) * 2013-02-07 2014-08-14 Qatar Foundation Methods and systems for data cleaning
US10282426B1 (en) 2013-03-15 2019-05-07 Tripwire, Inc. Asset inventory reconciliation services for use in asset management architectures
US9135324B1 (en) * 2013-03-15 2015-09-15 Ca, Inc. System and method for analysis of process data and discovery of situational and complex applications
JP2014199504A (ja) * 2013-03-29 2014-10-23 株式会社日立システムズ 顧客別データクレンジング処理システム及び顧客別データクレンジング処理方法
WO2015073040A1 (en) * 2013-11-15 2015-05-21 Hewlett-Packard Development Company, L.P. Product data analysis
US9378256B2 (en) * 2013-11-15 2016-06-28 Ut-Battelle, Llc Industrial geospatial analysis tool for energy evaluation
WO2015074079A1 (en) 2013-11-18 2015-05-21 ServiceSource International, Inc. User task focus and guidance for recurring revenue asset management
MY188153A (en) * 2014-04-23 2021-11-24 Mimos Berhad System for processing data and method thereof
US11488086B2 (en) 2014-10-13 2022-11-01 ServiceSource International, Inc. User interface and underlying data analytics for customer success management
US9836488B2 (en) 2014-11-25 2017-12-05 International Business Machines Corporation Data cleansing and governance using prioritization schema
AU2016222407B2 (en) * 2015-08-31 2017-05-11 Accenture Global Solutions Limited Intelligent visualization munging
DE102015121947A1 (de) * 2015-12-16 2017-06-22 Endress+Hauser Process Solutions Ag Verfahren zum Überprüfen von Daten in einer Datenbank eines PAMs
US11011709B2 (en) 2016-10-07 2021-05-18 Universal Display Corporation Organic electroluminescent materials and devices
US11151100B2 (en) * 2016-10-17 2021-10-19 Sap Se Performing data quality functions using annotations
KR102306195B1 (ko) 2016-11-10 2021-09-28 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. 트레이서빌리티 식별자
US11062041B2 (en) * 2017-07-27 2021-07-13 Citrix Systems, Inc. Scrubbing log files using scrubbing engines
US11416801B2 (en) * 2017-11-20 2022-08-16 Accenture Global Solutions Limited Analyzing value-related data to identify an error in the value-related data and/or a source of the error
US10839343B2 (en) 2018-01-19 2020-11-17 The Boeing Company Method and apparatus for advanced logistics analysis
US10199067B1 (en) * 2018-03-23 2019-02-05 Seagate Technology Llc Adaptive cleaning of a media surface responsive to a mechanical disturbance event
US12013840B2 (en) 2020-04-17 2024-06-18 International Business Machines Corporation Dynamic discovery and correction of data quality issues
US11397681B2 (en) * 2020-12-21 2022-07-26 Aux Mode Inc. Multi-cache based digital output generation

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3195107A (en) * 1961-01-24 1965-07-13 Siemens Ag Secured transmission of coded binary symbols
US5287363A (en) * 1991-07-01 1994-02-15 Disk Technician Corporation System for locating and anticipating data storage media failures
US5574898A (en) * 1993-01-08 1996-11-12 Atria Software, Inc. Dynamic software version auditor which monitors a process to provide a list of objects that are accessed
US5491818A (en) * 1993-08-13 1996-02-13 Peoplesoft, Inc. System for migrating application data definition catalog changes to the system level data definition catalog in a database
US5745753A (en) * 1995-01-24 1998-04-28 Tandem Computers, Inc. Remote duplicate database facility with database replication support for online DDL operations
SE509645C2 (sv) * 1996-02-08 1999-02-15 Ericsson Telefon Ab L M En metod för att samtidigt med protokollbaserad funktionsändring i en databas utföra verifiering av konverterad data
US6523041B1 (en) * 1997-07-29 2003-02-18 Acxiom Corporation Data linking system and method using tokens
US5909689A (en) * 1997-09-18 1999-06-01 Sony Corporation Automatic update of file versions for files shared by several computers which record in respective file directories temporal information for indicating when the files have been created
US6029174A (en) * 1998-10-31 2000-02-22 M/A/R/C Inc. Apparatus and system for an adaptive data management architecture
US7366708B2 (en) * 1999-02-18 2008-04-29 Oracle Corporation Mechanism to efficiently index structured data that provides hierarchical access in a relational database system
GB2349493B (en) * 1999-04-29 2002-10-30 Mitsubishi Electric Inf Tech Method of representing an object using shape
WO2000072285A1 (en) * 1999-05-24 2000-11-30 Heat-Timer Corporation Electronic message delivery system utilizable in the monitoring oe remote equipment and method of same
US6850908B1 (en) * 1999-09-08 2005-02-01 Ge Capital Commercial Finance, Inc. Methods and apparatus for monitoring collateral for lending
JP3750504B2 (ja) * 2000-08-09 2006-03-01 セイコーエプソン株式会社 データ更新方法および情報処理装置
JP4540194B2 (ja) * 2000-08-22 2010-09-08 フォルクスワーゲン グループ ジャパン 株式会社 集中在庫管理システム及び方法
US7146416B1 (en) * 2000-09-01 2006-12-05 Yahoo! Inc. Web site activity monitoring system with tracking by categories and terms
US6604104B1 (en) * 2000-10-02 2003-08-05 Sbi Scient Inc. System and process for managing data within an operational data store
US7328186B2 (en) * 2000-12-12 2008-02-05 International Business Machines Corporation Client account and information management system and method
US6668254B2 (en) * 2000-12-21 2003-12-23 Fulltilt Solutions, Inc. Method and system for importing data
WO2002063426A2 (en) * 2001-02-02 2002-08-15 Opentv, Inc. Service platform suite management system
US6670967B2 (en) * 2001-02-26 2003-12-30 The United States Of America As Represented By The National Security Agency Method of efficiently increasing readability of framemaker graphical user interface
US7370272B2 (en) * 2001-04-14 2008-05-06 Siebel Systems, Inc. Data adapter
US7260718B2 (en) * 2001-04-26 2007-08-21 International Business Machines Corporation Method for adding external security to file system resources through symbolic link references
US7969306B2 (en) * 2002-01-11 2011-06-28 Sap Aktiengesellschaft Context-aware and real-time item tracking system architecture and scenarios
US7167574B2 (en) * 2002-03-14 2007-01-23 Seiko Epson Corporation Method and apparatus for content-based image copy detection
US7219104B2 (en) * 2002-04-29 2007-05-15 Sap Aktiengesellschaft Data cleansing
US7254571B2 (en) * 2002-06-03 2007-08-07 International Business Machines Corporation System and method for generating and retrieving different document layouts from a given content
US7324987B2 (en) * 2002-10-23 2008-01-29 Infonow Corporation System and method for improving resolution of channel data
US20040111304A1 (en) * 2002-12-04 2004-06-10 International Business Machines Corporation System and method for supply chain aggregation and web services
US6923932B2 (en) * 2002-12-12 2005-08-02 Intertec Systems, Llc Composite structure tightly radiused molding method
US7461385B2 (en) * 2003-05-06 2008-12-02 Qad Corporation Method for establishing a new user interface via an intermingled user interface
US7315978B2 (en) * 2003-07-30 2008-01-01 Ameriprise Financial, Inc. System and method for remote collection of data
US7302420B2 (en) * 2003-08-14 2007-11-27 International Business Machines Corporation Methods and apparatus for privacy preserving data mining using statistical condensing approach
US20050240592A1 (en) * 2003-08-27 2005-10-27 Ascential Software Corporation Real time data integration for supply chain management
US20050154769A1 (en) * 2004-01-13 2005-07-14 Llumen, Inc. Systems and methods for benchmarking business performance data against aggregated business performance data
US7315883B2 (en) * 2004-07-02 2008-01-01 Biglist, Inc. System and method for mailing list mediation
US7337161B2 (en) * 2004-07-30 2008-02-26 International Business Machines Corporation Systems and methods for sequential modeling in less than one sequential scan
US7299237B1 (en) * 2004-08-19 2007-11-20 Sun Microsystems, Inc. Dynamically pipelined data migration
US7664653B2 (en) * 2004-09-01 2010-02-16 United States Postal Service System and method for electronic, web-based, address element correction for uncoded addresses
US20060247944A1 (en) * 2005-01-14 2006-11-02 Calusinski Edward P Jr Enabling value enhancement of reference data by employing scalable cleansing and evolutionarily tracked source data tags
WO2008005102A2 (en) * 2006-05-13 2008-01-10 Sap Ag Consistent set of interfaces derived from a business object model

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210015527A (ko) * 2019-08-02 2021-02-10 사회복지법인 삼성생명공익재단 의료 데이터 웨어하우스 실시간 자동 업데이트 시스템, 방법 및 이의 기록매체
WO2021025365A3 (ko) * 2019-08-02 2021-04-01 사회복지법인 삼성생명공익재단 의료 데이터 웨어하우스 실시간 자동 업데이트 시스템, 방법 및 이의 기록매체
KR20220083147A (ko) * 2020-12-11 2022-06-20 인피니텀주식회사 혼합학습 모니터링 방법 및 시스템
KR20230138193A (ko) 2022-03-23 2023-10-05 코리아에어터보 주식회사 소음감소를 위한 에어콤프레셔 설치용 소음방지장치

Also Published As

Publication number Publication date
WO2006113707A3 (en) 2007-12-21
EP1883922A2 (en) 2008-02-06
IL186958A0 (en) 2009-02-11
CA2604694A1 (en) 2006-10-26
JP2008537266A (ja) 2008-09-11
US20060238919A1 (en) 2006-10-26
EP1883922A4 (en) 2009-04-29
WO2006113707A2 (en) 2006-10-26
AU2006236390A1 (en) 2006-10-26

Similar Documents

Publication Publication Date Title
KR20080002941A (ko) 적응형 데이터 크리닝 프로세스 및 시스템
Adamson Mastering data warehouse aggregates: solutions for star schema performance
US8036907B2 (en) Method and system for linking business entities using unique identifiers
US7165036B2 (en) System and method for managing a procurement process
US20090265199A1 (en) System and Method for Governance, Risk, and Compliance Management
US20100205076A1 (en) Methods and Apparatus for Analysing and/or Pre-Processing Financial Accounting Data
EP1424646A2 (en) System and method for monitoring business performance
CN117807065A (zh) 确定数据质量规则的方法、计算系统和计算机可读介质
US8626703B2 (en) Enterprise resource planning (ERP) system change data capture
Levitin et al. A model of the data (life) cycles with application to quality
US20080301010A1 (en) Component Inventory Management
US20090055341A1 (en) Regulatory Survey Automation System (RSAS)
US7865461B1 (en) System and method for cleansing enterprise data
KR20050061597A (ko) 버저닝된 데이터베이스에 대한 리포트를 생성하기 위한시스템 및 방법
US20190236126A1 (en) System and method for automatic creation of regulatory reports
US20240062235A1 (en) Systems and methods for automated processing and analysis of deduction backup data
WO2018098507A1 (en) System and method for automatic creation of regulatory reports
Book et al. Value-based migration of legacy data structures
WO2023115050A1 (en) Systems and methods for detection and correction of anomalies
CN108073624B (zh) 业务数据处理系统及方法
Gatling et al. Enterprise information management with SAP
Roseberry et al. Improvement of airworthiness certification audits of software-centric avionics systems using a cross-discipline application lifecycle management system methodology
Yang et al. Guidelines of data quality issues for data integration in the context of the TPC-DI benchmark
US20020178140A1 (en) Method for characterizing and storing data analyses in an analysis database
JP4244997B2 (ja) 申告用書類作成システム及び申告用書類作成プログラム

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid