KR20060045490A

KR20060045490A - 데이터 퍼스펙티브 분석을 용이하게 하는 시스템 및 방법

Info

Publication number: KR20060045490A
Application number: KR1020050028033A
Authority: KR
Inventors: 알란 폴팅; 보 시에슨; 데이비드 이. 헥커맨; 데이비드 엠. 칙커링; 에릭 바버 비게사
Original assignee: 마이크로소프트 코포레이션
Priority date: 2004-06-23
Filing date: 2005-04-04
Publication date: 2006-05-17
Also published as: BRPI0501784A; RU2005114223A; CN100568234C; KR101083519B1; AU2005201997A1; EP1610264A3; US20060106560A1; EP1610264A2; CA2505983A1; CA2505983C; US7162489B2; CN1713182A; AU2005201997B2; RU2378694C2; US20050288883A1; JP2006012140A; US7065534B2; MXPA05005537A

Abstract

본 발명은 커브 피팅 데이터 기법을 작용시켜 데이터 퍼스펙티브로부터의 "데이터 튜브" 내의 데이터 변칙의 자동 검출을 제공한다. 이것은 예를 들어, 피벗 테이블 및/또는 OLAP 큐브에서 예를 들어, 온-스크린, 드릴 다운 및 드릴 어크로스 데이터 변칙과 같은 데이터 변칙을 검출하는 것을 허용한다. 그것은 데이터가 예를 들어, 데이터 튜브에 적용된 조각 선형 함수와 같은 커브 피팅 프로세스에 의해 설정된 예상 값으로부터 현저하게 벗어나 있는지를 결정한다. 본 발명에 의해 임계치도 사용되어, 데이터 값이 변칙으로 간주되기 전에 필요한 편차의 정도를 결정하는 것을 용이하게 할 수 있다. 임계치는 사용자 인터페이스를 통해 시스템 및/또는 사용자에 의해 동적 및/또는 정적으로 공급될 수 있다. 또한, 본 발명은 최고 레벨 데이터 퍼스펙티브로부터 검출된 변칙의 유형 및 위치에 대한 사용자에게로의 표시를 제공한다.

커브 피팅 데이터 기술, 데이터 퍼스펙티브, 데이터 튜브, 데이터 변칙

Description

데이터 퍼스펙티브 분석을 용이하게 하는 시스템 및 방법{ANOMALY DETECTION IN DATA PERSPECTIVES}

도 1은 본 발명의 양태에 따른 자동 데이터 퍼스펙티브 변칙 검출 시스템의 블록도.

도 2는 본 발명의 양태에 따른 자동 데이터 퍼스펙티브 변칙 검출 시스템의 다른 블록도.

도 3은 본 발명의 양태에 따른 자동 데이터 퍼스펙티브 변칙 검출 컴포넌트의 또 다른 블록도.

도 4는 본 발명의 양태에 따른 자동 데이터 퍼스펙티브 변칙 검출을 용이하게 하는 방법의 흐름도.

도 5는 본 발명의 양태에 따른 자동 데이터 퍼스펙티브 변칙 검출을 용이하게 하는 방법의 다른 흐름도.

도 6은 본 발명이 기능할 수 있는 예시적인 오퍼레이팅 환경을 도시.

도 7은 본 발명이 기능할 수 있는 또 다른 예시적인 오퍼레이팅 환경을 도시.

<도면의 주요 부분에 대한 부호의 설명>

102 : 자동 데이터 퍼스펙티브 변칙 검출 컴포넌트

104 : 데이터 퍼스펙티브

106 : 변칙

108 : 임계치 입력

202 : 자동 데이터 퍼스펙티브 변칙 검출 컴포넌트

204 : 데이터 튜브 컴포넌트

206 : 변칙 검출 컴포넌트

208 : 데이터 퍼스펙티브

210 : 변칙

212 : 임계치 입력

302 : 변칙 검출 컴포넌트

304 : 커브 피팅 함수 컴포넌트

306 : 데이터 편차 스코어 컴포넌트

308 : 변칙 결정 컴포넌트

310: 데이터 튜브 컴포넌트

312 : 변칙

316 : 사용자-정의된 함수

314 : 임계치 입력

본 발명은 일반적으로 데이터 마이닝에 관한 것으로서, 특히, 데이터 퍼스펙티브에서의 자동 데이터 변칙 검출을 제공하는 시스템 및 방법에 관한 것이다.

정보의 디지털화는 방대한 양의 데이터가 매우 작은 공간에 저장되게 한다. 예를 들어, 프로세스는 라이브러리의 내용의 저장이 단일 컴퓨터 하드 드라이브 상에 캡처되도록 한다. 이것은, 데이터가 디지털 인코딩 장치를 통해 하드 드라이브, CD-ROM 디스크 및 플로피 디스크와 같은 여러 타입의 디지털 저장 매체에 저장될 수 있는 이진 상태로 변환되기 때문에 가능하다. 디지털 저장 기술이 발달함에 따라, 저장 장치의 밀도는 주어진 공간에 훨씬 더 많은 데이터가 저장되도록 한다. 이 때, 데이터의 밀도는 주로 물리 및 제조 처리에 의해 제한된다.

저장 용량이 증가되면서, 효과적인 데이터 검색의 과제도 늘어나, 데이터가 쉽게 액세스되어야 한다는 것을 중요하게 만든다. 예를 들어, 도서관이 책을 소장하고는 있지만 그 책의 위치를 알아낼 수 없다는 사실은 책을 읽고 싶어하는 자를 돕지 못한다. 마찬가지로, 데이터가 쉽게 액세스될 수 없다면, 데이터를 디지털화하는 것은 진보적인 단계가 아니다. 이것으로 인해, 효율적인 데이터 검색을 용이하게 하는 데이터 구조를 생성하게 되었다. 이 구조는 일반적으로 "데이터베이스"로 알려져 있다. 데이터베이스는 구조화된 포맷의 데이터를 포함하여 데이터로의 효율적인 액세스를 제공한다. 데이터 저장을 구조화하는 것은 데이터를 검색하는 데에 있어서, 구조화되지 않은 데이터 저장보다 더 높은 효율성을 허용한다. 인덱싱 및 다른 조직적인 기술도 적용될 수 있다. 데이터 간의 관계도 데이터와 함께 저장되어, 데이터의 가치를 높일 수 있다.

데이터베이스 개발의 초기 기간에, 사용자는 일반적으로 "미가공 데이터", 또는 정확히 데이터베이스에 입력된 그대로 보이는 데이터를 보았다. 기술이 점차 발전하여 더 효율적인 방식으로 데이터가 포맷되고, 조작되고 및 보여질 수 있게 되었다. 이것은 예를 들어, 사용자가 수학적 연산자를 데이터에 적용하고 심지어 리포트도 생성하게 하였다. 사업자들은 개별 판매만이 포함된 데이터베이스 내의 데이터로부터 "총 판매"와 같은 정보에 액세스할 수 있게 되었다. 사용자 인터페이스는 사용자 친화적인 포맷으로 데이터를 검색하고 디스플레이하는 것을 더 용이하게 하기 위해 계속해서 개발되었다. 사용자는 점차, 개별 판매로부터 총 판매를 보는 것과 같은 데이터의 상이한 보기가 데이터베이스 내의 미가공 데이터로부터 추가 정보를 얻도록 해준다는 것을 이해하게 되었다. 이 추가 데이터의 수집은 "데이터 마이닝"으로서 알려져 있고, 이것은 "메타 데이터(즉, 데이터에 관한 데이터)"를 생성한다. 데이터 마이닝은 가치있는 추가 정보가 미가공 데이터로부터 추출되게 한다. 이것은 특히 기업에 유용하며, 여기에서는 데이터베이스의 미가공 입력 데이터만으로부터의 결과 외에, 기업 판매 및 생산량을 설명하는 정보가 발견될 수 있다.

따라서, 데이터 조작은 미가공 데이터로부터 필수 정보가 추출되도록 한다. 이 데이터 조작은 저장된 데이터의 디지털 특성으로 인해 가능하다. 방대한 양의 디지털화된 데이터는 직접 시도되는 경우보다 훨씬 더 빠른 상이한 양상들로부터 보여질 수 있다. 데이터의 각각의 새로운 퍼스펙티브는 사용자가 데이터에 관한 추가적인 통찰력을 획득할 수 있게 할 수 있다. 이것은, 이것을 이용하면 사업을 성공적으로 이끌 수 있고 이용하지 않으면 사업을 실패로 이끌 수 있는 매우 강력한 개념이다. 예를 들어, 트랜드 분석, 원인과 결과 분석, 영향력 연구 및 예견(즉, 디지털화된 정보로의 직관적이고 사용자 친화적인 액세스를 가짐으로써 예상된 가치성 및 적시성)이 데이터베이스로 입력된 미가공 데이터로부터 결정될 수 있다.

현재, 데이터 마이닝 능력을 증가시키는 데이터 조작은 에러있는 데이터가 다양한 데이터 퍼스펙티브에 포함되지 않음을 보장하기 위하여, 많은 사용자 입력 및 지식을 요구한다. 이것은 사용자가 데이터에 관한 깊은 지식, 및 데이터에 어떤 유형의 에러가 발생할 수 있는 지에 관한 통찰력을 가져야 한다는 것을 요구한다. 이러한 사전 지식 없이는, 사용자는 주어진 데이터 퍼스펙티브에 묻힌 데이터 변칙(data anomaly)을 발견하기 위해, "힛 앤 미스(hit and miss)" 접근을 시도해야 한다. 이 접근은 일반적으로, 가끔 사용하는 자들에게는 알 수 없는 것이며/것이거나, 고급 사용자들에게는 너무 시간소모적인 것이다. 저장된 데이터의 양은 일반적으로, 사용자가 모든 데이터 변칙이 폭로되는 것을 보장하는 사용가능한 전략을 효율적으로 개발하는 것에 관련하여, 너무 방대하고 복잡하다.

다음은 본 발명의 몇몇 양태에 대한 기본적 이해를 제공하기 위해 본 발명의 단순화된 요약을 제공한다. 이 요약은 본 발명에 대한 확장적인 개요가 아니다. 이것은 본 발명의 핵심/중요 요소들을 식별하려는 것도 아니고, 본 발명의 범주를 나타내려는 것도 아니다. 그 유일한 목적은 나중에 제공되는 더 상세한 설명의 서 론으로서 본 발명의 몇몇 개념을 단순화된 형식으로 제공하는 것이다.

본 발명은 일반적으로 데이터 마이닝에 관한 것이며, 특히, 데이터 퍼스펙티브에서의 자동 데이터 변칙 검출을 제공하기 위한 시스템 및 방법에 관한 것이다. 데이터 커브 피팅 기법(curve fitting techniques)은 데이터 퍼스펙티브로부터의 "데이터 튜브(data tube)" 내의 데이터 변칙의 자동 검출을 제공하는 데 작용한다. 데이터 튜브는 단지 하나의 변화하는 데이터 차원을 갖는 데이터를 포함한다. 이것은 예를 들어, 스프레드시트 피벗 테이블(spreadsheet pivot table) 및/또는 온라인 분석 처리(On-line Analytical Processing; OLAP) 큐브 등에서의 데이터 변칙의 온-스크린(on-screen), 드릴 다운(drill down) 및 드릴 어크로스(drill across)와 같은 데이터 변칙의 검출을 허용한다. 자동 데이터 퍼스펙티브 분석을 제공함으로써, 본 발명은 미경험 사용자들이 데이터베이스로부터 에러있는 데이터 정보를 쉽게 배치하도록 한다. 이것은, 예를 들어, 데이터 튜브에 적용된 조각 선형 함수와 같은 커브 피팅 프로세스에 의해 설정된 예상 값으로부터 데이터가 현저하게 벗어나는지를 결정함으로써 달성된다. 또한, 본 발명은 데이터 값이 변칙으로 간주되기 전에 필요한 편차의 정도를 결정하는 데 용이한 임계치를 채용할 수 있다. 임계치는 예를 들어, 사용자 인터페이스 등을 통해 시스템 및/또는 사용자에 의해 동적 및/또는 정적으로 공급될 수 있다. 또한, 본 발명은 최고 레벨의 데이터 퍼스펙티브로부터 검출된 변칙의 타입 및 위치를 사용자에게 쉽게 나타낼 수 있어, 사용자가 더 낮은 레벨의 데이터 변칙을 추적할 필요가 없게 한다.

상술되고 관련된 목적의 성취를 위해, 여기서는 다음의 설명 및 첨부 도면과 관련하여 본 발명의 특정한 예시적인 양태를 개시한다. 그러나, 이 양태들은 예시적인 것이며, 본 발명의 원리가 사용될 수 있고 본 발명이 그러한 양태 및 그 등가물을 포함하는 것으로 의도되는 다양한 방법 중 일부일 뿐이다. 본 발명에 대한 다른 장점 및 새로운 특징들은 도면과 함께 고려될 때 다음의 본 발명의 상세한 설명으로부터 명백해질 수 있다.

이제, 본 발명은 전체적으로 유사한 참조번호가 유사한 구성요소를 가리키는 데 사용되는 도면을 참조하여 설명된다. 다음의 설명에서는, 예시를 목적으로, 본 발명의 전체적 이해를 제공하기 위해 다수의 특정 상세사항이 설명된다. 그러나, 본 발명이 이러한 특정 상세사항 없이도 실시될 수 있음은 자명하다. 다른 예에서, 본 발명의 설명을 용이하게 하기 위해, 잘 알려진 구조 및 장치가 블록도 형태로 도시된다.

본 명세서에서 사용되는 용어 "컴포넌트"는 하드웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어 또는 실행중인 소프트웨어인 컴퓨터-관련 엔티티를 의미하는 것이다. 예를 들어, 컴포넌트는 프로세서 상에서 실행중인 프로세스, 프로세서, 오브젝트, 실행파일, 실행 스레드, 프로그램 및/또는 컴퓨터일 수 있지만, 이것으로 제한되는 것은 아니다. 예를 들면, 서버 상에서 실행중인 어플리케이션, 및 서버는 컴퓨터 컴포넌트일 수 있다. 하나 이상의 컴포넌트는 프로세스 및/또는 실행 스레드 내에 상주할 수 있고, 하나의 컴포넌트는 하나의 컴퓨터 상에 위치될 수 있으며/있거나 2 이상의 컴퓨터 사이에서 분산될 수 있다. "스레드"는 오퍼레이팅 시스템 커널이 실행을 위해 스케줄링하는 프로세스 내의 엔티티이다. 본 분 야에 알려진 바와 같이, 각각의 스레드는 스레드의 실행에 관련된 휘발성 데이터인 관련 "문맥"을 갖는다. 스레드의 문맥은 시스템 레지스터의 내용, 및 스레드의 프로세스에 속하는 가상 주소를 포함한다. 따라서, 스레드의 문맥을 포함하는 실제 데이터는 실행 시에 변한다.

본 발명은 변칙 데이터를 자동으로 검출함으로써 데이터 퍼스펙티브의 분석을 용이하게 한다. 특정 데이터 퍼스펙티브가 임의의 레벨에서 에러있는 데이터를 갖는다는 공지를 사용자에게 제공하는 표시자가 사용된다. 레벨은 예를 들어, 온-스크린 또는 최고 레벨, 및/또는 현재 디스플레이되지 않지만 사용자가 데이터를 드릴 다운하고/다운하거나 드릴 어크로스하여 에러있는 데이터 값을 노출시키도록 요구하는 레벨일 수 있다. 이러한 방식으로, 사용자는 데이터 변칙이 존재하는 것으로 쉽게 결정할 수 있고, 에러있는 데이터를 노출시키기 위해서는 얼마나 많은 노력 및/또는 어떤 데이터 보기가 요구되는지를 쉽게 결정할 수 있다. 사용자 및/또는 시스템은 또한, 자동 검출에 용이한 임계치를 정적 및/또는 동적으로 설정할 수 있다. 사용자는 또한, 여러 유형의 데이터 변칙에 대해 상이한 임계치들을 선택할 수 있다. 임계치는 데이터 값이 변칙으로 간주되기 전에 데이터 값이 얼마나 현저하게 벗어나야 하는지를 결정한다. 그 편차는 그 데이터 값을, 하나의 변하는 데이터 차원만을 갖는 데이터 튜브에 적용된 커브 피팅 프로세스에 의해 제공된 예상 데이터 값에 비교함으로써 결정된다. 커브 피팅 프로세스와 함께 사용된 함수도 사용자 선택가능할 수 있다. 따라서, 본 발명은 사용자가 자신이 검토하고 있는 데이터의 관심가는 특징들을 쉽게 식별하게 한다.

도 1에서, 본 발명의 양태에 따른 자동 데이터 퍼스펙티브 변칙 검출 시스템(100)의 블록도가 도시되어 있다. 자동 데이터 퍼스펙티브 변칙 검출 시스템(100)은 데이터 퍼스펙티브(104)를 수신하고 데이터 변칙(106)을 자동으로 결정하는 자동 데이터 퍼스펙티브 변칙 검출 컴포넌트(102)를 포함한다. 데이터 퍼스펙티브는 스프레드시트 피벗 테이블과 OLAP 큐브 등을 포함할 수 있지만, 이것으로 제한되는 것은 아니다. 선택적인 외부의 임계치 입력(108)은 자동 데이터 퍼스펙티브 변칙 검출 컴포넌트(102)에 의해, 어느 데이터가 변칙인지를 결정하는 것을 용이하게 하는 데 사용될 수 있다. 예를 들어, 시스템 결정된 값 및/또는 시스템 결정된 편차 퍼센티지 등과 같은 임계치도 자동 데이터 퍼스펙티브 변칙 검출 컴포넌트(102)의 일부분으로서 결정될 수 있다. 복수의 사용자-지정된 임계치도 본 발명에 의해 상이한 유형의 데이터 변칙과 함께 이용되는 데 채용될 수 있다. 자동 데이터 퍼스펙티브 변칙 검출 컴포넌트(102)는 데이터 퍼스펙티브로부터의 데이터 튜브에 적용된 커브 피팅 프로세스를 이용하여 어느 데이터가 변칙인지를 결정한다. 커브 피팅 프로세스는 또한, 사용자-지정된 함수들과 통합하여 데이터 변칙의 자동 검출을 용이하게 할 수 있다.

도 2를 참조하면, 본 발명에 따른 자동 데이터 퍼스펙티브 변칙 검출 시스템(200)의 다른 블록도가 도시되어 있다. 자동 데이터 퍼스펙티브 변칙 검출 시스템(200)은 데이터 튜브 컴포넌트(204)와 변칙 검출 컴포넌트(206)를 포함하는 자동 데이터 퍼스펙티브 변칙 검출 컴포넌트(202)를 포함한다. 데이터 튜브 컴포넌트(204)는 데이터 퍼스펙티브(208)를 수신하고 그 데이터 퍼스펙티브(208)를 데이터 튜브들로 변화시킨다. 데이터 튜브는 하나의 변하는 데이터 차원만을 갖는 데이터 퍼스펙티브(208)로부터의 데이터 단편들을 포함한다. 변칙 검출 컴포넌트(206)는 데이터 튜브를 수신하고, 커브 피팅 프로세스를 이용하여 그것을 처리하여, 임의의 데이터 변칙을 결정한다. 커브 피팅 프로세스는 데이터 튜브 내의 데이터를 추정할 수 있는 함수를 생성하려는 프로세스를 포함한다. 추정된 데이터는 데이터 튜브 내의 데이터에 대한 편차 스코어를 결정하는 데 사용되는 "예상 데이터"가 된다. 임계치 입력(212)은 변칙 검출 컴포넌트(206)에 의해, 얼마만큼의 편차가 수용가능한지를 결정하는 데 채용된다. 임계치 입력(212)은 시스템 생성된 것 및/또는 사용자 생성된 것일 수 있다. 변칙 검출 컴포넌트(206)가 결정한 임계치 입력(212)을 초과하는 임의의 데이터는 변칙(210)으로서 출력된다.

도 3을 참조하면, 본 발명의 양태에 따른 자동 데이터 퍼스펙티브 변칙 검출 컴포넌트(300)의 또 다른 블록도가 도시되어 있다. 자동 데이터 퍼스펙티브 변칙 검출 컴포넌트(300)는 데이터 튜브 컴포넌트(310) 및 변칙 검출 컴포넌트(302)를 포함한다. 변칙 검출 컴포넌트(302)는 커브 피팅 함수 컴포넌트(304), 데이터 편차 스코어 컴포넌트(306) 및 변칙 결정 컴포넌트(308)를 포함한다. 커브 피팅 함수 컴포넌트(304)는 데이터 튜브 컴포넌트(310)로부터 데이터 튜브를 수신하고 그 데이터 튜브로부터의 데이터를 나타내는 적절한 함수를 결정한다. 이것은 예상 데이터가 데이터 튜브로부터의 데이터 값에 대해 생성되도록 한다. 커브 피팅 함수 컴포넌트(304)는 또한, 선택적인 사용자-지정된 함수(316)를 수신하여 적절한 함수로서 사용할 수 있다. 이것은 사용자가 검출 프로세스를 맞추어 만들게 한다. 데 이터 편차 스코어 컴포넌트(306)는 커브 피팅 함수 컴포넌트(304)로부터의 커브 피팅 함수와 함께 데이터 튜브로부터의 데이터를 수신한다. 데이터 편차 스코어 컴포넌트(306)는 커브 피팅 함수를 이용하여 데이터에 대한 값을 예상한다. 이러한 값은 실제 데이터 값에 비교되고, 예상 값으로부터의 편차량에 기초한 스코어가 결정된다. 변칙 결정 컴포넌트(308)는 편차 스코어를 수신하고 임계치 입력(314)을 이용하여 임계치를 초과하는 데이터를 검출한다. 임계치를 초과하는 것으로 결정된 데이터는 변칙으로 간주되고 데이터 변칙(312)으로서 출력된다.

상술된 시스템을 더 잘 이해하기 위해서는, 데이터의 문맥과 의미를 이해하는 것이 도움이 될 것이다. 피벗 테이블 및/또는 OLAP 큐브와 같은 데이터 퍼스펙티브는 사업상 중요한 도구이다. 그것은 사용자가 큰 데이터 집합을 빠르고 쉽게 네비게이트하게 해줌으로써, 사업(및 다른) 결정을 용이하게 한다. 본질적으로, 피벗 테이블 및 OLAP 큐브와 같은 데이터 퍼스펙티브는 데이터 집합에 대한 n차원적 보기이다. 예를 들어, 표 1의 일부분에 도시된 데이터에 대응하는 피벗 테이블이 표 2에 도시된다.

이 데이터 퍼스펙티브에서, 날짜 및 "상품 카테고리(product category)"의 함수로서의 평균 매출액이 도시되고, 매출액은 지역(판매 지역)에 대해 평균된다. 이 예에서, "매출액"은 타겟인 한편, "날짜"와 "상품 카테고리"는 디스플레이된 차원이고, "지역"은 집적된 차원이다. 표 2에서, 총계는 평균이지만, 다른 총계(예를 들어, 합계, 극소, 극대)도 가능하다. 동일한 데이터 집합에 대한 다른 데이터 퍼스펙티브 예를 들면, 상품 카테고리에 대해 평균된 날짜와 지역의 함수로서의 매출액이 가능하다. 디스플레이된 차원의 개수는 2보다 더 클 수 있다(표 4 참조).

각각의 차원은 계층을 가질 수 있다. 이 예에서, 날짜 계층은 일년, 4분기, 일주일이다. 상품 계층은 상품 카테고리, 상품이고, 위치 계층은 지역, 주(state)이다. 피벗 테이블과 같은 데이터 퍼스펙티브의 중요한 부분은 디스플레이될 계층의 레벨이다. 표 2에서, 디스플레이된 레벨은 날짜 차원에 대해서는 일년, 상품 차원에 대해서는 상품 카테고리, 및 위치 차원에 대해서는 지역이다. 사용자는 (디스플레이된) 차원으로 드릴 다운할 수 있다. 이것은 그 차원의 계층에서 다음으로 낮은 레벨로 이동하는 것에 대응한다(표 5 참조). 사용자는 또한, 현재 피벗 테이블에 있지 않는 차원에 따라, 주어진 피벗을 확장함으로써 그것을 드릴 어크로스할 수 있다. 예를 들어, 표 4는 표 2의 피벗 테이블의 지역에 의한 드릴의 결과를 도시한다.

피벗 테이블은 또한, 도시될 데이터를 선택하는 차원을 (그 계층에서의 임의의 레벨로서) 포함하는 페이지 필드를 갖는다. 표 2에서, 페이지 필드는 지역 레벨의 위치 차원을 포함한다. 모든 지역에 걸친 매출액이 선택된다. 대안적으로, 사용자는 특정 지역 또는 주에 대한 매출액을 선택할 수 있다. 일반적으로, 데이터 집합의 피벗 테이블은 (1)타겟, (2)계층의 임의의 레벨에서의 디스플레이된 차원, (3)계층의 임의의 레벨에서의 페이지 필드 차원, 및 (4)집적 함수(aggregation function)에 대응한다.

일반적으로, 피벗 테이블과 같은 데이터 퍼스펙티브 내의 하나 이상의 셀은 변칙일 수 있다. 본 발명은 예를 들어, (1)온-스크린 변칙, (2)드릴 어크로스 변칙, 및 (3)드릴 다운 변칙 등 적어도 3개의 유형의 셀 변칙을 자동으로 검출 및 디스플레이한다. 셀이 스크린 상에 디스플레이된 다른 데이터의 문맥에서 변칙이면, 그 셀은 온-스크린 변칙이다. 셀을 드릴 어크로스하는 것이 변칙으로 나타나면, 그 셀은 드릴 어크로스 변칙이다. 셀 안으로 드릴하는 것이 변칙으로 나타나면, 그 셀은 드릴 다운 변칙이다. 이러한 유형의 변칙은 표 3(포맷팅을 제외하고는 표 2와 동일함)에서 나타난다.

표 3에서, cat2/1999의 셀은, 자신의 행 또는 열에 있는 임의의 다른 셀보다 더 높은 매출액 평균을 갖기 때문에 온스크린 변칙이다. 표 3에서, cat2/2001의 셀은 드릴 어크로스 변칙이다. 이 변칙은 이하의 표 4에서 나타나는 바와 같이 사용자가 데이터 퍼스펙티브를 지역으로 드릴 어크로스할 때까지는 명백하지 않다.

표 4에서, r3의 매출액은 r1 및 r3의 매출액보다 훨씬 낮은 것으로 나타난다. 또한, 표 3의 셀 cat3/2002은 드릴 다운 변칙이다. 다시, 이 변칙은 이하의 표 5에서 나타나는 바와 같이 사용자가 상품 계층을 드릴 다운할 때까지는 명백하지 않다.

표 5에서, prod3의 매출액은 prod1 및 prod2의 매출액보다 훨씬 더 낮은 것으로 나타난다. 상술된 예들에서, 온-스크린 변칙은 하이라이트되었고, 드릴 어크로스 및 드릴 다운 변칙은 테두리로 표시되었다. 그러나, 본 분야에 숙련된 기술자들은 많은 다른 변경도 가능하다는 것을 이해할 것이다.

다음은 본 발명에 의한 자동 변칙 검출의 예를 설명한다. 용어 "튜브(tube)"는 하나의 차원만이 변하는 주어진 데이터 퍼스펙티브의 단편을 지칭하는 데 사용된다. 2차원적 데이터 퍼스펙티브에서, 튜브는 단순히 행 및/또는 열에 대응한다. (1)날짜 및 지역은 고정되어 있고 prod cat가 변하는 경우, (2)prod cat과 날짜는 고정되어 있고 지역이 변하는 경우, 및 (3)prod cat 및 지역은 고정되어 있고 날짜가 변하는 경우에 대응하는 표 4의 3차원적 피벗 테이블에서 몇몇 예시적인 튜브들이 도시된다.

한 셀이 커브 피팅 함수에 의해 계산된 자신에 대한 예상 값으로부터 현저하게 벗어난 경우, 그 셀은 튜브에 관한 변칙이 된다. 데이터 퍼스펙티브 내의 값이 연속적인 것을 요구하기보다, 데이터 퍼스펙티브가 일차원적이고, 순서화된 인덱스를 갖는 것으로 가정한다. 예를 들어, 데이터 퍼스펙티브는 시간, 거리 또는 돈에 의해 인덱스되는 것일 수 있다. 따라서, 데이터 퍼스펙티브의 값은 연속적이고/연속적이거나 이산적일 수 있다. 예를 들어, "자동-회귀" 커브 피팅 방법과 같은 커브 피팅 방법은 변칙 검출을 위해 그 퍼스펙티브에 적용될 수 있다. 본 발명의 일 실시예에서, 변칙 검출은 예상 값으로부터의 편차의 양에 대한 편차 스코어를 지정함으로써 용이해질 수 있다. 편차 스코어는 주어진 임계치에 비교되어, 변칙이 존재하는지의 여부를 결정할 수 있다. 예를 들어, 이산 데이터를 이용하여, 데이터 퍼스펙티브 내의 관측된 값의 확률이 결정된다. 이 확률이 매우 낮은 경우, 데이터는 변칙으로 간주된다.

본 발명의 또 다른 예에서, 튜브 내의 연속적인 차원 데이터는 (예를 들어, 회귀 트리 등을 사용하여) 조각 선형 함수에 맞추어진다. 셀은 다음의 수학식을 충족하는 경우 변칙이 된다.

|셀 내의 값-셀의 예상 값|>임계치.

여기서, 이 수학식의 좌변은 셀에 대한 편차 스코어이다.

본 발명의 또 다른 예에서, 튜브 내의 이산적인 차원 데이터는 자동-회귀 모델에 맞추어진다. 셀 내의 값의 확률이 임의의 임계치보다 작은 경우 셀은 변칙이 된다.

상기 설명으로부터 명백해진 바와 같이, 본 발명은 연속적인 데이터 및 이산적인 데이터에 대하여 상이한 커브-피팅 함수들을 적용한다. 그러나, 차원이 이산적인지 아니면 연속적인지를 결정하는 다수의 방법이 존재한다. 예를 들어, 사용자는 선택(예를 들어, 포맷 명령 등을 통해 차원에 "번호"를 붙이는 것)을 지정할 수 있다. 그렇지 않으면, 또 다른 예로, (예를 들어, 1999년 4월 23일자 헤커맨의 미국 특허출원 제09/298,737호인 "변수가 숫자인지 숫자가 아닌지를 결정하는 방법"에 기재된 것과 같은 시스템 및 방법을 사용하여) 데이터를 검사함으로써 선택이 자동으로 이루어질 수 있다.

이 예에 대한 3가지 유형의 변칙은 이제, 피벗 테이블과 같은 주어진 데이터 퍼스펙티브에 대해 정의된다. 셀은 디스플레이된 튜브들 중 임의의 것에 관해 변칙인 경우 온-스크린 변칙이다. 다른 정의로는, (1)셀은 디스플레이된 튜브들 전부에 관해 변칙인 경우 온-스크린 변칙이고, 및 (2)셀은 스크린 상의 모든 튜브에서 평균화된 편차의 정도가 임계치를 초과하는 경우 온-스크린 변칙이라는 정의가 있지만, 이것으로 제한되는 것은 아니다. 디스플레이되지 않은 차원에 대해 변하는(디스플레이된 차원은 고정되어 있음) 변칙 튜브가 있는 경우, 셀은 드릴 어크로스 변칙이다. 더 깊은 레벨로 드릴 다운된 현재 디스플레이된 차원에 대해 변하는(모든 다른 디스플레이된 차원은 고정되어 있음) 변칙 튜브가 있는 경우, 셀은 드릴 다운 변칙이다.

드릴 어크로스 및 드릴 다운 변칙은 정의에 의해, 사용자에게 보여질 수 없다. 그것을 노출하는 메커니즘은, 사용자가 변칙을 보기 위해 어느 차원 및/또는 계층이 확장되어야 하는지를 보게 한다. 일부 데이터 퍼스펙티브 어플리케이션에서, 이것은 변칙 셀 상에서 포인팅 장치(예를 들어, 마우스)의 오른쪽 버튼을 클릭함으로써 행해질 수 있다. 어느 차원 및/또는 계층이 변칙을 포함하는지를 나타내는 것 외에, 예를 들어, 차원 및 계층을 대응하는 편차 스코어에 따라 소팅함으로써, 그 변칙의 정도 역시 나타낼 수 있다.

온-스크린 변칙에 대해서와 같이, 사용자는 왜 셀이 변칙인지에 관한 설명을 요구할 수 있다. 이것은 편차 스코어가 임계치를 초과하는 튜브를 디스플레이(예를 들어, 하이라이팅)함으로써 본 발명을 통해 성취된다. 이 함수는 또한, 몇몇 어플리케이션에서 포인팅 장치(예를 들어, 마우스)의 오른쪽 클릭을 이용함으로써 사용될 수 있다.

임계치에 대하여는 고려해야 할 두가지 경우가 있다. 첫번째로는, 질문의 셀은 드릴 인투 및/또는 드릴 어크로스될 수 있고/있거나, 본래 데이터 내의 동일한 셀에 대해 다수의 엔트리가 있다. 이 경우에, 임계치 c

가 사용될 수 있는데, 여기서, c는 사용자-제어된 상수이고,

는 셀의 하나 이상의 확장으로부터 결과하는 데이터의 표준 편차이다. 두번째로는, 셀이 확장되거나 상술된 임계치를 대신할 수 없다면, 임계치로서 c<예상 값> 또는 단순히 c가 사용될 수 있으며, 여기서 c는 사용자-제어된 상수이다. 다르게는, 최고 k개의 변칙이 나타날 수 있으며, 여기서 k는 사용자가 선택한 것이다. 다르게는, 확장될 수 없는 임의의 셀이 레이블링되지 않도록 선택될 수 있다.

상술된 예시적인 시스템의 관점에서, 본 발명에 따라 구현될 수 있는 방법은 도 4 내지 도 5를 참조하여 더 잘 이해될 것이다. 설명의 단순화를 위해 본 방법이 연속 블록으로서 도시되고 설명되지만, 본 발명에 따라 몇몇 블록은 여기에 도시되고 설명된 것과는 상이한 순서로, 및/또는 다른 블록과 동시에 일어날 수 있기 때문에, 본 발명이 이 블록의 순서로 제한되지 않는다는 것을 주지해야 한다. 또한, 도시된 모든 블록들이 본 발명에 따른 본 방법을 구현하는 데 요구되는 것은 아니다.

본 발명은 하나 이상의 컴포넌트에 의해 실행되는 프로그램 모듈과 같은 컴퓨터-실행가능 명령어의 일반적 문맥에서 설명될 수 있다. 일반적으로, 프로그램 모듈로는, 특정 태스크를 수행하거나 특정 추상 데이터 타입을 구현하는 루틴, 프로그램, 오브젝트, 데이터 구조 등을 포함한다. 일반적으로 프로그램 모듈의 기능은 다양한 실시예에서 설명되는 바와 같이 결합되거나 분산될 수 있다.

도 4에서, 본 발명의 양태에 따른 자동 데이터 퍼스펙티브 변칙 검출을 용이하게 하는 방법(400)의 흐름도가 도시된다. 방법(400)은 하나의 차원만이 변하는 데이터 퍼스펙티브로부터의 데이터 단편을 나타내는 튜브 데이터를 수신함으로써(404) 개시한다(402). 데이터 내의 변칙은 데이터에 적용된 커브 피팅 함수를 사용하여 자동으로 검출된다(406). 커브 피팅 함수는 유도되고/유도되거나 사용자-지정될 수 있다. 변칙 검출은 시스템 및/또는 사용자에 의해 제공된 임계치 편차 값에 의해 더 용이해질 수 있다. 임계치 편차 값도 데이터 변칙의 유형에 따라 달라질 수 있다. 검출된 변칙은 데이터 변칙으로서 출력되고(408), 흐름은 종료한다(410).

도 5를 참조하면, 본 발명의 양태에 따른 자동 데이터 퍼스펙티브 변칙 검출을 용이하게 하는 방법(500)의 또 다른 흐름도가 도시된다. 방법(500)은 하나의 차원만이 변하는 데이터 퍼스펙티브로부터의 데이터 단편을 나타내는 튜브 데이터를 수신함으로써(504) 개시한다. 어느 함수가 데이터 튜브의 데이터를 가장 잘 나타내는지에 관한 결정이 이루어진다(506). 함수는 연속 및 이산 데이터를 위한 조각 선형 프로세스와 같은 자동-회귀 프로세스 및 회귀 트리 프로세스를 통해 획득될 수 있다. 함수는 또한, 사용자-제공된 함수로서 획득될 수 있다. 커브 피팅 함수가 주어진 상태에서의 데이터의 예상 값과 실제 데이터 값에 기초하여 편차 스 코어가 결정된다(508). 데이터 값이 에러있는 것으로 간주되기 전에 허용된 편차의 양을 결정하는 임계치를 수신한다(510). 이 임계치는 시스템을 통해 결정될 수 있고/있거나 사용자에 의해 제공될 수 있다. 이것은 정적 값 및/또는 동적 값일 수 있다. 임계치는 또한, 데이터 변칙의 유형에 따라 변할 수 있다. 어느 데이터 값이 임계치를 초과하는 편차 스코어를 갖는지를 결정함으로써 데이터 변칙이 검출되고(512), 흐름을 종료한다(514). 일반적으로, 데이터 변칙은 하이라이팅, 아웃라이닝 및/또는 색 코딩 등과 같은 스크린 상의 표시자를 통해 사용자에게 다시 놓여진다. 그러나, 아이콘 및 다른 그래픽 표시자도 사용될 수 있다. 표시자는 사용자가 데이터 변칙이 어느 레벨에서 발견될 수 있는지를 평가하도록 한다. 그것은 또한, 데이터 변칙의 유형 및/또는 데이터 변칙의 편차 정도를 나타내는 데 사용될 수 있다. 본 발명의 다른 예는 또한, 실제 변칙 데이터를 보기 위해 사용자 입력을 더 요구하지 않고서 사용자에게 데이터 변칙을 자동으로 디스플레이하는 동작을 포함한다. 이것은 사용자가 데이터 변칙에 도달하고 그것을 보기 위해 모든 데이터 레벨 표시자를 인지하고 이해하도록 요구하지 않기 때문에, 사용자에게로의 데이터 배포를 대폭 감소시킨다.

본 발명의 여러 양태를 구현하기 위한 추가 문맥을 제공하기 위하여, 도 6 및 다음은 본 발명의 여러 양태가 구현될 수 있는 적합한 컴퓨팅 환경(600)에 대한 간단하고 일반적인 설명을 제공한다. 본 발명은 로컬 컴퓨터 및/또는 원격 컴퓨터 상에서 실행하는 컴퓨터 프로그램의 컴퓨터-실행가능 명령어의 일반적 문맥에서 상술되었지만, 본 분야에 숙련된 기술자들은 본 발명이 다른 프로그램 모듈과 조합하 여 구현될 수도 있음을 알 것이다. 일반적으로, 프로그램 모듈로는, 특정 태스크를 수행하고/수행하거나 특정 추상 데이터 타입을 구현하는 루틴, 프로그램, 컴포넌트, 데이터 구조 등이 있다. 또한, 본 분야에 숙련된 기술자는 이 독창적인 방법이 각각 하나 이상의 관련 장치와 동작적으로 통신할 수 있는 단일-프로세서 또는 멀티-프로세서 컴퓨터 시스템, 미니컴퓨터, 메인프레임 컴퓨터 뿐만 아니라, 퍼스널 컴퓨터, 핸드-헬드 컴퓨팅 장치, 마이크로프로세서-기반 및/또는 프로그램가능한 가전기기 등을 포함한 다른 컴퓨터 시스템 구성과 함께 실시될 수 있음을 이해할 것이다. 설명된 본 발명의 양태는 또한, 통신 네트워크를 통해 링크되는 원격 프로세싱 장치에 의해 특정 태스크가 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 그러나, 본 발명의 몇몇(전부는 아님) 양태는 독립형 컴퓨터 상에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 로컬 및/또는 원격 메모리 저장 장치에 위치될 수 있다.

본 명세서에서 사용되는 용어 "컴포넌트"는 컴퓨터-관련 엔티티, 즉, 하드웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어, 또는 실행 중인 소프트웨어를 의미하는 것이다. 예를 들어, 컴포넌트는 프로세서 상에서 실행하는 프로세스, 프로세서, 오브젝트, 실행파일, 실행 스페드, 프로그램 및 컴퓨터일 수 있지만, 이것으로 제한되는 것은 아니다. 예를 들어, 서버 상에서 실행하는 어플리케이션 및/또는 서버는 컴포넌트일 수 있다. 또한, 컴포넌트는 하나 이상의 서브컴포넌트를 포함할 수 있다.

도 6을 참조하면, 본 발명의 여러 양태를 구현하기 위한 예시적인 시스템 환 경(600)은 프로세싱 유닛(604), 시스템 메모리(606), 및 시스템 메모리를 포함한 여러 시스템 컴포넌트를 프로세싱 유닛(604)에 연결시키는 시스템 버스(608)를 포함하는 통상적인 컴퓨터(602)를 포함한다. 프로세싱 유닛(604)은 임의의 상업적으로 이용가능하거나 독점적인 프로세서일 수 있다. 또한, 프로세싱 유닛은 병렬로 접속되는 등, 하나 이상의 프로세서로 형성된 멀티-프로세서로서 구현될 수 있다.

시스템 버스(608)는 메모리 버스 또는 메모리 제어기, 주변장치 버스, 및 PCI, VESA, 마이크로채널, ISA 및 EISA와 같은 다양한 통상적인 버스 아키텍처 중 임의의 것을 사용하는 로컬 버스를 포함하는 여러 유형의 버스 구조 중 임의의 것일 수 있다. 시스템 메모리(606)는 판독 전용 메모리(ROM; 610) 및 랜덤 액세스 메모리(RAM; 612)를 포함한다. 시작 동안 등에서 컴퓨터(602) 내의 구성요소들 간의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(BIOS;614)은 일반적으로 ROM(610)에 저장된다.

컴퓨터(602)는 또한, 예를 들어, 하드 디스크 드라이브(616), 분리형 디스크(620) 등으로부터 판독하거나 그것에 기록하는 자기 디스크 드라이브(618), 및 CD-ROM 디스크(624) 또는 다른 광 매체 등으로부터 판독하거나 그것에 기록하기 위한 광 디스크 드라이브(622)를 포함할 수 있다. 하드 디스크 드라이브(616), 자기 디스크 드라이브(618) 및 광 디스크 드라이브(622)는 각각, 하드 디스크 드라이브 인터페이스(626), 자기 디스크 드라이브 인터페이스(628) 및 광 드라이브 인터페이스(630)에 의해 시스템 버스(608)에 접속된다. 드라이브(616 내지 622) 및 그 관련 컴퓨터-판독가능 매체는 데이터, 데이터 구조, 컴퓨터-실행가능 명령어 등의 비휘 발성 저장장치를 컴퓨터(602)에 제공한다. 상술된 컴퓨터-판독가능 매체에 대한 설명은 하드 디스크, 분리형 자기 디스크 및 CD를 의미하지만, 본 분야에 숙련된 기술자들은, 자기 카세트, 플래시 메모리 카드, 디지털 비디오 디스크, 베르누이 카트리지 등과 같은 컴퓨터에 의해 판독가능한 다른 유형의 매체도 예시적인 오퍼레이팅 환경(600)에서 사용될 수 있고, 또한 임의의 그러한 매체는 본 발명의 방법을 수행하기 위한 컴퓨터-실행가능한 명령어들을 포함할 수 있음을 이해해야 한다.

오퍼레이팅 시스템(632), 하나 이상의 어플리케이션 프로그램(634), 다른 프로그램 모듈(636) 및 프로그램 데이터(638)를 포함한 다수의 프로그램 모듈은 드라이브(616 내지 622) 및 RAM(612)에 저장될 수 있다. 오퍼레이팅 시스템(632)은 임의의 적합한 오퍼레이팅 시스템 또는 오퍼레이팅 시스템들의 조합일 수 있다. 예를 들어, 어플리케이션 프로그램(634)은 본 발명의 양태에 따른 데이터 퍼스펙티브 분석 스킴을 포함할 수 있다.

사용자는 키보드(640) 및 포인팅 장치{예를 들어, 마우스(642)}와 같은 하나 이상의 사용자 입력 장치를 통해 컴퓨터(602)에 명령 및 정보를 입력할 수 있다. 다른 입력 장치(도시되지 않음)로는, 마이크로폰, 조이스틱, 게임 패드, 위성 접시, 무선 원격, 스캐너 등이 있을 수 있다. 이러한 입력 장치 및 다른 입력 장치는 종종, 시스템 버스(608)에 연결되어 있는 직렬 포트 인터페이스(644)를 통해 프로세싱 유닛(604)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus)와 같은 다른 인터페이스에 의해 접속될 수 있다. 모니터(646) 또는 다른 유형의 디스플레이 장치도 비디오 어댑터(648)와 같은 인터페이스를 통해 시스템 버 스(608)에 접속된다. 모니터(646) 외에, 컴퓨터(602)는 스피커, 프린터 등과 같은 다른 주변 출력 장치(도시되지 않음)를 포함할 수 있다.

컴퓨터(602)는 하나 이상의 원격 컴퓨터(660)로의 논리적 접속을 사용하는 네트워크 환경에서 동작할 수 있음을 이해해야 한다. 원격 컴퓨터(660)는 워크스테이션, 서버 컴퓨터, 라우터, 피어 장치 또는 다른 공통 네트워크 노드일 수 있고, 간결함을 위해 도 6에는 메모리 저장 장치(662)만이 도시되지만, 일반적으로는, 컴퓨터(602)에 관련하여 설명된 구성요소들 다수 또는 전부를 포함한다. 도 6에 도시된 논리 접속은 근거리 네트워크(LAN; 664) 및 광역 네트워크(WAN; 666)를 포함할 수 있다. 그러한 네트워킹 환경은 사무실, 기업-규모의 컴퓨터 네트워크, 인트라넷 및 인터넷에서 흔하다.

LAN 네트워킹 환경에서 사용될 때, 예를 들어, 컴퓨터(602)는 네트워크 인터페이스 또는 어댑터(668)를 통해 로컬 네트워크(664)에 접속된다. WAN 네트워킹 환경에서 사용될 때에, 컴퓨터(602)는 일반적으로 모뎀(예를 들어, 전화, DSL, 케이블 등)을 포함하거나, LAN 상의 통신 서버에 접속되거나, 인터넷과 같은 WAN(666)을 통해 통신을 설립하기 위한 다른 수단을 갖는다. 컴퓨터(602)에 대해 내장형 또는 외장형일 수 있는 모뎀(670)은 직렬 포트 인터페이스(644)를 통해 시스템 버스(608)에 접속된다. 네트워크 환경에서, 프로그램 모듈{어플리케이션 프로그램(634) 포함} 및/또는 프로그램 데이터(638)는 원격 메모리 저장 장치(662)에 저장될 수 있다. 도시된 네트워크 접속은 예시적인 것이며, 본 발명의 양태를 수행할 때 컴퓨터들(602 및 660) 간의 통신 링크를 설립하는 다른 수단(예를 들어, 유선 또는 무선)이 사용될 수 있음을 이해할 것이다.

컴퓨터 프로그래밍 분야에 숙련된 기술자들의 실시에 따라, 본 발명은 컴퓨터(602) 또는 원격 컴퓨터(660)와 같은 컴퓨터에 의해 수행되는 액션, 및 연산에 대한 기호 표현을 참조하여 설명되었다. 그러한 액션 및 연산은 때때로 컴퓨터-실행가능한 것으로 지칭된다. 이 액션 및 기호로 표현된 연산은, 전자 신호 표현의 결과적인 변형 또는 축소를 야기하는 데이터 비트를 나타내는 전자 신호의 프로세싱 유닛(604)에 의한 조작, 및 메모리 시스템{시스템 메모리(606), 하드 드라이브(616), 플로피 디스크(620), CD-ROM(624) 및 원격 메모리(662)를 포함함} 내의 메모리 위치에 데이터 비트를 유지하는 것을 포함하여, 컴퓨터 시스템의 연산 뿐만 아니라 다른 신호 처리도 재구성하거나 변경한다. 그러한 데이터 비트가 유지되는 메모리 위치는 데이터 비트에 대응하는 특정 전자, 자기 또는 광 속성을 갖는 물리적 위치이다.

도 7은 본 발명이 상호작용할 수 있는 예시적인 컴퓨팅 환경(700)의 또 다른 블록도이다. 시스템(700)은 하나 이상의 클라이언트(들)(702)를 포함하는 시스템을 도시한다. 클라이언트(들)(702)는 하드웨어 및/또는 소프트웨어(예를 들어, 스레드, 프로세스, 컴퓨팅 장치)일 수 있다. 시스템(700)은 하나 이상의 서버(들)(704)도 포함한다. 서버(들)(704)도 하드웨어 및/또는 소프트웨어(예를 들어, 스레드, 프로세스, 컴퓨팅 장치)일 수 있다. 서버(704)는 예를 들어, 스레드에게 본 발명을 채용함으로써 변형을 수행할 장소를 제공할 수 있다. 클라이언트(702)와 서버(704) 간의 하나의 가능한 통신은 둘 이상의 컴퓨터 프로세스 간에 전송되도록 적응된 데이터 패킷의 형식일 수 있다. 시스템(700)은 클라이언트(들)(702)와 서버(들)(704) 간의 통신을 용이하게 하는 데 이용될 수 있는 통신 프레임워크(708)를 포함한다. 클라이언트(들)(702)는 클라이언트(들)(702)에 로컬인 정보를 저장하는 데 사용될 수 있는 하나 이상의 클라이언트 데이터 저장장치(들)(710)에 동작적으로 접속된다. 마찬가지로, 서버(들)(704)는 서버(704)에 로컬인 정보를 저장하는 데 사용될 수 있는 하나 이상의 서버 데이터 저장장치(들)(706)에 동작적으로 접속된다.

본 발명의 일례에서, 데이터 패킷은 데이터 퍼스펙티브 분석을 용이하게 하는 둘 이상의 컴퓨터 컴포넌트 간에 전송되는데, 이 데이터 패킷은 데이터 튜브로부터의 데이터에 적용된 커브 피팅 프로세스를 적어도 부분적으로 사용하는 데이터 퍼스펙티브 분석 시스템에 관한 정보로 적어도 부분적으로 포함하고, 데이터 튜브는 하나의 데이터 차원만이 변하는 데이터 퍼스펙티브의 적어도 하나의 데이터 셀을 포함하는 데이터 단편을 포함한다.

본 발명의 시스템 및/또는 방법은 컴퓨터 컴포넌트 및 비컴퓨터 관련된 유사-컴포넌트를 용이하게 하기 위한 데이터 퍼스펙티브 분석 스킴에서 사용될 수 있음을 이해해야 한다. 또한, 본 분야에 숙련된 기술자들은 본 발명의 시스템 및/또는 방법이 컴퓨터, 서버 및/또는 핸드헬드 전자 기기등을 포함하는 매우 많은 전자 관련 기술에 사용될 수 있지만 이것으로 제한되는 것은 아님을 인지할 것이다.

상술한 것은 본 발명의 예를 포함한다. 물론, 본 발명을 설명하기 위해 컴포넌트 또는 방법의 모든 가능한 조합을 설명하는 것은 불가능하지만, 본 분야에 통상의 지식을 가진 자는 본 발명의 더 많은 조합 및 변경이 가능하다는 것을 인지할 것이다. 따라서, 본 발명은 첨부된 청구범위의 취지 및 범주 내에 있는 모든 그러한 교체, 수정 및 변화를 포함하는 것으로 의도된다. 또한, "포함한다"라는 용어가 상세한 설명 또는 청구범위에서 사용되는 것을 확대하자면, 그러한 용어는 청구범위 내의 통상적인 단어로서 사용될 때 해석되는 "포함한다"라는 용어와 유사한 방식으로 포괄적인 것으로 의도된다.

본 발명은 변칙 데이터를 자동으로 검출함으로써 데이터 퍼스펙티브의 분석을 용이하게 한다.

Claims

데이터 퍼스펙티브 분석(data perspective analysis)을 용이하게 하는 시스템으로서,

적어도 하나의 데이터 퍼스펙티브를 수신하는 컴포넌트; 및

상기 데이터 퍼스펙티브를 자동으로 분석하여, 데이터 튜브로부터의 연속적 및/또는 이산적 데이터에 적용된 커브 피팅 프로세스를 통해 적어도 하나의 데이터 변칙(data anomaly)을 검출하는 변칙 검출 컴포넌트

를 포함하고,

상기 데이터 튜브는 하나의 데이터 차원만이 변하는 상기 데이터 퍼스펙티브의 적어도 하나의 데이터 셀을 포함하는 데이터 단편(data slice)을 포함하는 시스템.
제1항에 있어서,

상기 커브 피팅 프로세스는 조각 선형 함수(piecewise linear function)를 적어도 부분적으로 사용하는 프로세스를 포함하는 시스템.
제2항에 있어서,

상기 조각 선형 함수는 회귀 트리를 적어도 부분적으로 사용하는 함수를 포함하는 시스템.
제1항에 있어서,

상기 커브 피팅 프로세스는 상기 데이터 퍼스펙티브 내의 값을 예상하기 위한 확률 모델을 적어도 부분적으로 사용하는 프로세스를 포함하고, 상기 확률 모델은 자명하지 않은 방식(non-trivial way)으로 상기 데이터 퍼스펙티브 내의 값의 위치에 의존하는 시스템.
제4항에 있어서,

상기 확률 모델은 자동-회귀 모델을 포함하는 시스템.
제1항에 있어서,

상기 데이터 변칙은 상기 데이터 튜브 내에서 발견된 다른 데이터 값들로부터의 데이터 값의 현저한 편차에 기초한 변칙을 포함하는 시스템.
제6항에 있어서,

상기 현저한 편차는 주어진 임계치를 초과하는 적어도 하나의 편차 스코어에 기초하는 시스템.
제7항에 있어서,

상기 편차 스코어는 데이터 셀을 포함하는 데이터 튜브를 나타내는 조각 선 형 함수로부터 유도된 상기 데이터 셀에 대한 예상 값에 비교된 상기 데이터 셀의 값에 적어도 부분적으로 기초하는 시스템.
제7항에 있어서,

상기 편차 스코어는 상기 데이터 퍼스펙티브 내의 이산 값을 예상하기 위한 확률 모델로부터 유도된 데이터 셀에 대한 예상 값에 비교된 상기 데이터 셀의 값에 적어도 부분적으로 기초하고, 상기 확률 모델은 자명하지 않은 방식으로 상기 데이터 퍼스펙티브 내의 값의 위치에 의존하는 시스템.
제7항에 있어서,

상기 주어진 임계치는 동적 임계치와 정적 임계치를 포함하는 그룹으로부터 선택된 적어도 하나의 임계치를 포함하는 시스템.
제10항에 있어서,

상기 주어진 임계치는 사용자-정의된 임계치와 시스템-정의된 임계치를 포함하는 그룹으로부터 선택된 적어도 하나의 임계치를 포함하는 시스템.
제11항에 있어서,

상이한 유형의 데이터 변칙들과 함께 사용하기 위한 복수의 선택가능한 사용자-정의된 임계치를 제공하는 사용자 인터페이스 컴포넌트를 더 포함하는 시스템.
제1항에 있어서,

상기 데이터 퍼스펙티브는 피벗 테이블과 OLAP(on-line analytical processing) 큐브를 포함하는 그룹으로부터 선택된 적어도 하나를 포함하는 시스템.
제1항에 있어서,

상기 데이터 변칙을 적어도 하나의 사용자에게 표시하는 사용자 인터페이스 컴포넌트를 더 포함하는 시스템.
제14항에 있어서,

상기 사용자 인터페이스 컴포넌트는 가시적 표시와 가청적 표시를 포함하는 그룹으로부터 선택된 적어도 하나의 표시를 통해 상기 데이터 변칙을 표시하는 시스템.
제14항에 있어서,

상기 사용자 인터페이스 컴포넌트는 적어도 하나의 즉각적인 변칙을 하이라이팅하는 것과 적어도 하나의 숨겨진 변칙을 아웃라이닝(outlining)하는 것을 포함하는 그룹으로부터 선택된 적어도 하나를 사용함으로써, 상기 데이터 변칙의 표시를 용이하게 하는 시스템.
제14항에 있어서,

상기 사용자 인터페이스 컴포넌트는 적어도 하나의 데이터 변칙의 정도에 기초하여 표시의 레벨을 조정하기 위한 사용자 입력 제어와의 사용자 인터페이스를 포함하는 시스템.
제14항에 있어서,

상기 사용자 인터페이스 컴포넌트는 적어도 하나의 데이터 변칙에 대한 자동 온-스크린 디스플레이를 통해 상기 데이터 변칙의 표시를 용이하게 하는 시스템.
데이터 퍼스펙티브 분석을 용이하게 하기 위한 방법으로서,

적어도 하나의 데이터 퍼스펙티브를 수신하는 단계;

상기 데이터 퍼스펙티브로부터 데이터 튜브를 설립하는 단계 - 상기 데이터 튜브는 하나의 데이터 차원만이 변하는 상기 데이터 퍼스펙티브의 적어도 하나의 데이터 셀을 포함하는 데이터 단편을 포함함 - ;

상기 데이터 튜브로부터의 연속적 및/또는 이산적 데이터를 나타내는 커브 피팅 함수를 결정하는 단계;

실제 데이터 값과 상기 커브 피팅 함수를 통해 주어진 예상 데이터 값의 차이에 적어도 부분적으로 기초하여 편차 스코어를 계산하는 단계; 및

상기 편차 스코어의 평가와 검출 기준를 통해 데이터 변칙들을 검출하는 단 계

를 포함하는 방법.
제19항에 있어서,

상기 커브 피팅 함수는 사용자-선택가능한 커브 피팅 함수를 포함하는 방법.
제19항에 있어서,

상기 데이터 변칙들을 그 액세스가능성에 따라 분류하는 단계; 및

변칙 액세스가능성 표시자 집합을 사용하여 상기 데이터 변칙들을 사용자에게 디스플레이하는 단계

를 더 포함하는 방법.
제21항에 있어서,

상기 데이터 변칙들을 그 편차 스코어에 기초하여 최고 k개의 변칙으로 제한하는 사용자-선택가능한 데이터 변칙 카운트 k를 사용하여, 사용자에게 디스플레이되는 상기 데이터 변칙들을 제한하는 단계를 더 포함하는 방법.
제21항에 있어서,

사용자에게 적어도 하나의 데이터 변칙을 자동적으로 온-스크린 디스플레이하는 단계를 더 포함하는 방법.
제21항에 있어서,

상기 변칙 액세스가능성 표시자는 온-스크린 표시자, 드릴 다운 표시자(drill down indicator) 및 드릴 어크로스 표시자(drill across indicator)를 포함하는 그룹으로부터 선택된 적어도 하나의 표시자를 포함하는 방법.
제19항에 있어서,

상기 데이터 퍼스펙티브는 피벗 테이블과 OLAP 큐브를 포함하는 그룹으로부터 선택된 적어도 하나를 포함하는 방법.
제19항에 있어서,

상기 검출 기준은 임계치를 포함하는 방법.
제26항에 있어서,

상기 편차 스코어의 평가는 편차 스코어가 상기 임계치를 초과하는지를 결정하는 것을 포함하는 방법.
제26항에 있어서,

상기 임계치는 동적 임계치와 정적 임계치를 포함하는 그룹으로부터 선택된 적어도 하나의 임계치를 포함하는 방법.
제28항에 있어서,

상기 임계치는 사용자-정의된 임계치와 시스템-정의된 임계치를 포함하는 그룹으로부터 선택된 적어도 하나의 임계치를 포함하는 방법.
제29항에 있어서,

상기 사용자-정의된 임계치를 데이터 변칙의 유형에 따라 조정하는 단계를 더 포함하는 방법.
제26항에 있어서,

상기 커브 피팅 프로세스는 조각 선형 함수를 적어도 부분적으로 사용하는 프로세스를 포함하는 방법.
제31항에 있어서,

상기 조각 선형 함수는 회귀 트리를 적어도 부분적으로 사용하는 함수를 포함하는 방법.
제26항에 있어서,

상기 커브 피팅 프로세스는 상기 데이터 퍼스펙티브 내의 이산 값을 예상하기 위한 확률 모델을 적어도 부분적으로 사용하는 프로세스를 포함하고, 상기 확률 모델은 자명하지 않은 방식으로 상기 데이터 퍼스펙티브 내의 값의 위치에 의존하는 방법.
제33항에 있어서,

상기 확률 모델은 자동-회귀 모델을 적어도 부분적으로 사용하는 함수를 포함하는 방법.
데이터 퍼스펙티브 분석을 용이하게 하는 시스템으로서,

적어도 하나의 데이터 퍼스펙티브를 수신하기 위한 수단; 및

상기 데이터 퍼스펙티브를 자동으로 분석하여, 데이터 튜브로부터의 연속적 및/또는 이산적 데이터에 적용된 커브 피팅 프로세스를 통해 적어도 하나의 데이터 변칙을 검출하기 위한 수단

을 포함하고,

상기 데이터 튜브는 하나의 데이터 차원만이 변하는 데이터 퍼스펙티브의 적어도 하나의 데이터 셀을 포함하는 데이터 단편을 포함하는 시스템.
둘 이상의 컴퓨터 컴포넌트 간에 전송되어 데이터 퍼스펙티브 분석을 용이하게 하는 데이터 패킷으로서,

데이터 튜브로부터의 연속적 및/또는 이산적 데이터에 적용된 커브 피팅 프로세스를 적어도 부분적으로 사용하는 데이터 퍼스펙티브 분석 시스템에 관한 정보 를 적어도 부분적으로 포함하고,

상기 데이터 튜브는 하나의 데이터 차원만이 변하는 데이터 퍼스펙티브의 적어도 하나의 데이터 셀을 포함하는 데이터 단편을 포함하는 데이터 패킷.
제1항의 시스템의 컴퓨터 실행가능 컴포넌트들을 저장한 컴퓨터 판독가능 매체.
제19항의 방법을 사용하며, 컴퓨터, 서버 및 핸드헬드 전자 장치를 포함하는 그룹으로부터 선택된 적어도 하나를 포함하는 장치.
제1항의 시스템을 사용하며, 컴퓨터, 서버 및 핸드헬드 전자 장치를 포함하는 그룹으로부터 선택된 적어도 하나를 포함하는 장치.