KR20040029157A - 연관 규칙의 데이터 마이닝을 위한 샘플링 접근법 - Google Patents

연관 규칙의 데이터 마이닝을 위한 샘플링 접근법 Download PDF

Info

Publication number
KR20040029157A
KR20040029157A KR10-2004-7003281A KR20047003281A KR20040029157A KR 20040029157 A KR20040029157 A KR 20040029157A KR 20047003281 A KR20047003281 A KR 20047003281A KR 20040029157 A KR20040029157 A KR 20040029157A
Authority
KR
South Korea
Prior art keywords
sample size
transactions
sample
association rule
rule
Prior art date
Application number
KR10-2004-7003281A
Other languages
English (en)
Inventor
비크만프랑크
그룬드로란드
루돌프안드레스
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR20040029157A publication Critical patent/KR20040029157A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Abstract

본 발명은 복수 N 개의 거래(각 거래는 p 개까지의 상이한 아이템을 포함함)에서 연관 규칙을 결정하기 위한 데이터 마이닝 기술에 대한 것이다. 본 발명에 따르면, 복수 N 개의 거래의 샘플 크기 n은 정확도 요건에 기초하여 결정된다. 샘플 크기 n은 적어도 추정된 샘플 크기 n*정도가 되도록 선택된다. 마지막으로 연관 규칙은 연관 규칙을 복수 N개의 거래에 대한 추정 연관 규칙으로 사용하여 연관 규칙을 마이닝하기 위한 방법에 따라 샘플 크기 n을 지니는 상기 복수 N개의 거래의 샘플에 기초하여 계산된다.

Description

연관 규칙의 데이터 마이닝을 위한 샘플링 접근법{A SAMPLING APPROACH FOR DATA MINING OF ASSOCIATION RULES}
데이터 마이닝(data mining)은 대량의 데이터베이스에서 의미있는 패턴 또는 흥미있는 규칙을 추출하는 것을 목적으로 하는 최근 부각되고 있는 기술 분야이다. 일반적으로 데이터 마이닝 분야는 대량으로 존재하는 데이터로부터 "지식"을 추출하는데 사용되는 모든 방법을 포함한다. 이러한 전과정을 데이터베이스에서의지식 발견(knowledge discovery)이라고 한다. 데이터 마이닝 방법에서 개발하여야 할 하나의 작업은 연관 규칙을 탐사하는 것이다.
연관 규칙 마이닝은 Agrawal 등에 의해서 도입(예컨대, 1994년 9월 20차 VLDB 학회에서 R. Agrawal와 R. Srikant 등에 의한 "Fast algorithms for mining association rules" 참조)되었고, 쇼핑 바구니 분석에 의해 촉진되었다. 가게에서 구입된 물건 또는 아이템을 탐사하여 규칙이 생성된다. 보다 일반적인 연관 규칙이 데이터베이스에서 거래 기록(record)의 속성값(attribute value)들 사이의 의존성을 발견하는데 사용될 수 있다. 보다 구체적인 바구니 데이터는 일반적으로 거래(transaction) 날짜와 고객이 구입한 아이템들을 지니는 고객별 거래 기록으로 구성된다. 그러한 데이터베이스에 대한 연관 규칙의 예는 빵과 우유를 구입한 고객이 다시 계란을 구입하는 경우가 고객의 80% 정도가 될 수 있다는 것이다. 연관 규칙을 탐사하기 위한 데이터 마이닝 작업은 2 단계로 구분될 수 있다. 첫번째 단계는 사용자-고유의 빈도수, 즉최소 지지도(minimum support)가 데이터 베이스에서 발생하는 아이템들의 집합, 즉아이템집합(itemsets)를 모두 탐사하는 단계로 구성된다. 이러한 아이템집합들을대형 아이템집합(large itemsets)라고 한다. k 아이템을 지니는 아이템집합을k-아이템집합(k-itemset)라고 한다. 두번째 단계는 첫번째 단계에서 탐사된 대형 아이템집합들 사이에서 함축 규칙(implication rules)을 형성하는 단계로 구성된다.
효과적으로 연관 규칙을 생성하기 위한 여러 알고리즘이 개발되었다. 예컨대 전술한 문헌에 Agrawal 등에 의하여 잘 알려지고 매우 성공적인 APRIORI 알고리즘이 개시되어 있다. 연관 규칙을 판단함에 있어서 가장 중요한 값은 하나의 규칙에서 하나의 아이템 또는 여러 아이템이 발생하는 상대적인 빈도수를 나타내는 값인지지도 값(support value)이다.
대용량의 데이터베이스(다수의 엔트리와 수백만개의 거래 기록 및 그 이상)의 경우, 현재 생성되는 연관 규칙은 시간을 아주 많이 소비한다. 연관 규칙의 데이터 마이닝을 위하여 제안된 많은 알고리즘은 공통적으로 발생하는 아이템집합(또는 아이템들의 집합)를 결정하기 위하여 데이터베이스를 반복적으로 패스하도록 만들어졌다. 대용량의 데이터베이스에 있어서, 데이터베이스를 스캐닝하는데 필요한 I/O 오버헤드는 상당히 고가일 수 있다. 처리 시간은 마이닝 알고리즘 자체를 실행하는데 필요한 시간만 있는 것이 아니다. 전처리(preprocessing) 단계에서도 많은 시간이 소비되는 것이다. 이것은 데이터를 도입하는데 필요한 처리 시간과 알고리즘을 적용하기 위하여 데이터를 변환하는데 필요한 처리 시간도 포함한다. 이러한 준비를 위하여 고가의 CPU를 탑재한 장치, 예컨대 대형 MVS-시스템인 경우에도 여러 시간이 걸릴 수 있다.
이러한 성능식을 개선하기 위하여, 연관 규칙을 생성하기 위한 전체 데이터베이스를 취하는 대신, 샘플 하나를 추출하고 그것을 기초로 연관 규칙을 생성하는 방법이 제안되었다. 이것은 1996년 인도 봄베이에서 열린 제22차 VLDB 학회에서 H. Toivonen에 의해서 발표된 "Sampling Large Databases for Association Rules"와, 1996년 로체스터 대학 컴퓨터과학부의 기술 보고서 제617호에서 Zaki, M. J.와 Parthasarathy, S.와 Li, W.와 Ogihara, M.의 "Evalution of Sampling for Data Mining of Association Rules"에서 도입되었다.
Toivonen 등은 "정확한" (몇가지 샘플에 기초한 것이 아닌) 연관 규칙을 검출하기 위한 알고리즘에 대해서 설명하였다. 위 기술에서 샘플링은 알고리즘의 일단계로 규칙의 지지도 값을 미리 계산하기 위한 것으로만 사용되었고, Toivonen 등은 몇가지 샘플에 기초해서 "추정(estimated)" [근사(approximate)] 연관 규칙의 데이터 마이닝을 한다는 아이디어에 대해서는 완전히 침묵하고 있다. Toivonen 등은 또한 샘플 크기의 필요 경계에 대해서 개시하였다. 단일 변수 접근법을 사용하여 임의의 연관 규칙에 대한 지지도 값이 추정되었다. Toivonen 등은 2항 분포를 사용하고 체르노프 경계(Chernoff bound)를 적용하여 진정한 지지도 값과 추정된 지지도 값 사이의 오차가 소정의 한계치를 넘을 확률을 계산하였다. 이것으로 그들은 충분한 샘플 크기에 대한 식을 유도하였다.
Zaki 등은 이러한 아이디어를 채택하여 샘플링에서 생성된 근사 연관 규칙에 대한 이 경계들을 공표하였다. 이 경계들은 또한 체르노프 경계를 포함하여 Toivonen 등에 의해서 제안된 단일 변수 접근법(univariate approach)을 사용하여 계산되었다. 그러나, 연구 조사에 의해서 이 경계들이 매우 비효율적이라는 것이 판명되었다. 왜냐하면 필요 샘플 크기가 매우 클 수 있기 때문이다. Zaki 등에서 설명하고 있는 바와 같이, 필요 샘플 크기가 원래 데이터베이스의 크기 보다 훨씬 커져 버릴 수 있다(!). 따라서 현재 기술 상태는 전혀 만족스럽지 않은 데다가 실제 문제에 실제로 적용될 수도 없다.
따라서, 샘플에 기초한 연관 규칙의 데이터 마이닝에 대한 접근법은 원칙적으로 전처리 단계와 분석 과정의 처리 시간을 절약할 수 있는 것이어야 한다. 그러나, 생성된 연관 규칙의 정확도에 대한 기본 문제가 발생한다. 만약 샘플이 적당하게 선택된다면, 이러한 접근법에 의해서 나타나는 오차를 추정하는 것이 가능할 것이다. 이들 오차는 충분히 큰 샘플 크기를 계산함으로써 제어될 수 있다. 그러나 현재 기술로서는 합당한 샘플 크기를 결정하는 방법이 전혀 나와 있지 않다.
본 발명은 일반적으로 대량의 데이터베이스에서 아이템들 사이의 상관 관계 또는 연관 규칙(association rules)을 찾아내기 위한 방법, 시스템 및 프로그램 제품에 관한 것이다.
도 1은 p=2일 때 신뢰 타원의 실시예를 나타낸다.
도 2는 p=3일 때 신뢰 타원의 실시예를 나타낸다.
도 3은 다중 변수의 경우 연관 규칙의 샘플링에 대한 처리 흐름도이다. 이 처리 흐름도는 또한 다른 추가의 문제 없이 단일 변수 모델에 적용될 수 있다.
도 4는 연관 규칙의 마이닝에 대한 분포 처리 모델을 도시한다.
본 발명은 연관 규칙의 데이터 마이닝 기술의 성능을 개선하는 것을 목적으로 한다.
본 발명의 목적은 본 발명의 독립 청구항에 기재된 구성에 의해서 달성된다. 본 발명의 다른 효과적인 구성 및 실시예는 종속 청구항에 개시된다.
본 발명은 각 거래가 p 개의 다른 아이템까지 포함하는 복수 N 개의 거래에서 연관 규칙을 결정하기 위한 데이터 마이닝 기술에 관한 것이다.
본 발명에 따르면, 복수 N 개의 거래에서 샘플 크기 n은 정확도 요건 (precision requirements)에 따라 결정된다. 샘플 크기 n은 적어도 추정된 샘플의 크기 n*정도가 되도록 선택된다.
결과적으로 복수 N개의 거래에서 추정 연관 규칙으로 연관 규칙을 사용하는 연관 규칙의 마이닝 방법에 따라 샘플 크기 n을 지니는 복수 N개의 거래 샘플에 기초하여 연관 규칙이 계산된다.
본 발명의 모든 실시예의 기초가 되는 중요한 컨셉은 만약 복수의 거래를 특징짓는 추가의 파라미터가 샘플 크기 결정에 도입된다면, 훨씬 작은 샘플 크기가 결정될 수 있고, 그것이 동시에 필요한 정확도 요건을 만족시킬 수 있다는 것이 관찰되었다는 것이다. 이것은 복수의 거래 특성이 사용되지 않는 당해 기술 지식(예컨대 상기한 체르노프 경계)과는 뚜렷한 대조를 보인다. 본 발명은 이러한 특징적인 성질(characterizing properties)을 가지고, 크기 N의 복수 거래 또는 거래당 p 개의 다른 아이템의 발생하는 경우에 적용할 것을 제안한다. 이들 특징적인 성질을 포함하는 샘플 크기에 대한 식이 한번 결정되었다고 하더라도 다시 이들 특징적인성질을 제거하기 위하여 추가적인 근사 기술이 적용될 수 있음은 당연하다. 이들 추가적인 근사법에 기초한 샘플 크기 조차도 당해 기술 분야의 모든 추정법을 뛰어넘는 현저한 개선을 보여준다.
실시예로부터 자명한 바와 같이, 본 발명에 따라 결정된 샘플 크기는 원래 거래들의 수 보다 훨씬 작고 당해 기술 분야의 접근법에 따른 샘플 크기 보다 훨씬 작다. 따라서, 본 발명에 따른 기술은 연관 규칙의 데이터 마이닝에 대하여 상당한 성능 개선을 가져올 것이다.
본 발명의 바람직한 실시예가 도면과 상세한 설명에 개시되어 있다. 비록 구체적인 용어가 사용되었으나, 그것은 일반적인 설명적인 의미로 사용한 것 뿐이고, 그것이 본 발명을 제한하지 않는다. 그러나, 첨부하는 청구항에 개시된 발명의 기술적 사상 및 범위로부터 벗어남 없이 다양한 변형 및 수정이 가능함은 자명하다.
본 발명은 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 달성될 수 있다. 본 명세서에 개시된 방법을 수행하는데 적합한 장치라면 어떤 종류의 컴퓨터 시스템도 적당하다. 하드웨어와 소프트웨어의 전형적인 결합은 컴퓨터 프로그램이 로딩되고 실행될 때 본 명세서에 개시된 방법이 수행되도록 컴퓨터 시스템을 제어하는 일반적인 목적의 컴퓨터 시스템이 될 수 있다. 본 발명은 또한 본 명세서에 개시된 방법을 실행시킬 수 있고, 컴퓨터 시스템에 로딩되었을 때 이 방법을 수행할 수 있는 모든 구성을 포함하는 컴퓨터 프로그램 제품에 내장될 수 있다.
본 발명의 컴퓨터 프로그램 수단 또는 컴퓨터 프로그램은 시스템이 정보 처리 기능을 직접 수행하거나 a) 다른 언어, 코드 또는 기호로 변환하는 기능, b) 다른 자료 형태로 재생되는 기능 중 어느 하나 또는 이 2 가지 기능을 모두 완료한 후에 정보 처리 기능을 수행하기 위한 정보 처리 능력을 지니도록 의도된 명령어 집합인 임의의 언어, 코드 또는 기호로 표현될 수 있다.
본 명세서에서 거래 기록 또는 단기 거래는 단지 아이템 터플(tuple)을 말하지만, 그러한 기록이 임의의 컴퓨터 거래의 일부가 되어야 하는 것은 아니다. 거래 기록의 워딩은 단지 이력적인(historical) 이유에 사용되기 위한 것이다. 또한 아이템은 실거래에서 아이템에 관하여 반드시 필요한 건 아닌 종류의 속성으로 표현될 수 있다.
개요
데이터 마이닝 분야에서 소위 연관 규칙은 대개 아주 큰 데이터 집합에서 미지의 관계 또는 규칙을 찾아내는 방법이다. 이러한 방법은 아래 절차로 구성된다. 하나의 아이템 집합이 있다고 하자. 이들 아이템은 수퍼마켓 바구니 데이터의 구입물품이 될 수 있다. 이 아이템 집합의 부분 집합은 예컨대 맥주와 포테이토칩으로 구성된 하나의 거래로 구성되거나, 빵과 버터로 구성된 다른 거래로 구성될 수 있다. 아이템들의 집합은 아이템집합이라고도 불린다. 따라서 모든 거래는 하나의 아이템 집합을 포함한다.
복수 N 개의 거래에 대한 바구니 데이터에서 연관 규칙을 마이닝하는 문제를 공식화하면 아래와 같다.
I={i 1 , i 2 ,...,i 3 }가아이템들(items)이라고 하는 p 개의 개별적인 속성값의 집합이라고 하자. 거래들(즉, 복수 N 개의 거래)의 데이터베이스 D에서 각 거래 T는 고유 식별자 TID를 지니고, T⊆I 인 아이템들의 집합을 포함한다.연관 규칙(association rules)은 A⇒B로 표현되고,아이템집합(itensets)A; B ⊆ I이고, A∩B=φ이다. 각 아이템집합은 데이터베이스 D에서 거래들의 s%가 그 아이템집합을 포함할 때,지지도(support)s를 지닌다고 한다. (따라서, 지지도 측정은 상대적인 빈도수를 나타낸다.) 연관 규칙은 거래의 c%가 A도 포함하고 B도 포함할 때신뢰도(confidence)c를 지닌다고 한다. 즉, c=지지도(A∪B)/지지도(A)이고, 이것은 아이템집합 A를 포함하는 소정의 거래에서 아이템집합 B를 포함하는 거래가 일어날 조건부 확률을 말한다. 예컨대, 빵과 우유를 구매한 고객이 계란을 구매할 확률이 80%라고 할 수 있다. 숫자 80%는 규칙의 신뢰도이고, 규칙의 지지도는 지지도(A∪B)이다. 이러한 데이터베이스로부터 연관 규칙을 데이터 마이닝하는 것은 사용자-고유의 최소 신뢰도와 지지도 값을 충족하는 규칙 모두의 집합을 탐사하는 것으로 구성된다.
연관 규칙의 데이터 마이닝 작업은 아래 2 개의 단계로 나누어진다.
1. 모든 대형의 k-아이템집합들 (k=1; 2; ...)을 탐사한다.
2. 이들대형(large)아이템집합으로부터 규칙을 생성한다. X가 공집합이 아닌 부분 집합 A에 대하여 A⊂X 인 대형 k-아이템집합이라고 가정하면, A⇒B 형태의 규칙이 생성되고, 여기에서 B=X-A이고, 필요 신뢰도를 지니는 규칙이 제공된다.
위에 언급한 모든 측정이 고려해야할 모든 거래들의 집합을 기초로 결정된다는 점을 주의해야 한다.
성능 개선을 위하여 모든 거래 집합에서 샘플을 잘 선택함으로써 이들 원하는 측정값들을 추정할 수 있다는 관점에서 생각할 수 있다. 샘플링 이론 언어에서 모든 거래들의 집합은 모집단(population)에 대응하고, 그것의 특성(즉, 상대적인 빈도수 또는 다른 측정값)이 잘 선택된 샘플에 의해서 측정되어야 하는 것이다. 이러한 샘플에 제한되어 모집단에서 이들 사건이 발생할 상대적인 빈도수에 대하여 원하는 사건의 상대적인 빈도수를 추정기(estimator)로 하여 계산할 수 있다.
그리고, 이제는 아래 문제를 풀어야 한다.
1. 데이터베이스의 가능한 크기에 의해서 발생할 수 있는 가능한 시스템 바이어스(bias: 참값과 측정값의 차이)가 가능한 한 크게 제거될 수 있도록 어떻게 샘플을 선택할 것인가?
2. 가장 중요한 문제 : 추정기(본 발명의 경우 상대적인 빈도수)가 원하는 정확도를 보장하도록 어떻게 샘플 크기를 선택할 것인가?
3. 추정기의 정확도를 어떻게 이해할 것인가?
첫번째 문제는 가능한 시스템 에러를 제거하는 것을 목적으로 한다. 예컨대, 데이터베이스에서 예컨대 모든 n번째 기록을 선택 가능한가라는 것과, 심각한 시스템 에러를 선정하는 것에 관한 문제이다.
두번째 문제는 전체 모집단에서 얼마나 많은 거래를 취할 것인가, 즉 샘플 크기에 대한 점을 다룬 것이다. 직관적으로 이 문제는 샘플로 인하여 달성될 수 있는 정확도에 관한 문제와 관련되어 있음을 명백히 알 수 있다. 이것은 100개의 거래에 대한 샘플이 10000개의 거래에 대한 샘플보다 추정기로서의 정확도가 훨씬 떨어지는 것을 의미한다.
세번째 문제는 아래와 같다. 모든 거래가 1,000,000 개의 거래를 포함하는 집합이라고 가정하자. 우연히 100 개의 거래에 대한 샘플을 취한 경우, 전체 모집단에 대한 아이템 A의 상대적인 빈도수에 대한 추정기로 아이템 (소위) A의 상대적인 빈도수를 계산할 수 있다. 다시 우연히 100 개의 거래에 대한 두번째 샘플을 취한 경우, 다시 추정기로 이 두번째 샘플에 기초하여 아이템 A의 상대적인 빈도수를 계산할 수 있다. 그러나, 이 2 개의 빈도수 계산의 결과는 다를 것이다. 이 절차를 수백번 반복한다면, 그렇게 계산된 빈도수는 전체 모집단에 대한 아이템 A의 상대적인 빈도수 값 주위에서 산재하게 될 것이다.
샘플링 방법
가장 잘 알려진 샘플링 방법 중 하나는 베르누이(Bernoulli) 샘플링이라고 불리는 것이다. 이것은 데이터가 순차적인 파일 또는 데이터베이스로 주어지고, 기록에 예컨대 1에서 N까지 번호가 부여될 수 있고, 이 순서를 따라 데이터베이스가 탐색될 수 있다고 가정한다. 모든 원소가 선택될 수 있는 확률을 π라고 하면, 이 샘플링 방법은 아래와 같이 동작한다. 랜덤한 실험에서 i-번째 원소가 선택될 확률이 π이다. 이것은 구간 (0, 1)에서 랜덤 넘버를 생성하는 방법으로 수행될 수 있고, 고려된 램덤 넘버가 π보다 작으면 i-번째 원소를 채택하고, 그렇지 않으면 버린다.
편집자 주 : 선형 조화 랜덤 넘버 생성기(linear congruent random number generator)의 경우 생성기의 주기를 충분히 크게 하는 것이 대단히 중요하다. 이것은 예컨대 주기 5인 경우 구간 (0, 1)에서 5번의 랜덤 넘버 후에 다시 넘버가 반복되고, 그것은 당연히 그다지 예민하지 않다. 경험적으로 주기 L과 모집단의 수 N은 아래 식을 충족시킬 것이 요구된다.
이러한 샘플링 방법으로 인하여 샘플 크기는 고정된 수가 아니고, 확률 이론에 따라 통계학적 파라미터인 기대값 E 와 변화량 Var 이 아래 관계에 따라 변화하는 값이다.
그리고
또한, 소정의 신뢰도 레벨 (1-α)에서 α가 샘플 크기 n에서 오차가 발생할특정한 확률일 때 신뢰도 구간은 아래와 같이 계산될 수 있다.
여기에서는 표준 정규 분포 N(0, 1)-소정의 확률 α의 분포에 대한 백분율수이다. 소정의 확률 α에서 백분율수는 단위 정규 분포 랜덤 변수(축약해서 N(0, 1))에 의한 확률에 의해서 초과되는 값이다. 따라서,
여기에서 X(N(0, 1)-분포된 랜덤 변수로서)의 밀도 d는 아래와 같다.
i-번째 원소가 샘플에 포함되어야 할 확률는 아래와 같다.
이것은 모든 원소에 대하여 이 확률이 일정하고 전술한 확률 π와 같다는 것을 의미한다.
i-번째 원소와 j-번째 원소가 모두 샘플에 동시에 들어갈 포함 확률 πij와 같다.
샘플링 방법의 큰 장점은 컴퓨터에서 용이하게 실행될 수 있다는 사실이다. 단점은 샘플 크기가 더 이상 고정된 양이 될 수 없고 랜덤 변수가 된다는 사실이다.
이미 샘플 크기의 고정량에 대해서 관심이 있다고 하더라도, 소위 간단한 랜덤 샘플링을 사용해야 한다. 샘플 크기 n에 들어가야 할 모든 관찰에 대하여 포함 확률이 일정한 것에 대한 부가적인 샘플링 방법이 있다.
여기서 n 은 샘플 크기이고, N 은 모집단 크기이다.
i-번째 원소와 j-번째 원소가 모두 샘플에 동시에 들어갈 포함 확률 πij은 아래와 같다.
이 샘플링 방법은 아래와 같이 실현될 수 있다. ε1, ε2, ...는 구간 [0, 1]에서 균일하게 분포되는 독립적인 랜덤 변수라고 가정한다.
1.이면 원소 k=1을 채택하고, 그렇지 않으면 채택하지 않는다.
2. 다음 원소들 k=2, 3, ... 에 대해서 nk가 전체 모집단의 첫번째 k-1 원소들이 이미 채택된 원소의 수라고 가정한다. k-번째 랜덤 넘버 εk의 경우,
를 만족하면 k-번째 원소를 채택하고, 그렇지 않으면 채택하지 않는다.
3. nk=k 일 때 절차를 종료한다.
이러한 샘플링 방법의 단점은 이미 선택된 원소의 수를 남겨두어야 한다는사실이다. 반면, 이것은 샘플링 절차가 원하는 수의 원소들로 종료한다는 장점이 있다.
연관 규칙의 데이터 마이닝에 대한 샘플링 접근법
전체 모집단 대신 샘플에 기초한 연관 규칙을 계산하기 위한 방법에 대해서 설명한다. 거래 전체 모집단의 추정 연관 규칙으로 이들 연관 규칙을 사용하는 것이 제안된다. 연관 규칙의 마이닝에 대한 실제 방법이 샘플에 제한될 수 있게 됨에 따라 상당한 성능 발전이 달성된다.
본 발명의 중요한 특징은 샘플 크기를 결정함과 동시에 정확도 요건을 충족하는 기술이라는 것이다. 위에 이미 설명한 바와 같이 현재 당해 기술 분야의 기술과는 대조적으로 본 발명의 기본적인 개념은 만약 복수의 거래를 특징짓는 추가의 파라미터가 샘플 크기 결정에 도입될 수 있다면, 훨씬 작은 크기를 지니는 동시에 정확도 요건을 충족하는 샘플이 결정될 수 있다는 것을 발견한 것이다. 본 발명의 실시예에서, 그러한 특징짓는 성질로서 복수의 거래의 크기 N을 사용할 것이 제안된다. 본 발명의 다른 실시예에서 거래 내에서 발생하는 다른 아이템 p의 수는 특징짓는 성질로 사용된다. 물론, 일단 이러한 특징짓는 성질을 포함하는 이들 샘플 크기에 대한 공식이 결정되어도 추가적인 근사 기술이 이들 특징짓는 성질을 다시 제거하기 위하여 적용될 수 있다. 이러한 추가적인 근사에 기초한 샘플 크기조차 모든 당해 기술 분야의 기술 추정법을 뛰어넘는 상당한 개선을 보여준다. 다시 말하면, 복수의 거래를 특징짓는 추가의 파라미터를 고려함으로써 더 작은 샘플 크기를 달성하는 것에 따른 현저한 효과가 추가적인 근사로 이들 파라미터가 다시 제거된 후에도 상실되지 않는다는 것이다.
당해 기술 분야의 현재 기술에 따라 계산된 추정(예컨대 지지도 값에 대한 추정)은 단지 단일 변수 분석에 기초해서 수행된다. 단일 변수 분석은 오직 하나의 값이 추정된다는 것을 의미한다. 이와는 대조적으로 본 발명의 실시예에서는 다중 변수 예측 분석을 적용하는 완전히 새로운 접근법을 제안한다. 다중 변수 분석은 벡터가 추정 분석을 수행하는 것을 의미하고, 벡터의 각 성분이 추정기이고, 모든 성분이 동시에(simultaneously) 추정된다. 예컨대 지지도 값에 대해서 이러한 접근법을 지니는 아이디어는 단일 아이템 모두의 지지도 값을 동시에 특정한 정확도로 추정하는 샘플 크기를 지녀야 한다. 제안된 다중 변수 접근법은 신뢰도 타원에 기초하여 필요한 샘플 크기를 결정하고, 여러 장점을 갖는다. 이 방법에 숨은 기본적인 아이디어는 아이템당 오직 하나의 지지도 값이 측정될 뿐만 아니라 모든 지지도 값이 동시에 측정된다는 것이다. 만약 이러한 지지도 값의 벡터가 실제 존재하는 지지도 값 벡터와 충분히 가깝다면, 데이터의 구조는 또한 샘플 내에서 유효할 것이고, 그에 따라 규칙이 양호한 정확도를 지니게 될 것이다. 다시 말하면, 샘플은 모집단과 동일한 구조를 포함하고, 그에 따라 동일한 규칙을 포함한다.
다중 변수 분석에 기초한 위 실시예는 Zaki 등 또는 Toivonen 등의 기술에서는 나타나 있지 않다.
이제 기록을 가능한 한 랜덤하게 선택할 수 있도록 데이터베이스에서 기록들을 선택하는 방법에 대해서 설명한다.
단일 변수 모델 (Univariate Model)
기본 개념은 임의의 규칙 R에 대한 지지도 값이 상대적인 빈도수로 보일 수 있다는 것이다. 이 값은 아래와 같이 추정기에 의해서 근사적으로 측정된다.
전체 데이터베이스가 N 개의 순차적인 원소(각 원소는 기록에 의해서 표현됨)로 구성된다고 가정한다. 각 원소에 대하여 원소가 규칙을 지지할 때, 즉 규칙을 만족하는 아이템(들)이 기록에 나타날 때는 1이고, 규칙이 원소에 의해서 지지되지 않을 때는 0인 2진 속성값을 구성할 수 있다. 이들 2진 속성값의 평균값은 지지도 값(p로 표시됨)이다. 이 지지도 값에 대하여 비-바이어스 추정기(추정기의 기대값이 추정되어야 할 파라미터와 동일한 경우의 추정기)를 교체하지 않고 샘플을 추출하면 샘플에서 모든 원소에 대해서 측정된 2진 속성값의 평균(이 평균값은로 나타냄)이 된다. 또한, 지지도 값에 대한 신뢰 구간이 구성될 수 있다. 신뢰 구간 뒤에 숨은 아이디어는 다음과 같다. 샘플로부터 추출되는 추정기는 참값을 추정할 것이다. 이것은 추정기가 매번 동일한 값을 취하지 않을 것임을 의미한다. 그러나, 많은 수의 샘플을 추출하여 추정기를 게산한다면, 이들 값은 참값 주변에서 분포하게 될 것이다. 이제 소정의 확률 1-α를 지니는 구간에서 참값을 알 수 있도록 계산된 추정기 주변에서 구간을 찾는 것을 시도한다. 본 샘플 방법과 추정기 종류에 따르면, 신뢰 구간을 형성하기 위하여 아래 도출된 식을 사용할 수 있다.
여기에서은 추정기이고,는 표준 정규 분포에 대한 백분율수이고,N 은 전체 모집단의 크기이고, n 은 샘플 크기이다.
소정의 확률 α와 백분율수는 단위 정규 분포된 랜덤 변수(N(0, 1)로 축약됨)에 의해서 확률을 초과하는 값이다. 따라서
이고, 여기에서 X(N(0, 1)-분포 랜덤 변수)의 밀도 d는
이다.
이것은 하나의 규칙에 대해서 위 구간을 계산한다면 이 구간에 의해서 참값이 발견될 확률이 1-α가 되는 것을 보장할 수 있다는 것을 의미한다. 이 식은 이 구간 길이가 샘플 크기에 의해서 제어될 수 있다는 것을 나타낸다. 신뢰 구간의 최대 길이가 주어졌을 때 샘플 크기가 클수록 샘플 크기를 계산하는데 사용될 수 있는 신뢰 구간이 더 작아질 것이다.
문제는 위 식을 직접적으로 사용할 수 없다는 것이다. 왜냐하면, 샘플이 추출되기 전에 값가 알려져 있지 않기 때문이다. 따라서, 아래 식에서 두번째 항의 합을 교체할 필요가 있다. (차이는 제1 식에서의의 추정 변화량과 제2 식에서의 참 변화량 (18)을 고려하는 것이다.)
신뢰 구간을 결정하는 데는 2가지 가능성이 있다. 하나는상대적인 오차값(relative error)을 주는 것이고, 다른 하나는절대적인 오차값(absolute error)을 주는 것이다. 이 두가지 가능성은 아래와 같다.
사용자는 최대 근사 오차가 참값으로부터 팩터 δ가 되어야 하고, 결국 상대적인 오차값이 되어야 한다고 설명한다. 아래 공지의 식을 사용하여 샘플 크기를 계산할 수 있다.
(식 1)
이 식에서 문제는 우리가 참값을 알아야 할 필요가 있다는 것이다. 이 값이 소정의 한계치 Minsup을 초과하고 함수가 p 에서 감소하는 것을 확인함으로써, 우리는 아래 식을 사용하여 최소 샘플 크기에 대한 경계를 결정할 수 있다.
(식 2)
아래 보기는 식의 사용을 나타낸다.
4,000,000 개의 기록에 대한 데이터베이스를 가정하자. 특정된 Minsup 값이 0,01 이고, 규칙 R에 대한 추정기는 90%의 확률을 지니고 참값과 1% 이상 차이가 나면 안된다. 그러면 크기 1,415,204 원소의 샘플을 추출할 필요가 있게 된다.
Zaki는 샘플 크기 n으로부터 도출된 추정값이 참값 p 로부터 (1-δ) 정도 작거나 (1+δ) 정도 큰 것(이는 상대 오차가 p로부터 팩터 δ만큼 작거나 큰 것을 의미함)을 추정하기 위하여 아래 식을 사용할 것을 제안한다.
Zaki는 위 식에서 우변을 소정의 오차 확률 α와 비교함으로써 필요한 샘플 크기를 도출하였고, 그 식은 아래와 같다.
(하한선)
(상한선)
Zaki는 우리가 위에서 한 것과 같이 닫힌 신뢰 구간을 고려하지 않는다. 그는 단지 나중에 취급하게 된 열린 구간에 대한 확률을 설명할 뿐이다. 이 점에서 우리는 우리의 접근법이 더 작은 샘플을 취하더라도 더 높은 정확도를 갖도록 해줄 것이다. 우리의 접근법이 Zaki의 접근법보다 우수하다는 것을 보여주기 위하여 다시 샘플 크기의 계산을 고려한다. 우리는 샘플 크기에 대한 근사 공식(식 1)을 구할 수 있다.
이것은 Zaki의 하한선 공식(Zaki에 따른 최소 샘플 크기를 구함)과 비교될 것이다.
2개의 식은 동일한 분모를 지니고 있기 때문에,를 보여주는데 충분하다.
실습으로 일반적으로 값 0.1, 0.05 및 0.01이 α에 대하여 선택된다. 아래표는 위에 말한 값 α에 대한 -2ln(α)와의 값이다.
α -2ln(α)
0.1 4.606 2.701
0.05 5.996 3.842
0.01 9.21 6.635
따라서, 계산값에서 -2ln(α)는 항상보다 크고, 이로부터 우리는 위 소정의 부등식이 이들 값을 유지한다고 결론을 내릴 수 있다.
샘플 크기를 계산하는 다른 가능성은 추정기와 참값 사이에서 절대 오차 d를 특정하는 것과 관련된다. 절대 오차 측정 d에 기초하여 아래 식이 도출된다.
(식 3)
이 식은 다시 진정한 파라미터 p에 대한 지식을 필요로 한다. 그러나, 분석은 계산된 식이 p=0.5일 때 최대값을 지님을 보여준다. 따라서, 샘플 크기를 계산하는 하나의 가능성은 p=0.5인 경우와 관련이 있고, 결과적으로 샘플 크기는 아래와 같다.
(식 4)
아래 보기는 모집단을 설명한다. 모집단 크기가 7,000,000 이고, 신뢰 레벨이 99%이고, 절대 오차가 0.01 이라고 가정하면, 우리는 샘플 크기 16,551을 얻을 수 있고 이것은 당해 기술 분야에서 상당한 개선을 가져오는 것이다.
Toivonen 등은 주어진 절대 오차 d와 오차 확률 α에서 아래의 샘플 크기를 취할 것을 제안한다.
위에 설명한 바와 같이 우리는 우리의 접근법이 더 작은 샘플 크기를 산출한다는 것을 보여줄 수 있다. 다시 우리는 근사 공식
을 사용하면
을 증명하는데 충분하다.
0≤p≤1에 대하여 p(1-p)≤0.25 임을 주목하면, 이것은 아래 식을 충족한다.
위에 설명한 바와 같이 우리는 이 부등식이 적어도 공통값 α에 대하여 유지된다는 것을 보여준다.
α
0.1 5.991 2.701
0.05 7.370 3.842
0.01 10.597 6.635
이것으로 우리의 접근법이 Toivonen 등의 것보다 샘플 크기가 더 작은 것을 산출한다는 것을 보여준다.
이제 필요한 샘플 크기를 계산하는데 적용될 수 있는 다른 결과를 설명한다. 만약 우리가 위의 신뢰 구간을 고려한다면, 발생할 수 있는 오차가 2 가지 종류가 있다. 하나는 진정한 지지도 값이 계산된 상한선보다 크다는 것이고, 다른 하나는 진정한 지지도 값이 계산된 하한선보다 작다는 것이다. 실제 환경에서 한쪽에만 경계가 지워지는 참값에 대한 신뢰 구간을 지닐 필요가 있는 상황이 있다. (Zaki 등의 경우와 비교)
만약 확률 α만을 지니는 참값에 의해서 초과되는 경계를 구하는 것만을 원한다면, 아래 신뢰 구간을 사용할 수 있다.
이것은 규칙의 참값이 상한선보다 크지 않을 것을 보장할 수 있다는 것을 의미한다. 이것은 만약 Minsup 한계치보다 큰 지지도 값을 지니는 규칙이 샘플에 이러한 특징을 포함하고 있지 않는 오차를 제어할 경우 중요할 수 있다. 예컨대 Minsup 값이 주어지고 샘플 규칙의 지지도 값이 위에 말한 Minsup 값보다 작은 상한선을 지니는 신뢰 구간을 산출하는 경우를 상정하자. 그러면 이 규칙이 Minsup 보다 큰 모집단에서 진정한 지지도 값을 지니게 될 확률이 α보다 작아지게 된다.
관심있는 다른 경우는 아래 식의 하한선만을 지니는 신뢰 구간을 사용하는 것이다.
이 신뢰 구간은 진정한 지지도 값이 하한선보다 작은 오차가 오차 확률 α보다 작을 경우에만 관심이 있을 때 사용될 수 있다. 이것은 규칙이 Minsup 한계치보다 큰 지지도 값을 지니는 반면 참값이 이 한계치보다 작아지도록 오차를 제어할 경우가 될 수 있다. 예컨대, 샘플에서 규칙은 대응하는 신뢰 구간의 하한선이 Minsup 한계치보다 크고 참값이 최대 α의 오차 확률만에 경계가 지워지는 값보다 작아지도록 지지도 값을 지니게 된다.
위 2개의 식에서 우리는 위에 설명한 것과 동일한 방법으로 샘플 크기를 도출할 수 있다. 식에서 변화하는 유일한 것은으로 대체된다는 것이다.
따라서, 참값의 δ의 상대 오차가 주어질 때 한쪽으로 경계가 지워진 신뢰 구간에 대한 샘플 크기는 아래와 같다.
(식 5)
위 식의 p를 Minsup으로 대체하면 아래의 식이 된다.
(식 6)
절대 오차가 주어졌을 때 샘플 크기를 계산하기 위하여 아래 식을 사용할 수 있다.
(식 7)
여기에서 p가 n에 대해서 최대값이 되도록 0.5로 선택되면 결과적으로 아래 식이 된다.
(식 8)
이 식들에 의해서 얻어진 샘플 크기는 대응하는 닫힌 신뢰 구간으로 계산된 샘플 크기보다 작다. 후자의 샘플 크기가 Zaki 등과 Toivonen 등에 의해서 제안된 샘플 크기보다 더 작다는 것이 증명되었기 때문에 본 발명의 샘플 크기가 그렇게 된다.
다중 변수 모델 (Multivariate Model)
앞에서 우리는 규칙의 지원을 가리키는 아이템 또는 아이템 집합의 지지도 값을 추정하기 위한 신뢰 구간을 사용하는 방법을 보여주었다. 위에 설명한 바와 같이, 신뢰 레벨 (1-α)을 지니는 신뢰 구간의 의미는 전체 모집단에 대한 아이템 A의 상대 빈도수 전체 샘플의 (1-α)×100 퍼센트가 대응하는 신뢰 구간에 의해서 커버되는 것을 의미한다.
이 생각을 일반화(p 개의 아이템을동시에(simultaneously)고려함)하는 작업은 신뢰 레벨 (1-α)에서 소위신뢰 타원(confidence ellipsoid)을 구성하는 것으로 형성된다. p 크기의 신뢰 타원은 참값이 특정한 확률 (1-α)를 지니고 이 영역에서 포괄되도록 형성된 p 크기의 영역이라고 정의한다.
p=2 인 경우, 이러한 타원은 타원이 된다. 도 1은 p=2인 경우의 신뢰 타원의예를 도시한다. p=3 아이템인 경우 신뢰 타원의 예는 도 2에 도시되었다.
한편, 폭(면적 또는 부피 각각)은 정확하게 측정된 값이다. 따라서 특정한 정확도를 요구한다면, 폭(면적 또는 부피 각각)이 소정의 경계(소정의 신뢰 레벨)를 초과하지 않도록 샘플 크기를 선택해야 한다.
하나의 아이템을동시에(simultaneously)지지하는 것을 추정하기 위하여, 모든 거래를 2진 벡터로 변환할 필요가 있다. 그러면 그 벡터의 모든 성분이 아이템에 대응한다. 값 1은 고려하는 아이템이 고려하는 거래에 존재하는 것을 의미하고, 값 0은 아이템이 존재하지 않는 것을 의미한다. 2진 벡터의 크기가 모든 가능한 단일 아이템의 수 p에 의해서 암시된다는 점을 주의해야 한다.
이제 아래 표시하는 p-차원 벡터를 지니는 모집단로부터 샘플을 취하는 경우를 가정한다.
여기에서 i=1,...,N 이고, 추가로 다음 식을 얻을 수 있다.
k=1,...,p인 경우
이고,
k≠1,...,p인 경우
이다.
샘플에서 벡터는 yi로 표시될 것이고, 우리는 샘플에서 대응하는 양을 취하게 된다. Y는 y에 의해서 대체되고, N은 n에 의해서 대체되는데, 아래 식으로 표시되는 샘플의 공분산 매트릭스(covariance matrix)는 예외이다.
여기에서는 샘플에 기초한 공분산에 대응하는 추정기이다.
이러한 표시들을 가지고 간단한 랜덤 샘플에 대하여 아래 이론을 증명할 수 있다.
이론 1 :
의 비-바이어스 추정기이다.
의 공분산 매트릭스이다.
의 비-바이어스 추정기이다.
부가적으로 우리는 추정기에 대한 중앙 제한 이론을 설명할 수 있다.
이론 2 :
간단한 랜덤 샘플링의 상황이 아래와 같다고 가정한다.
인 경우,이면이다.
I v ={1,...,N v }라고 가정하면,
이고,
iI v 인 경우,
이고,
i=1,...,n v 인 경우
이다.
모든 τ>0 이고, k=1, ..., p 인 경우
이고, 모든 k=1, ..., p 인 경우
이다.
k-번째와 나머지 p-1 변수들 사이의 다중 상관 관계 계수는
이다.
에 대한 공분산 매트릭스를 말한다.
그러면, 아래와 같은 분포량의 컨버전스를 구할 수 있다.
이는 N(0, Idp)-분포에 대하여 아래 조건과 등가이다.
여기에서 p-차원 N(0, Idp)-분포 랜덤 변수 Y는 아래와 같은 밀도-함수 f를 구할 수 있다.
(y도 p-차원임을 주의)
이 이론은 벡터에 대한 적어도 근사 신뢰 타원을 구성할 가능성을 열어준다.
우리가 다중 변수 요건(공지 기술과 대조적이고, 앞에서 설명한 개선이 주어짐)에 관심을 갖기 때문에, 우리는 이제 신뢰 타원과 그들의 구성에 대해서 설명하겠다.
관찰이 독립적인 즉, 역이 존재하는 기대 벡터 μ0와 공분산 매트릭스 Σ를 지니는 독립적인 다중 변수 정규-분포 p-차원 벡터인 제1 상황을 고려해보자.
이제 샘플 크기 n에 기초하여 미지의 기대 벡터 μ0에 대한 소정의 신뢰 타원을 구성하는 경우를 가정하자. 타원은 아래와 같다.
여기에서 ((x-))는 아래의 식으로 주어진다.
그리고은 주어진 확률이 α가 되게 하는 값
이고,
Y는 p의 자유도를 지니는x 2-분포를 지닌다. 즉 밀도 함수는
이다.
여기에서 Γ는 아래의 감마-함수를 나타낸다.
따라서,는 p의 자유도를 지니는x 2-분포의 백분율수이다.
이것은 만약 데이터가 다중 변수 정규-분포된다면, 양이 p의 자유도를 지니는x 2-분포라는 사실 때문이다.
공분산 매트릭스 Σ가 미지인 경우, 이 매트릭스는 데이터로부터 추정되어야 한다. Σ에 대한 가능한 추정기는 아래 식과 같다.
따라서 대응하는 신뢰 타원은 아래와 같다.
여기에서 이제이 주어진 확률 α에서 다음의 값을 나타낸다.
여기에서 Y는 m1(=p)이고 m2(=n-p) 의 자유도를 지니는F-분포 함수를 지닌다. 즉 밀도 함수는 아래와 같다.
여기에서 Γ는 감마-함수를 나타낸다.
데이터가 다중 변수 정규-분포인 조건을 충족하지 않고, 대신 기대 벡터의 추정기에 대한 중앙 제한 이론이 유지되는 경우, 위에 주어진 신뢰 타원은 오직 근사적으로만 유효하다. 그러한 근사에 기초하여 아래 대체가 도입될 수 있다.
벡터에 의한 기대 벡터.
추정기에 의한 기대 벡터에 대한 추정기 ((x-))
각각 추정기 s에 대한 공분산 매트릭스에 의한 각각 추정기 S에 대한 공분산 매트릭스 Σ
만약 우리가 중앙 제한 이론이 유지된다고 가정하면, 주어진 신뢰 타원은 표시된 대로 유지될 것이다. 따라서 우리는 타원에 대하여 아래 타원을 얻을 수 있다.
그리고 ks
이다.
아래 식을 주의하면,
아래와 같은 근사 신뢰 타원이 제공된다.
필요한 샘플 크기를 결정하기 위하여 우리는 소정의 신뢰 레벨과 신뢰 타원의 소정의 최대 부피를 고정시킨다. p-차원 타원의 부피는 아래와 같다.
여기에서 hk(k=1,...p)는 타원의 반축을 나타내고, const(p)는 차원 p에 의존하는 상수이다.
최대 허용 신뢰 타원 V*을 정의하면 아래와 같다.
이 식으로부터 우리는 샘플 크기에 필요한 n을 얻을 수 있다.
필요 샘플 크기에 대한 위 식과 관련하여 아래 2가지 문제가 있다.
a. 상수 const(p)가 차원 p에 의존한다.
b. 공분산 매트릭스의 a-우선 추정을 필요로 한다.
이들 문제를 풀기 위하여 아래를 제안할 수 있다. 블록 변길이 2dk(k=1,...p)에 의한 반축 dk(k=1,...p)를 지니는 신뢰 타원을 포위한다.
따라서, 부피에 대하여 블록에 의해 포위되는 최대 타원은 아래 부피를 지닌다.
이 식으로부터 아래와 같이 필요 샘플 크기 n을 도출할 수 있다.
(식 9)
여기에서은 공분산 매트릭스 s의 k-번째 대각선 원소이다.
아래 관계식에서의 양을 정의하면
(식 10)
필요 샘플 크기는 상대적인 정확도항으로 주어지고, 그것은 반축의 길이가 표준 편차의 일부임을 의미한다.
따라서 필요 샘플 크기는의 항으로 표현될 수 있다.
(식 11)
필요 샘플 크기n *로 대응하는 신뢰 타원은 변 길이 2d k ( )인 타원에 의해서 포위될 것이다.
소정의 상대 정확도 ε과 동일한 모든를 선택하면, 아래와 같은 필요 샘플 크기를 얻을 수 있다.
(식 12)
이것은 특히 p가 아주 큰 경우에 개업자들을 위한 식으로 기능할 수 있다.
마지막으로 아래 문제를 다룰 것이다. 전체 모집단로부터 샘플을 취한다는 사실 때문에, 우리는 사용자에 의해서 선택된 소정의 최소 지지도 값을 지니는 지지에 대한 추정만을 비교할 수 있다. 따라서, 우리는 랜덤 변동으로 인하여 소정의 최소 지지도 값 이하의 확률 만을 지니는 추정기를 지닐 수 있다는 문제에 직면한다. 이것은 고려되어야 할 아이템 또는 변수에 관련된 상황이 얼마나 심각한지를 통계학적으로 측정하는 것에 관심을 가져야 한다. 통계학적인 관점으로부터 이것은 우리가 다음에 다루게 될 동시 신뢰 구간의 이론으로 우리를 이끌 것이다.
이러한 구간은 아래와 같은 구성 신뢰 타원으로부터 얻을 수 있다.
양의 유한 p×p-매트릭스로 가정한 임의의와 A에 대하여 다음 식을 얻을 수 있다.
위 표현을 기초로 우리는 타원 K에 대하여 아래 식을 얻을 수 있다.
따라서, 우리는 구간의 곱으로 주어지는 p-차원 블록에 직접 K를 넣을 수 있다.
여기에서 v는 k-번째 단위 벡터이다. (k=1,...,p)
이들 구간 모두는 동시 신뢰 구간으로 표시된다. 성분식으로 표시하면에 대한 구간을 얻을 수 있다.
(식 13)
연관 규칙의 샘플링 처리 흐름
도 3은 앞장에서 개요를 설명한 다중 변수 경우에 연관 규칙을 샘플링하는 절차 흐름을 시각화한 것이다. 이 절차 흐름은 또한 단일 변수 모델에도 적용될 수 있고 다른 추가의 문제가 발생하지 않는다.
단계(310)에서 연관 규칙의 데이터 마이닝이 거래 기록(경로(302)를 따라 선택)의 완전한 다중 방식에 기초하여 또는 샘플(경로(303)을 따라 선택)에 기초하여 수행되어야 하는지를 결정한다. 경로(302)가 선택된 경우, 연관 규칙의 데이터 마이닝 방법은 단계(304) 다음의 단계(305)으로 넘어가고 계산된 연관 규칙을 시각화한다.
만약 연관 규칙이 경로(303)을 취함으로써 샘플에 기초하여 계산된다면, 첫번째 샘플 크기는 단계(306) 내에서 결정되어야 한다. 한가지 접근법은 샘플 크기를 직접적으로 특정하는 것이 될 것이다. 다른 접근법은 샘플 크기를 계산하는 단계가 될 것이다. 다중 변수 접근법에서 샘플 크기는 아래를 기초로 계산될 것이다.
a. 복수의 거래를 보다 잘 특징짓는 파라미터로 다중 거래 내에서 발생하는 서로 다른 아이템 p 개
b. 아래를 포함하는 근사의 품질에 대한 정확도 요건
b1. 샘플에 기초한 추정에 대한 신뢰 (1-α)
b2. 개별적인 아이템에 대한 상대적인 정확도 요건 εk또는 (식 10)에 따른 모든 아이템에 대한 공통의 정확도 요건 ε. 몇 아이템이 다른 것들 보다 더 높은 정확도를 가지고 추정될 필요가 있다면, 개별적인 아이템에 대한 상대적인 정확도 요건을 특정하기 위한 접근법이 선택되어야 한다.
이들 특정화에 기초하여 추정된 샘플 크기는 근사식인 (식 11) 및 (식 12)에 따라 단계(307) 내에서 계산될 것이다. 이 추정된 샘플 크기는 직접적으로 샘플 크기로 사용될 수 있거나, 방침으로만 사용될 것이다. 후자의 경우 최종 샘플 크기는 적어도 추정된 샘플 크기 정도로 선택되어야 할 것이다.
복수의 기록과 계산된 샘플 크기에 기초하여 최종 샘플 크기는 단계(308)에서 랜덤 샘플링을 통하여 추출될 것이다.
입력으로 이러한 샘플을 사용하여 연관 규칙의 데이터 마이닝에 대한 당해 기술 분야의 방법은 단계(304)에 적용되어 추정된 연관 규칙을 결정하고 이어서 단게(305)에서 추정된 연관 규칙을 시각화한다.
단계(306)가 또한 필요한 최소 지지도 값의 특정을 포함한다면, 이후 단계(305)에서 고려되는 연관 규칙이 관심이 있는 것인지 또는 아닌지를 결정하게 된다. 이것을 위하여 (식 13) 내에서 계산된 동시 신뢰 구간이 연구된다. 아래 결정 절차가 적용될 것이다.
1. (식 13)에 따른 신뢰 구간이 완전히 이 최소 지지도 값의 좌변에 있는 경우(즉, 이 구간의 상한선이 최소 지지도 값보다 작은 경우), 고려되는 아이템은 관심이 있는 것이 아니다. 왜냐하면, 이 지원의 추정기가 최소 지지도 값 이하이기 때문이다.
2. 고려되는 아이템에 대한 (식 13)에 따른 신뢰 구간이 최소 지지도 값을 포함하거나 완전히 우변에 있다면, 아이템은 관심있는 것이다. 왜냐하면, 그 지지도 값의 추정기가 최소 지지도 값 이상이기 때문이다. (그 지지도 값이 미리 정해진 최소 지지도 값과 같거나 그보다 큰 경우 아이템을 관심 있는 것으로 정의한 것을 기억하기 바람)
이들 신뢰 구간의 구성으로 인하여, 공통의 신뢰도 (1-α)를 지니는 모든 관심 있는 규칙을 구하는 것을 보장할 수 있다.
애플리케이션
다중 거래 기록을 구성하는 데이터가 대량이고, 연관 규칙을 계산하는데 매우 긴 시간이 요구되었기 때문에, 당해 기술 분야에서는, 연관 규칙을 계산하는 컴퓨터 시스템은 복수의 거래 기록을 저장하는 컴퓨터 시스템과 동일할 것이 요구되었다. 본 발명이 데이터의 양을 감소시킬 수 있음에 따라, 실제 마이닝 기술이 거래 기록의 매우 적은 샘플(전체 다중 거래 기록에 비하면 매우 작음)에 적용되고, 인터넷과 같은 통신 네트워크에 의해서 접속되는 클라이언트 컴퓨터 및 서버 컴퓨터를 포함하는 새로운 분포 처리 모델이 제안된다.
도 4는 연관 규칙의 마이닝에 대한 분포 처리 모델이다.
도 4 내에서 클라이언트 컴퓨터(401)가 연관 규칙을 결정하는 것을 제어하는 것이 도시되어 있다. 클라이언트는 복수의 N 개의 거래 기록(402)을 저장한다. 클라이언트 컴퓨터는 샘플 크기 n을 지니는 복수 N 개의 거래로부터 샘플(404)을 추출한다. (단계 403) 샘플 크기는 앞에 설명한 접근법 중 임의의 것으로 결정될 수 있다.
통신 네트워크를 사용하여, 샘플은 연관 규칙을 마이닝하는 특정한 서비스를 제공하는 서버 컴퓨터(406)로 전송된다. 단계(407)에서 연관 규칙은 제공된 샘플에 기초하여 계산되고, 통신 네트워크를 따라 클라이언트 컴퓨터로 복귀된다. 이제 분석을 위한 시간이 작기 때문에(작은 샘플 크기에만 의존), 결과적인 근사 규칙을 매우 신속하게 복귀시키는 것이 가능하다.
결국 이들 규칙은 단계(408)에서 클라이언트 시스템에서 부가의 작업을 위하여 분석될 것이다.
서버 시스템에서 연관 규칙을 마이닝하기 위하여 제공된 서비스의 범위에 따라, 2 가지 다른 실시예가 가능하다. 즉, 클라이언트 컴퓨터 자체가 샘플 크기를결정하거나, 서버 컴퓨터가 샘플 크기를 결정하는 책임을 가지는 것이다. 어느 경우건 샘플 크기를 결정하기 위하여 본 명세서에서 개시된 기술이 이용된다.

Claims (15)

  1. 복수 N 개의 거래(각 거래는 p 개까지의 상이한 아이템을 포함함)에서 연관 규칙을 결정하기 위한 컴퓨터화된 데이터 마이닝 방법에 있어서,
    상기 방법은 상기 복수 N 개의 거래 샘플 크기 n을 결정하는 제1 단계를 포함하고,
    상기 샘플 크기 n은 정확도 요건에 기초하여 결정되고,
    상기 샘플 크기 n은 정확도 요건을 달성하기 위한 다중 변수 추정 분석에 기초하여 결정되고,
    상기 방법은 상기 연관 규칙을 상기 복수 N 개의 거래에 대한 추정 연관 규칙으로 사용하여 연관 규칙을 마이닝하기 위한 방법에 따라 샘플 크기 n을 지니는 상기 복수 N 개의 거래의 샘플에 기초하여 연관 규칙을 계산하기 위한 제2 단계
    를 포함하는 것인 연관 규칙을 결정하기 위한 컴퓨터화된 데이터 마이닝 방법.
  2. 제1항에 있어서,
    상기 정확도 요건은
    샘플에 기초한 추정에 대한 신뢰 (1-α)와,
    샘플의 아이템 k에 대한 상대적인 정확도(상기 상대적인 정확도는 상기 복수 N개의 거래와 비교되는 샘플의 아이템 k의 지지도 값의 허용 가능한 편차를 정의하고, 상기 상대적인 정확도는 아이템 k의 지지도 값의 표준 편차에 대해 측정됨)를 포함하고,
    상기 샘플 크기 n은 적어도 아래 추정된 샘플 크기 n*정도이고,
    여기에서은 p의 자유도를 지니는x 2-분포의 백분율수이고,
    상기 p 는 복수 N 개의 거래를 특징짓기 위한 서로 다른 아이템의 수인 것인 연관 규칙을 결정하기 위한 컴퓨터화된 데이터 마이닝 방법.
  3. 제2항에 있어서,
    상기 상대적인 정확도= ε이 모든 아이템 k에 대해서 동일하고,
    상기 샘플 크기 n은 적어도 아래 추정된 샘플 크기 n*정도이고,
    인 것인 연관 규칙을 결정하기 위한 컴퓨터화된 데이터 마이닝 방법.
  4. 복수 N 개의 거래(각 거래는 p 개까지의 상이한 아이템을 포함함) 내에서 연관 규칙을 결정하기 위하여 컴퓨터화된 데이터 마이닝 방법에 있어서,
    상기 방법은 상기 복수 N 개의 거래의 샘플 크기 n을 결정하는 제1 단계를포함하고,
    상기 샘플 크기 n은 연관 규칙에 대한 정확도 요건에 기초하여 결정되고,
    상기 정확도 요건은 샘플에 기초한 추정에 대한 신뢰 (1-α)를 포함하고,
    상기 정확도 요건은 상기 복수 N 개의 거래와 비교되는 샘플에서 특정한 규칙의 지지도 값의 허용 가능한 편차를 정의하는 상대적인 정확도 δ를 포함하고, 상기 상대적인 정확도 δ는 상기 특정한 규칙의 지지도 값에 대하여 상대적으로 측정되고,
    상기 정확도 요건은 기대 지지도 값에 대한 하한선 p를 포함하고,
    상기 샘플 크기 n은 적어도 아래 추정된 샘플 크기 n*정도이고,
    여기에서 ((u))는 표준 정규 분포의 백분율수이고,
    상기 방법은 상기 연관 규칙을 상기 복수 N 개의 거래에 대한 추정 연관 규칙으로 사용하여 연관 규칙을 마이닝하기 위한 방법에 따라 샘플 크기 n을 지니는 상기 복수 N 개의 거래의 샘플에 기초하여 연관 규칙을 계산하기 위한 제2 단계
    를 포함하는 것인 연관 규칙을 결정하기 위한 컴퓨터화된 데이터 마이닝 방법.
  5. 복수 N 개의 거래(각 거래는 p 개까지의 상이한 아이템을 포함함) 내에서 연관 규칙을 결정하기 위하여 컴퓨터화된 데이터 마이닝 방법에 있어서,
    상기 방법은 상기 복수 N 개의 거래의 샘플 크기 n을 결정하는 제1 단계를 포함하고,
    상기 샘플 크기 n은 연관 규칙에 대한 정확도 요건에 기초하여 결정되고,
    상기 정확도 요건은 샘플에 기초한 추정에 대한 신뢰 (1-α)를 포함하고,
    상기 정확도 요건은 상기 복수 N 개의 거래와 비교되는 샘플의 특정한 규칙의 지지도 값의 허용 가능한 양 또는 음의 편차를 정의하는 상대적인 정확도 δ를 포함하고, 상기 상대적인 정확도 δ는 상기 특정한 규칙의 지지도 값에 대하여 상대적으로 측정되고,
    상기 정확도 요건은 기대 지지도 값에 대한 하한선 p를 포함하고,
    상기 샘플 크기 n은 적어도 아래 추정된 샘플 크기 n*정도이고,
    여기에서 μ1-α는 표준 정규 분포의 백분율수이고,
    상기 방법은 상기 연관 규칙을 상기 복수 N 개의 거래에 대한 추정 연관 규칙으로 사용하여 연관 규칙을 마이닝하기 위한 방법에 따라 샘플 크기 n을 지니는 상기 복수 N 개의 거래의 샘플에 기초하여 연관 규칙을 계산하기 위한 제2 단계
    를 포함하는 것인 연관 규칙을 결정하기 위한 컴퓨터화된 데이터 마이닝 방법.
  6. 제4항 또는 제5항에 있어서,
    기대 지지도 값에 대한 상기 하한선 p는 연관 규칙을 마이닝하기 위한 상기 방법에 의해서 사용된 최소 지지도 값 p=Minsup인 것인 연관 규칙을 결정하기 위한 컴퓨터화된 데이터 마이닝 방법.
  7. 복수 N 개의 거래(각 거래는 p 개까지의 상이한 아이템을 포함함)에서 연관 규칙을 결정하기 위한 컴퓨터화된 데이터 마이닝 방법에 있어서,
    상기 방법은 상기 복수 N 개의 거래의 샘플 크기 n을 결정하는 제1 단계를 포함하고,
    상기 샘플 크기 n은 연관 규칙에 대한 정확도 요건에 기초하여 결정되고,
    상기 정확도 요건은 샘플에 기초한 추정에 대한 신뢰 (1-α)를 포함하고,
    상기 정확도 요건은 상기 복수 N 개의 거래와 비교되는 샘플의 특정한 규칙의 지지도 값의 허용 가능한 편차를 정의하는 절대적인 정확도 d를 포함하고,
    상기 정확도 요건은 기대 지지도 값에 대한 하한선 p를 포함하고,
    상기 샘플 크기 n은 적어도 아래 추정된 샘플 크기 n*정도이고,
    여기에서는 표준 정규 분포의 백분율수이고,
    상기 방법은 상기 연관 규칙을 상기 복수 N개의 거래에 대한 추정 연관 규칙으로 사용하여 연관 규칙을 마이닝하기 위한 방법에 따라 샘플 크기 n을 지니는 상기 복수 N개의 거래의 샘플에 기초하여 연관 규칙을 계산하기 위한 제2 단계
    를 포함하는 것인 연관 규칙을 결정하기 위한 컴퓨터화된 데이터 마이닝 방법.
  8. 복수 N 개의 거래(각 거래는 p 개까지의 상이한 아이템을 포함함)에서 연관 규칙을 결정하기 위한 컴퓨터화된 데이터 마이닝 방법에 있어서,
    상기 방법은 상기 복수 N 개의 거래의 샘플 크기 n을 결정하는 제1 단계를 포함하고,
    상기 샘플 크기 n은 연관 규칙에 대한 정확도 요건에 기초하여 결정되고,
    상기 정확도 요건은 샘플에 기초한 추정에 대한 신뢰 (1-α)를 포함하고,
    상기 정확도 요건은 상기 복수 N 개의 거래와 비교되는 샘플의 특정한 규칙의 지지도 값의 허용 가능한 양 또는 음의 편차를 정의하는 절대적인 정확도 d를 포함하고,
    상기 정확도 요건은 기대 지지도 값에 대한 하한선 p를 포함하고,
    상기 샘플 크기 n은 적어도 아래 추정된 샘플 크기 n*정도이고,
    여기에서 μ1-α는 표준 정규 분포의 백분율수이고,
    상기 방법은 상기 연관 규칙을 상기 복수 N개의 거래에 대한 추정 연관 규칙으로 사용하여 연관 규칙을 마이닝하기 위한 방법에 따라 샘플 크기 n을 지니는 상기 복수 N개의 거래의 샘플에 기초하여 연관 규칙을 계산하기 위한 제2 단계
    를 포함하는 것인 연관 규칙을 결정하기 위한 컴퓨터화된 데이터 마이닝 방법.
  9. 제7항 또는 제8항에 있어서,
    기대 지지도 값에 대한 상기 상한선 p는 p=0.5인 것인 연관 규칙을 결정하기 위한 컴퓨터화된 데이터 마이닝 방법.
  10. 제1항, 제4항, 제5항, 제7항 또는 제8항 중 어느 한 항에 있어서,
    상기 연관 규칙을 마이닝하기 위한 규칙은 APRIORI 방법인 것인 연관 규칙을 결정하기 위한 컴퓨터화된 데이터 마이닝 방법.
  11. 제1항, 제4항, 제5항, 제7항 또는 제8항 중 어느 한 항에 있어서,
    상기 샘플은 랜덤 샘플링에 의해서 추출되는 것인 연관 규칙을 결정하기 위한 컴퓨터화된 데이터 마이닝 방법.
  12. 복수 N 개의 거래(각 거래는 p개까지의 상이한 아이템을 포함함)에서 연관 규칙의 결정을 제어하기 위한 클라이언트 컴퓨터에 있어서, 상기 클라이언트 컴퓨터는,
    복수 N 개의 거래로부터 샘플 크기 n을 지니는 샘플을 적어도 청구항 제1항 내지 제 11항 중 어느 한 항에 따른 방법으로 결정된 추정된 샘플 크기 n*정도로 추출하고,
    연관 규칙을 결정하기 위하여 상기 샘플을 서버 컴퓨터로 전송하고,
    상기 연관 규칙을 상기 복수 N 개의 거래로부터 추정된 연관 규칙으로 사용하여 상기 서버 컴퓨터로부터 상기 결정된 연관 규칙을 수신하는 것인
    연관 규칙의 결정을 제어하기 위한 클라이언트 컴퓨터.
  13. 제12항에 있어서,
    상기 클라이언트 컴퓨터는 상기 추정된 샘플 크기 n*을 결정하고,
    상기 서버 컴퓨터는 상기 클라이언트 컴퓨터 시스템을 위하여 상기 추정된 샘플 크기 n*을 결정하는 것인
    연관 규칙의 결정을 제어하기 위한 클라이언트 컴퓨터.
  14. 제1항 내지 제11항에 따른 방법을 수행하기 위한 소프트웨어 코드 부분을 포함하고, 컴퓨터 동작시 데이터 처리 시스템에서 실행되기 위한 데이터 처리 프로그램.
  15. 제1항 내지 제11항에 따른 방법을 컴퓨터 동작시 컴퓨터에서 수행하기 위한 컴퓨터로 판독 가능 프로그램 수단을 포함하고, 컴퓨터에서 사용 가능한 매체상에 저장된 컴퓨터 프로그램 제품.
KR10-2004-7003281A 2001-09-04 2002-07-26 연관 규칙의 데이터 마이닝을 위한 샘플링 접근법 KR20040029157A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP01121122.4 2001-09-04
EP01121122 2001-09-04
PCT/EP2002/008335 WO2003021477A2 (en) 2001-09-04 2002-07-26 A sampling approach for data mining of association rules

Publications (1)

Publication Number Publication Date
KR20040029157A true KR20040029157A (ko) 2004-04-03

Family

ID=8178526

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2004-7003281A KR20040029157A (ko) 2001-09-04 2002-07-26 연관 규칙의 데이터 마이닝을 위한 샘플링 접근법

Country Status (7)

Country Link
US (2) US7289984B2 (ko)
JP (1) JP2005502130A (ko)
KR (1) KR20040029157A (ko)
CN (1) CN1578955A (ko)
CA (1) CA2459758A1 (ko)
IL (1) IL160731A0 (ko)
WO (1) WO2003021477A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190045651A (ko) * 2017-10-24 2019-05-03 강원대학교산학협력단 데이터 스트림 환경에서 균일신뢰도를 지원하는 가변 크기 샘플링 방법

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100500329B1 (ko) * 2001-10-18 2005-07-11 주식회사 핸디소프트 워크플로우 마이닝 시스템 및 방법
US7680685B2 (en) * 2004-06-05 2010-03-16 Sap Ag System and method for modeling affinity and cannibalization in customer buying decisions
CN101145030B (zh) * 2006-09-13 2011-01-12 新鼎系统股份有限公司 增加变量数量、获得其余的变量、维度鉴识与变量筛选的方法及系统
AU2008310577A1 (en) * 2007-10-12 2009-04-16 Patientslikeme, Inc. Self-improving method of using online communities to predict health-related outcomes
CN101149751B (zh) * 2007-10-29 2012-06-06 浙江大学 用于分析中医方剂药物组配规律的泛化关联规则挖掘方法
CN101453360B (zh) * 2007-12-06 2011-08-31 中国移动通信集团公司 获取关联对象信息的方法及设备
US8170974B2 (en) * 2008-07-07 2012-05-01 Yahoo! Inc. Forecasting association rules across user engagement levels
WO2010126577A1 (en) 2009-04-30 2010-11-04 Patientslikeme, Inc. Systems and methods for encouragement of data submission in online communities
CN101655857B (zh) * 2009-09-18 2013-05-08 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法
US8812543B2 (en) * 2011-03-31 2014-08-19 Infosys Limited Methods and systems for mining association rules
CN102195899B (zh) * 2011-05-30 2014-05-07 中国人民解放军总参谋部第五十四研究所 通信网络的信息挖掘方法与系统
CN102999496A (zh) * 2011-09-09 2013-03-27 北京百度网讯科技有限公司 建立需求分析模板的方法、搜索需求识别的方法及装置
US9110969B2 (en) * 2012-07-25 2015-08-18 Sap Se Association acceleration for transaction databases
CN102930372A (zh) * 2012-09-25 2013-02-13 浙江图讯科技有限公司 一种用于面向工矿企业安全生产云服务平台系统的关联规则的数据分析方法
US8977587B2 (en) 2013-01-03 2015-03-10 International Business Machines Corporation Sampling transactions from multi-level log file records
CN103678540A (zh) * 2013-11-30 2014-03-26 武汉传神信息技术有限公司 一种对翻译需求的深度挖掘方法
CN104182527B (zh) * 2014-08-27 2017-07-18 广西财经学院 基于偏序项集的中英文本词间关联规则挖掘方法及其系统
US10037361B2 (en) * 2015-07-07 2018-07-31 Sap Se Frequent item-set mining based on item absence
US20180005120A1 (en) * 2016-06-30 2018-01-04 Futurewei Technologies, Inc. Data mining interest generator
CN106156316A (zh) * 2016-07-04 2016-11-23 长江大学 一种大数据环境下的特殊人名与籍贯关联方法及系统
CN108805755B (zh) * 2018-07-04 2021-11-23 浪潮卓数大数据产业发展有限公司 一种旅游套餐生成方法及装置
US11894139B1 (en) 2018-12-03 2024-02-06 Patientslikeme Llc Disease spectrum classification
CN109858805B (zh) * 2019-01-29 2022-12-16 浙江力嘉电子科技有限公司 基于区间估计的农户垃圾采收数量计算方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4132614A (en) * 1977-10-26 1979-01-02 International Business Machines Corporation Etching by sputtering from an intermetallic target to form negative metallic ions which produce etching of a juxtaposed substrate
US5229300A (en) * 1991-02-19 1993-07-20 The Dow Chemical Company Membrane method for the determination of an organic acid
US5272910A (en) * 1992-05-13 1993-12-28 The Regents Of The University Of California Vadose zone monitoring system having wick layer enhancement
US6134555A (en) * 1997-03-10 2000-10-17 International Business Machines Corporation Dimension reduction using association rules for data mining application
US6032146A (en) * 1997-10-21 2000-02-29 International Business Machines Corporation Dimension reduction for data mining application
US6189005B1 (en) * 1998-08-21 2001-02-13 International Business Machines Corporation System and method for mining surprising temporal patterns
US6260038B1 (en) * 1999-09-13 2001-07-10 International Businemss Machines Corporation Clustering mixed attribute patterns
US6865509B1 (en) * 2000-03-10 2005-03-08 Smiths Detection - Pasadena, Inc. System for providing control to an industrial process using one or more multidimensional variables
WO2002003256A1 (en) * 2000-07-05 2002-01-10 Camo, Inc. Method and system for the dynamic analysis of data
US6905827B2 (en) * 2001-06-08 2005-06-14 Expression Diagnostics, Inc. Methods and compositions for diagnosing or monitoring auto immune and chronic inflammatory diseases

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190045651A (ko) * 2017-10-24 2019-05-03 강원대학교산학협력단 데이터 스트림 환경에서 균일신뢰도를 지원하는 가변 크기 샘플링 방법

Also Published As

Publication number Publication date
JP2005502130A (ja) 2005-01-20
US20050027663A1 (en) 2005-02-03
US7668793B2 (en) 2010-02-23
US7289984B2 (en) 2007-10-30
IL160731A0 (en) 2004-08-31
WO2003021477A2 (en) 2003-03-13
CA2459758A1 (en) 2003-03-13
US20080147688A1 (en) 2008-06-19
WO2003021477A3 (en) 2004-02-12
CN1578955A (zh) 2005-02-09

Similar Documents

Publication Publication Date Title
KR20040029157A (ko) 연관 규칙의 데이터 마이닝을 위한 샘플링 접근법
Ganapathi et al. Predicting multiple metrics for queries: Better decisions enabled by machine learning
US7483888B2 (en) Method and apparatus for predicting selectivity of database query join conditions using hypothetical query predicates having skewed value constants
US5893090A (en) Method and apparatus for performing an aggregate query in a database system
Atlason et al. Call center staffing with simulation and cutting plane methods
US6560569B1 (en) Method and apparatus for designing and analyzing information systems using multi-layer mathematical models
US6108658A (en) Single pass space efficent system and method for generating approximate quantiles satisfying an apriori user-defined approximation error
Suri A concept of monotonicity and its characterization for closed queueing networks
Deng et al. Density estimation in R
US6052689A (en) Computer method, apparatus and programmed medium for more efficient database management using histograms with a bounded error selectivity estimation
Scholz R package clickstream: analyzing clickstream data with Markov chains
US20030236878A1 (en) Statistical method for estimating the performances of computer systems
EP1484684B1 (en) Method and computer system for providing a cost estimate for sizing a computer system
Siegel et al. Profit estimation error in the newsvendor model under a parametric demand distribution
Davino et al. Quantile composite-based path modeling
Eckman et al. Plausible screening using functional properties for simulations with large solution spaces
Lee et al. Processing networks with inventories: Sequential refinement systems
Gupta et al. Steady state analysis of system size-based balking in M/Mb/1 queue
McCarthy et al. Predictive models using regression
US6662065B2 (en) Method of monitoring manufacturing apparatus
Dorsman et al. Marginal queue length approximations for a two-layered network with correlated queues
McCarthy et al. Predictive models using regression
Kumar Exact distributions of tests of outliers for exponential samples
Ahituv et al. The impact of accessibility on the value of information and the productivity paradox
Aiane et al. Modelling and performance evaluation in the (R, s, lnQ) inventory system

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
E801 Decision on dismissal of amendment
B601 Maintenance of original decision after re-examination before a trial
J301 Trial decision

Free format text: TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20070704

Effective date: 20080417