KR101983206B1

KR101983206B1 - 데이터 레코드 선택

Info

Publication number: KR101983206B1
Application number: KR1020157020312A
Authority: KR
Inventors: 마샬 에이. 이스만; 리차드 알란 엡스테인; 랄프 허그; 앤드류 에프. 로버츠; 존 랄스톤; 존 엘. 리차드슨; 저스틴 프니오워
Original assignee: 아브 이니티오 테크놀로지 엘엘시
Priority date: 2013-02-01
Filing date: 2014-01-31
Publication date: 2019-08-28
Also published as: WO2014121092A3; HK1212479A1; JP2016509308A; EP2951736B1; US9892026B2; US20180165181A1; US20190266075A1; US11163670B2; AU2014212153A1; CN105051729B; CA2892301A1; AU2014212153B2; EP2951736A4; CN111897804A; CN105051729A; US20140222752A1; JP6533746B2; SG10201807986SA; CA2892301C; SG11201504063VA

Abstract

컴퓨터에 의해 구현되는 방법은, 각각의 데이터 레코드가 복수의 데이터 필드를 갖는 복수의 데이터 레코드를 액세스하는 단계를 포함한다. 본 방법은 또한 복수의 데이터 레코드의 적어도 몇몇에 대한 데이터 필드의 하나 이상의 데이터 필드에 대한 값을 분석하는 단계와, 분석하는 단계에 기초하여 복수의 데이터 레코드의 프로파일을 생성하는 단계를 포함한다. 본 방법은 또한 프로파일에 기초하여 적어도 하나의 서브세팅 규칙(subsetting rule)을 포뮬레이트(formulate)하는 단계와, 적어도 하나의 서브세팅 규칙에 기초하여 복수의 데이터 레코드로부터 데이터 레코드의 서브세트를 선택하는 단계를 포함한다.

Description

데이터 레코드 선택{DATA RECORDS SELECTION}

우선권의 주장

본 출원은 2013년 2월 1일자로 출원된 미국 특허 출원 번호 61/759,799 및 2013년 3월 14일자로 출원된 미국 특허 출원 번호 13/827,558을 우선권으로 주장하며, 이들 특허 출원의 전체 내용이 원용에 의해 본 명세서에 통합되어 있다.

본 발명은 데이터 레코드 선택에 관한 것이다.

저장된 데이터 세트는 다양한 특성이(characteristics) 미리 알려져 있지 않은 데이터를 포함하는 경우가 많다. 예컨대, 데이터 세트를 위한 전형적인 값들의 값의 범위, 데이터 세트 내의 상이한 필드들 간의 관계, 또는 상이한 필드에서의 값들 간의 기능적인 의존성이 알려져 있지 않을 수도 있다. 데이터 프로파일링(data profiling))은 이러한 특성을 판정하기 위해 데이터 세트의 소스를 검사하는 것을 수반할 수 있다.

데이터 처리 어플리케이션의 개발 동안, 개발자는 생산 환경의 외측에서 작업하고, 생산 데이터에 대한 액세스를 갖지 못할 수도 있다. 데이터 처리 어플리케이션(본 명세서에서는 "어플리케이션"으로 지칭됨)이 실제 데이터를 이용한 생산에서 적절하게 실행되도록 하기 위해, 어플리케이션의 실행 및 시험 동안 현실적인 데이터(realistic data)가 사용될 수 있다. 어플리케이션은 규칙의 실행이 하나 이상의 변수의 값에 좌우되는 규칙을 포함하는 경우가 많다. 이들 변수는 입력 데이터에 대응하는 입력 변수일 수도 있고, 하나 이상의 입력 변수에 좌우되는 파생 변수(derived variable)일 수도 있고, 또 다른 유형의 변수일 수도 있다. 어플리케이션의 개발 및 시험에 사용되도록 실제 생산 데이터로부터 데이터 레코드의 서브세트가 선택될 수 있다. 이들 데이터 레코드는 일반적으로 어플리케이션에서의 모든 규칙이 실행되도록 하기에 충분한 입력 데이터가 있도록(예컨대, 어플리케이션에서의 완전한 코드 커버리지가 달성되도록) 선택된다.

전반적인 양태에서, 컴퓨터에 의해 구현되는 방법(computer-implemented method)은 각각의 데이터 레코드가 복수의 데이터 필드를 갖는 복수의 데이터 레코드를 액세스하는 단계를 포함한다. 상기 방법은 또한 상기 복수의 데이터 레코드의 적어도 몇몇에 대한 데이터 필드 중 하나 이상의 데이터 필드에 대한 값을 분석하는 단계와, 상기 분석하는 단계에 기초하여 상기 복수의 데이터 레코드의 프로파일을 생성하는 단계를 포함한다. 상기 방법은 또한 상기 프로파일에 기초하여 적어도 하나의 서브세팅 규칙(subsetting rule)을 포뮬레이트(formulate)하는 단계와, 상기 적어도 하나의 서브세팅 규칙에 기초하여 상기 복수의 데이터 레코드로부터 데이터 레코드의 서브세트를 선택하는 단계를 포함한다.

본 발명의 실시예는 이하의 것 중의 하나 이상을 포함할 수 있다.

상기 적어도 하나의 서브세팅 규칙을 포뮬레이트하는 단계는, 제1 데이터 필드의 카디널러티(cardinality)에 기초하여 상기 제1 데이터 필드를 타겟 데이터 필드로서 식별하는 단계를 포함한다. 몇몇 경우에, 상기 타겟 데이터 필드는 상기 복수의 데이터 레코드에서의 별개의 값(distinct value)의 세트를 가지며, 상기 데이터 레코드의 서브세트를 선택하는 단계는 상기 타겟 데이터 필드에 대한 별개의 값의 각각을 갖는 선택된 서브세트에 적어도 하나의 데이터 레코드가 존재하도록 데이터 레코드를 선택하는 단계를 포함한다.

상기 프로파일을 생성하는 단계는, 상기 복수의 데이터 레코드에서의 제1 데이터 필드에 대한 값을 분류하는 단계를 포함한다. 상기 적어도 하나의 서브세팅 규칙을 포뮬레이트하는 단계는, 상기 분류하는 단계에 기초하여 상기 제1 데이터 필드를 타겟 데이터 필드로서 식별하는 단계를 포함한다. 몇몇 경우에, 상기 타겟 필드는 상기 복수의 데이터 레코드에서의 별개의 값의 세트를 가지며, 상기 데이터 레코드의 서브세트를 선택하는 단계는 상기 타겟 데이터 필드에 대한 별개의 값의 각각을 갖는 선택된 서브세트에 적어도 하나의 데이터 레코드가 존재하도록 데이터 레코드를 선택하는 단계를 포함한다.

상기 적어도 하나의 서브세팅 규칙을 포뮬레이트하는 단계는, 제1 타겟 데이터 필드로서의 제1 데이터 필드 및 제2 타겟 데이터 필드로서의 제2 데이터 필드를 식별하는 단계를 포함한다. 몇몇 경우에, 상기 데이터 레코드의 서브세트를 선택하는 단계는, 상기 제1 타겟 데이터 필드를 위한 별개의 값의 제1 세트와 상기 제2 타겟 데이터 필드를 위한 별개의 값의 제2 세트의 조합에 기초하여 데이터 레코드의 서브세트를 선택하는 단계를 포함한다.

상기 프로파일을 생성하는 단계는, 제1 데이터 필드의 값을 통해 관련된 데이터 레코드들 간의 관계를 식별하는 단계를 포함한다. 상기 적어도 하나의 서브세팅 규칙은 상기 관계의 식별(identification)을 포함한다. 몇몇 경우에, 상기 데이터 레코드의 서브세트를 선택하는 단계는, 제1 데이터 레코드를 선택하는 단계와, 상기 서브세팅 규칙에서 식별된 관계를 통해 상기 제1 데이터 레코드에 관련된 하나 이상의 제2 데이터 레코드를 선택하는 단계를 포함한다. 몇몇 경우에, 상기 데이터 레코드들 간의 관계는 데이터 레코드의 제1 세트에서의 데이터 레코드와 데이터 레코드의 제2 세트에서의 데이터 레코드 간의 관계를 포함한다.

상기 프로파일을 생성하는 단계는, 상기 복수의 데이터 레코드의 적어도 몇몇에 대한 의사필드(pseudofield)를 생성하는 단계와, 누적된 값(accumulated value)으로 각각의 대응하는 데이터 레코드에 대한 의사필드를 팝퓰레이트하는 단계를 포함한다. 제1 데이터 레코드에 대한 누적된 값은 상기 제1 데이터 레코드 및 상기 제1 데이터 레코드에 관련된 적어도 하나의 다른 데이터 레코드에 기초하여 결정된다. 상기 제1 데이터 레코드 및 상기 적어도 하나의 다른 데이터 레코드는 제1 데이터 필드의 값을 통해 관련된다. 몇몇 경우에, 상기 방법은 상기 누적된 값을 상기 제1 데이터 레코드의 제2 데이터 필드를 위한 값과 각각의 다른 관련 데이터 레코드에 대한 제2 데이터 필드를 위한 값의 합계에 기초하여 결정하는 단계를 더 포함한다.

상기 방법은 서브세팅 규칙을 수신하는 단계를 더 포함한다.

상기 방법은 상기 데이터 레코드의 선택된 서브세트를 데이터 처리 어플리케이션에 제공하는 단계를 더 포함한다. 몇몇 경우에, 상기 방법은, 데이터 처리 어플리케이션의 결과에 기초하여 제2 서브세팅 규칙을 포뮬레이트하는 단계와, 상기 제2 서브세팅 규칙에 기초하여 데이터 레코드의 제2 서브세트를 선택하는 단계를 더 포함한다.

전반적인 양태에서, 컴퓨터 판독 가능 매체 상에 저장된 소프트웨어는, 컴퓨팅 시스템으로 하여금, 각각의 데이터 레코드가 복수의 데이터 필드를 갖는 복수의 데이터 레코드를 액세스하도록 하는 명령을 포함한다. 상기 소프트웨어는, 컴퓨팅 시스템으로 하여금, 상기 복수의 데이터 레코드의 적어도 몇몇에 대한 데이터 필드 중 하나 이상의 데이터 필드에 대한 값을 분석하도록 하고, 분석에 기초하여 상기 복수의 데이터 레코드의 프로파일을 생성하도록 하는 명령을 포함한다. 상기 소프트웨어는, 컴퓨팅 시스템으로 하여금, 상기 프로파일에 기초하여 적어도 하나의 서브세팅 규칙을 포뮬레이트하고, 상기 적어도 하나의 서브세팅 규칙에 기초하여 상기 복수의 데이터 레코드로부터 데이터 레코드의 서브세트를 선택하도록 하는 명령을 포함한다.

전반적인 양태에서, 컴퓨팅 시스템은, 각각의 데이터 레코드가 복수의 데이터 필드를 갖는 복수의 데이터 레코드를 액세스하도록 구성된 하나 이상의 프로세서를 포함한다. 상기 프로세서는, 상기 복수의 데이터 레코드의 적어도 몇몇에 대한 데이터 필드 중 하나 이상의 데이터 필드에 대한 값을 분석하고, 분석에 기초하여 상기 복수의 데이터 레코드의 프로파일을 생성하도록 구성된다. 또한, 상기 프로세서는, 상기 프로파일에 기초하여 적어도 하나의 서브세팅 규칙을 포뮬레이트하고, 상기 적어도 하나의 서브세팅 규칙에 기초하여 상기 복수의 데이터 레코드로부터 데이터 레코드의 서브세트를 선택하도록 구성된다.

전반적인 양태에서, 컴퓨팅 시스템은, 각각의 데이터 레코드가 복수의 데이터 필드를 갖는 복수의 데이터 레코드를 액세스하기 위한 수단을 포함한다. 상기 컴퓨팅 시스템은, 상기 복수의 데이터 레코드의 적어도 몇몇에 대한 데이터 필드 중 하나 이상의 데이터 필드에 대한 값을 분석하기 위한 수단과, 분석에 기초하여 상기 복수의 데이터 레코드의 프로파일을 생성하기 위한 수단을 포함한다. 또한, 상기 컴퓨팅 시스템은, 상기 프로파일에 기초하여 적어도 하나의 서브세팅 규칙을 포뮬레이트하기 위한 수단과, 상기 적어도 하나의 서브세팅 규칙에 기초하여 상기 복수의 데이터 레코드로부터 데이터 레코드의 서브세트를 선택하기 위한 수단을 포함한다.

전반적인 양태에서, 컴퓨터에 의해 구현되는 방법은, 각각의 데이터 레코드가 복수의 데이터 필드를 갖는 복수의 데이터 레코드를 액세스하는 단계와, 상기 복수의 데이터 레코드로부터 데이터 레코드의 제1 서브세트를 선택하는 단계를 포함한다. 상기 방법은, 상기 데이터 레코드의 제1 서브세트를 복수의 규칙을 구현하는 데이터 처리 어플리케이션에 제공하는 단계와, 상기 규칙 중 적어도 하나의 규칙이 상기 데이터 처리 어플리케이션에 의해 실행된 횟수를 나타내는 리포트를 수신하는 단계를 포함한다. 상기 방법은, 상기 리포트에 기초하여 상기 복수의 데이터 레코드로부터 데이터 레코드의 제2 서브세트를 선택하는 단계를 포함한다.

상기 방법은, 상기 데이터 레코드의 제2 서브세트를 상기 데이터 처리 어플리케이션에게 제공하는 단계를 더 포함한다.

상기 방법은, 상기 리포트에 기초하여, 상기 데이터 처리 어플리케이션에 의해 실행되지 않은 하나 이상의 규칙을 식별하는 단계를 더 포함한다. 상기 데이터 레코드의 제2 서브세트를 선택하는 단계는, 상기 식별하는 단계에 기초하여 데이터 레코드를 선택하는 단계를 포함한다.

상기 방법은, 상기 리포트에 기초하여, 대응하는 최대 임계 횟수보다 적게 각각 실행된 하나 이상의 규칙을 식별하는 단계를 더 포함한다. 상기 데이터 레코드의 제2 서브세트를 선택하는 단계는, 상기 식별하는 단계에 기초하여 데이터 레코드를 선택하는 단계를 포함한다.

상기 방법은, 상기 리포트에 기초하여, 대응하는 최소 임계 횟수보다 많게 각각 실행된 하나 이상의 규칙을 식별하는 단계를 더 포함한다. 상기 데이터 레코드의 제2 서브세트를 선택하는 단계는, 상기 식별하는 단계에 기초하여 데이터 레코드를 선택하는 단계를 포함한다.

상기 데이터 레코드의 제1 서브세트를 선택하는 단계는, 제1 서브세팅 규칙에 기초하여 데이터 레코드의 제1 서브세트를 선택하는 단계를 포함한다. 몇몇 경우에, 상기 제1 서브세팅 규칙에 기초하여 데이터 레코드의 제1 서브세트를 선택하는 단계는, 서브세트에서의 적어도 하나의 데이터 레코드가 타겟 데이터 필드를 위한 별개의 값의 세트의 각각을 갖도록 데이터 레코드의 제1 서브세트를 선택하는 단계를 포함한다. 몇몇 경우에, 상기 제1 서브세팅 규칙에 기초하여 데이터 레코드의 제1 서브세트를 선택하는 단계는, 제1 데이터 레코드를 선택하는 단계와, 상기 제1 서브세팅 규칙에서 식별된 관계를 통해 상기 제1 데이터 레코드에 관련된 하나 이상의 제2 데이터 레코드를 선택하는 단계를 포함한다. 몇몇 경우에, 상기 데이터 레코드의 제2 서브세트를 선택하는 단계는, 상기 제1 서브세팅 규칙과는 상이한 제2 서브세팅 규칙에 기초하여 데이터 레코드의 제2 서브세트를 선택하는 단계를 포함한다.

상기 리포트는 상기 데이터 처리 어플리케이션의 하나 이상의 규칙의 실행을 트리거하는 변수의 값을 나타내는 데이터를 포함한다. 상기 방법은 상기 변수에 기초하여 타겟 데이터 필드로서의 하나 이상의 데이터 필드를 식별하는 단계를 더 포함하며, 상기 변수는 식별된 하나 이상의 데이터 필드의 변수에 좌우된다.

상기 데이터 레코드의 제2 서브세트는 상기 데이터 레코드의 제1 서브세트를 포함한다.

상기 방법은, 적어도 임계 개수의 규칙이 상기 데이터 처리 어플리케이션에 의해 실행되었다는 것을 상기 리포트가 지시할 때까지, 데이터 레코드의 서브세트를 반복적으로 선택하고, 상기 데이터 레코드의 서브세트를 상기 데이터 처리 어플리케이션에 제공하는 단계를 더 포함한다.

전반적인 양태에서, 컴퓨터 판독 가능 매체 상에 저장된 소프트웨어는 명령을 포함하며, 상기 명령은, 컴퓨팅 시스템으로 하여금, 각각의 데이터 레코드가 복수의 데이터 필드를 갖는 복수의 데이터 레코드를 액세스하고, 상기 복수의 데이터 레코드로부터 데이터 레코드의 제1 서브세트를 선택하도록 한다. 상기 소프트웨어는, 컴퓨팅 시스템으로 하여금, 상기 데이터 레코드의 제1 서브세트를 복수의 규칙을 구현하는 데이터 처리 어플리케이션에 제공하고, 상기 규칙 중 적어도 하나의 규칙이 상기 데이터 처리 어플리케이션에 의해 실행된 횟수를 나타내는 리포트를 수신하도록 하기 위한 명령을 포함한다. 상기 소프트웨어는, 컴퓨팅 시스템으로 하여금, 상기 리포트에 기초하여 상기 복수의 데이터 레코드로부터 데이터 레코드의 제2 서브세트를 선택하도록 하는 명령을 포함한다.

전반적인 양태에서, 컴퓨팅 시스템은 하나 이상의 프로세서를 포함하며, 상기 프로세서는, 각각의 데이터 레코드가 복수의 데이터 필드를 갖는 복수의 데이터 레코드를 액세스하고, 상기 복수의 데이터 레코드로부터 데이터 레코드의 제1 서브세트를 선택하도록 구성된다. 상기 프로세서는, 상기 데이터 레코드의 제1 서브세트를 복수의 규칙을 구현하는 데이터 처리 어플리케이션에 제공하고, 상기 규칙 중 적어도 하나의 규칙이 상기 데이터 처리 어플리케이션에 의해 실행된 횟수를 나타내는 리포트를 수신하도록 구성된다. 상기 프로세서는, 상기 리포트에 기초하여 상기 복수의 데이터 레코드로부터 데이터 레코드의 제2 서브세트를 선택하도록 구성된다.

전반적인 양태에서, 컴퓨팅 시스템은, 각각의 데이터 레코드가 복수의 데이터 필드를 갖는 복수의 데이터 레코드를 액세스하기 위한 수단과, 상기 복수의 데이터 레코드로부터 데이터 레코드의 제1 서브세트를 선택하기 위한 수단을 포함한다. 상기 컴퓨팅 시스템은, 상기 데이터 레코드의 제1 서브세트를 복수의 규칙을 구현하는 데이터 처리 어플리케이션에 제공하기 위한 수단과, 상기 규칙 중 적어도 하나의 규칙이 상기 데이터 처리 어플리케이션에 의해 실행된 횟수를 나타내는 리포트를 수신하기 위한 수단을 포함한다. 상기 컴퓨팅 시스템은, 상기 리포트에 기초하여 상기 복수의 데이터 레코드로부터 데이터 레코드의 제2 서브세트를 선택하기 위한 수단을 포함한다.

본 명세서에 개시된 기술은 이하의 장점 중의 하나 이상을 가질 수 있다. 예컨대, 생산 데이터 레코드의 완전한 세트는 거대(massive)할 수 있으며, 데이터 처리 어플리케이션을 이러한 커다란 세트의 레코드로 시험하는 것은 느리고 실현 불가능할 수 있다. 데이터 처리 어플리케이션의 동작에 관련되는 데이터 레코드의 완전한 세트의 특징을 대표하도록 선택된 데이터 레코드의 서브세트만을 사용함으로써, 철저하고 효율적인 시험이 달성될 수 있다. 어플리케이션의 효과적인 시험을 위한 최소 개수의 데이터 레코드의 정확한 선택은 데이터 레코드의 완전한 세트의 자동화된 프로파일링 분석 및 데이터 처리 어플리케이션의 실행으로부터의 피드백을 통해 달성될 수 있다.

본 발명의 기타 특징 및 장점은 이하의 상세한 설명 및 청구항들로부터 명백하게 된다.

도 1은 데이터 처리 시스템의 블록도를 도시하는 도면이다.
도 2a는 고객 트랜잭션 레코드(customer transaction record)의 일례의 세트의 작은 부분을 도시하는 도면이다.
도 2b는 데모그래픽 레코드(demographic records)의 일례의 세트의 작은 부분을 도시하는 도면이다.
도 3은 타겟 데이터 필드에 기초하여 데이터 레코드의 서브세트를 선택하기 위한 일례의 프로세스의 흐름도를 도시하는 도면이다.
도 4는 데이터 레코드를 선택하기 위한 일례의 프로세스의 흐름도를 도시하는 도면이다.
도 5는 데이터 레코드를 선택하기 위한 또 다른 예의 프로세스의 흐름도를 도시하는 도면이다.

데이터 처리 어플리케이션의 개발 동안, 개발자는 생산 환경의 외측에서 작업하고, 실제 생산 데이터에 대한 액세스를 갖지 못할 수도 있다. 데이터 처리 어플리케이션이 실제 데이터를 이용한 생산에서 적절하게 실행되도록 하기 위해, 어플리케이션의 실행 및 시험 동안 현실적인 데이터가 사용될 수 있다. 어플리케이션은 규칙의 실행이 하나 이상의 변수의 값에 좌우되는(예컨대, 하나 이상의 변수의 값에 의해 트리거되는) 규칙을 구현하는 경우가 많다. 이들 변수는 입력 데이터에 대응하는 입력 변수일 수도 있고, 하나 이상의 입력 변수에 좌우되는 파생 변수(derived variable)일 수도 있고, 또 다른 유형의 변수일 수도 있다. 어플리케이션의 효과적인 검사를 위해, 어플리케이션에서의 모든 논리 규칙이 실행되도록(예컨대, 어플리케이션에서의 완전한 코드 커버리지가 달성되도록) 하기에 충분하여, 이러한 모든 논리 규칙이 적어도 대응하는 최소 횟수로 실행되도록 하거나, 및/또는 모든 논리 규칙이 대응하는 최대 횟수보다 많지 않게 실행되도록 하는 입력 데이터가 제공될 수 있다.

어플리케이션에 제공될 데이터 레코드의 서브세트는 전형적으로 데이터 레코드의 하나 또는 그 이상의 더 큰 세트로부터(예컨대, 실제 생산 데이터의 세트로부터) 선택된다. 서브세트는 서브세팅 규칙(subsetting rule)에 기초하여 선택될 수 있으며, 이러한 서브세팅 규칙은 사용자에 의해 특정되거나, 데이터 레코드의 프로파일링 분석에 기초하여 포뮬레이트되거나, 어플리케이션의 실행으로부터의 피드백에 기초하여 포뮬레이트될 수 있다. 예컨대, 피시험 어플리케이션의 규칙의 일부 또는 전부가 실행되도록 할 수 있는 데이터를 포함하는 데이터 레코드가 서브세트를 위해 선택될 수 있다.

선택된 데이터 레코드는 선택된 데이터 레코드를 입력 데이터로서 사용하여 실행하는 어플리케이션에 제공된다. 어플리케이션은 하나 이상의 규칙을 구현한다. 즉, 어플리케이션에 의해 구현되는 각각의 규칙은 그 규칙에 대한 대응하는 조건 표현(condition expression)이 충족되는 때에는 어플리케이션에 의해 실행될 수 있고, 대응하는 조건 표현이 충족되지 않는다면 어플리케이션에 의해 실행되지 않는다. 규칙은 적어도 조건 표현 및 실행 표현(execution expression)을 포함하는 스페시피케이션에 의해 특정된다. 조건 표현이 충족되는 때에(예컨대, 조건 표현이 참의 결과로 평가되는 때에), 실행 표현이 평가된다. 조건 표현은 하나 이상의 변수의 값에 좌우될 수 있으며(예컨대, 하나 이상의 변수의 값에 의해 트리거될 수 있으며), 이러한 하나 이상의 변수는 입력 데이터에 대응하는 입력 변수일 수도 있고, 하나 이상의 입력 변수에 좌우되는 파생 변수일 수도 있고, 다른 유형의 변수일 수도 있다. 몇몇 예에서, 어플리케이션은 트리거되는 규칙의 전부를 실행한다. 몇몇 예에서, 어플리케이션은 규칙들 중의 몇몇 또는 규칙들 중의 단지 하나(예컨대, 트리거되는 제1 규칙)와 같은 트리거되는 규칙들의 전부보다 적은 규칙을 실행한다. 규칙은 적어도 2007년 4월 10일자로 출원된 미국 특허 제8,069,129호의 컬럼 5의 61라인부터 컬럼 6의 11라인까지에 보다 상세하게 설명되어 있으며, 이 특허의 내용은 그 전체가 원용에 의해 본 명세서에 통합된다.

실행 후에, 어플리케이션의 실행을 나타내는 데이터(예컨대, 실행하였거나 실행하지 않은 어플리케이션에서의 규칙, 어플리케이션에서의 각각의 논리 규칙이 실행된 횟수, 또는 기타 실행 데이터)를 포함하고 있는 리포트가 제공될 수 있다. 리포트에 기초하여, 예컨대 실행되지 않은 규칙을 실행되도록 할 입력 데이터, 특정 논리 규칙을 특정된 횟수로 실행되도록 할 입력 데이터, 또는 또 다른 요구된 실행 결과를 야기할 입력 데이터와 같은 추가의 입력 데이터가 식별될 수 있다. 예컨대 추가의 서브세팅 규칙이 포뮬레이트될 수 있고, 데이터 레코드의 업데이트된 서브세트가 이들 추가의 서브세팅 규칙에 따라 선택될 수 있는 것과 같이, 정정 동작(corrective action)이 실행될 수 있다. 데이터 레코드의 업데이트된 서브세트는 이전에 실행되지 않은 규칙의 일부 또는 전부의 실행을 야기하기에 충분한 데이터 레코드, 규칙의 일부 또는 전부의 실행을 특정된 횟수로 야기하기에 충분한 데이터 레코드, 또는 또 다른 요구된 실행 결과를 초래하기에 충분한 데이터 레코드를 포함할 수 있다.

도 1을 참조하면, 데이터 처리 시스템(100)은 서버(102a) 상에 호스팅된 레코드 선택 서브시스템(102)을 포함한다. 레코드 선택 서브시스템(102)은 데이터 레코드(예컨대, 생산 데이터 레코드)의 하나 이상의 세트로부터 데이터 레코드를 선택한다. 선택된 데이터 레코드는 데이터 처리 어플리케이션(106), 예컨대 시험 또는 개발이 진행중인 어플리케이션에 제공된다. 몇몇 예에서, 어플리케이션(106)은 예컨대 동일한 서버(102a) 상에 호스팅되는 것과 같이 레코드 선택 서브시스템(102)에 대해 근거리에 위치될 수 있다. 몇몇 예에서, 어플리케이션(106)은 예컨대 근거리 데이터 네트워크 또는 광역 데이터 네트워크(118)(예컨대, 인터넷)와 같은 하나 이상의 네트워크를 통해 액세스되는 원격 서버(106a) 상에 호스팅되는 것과 같이 레코드 선택 서브시스템(102)에 대해 원격으로 위치될 수도 있다.

데이터 레코드는 하나 이상의 서버(104a, 104b, 104c, 104d) 및 대응하는 저장 디바이스(108a, 108b, 108c, 108d)에 의해 호스팅된 데이터 소스(104)에 저장된다. 데이터 소스(104)는 데이터베이스(109), 스프레드시트 파일(110), 텍스트 파일(112), 메인프레임에 의해 사용되는 네이티브 포맷 파일(native format file)(114), 또는 또 다른 타입의 데이터 소스와 같은 다양한 데이터 소스의 어떠한 것도 포함할 수 있다. 데이터 소스 중의 하나 이상은 예컨대 동일한 컴퓨터 시스템(예컨대, 서버 102a) 상에 호스팅되는 것과 같이 레코드 선택 서브시스템(102)에 대해 근거리에 위치될 수도 있다. 데이터 소스 중의 하나 이상은 예컨대 네트워크(118), 복수의 네트워크 등을 통해 액세스되는 원격 서버(예컨대, 서버 104a, 104b, 104c, 104d) 상에 호스팅되는 것과 같이 레코드 선택 서브시스템(102)에 대해 원격으로 위치될 수도 있다.

데이터 소스(104)에 저장된 데이터 레코드는 데이터 레코드의 하나 이상의 세트를 포함한다. 예컨대, 데이터 레코드는 고객 트랜잭션 레코드, 고객 데모그래픽 레코드, 파이낸셜 트랜잭션 레코드(financial transaction record), 전화통신 데이터, 또는 기타 타입의 데이터 레코드를 포함할 수 있다. 각각의 데이터 레코드는 하나 이상의 데이터 필드를 가지며, 각각의 데이터 필드는 수치값(numerical value), 알파뉴메릭값(alphanumeric value), 널값(null value) 등과 같은 각각의 데이터 레코드를 위한 특정한 값(그것의 부족)을 갖는다. 예컨대, 고객 트랜잭션 레코드의 세트에서, 각각의 레코드는 고객 식별자, 구입 가격, 트랜잭션 타입 등을 저장하는 데이터 필드를 가질 수 있다.

레코드 선택 서브시스템(102)에서의 서브세팅 모듈(120)은 하나 이상의 서브세팅 규칙에 따라 데이터 소스(104)의 하나 이상에 저장된 데이터 레코드의 하나 이상의 세트로부터 데이터 레코드의 서브세트를 선택하는 것과 같은 다양한 동작을 제공할 수 있다. 서브세팅 규칙은 데이터 레코드의 하나 이상의 세트로부터 데이터 레코드의 서브세트를 선택하는, 컴퓨터에 의해 실행 가능한, 규칙이다. 서브세팅 규칙은 프로파일링 모듈(126)에 의해 생성된 데이터 레코드의 하나 이상의 세트의 프로파일의 분석에 기초하여 서브세팅 모듈(120)에 의해 포뮬레이트될 수 있다. 서브세팅 규칙은 또한 커버리지 분석 모듈(128)에 의해 제공된 어플리케이션의 실행의 결과에 대한 분석에 기초하여(예컨대, 리포트에 기초하여) 서브세팅 모듈(120)에 의해서도 포뮬레이트될 수 있다. 서비세팅 모듈은 예컨대 데이터 레코드 및/또는 피시험 어플리케이션(106)에 대한 사용자의 이해에 기초하여, 사용자 인터페이스(124)를 통해 사용자에 의해 특정될 수도 있다. 서브세팅 규칙은 또한 하드 디스크와 같은 저장 매체로부터 판독될 수도 있거나, 또는 인터넷과 같은 네트워크를 통해 수신될 수도 있다.

다양한 서브세팅 규칙이 가능하며, 단독으로 또는 조합으로 적용될 수 있다. 서브세팅 규칙은 결정성의 것(deterministic)(예컨대, 규칙이 특정한 기준에 부합하는 모든 레코드가 선택되도록 특정할 수 있음)일 수 있거나, 또는 비결정성의 것(non-deterministic)(예컨대, 규칙이 특정 기준에 부합하는 모든 레코드 중의 2개가 랜덤하게 선택되도록 특정할 수 있음)일 수 있다.

몇몇 예에서, 서브세팅 규칙은 하나 이상의 타겟 데이터 필드를 지정하며, 타겟 데이터 필드에 대한 각각의 별개의 값 또는 값 분류(value classification)가 데이터 레코드의 선택된 서브세트의 데이터 레코드 중의 적어도 하나에 포함되도록 특정한다. 서브세팅 모듈(120)은 데이터 레코드의 하나 이상의 세트에서 타겟 데이터 필드를 위한 각각의 별개의 값을 식별하고, 서브세팅 규칙을 충족할 데이터 레코드를 선택한다. 예컨대, 50개의 주(state)의 각각에 대한 별개의 값을 갖는 state 데이터 필드 및 2개의 별개의 값을 갖는 gender 데이터 필드가 타겟 데이터 필드로서 식별될 수 있다. 데이터 레코드는 주에 대한 50개의 값의 각각과 성별에 대한 2개의 값의 각각이 서브세트에서의 적어도 하나의 데이터 레코드에 포함되도록 서브세트를 위해 선택된다.

몇몇 예에서, 서브세팅 규칙은 데이터 레코드의 동일한 세트 내에 있거나 또는 데이터 레코드의 상이한 세트들에 걸쳐있는 데이터 레코드들 간의 관계의 타입을 특정한다. 서브세팅 모듈(120)은 서브세트를 위해 선택된 다른 데이터 레코드와의 이들의 관계에 기초하여 데이터 레코드를 선택한다. 예컨대, 고객 식별자(cust_id) 데이터 필드에 대한 공통적인 값을 공유하는 데이터 레코드가 서브세트를 위해 선택될 수 있다. 필터링과 같은 서브세팅 규칙의 다른 예 또한 가능하다. 몇몇 예에서, 서브세트에 대한 데이터 레코드를 선택하기 위해 서브세팅 규칙의 조합이 사용될 수 있다.

몇몇 예에서, 서브세팅 규칙은 데이터 분석가(data analyst) 또는 어플리케이션 개발자와 같은 사용자에 의해 제공된다. 예컨대, 사용자는 타겟 필드를 식별하거나, 데이터 레코드들 간의 관계를 특정하거나, 또는 서브세팅 규칙을 지시할 수 있다.

몇몇 예에서, 서브세팅 규칙은 프로파일링 모듈(126)에 의해 자동으로 생성된 데이터 레코드의 프로파일의 분석에 기초하여 서브세팅 모듈(120)에 의해 포뮬레이트된다. 프로파일링 모듈(126)은 데이터 레코드의 하나 이상의 세트를 액세스하고, 단일 데이터 세트의 개별 데이터 레코드를 분석함으로써 및/또는 데이터 레코드의 하나의 세트 내의 및/또는 데이터 레코드의 상이한 세트들에 걸쳐서의 데이터 필드들 간의 관계를 분석함으로써 데이터 레코드의 프로파일을 생성할 수 있다.

데이터 레코드의 세트의 프로파일은 데이터 레코드의 세트 내의 데이터의, 예컨대 하나의 필드씩을 기반으로 하는(on a field-by-field basis), 개요(summary)이다. 프로파일은 데이터 레코드 내의 데이터 필드의 하나 이상의 데이터 필드의 카디널러티(cardinality), 데이터 필드의 하나 이상의 데이터 필드에서의 값의 분류, 개개의 데이터 레코드에서의 데이터 필드들 간의 관계, 데이터 레코드들 간의 관계, 또는 데이터 레코드의 세트 내의 데이터를 특징짓는 기타 정보와 같은 데이터 레코드의 세트 내의 데이터를 특징짓는 정보를 포함할 수 있다. 데이터 레코드의 세트의 프로파일은 또한 의사필드(pseudofield)를 특징짓는 정보를 포함할 수 있으며, 이러한 의사필드는, 프로파일링 모듈(126)에 의해 생성되고 관련 데이터 레코드 내의 하나 이상의 데이터 필드에 대한 값의 조작에 의해 결정된 값으로 팝퓰레이트된 데이터 필드이다.

데이터 레코드의 생성된 프로파일에 기초하여, 서브세팅 모듈(120)은 어플리케이션(106)을 위한 양호한 코드 커버리지를 달성하는 데이터 레코드의 서브세트의 선택에 관련될 수 있는 데이터 레코드의 특징을 식별할 수 있다. 예컨대, 데이터 레코드의 프로파일에 기초하여, 서브세팅 모듈(120)은 어플리케이션의 입력 변수 및 파생 변수에 관련될 것 같은 하나 이상의 데이터 필드 또는 데이터 필드의 조합을 식별할 수 있다. 몇몇 경우에, 서브세팅 규칙은 또한 사용자 또는 컴퓨터 저장 매체로부터 수신된 입력에 기초하여 및/또는 어플리케이션(106)의 실행의 결과에 기초하여(예컨대, 커버리지 분석 모듈(128)로부터 수신된 입력에 기초하여) 포뮬레이트될 수 있다.

서브세팅 모듈(120)은 서브세팅 규칙을 특정하기 위해 하나 이상의 타입의 분석을 위한 동작을 수행할 수 있다. 서브세팅 모듈(120)은 예컨대 어느 데이터 필드가 어플리케이션(106)의 변수에 관련이 있을 것 같은지를 판단함으로써와 같이 개개의 데이터 레코드 내의 데이터 필드의 분석에 기초하여 하나 이상의 서브세팅 규칙을 특정할 수 있다. 몇몇 예에서, 서브세팅 모듈(120)은 프로파일에서 지시된 바와 같은 타겟 데이터 필드의 카디널러티(즉, 하나의 세트의 데이터 레코드의 전부에 걸친 데이터 필드에 대한 별개의 값의 개수 또는 값들의 분류)에 기초하여 타겟 데이터 필드를 식별한다. 예컨대, gender 데이터 필드(2개의 카디널러티를 갖는)는 타겟 데이터 필드로서 식별될 수 있는 한편, phone number 데이터 필드(데이터 레코드의 총수 정도의 카디널러티를 갖는)는 타겟 데이터 필드로서 식별되기가 쉽지 않다. 몇몇 예에서, 서브세팅 모듈(120)은 하나 이상의 데이터 필드의 데이터의 조작에서 비롯된 데이터로 팝퓰레이트된 의사필드를 타겟 데이터 필드로서 식별한다. 예컨대, income 데이터 필드의 데이터는 카테고리(예컨대, 높음, 중간 또는 낮음)로 분류될 수 있으며, income 데이터 필드의 분류(inc_range)로 팝퓰레이트된 의사필드는 타겟 데이터 필드로서 식별될 수 있다. 몇몇 예에서, 서브세팅 모듈(120)은 타겟 데이터 필드와 프로파일에서 지시된 것과 같이 동일한 레코드 내의 하나 이상의 다른 데이터 필드 간의 관계에 기초하여 타겟 데이터 필드를 식별한다. 예컨대, 프로파일은 데이터 필드 state 및 ZIP이 독립적이지 않다는 것을 지시할 수 있으며, 이 의존성에 기초하여, 서브세팅 모듈(120)은 이들 데이터 필드 중의 단지 하나를 가능한 타겟 데이터 필드로서 고려할 수 있다. 서브세팅 모듈(120)은 또한 데이터 레코드의 세트 내의 및/또는 프로파일에서 지시된 바와 같은 데이터 레코드의 상이한 세트에 걸친 상이한 데이터 레코드들 간의 관계의 분석에 기초하여 하나 이상의 서브세팅 규칙을 특정할 수 있다. 예컨대, 프로파일은 데이터 레코드가 데이터 필드의 공통적인 값(예컨대, cust_id 데이터 필드의 값)을 통해 연계될 수 있다는 것을 지시할 수 있다. 데이터 레코드의 다른 분석 또한 가능하다.

데이터 레코드의 서브세트가 서브세팅 모듈(120)에 의해 선택되는 때에, 데이터 레코드의 선택된 서브세트를 나타내는 데이터가 피시험 어플리케이션(106)에 제공된다. 예컨대, 데이터 레코드의 선택된 서브세트에 대한 식별자 및 데이터 레코드에 대한 어드레스가 어플리케이션(106)에 제공될 수 있다. 데이터 레코드의 선택된 서브세트를 포함하는 파일 또한 어플리케이션(106)에 제공될 수 있다.

데이터 처리 어플리케이션(106)은 데이터 레코드의 서브세트를 입력 데이터로서 사용하여 실행된다. 실행 후에, 레코드 선택 서브시스템(102)의 커버리지 분석 모듈(128)에게 리포트가 제공된다. 리포트는 또한 사용자(122)에게도 제공될 수 있다. 리포트는 어플리케이션의 실행을 나타내는 데이터(예컨대, 실행하였거나 실행하지 않은 어플리케이션에서의 규칙, 어플리케이션에서의 각각의 논리 규칙이 실행된 횟수, 또는 기타 실행 데이터)를 포함하고 있다. 몇몇 예에서, 리포트는 실행하였거나 실행하지 않은 이들 규칙을 직접 식별한다. 리포트는 또한 각각의 논리 규칙이 실행되었던 횟수, 실행 동안의 어플리케이션의 각각의 변수의 값, 또는 기타 정보와 같은 어플리케이션(106)의 실행에 대한 추가의 정보를 포함할 수 있다.

실행하지 않은 어플리케이션에서의 각각의 논리 규칙에 대해, 커버리지 분석 모듈(128)은 그 논리 규칙에 관련하고 있는 어플리케이션(106)의 하나 이상의 변수를 식별한다. 커버리지 분석 모듈(128)은 리포트에 포함된 데이터(예컨대, 어플리케이션(106)을 통한 데이터의 흐름을 나타내는 데이터)에 기초하여, 어플리케이션에 대한 사전 로딩된 정보에 기초하여 등으로 변수를 식별할 수 있다. 몇몇 경우에, 커버리지 분석 모듈(128)은 또한 논리 규칙을 실행하도록 할 각각의 변수에 대한 값 또는 값의 범위를 식별한다. 입력 데이터 필드와 변수에 대응하는 값 또는 값의 범위는 서브세팅 모듈(120)에 의한 데이터 레코드의 업데이트된 서브세트의 후속 선택에서의 추가의 서브세팅 규칙을 특정하기 위해 식별되고 사용된다.

예컨대, 식별된 변수가 데이터 레코드의 데이터 필드 중의 하나에 직접 대응하는 어플리케이션의 입력 변수이면, 커버리지 분석 모듈(128)은 대응하는 데이터 필드와 데이터 필드를 위한 값 또는 값의 범위를 식별한다. 예컨대, 변수 x가 10보다 크고, 변수 x가 고객 트랜잭션의 양에 대한 데이터를 포함하고 있는 입력 데이터 필드 txn _amt에 대응하는 때에, 어플리케이션(106)에서의 논리 규칙이 실행되면, 커버리지 분석 모듈은 입력 데이터가 txn _amt＞10에 해당하는 적어도 하나의 데이터 레코드를 포함하여야 하는 것으로 결정한다. 이 결정(예컨대, txn_amt＞10)은 서브세팅 모듈(120)에 제공되고, 서브세팅 모듈은 어플리케이션(106)에 제공된 데이터 레코드의 후속 서브세트가 x＞10 논리 규칙을 실행되도록 하기에 충분한 데이터를 포함하도록 추가의 서브세팅 규칙을 특정한다.

예컨대, 식별된 변수가 입력 변수가 아니면(즉, 식별된 변수가 데이터 레코드의 데이터 필드 중의 하나에 직접 대응하지 않으면), 커버리지 분석 모듈(128)의 데이터 리니지 서브모듈(data lineage submodule)(130)은 식별된 변수가 파생되는 입력 변수(들)를 식별하기 위해 어플리케이션(106)의 로직을 통해 변수의 파생을 추적한다. 커버리지 분석 모듈(128)은 그리고나서 대응하는 데이터 필드(들) 및 데이터 필드에 대한 값 또는 값의 범위를 식별한다. 예컨대, 변수 y의 값이 2인 때에 어플리케이션(106)의 논리 규칙이 실행되면, 데이터 리니지 서브모듈(130)은 변수 y가 입력 데이터 필드 gender, inc_range 및 state에 대응하는 3개의 입력 변수의 논리 조합으로부터의 어플리케이션의 논리적 단계를 통해 파생된 것으로 결정할 수 있다. 변수 y의 논리적 파생을 후속함으로써, y=2를 야기하는 데이터 필드 gender, inc_range 및 state의 값이 결정될 수 있다. 예컨대, 논리 규칙 y=2는 gender = F, inc_range = 높음, 및 state = ME, NH, VT, MA, RI 또는 CT인 때에 충족될 수 있다. 이 결정은 서브세팅 모듈(120)에 제공되며, 서브세팅 모듈은 어플리케이션(106)에 제공된 데이터 레코드의 후속의 서브세트가 y=2 논리 규칙을 실행되도록 하기에 충분한 데이터를 포함하도록 추가의 서브세팅 규칙을 특정한다. 또 다른 예로서, 논리 규칙은 데이터 필드 firstname 및 lastname에 대응하는 변수의 값이 동일한 때와 같이 2개의 변수의 값이 특별한 관계를 갖는 때에 실행될 수 있다.

몇몇 예에서, 커버리지 분석의 결과 또한 사용자(122)에게 제공된다. 사용자는 추가의 서브세팅 규칙을 서브세팅 모듈(120)에 제공할 수 있거나, 또는 이전에 제공된 서브세팅 규칙을 수정할 수 있다. 사용자는 또한 프로파일링 모듈에게 이전에 제공된 입력을 수정하기 위해 프로파일링 모듈(126)에 추가의 입력을 제공할 수 있다.

몇몇 예에서는, 데이터 레코드의 완전한 세트(들) 조차도 어플리케이션(106)의 논리 규칙을 충족하기에 충분한 데이터를 포함하지 못한다. 예컨대, 어플리케이션(106)은 데이터 필드 income에 대한 값이 5백만 달러보다 큰 때에만 실행되는 논리 규칙을 포함할 수 있다. income＞$5,000,000에 해당하는 세트에서 데이터 레코드가 존재하지 않는다면, 그 논리 규칙을 실행되게 할 데이터 레코드의 서브세트가 없을 것이다. 완전한 데이터 세트에서의 이러한 결함(deficiency)을 식별하기 위해, 몇몇 예에서, 어플리케이션은 데이터 레코드의 전부를 입력으로서 이용하여 1회 이상 실행될 수 있다. 그 결과의 리포트는 입력을 위해 선택되는 데이터 레코드의 서브세트에 상관없이 커버될 수 없는 규칙을 식별한다.

서브세팅 모듈(120) 및 프로파일링 모듈(126)의 동작을 도 2a 및 도 2b에 도시된 데이터 레코드의 일례의 세트(200, 252)를 참조하여 설명할 것이다. 도 2a는 고객 트랜잭션 레코드의 세트(200)의 작은 부분의 예이다. 각각의 고객 트랜잭션 레코드(202)는 예컨대 고객 식별자(cust _id)(204a), 트랜잭션 타입(txn_type)(204b), 트랜잭션 양(txn _amt)(204c), 트랜잭션 일자(date)(204d), 및 매장 식별자(store_id)(204e)를 포함한 여러 개의 데이터 필드(204)를 갖는다. 다른 데이터 필드 또한 포함될 수 있다. 도 2b는 데모그래픽 레코드의 세트(250)의 작은 부분의 예이다. 각각의 데모그래픽 레코드(252)는 예컨대 고객 식별자(cust_id)(254a), 고객 주소(address, stae , ZIP)(254b, 254c, 254d), 고객 수입(income)(254e), 및 고객 성별(gender)(254f)을 포함한 여러 개의 데이터 필드(254)를 갖는다. 다른 데이터 필드 또한 포함될 수 있다. 프로파일링 모듈(126) 및 서브세팅 모듈(120)의 동작은 이들 일례의 데이터 세트로 제한되지 않으며, 다른 타입의 데이터 세트에도 유사하게 적용된다.

서브세팅 모듈(120)은 하나 이상의 타입의 서브세팅 규칙에 따라 데이터 레코드의 서브세트를 선택할 수 있다. 몇몇 예의 서브세팅 규칙은 다음과 같다:

필터링 (Filtering) : 몇몇 예에서, 서브세팅 모듈(120)은 필터에 따라 데이터 레코드의 서브세트를 선택한다. 예컨대, 필터는 소정의 데이터 필드에 대한 특정한 값을 갖는 모든 데이터 레코드가 선택되도록 특정할 수 있다. 예컨대, 필터는 state(데이터 필드 254c)="MA"를 갖는 세트(250)로부터의 모든 데모그래픽 레코드가 서브세트에 대해 선택되도록 특정할 수 있다. 필터링은 사용자, 프로파일링 모듈(126), 및/또는 커버리지 분석 모듈(128)에 의해 특정될 수 있다.

몇몇 예에서, 서브세팅 모듈(120)은 데이터 레코드가 소정의 데이터 필드의 값에 기초하여 제거되는 규칙-기반 필터에 따라 데이터 레코드의 서브세트를 선택한다. 예컨대, 필터는 (store_id)(204e)="온라인"에 해당하는 데이터 레코드가 서브세트로부터 제거되도록 특정할 수 있다. 규칙-기반 필터는 사용자(122), 프로파일링 모듈(126), 및/또는 커버리지 분석 모듈(128)에 의해 특정될 수 있다.

타겟 데이터 필드 (Target Data Field) : 몇몇 예에서, 서브세팅 모듈(120)은 하나 이상의 타겟 데이터 필드에 기초하여 데이터 레코드의 서브세트를 선택한다. 타겟 데이터 필드는 예컨대 어플리케이션의 변수에 관련될 가능성이 있는 데이터 필드이다. 예컨대, 고객 트랜잭션 레코드에 대해 동작하는 특정 어플리케이션이 매장 위치에 의한 트랜잭션 타입(즉, 구매 또는 반품)을 추적하면, 어플리케이션의 개발자는 데이터 필드 txn _type(데이터 필드 204c) 및 store_id(데이터 필드 204e)를 타겟 데이터 필드로서 식별할 수 있다. 몇몇 경우에, 서브세팅 모듈(120)은 데이터 레코드의 프로파일에서 식별된 바와 같이 데이터 필드의 카디널러티와 같은 데이터 필드의 특성에 기초하여 타겟 데이터 필드를 식별할 수 있다. 몇몇 경우에, 커버리지 분석 모듈(128)은 어플리케이션의 변수와 데이터 필드 간의 관계에 기초하여 타겟 데이터 필드를 식별할 수 있다. 낮은 카디널러티의 데이터 필드(예컨대, 임계 카디널러티보다 작은 카디널러티를 갖는 데이터 필드)는, 프로파일링 모듈(126)이 데이터 필드의 컨텐츠에 대한 기타 정보를 거의 갖지 않거나 전혀 갖지 않고 그 컨텐츠가 어플리케이션에 어떻게 관련될 수 있다 하더라도, 타겟 데이터 필드로서 식별될 수 있다. 임계 카디널러티는 사용자에 의해 특정될 수도 있고, 또는 프로파일링 모듈에 의해 자동으로 결정될 수도 있다. 예컨대, 데모그래픽 레코드의 세트(350)의 프로파일에 기초하여, 데이터 필드 state는 임계 카디널러티가 적어도 50개로 설정되면 타겟 데이터 필드로서 식별될 수 있다.

도 3은 타겟 데이터 필드에 기초하여 데이터 레코드의 서브세트를 선택하기 위한 일례의 프로세스의 흐름도를 도시하는 도면이다. 예컨대 데이터 레코드의 프로파일에 포함된 정보, 사용자로부터의 정보, 커버리지 분석 모듈(128)로부터의 정보 등에 기초하여, 하나 이상의 타겟 데이터 필드가 식별된다(300). 레코드의 세트에서의 각각의 타겟 데이터 필드에 대한 별개의 값의 세트가 식별된다(302). 데이터 레코드는 각각의 타겟 데이터 필드에 대한 각각의 별개의 값이 서브세트에서의 적어도 하나의 데이터 레코드에 포함되도록 서브세트에 대해 선택된다(304). 일례에서, state 데이터 필드 및 gender 데이터 필드가 데모그래픽 레코드의 세트(250)에 대한 타겟 데이터 필드로서 식별된다. 데이터 레코드의 세트(250)는 state에 대한 50개의 별개의 값 및 gender에 대한 2개의 별개의 값을 식별하기 위해 분석된다. 데이터 레코드는 state에 대한 50개의 값의 각각과 gender에 대한 2개의 값의 각각이 서브세트에서의 적어도 하나의 데이터 레코드에 포함되도록 선택된다. 몇몇 예에서, 서브세팅 규칙은 각각의 타겟 데이터 필드에 대한 각각의 별개의 값이 서브세트에 포함되는 횟수(예컨대, 1회, 10회, 50회 등)를 특정할 수 있다.

타겟 데이터 필드에 기초한 서브세팅은 각각의 데이터 필드의 각각의 값의 모든 조합이 서브세트에서 표현된다는 것을 의미할 필요는 없다. 예컨대, state에 대한 50개의 값의 각각과 gender에 대한 2개의 값의 각각이 포함되는 데이터 레코드의 서브세트는 단지 50개의 데이터 레코드만을 포함할 수도 있다. 몇몇 예에서, 타겟 데이터 필드는 의사필드(예컨대, 아래에 설명되는 바와 같이 프로파일링 모듈에 의해 구축된)와 같은 구축 필드(constructed field)이며, 동일한 레코드 내의 또는 상이한 레코드에 걸쳐있는 하나 이상의 데이터 필드에 좌우된다.

데이터 분류 (Data Classification) : 몇몇 예에서, 데이터 레코드의 서브세트는 데이터 레코드의 하나 이상의 타겟 데이터 필드의 데이터의 분류에 기초하여 선택된다. 예컨대, 서브세팅 규칙은 타겟 데이터 필드를 식별하고, 타겟 데이터 필드의 값이 분류될 수 있는 값의 별개의 범위("빈(bin)")를 특정할 수 있다. 데이터 레코드는 타겟 데이터 필드의 정확한 값보다는 타겟 데이터 필드의 빈에 기초하여 서브세트를 위해 선택된다. 일례에서, 데모그래픽 레코드의 세트(250)에서의 데이터 필드 income은 타겟 데이터 필드로서 식별된다. 3개의 빈이 지정된다: "낮음"(income＜$50,000), "중간"($50,000와 $150,000 사이의 income), 및 "높음"(income＞$150,000). 서브세트에의 포함을 위한 서브세팅 모듈(120)에 의해 고려된 각각의 데이터 레코드에서의 income 데이터 필드의 값은 낮음, 중간 또는 높음으로서 분류되며, 데이터 레코드는 수입의 3개의 빈의 각각이 서브세트에서의 적어도 하나의 데이터 레코드에 포함되도록 선택된다. 몇몇 예에서, 데이터 필드의 값이 분류되며(예컨대, 프로파일링 모듈에 의해), 각각의 데이터 레코드에 대한 의사필드가 대응하는 분류된 값(예컨대, 데이터 필드 inc_range(256))으로 팝퓰레이트된다. 이들 예에서, 의사필드는 타겟 데이터 필드로서 취급되며, 데이터 레코드는 의사필드에 대한 각각의 별개의 값이 서브세트에서의 적어도 하나의 데이터 레코드에 포함되도록 선택된다. 분류될 데이터 필드, 빈의 개수, 및/또는 각각의 빈에 대한 값의 범위는 사용자(122)에 의해 특정될 수 있거나, 또는 프로파일링 모듈(126) 및/또는 커버리지 분석 모듈(128)에 의해 자동으로 식별될 수 있다.

조합이론 (Combinatorics) : 몇몇 예에서, 데이터 레코드의 서브세트가 2개 이상의 다른 서브세팅 규칙의 조합을 특정할 수 있는 조합이론 규칙에 따라 선택된다. 예컨대, 조합이론 규칙은 2개의 타겟 데이터 필드를 식별할 수 있고, 2개의 타겟 데이터 필드의 각각의 데이터 필드의 모든 값의 모든 가능한 조합이 서브세트에서의 적어도 하나의 데이터 레코드에 포함되도록 특정할 수 있다. 일례의 조합이론 규칙은 데이터 필드 inc_range 및 gender를 타겟 데이터 필드로서 식별하고, 이들 2개의 데이터 필드의 모든 가능한 조합이 서브세트에 포함되도록 특정할 수 있다. 이 조합이론 규칙을 충족하는 서브세트는 6개의 데이터 레코드(즉, 낮음+여성, 낮음+남성, 중간+여성, 중간+남성, 높음+여성, 높음+남성)을 포함할 것이다. 이와 반대로, 조합이론 규칙 없이도, 타겟 데이터 필드로서의 inc_range 및 gender의 스페시피케이션이 겨우 3개의 레코드(예컨대, 낮음+여성, 중간+남성, 높음+여성)로 충족될 수 있다. 몇몇 예에서, 서브세팅 규칙은 2개 이상의 타겟 데이터 필드의 조합이론적 조합과 이 조합이론적 조합 외측의 하나 이상의 다른 타겟 데이터 필드를 특정할 수 있다. 예컨대, 서브세팅 규칙은 inc_range 및 gender를 조합이론적 조합에서 취해질 타겟 데이터 필드로서 특정할 수 있고, 또한 state를 그 조합의 외측의 타겟 데이터 필드로서 특정할 수 있다. 보다 복잡한 조합 또한 가능하다. 타겟 데이터 필드 및 특정한 타입의 조합은 사용자(122)에 의해 특정될 수 있거나, 또는 프로파일링 모듈(126) 및/또는 커버리지 분석 모듈(128)에 의해 자동으로 식별될 수 있다.

데이터 레코드들 간의 관계 (Relationships Among Data Records) : 몇몇 예에서, 데이터 레코드의 서브세트가 데이터 레코드의 세트 내의 또는 데이터 레코드의 상이한 세트들에 걸쳐서의 데이터 레코드들 간의 관계에 따라 선택된다. 서브세팅 규칙은, 하나의 데이터 레코드가 서브세트를 위해 선택되면, 조인 키(join key)를 통해 그 데이터 레코드에 관련되는 다른 데이터 레코드가 또한 서브세트를 위해 선택되도록 조인 키를 특정할 수 있다. 예컨대, 서브세팅 규칙은 데이터 필드 cust _id를 고객 트랜잭션 레코드의 세트(200) 내의 그리고 데모그래픽 레코드의 세트 200과 세트 250 간의 데이터 레코드들을 관련시키는 조인 키로서 식별할 수 있다. 서브세트를 위해 선택되는(예컨대, 또 다른 서브세팅 규칙에 따라) 둘 중의 하나의 세트로부터의 각각의 데이터 레코드에 대해, 선택된 데이터 레코드와 동일한 cust _id에 대한 값을 공유하는 다른 데이터 레코드 또한 서브세트를 위해 선택된다. 관계에 따라 데이터 레코드를 선택함으로써, 서브세트는 예컨대 그 고객에 대한 데모그래픽 레코드뿐만 아니라 특정 고객에 대한 모든 트랜잭션에 대한 데이터 레코드를 포함할 것이다. 이러한 관계는 사용자(122)에 의해 특정될 수 있거나, 또는 프로파일링 모듈(126) 및/또는 커버리지 분석 모듈(128)에 의해 자동으로 식별될 수 있다.

몇몇 예에서, 데이터 레코드들 간의 관계는 데이터 레코드의 하나 이상의 특성에 기초하여 이루어질 수 있다. 예컨대, 대상으로 하는 데이터 레코드(예컨대, 부정 신용 카드 트랜잭션에 대응하는 데이터 레코드)가 식별될 수 있다. 대응하는 서브세팅 규칙은 그리고나서 서브세트가 예컨대 데이터 레코드에서의 다른 경우의 부정을 식별하는데 도움을 주기 위해 대상으로 하는 식별된 데이터 레코드에 유사한 특성을 갖는 50개의 다른 데이터 레코드를 포함하도록 특정할 수 있다.

다른 서브세팅 규칙 또한 특정될 수 있다. 예컨대, 데이터 레코드 카운트가 특정될 수 있다(예컨대, 서브세트가 txn _type="구매"에 해당하는 적어도 100개의 레코드를 포함할 것이다). 통계 파라미터(statistical parameter) 또한 특정될 수 있다(예컨대, 서브세트는 txn _type="구매"에 해당하는 모든 데이터 레코드 및 txn _type="반품"에 해당하는 데이터 레코드의 15%를 포함할 것이다). 수치 파라미터가 특정될 수 있다(예컨대, 서브세트는 데이터 레코드의 세트에서의 백만개의 데이터 레코드 당의 적어도 특정된 개수의 데이터 레코드를 포함할 것이다). 서브세팅 규칙은 사용자(122)에 의해 특정되거나 및/또는 프로파일의 분석(프로파일링 모듈(126)에 의해 생성된) 및/또는 실행의 분석의 결과(커버리지 분석 모듈(128)에 의해 제공된)에 기초하여 서브세팅 모듈(120)에 의해 포뮬레이트될 수 있다.

몇몇 예에서, 복수의 서브세팅 규칙이 데이터 레코드의 세트에 적용될 수 있다. 몇몇 경우에, 이들 복수의 서브세팅 규칙의 적용은 몇몇 데이터 레코드가 서브세트를 위해 복수 회 선택되게 할 수 있다. 서브세트에서 1회보다 많게 나타나는 임의의 데이터 레코드를 제거하기 위해 선택된 데이터 레코드에 중복제거 규칙(deduplication rule)이 적용될 수 있다.

몇몇 예에서, 서브세팅 규칙은 프로파일링 모듈(126)에 의해 생성된 프로파일의 분석에 기초하여 포뮬레이트된다. 프로파일링 모듈(126)은 외측 소스로부터의 입력 없이 또는 사용자(122) 및/또는 커버리지 분석 모듈(128)로부터의 입력으로 데이터 레코드를 분석할 수 있다. 프로파일링 분석의 몇몇 예는 다음과 같다:

카디널러티 (Cardinality) : 몇몇 예에서, 프로파일링 모듈(126)은 데이터 필드의 카디널러티(예컨대, 하나의 세트의 데이터 레코드의 전부에 걸친 데이터 필드에 대한 별개의 값의 개수)를 식별한다. 예컨대, 고객 트랜잭션 레코드의 세트(300)를 프로파일링할 때, 프로파일링 모듈은 낮은 카디널러티(세트(300)의 모든 데이터 레코드에서의 단지 2개의 별개의 값)의 데이터 필드로서의 txn _type를 식별할 수 있다. 데모그래픽 레코드의 세트(350)를 프로파일링할 때, 데이터 필드 state는 임계 카디널러티가 적어도 50으로 설정된다면 카디널러티 50을 갖는 데이터 필드로서 식별될 수 있다. 데이터 필드의 몇몇 또는 전부의 카디널러티는 서브세팅 규칙을 특정하기 위해 서브세팅 모듈(120)에 의해 사용될 수 있다.

분류 (Classification) : 몇몇 예에서, 프로파일링 모듈(126)은 데이터 필드의 데이터를 분류한다. 예컨대, 프로파일링 모듈은 높은 카디널러티 데이터 필드의 값이 분류될 수 있는 별개의 값의 범위("빈")를 식별할 수 있다. 분류된 바와 같이, 데이터 필드는 더 낮은 카디널러티를 가지며, 그러므로 전술한 바와 같이 타겟 데이터 필드로서 식별될 수 있다. 몇몇 경우에, 프로파일링 모듈은 레코드를 분석할 때에 각각의 레코드의 데이터 필드에 대한 값을 분류하지만, 이러한 분류를 저장하지 않는다. 몇몇 경우에, 프로파일링 모듈은 데이터 필드의 값에 대응하는 빈이 저장되는 각각의 레코드에 대한 의사필드를 생성한다. 일례로서, 데모그래픽 레코드의 세트(350)에서의 데이터 필드 income은 높은 카디널러티이다. 프로파일링 모듈은 각각의 레코드에 대한 income 값을 3개의 빈(높음, 중간 또는 낮음) 중의 하나로 분류하고, 카테고리화된 데이터를 저장하기 위해 의사필드 inc_range(356)를 생성한다. 의사필드(356)는 카디널러티 3을 가지며, 이로써 높은 카디널러티 데이터 필드 income가 타겟 데이터 필드로서 식별되지 않을 수도 있는 서브세팅 모듈(120)에 의해 타겟 데이터 필드로서 식별될 수 있다. 몇몇 예에서, 프로파일링 모듈은 높은 카디널러티 데이터 필드가 자동으로 분류될 수 있다는 것을 인지한다. 몇몇 예에서, 사용자는 분류를 위한 데이터 필드를 식별하고, 또한 빈의 개수 및 각각의 빈 내에 들어가는 값의 범위를 특정할 수 있다. 몇몇 예에서, 사용자는 구체적인 데이터 필드를 식별하지 않고서도 분류될 데이터 필드의 특성을 특정한다(예컨대, 사용자는 10과 100 사이의 카디널러티를 갖고 수치값을 갖는 임의의 데이터 필드가 사분위수(quartile)로 카테고리화되도록 특정할 수 있다).

데이터 필드들 간의 관계 (Relationships Among Data Fields) : 몇몇 예에서, 프로파일링 모듈(126)은 단일 데이터 레코드 내의 데이터 필드들 간의 관계를 결정한다. 예컨대, 데이터 레코드 내의 제1 데이터 필드가 각각의 데이터 레코드 내의 제2 데이터 필드에 좌우되면, 제1 데이터 필드와 제2 데이터 필드 중의 하나만이 타겟 데이터 필드로서 고려될 필요가 있다. 예컨대, 데이터 필드 state와 데이터 필드 ZIP은 관련이 있다(즉, ZIP에 대한 값이 state에 대한 값에 좌우된다). 프로파일에서의 이러한 관계의 지시에 기초하여, 서브세팅 모듈(120)은 2개의 관련된 데이터 필드 중의 하나만을 가능한 타겟 데이터 필드로서 고려할 수 있다. 타겟 데이터 필드를 식별함에 있어서 서브세팅 모듈(120)에 의해 데이터 필드들 간의 더욱 복잡한 관계도 식별될 수 있다. 프로파일링 모듈은 예컨대 관련되기가 쉬운 데이터 필드들의 사용자 특정에 의해서와 같이 사용자 입력에 의해 가이드될 수 있다.

데이터 레코드들 간의 관계 (Relationships Among Data Records) : 몇몇 예에서, 프로파일링 모듈(126)은 데이터 레코드의 하나의 세트 내의 또는 데이터 레코드의 상이한 세트들에 걸친 상이한 데이터 레코드들 간의 관계를 결정한다. 예컨대, 프로파일링 모듈은 하나의 세트 내의 몇몇 데이터 레코드가 데이터 필드의 공통적인 값을 통해 연계된다는 것을 인지할 수 있다. 예컨대, 고객 트랜잭션 레코드의 세트(300)는 동일한 고객에 의한 트랜잭션에 대응하는 복수의 데이터 레코드를 포함할 수 있다. 이들 데이터 레코드는 cust _id에 대한 공통적인 값(즉, 조인 키)을 통해 연계된다. 프로파일링 모듈은 또한 제1 세트 내의 제1 데이터 레코드가 데이터 필드의 공통적인 값을 통해 제2 세트 내의 제2 데이터 레코드에 관련된다는 것을 인지할 수 있다. 예컨대, 고객 트랜잭션 레코드의 세트(300)에서의 데이터 레코드는 데이터 필드 cust _id를 통해 데모그래픽 레코드의 세트(350)에서의 데이터 레코드에 연계될 수 있다(즉, 특정한 고객을 위한 트랜잭션 레코드가 그 고객을 위한 데모그래픽 레코드에 연계될 수 있다). 프로파일링 모듈은 예컨대 데이터 레코드를 연계하려고 하는 데이터 필드의 사용자 지정에 의해서와 같이 사용자 입력에 의해 가이드될 수 있다. 프로파일링 모듈은 또한 데이터 레코드의 세트(들)에 연관된 관련 데이터베이스의 스키마(schema)의 분석을 통해 조인 키 또는 다른 관계를 식별하도록 가이드될 수 있다. 몇몇 예에서, 프로파일링 모듈(126)은 데이터 레코드들 간의 관계를 결정하고, 그 관계를 사용자에게 제공하며, 사용자는 그 관계에 대한 정보를 사용하여 서브세팅 모듈(120)에 대한 서브세팅 규칙을 특정할 수 있다.

프로파일에서의 데이터 레코드들 간의 이러한 관계의 지시에 기초하여, 서브세팅 모듈(120)은 조인 키를 서브세팅 규칙의 일부분으로서 특정할 수 있다. 이러한 서브세팅 규칙 하에서, 서브세트에 대해 하나의 데이터 레코드가 선택되면, 조인 키를 통해 그 데이터 레코드에 관련된 다른 데이터 레코드 또한 서브세트를 위해 선택된다(예컨대, 소정의 cust _id를 갖는 하나의 데이터 레코드가 서브세트를 위해 선택되면, 동일한 cust _id를 갖는 다른 데이터 레코드 또한 선택된다).

의사필드 (Pseudofield) : 몇몇 예에서, 프로파일링 모듈(126)은 관련된 데이터 레코드에서의 하나 이상의 데이터 필드에 대한 값의 조작에 의해 결정된 값을 갖는 새로운 의사필드를 생성하고, 의사필드를 타겟 데이터 필드로서 식별한다. 의사필드에 대한 값은 조인 키를 통해 관련되는 데이터 레코드에서의 하나 이상의 데이터 필드에 대한 값들의 조합이어도 된다. 예컨대, 의사필드에 대한 값은 제2 데이터 필드의 공통적인 값을 통해 관련되는 데이터 레코드에 대한 제1 데이터 필드에 대한 모든 값의, 예컨대 합계, 카운트 또는 기타 누적치 등의 누적치와 같은 누적된 값이어도 된다. 의사필드에 대한 값은 또한 누적된 값의 분류이어도 된다. 예컨대, 소정의 고객에 대한 총 트랜잭션 양에 좌우되는 행동을 수행하는 어플리케이션에서의 로직을 어드레스하기 위해, 고객 트랜잭션 레코드의 세트(300)에서 의사필드 total_amt(306)가 생성된다. 소정의 cust _id 값을 갖는 데이터 레코드에 대한 의사필드 total_amt에 대한 값은 그 cust _id 값을 갖는 모든 데이터 레코드에 대한 txn _amt 필드에 대한 값을 합산함으로써 그리고 합계를 3개의 빈(높음, 중간 또는 낮음) 중의 하나로 분류함으로써 결정된다. 그리고나서, 의사필드가 서브세팅 모듈에 의해 타겟 데이터 필드로서 식별될 수 있다.

도 4를 참조하면, 일례의 프로세스에서, 복수의 데이터 레코드가 액세스된다(400). 각각의 데이터 레코드는 복수의 데이터 필드를 갖는다. 복수의 데이터 레코드의 적어도 몇몇에 대한 데이터 필드의 하나 이상에 대한 값이 분석된다(402). 분석에 기초하여 복수의 데이터 레코드의 프로파일이 생성된다(404). 복수의 데이터 레코드의 프로파일은 데이터 레코드의 세트에서의 데이터를 특징짓는 기술하는 정보를 포함한다. 프로파일에 기초하여 적어도 하나의 서브세팅 규칙이 포뮬레이트된다(406). 서브세팅 규칙은 복수의 데이터 레코드로부터의 데이터 레코드의 서브세트가 선택되게 하는 규칙의 스페시피케이션이다. 적어도 하나의 서브세팅 규칙에 기초하여 데이터 레코드의 서브세트가 선택된다(408). 예컨대, 데이터 레코드의 서브세트는 타겟 데이터 필드의 값에 기초하여 및/또는 데이터 필드의 값을 통해 관련되는 데이터 레코드들 간의 관계에 기초하여 선택될 수 있다.

도 5를 참조하면, 또 다른 예의 프로세스에서, 복수의 데이터 레코드가 액세스된다(500). 각각의 데이터 레코드는 복수의 데이터 필드를 갖는다. 복수의 데이터 레코드로부터 데이터 레코드의 제1 서브세트가 선택된다(502). 데이터 레코드의 제1 서브세트는 피시험 어플리케이션과 같은 데이터 처리 어플리케이션에 제공된다(504). 어플리케이션은 다양한 규칙을 구현한다. 데이터 처리 어플리케이션에서의 규칙은 하나 이상의 변수의 값에 실행이 좌우되는(예컨대, 하나 이상의 변수의 값에 의해 실행이 트리거되는) 어플리케이션의 실행 가능 부분이다. 규칙 중의 하나 이상이 데이터 처리 어플리케이션에 의해 실행된 횟수를 지시하는 리포트가 수신된다(506). 리포트에 기초하여, 복수의 데이터 레코드로부터 데이터 레코드의 제2 서브세트가 선택된다(508). 데이터 레코드의 제2 서브세트는 데이터 처리 어플리케이션에 제공된다(510). 예컨대, 제2 서브세트는 이전에 실행되지 않은 규칙이 실행될 수 있도록 또는 어떠한 규칙이 실행될 수 있도록 선택된다.

몇몇 예에서, 프로파일링 모듈(126)에 의해 시행된 프로파일링 분석에 기초하여 새로운 데이터 레코드가 생성될 수 있다. 예컨대, 프로파일링 분석은 데이터 레코드 내의 및 데이터 레코드들 간의 데이터 필드들 간의 관계와 데이터 레코드의 기존의 세트에서의 데이터 필드에 대한 가능한 값의 범위를 알게 해 준다. 데이터 필드 중의 적어도 몇몇이 기존의 데이터 레코드에 대한 정보로부터 계산되거나 결정된 값으로 팝퓰레이트되는 새로운 데이터 레코드가 구성된다. 예컨대 income＞$10,000,000를 요구하는 논리 규칙 또는 요구된 값의 전부가 데이터 레코드의 세트에서 표현되지 않은 복수의 데이터 필드의 특정한 값들의 복잡한 조합을 요구하는 논리 규칙과 같은 어플리케이션에서의 특정한 논리 규칙을 실행되게 할 소스 데이터 세트에서의 데이터 레코드가 없는 때에는, 시험 데이터 생성이 사용될 수 있다. 시험 데이터 생성은 또한 원래 데이터 세트의 프로파일에 부합하는 프로파일을 갖는 새로운 데이터 세트를 생성하기 위해서도 사용될 수 있다. 예컨대, 새로운 데이터 세트는 원래 데이터 레코드의 프라이버시(privacy)를 지키기 위해 원래 데이터 세트의 데이터를 랜덤화함으로써 생성될 수 있다.

몇몇 예에서, 전술한 접근법은 UNIX 운영 체제와 같은 적절한 운영 체제의 제어 하에서 하나 이상의 범용 컴퓨터 상에 호스팅될 수 있는 실행 환경에서 구현된다. 예컨대, 실행 환경은 근거리에 위치하거나(예컨대, SMP 컴퓨터와 같은 멀티프로세서 시스템), 또는 근거리에 분포되거나(예컨대, 클러스터 또는 MPP로서 결합된 복수 프로세서), 또는 원격으로 분포되거나(예컨대, 근거리 통신망(LAN) 및/또는 광역 통신망(WAN)을 통해 결합된 복수 프로세서), 또는 이들의 조합으로 이루어지는 복수의 중앙 처리 장치(CPU)를 사용하는 컴퓨터 시스템의 구성을 포함하는 복수-노드 병렬 컴퓨팅 환경을 포함할 수 있다.

몇몇 경우에, 전술한 접근법은 어플리케이션을 정점(vertex)들 간의 직접 링크(작업 요소의 흐름을 표현하는)에 의해 연결된 정점(콤포넌트 또는 데이터세트를 표현하는)을 포함하는 데이터 흐름 그래프로서 개발하기 위한 시스템에 의해 구현된다. 예컨대, 이러한 환경은 "Managing Parameters for Graph-Based Applications"를 발명의 명칭으로 하는 미국 특허 공개 번호 2007/0011668에 더욱 상세하게 설명되어 있으며, 이 공개 특허는 원용에 의해 본 명세서에 통합된다. 이러한 그래프-기반 컴퓨테이션을 실행하기 위한 시스템은 "EXECUTING COMPUTATIONS EXPRESSED AS GRAPHS"를 발명의 명칭으로 하는 미국 특허 제5,566,072호에 설명되어 있으며, 이 특허 또한 원용에 의해 본 명세서에 통합된다. 이 시스템에 따라 이루어진 데이터흐름 그래프는 프로세스들 간에 정보를 이동시키고 프로세스를 위한 실행 순서를 정하기 위해 정보를 그래프 콤포넌트에 의해 표현된 개별 프로세스들 내로 넣고 꺼내기 위한 방법을 제공한다. 이 시스템은 인터프로세스 통신 방법(예컨대, TCP/IP 또는 UNIX 도메인 소켓을 사용하거나 또는 프로세스들 간에 데이터를 주고받기 위해 공유 메모리를 사용할 수 있는 그래프의 링크에 따른 통신 경로)을 선택하는 알고리즘을 포함한다.

전술한 접근법은 컴퓨터 상의 실행을 위한 소프트웨어를 사용하여 구현될 수 있다. 예컨대, 소프트웨어는 하나 이상의 프로세서, 하나 이상의 데이터 저장 시스템(휘발성 및 비휘발성 메모리 및/또는 저장 요소를 포함한), 하나 이상의 입력 디바이스 또는 포트, 및 하나 이상의 출력 디바이스 또는 포트를 각각 포함하는 하나 이상의 프로그래밍된 또는 프로그래머블 컴퓨터 시스템(분산, 클라이언트/서버, 또는 그리드와 같은 다양한 아키텍처로 될 수도 있는) 상에서 실행되는 하나 이상의 컴퓨터 프로그램에서의 프로시저를 형성한다. 소프트웨어는 예컨대 데이터흐름 그래프의 설계 및 구성에 관련된 기타 서비스를 제공하는 대형 프로그램의 하나 이상의 모듈을 형성할 수 있다. 그래프의 노드 및 요소는 컴퓨터 판독 가능 매체에 저장된 데이터 구조 또는 데이터 레포지터리(data repository)에 저장된 데이터 모델을 따르는 다른 조직화된 데이터로서 구현될 수 있다.

소프트웨어는 범용 또는 특별 용도의 프로그래머블 컴퓨터에 의해 판독 가능한 CD-ROM과 같은 저장 매체 상에 제공되거나 또는 네트워크의 통신 매체를 통해 이 소프트웨어가 실행될 컴퓨터의 저장 매체에 전달될(전파 신호로 인코딩될) 수 있다. 기능의 전부가 특별 용도의 컴퓨터 상에서 수행되거나 또는 코프로세서와 같은 특별 용도의 하드웨어를 사용하여 수행될 수 있다. 소프트웨어는 소프트웨어에 의해 특정된 컴퓨테이션의 상이한 부분이 상이한 컴퓨터에 의해 수행되는 분산 방식으로 구현될 수도 있다. 각각의 이러한 컴퓨터 프로그램은 범용 또는 특별 용도의 프로그래머블 컴퓨터에 의해 판독 가능한 저장 매체 또는 장치 상에 저장되거나 다운로드되어, 저장 매체 또는 장치가 본 명세서에 설명된 프로시저를 수행하기 위해 컴퓨터 시스템에 의해 판독되는 때에 컴퓨터를 구성하고 작동하는 것이 바람직하다. 본 발명의 시스템은 또한 컴퓨터 프로그램과 함께 구성된 컴퓨터 판독 가능 저장 매체로서 구현되도록 고려될 수도 있으며, 이와 같이 구성된 저장 매체는 컴퓨터 시스템으로 하여금 본 명세서에 설명된 기능을 수행하기 위해 특정하고 사전에 정해진 방식으로 작동하도록 한다.

본 발명의 다수의 실시예를 설명하였지만, 본 발명의 사상 및 범위에서 벗어나지 않고서도 다양한 수정이 이루어질 수 있다는 것을 이해할 것이다. 예컨대, 전술한 단계들의 몇몇은 순서에 좌우되지 않으며, 그러므로 설명된 것과는 다른 순서로 수행될 수 있다.

전술한 설명은 예시를 목적으로 하는 것이며, 첨부된 청구항들의 범위에 의해 정해지는 본 발명의 범위를 한정하려는 것은 아니라는 것을 이해할 것이다. 예컨대, 전술한 다수의 기능 단계들은 전체적인 프로세싱에 실질적으로 영향을 주지 않고서도 다른 순서로 수행될 수도 있다. 다른 실시예 또한 이하의 청구항들의 범위 내에 있다.

Claims

데이터 처리 어플리케이션의 시험 도중에 처리 규칙의 실행을 유발하도록 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법으로서,
데이터 레코드의 제1 세트를 획득하는 단계;
처리 규칙을 포함하는 데이터 처리 어플리케이션을 이용하여 상기 데이터 레코드의 제1 세트를 처리하는 단계 ― 처리 규칙은 적어도 하나의 입력값에 대해 동작하고 적어도 하나의 출력값을 생성하며, 상기 처리 규칙이 특정한 데이터 레코드의 처리 도중에 상기 데이터 처리 어플리케이션에 의해 실행되는지 여부는 상기 특정 데이터 레코드의 하나 이상의 데이터 필드 각각에 있는 값에 직접적으로 또는 간접적으로 좌우됨 ―;
상기 처리 규칙이 상기 데이터 레코드의 제1 세트의 처리와 관련하여 실행된 횟수를 나타내는 실행 정보를 수신하는 단계;
데이터 레코드의 제2 세트를 획득하는 단계;
상기 제2 세트 내의 각각의 데이터 레코드의 하나 이상의 데이터 필드에 있는 값을 분석하는 단계 ― 분석하는 것은 상기 데이터 레코드의 제2 세트에 대해 하나 이상의 상기 데이터 필드 각각의 프로파일을 생성하는 것을 포함하며, 데이터 필드의 상기 프로파일은 상기 데이터 필드에 있는 값을 특징짓는 것임 ―;
(i) 생성된 프로파일과 (ii) 상기 처리 규칙이 상기 데이터 레코드의 제1 세트의 처리와 관련하여 실행된 횟수를 나타내는 상기 실행 정보에 기초하여 서브세팅 규칙(subsetting rule)을 획득하는 단계 ― 상기 서브세팅 규칙은 상기 제2 세트 내의 데이터 레코드의 특정한 하나의 데이터 필드를 타겟 데이터 필드로서 식별하는 것을 포함함 ―;
상기 서브세팅 규칙에 따라 상기 데이터 레코드의 제2 세트로부터 데이터 레코드의 서브세트를 선택하는 단계 ― 상기 데이터 레코드의 서브세트의 선택은 상기 타겟 데이터 필드 내의 값에 기초함 ―; 및
상기 데이터 처리 어플리케이션을 이용하여 데이터 레코드의 선택된 서브세트를 처리하는 단계를 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제1항에 있어서,
상기 서브세팅 규칙을 획득하는 단계는 상기 서브세팅 규칙을 포뮬레이트하는 단계를 포함하되, 상기 데이터 필드 중 하나를 상기 타겟 데이터 필드로서 식별하는 것이 상기 데이터 필드 중 식별된 것의 카디널러티(cardinality)에 기초하여 이루어지는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제2항에 있어서,
상기 타겟 데이터 필드는 상기 데이터 레코드의 제2 세트 내에서 별개의 값(distinct value)의 세트를 가지며, 상기 데이터 레코드의 서브세트를 선택하는 단계는 상기 타겟 데이터 필드에 대한 별개의 값의 각각을 갖는 선택된 서브세트에 적어도 하나의 데이터 레코드가 존재하도록 데이터 레코드를 선택하는 단계를 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제1항에 있어서,
상기 프로파일을 생성하는 단계는, 상기 데이터 레코드의 제2 세트 내의 데이터 레코드의 제1 데이터 필드에 대한 값을 분류하는 단계를 포함하며,
상기 서브세팅 규칙을 획득하는 단계는 상기 서브세팅 규칙을 포뮬레이트하는 단계를 포함하되, 상기 분류에 기초하여 상기 제1 데이터 필드를 상기 타겟 데이터 필드로서 식별하는 것을 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제4항에 있어서,
상기 타겟 데이터 필드는 상기 데이터 레코드의 제2 세트 내의 데이터 레코드의 별개의 값의 세트를 가지며, 상기 데이터 레코드의 서브세트를 선택하는 단계는 상기 타겟 데이터 필드에 대한 별개의 값의 각각을 갖는 선택된 서브세트에 적어도 하나의 데이터 레코드가 존재하도록 데이터 레코드를 선택하는 단계를 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제1항에 있어서,
상기 서브세팅 규칙은, 제1 타겟 데이터 필드로서의 제1 데이터 필드 및 제2 타겟 데이터 필드로서의 제2 데이터 필드를 식별하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제6항에 있어서,
상기 데이터 레코드의 서브세트를 선택하는 단계는, 상기 제1 타겟 데이터 필드를 위한 별개의 값의 제1 세트와 상기 제2 타겟 데이터 필드를 위한 별개의 값의 제2 세트의 조합에 기초하여 데이터 레코드의 서브세트를 선택하는 단계를 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제1항에 있어서,
상기 프로파일을 생성하는 단계는, 제1 데이터 필드의 값을 통해 관련된 상기 데이터 레코드의 제2 세트의 데이터 레코드들 간의 관계를 식별하는 단계를 포함하며,
적어도 하나의 상기 서브세팅 규칙은 상기 관계의 식별(identification)을 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제8항에 있어서,
상기 데이터 레코드의 서브세트를 선택하는 단계는,
제1 데이터 레코드를 선택하는 단계; 및
상기 서브세팅 규칙에서 식별된 관계를 통해 상기 제1 데이터 레코드에 관련된 하나 이상의 제2 데이터 레코드를 선택하는 단계
를 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제8항에 있어서,
상기 데이터 레코드들 간의 관계는 상기 데이터 레코드의 제2 세트에서의 데이터 레코드와 데이터 레코드의 제3 세트에서의 데이터 레코드 간의 관계를 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제1항에 있어서,
상기 프로파일을 생성하는 단계는,
상기 데이터 레코드의 제2 세트 내의 데이터 레코드의 적어도 몇몇에 대한 의사필드(pseudofield)를 생성하는 단계; 및
누적된 값(accumulated value)으로 각각의 대응하는 데이터 레코드에 대한 의사필드를 팝퓰레이트하는 단계로서, 제1 데이터 레코드에 대한 상기 누적된 값은 상기 제1 데이터 레코드 및 상기 제1 데이터 레코드에 관련된 적어도 하나의 다른 데이터 레코드에 기초하여 결정되는, 팝퓰레이트하는 단계를 포함하며,
상기 제1 데이터 레코드 및 상기 적어도 하나의 다른 데이터 레코드는 제1 데이터 필드의 값을 통해 관련되는,
데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제11항에 있어서,
상기 누적된 값을, 상기 제1 데이터 레코드의 제2 데이터 필드를 위한 값과 각각의 다른 관련 데이터 레코드에 대한 제2 데이터 필드를 위한 값의 합계에 기초하여 결정하는 단계를 더 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제1항에 있어서,
서브세팅 규칙을 획득하는 단계는 서브세팅 규칙을 수신하는 단계를 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제1항에 있어서,
상기 데이터 레코드의 선택된 서브세트를 데이터 처리 어플리케이션에 제공하는 단계를 더 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제1항에 있어서,
상기 데이터 처리 어플리케이션에 의한 데이터 레코드의 선택된 서브세트의 처리의 결과에 기초하여 제2 서브세팅 규칙을 포뮬레이트하는 단계; 및
상기 제2 서브세팅 규칙에 기초하여 데이터 레코드의 제2 서브세트를 선택하는 단계
를 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
명령을 저장한 비일시적 컴퓨터 판독가능 매체로서, 상기 명령은 컴퓨팅 시스템으로 하여금 데이터 처리 어플리케이션의 시험 도중에 처리 규칙의 실행을 유발하도록 데이터 레코드를 선택하게 하고, 상기 명령은 상기 컴퓨팅 시스템으로 하여금:
데이터 레코드의 제1 세트를 획득하고;
처리 규칙을 포함하는 데이터 처리 어플리케이션을 이용하여 상기 데이터 레코드의 제1 세트를 처리하며 ― 처리 규칙은 적어도 하나의 입력값에 대해 동작하고 적어도 하나의 출력값을 생성하며, 상기 처리 규칙이 특정한 데이터 레코드의 처리 도중에 상기 데이터 처리 어플리케이션에 의해 실행되는지 여부는 상기 특정 데이터 레코드의 하나 이상의 데이터 필드 각각에 있는 값에 직접적으로 또는 간접적으로 좌우됨 ―;
상기 처리 규칙이 상기 데이터 레코드의 제1 세트의 처리와 관련하여 실행된 횟수를 나타내는 실행 정보를 수신하고;
데이터 레코드의 제2 세트를 획득하며;
상기 제2 세트 내의 각각의 데이터 레코드의 하나 이상의 데이터 필드에 있는 값을 분석하고 ― 분석하는 것은 상기 데이터 레코드의 제2 세트에 대해 하나 이상의 상기 데이터 필드 각각의 프로파일을 생성하는 것을 포함하며, 데이터 필드의 상기 프로파일은 상기 데이터 필드에 있는 값을 특징짓는 것임 ―;
(i) 생성된 프로파일과 (ii) 상기 처리 규칙이 상기 데이터 레코드의 제1 세트의 처리와 관련하여 실행된 횟수를 나타내는 상기 실행 정보에 기초하여 서브세팅 규칙을 획득하고 ― 상기 서브세팅 규칙은 상기 제2 세트 내의 데이터 레코드의 특정한 하나의 데이터 필드를 타겟 데이터 필드로서 식별하는 것을 포함함 ―;
상기 서브세팅 규칙에 따라 상기 데이터 레코드의 제2 세트로부터 데이터 레코드의 서브세트를 선택하고 ― 상기 데이터 레코드의 서브세트의 선택은 상기 타겟 데이터 필드 내의 값에 기초함 ―;
상기 데이터 처리 어플리케이션을 이용하여 데이터 레코드의 선택된 서브세트를 처리하도록 하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
데이터 처리 어플리케이션의 시험 도중에 처리 규칙의 실행을 유발하도록 데이터 레코드를 선택하기 위한 컴퓨팅 시스템으로서, 상기 컴퓨팅 시스템은 하나 이상의 프로세서를 포함하며, 상기 프로세서는:
데이터 레코드의 제1 세트를 획득하고;
처리 규칙을 포함하는 데이터 처리 어플리케이션을 이용하여 상기 데이터 레코드의 제1 세트를 처리하며 ― 처리 규칙은 적어도 하나의 입력값에 대해 동작하고 적어도 하나의 출력값을 생성하며, 상기 처리 규칙이 특정한 데이터 레코드의 처리 도중에 상기 데이터 처리 어플리케이션에 의해 실행되는지 여부는 상기 특정 데이터 레코드의 하나 이상의 데이터 필드 각각에 있는 값에 직접적으로 또는 간접적으로 좌우됨 ―;
상기 처리 규칙이 상기 데이터 레코드의 제1 세트의 처리와 관련하여 실행된 횟수를 나타내는 실행 정보를 수신하고;
데이터 레코드의 제2 세트를 획득하며;
상기 제2 세트 내의 각각의 데이터 레코드의 하나 이상의 데이터 필드에 있는 값을 분석하고 ― 분석하는 것은 상기 데이터 레코드의 제2 세트에 대해 하나 이상의 상기 데이터 필드 각각의 프로파일을 생성하는 것을 포함하며, 데이터 필드의 상기 프로파일은 상기 데이터 필드에 있는 값을 특징짓는 것임 ―;
(i) 생성된 프로파일과 (ii) 상기 처리 규칙이 상기 데이터 레코드의 제1 세트의 처리와 관련하여 실행된 횟수를 나타내는 상기 실행 정보에 기초하여 서브세팅 규칙을 획득하고 ― 상기 서브세팅 규칙은 상기 제2 세트 내의 데이터 레코드의 특정한 하나의 데이터 필드를 타겟 데이터 필드로서 식별하는 것을 포함함 ―;
상기 서브세팅 규칙에 따라 상기 데이터 레코드의 제2 세트로부터 데이터 레코드의 세브세트를 선택하고 ― 상기 데이터 레코드의 서브세트의 선택은 상기 타겟 데이터 필드 내의 값에 기초함 ―;
상기 데이터 처리 어플리케이션을 이용하여 데이터 레코드의 선택된 서브세트를 처리하도록 구성되는,
데이터 레코드를 선택하기 위한 컴퓨팅 시스템.
데이터 처리 어플리케이션의 시험 도중에 처리 규칙의 실행을 유발하도록 데이터 레코드를 선택하기 위한 컴퓨팅 시스템으로서,
데이터 레코드의 제1 세트를 획득하기 위한 수단;
처리 규칙을 포함하는 데이터 처리 어플리케이션을 이용하여 상기 데이터 레코드의 제1 세트를 처리하기 위한 수단 ― 처리 규칙은 적어도 하나의 입력값에 대해 동작하고 적어도 하나의 출력값을 생성하며, 상기 처리 규칙이 특정한 데이터 레코드의 처리 도중에 상기 데이터 처리 어플리케이션에 의해 실행되는지 여부는 상기 특정 데이터 레코드의 하나 이상의 데이터 필드 각각에 있는 값에 직접적으로 또는 간접적으로 좌우됨 ―;
상기 처리 규칙이 상기 데이터 레코드의 제1 세트의 처리와 관련하여 실행된 횟수를 나타내는 실행 정보를 수신하기 위한 수단;
데이터 레코드의 제2 세트를 획득하기 위한 수단;
상기 제2 세트 내의 각각의 데이터 레코드의 하나 이상의 데이터 필드에 있는 값을 분석하기 위한 수단 ― 분석하는 것은 상기 데이터 레코드의 제2 세트에 대해 하나 이상의 상기 데이터 필드 각각의 프로파일을 생성하는 것을 포함하며, 데이터 필드의 상기 프로파일은 상기 데이터 필드에 있는 값을 특징짓는 것임 ―;
(i) 생성된 프로파일과 (ii) 상기 처리 규칙이 상기 데이터 레코드의 제1 세트의 처리와 관련하여 실행된 횟수를 나타내는 상기 실행 정보에 기초하여 서브세팅 규칙을 획득하기 위한 수단 ― 상기 서브세팅 규칙은 상기 제2 세트 내의 데이터 레코드의 특정한 하나의 데이터 필드를 타겟 데이터 필드로서 식별하는 것을 포함함 ―;
상기 서브세팅 규칙에 따라 상기 데이터 레코드의 제2 세트로부터 데이터 레코드의 세브세트를 선택하기 위한 수단 ― 상기 데이터 레코드의 서브세트의 선택은 상기 타겟 데이터 필드 내의 값에 기초함 ―; 및
상기 데이터 처리 어플리케이션을 이용하여 데이터 레코드의 선택된 서브세트를 처리하기 위한 수단을 포함하는, 데이터 레코드를 선택하기 위한 컴퓨팅 시스템.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
제16항에 있어서,
상기 서브세팅 규칙을 획득하는 것은 상기 서브세팅 규칙을 포뮬레이트하는 것을 포함하되, 상기 데이터 필드 중 하나를 상기 타겟 데이터 필드로서 식별하는 것이 상기 데이터 필드 중 식별된 것의 카디널러티에 기초하여 이루어지는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제34항에 있어서,
상기 타겟 데이터 필드는 상기 데이터 레코드의 제2 세트 내에서 별개의 값의 세트를 가지며, 상기 데이터 레코드의 서브세트를 선택하는 것은 상기 타겟 데이터 필드에 대한 별개의 값의 각각을 갖는 선택된 서브세트에 적어도 하나의 데이터 레코드가 존재하도록 데이터 레코드를 선택하는 것을 포함하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제16항에 있어서,
상기 프로파일을 생성하는 것은, 상기 데이터 레코드의 제2 세트 내의 데이터 레코드의 제1 데이터 필드에 대한 값을 분류하는 것을 포함하며,
상기 서브세팅 규칙을 획득하는 것은 상기 서브세팅 규칙을 포뮬레이트하는 것을 포함하되, 상기 분류에 기초하여 상기 제1 데이터 필드를 상기 타겟 데이터 필드로서 식별하는 것을 포함하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제36항에 있어서,
상기 타겟 데이터 필드는 상기 데이터 레코드의 제2 세트 내의 데이터 레코드의 별개의 값의 세트를 가지며, 상기 데이터 레코드의 서브세트를 선택하는 것은 상기 타겟 데이터 필드에 대한 별개의 값의 각각을 갖는 선택된 서브세트에 적어도 하나의 데이터 레코드가 존재하도록 데이터 레코드를 선택하는 것을 포함하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제16항에 있어서,
상기 서브세팅 규칙은, 제1 타겟 데이터 필드로서의 제1 데이터 필드 및 제2 타겟 데이터 필드로서의 제2 데이터 필드를 식별하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제38항에 있어서,
상기 데이터 레코드의 서브세트를 선택하는 것은, 상기 제1 타겟 데이터 필드를 위한 별개의 값의 제1 세트와 상기 제2 타겟 데이터 필드를 위한 별개의 값의 제2 세트의 조합에 기초하여 데이터 레코드의 서브세트를 선택하는 것을 포함하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제16항에 있어서,
상기 프로파일을 생성하는 것은, 제1 데이터 필드의 값을 통해 관련된 상기 데이터 레코드의 제2 세트의 데이터 레코드들 간의 관계를 식별하는 것을 포함하며,
적어도 하나의 상기 서브세팅 규칙은 상기 관계의 식별을 포함하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제40항에 있어서,
상기 데이터 레코드의 서브세트를 선택하는 것은,
제1 데이터 레코드를 선택하는 것; 및
상기 서브세팅 규칙에서 식별된 관계를 통해 상기 제1 데이터 레코드에 관련된 하나 이상의 제2 데이터 레코드를 선택하는 것을 포함하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제16항에 있어서,
상기 프로파일을 생성하는 것은,
상기 데이터 레코드의 제2 세트 내의 데이터 레코드의 적어도 몇몇에 대한 의사필드를 생성하는 것; 및
누적된 값으로 각각의 대응하는 데이터 레코드에 대한 의사필드를 팝퓰레이트하는 것으로서, 제1 데이터 레코드에 대한 상기 누적된 값은 상기 제1 데이터 레코드 및 상기 제1 데이터 레코드에 관련된 적어도 하나의 다른 데이터 레코드에 기초하여 결정되는, 팝퓰레이트하는 것을 포함하며,
상기 제1 데이터 레코드 및 상기 적어도 하나의 다른 데이터 레코드는 제1 데이터 필드의 값을 통해 관련되는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제42항에 있어서,
컴퓨팅 시스템으로 하여금, 상기 누적된 값을, 상기 제1 데이터 레코드의 제2 데이터 필드를 위한 값과 각각의 다른 관련 데이터 레코드에 대한 제2 데이터 필드를 위한 값의 합계에 기초하여 결정하도록 하는 명령을 더 포함하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제16항에 있어서,
컴퓨팅 시스템으로 하여금, 상기 데이터 레코드의 선택된 서브세트를 데이터 처리 어플리케이션에 제공하도록 하는 명령을 더 포함하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제16항에 있어서,
컴퓨팅 시스템으로 하여금:
상기 데이터 처리 어플리케이션에 의한 데이터 레코드의 선택된 서브세트의 처리의 결과에 기초하여 제2 서브세팅 규칙을 포뮬레이트하고;
상기 제2 서브세팅 규칙에 기초하여 데이터 레코드의 제2 서브세트를 선택하도록 하는 명령을 더 포함하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제17항에 있어서,
상기 서브세팅 규칙을 획득하는 것은 상기 서브세팅 규칙을 포뮬레이트하는 것을 포함하되, 상기 데이터 필드 중 하나를 상기 타겟 데이터 필드로서 식별하는 것이 상기 데이터 필드 중 식별된 것의 카디널러티에 기초하여 이루어지는, 데이터 레코드를 선택하기 위한 컴퓨팅 시스템.
제46항에 있어서,
상기 타겟 데이터 필드는 상기 데이터 레코드의 제2 세트 내에서 별개의 값의 세트를 가지며, 상기 데이터 레코드의 서브세트를 선택하는 것은 상기 타겟 데이터 필드에 대한 별개의 값의 각각을 갖는 선택된 서브세트에 적어도 하나의 데이터 레코드가 존재하도록 데이터 레코드를 선택하는 것을 포함하는, 데이터 레코드를 선택하기 위한 컴퓨팅 시스템.
제17항에 있어서,
상기 프로파일을 생성하는 것은, 상기 데이터 레코드의 제2 세트 내의 데이터 레코드의 제1 데이터 필드에 대한 값을 분류하는 것을 포함하며,
상기 서브세팅 규칙을 획득하는 것은 상기 서브세팅 규칙을 포뮬레이트하는 것을 포함하되, 상기 분류에 기초하여 상기 제1 데이터 필드를 상기 타겟 데이터 필드로서 식별하는 것을 포함하는, 데이터 레코드를 선택하기 위한 컴퓨팅 시스템.
제48항에 있어서,
상기 타겟 데이터 필드는 상기 데이터 레코드의 제2 세트 내의 데이터 레코드의 별개의 값의 세트를 가지며, 상기 데이터 레코드의 서브세트를 선택하는 것은 상기 타겟 데이터 필드에 대한 별개의 값의 각각을 갖는 선택된 서브세트에 적어도 하나의 데이터 레코드가 존재하도록 데이터 레코드를 선택하는 것을 포함하는, 데이터 레코드를 선택하기 위한 컴퓨팅 시스템.
제17항에 있어서,
상기 서브세팅 규칙은, 제1 타겟 데이터 필드로서의 제1 데이터 필드 및 제2 타겟 데이터 필드로서의 제2 데이터 필드를 식별하는, 데이터 레코드를 선택하기 위한 컴퓨팅 시스템.
제50항에 있어서,
상기 데이터 레코드의 서브세트를 선택하는 것은, 상기 제1 타겟 데이터 필드를 위한 별개의 값의 제1 세트와 상기 제2 타겟 데이터 필드를 위한 별개의 값의 제2 세트의 조합에 기초하여 데이터 레코드의 서브세트를 선택하는 것을 포함하는, 데이터 레코드를 선택하기 위한 컴퓨팅 시스템.
제17항에 있어서,
상기 프로파일을 생성하는 것은, 제1 데이터 필드의 값을 통해 관련된 상기 데이터 레코드의 제2 세트의 데이터 레코드들 간의 관계를 식별하는 것을 포함하며,
적어도 하나의 상기 서브세팅 규칙은 상기 관계의 식별을 포함하는, 데이터 레코드를 선택하기 위한 컴퓨팅 시스템.
제52항에 있어서,
상기 데이터 레코드의 서브세트를 선택하는 것은,
제1 데이터 레코드를 선택하는 것; 및
상기 서브세팅 규칙에서 식별된 관계를 통해 상기 제1 데이터 레코드에 관련된 하나 이상의 제2 데이터 레코드를 선택하는 것을 포함하는, 데이터 레코드를 선택하기 위한 컴퓨팅 시스템.
제17항에 있어서,
상기 프로파일을 생성하는 것은,
상기 데이터 레코드의 제2 세트 내의 데이터 레코드의 적어도 몇몇에 대한 의사필드를 생성하는 것; 및
누적된 값으로 각각의 대응하는 데이터 레코드에 대한 의사필드를 팝퓰레이트하는 것으로서, 제1 데이터 레코드에 대한 상기 누적된 값은 상기 제1 데이터 레코드 및 상기 제1 데이터 레코드에 관련된 적어도 하나의 다른 데이터 레코드에 기초하여 결정되는, 팝퓰레이트하는 것을 포함하며,
상기 제1 데이터 레코드 및 상기 적어도 하나의 다른 데이터 레코드는 제1 데이터 필드의 값을 통해 관련되는, 데이터 레코드를 선택하기 위한 컴퓨팅 시스템.
제54항에 있어서,
상기 프로세서는, 상기 누적된 값을, 상기 제1 데이터 레코드의 제2 데이터 필드를 위한 값과 각각의 다른 관련 데이터 레코드에 대한 제2 데이터 필드를 위한 값의 합계에 기초하여 결정하도록 더 구성되는, 데이터 레코드를 선택하기 위한 컴퓨팅 시스템.
제17항에 있어서,
상기 프로세서는, 상기 데이터 레코드의 선택된 서브세트를 데이터 처리 어플리케이션에 제공하도록 더 구성되는, 데이터 레코드를 선택하기 위한 컴퓨팅 시스템.
제17항에 있어서,
상기 프로세서는:
상기 데이터 처리 어플리케이션에 의한 데이터 레코드의 선택된 서브세트의 처리의 결과에 기초하여 제2 서브세팅 규칙을 포뮬레이트하고;
상기 제2 서브세팅 규칙에 기초하여 데이터 레코드의 제2 서브세트를 선택하도록 더 구성되는, 데이터 레코드를 선택하기 위한 컴퓨팅 시스템.
데이터 처리 어플리케이션의 시험 도중에 처리 규칙의 실행을 유발하도록 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법으로서,
데이터 레코드의 제1 세트를 획득하는 단계;
적어도 하나의 입력값에 대해 동작하고 적어도 하나의 출력값을 생성하는 처리 규칙을 포함하는 데이터 처리 어플리케이션을 이용하여 상기 데이터 레코드의 제1 세트를 데이터 처리 시스템 내에서 처리하는 단계 ― 상기 처리 규칙이 특정한 데이터 레코드의 처리 도중에 상기 데이터 처리 어플리케이션에 의해 실행되는지 여부는 상기 특정 데이터 레코드의 하나 이상의 데이터 필드 각각에 있는 값에 직접적으로 또는 간접적으로 좌우됨 ―;
상기 처리 규칙이 상기 데이터 레코드의 제1 세트의 처리와 관련하여 실행된 횟수를 나타내는 실행 정보를 수신하는 단계;
데이터 레코드의 제2 세트를 획득하는 단계;
상기 제2 세트 내의 각각의 데이터 레코드의 하나 이상의 데이터 필드에 있는 값을 특징짓는 단계;
상기 제2 세트 내의 데이터 레코드의 특정한 하나의 데이터 필드를 타겟 데이터 필드로서 식별하는 식별 기준을 결정하는 단계 ― 식별 기준은 (i) 상기 제2 세트 내의 각각의 데이터 레코드의 하나 이상의 데이터 필드에 있는 값을 특징짓는 것과 (ii) 상기 처리 규칙이 상기 데이터 레코드의 제1 세트의 처리와 관련하여 실행된 횟수를 나타내는 상기 실행 정보에 기초하는 것임 ―;
상기 식별 기준을 적용하여, 상기 타겟 데이터 필드에 있는 값에 기초해 상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하는 단계; 및
상기 데이터 처리 어플리케이션을 이용하여, 선택된 하나 이상의 데이터 레코드를 처리하는 단계를 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제58항에 있어서,
상기 제2 세트 내의 데이터 레코드의 하나 이상의 데이터 필드 각각의 카디널러티에 기초하여 상기 제2 세트 내의 데이터 레코드의 특정한 하나의 데이터 필드를 타겟 데이터 필드로서 식별하는 것을 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제59항에 있어서,
상기 제2 세트 내의 데이터 레코드에 걸쳐 상기 타겟 데이터 필드에 다수의 별개의 값이 존재하며, 상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하는 것은 상기 타겟 데이터 필드에서 각각의 상기 별개의 값을 갖는 적어도 하나의 데이터 레코드를 선택하는 것을 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제58항에 있어서,
상기 타겟 데이터 필드는 제1 타겟 데이터 필드이고, 상기 제2 세트 내의 데이터 레코드의 데이터 필드 중 제2의 특정한 데이터 필드를 제2 타겟 데이터 필드로서 식별하는 것을 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제61항에 있어서,
상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하는 것은 상기 제1 타겟 데이터 필드에 있는 값과 상기 제2 타겟 데이터 필드에 있는 값의 조합에 기초하여 데이터 레코드를 선택하는 것을 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제62항에 있어서,
상기 제2 세트 내의 데이터 레코드에 걸쳐 상기 제1 타겟 데이터 필드에 다수의 별개의 값이 존재하고 상기 제2 세트 내의 데이터 레코드에 걸쳐 상기 제2 타겟 데이터 필드에 다수의 별개의 값이 존재하며, 상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하는 것은 상기 제1 타겟 데이터 필드에 있는 별개의 값과 상기 제2 타겟 데이터 필드에 있는 별개의 값의 조합에 기초하여 데이터 레코드를 선택하는 것을 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제58항에 있어서,
하나 이상의 데이터 필드에 있는 값을 특징짓는 것은 상기 데이터 레코드의 제2 세트 내의 둘 이상의 데이터 레코드 사이의 관계를 나타내는 값을 갖는 제1 데이터 필드를 식별하는 것을 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제64항에 있어서,
상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하는 것은: 제1 데이터 레코드를 선택하는 것; 상기 제1 데이터 레코드의 제1 데이터 필드에 있는 값에 기초하여 상기 제1 데이터 레코드와 관련되는 하나 이상의 제2 데이터 레코드를 식별하는 것; 및 상기 하나 이상의 제2 데이터 레코드를 선택하는 것을 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제64항에 있어서,
상기 제1 데이터 레코드의 제2 데이터 필드에 있는 값과 상기 제1 데이터 레코드와 관련되는 둘 이상의 데이터 레코드 각각에 대하여 상기 제2 데이터 필드에 있는 값에 기초하여 상기 제1 데이터 레코드에 대한 누적된 값을 결정하는 단계; 상기 제1 데이터 레코드에 대한 새로운 필드를 생성하는 단계; 및 상기 새로운 필드를 상기 누적된 값으로 팝퓰레이트하는 단계를 더 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제66항에 있어서,
상기 누적된 값을 결정하는 단계는, 상기 제1 데이터 레코드의 제2 데이터 필드에 있는 값과 상기 제1 데이터 레코드와 관련되는 둘 이상의 데이터 레코드 각각에 대하여 상기 제2 데이터 필드에 있는 값의 합계에 기초하여 상기 누적된 값을 결정하는 단계를 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
제66항에 있어서,
상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하는 것은 상기 데이터 레코드의 제2 세트 내의 하나 이상의 데이터 레코드 각각에 대한 상기 새로운 필드 내의 상기 누적된 값에 기초하여 상기 하나 이상의 데이터 레코드를 선택하는 것을 포함하는, 데이터 레코드를 선택하기 위한 컴퓨터 구현 방법.
데이터 처리 어플리케이션의 시험 도중에 처리 규칙의 실행을 유발하도록 데이터 레코드를 선택하기 위한 시스템으로서, 적어도 하나의 프로세서를 포함하고, 상기 프로세서는:
데이터 레코드의 제1 세트를 획득하고;
적어도 하나의 입력값에 대해 동작하고 적어도 하나의 출력값을 생성하는 처리 규칙을 포함하는 데이터 처리 어플리케이션을 이용하여 상기 데이터 레코드의 제1 세트를 데이터 처리 시스템 내에서 처리하며 ― 상기 처리 규칙이 특정한 데이터 레코드의 처리 도중에 상기 데이터 처리 어플리케이션에 의해 실행되는지 여부는 상기 특정 데이터 레코드의 하나 이상의 데이터 필드 각각에 있는 값에 직접적으로 또는 간접적으로 좌우됨 ―;
상기 처리 규칙이 상기 데이터 레코드의 제1 세트의 처리와 관련하여 실행된 횟수를 나타내는 실행 정보를 수신하고;
데이터 레코드의 제2 세트를 획득하고;
상기 제2 세트 내의 각각의 데이터 레코드의 하나 이상의 데이터 필드에 있는 값을 특징짓고;
상기 제2 세트 내의 데이터 레코드의 특정한 하나의 데이터 필드를 타겟 데이터 필드로서 식별하는 식별 기준을 결정하고 ― 식별 기준은 (i) 상기 제2 세트 내의 각각의 데이터 레코드의 하나 이상의 데이터 필드에 있는 값을 특징짓는 것과 (ii) 상기 처리 규칙이 상기 데이터 레코드의 제1 세트의 처리와 관련하여 실행된 횟수를 나타내는 상기 실행 정보에 기초하는 것임 ―;
상기 식별 기준을 적용하여, 상기 타겟 데이터 필드에 있는 값에 기초해 상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하며;
상기 데이터 처리 어플리케이션을 이용하여, 선택된 하나 이상의 데이터 레코드를 처리하도록 구성되는, 데이터 레코드를 선택하기 위한 시스템.
제69항에 있어서,
상기 적어도 하나의 프로세서는, 상기 제2 세트 내의 데이터 레코드의 하나 이상의 데이터 필드 각각의 카디널러티에 기초하여 상기 제2 세트 내의 데이터 레코드의 특정한 하나의 데이터 필드를 타겟 데이터 필드로서 식별하도록 구성되는, 데이터 레코드를 선택하기 위한 시스템.
제70항에 있어서,
상기 제2 세트 내의 데이터 레코드에 걸쳐 상기 타겟 데이터 필드에 다수의 별개의 값이 존재하며, 상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하는 것은 상기 타겟 데이터 필드에서 각각의 상기 별개의 값을 갖는 적어도 하나의 데이터 레코드를 선택하는 것을 포함하는, 데이터 레코드를 선택하기 위한 시스템.
제69항에 있어서,
상기 타겟 데이터 필드는 제1 타겟 데이터 필드이고, 상기 적어도 하나의 프로세서는 상기 제2 세트 내의 데이터 레코드의 데이터 필드 중 제2의 특정한 데이터 필드를 제2 타겟 데이터 필드로서 식별하도록 구성되는, 데이터 레코드를 선택하기 위한 시스템.
제72항에 있어서,
상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하는 것은 상기 제1 타겟 데이터 필드에 있는 값과 상기 제2 타겟 데이터 필드에 있는 값의 조합에 기초하여 데이터 레코드를 선택하는 것을 포함하는, 데이터 레코드를 선택하기 위한 시스템.
제73항에 있어서,
상기 제2 세트 내의 데이터 레코드에 걸쳐 상기 제1 타겟 데이터 필드에 다수의 별개의 값이 존재하고 상기 제2 세트 내의 데이터 레코드에 걸쳐 상기 제2 타겟 데이터 필드에 다수의 별개의 값이 존재하며, 상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하는 것은 상기 제1 타겟 데이터 필드에 있는 별개의 값과 상기 제2 타겟 데이터 필드에 있는 별개의 값의 조합에 기초하여 데이터 레코드를 선택하는 것을 포함하는, 데이터 레코드를 선택하기 위한 시스템.
제69항에 있어서,
하나 이상의 데이터 필드에 있는 값을 특징짓는 것은 상기 데이터 레코드의 제2 세트 내의 둘 이상의 데이터 레코드 사이의 관계를 나타내는 값을 갖는 제1 데이터 필드를 식별하는 것을 포함하는, 데이터 레코드를 선택하기 위한 시스템.
제75항에 있어서,
상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하는 것은: 제1 데이터 레코드를 선택하는 것; 상기 제1 데이터 레코드의 제1 데이터 필드에 있는 값에 기초하여 상기 제1 데이터 레코드와 관련되는 하나 이상의 제2 데이터 레코드를 식별하는 것; 및 상기 하나 이상의 제2 데이터 레코드를 선택하는 것을 포함하는, 데이터 레코드를 선택하기 위한 시스템.
제75항에 있어서,
상기 적어도 하나의 프로세서는, 상기 제1 데이터 레코드의 제2 데이터 필드에 있는 값과 상기 제1 데이터 레코드와 관련되는 둘 이상의 데이터 레코드 각각에 대하여 상기 제2 데이터 필드에 있는 값에 기초하여 상기 제1 데이터 레코드에 대한 누적된 값을 결정하고; 상기 제1 데이터 레코드에 대한 새로운 필드를 생성하며; 상기 새로운 필드를 상기 누적된 값으로 팝퓰레이트하도록 구성되는, 데이터 레코드를 선택하기 위한 시스템.
제77항에 있어서,
상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하는 것은 상기 데이터 레코드의 제2 세트 내의 하나 이상의 데이터 레코드 각각에 대한 상기 새로운 필드 내의 상기 누적된 값에 기초하여 상기 하나 이상의 데이터 레코드를 선택하는 것을 포함하는, 데이터 레코드를 선택하기 위한 시스템.
명령을 저장한 비일시적 컴퓨터 판독가능 매체로서, 상기 명령은 컴퓨터 시스템으로 하여금 데이터 처리 어플리케이션의 시험 도중에 처리 규칙의 실행을 유발하도록 데이터 레코드를 선택하게 하고, 상기 명령은 상기 컴퓨터 시스템으로 하여금:
데이터 레코드의 제1 세트를 획득하고;
적어도 하나의 입력값에 대해 동작하고 적어도 하나의 출력값을 생성하는 처리 규칙을 포함하는 데이터 처리 어플리케이션을 이용하여 상기 데이터 레코드의 제1 세트를 데이터 처리 시스템 내에서 처리하며 ― 상기 처리 규칙이 특정한 데이터 레코드의 처리 도중에 상기 데이터 처리 어플리케이션에 의해 실행되는지 여부는 상기 특정 데이터 레코드의 하나 이상의 데이터 필드 각각에 있는 값에 직접적으로 또는 간접적으로 좌우됨 ―;
상기 처리 규칙이 상기 데이터 레코드의 제1 세트의 처리와 관련하여 실행된 횟수를 나타내는 실행 정보를 수신하고;
데이터 레코드의 제2 세트를 획득하고;
상기 제2 세트 내의 각각의 데이터 레코드의 하나 이상의 데이터 필드에 있는 값을 특징짓고;
상기 제2 세트 내의 데이터 레코드의 특정한 하나의 데이터 필드를 타겟 데이터 필드로서 식별하는 식별 기준을 결정하고 ― 식별 기준은 (i) 상기 제2 세트 내의 각각의 데이터 레코드의 하나 이상의 데이터 필드에 있는 값을 특징짓는 것과 (ii) 상기 처리 규칙이 상기 데이터 레코드의 제1 세트의 처리와 관련하여 실행된 횟수를 나타내는 상기 실행 정보에 기초하는 것임 ―;
상기 식별 기준을 적용하여, 상기 타겟 데이터 필드에 있는 값에 기초해 상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하며;
상기 데이터 처리 어플리케이션을 이용하여, 선택된 하나 이상의 데이터 레코드를 처리하도록 하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제79항에 있어서,
상기 명령은 상기 컴퓨터 시스템으로 하여금, 상기 제2 세트 내의 데이터 레코드의 하나 이상의 데이터 필드 각각의 카디널러티에 기초하여 상기 제2 세트 내의 데이터 레코드의 특정한 하나의 데이터 필드를 타겟 데이터 필드로서 식별하도록 하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제80항에 있어서,
상기 제2 세트 내의 데이터 레코드에 걸쳐 상기 타겟 데이터 필드에 다수의 별개의 값이 존재하며, 상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하는 것은 상기 타겟 데이터 필드에서 각각의 상기 별개의 값을 갖는 적어도 하나의 데이터 레코드를 선택하는 것을 포함하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제79항에 있어서,
상기 타겟 데이터 필드는 제1 타겟 데이터 필드이고, 상기 명령은 상기 컴퓨터 시스템으로 하여금, 상기 제2 세트 내의 데이터 레코드의 데이터 필드 중 제2의 특정한 데이터 필드를 제2 타겟 데이터 필드로서 식별하도록 하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제82항에 있어서,
상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하는 것은 상기 제1 타겟 데이터 필드에 있는 값과 상기 제2 타겟 데이터 필드에 있는 값의 조합에 기초하여 데이터 레코드를 선택하는 것을 포함하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제83항에 있어서,
상기 제2 세트 내의 데이터 레코드에 걸쳐 상기 제1 타겟 데이터 필드에 다수의 별개의 값이 존재하고 상기 제2 세트 내의 데이터 레코드에 걸쳐 상기 제2 타겟 데이터 필드에 다수의 별개의 값이 존재하며, 상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하는 것은 상기 제1 타겟 데이터 필드에 있는 별개의 값과 상기 제2 타겟 데이터 필드에 있는 별개의 값의 조합에 기초하여 데이터 레코드를 선택하는 것을 포함하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제79항에 있어서,
하나 이상의 데이터 필드에 있는 값을 특징짓는 것은 상기 데이터 레코드의 제2 세트 내의 둘 이상의 데이터 레코드 사이의 관계를 나타내는 값을 갖는 제1 데이터 필드를 식별하는 것을 포함하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제85항에 있어서,
상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하는 것은: 제1 데이터 레코드를 선택하는 것; 상기 제1 데이터 레코드의 제1 데이터 필드에 있는 값에 기초하여 상기 제1 데이터 레코드와 관련되는 하나 이상의 제2 데이터 레코드를 식별하는 것; 및 상기 하나 이상의 제2 데이터 레코드를 선택하는 것을 포함하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제85항에 있어서,
상기 명령은 상기 컴퓨터 시스템으로 하여금, 상기 제1 데이터 레코드의 제2 데이터 필드에 있는 값과 상기 제1 데이터 레코드와 관련되는 둘 이상의 데이터 레코드 각각에 대하여 상기 제2 데이터 필드에 있는 값에 기초하여 상기 제1 데이터 레코드에 대한 누적된 값을 결정하고; 상기 제1 데이터 레코드에 대한 새로운 필드를 생성하며; 상기 새로운 필드를 상기 누적된 값으로 팝퓰레이트하도록 하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
제87항에 있어서,
상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하는 것은 상기 데이터 레코드의 제2 세트 내의 하나 이상의 데이터 레코드 각각에 대한 상기 새로운 필드 내의 상기 누적된 값에 기초하여 상기 하나 이상의 데이터 레코드를 선택하는 것을 포함하는, 명령을 저장한 비일시적 컴퓨터 판독가능 매체.
데이터 처리 어플리케이션의 시험 도중에 처리 규칙의 실행을 유발하도록 데이터 레코드를 선택하기 위한 시스템으로서,
데이터 레코드의 제1 세트를 획득하기 위한 수단;
적어도 하나의 입력값에 대해 동작하고 적어도 하나의 출력값을 생성하는 처리 규칙을 포함하는 데이터 처리 어플리케이션을 이용하여 상기 데이터 레코드의 제1 세트를 데이터 처리 시스템 내에서 처리하기 위한 수단 ― 상기 처리 규칙이 특정한 데이터 레코드의 처리 도중에 상기 데이터 처리 어플리케이션에 의해 실행되는지 여부는 상기 특정 데이터 레코드의 하나 이상의 데이터 필드 각각에 있는 값에 직접적으로 또는 간접적으로 좌우됨 ―;
상기 처리 규칙이 상기 데이터 레코드의 제1 세트의 처리와 관련하여 실행된 횟수를 나타내는 실행 정보를 수신하기 위한 수단;
데이터 레코드의 제2 세트를 획득하기 위한 수단;
상기 제2 세트 내의 각각의 데이터 레코드의 하나 이상의 데이터 필드에 있는 값을 특징짓기 위한 수단;
상기 제2 세트 내의 데이터 레코드의 특정한 하나의 데이터 필드를 타겟 데이터 필드로서 식별하는 식별 기준을 결정하기 위한 수단 ― 식별 기준은 (i) 상기 제2 세트 내의 각각의 데이터 레코드의 하나 이상의 데이터 필드에 있는 값을 특징짓는 것과 (ii) 상기 처리 규칙이 상기 데이터 레코드의 제1 세트의 처리와 관련하여 실행된 횟수를 나타내는 상기 실행 정보에 기초하는 것임 ―;
상기 식별 기준을 적용하여, 상기 타겟 데이터 필드에 있는 값에 기초해 상기 데이터 레코드의 제2 세트로부터 하나 이상의 데이터 레코드를 선택하기 위한 수단; 및
상기 데이터 처리 어플리케이션을 이용하여, 선택된 하나 이상의 데이터 레코드를 처리하기 위한 수단을 포함하는, 데이터 레코드를 선택하기 위한 시스템.