KR102279859B1 - 파라미터 세트의 관리 - Google Patents

파라미터 세트의 관리 Download PDF

Info

Publication number
KR102279859B1
KR102279859B1 KR1020177004178A KR20177004178A KR102279859B1 KR 102279859 B1 KR102279859 B1 KR 102279859B1 KR 1020177004178 A KR1020177004178 A KR 1020177004178A KR 20177004178 A KR20177004178 A KR 20177004178A KR 102279859 B1 KR102279859 B1 KR 102279859B1
Authority
KR
South Korea
Prior art keywords
parameter values
computer program
generic computer
sets
parameter
Prior art date
Application number
KR1020177004178A
Other languages
English (en)
Other versions
KR20170031749A (ko
Inventor
에드워드 바흐
리차드 오바도르프
브론드 라슨
Original Assignee
아브 이니티오 테크놀로지 엘엘시
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아브 이니티오 테크놀로지 엘엘시 filed Critical 아브 이니티오 테크놀로지 엘엘시
Publication of KR20170031749A publication Critical patent/KR20170031749A/ko
Application granted granted Critical
Publication of KR102279859B1 publication Critical patent/KR102279859B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/119Details of migration of file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/10Requirements analysis; Specification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/34Graphical or visual programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/448Execution paradigms, e.g. implementations of programming paradigms
    • G06F9/4494Execution paradigms, e.g. implementations of programming paradigms data driven
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Hardware Design (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Stored Programmes (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

파라미터 값들의 세트들을 관리하는 것은 제네릭 컴퓨터 프로그램(202)에 대한 복수의 파라미터 값들의 세트들(448)을 수신하는 것, 및 상기 제네릭 컴퓨터 프로그램의 인스턴스들-각각의 인스턴스는 하나 이상의 파라미터 값들과 관련됨-의 실행들과 관련된 로그 엔트리들(428)을 처리하는 것을 포함한다. 상기 처리하는 것은 제1 클래스 또는 제2 클래스(426)의 멤버로 상기 제네릭 컴퓨터 프로그램과 관련된 하나 이상의 파라미터들 각각을 분류하기 위해 상기 제네릭 컴퓨터 프로그램을 분석하는 것; 파라미터 값들의 특정 세트를 형성하기 위해 상기 제네릭 컴퓨터 프로그램의 제1 인스턴스의 실행과 관련된 로그 엔트리(429)를 처리하는 것; 및 상기 파라미터 값들의 특정 세트에 대한 제1 식별자와 상기 파라미터 값들의 세트들의 적어도 일부에 대한 식별자들의 비교에 기초하여 상기 복수의 파라미터들의 세트들에 상기 파라미터 값들의 특정 세트를 추가할지 결정하는 것을 포함한다.

Description

파라미터 세트의 관리{MANAGING PARAMETER SETS}
본 출원은 2014년 7월 18일에 출원된 미국 출원 번호 62/026,228에 대해 우선권을 주장한다.
본 명세서는 파라미터 세트들을 관리하는 것에 관련된다.
데이터 처리 시스템에서 종종 특정 유형의 사용자들이 데이터가 그 시스템을 통과할 때 데이터의 계보(lineage)의 보고서들에 액세스할 수 있는 것이 바람직하다. 매우 일반적으로, 여러 용도 중에서, 이러한 “데이터 계보” 보고서들은 위험을 감소시키고, 규정 준수 의무를 확인하며, 비즈니스 프로세스를 간소화하고, 데이터를 보호하는 데 사용될 수 있다. 데이터 계보 보고서들은 정확하고 완전해야 한다.
본 발명의 목적은 파라미터의 세트들을 관리하기 위한 방법, 파라미터의 세트들을 관리하기 위해 컴퓨터 판독가능한 매체상에 비일시적 형태로 저장된 소프트웨어, 및 파라미터의 세트들을 관리하기 위한 컴퓨팅 시스템을 제공하기 위한 것이다.
일 측면에서, 일반적으로, 이러한 파라미터 값들의 세트들을 사용하여 인스턴스화 되었던 제네릭 컴퓨터 프로그램들의 인스턴스들 간의 관계들을 반영하는 계보 정보 파라미터 값들의 세트들을 관리하는 것이 더 정확하고 완전한 데이터 계보 보고서들의 생성을 가능하게 한다.
일 측면에서, 일반적으로, 파라미터 값들의 세트들을 관리하기 위한 방법은 제네릭 컴퓨터 프로그램(generic computer program)에 대한 복수의 파라미터 값들의 세트들을 수신하는 단계, 및 상기 제네릭 컴퓨터 프로그램의 인스턴스들의 실행들과 관련된 로그 엔트리들을 처리하는 단계 - 상기 제네릭 컴퓨터 프로그램의 각각의 인스턴스는 적어도 하나의 파라미터 값들과 관련됨 - 를 포함한다. 상기 처리하는 단계는 상기 제네릭 컴퓨터 프로그램과 관련된 적어도 하나의 파라미터들 각각을 파라미터들의 제1 클래스 또는 파라미터들의 제2 클래스의 멤버로 분류하기 위해 상기 제네릭 컴퓨터 프로그램을 분석하는 단계; 파라미터 값들의 특정 세트를 형성하기 위해 상기 제네릭 컴퓨터 프로그램의 제1 인스턴스의 실행과 관련된 로그 엔트리를 처리하는 단계 - 여기서 상기 처리하는 단계는 상기 로그 엔트리에서 발생하는 상기 제1 클래스의 멤버들로 분류된 파라미터들의 임의의 값들을 상기 특정 세트에 포함시키는 단계, 및 상기 로그 엔트리에서 발생하는 상기 제2 클래스의 멤버들로 분류된 파라미터들의 임의의 값들을 상기 특정 세트로부터 배제하는 단계를 포함함-; 및 상기 파라미터 값들의 특정 세트에 대한 제1 식별자와 상기 복수의 파라미터 값들의 세트들의 파라미터 값들의 세트들 중 적어도 일부에 대한 식별자들의 비교에 기초하여 상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터 값들의 세트들에 추가할지 결정하는 단계를 포함한다.
측면들은 다음 특징들 중 하나 이상을 포함할 수 있다.
상기 로그 엔트리들을 처리하는 단계는 상기 파라미터들이 상기 제네릭 컴퓨터 프로그램과 관련된 데이터 계보(data lineage)에 영향을 미치는지 여부에 기초하여 파라미터들을 분류하는 단계를 포함한다.
상기 파라미터 값들의 특정 세트에 대한 제1 식별자와 상기 복수의 파라미터 값들의 세트들의 파라미터 값들의 세트들 중 적어도 일부에 대한 식별자들의 비교는 상기 파라미터 값들의 특정 세트와 상기 제네릭 컴퓨터 프로그램의 식별자에 기초하여 상기 제1 식별자를 결정하는 것; 복수의 제2 식별자들 - 상기 파라미터 값들의 세트들 중 적어도 일부의 각각의 파라미터 값들의 세트에 대해 하나임 - 을 결정하는 것; 및 상기 제1 식별자와 상기 제2 식별자들 중 임의의 것이 일치하는지 결정하기 위해 상기 제1 식별자와 상기 복수의 제2 식별자들의 각각의 제2 식별자를 비교하는 것을 포함한다.
상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터 값들의 세트들에 추가할지 결정하는 단계는 상기 제2 식별자들 중 어느 것도 상기 제1 식별자와 일치하지 않는다면 상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터 값들의 세트들에 추가하도록 결정하는 단계를 포함한다.
상기 제1 식별자를 결정하는 것은 상기 파라미터 값들의 특정 세트의 콘텐츠로부터 식별 문자열(identification string)을 계산하는 것을 포함하고, 상기 제2 식별자들을 결정하는 것은 상기 복수의 파라미터 값들의 세트들의 파라미터 값들의 세트들 중 적어도 일부의 콘텐츠로부터 식별 문자열들을 계산하는 것을 포함한다.
상기 제1 식별자를 결정하는 것은 상기 제네릭 컴퓨터 프로그램의 식별자, 상기 파라미터 값들의 특정 세트의 이름-값 쌍들, 상기 제네릭 컴퓨터 프로그램의 함수 프로토타입(function prototype), 및 상기 제네릭 컴퓨터 프로그램의 제1 인스턴스에 대한 프로젝트 스코프(project scope) 중 적어도 하나의 연결을 형성하는 것을 포함한다.
상기 제1 식별자를 결정하는 것은 상기 제네릭 컴퓨터 프로그램의 식별자, 상기 파라미터 값들의 특정 세트의 이름-값 쌍들, 상기 제네릭 컴퓨터 프로그램의 함수 프로토타입(function prototype), 및 상기 제네릭 컴퓨터 프로그램의 제1 인스턴스에 대한 프로젝트 스코프(project scope) 중 적어도 하나에 데이터 매핑 함수를 적용하는 것을 포함한다.
상기 데이터 매핑 함수는 해시 함수(hash function)를 포함한다.
상기 파라미터들의 제1 클래스는 상기 제네릭 컴퓨터 프로그램의 논리 연산(logical operation)에 영향을 미치는 파라미터들을 포함하고, 상기 파라미터들의 제2 클래스는 상기 제네릭 컴퓨터 프로그램의 논리 연산에 영향을 미치지 않는 파라미터들을 포함한다.
상기 제네릭 컴퓨터 프로그램은 데이터 처리 연산들(operations)을 나타내는 노드들과 상기 데이터 처리 연산들 사이의 데이터 요소들의 흐름들을 나타내는 상기 노드들 사이의 링크들을 포함하는 데이터플로 그래프로 명시된다.
상기 파라미터들 각각에 대해, 상기 분석은 상기 파라미터를 자동으로 분류하는 것 또는 상기 파라미터에 대한 사용자 정의 분류를 받아들이는 것을 포함한다.
상기 파라미터를 자동으로 분류하는 것은 초기에 상기 파라미터를 상기 파라미터들의 제1 클래스에 속하는 것으로 분류하는 것, 상기 제네릭 컴퓨터 프로그램의 복수의 인스턴스들의 실행들에서 상기 파라미터의 고유 값들의 개수를 결정하는 것, 및 상기 파라미터의 고유 값들의 개수가 소정의 임계치를 초과하면 상기 파라미터를 상기 파라미터들의 제2 클래스에 속하는 것으로 재분류하는 것을 포함한다.
상기 파라미터를 자동으로 분류하는 것은 초기에 상기 파라미터를 상기 파라미터들의 제1 클래스에 속하는 것으로 분류하는 것, 상기 제네릭 컴퓨터 프로그램의 복수의 인스턴스들의 실행들에서 상기 파라미터의 값들의 변화가 상기 제네릭 컴퓨터 프로그램과 관련된 데이터 계보에 영향을 미치는지 여부를 결정하는 것, 및 상기 파라미터의 값들의 변화가 상기 데이터 계보에 영향을 미치지 않는다면 상기 파라미터를 상기 파라미터들의 제2 클래스에 속하는 것으로 재분류하는 것을 포함한다.
상기 방법은 상기 제네릭 컴퓨터 프로그램의 제1 인스턴스의 실행과 관련된 상기 로그 엔트리와 상기 파라미터 값들의 특정 세트 사이에 연관성을 형성하는 단계를 더 포함한다.
상기 제네릭 컴퓨터 프로그램의 제1 인스턴스의 실행과 관련된 상기 로그 엔트리는 실행 명령에 인수들로서 공급되는 적어도 하나의 파라미터 값들을 포함하는 상기 제네릭 컴퓨터 프로그램을 인스턴스화하는 데 사용되는 실행 명령의 로그 엔트리를 포함한다.
상기 제네릭 컴퓨터 프로그램의 제1 인스턴스의 실행과 관련된 상기 로그 엔트리는 상기 제1 인스턴스가 실행되는 상기 프로젝트의 표시, 상기 제1 인스턴스에 대한 내부 파라미터들의 표시, 및 상기 제1 인스턴스에 의해 사용되는 환경 설정들, 전역 변수들과 구성 변수들의 표시 중 적어도 하나를 더 포함한다.
상기 방법은 복수의 제네릭 컴퓨터 프로그램들에 대한 전체적인 복수의 파라미터 값들의 세트들과 데이터 계보 보고서를 형성하기 위해 상기 복수의 제네릭 컴퓨터 프로그램들 중 적어도 일부의 인스턴스들의 실행들과 관련된 전체적인 복수의 로그 엔트리들을 처리하는 것을 더 포함하되, 상기 전체적인 복수의 파라미터 값들의 세트들은 상기 제네릭 컴퓨터 프로그램에 대해 파라미터 값들의 보강된 복수의 세트들을 포함하고, 상기 복수의 제네릭 컴퓨터 프로그램들 중 적어도 일부의 인스턴스들의 실행들과 관련된 전체적인 복수의 로그 엔트리들은 상기 파라미터 값들의 특정 세트와의 연관성을 포함하여 상기 제네릭 컴퓨터 프로그램의 제1 인스턴스의 실행의 로그 엔트리를 포함한다.
상기 데이터 계보 보고서를 형성하는 것은 상기 복수의 제네릭 컴퓨터 프로그램들에 대한 상기 전체적인 복수의 파라미터 값들의 세트들의 각각의 파라미터 값들의 세트에 대해 상기 파라미터 값들의 세트에 대응하는 상기 제네릭 컴퓨터 프로그램의 인스턴스들의 실행들과 관련된 모든 로그 엔트리들을 식별하기 위해 상기 복수의 제네릭 컴퓨터 프로그램들 중 적어도 일부의 인스턴스들의 실행들과 관련된 상기 전체적인 복수의 로그 엔트리들을 처리하는 것과 상기 제네릭 컴퓨터 프로그램의 인스턴스들의 실행들과 관련된 상기 식별된 로그 엔트리들로부터 상기 제네릭 컴퓨터 프로그램의 인스턴스화의 가장 최근 시간을 식별하는 것; 및 상기 제네릭 컴퓨터 프로그램의 인스턴스화의 가장 최근 시간에 기초하여 상기 데이터 계보 보고서에 상기 파라미터들의 세트를 포함시킬지 결정하는 것을 포함한다.
상기 제네릭 컴퓨터 프로그램의 인스턴스화의 가장 최근 시간에 기초하여 상기 데이터 계보 보고서에 상기 파라미터들의 세트를 포함시킬지 결정하는 것은 상기 인스턴스화의 가장 최근 시간을 소정의 시간 간격과 비교하는 것 및 상기 제네릭 컴퓨터 프로그램의 인스턴스화의 가장 최근 시간이 상기 소정의 시간 간격 내에 있다면 상기 데이터 계보 보고서에 상기 파라미터들의 세트를 포함시키는 것을 포함한다.
상기 데이터 계보 보고서를 형성하는 것은 상기 복수의 제네릭 컴퓨터 프로그램들에 대한 상기 전체적인 복수의 파라미터 값들의 세트들의 각각의 파라미터 값들의 세트에 대해, 상기 파라미터 값들의 세트에 대응하는 상기 제네릭 컴퓨터 프로그램의 인스턴스들의 실행들과 관련된 로그 엔트리들의 개수를 결정하기 위해 상기 복수의 제네릭 컴퓨터 프로그램들 중 적어도 일부의 인스턴스들의 실행들과 관련된 상기 전체적인 복수의 로그 엔트리들을 처리하는 것, 및 상기 제네릭 컴퓨터 프로그램의 인스턴스들의 실행들과 관련된 로그 엔트리들의 개수에 기초하여 상기 데이터 계보 보고서에 상기 파라미터들의 세트를 포함시킬지 결정하는 것을 포함한다.
또 다른 측면에서, 일반적으로, 소프트웨어가 파라미터 값들의 세트들을 관리하기 위해, 컴퓨터 판독가능한 매체상에 비일시적 형태로 저장되고, 상기 소프트웨어는 컴퓨팅 시스템이 제네릭 컴퓨터 프로그램(generic computer program)에 대한 복수의 파라미터 값들의 세트들을 수신하도록 하고, 상기 제네릭 컴퓨터 프로그램의 인스턴스들의 실행들과 관련된 로그 엔트리들을 처리하도록 하는 - 상기 제네릭 컴퓨터 프로그램의 각각의 인스턴스는 적어도 하나의 파라미터 값들과 관련되고, 상기 처리하는 것에 기초하여 상기 파라미터 값들의 복수의 세트들을 보강함 - 명령들을 포함한다. 상기 처리하는 것은 상기 제네릭 컴퓨터 프로그램과 관련된 적어도 하나의 파라미터들 각각을 파라미터들의 제1 클래스 또는 파라미터들의 제2 클래스의 멤버로 분류하기 위해 상기 제네릭 컴퓨터 프로그램을 분석하는 것; 파라미터 값들의 특정 세트를 형성하기 위해 상기 제네릭 컴퓨터 프로그램의 제1 인스턴스의 실행과 관련된 로그 엔트리를 처리하는 것 - 여기서 상기 처리하는 것은 상기 로그 엔트리에서 발생하는 상기 제1 클래스의 멤버들로 분류된 파라미터들의 임의의 값들을 상기 특정 세트에 포함시키는 것, 및 상기 로그 엔트리에서 발생하는 상기 제2 클래스의 멤버들로 분류된 파라미터들의 임의의 값들을 상기 특정 세트로부터 배제하는 것을 포함함-; 및 상기 파라미터 값들의 특정 세트에 대한 제1 식별자와 상기 복수의 파라미터 값들의 세트들의 파라미터 값들의 세트들 중 적어도 일부에 대한 식별자들의 비교에 기초하여 상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터 값들의 세트들에 추가할지 결정하는 것을 포함한다.
또 다른 측면에서, 일반적으로 파라미터 값들의 세트들을 관리하기 위한 컴퓨팅 시스템은 제네릭 컴퓨터 프로그램(generic computer program)에 대한 복수의 파라미터 값들의 세트들을 수신하기 위한 입력 디바이스 또는 포트, 및
상기 제네릭 컴퓨터 프로그램의 인스턴스들의 실행들과 관련된 로그 엔트리들을 처리하기 위한 적어도 하나의 프로세서 - 상기 제네릭 컴퓨터 프로그램의 각각의 인스턴스는 적어도 하나의 파라미터 값들과 관련됨 - 를 포함한다. 상기 처리하는 것은 상기 제네릭 컴퓨터 프로그램과 관련된 적어도 하나의 파라미터들 각각을 파라미터들의 제1 클래스 또는 파라미터들의 제2 클래스의 멤버로 분류하기 위해 상기 제네릭 컴퓨터 프로그램을 분석하는 것; 파라미터 값들의 특정 세트를 형성하기 위해 상기 제네릭 컴퓨터 프로그램의 제1 인스턴스의 실행과 관련된 로그 엔트리를 처리하는 것 - 여기서 상기 처리하는 것은 상기 로그 엔트리에서 발생하는 상기 제1 클래스의 멤버들로 분류된 파라미터들의 임의의 값들을 상기 특정 세트에 포함시키는 것, 및 상기 로그 엔트리에서 발생하는 상기 제2 클래스의 멤버들로 분류된 파라미터들의 임의의 값들을 상기 특정 세트로부터 배제하는 것을 포함함 - ; 및 상기 파라미터 값들의 특정 세트에 대한 제1 식별자와 상기 복수의 파라미터 값들의 세트들의 파라미터 값들의 세트들 중 적어도 일부에 대한 식별자들의 비교에 기초하여 상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터들 값들의 세트들에 추가할지 결정하는 것을 포함한다.
또 다른 측면에서, 일반적으로, 상기 파라미터 값들의 세트들을 관리하기 위한 컴퓨팅 시스템은 제네릭 컴퓨터 프로그램(generic computer program)에 대한 복수의 파라미터 값들의 세트들을 수신하기 위한 수단, 및 상기 제네릭 컴퓨터 프로그램의 인스턴스들의 실행들과 관련된 로그 엔트리들을 처리하기 위한 수단 - 상기 제네릭 컴퓨터 프로그램의 각각의 인스턴스는 적어도 하나의 파라미터 값들과 관련됨 - 를 포함한다. 상기 처리하는 것은 상기 제네릭 컴퓨터 프로그램과 관련된 적어도 하나의 파라미터들 각각을 파라미터들의 제1 클래스 또는 파라미터들의 제2 클래스의 멤버로 분류하기 위해 상기 제네릭 컴퓨터 프로그램을 분석하는 것; 파라미터 값들의 특정 세트를 형성하기 위해 상기 제네릭 컴퓨터 프로그램의 제1 인스턴스의 실행과 관련된 로그 엔트리를 처리하는 것 - 여기서 상기 처리하는 것은 상기 로그 엔트리에서 발생하는 상기 제1 클래스의 멤버들로 분류된 파라미터들의 임의의 값들을 상기 특정 세트에 포함시키는 것, 및 상기 로그 엔트리에서 발생하는 상기 제2 클래스의 멤버들로 분류된 파라미터들의 임의의 값들을 상기 특정 세트로부터 배제하는 것을 포함함 - ; 및 상기 파라미터 값들의 특정 세트에 대한 제1 식별자와 상기 복수의 파라미터 값들의 세트들의 파라미터 값들의 세트들 중 적어도 일부에 대한 식별자들의 비교에 기초하여 상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터들 값들의 세트들에 추가할지 결정하는 것을 포함한다.
또 다른 측면에서, 일반적으로, 파라미터 값들의 세트들을 관리하기 위한 방법은 제네릭 컴퓨터 프로그램(generic computer program)을 수신하는 단계; 파라미터 값들의 제1 세트를 수신하는 단계; 상기 파라미터 값들의 제1 세트에 따라 상기 제네릭 컴퓨터 프로그램을 인스턴스화함으로써 상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스를 생성하는 단계; 적어도 하나의 데이터 세트들로부터 데이터를 수신하는 단계; 상기 수신된 데이터 중 적어도 일부를 처리하기 위해 상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스를 실행하는 단계; 상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스에 대한 로그 엔트리를 생성하는 단계- 상기 로그 엔트리는 상기 파라미터 값들의 제1 세트의 파라미터 값들 중 적어도 일부를 포함함 - ; 상기 로그 엔트리를 저장하는 단계; 상기 로그 엔트리를 수신하는 단계; 파라미터 값들의 특정 세트를 형성하기 위해 상기 로그 엔트리를 처리하는 단계 -여기서 상기 처리하는 단계는 상기 로그 엔트리로부터 상기 파라미터 값들의 제1 세트의 파라미터 값들 중 적어도 일부를 추출하는 단계 및 상기 추출된 파라미터 값들로부터 상기 파라미터 값들의 특정 세트를 형성하는 단계를 포함함 - ; 및 상기 파라미터 값들의 특정 세트에 대한 제1 식별자와 복수의 파라미터 값들의 기존 세트들의 파라미터 값들의 기존 세트들 중 적어도 일부에 대한 식별자들의 비교에 기초하여 상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터 값들의 기존 세트들에 추가할지 결정하는 단계를 포함한다.
측면들은 다음 특징들 중 하나 이상을 포함할 수 있다.
상기 파라미터 값들의 특정 세트에 대한 식별자와 상기 복수의 파라미터 값들의 기존 세트들의 파라미터 값들의 기존 세트들 중 적어도 일부에 대한 식별자들의 비교는 상기 파라미터 값들의 특정 세트와 상기 제네릭 컴퓨터 프로그램의 식별자에 기초하여 상기 제1 식별자를 결정하는 것; 복수의 제2 식별자들- 상기 파라미터 값들의 기존 세트들 중 적어도 일부의 각각의 파라미터 값들의 기존 세트에 대해 하나임 - 을 결정하는 것; 및 상기 제1 식별자와 상기 제2 식별자들 중 임의의 것이 일치하는지 결정하기 위해 상기 제1 식별자와 상기 복수의 제2 식별자들의 각각의 제2 식별자를 비교하는 것을 포함한다.
상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터 값들의 기존 세트들에 추가할지 결정하는 단계는 상기 제2 식별자들 중 어느 것도 상기 제1 식별자와 일치하지 않는다면 상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터 값들의 기존 세트들에 추가하도록 결정하는 단계를 포함한다.
상기 제1 식별자를 결정하는 것은 상기 파라미터 값들의 특정 세트의 콘텐츠로부터 식별 문자열(identification string)을 계산하는 것을 포함하고, 상기 제2 식별자들을 결정하는 것은 상기 복수의 파라미터 값들의 기존 세트들의 파라미터 값들의 기존 세트들 중 적어도 일부의 콘텐츠로부터 식별 문자열들을 계산하는 것을 포함한다.
상기 제1 식별자를 결정하는 것은 상기 제네릭 컴퓨터 프로그램의 식별자, 상기 파라미터 값들의 특정 세트의 이름-값 쌍들, 상기 제네릭 컴퓨터 프로그램의 함수 프로토타입(function prototype), 및 상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스에 대한 프로젝트 스코프(project scope) 중 적어도 하나의 연결을 형성하는 단계를 포함한다.
상기 제1 식별자를 결정하는 것은 상기 제네릭 컴퓨터 프로그램의 식별자, 상기 파라미터 값들의 특정 세트의 이름-값 쌍들, 상기 제네릭 컴퓨터 프로그램의 함수 프로토타입(function prototype), 및 상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스에 대한 프로젝트 스코프(project scope) 중 적어도 하나에 데이터 매핑 함수를 적용하는 것을 포함한다.
상기 데이터 매핑 함수는 해시 함수(hash function)를 포함한다.
상기 방법은 상기 제네릭 컴퓨터 프로그램과 관련된 적어도 하나의 파라미터들 각각을 파라미터들의 제1 클래스 또는 파라미터들의 제2 클래스의 멤버로 분류하기 위해 상기 제네릭 컴퓨터 프로그램을 분석하는 단계를 더 포함한다.
상기 파라미터 값들의 특정 세트를 형성하기 위해 상기 로그 엔트리를 처리하는 단계는 상기 로그 엔트리에서 발생하는 상기 제1 클래스의 멤버들로 분류된 임의의 추출된 파라미터 값들을 상기 특정 세트에 포함시키는 단계, 및 상기 로그 엔트리에서 발생하는 상기 제2 클래스의 멤버들로 분류된 임의의 추출된 파라미터 값들을 상기 특정 세트로부터 배제하는 단계를 더 포함한다.
상기 파라미터들의 제1 클래스는 상기 제네릭 컴퓨터 프로그램의 논리 연산(logical operation)에 영향을 미치는 파라미터들을 포함하고, 상기 파라미터들의 제2 클래스는 상기 제네릭 컴퓨터 프로그램의 논리 연산에 영향을 미치지 않는 파라미터들을 포함한다.
또 다른 측면에 있어서, 일반적으로 소프트웨어가 파라미터 값들의 세트들을 관리하기 위해, 컴퓨터 판독가능한 매체상에 비일시적 형태로 저장되고, 상기 소프트웨어는 컴퓨팅 시스템이 제네릭 컴퓨터 프로그램(generic computer program)을 수신하도록 하고; 파라미터 값들의 제1 세트를 수신하도록 하고; 상기 파라미터 값들의 제1 세트에 따라 상기 제네릭 컴퓨터 프로그램을 인스턴스화함으로써 상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스를 생성하도록 하고; 적어도 하나의 데이터 세트들로부터 데이터를 수신하도록 하고; 상기 수신된 데이터 중 적어도 일부를 처리하기 위해 상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스를 실행하도록 하고; 상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스에 대한 로그 엔트리를 생성하도록 하고- 상기 로그 엔트리는 상기 파라미터 값들의 제1 세트의 파라미터 값들 중 적어도 일부를 포함함 - ; 상기 로그 엔트리를 저장하도록 하고; 상기 로그 엔트리를 수신하도록 하고; 파라미터 값들의 특정 세트를 형성하기 위해 상기 로그 엔트리를 처리하도록 하고 -여기서 상기 처리하는 것은 상기 로그 엔트리로부터 상기 파라미터 값들의 제1 세트의 파라미터 값들 중 적어도 일부를 추출하는 것 및 상기 추출된 파라미터 값들로부터 상기 파라미터 값들의 특정 세트를 형성하는 것을 포함함 - ; 및 상기 파라미터 값들의 특정 세트에 대한 제1 식별자와 복수의 파라미터 값들의 기존 세트들의 파라미터 값들의 기존 세트들 중 적어도 일부에 대한 식별자들의 비교에 기초하여 상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터 값들의 기존 세트들에 추가할지 결정하도록 하는 명령들을 포함한다.
또 다른 측면에서, 일반적으로 파라미터 값들의 세트들을 관리하기 위한 시스템은 제네릭 컴퓨터 프로그램, 파라미터 값들의 제1 세트, 및 적어도 하나의 데이터 세트들로부터의 데이터를 수신하기 위한 제1 입력 디바이스 또는 포트; 적어도 하나의 프로세서들의 제1 세트로서, 상기 파라미터 값들의 제1 세트에 따라 상기 제네릭 컴퓨터 프로그램을 인스턴스화함으로써 상기 제네릭 컴퓨터의 실행가능한 인스턴스를 생성하도록 하고; 상기 수신된 데이터 중 적어도 일부를 처리하기 위해 상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스를 실행하도록 하고; 상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스에 대한 로그 엔트리 -상기 로그 엔트리는 상기 파라미터 값들의 제1 세트의 파라미터 값들 중 적어도 일부를 포함함 - 를 생성하도록 구성되는 적어도 하나의 프로세서들의 제1세트; 상기 로그 엔트리를 저장 디바이스에 저장하기 위한 제1 출력 디바이스 또는 포트를 포함하는 제1 컴퓨팅 시스템; 상기 로그 엔트리를 수신하기 위한 제2 입력 디바이스 또는 포트; 적어도 하나의 프로세서들의 제2 세트로서, 파라미터 값들의 특정 세트를 형성하기 위해 상기 로그 엔트리를 처리하도록 하고 - 여기서 상기 처리하는 것은 상기 로그 엔트리로부터 상기 파라미터 값들의 제1 세트의 파라미터 값들 중 적어도 일부를 추출하는 것 및 상기 추출된 파라미터 값들로부터 상기 파라미터 값들의 특정 세트를 형성하는 것을 포함함 -; 및 상기 파라미터 값들의 특정 세트에 대한 제1 식별자와 복수의 파라미터 값들의 기존 세트들의 파라미터 값들의 기존 세트들 중 적어도 일부에 대한 식별자들의 비교에 기초하여 상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터 값들의 기존 세트들에 추가할지 결정하도록 구성되는 적어도 하나의 프로세서들의 제2 세트를 포함하는 제2 컴퓨팅 시스템을 포함한다.
측면들은 다음 장점들 중 하나 이상을 포함할 수 있다.
본원에서 설명된 방법들을 사용하여 파라미터 세트들을 발견하고 파라미터 세트들의 기존 세트를 보강하기 위해 발견된 파라미터 세트들을 사용함으로써, 기존 파라미터 세트들의 보강된 세트를 사용하여 생성된 데이터 계보 보고서들은 데이터 처리 시스템의 진정한 데이터 계보를 더 정확하게 나타낸다. 특히, 이전에 간과되었을 수 있는 데이터 처리 시스템에 대한 데이터 계보의 부분들이 데이터 계보 보고서에 포함된다.
일부 예에서, 파라미터 세트 발견 방법들의 결과들은 또한 컴퓨터 프로그램의 인스턴스들의 실행들의 로그 엔트리들(log entries)을 보강(즉, 발견된 파라미터 세트들에 관한 정보로 로그 엔트리들을 보강)하는데 사용될 수 있다. 보강된 로그 엔트리는 컴퓨터 프로그램들 및/또는 데이터세트들 사이의 논리적 연결들이 물리적 연결들에 대응하는지를 검증하는 데 유리하게 사용될 수 있다. 이러한 검증 결과들은 사용자에게 제시된 데이터 계보가 컴퓨터 프로그램들과 그것들의 입력 및 출력 간의 정확한 계보 관계들을 보여주는 것을 보장한다.
본 발명의 다른 특징들과 장점들은 다음 설명으로부터, 그리고 청구범위로부터 명백해질 것이다.
도 1은 파라미터 세트들의 발견을 위한 시스템의 블록도이다.
도 2는 서브 그래프들(sub-graphs)과 그것들의 관련 파라미터 세트들을 포함하는 데이터플로 그래프이다.
도 3은 도 2의 데이터플로 그래프의 실행 시간 구성이다.
도 4는 도 2의 데이터플로 그래프의 정적 분석 구성(static analysis configuration)이다.
도 5는 파라미터 세트들의 발견을 위한 방법의 순서도다.
도 6은 파라미터 세트들의 발견을 위한 방법의 예시적인 동작의 전반부이다.
도 7은 파라미터 세트들의 발견을 위한 방법의 예시적인 동작의 후반부이다.
도 8은 제1 서브 그래프와 제2 서브 그래프를 포함하는 예시 데이터플로 그래프이다.
도 9는 물리 데이터세트들로 해석된(resolved) 논리 데이터세트들을 가지는 도 8의 데이터플로 그래프를 도시한다.
도 10은 도 8의 데이터플로 그래프에 대한 데이터 계보 보고서를 도시한다.
도 11은 제1 서브 그래프 및 제2 서브 그래프를 포함하고 중복 논리 데이터세트들을 가지는 예시 데이터플로 그래프이다.
도 12는 물리 데이터세트들로 해석된 논리 데이터세트들을 가지는 도 11의 예시 데이터플로 그래프를 도시한다.
도 13은 도 11의 데이터플로 그래프에 대한 데이터 계보 브레이크(data lineage break)를 포함하는 데이터 계보 보고서를 도시한다.
도 14는 데이터 계보 보고서의 데이터 계보 브레이크의 영향을 완화하기 위한 제1 기법을 도시한다.
도 15는 데이터 계보 보고서의 데이터 계보 브레이크의 영향을 완화하기 위한 제2 기법을 도시한다.
도 16은 데이터 계보 보고서의 데이터 계보 브레이크의 영향을 완화하기 위한 제3 기법을 도시한다.
도 17은 데이터 계보 보고서의 데이터 계보 브레이크의 영향을 완화하기 위한 제4 기법을 도시한다.
도 18은 데이터 계보 보고서의 데이터 계보 브레이크의 영향을 완화하기 위한 제5 기법을 도시한다.
도 19는 데이터 계보 보고서의 데이터 계보 브레이크의 영향을 완화하기 위한 제6 기법을 도시한다.
도 1은 본원에서 설명된 파라미터 세트 발견 기법들이 사용될 수 있는 데이터 처리 시스템(100)의 일 예를 도시한다. 상기 시스템은 일부 구현에서 정점들 사이의 (작업 요소들 즉, 데이터의 흐름을 나타내는) 방향성 링크들에 의해 연결되는 (데이터 처리 컴포넌트들 또는 데이터세트들을 나타내는) 정점들을 포함하는 데이터플로 그래프들(117)로써 어플리케이션을 개발하기 위한 시스템인 개발 환경(118)을 포함한다. 예를 들어, 이러한 환경은 본원에서 참조로 원용되는 “Managing Parameters for Graph-Based Applications”라는 타이틀의 미국 공보 번호 2007/0011668에서 더 상세히 설명된다. 이러한 그래프 기반 계산을 실행하기 위한 시스템은 본원에서 참조로 원용되는 “EXECUTING COMPUTATIONS EXPRESSED AS GRAPHS”라는 타이틀의 미국 특허 5,966,072에서 설명된다. 이 시스템에 따라 만들어진 상기 데이터플로 그래프들(117)은 그래프 컴포넌트들에 의해 표현되는 개별 프로세스들로 정보를 보내고 개별 프로세스들로부터 정보를 얻기 위한, 상기 프로세스들 사이에 정보를 이동시키기 위한, 그리고 상기 프로세스들에 대한 실행 순서를 정의하기 위한 방법들을 제공한다. 이 시스템은 임의의 가용한 방법들(예를 들어, 그래프의 링크들에 따른 통신 경로들은 TCP/IP 또는 UNIX 도메인 소켓들을 사용할 수 있거나 프로세스들 사이에 데이터를 전달하는 공유 메모리를 사용할 수 있음)로부터 프로세스간 통신 방법을 선택하는 알고리즘을 포함한다. 상기 개발 환경(118)을 사용하여 개발자(120)에 의해 생성된 상기 데이터플로 그래프들(117)은 상기 시스템(100)의 다른 모듈들에 의한 차후 사용을 위해 상기 개발 환경(118)에 액세스 가능한 데이터 저장 시스템(116)에 저장될 수 있다.
실행 환경(104)은 파라미터 해석 모듈(parameter resolution module)(106) 및 실행 모듈(112)을 포함한다. 상기 실행 환경(104)은 예를 들어, UNIX 운영 시스템 버전 같은 적합한 운영 시스템의 제어 하에 하나 이상의 범용 컴퓨터 상에 호스팅될 수 있다. 예를 들어, 상기 실행 환경(104)은 로컬(예를 들어, 대칭 멀티 프로세싱(SMP) 컴퓨터 같은 멀티프로세서 시스템) 또는 로컬 분산된(예를 들어, 클러스터들로 결합된 다중 프로세서들 또는 대규모 병렬 처리(MPP) 시스템들) 또는 원격 또는 원격 분산된(예를 들어, 근거리 통신망(LAN) 및/또는 원거리 통신망(WAN)), 또는 이들의 임의의 조합인, 다중 중앙 처리 유닛들(CPUs) 또는 프로세서 코어들을 사용하는 컴퓨터 시스템들의 구성을 포함하는 다중 노드 병렬 컴퓨팅 환경을 포함할 수 있다.
상기 파라미터 해석 모듈(106)은 상기 데이터 저장 시스템(116)으로부터 상기 데이터플로 그래프들(117)의 사양을 수신하고 상기 실행 모듈(112)에 의한 실행에 대해 상기 데이터플로 그래프(들)(117)을 준비하기 위해 (아래에 더 상세히 설명되는 바와 같이) 상기 데이터플로 상기 데이터플로 그래프들(117)에 대한 파라미터들을 해석한다. 상기 실행 모듈(112)은 상기 파라미터 해석 모듈(106)으로부터 상기 준비된 데이터플로 그래프들(117)을 수신하고 데이터 소스(102)로부터의 데이터를 처리하고 출력 데이터(114)를 생성하기 위해 그것들을 사용한다. 상기 출력 데이터(114)는 상기 데이터 소스(102)에 또는 상기 실행 환경(104)에 액세스 가능한 데이터 저장 시스템(116)에 다시 저장될 수 있거나, 달리 사용될 수 있다. 일반적으로, 상기 데이터 소스(102)는 저장 장치들 또는 온라인 데이터 스트림으로의 연결들 같은 하나 이상의 데이터 소스를 포함할 수 있고, 그것들 각각은 다양한 형식 (예를 들어, 데이터베이스 테이블, 스프레드시트 파일(spreadsheet files), 플랫 텍스트 파일(flat text files) 또는 메인프레임에 의해 사용되는 원시 포맷) 중 임의의 것으로 데이터를 저장할 수 있거나 제공할 수 있다.
상기 데이터 소스(102)를 제공하는 저장 장치들은 예를 들어, 상기 실행 환경(104)을 호스팅하는 컴퓨터에 연결된 저장 매체(예를 들어, 하드 드라이브(108)) 상에 저장되어 상기 실행 환경(104)에 로컬일 수 있거나, 예를 들어, (예를 들어, 클라우드 컴퓨팅 인프라스트럭처에 의해 제공되는) 원격 연결을 통해 상기 실행 환경(104)을 호스팅하는 컴퓨터와 통신하는 원격 시스템(예를 들어, 메인프레임(110)) 상에 호스팅되어 상기 실행 환경(104)에 원격일 수 있다.
상기 시스템(100)은 또한 기업 사용자들(121)(예를 들어, 데이터 설계자들 또는 비즈니스 사용자들)이 액세스 가능한 메타데이터 환경 모듈(119)을 포함한다. 상기 메타데이터 환경 모듈(119)은 데이터플로 그래프들(117)에 대한 데이터 계보를 생성하기 위해 상기 데이터플로 그래프들(117)(또는 그것들을 특성화하는 메타데이터와 그것들이 참조하는 입력 및 출력 데이터세트들)을 처리하는 데이터 계보 모듈(115)을 포함한다. 상기 기업 사용자(121)는 상기 데이터플로 그래프들(117)의 검증과 컴플라이언스 검사(compliance checking) 같은 이유로 상기 데이터 계보를 볼 수 있다. 특정 데이터 항목(예를 들어, 데이터세트 또는 데이터세트 내 필드)에 관한 데이터 계보 정보는 데이터 처리 시스템에 의해 수행되는 처리로 인해 발생하는 종속 관계에 기반하고, 본원에서 사용되는 용어 “데이터 계보”는 일반적으로 다른 관련 데이터 항목들과 그 데이터 항목들을 소비하거나 생성하는 처리 엔티티들을 포함하는 세트를 나타낸다. 데이터 계보 보고서(데이터 계보 다이어그램이라고도 함)는 데이터 항목들과 처리 엔티티들을 나타내는 노드들 및 그것들 사이의 종속 관계를 나타내는 링크들을 가지는 그래프 형태의 데이터 계보의 그래픽 표현을 포함할 수 있다. 데이터 계보 보고서들을 생성하고 디스플레이할 수 있는 일부 시스템들은 상향단(upstream end)의 최종 데이터 소스들로부터 하향단(downstream end)에서 산출되는 최종 데이터까지의 종단간 데이터 계보(end-to-end data lineage)를 자동적으로 표시할 수 있다. 특정 데이터 항목으로부터 상향 경로 상의 노드들은 때로 그 데이터 항목에 대한 “종속성(dependencies)”이라고도 하고 특정 데이터 항목으로부터 하향 경로 상의 노드들은 때로 그 데이터 항목에 대한 “영향(impacts)”이라고도 한다. “데이터 계보”가 본원에서 사용되는 바와 같이 때로 상향 종속성만을 나타내는 데 사용되는 반면, “데이터 계보”가 특정 상황에 적절하게 상향 종속성 및/또는 하향 영향 중 하나 또는 모두를 나타낼 수 있다.
1. 데이터플로 그래프 개요
도 2를 참조하면, 도 1의 실행 환경(118)을 사용하여 생성된 데이터플로 그래프(217)의 일 예는 gather.mp로 명명된 제1 서브 그래프(202)와 process.mp로 명명된 제2 서브 그래프(204)를 포함한다.
상기 제1 서브 그래프(202)는 제1 논리 데이터세트 DS1(206)과 제2 논리 데이터세트 DS2(208)을 입력으로 수신하고, 상기 제1 및 제2 논리 데이터세트들(206, 208)로부터의 데이터를 처리하여 제3 논리 데이터세트 DS3(210)에 그 처리 결과를 기록한다. 상기 제2 서브 그래프(204)는 제4 논리 데이터세트 DS4(212)(제3 논리 데이터세트(210)와 동일한 물리 파일을 가리킴)를 입력으로 수신하고, 상기 제4 논리 데이터세트(212)로부터의 데이터를 처리하여 테이블(214)에 그 처리 결과를 기록한다.
네 개의 논리 데이터세트들(206, 208, 210, 212) 각각은 실행시 물리 파일에 대한 경로로 해석되는 파라미터화된 경로와 관련된다. 특히, 제1 논리 데이터세트(206)는 파라미터화된 경로 / $ {FEED}/ inv _ ${DATE}.dat 를 사용하여 식별되고, 제2 논리 데이터세트(208)는 파라미터화된 경로 / $ {FEED}/ cust _ ${DATE}.dat 를 사용하여 식별되고, 제3 논리 데이터세트(210)는 파라미터화된 경로 /trans _ ${DATE}.dat 를 사용하여 식별되며, 제4 논리 데이터세트(212)는 파라미터화된 경로 /trans_ ${DATE}.dat 를 사용하여 식별된다.
제1 서브 그래프(202)는 인수로서 두 개의 파라미터 P1 = FEED 와 P2 = DATE를 수신하고, 아래에서 보다 상세히 설명되는 바와 같이, 상기 수신된 FEED 및 DATE 파라미터들의 값으로 파라미터화된 경로들의 FEED 및 DATE 자리표시자(placeholder)를 대체하여 제1 논리 데이터세트(206), 제2 논리 데이터세트(208) 및 제3 논리 데이터세트(210)의 각각의 물리적 위치로의 경로를 해석하기 위해 상기 파라미터들을 사용한다. 또한, 제1 서브 그래프(202)는 DATE 파라미터에 대한 “정적 분석” 값을 포함한다. 아래에서 보다 상세히 설명되는 바와 같이, 상기 DATE 파라미터에 대한 정적 분석 값은 데이터플로 그래프(217)의 정적 분석 동안(즉, 데이터플로 그래프(217)의 데이터 계보가 결정될 때) 파라미터 값으로 사용되는 자리 표시자 값이다.
유사하게, 제2 서브 그래프(104)는 단일 파라미터 P1 = DATE를 수신하고 수신된 DATE 파라미터의 값으로 제4 논리 데이터세트(212)에 대한 파라미터화된 경로의 DATE 자리표시자를 대체하여 제4 논리 데이터세트(212)의 물리적 위치로의 경로를 해석하기 위해 그것을 사용한다. 또한, 제2 서브 그래프(204)는 DATE 파라미터에 대한 “정적 분석” 값을 포함한다. 아래에서 보다 상세히 설명되는 바와 같이, 상기 DATE 파라미터에 대한 정적 분석 값은 데이터플로 그래프(217)의 정적 분석 동안(즉, 데이터플로 그래프(217)의 데이터 계보가 결정될 때) 파라미터 값으로 사용되는 자리 표시자 값이다.
데이터플로 그래프(217)와 그 서브 그래프들의 연산(operation)은 그것이 수신하는 파라미터들에 의존하기 때문에, 상기 데이터플로 그래프와 그 서브 그래프들은 때로 “제네릭(generic)” 데이터플로 그래프 또는 “제네릭(generic)” 컴퓨터 프로그램이라고도 한다.
1.1 파라미터들
일반적으로, 전술한 파라미터들은 "디자인 타임(design time)"파라미터 또는 "런 타임(run time)" 파라미터로 지정될 수 있다. 전술한 바와 같이 경로 해석을 위해 사용되는 것 외에도, 디자인 타임 파라미터들은 관련된 데이터플로 그래프의 논리 연산에 영향을 준다. 반대로, 런 타임 파라미터들은 작업별로 그래프에 제공되며 상기 그래프의 논리 연산에 영향을 주지 않는다. 일부 예에서, 데이터플로 그래프의 논리 연산은 상기 그래프의 기능 및 상기 그래프에 의해 이용되는 논리 데이터세트 모두를 지칭한다.
도 2에서, FEED 파라미터는 gather.mp 서브 그래프의 논리 연산에 영향을 주는 디자인 타임 파라미터이다. 예를 들어, 제1 서브 그래프(202)의 정렬(sort) 컴포넌트 (216)는 오름차순으로 그것이 수신하는 데이터를 정렬할 수 있고, 반면에 FEED 파라미터의 한 값에 대해, FEED 파라미터의 또 다른 상이한 값이 상기 정렬 컴포넌트(216)로 하여금 내림차순으로 데이터를 정렬하게 할 수 있다. 일부 예에서, 디자인 타임 파라미터들을 포함하는 데이터플로 그래프는 상기 디자인 타임 파라미터들의 공급된 값에 기초하여 그 논리 연산이 변하기 때문에 "제네릭 그래프(generic graph)"라고 불린다.
DATE 파라미터는 서브 그래프(202)의 논리 연산에 아무런 영향을 미치지 않고 작업별로 공급되는 런타임 파라미터이다.
1.2 파라미터 세트들
일부 예에서, 데이터플로 그래프들에 대한 파라미터들의 일반적으로 사용되는 세트들은 디스크에 저장될 수 있고 용이하게 재 사용될 수 있는 "파라미터 세트들"(때로는 "psets"라고도 함)로서 저장된다. 예를 들어, 도 2에서, 제1 서브 그래프(202)는 그것과 관련된 세 개의 psets, PSET_mexico(218), PSET_canada (220), 및 PSET_usa(222)를 가진다. PSET_mexico(218)는 일반적으로 사용되는 FEED 파라미터 값 "mexico"와 오늘 날짜를 반환하는 함수인 일반적으로 사용되는 DATE 파라미터 값 "today()"를 포함한다. PSET_canada(220)는 일반적으로 사용되는 FEED 파라미터 값 "canada"와 일반적으로 사용되는 DATE 파라미터 값 "today()"를 포함한다. PSET_usa(222)는 일반적으로 사용되는 FEED 파라미터 값 "usa"와 일반적으로 사용되는 DATE 파라미터 값 "today()"를 포함한다.
유사하게, 제2 서브 그래프(204)는 그것과 관련된 단일 pset, PSET(223)을 가진다. PSET(223)은 오늘 날짜를 반환하는 함수인 일반적으로 사용되는 DATE 파라미터 값 "today()"를 가진다.
2 파라미터 해석 모듈
일부 예에서, 실행 모듈(112)에 의해 실행되는 데이터플로 그래프(117)에 앞서, 도 1의 파라미터 해석 모듈(106)은 상기 데이터플로 그래프(117)(및 그 관련된 서브 그래프들(202, 204))와 관련된 하나 이상의 psets을 식별하고 상기 하나 이상의 psets에서 고유한 디자인 타임 파라미터들의 개수를 결정한다. 주어진 데이터플로 그래프에 대한 각각의 고유한 디자인 타임 파라미터에 대해, 상기 파라미터 해석 모듈(106)은 상기 데이터플로 그래프의 별개의 실행가능한 인스턴스를 인스턴스화한다. 예를 들어, 도 3을 참조하면, 도 2의 데이터플로 그래프(217), gather.mp 에 대해, 제1 서브 그래프(202)의 세 개의 인스턴스들이 인스턴스화되고 (PSET_mexico->gather.mp(202a), PSET_canada-> gather.mp(202b), PSET_usa->gather.mp(202c)), 각각의 인스턴스는 도 2의 psets의 세 개의 고유 feed 파라미터들, mexico, canada, 및 usa 중 상이한 하나에 따라 구성된다. 제2 서브 그래프(204)는 어떠한 디자인 타임 파라미터들도 포함하지 않는 단일 pset(223)에만 관련되기 때문에, 제2 서브 그래프(204)의 단일 인스턴스 (process.mp(204a))만이 실행시에 인스턴스화된다.
서브 그래프들(202, 204)의 적절한 인스턴스들이 파라미터 해석 모듈(106)에 의해 인스턴스화되면, 상기 파라미터 해석 모듈(106)은 psets로부터의 실제 파라미터 값들로 상기 데이터세트들에 대한 파라미터화된 경로들의 파라미터 값 자리표시자들을 대체하여, 상기 데이터세트들의 물리적 위치로의 경로를 해석한다. 예를 들어, 제1 서브 그래프(202)의 PSET_mexico->gather.mp 인스턴스(202a)에 대해, 제1 데이터세트(206)에 대한 경로는 FEED 파라미터 값이 'mexico'이고 DATE 파라미터 값이 '031014'이기 때문에 /mexico/inv_031014로 해석된다.
파라미터 해석 모듈(106)이 그 서브 그래프들(202, 204)을 포함하는 데이터플로 그래프(217)를 인스턴스화하고 데이터플로 그래프(217)의 데이터세트들로의 물리적 경로들을 해석했다면, 상기 데이터플로 그래프(217)는 실행 모듈(112)에 의한 실행에 대해 준비된다. 실행 동안, 제1 서브 그래프(202)의 세 개의 인스턴스들(202a, 202b, 202c)은 그 각각의 입력 데이터세트들로부터 데이터를 판독하고, 상기 데이터를 처리하여 /trans_ 031014.dat 물리 파일에 그 처리된 데이터를 저장한다. 입력 제2 서브 그래프(202)의 인스턴스(204a)에 대한 데이터세트(예를 들어, DS4(212))는 제1 서브 그래프의 출력 데이터세트와 동일한 물리 파일로 해석하기 때문에, 상기 /trans_031014.dat 물리 파일이 process.mp의 인스턴스에 의해 판독된 후 처리되어 테이블(214)에 저장된다.
3. 데이터 계보 모듈
도 4를 참조하면, 일부 예에서는, 데이터플로 그래프(217)를 실행하기보다는, 도 1의 데이터 설계자 또는 비즈니스 사용자(121)는 데이터가 데이터플로 그래프(217)를 통과할 때 데이터의 계보를 검사할 필요가 있을 수 있다. 그러기 위해, 도 1의 데이터 계보 모듈(115)이 데이터 설계자 또는 비즈니스 사용자(121)에게 제공하기 위한 데이터 계보 보고서를 생성하기 위해 데이터플로 그래프(217)를 분석하도록 구성된다.
일부 예에서는, 데이터플로 그래프(217)에 대한 데이터 계보를 결정하는 제 1 단계로, 데이터 계보 모듈(115)이 데이터플로 그래프(217)의 개별 서브 그래프들(202, 204)을 식별한다. 상기 식별된 서브 그래프들(202, 204) 각각에 대해, 상기 데이터 계보 모듈(115)은 상기 서브 그래프(202, 204)와 관련된 하나 이상의 psets(218, 220, 222, 223)을 식별한 다음 상기 서브 그래프(202, 204)에 대한 하나 이상의 psets(218, 220, 222, 223)에서 고유한 디자인 타임 파라미터들의 개수를 결정한다. 각각의 고유한 디자인 타임 파라미터에 대해, 파라미터 해석 모듈은 서브 그래프(202, 204)의 별개의 인스턴스를 인스턴스화한다.
일부 예에서는, 상기 데이터 계보 모듈(115)이 실제 물리 파일들과 그것들이 저장하는 데이터가 데이터 계보 분석과 무관하다는 가정하에 동작한다. 이러한 이유로, 테이터세트들의 물리적 위치를 해석하기 위해 사용되는 임의의 런타임 파라미터 값들이 불필요하고 자리 표시자 값들로 대체될 수 있다. 상술한 바와 같이, 서브 그래프와 관련된 각각의 런 타임 파라미터에 대해, 대응하는 자리 표시자, 정정 분석 파라미터 값이 상기 서브 그래프에 포함된다. 예를 들어, 도 2에서, 데이터플로 그래프들(202, 204) 모두 DATE 런 타임 파라미터를 포함하기 때문에, 그것들은 또한 모두 자리표시자,'MMDDYY'의 정적 분석 파라미터 값을 포함한다.
상기 데이터 계보 모듈(115)이 데이터 계보를 결정하기 위해 데이터플로 그래프(217)를 분석할 때, 데이터플로 그래프의 DATE 파라미터의 모든 인스턴스들이 'MMDDYY', 자리 표시자 값으로 대체되어, 도 4에 도시된 바와 같이 임시 데이터세트 객체들(452)을 생성한다. 다양한 서브 그래프 인스턴스들과 임시 데이터세트 객체들 사이의 상호 연결들이 그런 다음 식별되어, 데이터 계보로서 데이터 설계자 또는 비즈니스 사용자에게 제공된다. 예를 들어, 제1 서브 그래프(202)의 인스턴스들(202a, 202b, 202c)의 분석은 제1 서브 그래프(202)의 인스턴스들 모두가 /trans_MMDDYY.dat 데이터세트 객체에 의해 나타내어지는 데이터 세트에 데이터를 기록하는 것을 보여준다. 상기 분석은 그런 다음 제2 데이터플로 그래프(204)의 인스턴스(204a)가 /trans_ MMDDYY .dat 데이터세트 객체에 의해 나타내어지는 데이터세트로부터 판독하는 것을 보여준다. 이 정보에 기초하여, 데이터플로 그래프(217)에 대한 데이터 계보는 제1 서브 그래프(202)의 인스턴스들(202a, 202b, 202c)의 출력이 제2 서브 그래프(204)의 인스턴스(204a)의 입력으로 공급되는 것을 보여준다.
4. 논리 pset 발견 및 생성 방법
일부 예에서는, 주어진 데이터플로 그래프가 이전에 저장된 pset으로부터 보다는 실행 명령에 공급되는 인수로서 피라미터 값들을 수신하는 실행 명령을 사용하여 실행된다. 전술한 방법은 저장된 psets만을 사용하여 데이터 계보를 결정하기 때문에, 데이터플로 그래프의 실행을 위한 실행 명령에 공급되는 인수들로부터 비롯된 파라미터 값들과 관련된 psets은 데이터 계보에 표시되지 않는다. 이는 기업 설계자 또는 감사관에게 불완전하거나 부정확한 데이터 계보가 제공되는 결과를 초래할 수 있다.
도 5는 데이터플로 그래프의 인스턴스들의 실행과 관련된 로그에서 식별된 파라미터 세트들에 기초하여 생성된 논리 psets로 데이터플로 그래프에 대한 기존 논리 파라미터 세트들(psets)의 저장소를 보강하기 위한 방법을 설명하는 순서도다. 일부 예에서는, 도 5에서 설명된 방법이 도 1의 데이터 계보 모듈(115)에 의해 구현된다.
4.1 그래프 파라미터들
처음에 데이터플로 그래프(예를 들어, 도 1의 제1 서브 그래프(202))의 일 예는 두 개의 파라미터들(P1과 P2)을 포함하고, 그것들 각각은 "디자인 타임" 파라미터 또는 "런 타임" 파라미터로 지정될 수 있다. 상술한 바와 같이, 디자인 타임 파라미터는 그래프의 논리 연산에 영향을 미치는 파라미터이고(예를 들어, 그래프에 의해 수행된 변환을 변경할 수 있음), 반면에 런 타임 파라미터가 작업별(예를 들어, 날짜)로 변경되고 그래프의 논리 연산에는 영향을 미치지 않는 파라미터이다.
4.2 파라미터 분류
상기 그래프(202)가 파라미터 분류 결과(426)를 생성하기 위해 상기 그래프(202)의 파라미터들을 분석하는 파라미터 분류 단계(424)에 제공된다. 파라미터 분류 결과(426)에서, 각각의 파라미터가 디자인 타임 파라미터 또는 런 타임 파라미터로 분류된다. 순서도에서 설명되는 예시적 경우에서, P1은 디자인 타임 파라미터로 분류되고 P2는 런 타임 파라미터로 분류된다.
일부 예에서는, 디자인플로 그래프에 대한 파라미터들이 디자인 타임 또는 런 타임 파라미터로 (예를 들어, 사용자에 의해) 미리 분류된다. (예를 들어, 레거시 데이터플로 그래프들(legacy dataflow graphs)에 대한) 다른 예에서는, 데이터플로 그래프에 대한 파라미터들이 디자인 타임 또는 런 타임 파라미터로 미리 분류되지 않는다. 이러한 경우에, 상기 파라미터 분류 단계(424)는 모든 파라미터들이 디자인 타임 파라미터들이라고 가정할 수 있다. 이후 재 분류 단계에서, 주어진 파라미터가 로그 엔트리들의 컬렉션(예를 들어, 아래에서 설명되는 작업 로그 데이터 스토어)에서 다수의 고유한 값들의 (예를 들어, 소정의 임계치를 초과하는)을 가지는 것으로 결정된다면, 주어진 파라미터가 런 타임 파라미터로 재분류될 수 있다. 또는, 재분류는 데이터 계보 민감도 분석(data lineage sensitivity analysis)에 기초할 수 있다. 특히, 파라미터가 데이터플로 그래프 내부의 데이터 계보(즉, 상기 데이터플로 그래프 내 데이터세트들 또는 컴포넌트들의 영향 또는 종속성)를 변경하지 않고 다양한 상이한 값들을 취할 수 있다면, 상기 파라미터는 런 타임 파라미터로 분류될 수 있다. 예를 들어, 그래프에서 데이터세트(예를 들어, 도 3의 DS1, DS2, DS3)의 관련된 레코드 형식들 또는 다른 특성들이 파라미터의 다양한 값들에 의해 영향받지 않는다면, 그 파라미터는 런 타임 파라미터로 재분류된다. 모든 내부 영향들과 종속성들을 해석하는 것을 포함하는 더 포괄적인 데이터 계보 민감도 분석, 및 데이터세트 레코드 형식들과 관련된 영향들과 종속성들만 해석하는 것을 포함하는 더 제한된 데이터 계보 민감도 분석같은 이러한 데이터 계보 민감도 분석의 변형들이 사용될 수 있다.
(예를 들어, 레거시 데이터플로 그래프들에 대한) 일부 예에서는, 파라미터가 디자인 타임과 런 타임 부분들을 모두 포함할 수 있다. 예를 들어, 파일명 파라미터 “/mexico/inv_031014.dat"는 디자인 타임 부분(즉, "mexico")과 런 타임 부분(즉, "031014")을 포함한다는 점에서 하이브리드 파라미터(hybrid parameter)일 수 있다. 이러한 예에서, 사용자는 하이브리드 파라미터로부터 각각의 디자인 타임과 런 타임 파라미터들을 추출하고 분류하기 위해 상기 파라미터 분류 단계(424)에 의해 사용되는 문자열 파싱 규칙(string parsing rules)의 정규 표현 또는 일부 다른 유형을 제공할 수 있다.
4.3 작업 로그 데이터 스토어
상기 방법은 각각은 데이터플로 그래프(202)의 인스턴스들의 실행과 관련된 정보를 포함하는, 다수의 작업 로그 엔트리들(429)를 포함하는 작업 로그 데이터 스토어(428)를 활용한다. 다른 정보 중에, 상기 작업 엔트리들 중 적어도 일부는 데이터플로 그래프(202)를 인스턴스화하기 위해 사용되었던 실행 명령의 기록을 포함한다. 주어진 작업 로그 엔트리에 대한 상기 실행 명령은 실행 명령에 대해 인수들로서 공급되었던 파라미터 값들과 그래프 명칭을 포함한다. 일반적으로, 상기 작업 로그 데이터 스토어(428)의 작업 로그 엔트리들 중 적어도 일부는 임의의 파라미터 세트들을 액세스하지 않고 데이터플로 그래프를 인스턴스화하나 대신에 실행 명령에 공급된 인수들로 파라미터 값들을 수신한다.
4.4 처리 루프
상기 작업 로그 데이터 스토어(428)와 상기 파라미터 분류 결과(426)는 상기 작업 로그 데이터 스토어(428)의 각각의 작업 로그 엔트리(429)에 대해 그래프 실행 명령에 대한 새로운 논리 pset을 생성하고, 상기 새로운 논리 pset이 기존 논리 psets의 저장소(448)에 이미 존재하는지를 결정하여, 그것이 이미 존재하지 않는다면 상기 저장소(448)에 상기 새로운 논리 pset을 추가하는 처리 루프(430)에 제공된다.
4.4.1 초기 명령 라인 논리 pset 구성
상기 처리 루프(430) 내에서, 상기 파라미터 분류 결과(426)와 상기 작업 로그 데이터 스토어(428)로부터의 작업 로그 엔트리 Jn (432)이 논리 pset(436)을 생성하기 위해 상기 파라미터 분류 결과(426)에 따라 상기 작업 로그 엔트리(432)를 분석하는 논리 pset 구성 단계(434)에 제공된다. 그러기 위해, 상기 논리 pset 구성 단계(434)는 상기 그래프 실행 명령에 대해 인수들로서 포함되는 상기 파라미터 값들을 추출하기 위해 상기 작업 로그 엔트리(432)에 포함된 상기 그래프 실행 명령을 분석한다. 상기 논리 pset 구성 단계(434)는 또한 상기 작업 로그 엔트리(432)에 포함된 프로젝트 스코프(project scope)를 추출한다. 일부 예에서는, 상기 프로젝트 스코프가 데이터플로 그래프가 실행중인 프로젝트의 표시, 상기 데이터플로 그래프에 대한 내부 파라미터들의 표시, 및 상기 데이터플로 그래프에 의해 사용되는 환경 설정들, 전역 변수들과 구성 변수들의 표시를 포함한다.
상기 논리 pset 구성 단계(434)는 자동적으로 상기 논리 pset(436)에 상기 추출된 프로젝트 스코프를 포함한다. 상기 논리 pset 구성 단계(434)는 그런 다음 각각의 추출된 파라미터 값을 상기 파라미터 분류 결과(426)의 대응하는 파라미터와 매칭시킨다(match). 상기 논리 pset 구성 단계(434)가 추출된 파라미터 값이 상기 파라미터 분류 결과(426)의 디자인 타임 파라미터에 대응한다고 결정하면, 상기 논리 pset 구성 단계(434)는 상기 논리 pset(436)에 추출된 디자인 파라미터의 값을 포함한다. 상기 논리 pset 구성 단계(434)가 추출된 파라미터 값이 상기 파라미터 분류 결과(426)의 런 타임 파라미터에 대응한다고 결정하면, 상기 추출된 파라미터 값은 상기 논리 pset(436)에 포함되지 않는다.
4.4.2 pset 서명 문자열 계산
상기 논리 pset(436)이 상기 논리 pset(436)의 파라미터 값들 및 상기 프로젝트 스코프에 기초하여 논리 pset 서명 문자열(444)을 계산하는 pset 서명 문자열 계산 단계(442)에 제공된다. 일부 예에서는, 상기 pset 서명 문자열(444)은 상기 논리 pset(436)에 대한 프로젝트 스코프, 상기 논리 pset(436)의 파라미터들의 이름/값 쌍들, 및 상기 논리 pset(436)과 관련된 데이터플로 그래프의 프로토타입(prototype)을 직렬화하여(by serializing) 계산된다. 다른 예에서는, 상기 pset 서명 문자열(444)은 해시 함수(hash function) 또는 다른 데이터 매핑 알고리즘을 상기 논리 pset(436)에 적용하여 계산된다.
4.4.3 pset 서명 문자열 검색
상기 pset 서명 문자열(444)은 기존 논리 psets의 저장소(448)의 모든 기존 논리 psets의 pset 서명 문자열들과 함께 pset 서명 검색 단계(446)에 제공된다. 상기 기존 논리 psets 각각에 대해, 기존 논리 pset의 pset 서명 문자열이 상기 pset 서명 문자열(444)에 비교된다. 상기 pset 서명 문자열(444)이 기존 논리 psets의 pset 서명 문자열 중 적어도 하나에 매칭한다면(match), 상기 그래프(432)의 실행 명령 인스턴스화에 대한 논리 pset이 이미 기존 논리 psets의 저장소(448)에 존재하기 때문에 아무것도 수행될 필요가 없다.
일부 예에서는, 모든 기존 논리 psets의 저장소(448)의 모든 기존 논리 psets의 pset 서명 문자열이 상기 저장소(448)에 상기 기존 논리 psets과 함께 저장된다. 다른 예에서는, 상기 기존 논리 psets에 대한 서명 문자열이 즉석에서 그리고 필요에 따라 계산된다.
4.4.4. 새로운 논리 pset의 추가
그렇지 않으면, 상기 기존 논리 psets의 서명 문자열 중 어떤 것도 상기 pset 서명 문자열(444)에 매칭하지 않으면, 상기 논리 pset(436)과 그 서명 문자열(444)은 새로운 논리 pset 추가 단계(450)에 의해 기존 논리 psets의 저장소(448)에 새로운 논리 pset으로서 추가된다.
4.4 예
도 6 및 도 7을 참조하면, 도 2의 제1 서브 그래프(202)에 적용된 바와 같은 도 4의 논리 pset 발견 및 생성 방법의 예시 동작이 제시된다. 도 2의 제1 서브 그래프(202)는 두 개의 파라미터, P1 = FEED 와 P2 = DATE를 포함한다. 상기 제1 서브 그래프(202)는 파라미터들이 "디자인 타임" 또는 "런 타임" 파라미터들로 분류되는 파라미터 분류 단계(424)에 제공되어, 파라미터 분류 결과(426)를 생성한다. 상기 파라미터 분류 결과(426)는 P1 (FEED) 파라미터가 디자인 타임 파라미터이고 P2 (DATE) 파라미터가 런 타임 파라미터라는 것을 표시한다.
상기 파라미터 분류 결과(426)와 작업 로그 데이터 스토어(428)는 논리 pset 구성 단계(434)에 제공된다. 도 6의 예에서, 상기 작업 로그 데이터 스토어(428)은 상기 제1 서브 그래프(202)(즉, gather.mp)의 인스턴스들의 실행과 관련된 정보를 포함하는 네 개의 작업 로그 엔트리들을 포함한다. 각각의 작업 로그 엔트리는 DATE와 FEED 파라미터들에 대한 값들을 인수로서 수신했던 실행 명령을 포함한다.
상기 논리 pset 구성 단계(434)는 상기 작업 로그 데이터 스토어(428)의 작업 로그 엔트리들 각각에 대해 상이한 논리 pset(436)을 생성한다. P1 (FEED) 파라미터가 디자인 타임 파라미터이기 때문에, 상기 실행 명령에 인수로서 공급되었던 그 값(예를 들어, mexico, usa, canada, 또는 hong kong)이 상기 논리 psets(436) 각각에 대해 포함된다. 상기 P2 (DATE) 파라미터가 런 타임 파라미터이기 때문에, 상기 실행 명령에 인수로서 공급되었던 그 값은 상기 논리 psets(436)에 포함되지 않는다. 상기 논리 psets(436) 각각은 상기 제1 서브 그래프(202)의 대응하는 인스턴스에 대한 프로젝트 스코프를 포함한다.
도 7을 참조하면, 상기 논리 psets(436)은 상기 논리 psets(436) 각각에 대한 상이한 논리 pset 서명 문자열(444)을 계산하는 pset 서명 문자열 계산 단계(442)에 제공된다.
상기 논리 pset 서명 문자열들(444) 및 기존 psets의 저장소(448)의 기존 psets(447)에 대한 논리 pset 서명 문자열의 세트가 검색 단계(446)에 제공된다. 도 2의 경우와 같이, 제1 서브 그래프(202)와 관련된 세 개의 기존 psets, mexico FEED 파라미터에 대해 하나, usa FEED 파라미터에 대해 하나, 및 canada FEED 파라미터에 대해 하나가 있다. 따라서, 기존 psets(447)에 대한 논리 pset 서명 문자열들(444)의 세트는 상기 제1 서브 그래프(202)와 관련된 기존 psets 각각에 대한 문자열을 포함한다.
상기 검색 단계(446)는 상기 기존 psets(447)에 대한 논리 pset 서명 문자열의 세트에서 상기 논리 pset 서명 문자열(444) 각각의 존재를 검색한다. 이 예에서, 상기 검색 단계(446)에 의해 생성되는 결과는 상기 기존 psets(447)에 대한 논리 pset 서명 문자열들의 세트에 포함되지 않는 유일한 논리 pset 서명 문자열이 'hongkong'의 FEED 파라미터 값을 가지는 논리 pset과 관련된 논리 pset 서명 문자열이라는 것이다.
'hongkong' feed 파라미터를 포함하는 논리 pset(436)과 상기 검색 단계(446)의 결과가 'hongkong'의 FEED 파라미터를 포함하는 논리 pset, 및 그 대응하는 논리 pset 서명 문자열(444)을 기존 논리 psets의 저장소(448)에 추가하는 논리 pset 추가 단계(450)에 제공된다.
상기 저장소에 새로운 논리 pset을 추가하여, 이전 데이터 계보 결과들에서 간과되었을 수 있는 제1 서브 그래프(202)의 'hongkong'인스턴스가 상기 데이터 계보 결과들에서 나타내어질 것이다.
런 타임 파라미터들에 대한 정적 분석 값들이 상기 예들에서 데이터플로 그래프 자체에 저장되는 것으로 설명되는 반면, 일부 예에서는, 런 타임 파라미터들에 대한 정적 분석 값들이 상기 데이터플로 그래프와 관련된 하나 이상의 psets에서 유지될 수 있다.
일부 예에서는, 특정 디자인 타임 파라미터 값들이 정적 분석 시간에 반드시 존재하지 않는 소스들로부터 (예를 들어, 데이터베이스로부터) 도출된다. 그러나, 일부 예에서는, 작업 로그 데이터 스토어에 저장된 작업 로그 엔트리들이 그 특정 작업에 대해 해석되었던 모든 파라미터들에 대한 값들을 포함한다. 정적 분석 시간에, 상기 저장된 값들이 정적 분석 시간에 존재하지 않는 소스들로부터 도출된 파라미터 값들 대신 사용될 수 있다.
일부 예에서는, 상기 작업 로그 스토어의 작업 로그 엔트리들이 데이터플로 그래프에 대한 모든 해석된 파라미터들, 상기 데이터플로 그래프에 의해 판독되고 기록된 모든 파일들의 로그, 및 성능 추적 정보를 포함한다. 일부 예에서는, 상기 작업 로그 데이터 스토어의 작업 로그 엔트리들이 도 4의 방법에 의해 발견된 임의의 논리 파라미터 세트들로 보강된다. 일부 예에서는, 상기 작업 로그 데이터 스토어의 작업 로그 엔트리들을 발견된 논리 파라미터 세트들로 보강하는 것은 상기 작업 로그 엔트리들과 상기 발견된 논리 파라미터 세트들 사이의 연관성을 형성하는 것을 포함한다. 상기 작업 로그 데이터 스토어의 보강된 작업 로그 엔트리들은 데이터 설계자 또는 비즈니스 사용자에게 다양한 형태의 정보를 제공하도록 활용될 수 있다. 일부 예에서는, 상기 보강된 작업 로그 엔트리들이 논리적으로 연결된 데이터플로 그래프들이 물리적으로도 연결되는 것을 확인하기 위해 분석될 수 있다. 일부 예에서는, 상기 보강된 작업 로그 엔트리들은 물리 데이터세트가 어떤 논리 데이터세트 인스턴스들에 대응하는가를 결정하기 위해 분석될 수 있다. 일부 예에서는, 상기 보강된 작업 로그 엔트리들은 동일한 물리 파일명을 가지나 상이한 정적 분석 파라미터들과 관련되는 데이터세트들을 식별하기 위해 분석될 수 있다. 이러한 예에서, 수동 복구를 위해 사용자에게 불일치(inconsistency)가 제시되거나 불일치가 자동적으로 복구될 수 있다. 일부 예에서는, 상기 데이터 계보 보고서가 불일치의 표시 및 그것이 자동적으로 복구될 수 있는지 여부를 포함할 수 있다.
일부 예에서는, 상기 보강된 작업 로그 엔트리들이 빈도 및/또는 최신성(recency)에 의해 데이터 계보 보고서들을 필터링하는 데 상기 데이터 계보 모듈에 의해 사용될 수 있다. 예를 들어, 메타데이터 환경 모듈은 상기 실행 모듈에 의해 더 이상 실행되지 않는 다수의 데이터플로 그래프들 및 psets을 유지할 수 있다. 이러한 데이터플로 그래프들과 psets은 이후에 필요한 경우에 한해서 제자리에 남겨둘 수 있다. 그러나 실행되지 않는 데이터플로 그래프들과 psets은 데이터 계보 보고서들에 불필요한 혼란을 야기할 수 있다. 이 혼란을 감소시키기 위해, 어떤 데이터플로 그래프들 및/또는 psets이 가끔씩 사용되고/되거나 최근에 사용되지 않았는지를 결정하기위해 상기 보강된 작업 로그 엔트리들이 분석될 수 있다. 이 빈도 및 최신성 정보에 기초하여, 가끔씩 그리고 최근에 실행되지 않은 데이터플로 그래프들 및 psets(예를 들어, 지난 1년동안 실행되지 않은 데이터플로 그래프)이 기업 사용자에게 제시되기에 앞서 데이터 계보 보고서로부터 필터링될 수 있다.
일부 예에서는, 주어진 데이터플로 그래프에 대한 논리 pset (예를 들어, FEED = USA 를 포함하는 pset)이 존재할 수 있으나, 데이터플로 그래프를 호출하는 하나 이상의 작업들이 기존 pset을 활용하는 대신에 직접적으로 파라미터 값들을 데이터플로 그래프에 공급하여 이루어진다. 이러한 경우에, 작업들과 (예를 들어, 상기 작업들과 관련된 서명들을 통해) 상기 작업들에 의해 액세스되었던 논리 psets 사이에 유지되는 연관성이 연관된 논리 psets에 기초하여 작업 로그 엔트리들을 그룹화하는 데 사용될 수 있다. 상기 그룹화에 기초하여, 기존 pset을 활용하는 대신에 직접적으로 그래프를 호출하여 인스턴스화되는 임의의 작업들은 상기 논리 pset과 그 파라미터들에 관련된 것으로 식별될 수 있다.
일부 예에서는, 데이터플로 그래프에 대한 각각의 작업 로그 엔트리가 다른 정보 중에서 상기 작업 로그 엔트리와 관련된 데이터플로 그래프의 실행에 대한 모든 해석된 파라미터 값들의 목록을 포함한다. 다수의 작업 로그 엔트리들이 축적되면, 상기 작업 로그 엔트리들에 포함된 해석된 파라미터 값들이 상기 데이터플로 그래프의 다양한 "디자인 타임 인스턴스들"을 식별하기 위해 비교될 수 있다. 예를 들어, 상기 작업 로그 엔트리들에서 특정 해석된 파라미터들이 상기 작업 로그 엔트리들 모두에서 단지 몇 몇 값들에 의해서 나타내어질 수 있고, 반면에 특정 다른 해석된 파라미터들이 상기 작업 로그 엔트리들 모두에서 많은 상이한 값들에 의해 나타내어질 수 있다. 상기 작업 로그 엔트리들에서 단지 몇 몇 값들에 의해 나타내어지는 이러한 해석된 파라미터들은 "디자인 타임" 파라미터들일 가능성이 있으며 상기 작업 로그 엔트리들에서 많은 상이한 값들에 의해 나타내어지는 다른 해석된 파라미터들은 "런 타임 파라미터들"일 가능성이 있다. "디자인 타임 파라미터들"의 고유한 조합을 공유하는 데이터플로 그래프의 임의의 인스턴스들이 함께 그룹화되고 모두 상기 데이터플로 그래프의 "디자인 타임 인스턴스"로 간주된다. 상기 데이터 계보 모듈은 상기 데이터 계보 보고서에 상기 데이터플로 그래프의 상이한 디자인 타임 인스턴스들을 포함시킨다.
5. 중복 논리 데이터세트 발견 및 완화 방법
5.1 개요
일반적으로, 주어진 데이터플로 그래프에 대한 입력 및 출력 데이터세트들(예를 들어, 데이터베이스들 또는 데이터의 테이블들)은 상기 데이터플로 그래프에서 논리 데이터세트들로 명시된다. 일부 예에서는, 각각의 논리 데이터세트가 논리 파일명 같은 식별자와 관련된다.
상기 데이터플로 그래프가 실행되기 전에, 각각의 논리 데이터세트를 대응하는 물리 데이터세트(예를 들어, 디스크 상의 파일)로 해석하는 것을 포함하는 실행에 대해 준비된다.
일부 예에서는, 각각의 물리 데이터세트는 물리 파일명(예를 들어, "summary.dat") 같은 식별자와 관련된다. 파라미터 해석 프로세스는 논리 데이터세트의 논리 파일명이 대응하는 물리 데이터세트의 물리 파일명과 다른 경우에도 논리 데이터세트를 그 대응하는 물리 데이터세트로 성공적으로 해석할 수 있다.
데이터 계보 보고서가 두 개 이상의 서브 그래프들을 포함하는 데이터플로 그래프에 대해 결정될 때, 상기 서브 그래프들 사이의 계보 관계들이 상기 두 개 이상의 서브 그래프들의 입력 및 출력 논리 데이터세트들의 논리 파일명에 따라 적어도 부분적으로 결정된다. 이러한 이유로, 계보 관계의 정확성은 주어진 물리 데이터세트를 참조하는 상기 두 개 이상의 서브 그래프들의 임의의 입력 및 출력 논리 데이터세트들이 동일한 논리 파일명을 공유하는 것을 필요로 한다. 실제로, 제1 서브 그래프가 주어진 물리 데이터세트에 기록하고 제2 서브 그래프가 그 뒤에 상기 주어진 물리 데이터세트로부터 판독하나, 상기 제1 서브 그래프의 출력 논리 데이터세트와 상기 제2 서브 그래프의 입력 논리 데이터세트의 논리 파일명들이 매칭되지 않으면, 어떠한 계보 관계도 상기 두 개의 서브 그래프들 사이에서 식별되지 않을 것이다. 일부 예에서는, 동일한 물리 데이터세트로 해석하나 매칭되지 않는 논리 파일명들을 가지는 두 개의 논리 데이터세트들은 "중복 논리 데이터세트들(duplicate logical datasets)"이라 한다.
아래에서 보다 상세히 설명되는 바와 같이, 데이터플로 그래프에서 중복 논리 데이터세트들이 식별될 수 있고 사용자에게 제시될 수 있다. 사용자는 이 때 여러 가지 방법들로 상기 중복 논리 데이터세트들을 처리하도록 선택할 수 있다.
5.2 중복 논리 데이터세트가 없는 예
도 8을 참조하면, 도 1의 개발 환경(118)을 사용하여 생성된 데이터플로 그래프의 일 예(817)는 gather.mp로 명명된 제1 서브 그래프(802)와 precess.mp로 명명된 제2 서브 그래프(804)를 포함한다.
상기 제1 서브 그래프(802)는 논리 파일명 "Acct _ 1.dat"을 가지는 제1 논리 데이터세트 DL1(806)과 논리 파일명 "Acct _ 2.dat"을 가지는 제2 논리 데이터세트 DL2(808)를 입력으로 수신한다. 상기 제1 서브 그래프(802)는 상기 제1 및 제2 논리 데이터세트들(806, 808)로부터의 데이터를 처리하고 논리 파일명 "Acct _ summ .dat"을 가지는 제3 논리 데이터세트 DL3(810)에 그 처리 결과를 기록한다. 상기 제2 서브 그래프(804)는 논리 파일명 "Acct _ summ .dat"을 가지는 상기 제3 논리 데이터세트 DL3(810)를 입력으로 수신하고, 상기 제3 논리 데이터세트(810)로부터의 데이터를 처리하여, 테이블(814)에 그 처리 결과를 기록한다. 상기 제1 서브 그래프(802)와 상기 제2 서브 그래프(804) 모두에 의해 사용되는 상기 제3 논리 데이터세트(810)가 서브 그래프들(802, 804) 모두에서 동일한 논리 파일명을 가지는 데 유의한다.
도 9를 참조하면, 데이터플로 그래프(817)가 실행에 앞서 해석될 때, 논리 데이터세트들이 그 대응하는 물리 데이터세트들로 해석된다. 예를 들어, 제1 논리 데이터세트(806)가 물리 파일명"Acct _ 1.dat"을 가지는 제1 물리 데이터세트 DP1(814)로 해석되고, 제2 논리 데이터세트(808)가 물리 파일명 "Acct _ 2.dat"을 가지는 제2 물리 데이터세트 DP2(816)로 해석되며, 제3 논리 데이터세트(810)가 물리 파일명 "summary.dat"을 가지는 제3 물리 데이터세트 DP3(818)로 해석된다.
도 10을 참조하면, 상기 데이터플로 그래프에 대한 데이터 계보 보고서(1017)는 제1 서브 그래프(1002), 제2 서브 그래프(1004), 제1 논리 데이터세트(1006), 제2 논리 데이터세트(1008), 및 제3 논리 데이터세트(1010)를 포함한다. 상기 데이터 계보 보고서(1017)는 또한 제1 논리 데이터세트(1006)과 상기 제1 서브 그래프(1002)의 입력 사이의 제1 계보 관계(1018), 상기 제2 논리 데이터세트(1008)과 상기 제1 서브 그래프(1002)의 입력 사이의 제2 계보 관계(1020), 상기 제1 서브 그래프(1002)의 출력과 상기 제3 논리 데이터세트(1010) 사이의 제3 계보 관계(1022) 및 상기 제3 논리 데이터세트(1010)과 상기 제2 서브 그래프(1004) 사이의 제4 계보 관계(1024)를 포함한다. 동일한 논리 파일명(즉, "Acct _ summ .dat")을 가지는 동일한 논리 데이터세트(즉, 상기 제3 논리 데이터세트 DL3(810))가 상기 제1 서브 그래프(802)의 출력에 그리고 상기 제2 서브 그래프(804)의 입력에 존재하기 때문에 이 경우에 데이터 계보 보고서(1017)가 정확하다는 데 유의한다.
5.3 중복 논리 데이터세트가 있는 예
도 11을 참조하면 도 1의 개발 환경(118)을 사용하여 생성된 데이터플로 그래프의 또 다른 예(1117)는 gather.mp로 명명된 제1 서브 그래프(1102)와 process.mp로 명명된 제2 서브 그래프(1104)를 포함한다.
상기 제1 서브 그래프(1102)는 논리 파일명"Acct _ 1.dat"을 가지는 제1 논리 데이터세트 DL1(1106)와 논리 파일명 "Acct _ 2.dat"을 가지는 제2 논리 데이터세트 DL2(1108)을 입력으로 수신한다. 상기 제1 서브 그래프(1102)는 상기 제1 및 제2 논리 데이터세트들(1106, 1108)로부터의 데이터를 처리하고 그 처리 결과를 논리 파일명 "Acct _ summ .dat"을 가지는 제3 논리 데이터세트 DL3(1110)에 기록한다. 상기 제2 서브 그래프(1104)는 논리 파일명 "Acct - summ .dat"을 가지는 제4 논리 데이터세트 DL4(1111)를 입력으로 수신하고, 상기 제4 논리 데이터세트(1111)로부터의 데이터를 처리하여, 그 처리 결과를 테이블(814)에 기록한다. 상기 제3 논리 데이터세트(1110)(즉, "Acct _ summ .dat")에 대한 논리 파일명은 상기 제4 논리 데이터세트(1111)(즉, "Acct - summ .dat")에 대한 논리 파일명과 다르다는 데 유의한다.
도 12를 참조하면, 상기 데이터플로 그래프(1117)가 실행에 앞서 해석될 때, 상기 논리 데이터세트들은 그 대응하는 물리 데이터세트들로 해석된다. 예를 들어, 상기 제1 논리 데이터세트(1106)는 물리 파일명 "Acct _ 1.dat"을 가지는 제1 물리 데이터세트 DP1(1114)로 해석되고, 상기 제2 논리 데이터세트(1108)는 물리 파일명 "Acct_2.dat"을 가지는 제2 물리 데이터세트 DP2(1116)로 해석되며, 상기 제3 논리 데이터세트(1110)와 상기 제4 논리 데이터세트(1111)는 모두 물리 파일명 "summary.dat"을 가지는 제3 물리 데이터세트 DP3(1218)로 해석된다. 상기 제3 논리 데이터세트(1110)와 상기 제4 논리 데이터세트(1111)는 그것들 각각이 동일한 물리 데이터세트(즉, 상기 제3 물리 데이터세트(1218))를 가리키기 때문에 중복 논리 데이터세트들이라는 것에 유의한다.
도 13을 참조하면, 상기 데이터플로 그래프에 대한 데이터 계보 보고서(1317)는 제1 서브 그래프(1102), 제2 서브 그래프(1104), 제2 논리 데이터세트(1106), 제2 논리 데이터세트(1108), 제3 논리 데이터세트(1110) 및 제4 논리 데이터세트(1111)을 포함한다. 상기 데이터 계보 보고서(1317)는 또한 상기 제1 논리 데이터세트(1106)과 상기 제1 서브 그래프(1102)의 입력 사이의 제1 계보 관계(1318), 상기 제2 논리 데이터세트(1108)와 상기 제1 서브 그래프(1102)의 입력 사이의 제2 계보 관계(1320), 상기 제1 서브 그래프(1102)와 상기 제3 논리 데이터세트(1110) 사이의 제3 계보 관계(1322), 및 상기 제4 논리 데이터세트(1111)와 상기 제2 서브 그래프(1104) 사이의 제4 계보 관계(1324)를 포함한다.
상이한 논리 파일명들을 가지는 두 개의 상이한 논리 데이터세트들(즉, 상기 제3 논리 데이터세트(1110)와 상기 제4 논리 데이터세트(1111))이 동일한 물리 데이터세트(즉, 상기 제3 물리 데이터세트(1218))를 참조하기 때문에 이 경우에 상기 데이터 계보 보고서(1317)가 부정확하다는 것에 유의한다. 특히, 상기 논리 파일명 "Acct_summ.dat"을 가지는 상기 제3 논리 데이터세트 DL3(1110)가 상기 제1 서브 그래프(1102)의 출력에 존재하고 상기 논리 파일명 "Acct - summ .dat"을 가지는 상기 제4 논리 데이터세트(1111)가 상기 제2 서브 그래프(1104)의 입력에 존재한다. 상기 데이터 계보 보고서(1317)는 상기 제3 논리 데이터세트(1110)와 상기 제4 논리 데이터세트(1111)를 서로 어떠한 계보 관계도 없는 별개의 데이터세트로서 나타낸다. 이와 같이, 상기 데이터 계보 보고서(1317)는 상기 제3 논리 데이터세트(1110)와 상기 제4 논리 데이터세트(1111) 사이의 데이터 계보 내의 브레이크(break)를 부정확하게 포함한다.
5.4 중복 논리 데이터세트 발견
일부 예에서는, 데이터플로 그래프에서 중복 논리 데이터세트들이 상기 데이터플로 그래프의 실행에 의해 생성되는 런 타임 아티팩트(run time artifacts)(예를 들어, 도 5의 작업 로그들(429))를 분석하여 발견될 수 있다. 특히, 데이터플로 그래프가 실행될 때마다, 작업 로그가 생성된다.
상기 작업 로그는 그래프 인스턴스명과 그래프의 각각의 데이터세트 컴포넌트들에 대해 그것이 액세스한 물리 데이터세트들과 액세스 유형(판독 또는 기록)을 포함하는 상기 데이터플로 그래프의 실행과 관련된 정보를 포함한다. 그래프 인스턴스들은 각각의 데이터세트 컴포넌트에 대해 논리 데이터세트명들을 결정하기 위해 검사될 수 있다. 상기 그래프 인스턴스와 상기 데이터 컴포넌트명을 매칭하여, 상기 시스템은 논리 데이터세트명들을 물리 데이터세트명들에 매핑할 수 있다.
중복 논리 데이터세트들을 식별하기 위해, 작업 로그들을 분석하여 매핑의 상기 첫번째 논리 데이터세트가 매핑의 두번째 논리 데이터세트와 다른 임의의 논리 대 물리 데이터세트 매핑들(logical to physical dataset mappings)을 식별한다. 첫번째 논리 데이터세트와 두번째 논리 데이터세트가 다른 임의의 논리 대 물리 데이터세트 매핑들은 중복 논리 데이터세트들로 분류된다.
상기 식별된 중복 논리 데이터세트들은 중복 논리 데이터세트들을 정정할지 결정하는 사용자에게 제시되거나 자동으로 완화된다.
5.4.1 중복 논리 데이터세트 발견의 예
도 12를 다시 참조하면, 해석된 데이터플로 그래프(1117)가 실행될 때, 상기 데이터플로 그래프 실행에 대한 작업 로그가 생성된다.
상기 작업 로그는 제1 서브 그래프(1102)와 제2 서브 그래프(1104) 사이의 흐름에 대응하는 단일 논리 대 물리 데이터세트 매핑을 포함한다. 상기 논리 대 물리 데이터세트 매핑은 상기 제1 서브 그래프(1104)의 출력에서 제3 논리 데이터세트 DL3(1110)에 대한 식별자, 상기 제2 서브 그래프(1106)의 입력에서 제4 논리 데이터세트 DL4(1111)에 대한 식별자, 및 제3 물리 데이터세트(1218)에 대한 식별자를 포함한다.
제3 논리 데이터세트(1110)와 제4 논리 데이터세트(1111)가 동일한 물리 데이터세트(즉, 제3 물리 데이터세트(1218))를 가리키는 별개의 논리 데이터세트(예를 들어, 상이한 논리 파일명들을 가지는 논리 데이터세트들)이기 때문에, 제3 논리 데이터세트(1110)와 제4 논리 데이터세트(1111)는 중복 논리 데이터세트들로 분류된다.
상술된 단순 예가 상기 중복 논리 데이터세트 발견 방법을 포함하는 데이터 처리 시스템의 실제 구현에서 단일 작업 로그로부터 중복 논리 데이터세트들의 단일 쌍의 식별을 포함하는 반면, 중복 논리 데이터세트들의 여러 쌍이 여러 작업 로그들을 이용하여 식별될 수 있다는 것에 유의한다.
5.5 중복 논리 데이터세트 완화
상술한 바와 같이, 중복 논리 데이터세트들은 데이터 계보 보고서들에서 브레이크를 초래할 수 있다. 중복 논리 데이터세트들이 식별되면, 여러 상이한 방법들이 중복 논리 데이터세트들을 제거하거나 데이터 계보 보고서들에 대한 그 영향을 완화하기 위해 취해질 수 있다. 일부 예에서는, 상기 식별된 중복 논리 데이터세트들이 예를 들어, 스프레드시트 형태로 사용자에게 제시된다. 사용자는 이때 (예를 들어, 주어진 데이터플로 그래프에서 주어진 물리 데이터세트가 단일 논리 데이터세트에 의해서만 참조되도록 보장함으로써) 중복 논리 데이터세트들을 제거하기 위해 중복 논리 데이터세트들을 포함하는 데이터플로 그래프들을 편집할 수 있다. 다른 예에서는, 사용자가 중복 논리 데이터세트들의 쌍을 동등한 것으로 표시할 수 있다. 이런식으로, 사용자는 데이터플로 그래프들에 어떠한 변경도 가할 필요가 없다. 또 다른 예에서는, 중복 논리 데이터세트들의 쌍이 자동적으로 동등한 것으로 표시될 수 있다.
중복 논리 데이터세트의 쌍이 동등한 것으로 표시될 때, 데이터 계보 보고서에 그 동등성(equivalency)을 표시하는 여러 방법들이 있다. 한 방법에서는, 중복 데이터세트들의 쌍이 참조하는 물리 데이터세트가 데이터 계보 보고서에서 중복 논리 데이터세트들에 연결되어 보여진다. 예를 들어, 도 14를 참조하면, 제3 물리 데이터세트 DP3(1218)가 데이터 계보 보고서(1317)에 포함된다. 제3 논리 데이터세트 DL3(1110)와 제4 논리 데이터세트 DL4(1111) 모두 계보 관계들(1450 및 1452)에 의해 제3 물리 데이터세트(1218)에 연결된 것으로 보여진다.
또 다른 방법에서는, 중복 논리 데이터세트들의 쌍의 논리 데이터세트들이 계보 관계에 의해 데이터 계보 보고서에서 서로 연결된 것으로 보여진다. 예를 들어, 도 15를 참조하면, 데이터 계보 보고서(1317)에서 계보 관계(1550)에 의해 제3 논리 데이터세트 DL3(1110)가 제4 논리 데이터세트 DL4(1111)에 연결된 것으로 보여진다.
또 다른 방법에서는, 중복 논리 데이터세트들의 쌍이 데이터 계보 보고서에서 결합된 논리 데이터세트에 의해 나타내어진다. 예를 들어, 도 16을 참조하면, 중복 논리 데이터세트들의 쌍이 데이터 계보 보고서(1317)에서 결합된 논리 데이터세트 DLR(1654)에 의해 나타내어진다.
또 다른 방법에서는, 중복 논리 데이터세트들의 쌍 중 하나의 논리 데이터세트가 데이터 계보 보고서에서 중복 논리 데이터세트들의 쌍을 나타내기 위해 선택된다. 예를 들어, 도 17을 참조하면, 제4 논리 데이터세트 DL4(1111)는 데이터 계보 보고서(1317)에서 중복 논리 데이터세트들의 쌍을 나타낸다.
또 다른 방법에서는, 중복 논리 데이터세트들의 쌍과 중복 논리 데이터세트들의 쌍의 결합된 논리 데이터세트의 표현이 데이터 계보 보고서에 포함된다. 중복 논리 데이터세트들의 쌍과 결합된 논리 데이터세트 사이의 계보 관계들의 고유한 구성이 데이터 계보 그래프에서 보여진다. 예를 들어, 도 18을 참조하면, 데이터 계보 보고서(1317)는 중복 논리 데이터세트들의 쌍의 결합된 논리 데이터세트 표현 DLR(1854), 제3 논리 데이터세트 DL3(1110) 및 제4 논리 데이터세트 DL4(1111)를 포함한다. 상기 결합된 논리 데이터세트(1854)는 제1 서브그래프(1102) 및 제2 서브 그래프(1104)와 직접적인 계보 관계들을 가지는 것으로 보여진다. 상기 결합된 논리 데이터세트(1845)는 또한 제3 논리 데이터세트(1110)를 통해 제1 서브 그래프(1102)와 간접적 계보 관계를 가지는 것으로 그리고 제4 논리 데이터세트(1111)를 통해 제2 서브 그래프(1104)와 간접적 계보 관계를 가지는 것으로 보여진다.
또 다른 방법에서, 중복 논리 데이터세트들의 쌍의 논리 데이터세트들이 데이터 계보 보고서에 포함된다. 중복 논리 데이터세트들의 쌍의 논리 데이터세트들 사이의 계보 관계들의 고유한 구성이 데이터 계보 그래프에서 보여진다. 예를 들어, 도 19를 참조하면, 데이터 계보 보고서(1317)는 제3 논리 데이터세트 DL3 (1110) 및 제4 논리 데이터세트 DL4 (1111)를 포함한다. 제4 논리 데이터세트(1111)는 제1 서브 그래프(1102) 및 제2 서브 그래프(1104)와 직접적인 계보 관계들을 가지는 것으로 도시된다. 제3 논리 데이터세트 DL3(1110)는 제1 서브 그래프(1102)와 직접적인 계보 관계를 가지는 것으로 그리고 제4 논리 데이터세트(1111)를 통해 제2 서브 그래프(1104)와 간접적 계보 관계를 가지는 것으로 보여진다.
일부 예에서는, 상술된 완화 방법들이 데이터 계보 보고서들에서 점선, 굵은 선, 또는 또다른 대체 방식으로 표시되어 데이터 계보 보고서의 사용자에게 완화 방법이 데이터 계보 보고서에 적용되었음을 분명히 하는 것에 유의한다.
상기 중복 논리 데이터세트 발견과 완화 접근방법들이 제1 컴포넌트가 물리 데이터세트에 기록하고 또 다른 컴포넌트가 그 물리 데이터세트로부터 판독하는 시나리오를 사용하여 설명되는 반면, 다른 시나리오들이 중복 논리 데이터세트들을 초래할 수 있다. 예를 들어, 중복 논리 데이터세트들의 쌍이 동일한 물리 데이터세트로부터 판독하는 두 개의 상이한 논리 데이터세트들로부터의 결과일 수 있다. 유사하게, 중복 논리 데이터세트들의 쌍은 동일한 물리 데이터세트에 기록하는 두 개의 상이한 논리 데이터세트들로부터의 결과일 수 있다.
전술한 방법들은 모두 본원에서 참조로 원용되는 2009년 2월 26일에 출원된 미국 출원 번호 12/393,765, 2011년 10월 25일에 출원된 미국 출원 번호 13/281,039, 및 2014년 7월 24일에 출원된 미국 가출원 번호 62/028,485에서 더 상세히 설명된 바와 같이 데이터 계보 정보를 관리하고 제시하기 위한 그리고 데이터 객체들을 관리하기 위한 다양한 다른 방법으로부터의 특징들을 통합할 수 있다.
상술한 방법들은 예를 들어, 적합한 소프트웨어 명령들을 실행하는 프로그래머블 컴퓨팅 시스템을 이용하여 구현될 수 있거나, 필드 프로그래머블 게이트 어레이(FPGA)같은 적합한 하드웨어 또는 일부 하이브리드 형태로 구현될 수 있다. 예를 들어, 프로그램된 방법에서 상기 소프트웨어는 (분산, 클라이언트/서버, 또는 그리드 같은 다양한 아키텍처일 수 있는) 하나 이상의 프로그램된 또는 프로그래머블 컴퓨팅 시스템 - 각각은 적어도 하나의 프로세서, (휘발성 및/또는 비 휘발성 메모리 및/또는 저장 요소들을 포함하는) 적어도 하나의 데이터 저장 시스템, (적어도 하나의 입력 디바이스 또는 포트를 사용하여 입력을 수신하기 위한, 그리고 적어도 하나의 출력 디바이스 또는 포트를 사용하여 출력을 제공하기 위한) 적어도 하나의 사용자 인터페이스를 포함함 - 상에서 실행되는 하나 이상의 컴퓨터 프로그램의 절차들을 포함할 수 있다. 상기 소프트웨어는 예를 들어, 데이터플로 그래프의 디자인, 구성 및 실행에 관련된 서비스들을 제공하는 더 큰 프로그램의 하나 이상의 모듈을 포함할 수 있다. 상기 프로그램의 모듈들(예를 들어, 데이터플로 그래프의 요소들)은 데이터 구조 또는 데이터 저장소에 저장된 데이터 모델을 따르는 다른 조직화된 데이터로 구현될 수 있다.
상기 소프트웨어는 CD-ROM 또는 (예를 들어, 범용 또는 특별 목적 컴퓨팅 시스템 또는 디바이스에 의해 판독 가능한) 기타 컴퓨터 판독 가능 매체 같은 유형의, 비일시적 매체 상에 제공될 수 있거나, 그것이 실행되는 컴퓨팅 시스템의 유형의, 비일시적 매체로 네트워크의 통신 매체를 통해 전달될(예를 들어, 전파 신호에 인코딩될) 수 있다. 상기 처리 중 일부 또는 모두는 특별 목적 컴퓨터 상에서, 또는 코프로세서 또는 필드 프로그래머블 게이트 어레이(FPGAs) 또는 전용 주문형 집적 회로(ASICs) 같은 특별 목적 하드웨어를 사용하여 수행될 수 있다. 상기 처리는 소프트웨어에 의해 명시된 계산의 상이한 부분들이 상이한 컴퓨팅 요소들에 의해 수행되는 분산 방식으로 구현될 수 있다. 각각의 이러한 컴퓨터 프로그램은 저장 디바이스 매체가 본원에서 설명된 처리를 수행하는 컴퓨터의 의해 판독될 때 상기 컴퓨터를 구성하고 운영하기 위해, 바람직하게는 범용 또는 특별 목적 프로그래머블 컴퓨터에 의해 액세스 가능한 저장 디바이스의 컴퓨터 판독가능한 저장 매체(예를 들어, 솔리드 스테이트 메모리(solid state memory) 또는 매체, 또는 자기 또는 광학 매체)) 상에 저장되거나 다운로드된다. 본 발명의 시스템은 또한 컴퓨터 프로그램으로 구성되는, 유형의 비일시적 매체로 구현되는 것으로 간주될 수 있으며, 그렇게 구성된 매체는 컴퓨터가 본원에서 설명된 처리 단계들 중 하나 이상을 수행하도록 특정 및 사전 정의된 방식으로 동작하게 한다.
본 발명의 다수의 실시 예가 설명되었다. 그럼에도 불구하고, 전술한 설명은 예시를 위한 것이고 다음 청구항들의 범위 내에서 정의되는 본 발명의 범위를 제한하는 것이 아니다. 따라서, 다른 실시 예들 또한 다음 청구항들의 범위 내에 있다. 예를 들어, 다양한 변형들이 본 발명의 범위를 벗어나지 않고 이루어질 수 있다. 또한, 전술한 단계들 중 일부는 순서 독립적일 수 있고 따라서 설명된 것과 다른 순서로 수행될 수 있다.

Claims (35)

  1. 파라미터 값들의 세트들을 관리하기 위한 방법에 있어서, 상기 방법은
    제네릭 컴퓨터 프로그램(generic computer program)에 대한 복수의 파라미터 값들의 세트들을 수신하는 단계, 및
    상기 제네릭 컴퓨터 프로그램의 인스턴스들의 실행들과 관련된 로그 엔트리들을 처리하는 단계 - 상기 제네릭 컴퓨터 프로그램의 각각의 인스턴스는 적어도 하나의 파라미터 값들과 관련됨 - 를 포함하되, 상기 처리하는 단계는
    상기 제네릭 컴퓨터 프로그램과 관련된 적어도 하나의 파라미터들 각각을 파라미터들의 제1 클래스 또는 파라미터들의 제2 클래스의 멤버로 분류하기 위해 상기 제네릭 컴퓨터 프로그램을 분석하는 단계;
    파라미터 값들의 특정 세트를 형성하기 위해 상기 제네릭 컴퓨터 프로그램의 제1 인스턴스의 실행과 관련된 로그 엔트리를 처리하는 단계 - 여기서 상기 처리하는 단계는
    상기 로그 엔트리에서 발생하는 상기 제1 클래스의 멤버들로 분류된 파라미터들의 임의의 값들을 상기 특정 세트에 포함시키는 단계, 및
    상기 로그 엔트리에서 발생하는 상기 제2 클래스의 멤버들로 분류된 파라미터들의 임의의 값들을 상기 특정 세트로부터 배제하는 단계를 포함함-; 및
    상기 파라미터 값들의 특정 세트에 대한 제1 식별자와 상기 복수의 파라미터 값들의 세트들의 파라미터 값들의 세트들 중 적어도 일부에 대한 식별자들의 비교에 기초하여 상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터 값들의 세트들에 추가할지 결정하는 단계를 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  2. 제1항에 있어서,
    상기 로그 엔트리들을 처리하는 단계는 상기 파라미터들이 상기 제네릭 컴퓨터 프로그램과 관련된 데이터 계보(data lineage)에 영향을 미치는지 여부에 기초하여 파라미터들을 분류하는 단계를 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  3. 제1항에 있어서,
    상기 파라미터 값들의 특정 세트에 대한 제1 식별자와 상기 복수의 파라미터 값들의 세트들의 파라미터 값들의 세트들 중 적어도 일부에 대한 식별자들의 비교는
    상기 파라미터 값들의 특정 세트와 상기 제네릭 컴퓨터 프로그램의 식별자에 기초하여 상기 제1 식별자를 결정하는 것;
    복수의 제2 식별자들 - 상기 파라미터 값들의 세트들 중 적어도 일부의 각각의 파라미터 값들의 세트에 대해 하나임 - 을 결정하는 것; 및
    상기 제1 식별자와 상기 제2 식별자들 중 임의의 것이 일치하는지 결정하기 위해 상기 제1 식별자와 상기 복수의 제2 식별자들의 각각의 제2 식별자를 비교하는 것을 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  4. 제3항에 있어서,
    상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터 값들의 세트들에 추가할지 결정하는 단계는 상기 제2 식별자들 중 어느 것도 상기 제1 식별자와 일치하지 않는다면 상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터 값들의 세트들에 추가하도록 결정하는 단계를 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  5. 제3항에 있어서,
    상기 제1 식별자를 결정하는 것은 상기 파라미터 값들의 특정 세트의 콘텐츠로부터 식별 문자열(identification string)을 계산하는 것을 포함하고, 상기 제2 식별자들을 결정하는 것은 상기 복수의 파라미터 값들의 세트들의 파라미터 값들의 세트들 중 적어도 일부의 콘텐츠로부터 식별 문자열들을 계산하는 것을 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  6. 제3항에 있어서,
    상기 제1 식별자를 결정하는 것은 상기 제네릭 컴퓨터 프로그램의 식별자, 상기 파라미터 값들의 특정 세트의 이름-값 쌍들, 상기 제네릭 컴퓨터 프로그램의 함수 프로토타입(function prototype), 및 상기 제네릭 컴퓨터 프로그램의 제1 인스턴스에 대한 프로젝트 스코프(project scope) 중 적어도 하나의 연결을 형성하는 것을 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  7. 제3항에 있어서,
    상기 제1 식별자를 결정하는 것은 상기 제네릭 컴퓨터 프로그램의 식별자, 상기 파라미터 값들의 특정 세트의 이름-값 쌍들, 상기 제네릭 컴퓨터 프로그램의 함수 프로토타입(function prototype), 및 상기 제네릭 컴퓨터 프로그램의 제1 인스턴스에 대한 프로젝트 스코프(project scope) 중 적어도 하나에 데이터 매핑 함수를 적용하는 것을 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  8. 제7항에 있어서,
    상기 데이터 매핑 함수는 해시 함수(hash function)를 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  9. 제1항에 있어서,
    상기 파라미터들의 제1 클래스는 상기 제네릭 컴퓨터 프로그램의 논리 연산(logical operation)에 영향을 미치는 파라미터들을 포함하고, 상기 파라미터들의 제2 클래스는 상기 제네릭 컴퓨터 프로그램의 논리 연산에 영향을 미치지 않는 파라미터들을 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  10. 제1항에 있어서,
    상기 제네릭 컴퓨터 프로그램은 데이터 처리 연산들(operations)을 나타내는 노드들과 상기 데이터 처리 연산들 사이의 데이터 요소들의 흐름들을 나타내는 상기 노드들 사이의 링크들을 포함하는 데이터플로 그래프로 명시되는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  11. 제1항에 있어서,
    상기 파라미터들 각각에 대해, 상기 분석은 상기 파라미터를 자동으로 분류하는 것 또는 상기 파라미터에 대한 사용자 정의 분류를 받아들이는 것을 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  12. 제11항에 있어서,
    상기 파라미터를 자동으로 분류하는 것은 초기에 상기 파라미터를 상기 파라미터들의 제1 클래스에 속하는 것으로 분류하는 것, 상기 제네릭 컴퓨터 프로그램의 복수의 인스턴스들의 실행들에서 상기 파라미터의 고유 값들의 개수를 결정하는 것, 및 상기 파라미터의 고유 값들의 개수가 소정의 임계치를 초과하면 상기 파라미터를 상기 파라미터들의 제2 클래스에 속하는 것으로 재분류하는 것을 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  13. 제11항에 있어서,
    상기 파라미터를 자동으로 분류하는 것은 초기에 상기 파라미터를 상기 파라미터들의 제1 클래스에 속하는 것으로 분류하는 것, 상기 제네릭 컴퓨터 프로그램의 복수의 인스턴스들의 실행들에서 상기 파라미터의 값들의 변화가 상기 제네릭 컴퓨터 프로그램과 관련된 데이터 계보에 영향을 미치는지 여부를 결정하는 것, 및 상기 파라미터의 값들의 변화가 상기 데이터 계보에 영향을 미치지 않는다면 상기 파라미터를 상기 파라미터들의 제2 클래스에 속하는 것으로 재분류하는 것을 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  14. 제1항에 있어서,
    상기 제네릭 컴퓨터 프로그램의 제1 인스턴스의 실행과 관련된 상기 로그 엔트리와 상기 파라미터 값들의 특정 세트 사이에 연관성을 형성하는 단계를 더 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  15. 제1항에 있어서,
    상기 제네릭 컴퓨터 프로그램의 제1 인스턴스의 실행과 관련된 상기 로그 엔트리는 실행 명령에 인수들로서 공급되는 적어도 하나의 파라미터 값들을 포함하는 상기 제네릭 컴퓨터 프로그램을 인스턴스화하는 데 사용되는 실행 명령의 로그 엔트리를 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  16. 제15항에 있어서,
    상기 제네릭 컴퓨터 프로그램의 제1 인스턴스의 실행과 관련된 상기 로그 엔트리는 상기 제1 인스턴스가 실행되는 프로젝트의 표시, 상기 제1 인스턴스에 대한 내부 파라미터들의 표시, 및 상기 제1 인스턴스에 의해 사용되는 환경 설정들, 전역 변수들과 구성 변수들의 표시 중 적어도 하나를 더 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  17. 제11항에 있어서,
    복수의 제네릭 컴퓨터 프로그램들에 대한 전체적인 복수의 파라미터 값들의 세트들과 데이터 계보 보고서를 형성하기 위해 상기 복수의 제네릭 컴퓨터 프로그램들 중 적어도 일부의 인스턴스들의 실행들과 관련된 전체적인 복수의 로그 엔트리들을 처리하는 것을 더 포함하되, 상기 전체적인 복수의 파라미터 값들의 세트들은 상기 제네릭 컴퓨터 프로그램에 대해 파라미터 값들의 보강된 복수의 세트들을 포함하고, 상기 복수의 제네릭 컴퓨터 프로그램들 중 적어도 일부의 인스턴스들의 실행들과 관련된 전체적인 복수의 로그 엔트리들은 상기 파라미터 값들의 특정 세트와의 연관성을 포함하여 상기 제네릭 컴퓨터 프로그램의 제1 인스턴스의 실행의 로그 엔트리를 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  18. 제17항에 있어서,
    상기 데이터 계보 보고서를 형성하는 것은 상기 복수의 제네릭 컴퓨터 프로그램들에 대한 상기 전체적인 복수의 파라미터 값들의 세트들의 각각의 파라미터 값들의 세트에 대해
    상기 파라미터 값들의 세트에 대응하는 상기 제네릭 컴퓨터 프로그램의 인스턴스들의 실행들과 관련된 모든 로그 엔트리들을 식별하기 위해 상기 복수의 제네릭 컴퓨터 프로그램들 중 적어도 일부의 인스턴스들의 실행들과 관련된 상기 전체적인 복수의 로그 엔트리들을 처리하는 것과 상기 제네릭 컴퓨터 프로그램의 인스턴스들의 실행들과 관련된 상기 식별된 로그 엔트리들로부터 상기 제네릭 컴퓨터 프로그램의 인스턴스화의 가장 최근 시간을 식별하는 것; 및
    상기 제네릭 컴퓨터 프로그램의 인스턴스화의 가장 최근 시간에 기초하여 상기 데이터 계보 보고서에 상기 파라미터들의 세트를 포함시킬지 결정하는 것을 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  19. 제18항에 있어서,
    상기 제네릭 컴퓨터 프로그램의 인스턴스화의 가장 최근 시간에 기초하여 상기 데이터 계보 보고서에 상기 파라미터들의 세트를 포함시킬지 결정하는 것은 상기 인스턴스화의 가장 최근 시간을 소정의 시간 간격과 비교하는 것 및 상기 제네릭 컴퓨터 프로그램의 인스턴스화의 가장 최근 시간이 상기 소정의 시간 간격 내에 있다면 상기 데이터 계보 보고서에 상기 파라미터들의 세트를 포함시키는 것을 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  20. 제17항에 있어서,
    상기 데이터 계보 보고서를 형성하는 것은 상기 복수의 제네릭 컴퓨터 프로그램들에 대한 상기 전체적인 복수의 파라미터 값들의 세트들의 각각의 파라미터 값들의 세트에 대해,
    상기 파라미터 값들의 세트에 대응하는 상기 제네릭 컴퓨터 프로그램의 인스턴스들의 실행들과 관련된 로그 엔트리들의 개수를 결정하기 위해 상기 복수의 제네릭 컴퓨터 프로그램들 중 적어도 일부의 인스턴스들의 실행들과 관련된 상기 전체적인 복수의 로그 엔트리들을 처리하는 것, 및
    상기 제네릭 컴퓨터 프로그램의 인스턴스들의 실행들과 관련된 로그 엔트리들의 개수에 기초하여 상기 데이터 계보 보고서에 상기 파라미터들의 세트를 포함시킬지 결정하는 것을 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  21. 파라미터 값들의 세트들을 관리하기 위해, 컴퓨터 판독가능한 매체상에 비일시적 형태로 저장된 소프트웨어에 있어서, 상기 소프트웨어는 컴퓨팅 시스템이
    제네릭 컴퓨터 프로그램(generic computer program)에 대한 복수의 파라미터 값들의 세트들을 수신하도록 하고,
    상기 제네릭 컴퓨터 프로그램의 인스턴스들의 실행들과 관련된 로그 엔트리들을 처리하도록 하는 - 상기 제네릭 컴퓨터 프로그램의 각각의 인스턴스는 적어도 하나의 파라미터 값들과 관련되고, 상기 처리하는 것에 기초하여 상기 파라미터 값들의 복수의 세트들을 보강함 - 명령들을 포함하되, 상기 처리하는 것은
    상기 제네릭 컴퓨터 프로그램과 관련된 적어도 하나의 파라미터들 각각을 파라미터들의 제1 클래스 또는 파라미터들의 제2 클래스의 멤버로 분류하기 위해 상기 제네릭 컴퓨터 프로그램을 분석하는 것;
    파라미터 값들의 특정 세트를 형성하기 위해 상기 제네릭 컴퓨터 프로그램의 제1 인스턴스의 실행과 관련된 로그 엔트리를 처리하는 것 - 여기서 상기 처리하는 것은
    상기 로그 엔트리에서 발생하는 상기 제1 클래스의 멤버들로 분류된 파라미터들의 임의의 값들을 상기 특정 세트에 포함시키는 것, 및
    상기 로그 엔트리에서 발생하는 상기 제2 클래스의 멤버들로 분류된 파라미터들의 임의의 값들을 상기 특정 세트로부터 배제하는 것을 포함함-; 및
    상기 파라미터 값들의 특정 세트에 대한 제1 식별자와 상기 복수의 파라미터 값들의 세트들의 파라미터 값들의 세트들 중 적어도 일부에 대한 식별자들의 비교에 기초하여 상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터 값들의 세트들에 추가할지 결정하는 것을 포함하는, 컴퓨터 판독가능한 매체상에 비일시적 형태로 저장된 소프트웨어.
  22. 파라미터 값들의 세트들을 관리하기 위한 컴퓨팅 시스템에 있어서, 상기 컴퓨팅 시스템은
    제네릭 컴퓨터 프로그램(generic computer program)에 대한 복수의 파라미터 값들의 세트들을 수신하기 위한 입력 디바이스 또는 포트, 및
    상기 제네릭 컴퓨터 프로그램의 인스턴스들의 실행들과 관련된 로그 엔트리들을 처리하기 위한 적어도 하나의 프로세서 - 상기 제네릭 컴퓨터 프로그램의 각각의 인스턴스는 적어도 하나의 파라미터 값들과 관련됨 - 를 포함하되, 상기 처리하는 것은
    상기 제네릭 컴퓨터 프로그램과 관련된 적어도 하나의 파라미터들 각각을 파라미터들의 제1 클래스 또는 파라미터들의 제2 클래스의 멤버로 분류하기 위해 상기 제네릭 컴퓨터 프로그램을 분석하는 것;
    파라미터 값들의 특정 세트를 형성하기 위해 상기 제네릭 컴퓨터 프로그램의 제1 인스턴스의 실행과 관련된 로그 엔트리를 처리하는 것 - 여기서 상기 처리하는 것은
    상기 로그 엔트리에서 발생하는 상기 제1 클래스의 멤버들로 분류된 파라미터들의 임의의 값들을 상기 특정 세트에 포함시키는 것, 및
    상기 로그 엔트리에서 발생하는 상기 제2 클래스의 멤버들로 분류된 파라미터들의 임의의 값들을 상기 특정 세트로부터 배제하는 것을 포함함 - ; 및
    상기 파라미터 값들의 특정 세트에 대한 제1 식별자와 상기 복수의 파라미터 값들의 세트들의 파라미터 값들의 세트들 중 적어도 일부에 대한 식별자들의 비교에 기초하여 상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터들 값들의 세트들에 추가할지 결정하는 것을 포함하는, 파라미터 값들의 세트들을 관리하기 위한 컴퓨팅 시스템.
  23. 파라미터 값들의 세트들을 관리하기 위한 컴퓨팅 시스템에 있어서, 상기 컴퓨팅 시스템은
    제네릭 컴퓨터 프로그램(generic computer program)에 대한 복수의 파라미터 값들의 세트들을 수신하기 위한 수단, 및
    상기 제네릭 컴퓨터 프로그램의 인스턴스들의 실행들과 관련된 로그 엔트리들을 처리하기 위한 수단 - 상기 제네릭 컴퓨터 프로그램의 각각의 인스턴스는 적어도 하나의 파라미터 값들과 관련됨 - 를 포함하되, 상기 처리하는 것은
    상기 제네릭 컴퓨터 프로그램과 관련된 적어도 하나의 파라미터들 각각을 파라미터들의 제1 클래스 또는 파라미터들의 제2 클래스의 멤버로 분류하기 위해 상기 제네릭 컴퓨터 프로그램을 분석하는 것;
    파라미터 값들의 특정 세트를 형성하기 위해 상기 제네릭 컴퓨터 프로그램의 제1 인스턴스의 실행과 관련된 로그 엔트리를 처리하는 것 - 여기서 상기 처리하는 것은
    상기 로그 엔트리에서 발생하는 상기 제1 클래스의 멤버들로 분류된 파라미터들의 임의의 값들을 상기 특정 세트에 포함시키는 것, 및
    상기 로그 엔트리에서 발생하는 상기 제2 클래스의 멤버들로 분류된 파라미터들의 임의의 값들을 상기 특정 세트로부터 배제하는 것을 포함함 - ; 및
    상기 파라미터 값들의 특정 세트에 대한 제1 식별자와 상기 복수의 파라미터 값들의 세트들의 파라미터 값들의 세트들 중 적어도 일부에 대한 식별자들의 비교에 기초하여 상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터들 값들의 세트들에 추가할지 결정하는 것을 포함하는, 파라미터 값들의 세트들을 관리하기 위한 컴퓨팅 시스템.
  24. 파라미터 값들의 세트들을 관리하기 위한 방법에 있어서, 상기 방법은
    제네릭 컴퓨터 프로그램(generic computer program)을 수신하는 단계;
    파라미터 값들의 제1 세트를 수신하는 단계;
    상기 파라미터 값들의 제1 세트에 따라 상기 제네릭 컴퓨터 프로그램을 인스턴스화함으로써 상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스를 생성하는 단계;
    적어도 하나의 데이터 세트들로부터 데이터를 수신하는 단계;
    상기 수신된 데이터 중 적어도 일부를 처리하기 위해 상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스를 실행하는 단계;
    상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스에 대한 로그 엔트리를 생성하는 단계- 상기 로그 엔트리는 상기 파라미터 값들의 제1 세트의 파라미터 값들 중 적어도 일부를 포함함 - ;
    상기 로그 엔트리를 저장하는 단계;
    상기 로그 엔트리를 수신하는 단계;
    파라미터 값들의 특정 세트를 형성하기 위해 상기 로그 엔트리를 처리하는 단계 -여기서 상기 처리하는 단계는 상기 로그 엔트리로부터 상기 파라미터 값들의 제1 세트의 파라미터 값들 중 적어도 일부를 추출하는 단계 및 상기 추출된 파라미터 값들로부터 상기 파라미터 값들의 특정 세트를 형성하는 단계를 포함함 - ; 및
    상기 파라미터 값들의 특정 세트에 대한 제1 식별자와 복수의 파라미터 값들의 기존 세트들의 파라미터 값들의 기존 세트들 중 적어도 일부에 대한 식별자들의 비교에 기초하여 상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터 값들의 기존 세트들에 추가할지 결정하는 단계를 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  25. 제24항에 있어서,
    상기 파라미터 값들의 특정 세트에 대한 식별자와 상기 복수의 파라미터 값들의 기존 세트들의 파라미터 값들의 기존 세트들 중 적어도 일부에 대한 식별자들의 비교는
    상기 파라미터 값들의 특정 세트와 상기 제네릭 컴퓨터 프로그램의 식별자에 기초하여 상기 제1 식별자를 결정하는 것;
    복수의 제2 식별자들- 상기 파라미터 값들의 기존 세트들 중 적어도 일부의 각각의 파라미터 값들의 기존 세트에 대해 하나임 - 을 결정하는 것; 및
    상기 제1 식별자와 상기 제2 식별자들 중 임의의 것이 일치하는지 결정하기 위해 상기 제1 식별자와 상기 복수의 제2 식별자들의 각각의 제2 식별자를 비교하는 것을 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  26. 제25항에 있어서,
    상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터 값들의 기존 세트들에 추가할지 결정하는 단계는 상기 제2 식별자들 중 어느 것도 상기 제1 식별자와 일치하지 않는다면 상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터 값들의 기존 세트들에 추가하도록 결정하는 단계를 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  27. 제25항에 있어서,
    상기 제1 식별자를 결정하는 것은 상기 파라미터 값들의 특정 세트의 콘텐츠로부터 식별 문자열(identification string)을 계산하는 것을 포함하고, 상기 제2 식별자들을 결정하는 것은 상기 복수의 파라미터 값들의 기존 세트들의 파라미터 값들의 기존 세트들 중 적어도 일부의 콘텐츠로부터 식별 문자열들을 계산하는 것을 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  28. 제25항에 있어서,
    상기 제1 식별자를 결정하는 것은 상기 제네릭 컴퓨터 프로그램의 식별자, 상기 파라미터 값들의 특정 세트의 이름-값 쌍들, 상기 제네릭 컴퓨터 프로그램의 함수 프로토타입(function prototype), 및 상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스에 대한 프로젝트 스코프(project scope) 중 적어도 하나의 연결을 형성하는 단계를 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  29. 제25항에 있어서,
    상기 제1 식별자를 결정하는 것은 상기 제네릭 컴퓨터 프로그램의 식별자, 상기 파라미터 값들의 특정 세트의 이름-값 쌍들, 상기 제네릭 컴퓨터 프로그램의 함수 프로토타입(function prototype), 및 상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스에 대한 프로젝트 스코프(project scope) 중 적어도 하나에 데이터 매핑 함수를 적용하는 것을 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  30. 제29항에 있어서,
    상기 데이터 매핑 함수는 해시 함수(hash function)를 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  31. 제24항에 있어서,
    상기 제네릭 컴퓨터 프로그램과 관련된 적어도 하나의 파라미터들 각각을 파라미터들의 제1 클래스 또는 파라미터들의 제2 클래스의 멤버로 분류하기 위해 상기 제네릭 컴퓨터 프로그램을 분석하는 단계를 더 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  32. 제31항에 있어서,
    상기 파라미터 값들의 특정 세트를 형성하기 위해 상기 로그 엔트리를 처리하는 단계는
    상기 로그 엔트리에서 발생하는 상기 제1 클래스의 멤버들로 분류된 임의의 추출된 파라미터 값들을 상기 특정 세트에 포함시키는 단계, 및
    상기 로그 엔트리에서 발생하는 상기 제2 클래스의 멤버들로 분류된 임의의 추출된 파라미터 값들을 상기 특정 세트로부터 배제하는 단계를 더 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  33. 제31항에 있어서,
    상기 파라미터들의 제1 클래스는 상기 제네릭 컴퓨터 프로그램의 논리 연산(logical operation)에 영향을 미치는 파라미터들을 포함하고, 상기 파라미터들의 제2 클래스는 상기 제네릭 컴퓨터 프로그램의 논리 연산에 영향을 미치지 않는 파라미터들을 포함하는, 파라미터 값들의 세트들을 관리하기 위한 방법.
  34. 파라미터 값들의 세트들을 관리하기 위해, 컴퓨터 판독가능한 매체상에 비일시적 형태로 저장된 소프트웨어에 있어서, 상기 소프트웨어는 컴퓨팅 시스템이
    제네릭 컴퓨터 프로그램(generic computer program)을 수신하도록 하고;
    파라미터 값들의 제1 세트를 수신하도록 하고;
    상기 파라미터 값들의 제1 세트에 따라 상기 제네릭 컴퓨터 프로그램을 인스턴스화함으로써 상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스를 생성하도록 하고;
    적어도 하나의 데이터 세트들로부터 데이터를 수신하도록 하고;
    상기 수신된 데이터 중 적어도 일부를 처리하기 위해 상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스를 실행하도록 하고;
    상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스에 대한 로그 엔트리를 생성하도록 하고- 상기 로그 엔트리는 상기 파라미터 값들의 제1 세트의 파라미터 값들 중 적어도 일부를 포함함 - ;
    상기 로그 엔트리를 저장하도록 하고;
    상기 로그 엔트리를 수신하도록 하고;
    파라미터 값들의 특정 세트를 형성하기 위해 상기 로그 엔트리를 처리하도록 하고 -여기서 상기 처리하는 것은 상기 로그 엔트리로부터 상기 파라미터 값들의 제1 세트의 파라미터 값들 중 적어도 일부를 추출하는 것 및 상기 추출된 파라미터 값들로부터 상기 파라미터 값들의 특정 세트를 형성하는 것을 포함함 - ; 및
    상기 파라미터 값들의 특정 세트에 대한 제1 식별자와 복수의 파라미터 값들의 기존 세트들의 파라미터 값들의 기존 세트들 중 적어도 일부에 대한 식별자들의 비교에 기초하여 상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터 값들의 기존 세트들에 추가할지 결정하도록 하는 명령들을 포함하는, 컴퓨터 판독가능한 매체상에 비일시적 형태로 저장된 소프트웨어.
  35. 파라미터 값들의 세트들을 관리하기 위한 시스템에 있어서, 상기 시스템은
    제네릭 컴퓨터 프로그램, 파라미터 값들의 제1 세트, 및 적어도 하나의 데이터 세트들로부터의 데이터를 수신하기 위한 제1 입력 디바이스 또는 포트;
    적어도 하나의 프로세서들의 제1 세트로서,
    상기 파라미터 값들의 제1 세트에 따라 상기 제네릭 컴퓨터 프로그램을 인스턴스화함으로써 상기 제네릭 컴퓨터의 실행가능한 인스턴스를 생성하도록 하고;
    상기 수신된 데이터 중 적어도 일부를 처리하기 위해 상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스를 실행하도록 하고;
    상기 제네릭 컴퓨터 프로그램의 실행가능한 인스턴스에 대한 로그 엔트리 -상기 로그 엔트리는 상기 파라미터 값들의 제1 세트의 파라미터 값들 중 적어도 일부를 포함함 - 를 생성하도록 구성되는 적어도 하나의 프로세서들의 제1세트;
    상기 로그 엔트리를 저장 디바이스에 저장하기 위한 제1 출력 디바이스 또는 포트를 포함하는 제1 컴퓨팅 시스템;
    상기 로그 엔트리를 수신하기 위한 제2 입력 디바이스 또는 포트;
    적어도 하나의 프로세서들의 제2 세트로서,
    파라미터 값들의 특정 세트를 형성하기 위해 상기 로그 엔트리를 처리하도록 하고 - 여기서 상기 처리하는 것은 상기 로그 엔트리로부터 상기 파라미터 값들의 제1 세트의 파라미터 값들 중 적어도 일부를 추출하는 것 및 상기 추출된 파라미터 값들로부터 상기 파라미터 값들의 특정 세트를 형성하는 것을 포함함 -; 및
    상기 파라미터 값들의 특정 세트에 대한 제1 식별자와 복수의 파라미터 값들의 기존 세트들의 파라미터 값들의 기존 세트들 중 적어도 일부에 대한 식별자들의 비교에 기초하여 상기 파라미터 값들의 특정 세트를 상기 복수의 파라미터 값들의 기존 세트들에 추가할지 결정하도록 구성되는 적어도 하나의 프로세서들의 제2 세트를 포함하는 제2 컴퓨팅 시스템을 포함하는, 파라미터 값들의 세트들을 관리하기 위한 시스템.
KR1020177004178A 2014-07-18 2015-07-20 파라미터 세트의 관리 KR102279859B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462026228P 2014-07-18 2014-07-18
US62/026,228 2014-07-18
PCT/US2015/041093 WO2016011441A1 (en) 2014-07-18 2015-07-20 Managing parameter sets

Publications (2)

Publication Number Publication Date
KR20170031749A KR20170031749A (ko) 2017-03-21
KR102279859B1 true KR102279859B1 (ko) 2021-07-20

Family

ID=53836203

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020177004178A KR102279859B1 (ko) 2014-07-18 2015-07-20 파라미터 세트의 관리
KR1020177004181A KR102292803B1 (ko) 2014-07-18 2015-07-20 계보 정보의 관리

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020177004181A KR102292803B1 (ko) 2014-07-18 2015-07-20 계보 정보의 관리

Country Status (9)

Country Link
US (3) US10175974B2 (ko)
EP (4) EP3191962B1 (ko)
JP (2) JP6636009B2 (ko)
KR (2) KR102279859B1 (ko)
CN (2) CN106716352B (ko)
AU (3) AU2015289441B2 (ko)
CA (2) CA2955378C (ko)
SG (2) SG11201700381XA (ko)
WO (2) WO2016011441A1 (ko)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3191962B1 (en) 2014-07-18 2019-12-11 AB Initio Technology LLC Managing parameter sets
US10275227B1 (en) * 2015-02-20 2019-04-30 The Mathworks, Inc. Determining functional equivalence of configurations of a model
US11226975B2 (en) 2015-04-03 2022-01-18 Oracle International Corporation Method and system for implementing machine learning classifications
US10366096B2 (en) 2015-04-03 2019-07-30 Oracle International Corporation Method and system for implementing a log parser in a log analytics system
US11727025B2 (en) 2015-04-03 2023-08-15 Oracle International Corporation Method and system for implementing a log parser in a log analytics system
US10467195B2 (en) 2016-09-06 2019-11-05 Samsung Electronics Co., Ltd. Adaptive caching replacement manager with dynamic updating granulates and partitions for shared flash-based storage system
US10455045B2 (en) 2016-09-06 2019-10-22 Samsung Electronics Co., Ltd. Automatic data replica manager in distributed caching and data processing systems
WO2018089633A1 (en) * 2016-11-09 2018-05-17 Ab Initio Technology Llc Systems and methods for determining relationships among data elements
US10431002B2 (en) * 2017-02-23 2019-10-01 International Business Machines Corporation Displaying data lineage using three dimensional virtual reality model
US10379825B2 (en) 2017-05-22 2019-08-13 Ab Initio Technology Llc Automated dependency analyzer for heterogeneously programmed data processing system
US10726069B2 (en) * 2017-08-18 2020-07-28 Sap Se Classification of log entry types
US11055074B2 (en) * 2017-11-13 2021-07-06 Ab Initio Technology Llc Key-based logging for processing of structured data items with executable logic
US11681944B2 (en) 2018-08-09 2023-06-20 Oracle International Corporation System and method to generate a labeled dataset for training an entity detection system
US10803051B2 (en) * 2018-10-10 2020-10-13 Bank Of America Corporation System for performing a lineage control in a data network
US11256701B2 (en) 2019-01-02 2022-02-22 Bank Of America Corporation Interactive lineage mapping system
US11194845B2 (en) * 2019-04-19 2021-12-07 Tableau Software, LLC Interactive lineage analyzer for data assets
US10996946B2 (en) 2019-05-22 2021-05-04 Ab Initio Technology Llc Static and runtime analysis of computer program ecosystems
US11080227B2 (en) * 2019-08-08 2021-08-03 SambaNova Systems, Inc. Compiler flow logic for reconfigurable architectures
US10798100B1 (en) 2019-09-12 2020-10-06 Snowflake Inc. Managing membership in a private data exchange
KR102168775B1 (ko) * 2019-12-27 2020-10-23 주식회사에어플러그 네트워크를 경유하는 서비스 기반의 정보 조회를 신속하게 처리하기 위한 방법과 그 방법을 위한 기기
CN112131303A (zh) * 2020-09-18 2020-12-25 天津大学 基于神经网络模型的大规模数据沿袭方法
JP2024505238A (ja) 2021-01-31 2024-02-05 アビニシオ テクノロジー エルエルシー 論理データセットグループの操作を伴うデータ処理システム
AU2022213420A1 (en) * 2021-01-31 2023-07-27 Ab Initio Technology Llc Dataset multiplexer for data processing system
WO2023060170A2 (en) 2021-10-08 2023-04-13 Ab Initio Technology Llc Automated modification of computer programs

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6381735B1 (en) * 1998-10-02 2002-04-30 Microsoft Corporation Dynamic classification of sections of software
US20080098365A1 (en) * 2006-09-28 2008-04-24 Amit Kumar Performance analyzer
US20080288234A1 (en) * 2004-03-01 2008-11-20 Bradley Nelson Method, system and program product supporting user tracing in a simulator
US20120284287A1 (en) * 2011-05-06 2012-11-08 Sap Ag Systems and Methods for Business Process Logging
US20130007719A1 (en) * 2011-06-30 2013-01-03 International Business Machines Corporation Running an executable during a debug session
US20130332423A1 (en) * 2012-06-12 2013-12-12 Accenture Global Services Limited Data lineage tracking

Family Cites Families (159)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2727026B2 (ja) * 1989-06-14 1998-03-11 株式会社エイ・ティ・アール通信システム研究所 プログラム構造自動設計装置
US5168441A (en) 1990-05-30 1992-12-01 Allen-Bradley Company, Inc. Methods for set up and programming of machine and process controllers
US5446885A (en) 1992-05-15 1995-08-29 International Business Machines Corporation Event driven management information system with rule-based applications structure stored in a relational database
JPH0744368A (ja) 1993-07-29 1995-02-14 Hitachi Ltd 組合せモデルの編集システム
US5758351A (en) 1995-03-01 1998-05-26 Sterling Software, Inc. System and method for the creation and use of surrogate information system objects
US5966072A (en) 1996-07-02 1999-10-12 Ab Initio Software Corporation Executing computations expressed as graphs
US6216140B1 (en) 1997-09-17 2001-04-10 Hewlett-Packard Company Methodology for the efficient management of hierarchically organized information
US6216131B1 (en) 1998-02-06 2001-04-10 Starfish Software, Inc. Methods for mapping data fields from one data set to another in a data processing environment
US6088702A (en) 1998-02-25 2000-07-11 Plantz; Scott H. Group publishing system
US6948154B1 (en) 1999-03-22 2005-09-20 Oregon State University Methodology for testing spreadsheets
US7120638B1 (en) 1999-09-21 2006-10-10 International Business Machines Corporation Method, system, program, and data structure for cleaning a database table
US6633875B2 (en) 1999-12-30 2003-10-14 Shaun Michael Brady Computer database system and method for collecting and reporting real estate property and loan performance information over a computer driven network
GB2358072B (en) 2000-01-07 2004-01-28 Mitel Corp Tabular range editing mechanism
US7117219B1 (en) * 2000-05-05 2006-10-03 Group 1 Software, Inc. Method and apparatus for creating a lineage of a data field in a data flow system
US7054885B1 (en) * 2000-05-23 2006-05-30 Rockwell Collins, Inc. Method and system for managing the configuration of an evolving engineering design using an object-oriented database
US7164422B1 (en) 2000-07-28 2007-01-16 Ab Initio Software Corporation Parameterized graphs with conditional components
US7031001B2 (en) 2000-07-31 2006-04-18 Canon Kabushiki Kaisha Print control apparatus and control method
US6704024B2 (en) 2000-08-07 2004-03-09 Zframe, Inc. Visual content browsing using rasterized representations
US6708186B1 (en) 2000-08-14 2004-03-16 Oracle International Corporation Aggregating and manipulating dictionary metadata in a database system
US7143076B2 (en) 2000-12-12 2006-11-28 Sap Aktiengesellschaft Method and apparatus for transforming data
US6629098B2 (en) 2001-01-16 2003-09-30 Hewlett-Packard Development Company, L.P. Method and system for validating data submitted to a database application
US7614036B2 (en) 2001-03-22 2009-11-03 Robert D Bjornson Method and system for dataflow creation and execution
JP2002279147A (ja) 2001-03-22 2002-09-27 Sharp Corp 内製化判断支援装置、内製化判断支援方法および内製化判断支援プログラムを記録した機械読取可能な記録媒体および内製化判断支援プログラム
US7853553B2 (en) 2001-03-26 2010-12-14 Siebel Systems, Inc. Engine for converting data from a source format to a destination format using user defined mappings
US6732095B1 (en) 2001-04-13 2004-05-04 Siebel Systems, Inc. Method and apparatus for mapping between XML and relational representations
US6494159B2 (en) 2001-05-11 2002-12-17 The United States Of America As Represented By The Secretary Of The Navy Submarine launched unmanned combat vehicle replenishment
US6832366B2 (en) 2001-05-17 2004-12-14 Simdesk Technologies, Inc. Application generator
US7099885B2 (en) 2001-05-25 2006-08-29 Unicorn Solutions Method and system for collaborative ontology modeling
US6868526B2 (en) 2001-07-18 2005-03-15 The Mathworks, Inc. Graphical subclassing
AUPR966001A0 (en) 2001-12-20 2002-01-24 Canon Information Systems Research Australia Pty Ltd A microprocessor card defining a custom user interface
US7080088B1 (en) 2002-01-30 2006-07-18 Oracle International Corporation Automatic reconciliation of bindable objects
US7185317B2 (en) 2002-02-14 2007-02-27 Hubbard & Wells Logical data modeling and integrated application framework
US6820077B2 (en) 2002-02-22 2004-11-16 Informatica Corporation Method and system for navigating a large amount of data
US7110924B2 (en) 2002-05-15 2006-09-19 Caterpillar Inc. Method for controlling the performance of a target system
US7574652B2 (en) 2002-06-20 2009-08-11 Canon Kabushiki Kaisha Methods for interactively defining transforms and for generating queries by manipulating existing query data
US20050144189A1 (en) 2002-07-19 2005-06-30 Keay Edwards Electronic item management and archival system and method of operating the same
US7437766B2 (en) * 2002-10-03 2008-10-14 Sandia National Laboratories Method and apparatus providing deception and/or altered operation in an information system operating system
US7167850B2 (en) 2002-10-10 2007-01-23 Ab Initio Software Corporation Startup and control of graph-based computation
US7225301B2 (en) 2002-11-22 2007-05-29 Quicksilver Technologies External memory controller node
US20040225632A1 (en) 2003-05-08 2004-11-11 Microsoft Corporation Automated information management and related methods
US7257603B2 (en) 2003-05-08 2007-08-14 Microsoft Corporation Preview mode
CA2433750A1 (en) * 2003-06-27 2004-12-27 Ibm Canada Limited - Ibm Canada Limitee Automatic collection of trace detail and history data
US20050010896A1 (en) 2003-07-07 2005-01-13 International Business Machines Corporation Universal format transformation between relational database management systems and extensible markup language using XML relational transformation
US20050060317A1 (en) 2003-09-12 2005-03-17 Lott Christopher Martin Method and system for the specification of interface definitions and business rules and automatic generation of message validation and transformation software
US7865507B2 (en) 2003-09-15 2011-01-04 Oracle International Corporation Data quality analyzer
CN102982065B (zh) 2003-09-15 2016-09-21 起元科技有限公司 数据处理方法、数据处理装置及计算机可读存储介质
US7328428B2 (en) 2003-09-23 2008-02-05 Trivergent Technologies, Inc. System and method for generating data validation rules
US7263532B2 (en) * 2003-09-23 2007-08-28 Microsoft Corporation Region-based memory management for object-oriented programs
US7765529B1 (en) 2003-10-31 2010-07-27 The Mathworks, Inc. Transforming graphical objects in a graphical modeling environment
US7840949B2 (en) 2003-11-03 2010-11-23 Ramal Acquisition Corp. System and method for data transformation using dataflow graphs
US7690000B2 (en) 2004-01-08 2010-03-30 Microsoft Corporation Metadata journal for information technology systems
US20050187984A1 (en) 2004-02-20 2005-08-25 Tianlong Chen Data driven database management system and method
US8165853B2 (en) 2004-04-16 2012-04-24 Knowledgebase Marketing, Inc. Dimension reduction in predictive model development
JP4275013B2 (ja) 2004-06-21 2009-06-10 三洋電機株式会社 データフローグラフ処理装置、処理装置、リコンフィギュラブル回路。
US7536406B2 (en) 2004-06-23 2009-05-19 Microsoft Corporation Impact analysis in an object model
US20060007464A1 (en) 2004-06-30 2006-01-12 Percey Michael F Structured data update and transformation system
US7353227B2 (en) 2004-07-23 2008-04-01 Sap Aktiengesellschaft Conflict resolution engine
US7899833B2 (en) 2004-11-02 2011-03-01 Ab Initio Technology Llc Managing related data objects
US7760746B2 (en) * 2004-11-30 2010-07-20 Computer Associates Think, Inc. Cascading configuration using one or more configuration trees
US7428486B1 (en) 2005-01-31 2008-09-23 Hewlett-Packard Development Company, L.P. System and method for generating process simulation parameters
US8768877B2 (en) 2005-03-07 2014-07-01 Ca, Inc. System and method for data manipulation
JP4550641B2 (ja) 2005-03-30 2010-09-22 大陽日酸エンジニアリング株式会社 データ照合装置及び方法
US8255363B2 (en) 2005-06-08 2012-08-28 rPath Methods, systems, and computer program products for provisioning software using dynamic tags to identify and process files
US8630917B2 (en) 2005-06-09 2014-01-14 At&T Intellectual Property Ii, L.P. Arrangement for guiding user design of comprehensive product solution using on-the-fly data validation
US7716630B2 (en) * 2005-06-27 2010-05-11 Ab Initio Technology Llc Managing parameters for graph-based computations
US7877350B2 (en) 2005-06-27 2011-01-25 Ab Initio Technology Llc Managing metadata for graph-based computations
US7464105B2 (en) 2005-07-06 2008-12-09 International Business Machines Corporation Method for performing semi-automatic dataset maintenance
US7870162B2 (en) 2005-07-29 2011-01-11 Sap Ag Method for generating properly formed expressions
US20070050750A1 (en) 2005-08-31 2007-03-01 Microsoft Corporation Extensible data-driven setup application for operating system
US20070080088A1 (en) 2005-10-06 2007-04-12 Trotter Jason K Preassembly of cooperating parts
WO2007048229A1 (en) 2005-10-25 2007-05-03 Angoss Software Corporation Strategy trees for data mining
US8060821B2 (en) 2005-12-09 2011-11-15 Apple Inc. Enhanced visual feedback of interactions with user interface
US20070179956A1 (en) 2006-01-18 2007-08-02 Whitmyer Wesley W Jr Record protection system for networked databases
US7761586B2 (en) 2006-02-06 2010-07-20 Microsoft Corporation Accessing and manipulating data in a data flow graph
US7661067B2 (en) 2006-02-21 2010-02-09 International Business Machines Corporation Method for providing quick responses in instant messaging conversations
US7647298B2 (en) 2006-03-23 2010-01-12 Microsoft Corporation Generation of query and update views for object relational mapping
US20070294119A1 (en) 2006-03-30 2007-12-20 Adaptive Alpha, Llc System, method and computer program product for evaluating and rating an asset management business and associate investment funds using experiential business process and performance data, and applications thereof
US8868577B2 (en) 2006-03-31 2014-10-21 Sap Se Generic database manipulator
US7797319B2 (en) 2006-05-15 2010-09-14 Algebraix Data Corporation Systems and methods for data model mapping
US7870556B2 (en) 2006-05-16 2011-01-11 Ab Initio Technology Llc Managing computing resources in graph-based computations
US7970746B2 (en) 2006-06-13 2011-06-28 Microsoft Corporation Declarative management framework
US7689565B1 (en) 2006-06-28 2010-03-30 Emc Corporation Methods and apparatus for synchronizing network management data
US20080040388A1 (en) * 2006-08-04 2008-02-14 Jonah Petri Methods and systems for tracking document lineage
EP2527983A3 (en) 2006-08-10 2013-06-12 Ab Initio Technology LLC Distributing services in graph-based computations
US8397208B2 (en) * 2006-08-31 2013-03-12 Serena Software, Inc. Method and system for baselining across multiple domains
US8423564B1 (en) 2006-10-31 2013-04-16 Ncr Corporation Methods and apparatus for managing and updating stored information
US20080126988A1 (en) 2006-11-24 2008-05-29 Jayprakash Mudaliar Application management tool
WO2008070688A1 (en) * 2006-12-04 2008-06-12 Commvault Systems, Inc. Systems and methods for creating copies of data, such as archive copies
US8538918B1 (en) 2006-12-05 2013-09-17 Corelogic Solutions, Llc Systems and methods for tracking parcel data acquisition
US9614929B2 (en) * 2006-12-19 2017-04-04 International Business Machines Corporation Application server with automatic and autonomic application configuration validation
US7428846B2 (en) 2006-12-21 2008-09-30 Namco Machine & Gear Works Ltd. Shaft encoder with anti-backlash gears
US20080162384A1 (en) 2006-12-28 2008-07-03 Privacy Networks, Inc. Statistical Heuristic Classification
GB0700450D0 (en) 2007-01-10 2007-02-21 Radiation Watch Ltd The RWL threat engine
US9430552B2 (en) 2007-03-16 2016-08-30 Microsoft Technology Licensing, Llc View maintenance rules for an update pipeline of an object-relational mapping (ORM) platform
WO2008113164A1 (en) * 2007-03-16 2008-09-25 Research In Motion Limited Automating construction of a data-source interface for component applications
US20080243765A1 (en) 2007-03-29 2008-10-02 Ariel Fuxman Method for generating nested mapping specifications in a schema mapping formalism
US7603368B2 (en) 2007-03-30 2009-10-13 Fmr Llc Mapping data on a network
US8069129B2 (en) 2007-04-10 2011-11-29 Ab Initio Technology Llc Editing and compiling business rules
US8032404B2 (en) 2007-06-13 2011-10-04 International Business Machines Corporation Method and system for estimating financial benefits of packaged application service projects
US8694518B2 (en) 2007-06-14 2014-04-08 Colorquick, L.L.C. Method and apparatus for database mapping
US8429619B2 (en) 2007-07-03 2013-04-23 International Business Machines Corporation Executable high-level trace file generation system
US8103704B2 (en) 2007-07-31 2012-01-24 ePrentise, LLC Method for database consolidation and database separation
US7912264B2 (en) 2007-08-03 2011-03-22 Siemens Medical Solutions Usa, Inc. Multi-volume rendering of single mode data in medical diagnostic imaging
US9110967B2 (en) * 2007-08-29 2015-08-18 International Business Machines Corporation Data lineage in data warehousing environments
US7860863B2 (en) 2007-09-05 2010-12-28 International Business Machines Corporation Optimization model for processing hierarchical data in stream systems
US8566296B2 (en) 2007-09-14 2013-10-22 Oracle International Corporation Support for compensation aware data types in relational database systems
CA2698265C (en) 2007-09-20 2017-08-29 Craig W. Stanfill Managing data flows in graph-based computations
US8572551B2 (en) * 2007-12-20 2013-10-29 International Business Machines Corporation Difference log production for model merging
US7937415B2 (en) 2007-12-28 2011-05-03 Business Objects, S.A. Apparatus and method for stripping business intelligence documents of references to unused data objects
CA2716114C (en) 2008-02-26 2019-05-14 Ab Initio Technology Llc Graphic representations of data relationships
US20090234623A1 (en) 2008-03-12 2009-09-17 Schlumberger Technology Corporation Validating field data
JP4224126B1 (ja) 2008-06-09 2009-02-12 パナソニック株式会社 データベース管理サーバ装置、データベース管理システム、データベース管理方法およびデータベース管理プログラム
US20090319494A1 (en) 2008-06-20 2009-12-24 Microsoft Corporation Field mapping for data stream output
CN102138139B (zh) * 2008-06-30 2014-12-17 起元技术有限责任公司 基于图的计算中的数据日志记录
US8082228B2 (en) 2008-10-31 2011-12-20 Netapp, Inc. Remote office duplication
CN102272752B (zh) 2008-11-12 2015-07-08 起元技术有限责任公司 管理和自动链接数据对象
AU2009322602B2 (en) * 2008-12-02 2015-06-25 Ab Initio Technology Llc Mapping instances of a dataset within a data management system
CN102224492B (zh) 2008-12-02 2015-11-25 起元技术有限责任公司 数据维护系统
EP2391938A4 (en) 2009-01-30 2016-06-08 Ab Initio Technology Llc DATA PROCESSING WITH VECTOR FIELDS
EP2221733A1 (en) 2009-02-17 2010-08-25 AMADEUS sas Method allowing validation in a production database of new entered data prior to their release
US20100293365A1 (en) * 2009-05-14 2010-11-18 Sony Computer Entertainment America Inc. Method and apparatus for system and software quick launch
CA2672336A1 (en) * 2009-07-15 2011-01-15 Ibm Canada Limited - Ibm Canada Limitee Tool for analyzing and resolving errors in a process server
US8935702B2 (en) 2009-09-04 2015-01-13 International Business Machines Corporation Resource optimization for parallel data integration
EP2478433A4 (en) * 2009-09-16 2016-09-21 Ab Initio Technology Llc MAPPING DATA SET ELEMENTS
WO2011060257A1 (en) 2009-11-13 2011-05-19 Ab Initio Technology Llc Managing record format information
US9805015B2 (en) 2009-12-16 2017-10-31 Teradata Us, Inc. System and method for enhanced user interactions with a grid
US8433733B2 (en) * 2010-01-13 2013-04-30 Vmware, Inc. Web application record-replay system and method
US8555265B2 (en) 2010-05-04 2013-10-08 Google Inc. Parallel processing of data
US8862563B2 (en) 2010-05-12 2014-10-14 Microsoft Corporation Getting dependency metadata using statement execution plans
US8583664B2 (en) 2010-05-26 2013-11-12 Microsoft Corporation Exposing metadata relationships through filter interplay
US8412744B2 (en) * 2010-06-23 2013-04-02 Microsoft Corporation Visualization of runtime analysis across dynamic boundaries
US8732143B2 (en) 2010-08-27 2014-05-20 Microsoft Corporation Reducing locking during database transactions
CN103180826B (zh) 2010-10-25 2017-04-05 起元技术有限责任公司 在代表计算机程序的数据流图中管理数据集对象
US8949166B2 (en) 2010-12-16 2015-02-03 International Business Machines Corporation Creating and processing a data rule for data quality
US9171283B2 (en) * 2011-01-11 2015-10-27 International Business Machines Corporation Capturing and visualizing data lineage in content management system
KR101872748B1 (ko) 2011-01-14 2018-06-29 아브 이니티오 테크놀로지 엘엘시 데이터 콜렉션에 대한 변경 관리 방법
US8718978B2 (en) * 2011-02-28 2014-05-06 Apple Inc. Performance logging framework
US8935705B2 (en) * 2011-05-13 2015-01-13 Benefitfocus.Com, Inc. Execution of highly concurrent processing tasks based on the updated dependency data structure at run-time
US20120310904A1 (en) 2011-06-01 2012-12-06 International Business Machine Corporation Data validation and service
US8924930B2 (en) * 2011-06-28 2014-12-30 Microsoft Corporation Virtual machine image lineage
CN102279087B (zh) * 2011-07-05 2014-03-26 苏州世力源科技有限公司 垂直冲击试验台安全连锁保护机构及方法
US9384193B2 (en) * 2011-07-15 2016-07-05 International Business Machines Corporation Use and enforcement of provenance and lineage constraints
US9286334B2 (en) * 2011-07-15 2016-03-15 International Business Machines Corporation Versioning of metadata, including presentation of provenance and lineage for versioned metadata
US20130166515A1 (en) 2011-12-22 2013-06-27 David Kung Generating validation rules for a data report based on profiling the data report in a data processing tool
US8874435B2 (en) * 2012-04-17 2014-10-28 International Business Machines Corporation Automated glossary creation
WO2013170428A1 (en) * 2012-05-14 2013-11-21 Nokia Corporation Method and apparatus for determining context-aware similarity
US8516008B1 (en) 2012-05-18 2013-08-20 Splunk Inc. Flexible schema column store
US8954923B2 (en) * 2012-05-22 2015-02-10 Salesforce.Com, Inc. Mechanism for facilitating dynamic interaction with development applications and tools an on-demand services enviroment
CN102693310B (zh) * 2012-05-28 2016-08-03 无锡成电科大科技发展有限公司 一种基于关系数据库的资源描述框架查询方法和系统
US10489360B2 (en) 2012-10-17 2019-11-26 Ab Initio Technology Llc Specifying and applying rules to data
US9063998B2 (en) * 2012-10-18 2015-06-23 Oracle International Corporation Associated information propagation system
US9311221B2 (en) 2013-03-15 2016-04-12 Ab Initio Technology Llc Recording program execution
JP6264849B2 (ja) * 2013-11-12 2018-01-24 富士通株式会社 分析方法、分析装置、及び分析プログラム
CN103745319B (zh) * 2014-01-09 2017-01-04 北京大学 一种基于多状态科学工作流的数据世系追溯系统和方法
EP3191962B1 (en) 2014-07-18 2019-12-11 AB Initio Technology LLC Managing parameter sets
CN104574306A (zh) 2014-12-24 2015-04-29 掌赢信息科技(上海)有限公司 一种即时视频中的人脸美化方法和电子设备
US9658848B2 (en) * 2015-05-29 2017-05-23 Bank Of America Corporation Stored procedure development and deployment
US10078579B1 (en) * 2015-06-26 2018-09-18 Amazon Technologies, Inc. Metrics-based analysis for testing a service
CN105118019B (zh) 2015-09-11 2018-07-06 广东欧珀移动通信有限公司 一种图片处理方法及用户终端

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6381735B1 (en) * 1998-10-02 2002-04-30 Microsoft Corporation Dynamic classification of sections of software
US20080288234A1 (en) * 2004-03-01 2008-11-20 Bradley Nelson Method, system and program product supporting user tracing in a simulator
US20080098365A1 (en) * 2006-09-28 2008-04-24 Amit Kumar Performance analyzer
US20120284287A1 (en) * 2011-05-06 2012-11-08 Sap Ag Systems and Methods for Business Process Logging
US20130007719A1 (en) * 2011-06-30 2013-01-03 International Business Machines Corporation Running an executable during a debug session
US20130332423A1 (en) * 2012-06-12 2013-12-12 Accenture Global Services Limited Data lineage tracking

Also Published As

Publication number Publication date
KR20170031750A (ko) 2017-03-21
US20190243639A1 (en) 2019-08-08
EP3195114B1 (en) 2020-04-01
EP3191962A1 (en) 2017-07-19
AU2015289441A1 (en) 2017-02-23
EP3195114A1 (en) 2017-07-26
KR20170031749A (ko) 2017-03-21
US20160019057A1 (en) 2016-01-21
CA2955380A1 (en) 2016-01-21
CN106796513A (zh) 2017-05-31
CA2955378C (en) 2020-10-13
AU2019236625B2 (en) 2020-11-26
AU2015289442A1 (en) 2017-03-02
WO2016011441A1 (en) 2016-01-21
US10318283B2 (en) 2019-06-11
CN106796513B (zh) 2020-12-11
EP3191962B1 (en) 2019-12-11
CN106716352B (zh) 2020-04-28
SG11201700381XA (en) 2017-02-27
JP6636009B2 (ja) 2020-01-29
CA2955380C (en) 2021-03-16
US20160019286A1 (en) 2016-01-21
EP3690637A1 (en) 2020-08-05
CN106716352A (zh) 2017-05-24
JP2017525039A (ja) 2017-08-31
JP2017528797A (ja) 2017-09-28
AU2015289442B2 (en) 2019-07-11
AU2015289441B2 (en) 2019-06-27
CA2955378A1 (en) 2016-01-21
US11210086B2 (en) 2021-12-28
SG11201700384WA (en) 2017-02-27
KR102292803B1 (ko) 2021-08-23
US10175974B2 (en) 2019-01-08
AU2019236625A1 (en) 2019-10-17
WO2016011442A1 (en) 2016-01-21
JP6457622B2 (ja) 2019-01-23
EP3742284A1 (en) 2020-11-25

Similar Documents

Publication Publication Date Title
KR102279859B1 (ko) 파라미터 세트의 관리
JP7076208B2 (ja) アプリケーション・テスト
US11347484B2 (en) Format-specific data processing operations

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant