KR20180017198A - 데이터 처리 방법, 장치, 시스템, 프로그램 및 컴퓨터 판독가능한 기록매체 - Google Patents

데이터 처리 방법, 장치, 시스템, 프로그램 및 컴퓨터 판독가능한 기록매체 Download PDF

Info

Publication number
KR20180017198A
KR20180017198A KR1020187001533A KR20187001533A KR20180017198A KR 20180017198 A KR20180017198 A KR 20180017198A KR 1020187001533 A KR1020187001533 A KR 1020187001533A KR 20187001533 A KR20187001533 A KR 20187001533A KR 20180017198 A KR20180017198 A KR 20180017198A
Authority
KR
South Korea
Prior art keywords
data
collection
cluster
node
data processing
Prior art date
Application number
KR1020187001533A
Other languages
English (en)
Other versions
KR102125219B1 (ko
Inventor
리시아 리우
타오 웬
지쿤 왕
동 왕
하이준 리우
Original Assignee
지티이 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지티이 코포레이션 filed Critical 지티이 코포레이션
Publication of KR20180017198A publication Critical patent/KR20180017198A/ko
Application granted granted Critical
Publication of KR102125219B1 publication Critical patent/KR102125219B1/ko

Links

Images

Classifications

    • G06F17/30964
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

본 발명은 데이터 처리 방법을 제공하고, 상기 방법은, 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하여 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크를 얻는 단계(S10) ; 상기 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크에 따라, 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하고, 처리 후의 데이터를 획득하는 단계(S20) ; 및 상기 처리 후의 데이터에 대해 일괄 융합을 진행하고, 일괄 융합 후의 데이터를 획득하는 단계(S30) ; 를 포함한다. 본 발명은 데이터 처리 장치 및 데이터 처리 시스템을 더 제공한다.

Description

데이터 처리 방법, 장치 및 시스템
본 발명은 컴퓨터 정보 처리 분야에 관한 것으로 이에 제한되지 않으며, 특히 데이터 처리 방법, 장치 및 시스템에 관한 것이다.
데이터는 오늘날의 각 업계 및 비즈니스 기능 분야에 침투되어 중요한 생산 요소가 되었으며, 빅 데이터의 시대가 이미 도래하였다. 빅 데이터의 폭발적인 증가는 대용량, 다양성 및 고 증속의 방면에서 현대 기업의 데이터 처리 및 분석 능력을 검증함과 동시에, 기업에 보다 풍부하고 보다 깊고 보다 정확하게 상업적 행동을 통찰하는 많은 기회를 제공하였다. 현재 가장 중요한 현실은 빅 데이터에 대해 처리와 분석을 진행하는 것이며, 처리와 분석을 거쳐야만 수많은 지능적이고 깊고 가치있는 정보를 얻을 수가 있다.
기존의 데이터와 비교하면, 빅 데이터는 데이터 량이 많고(Volume), 종류가 다양하며(Variety), 실효성이 높고(Velocity), 가치 밀도가 낮으며(Value), 데이터 온라인(Online)으로 표현되는 4V + 1O의 특징을 나타내고 있다. 종래 기술의 통상의 빅 데이터 처리 도구는 기존의 ETL(Extract-Transform-Load, 추출, 변환, 로드) 도구 및 Hadoop(Hadoop Distributed File System, 분산 파일 시스템)에 따른 빅 데이터 수집 도구의 2가지 종류가 있다.
빅 데이터 처리의 높은 효율성과 융합의 통합도에 대한 사용자의 요구가 점점 높아지고 있다. 그러나, 종래 기술의 통상의 빅 데이터 처리 도구는 빅 데이터와 같은 멀티 소스, 이종, 대용량의 데이터를 처리하는 면에 있어서 결함이 존재하며, 데이터 처리 프로세스에 인위적 관여도가 높고, 데이터 처리가 정밀하지 않으며, 효율이 낮고, 또한 부동한 데이터에 대해 일괄 융합을 진행하지 않았으므로, 통합도가 높지 않고, 획득되는 최종 데이터의 이용 가치 및 실용성이 높지 않다.
이하는 본 명세서에 상세하게 기술된 주제의 개요이다. 본 개요는 특허 청구 범위를 한정하려는 것은 아니다.
본 발명의 실시예에 따르면, 빅 데이터 처리 효율이 낮고, 융합도가 낮은 기술 문제를 해결할 수 있다.
따라서, 본 발명의 실시예에 따르면, 데이터 처리 방법이 제공되고, 상기 데이터 처리 방법은
수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하여, 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크를 얻는 단계;
상기 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크에 따라, 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하고, 처리 후의 데이터를 획득하는 단계; 및
상기 처리 후의 데이터에 대해 일괄 융합을 진행하고, 일괄 융합 후의 데이터를 획득하는 단계; 를 포함한다.
선택적으로, 상기 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하여, 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크를 얻는 단계는,
상기 클러스터의 각 노드가 수집 대상 데이터를 읽도록 제어하고, 수집 대상 데이터 샘플 및 클러스터의 모든 노드의 부하 상태를 획득하는 단계;
상기 수집 대상 데이터 샘플을 평가하고, 품질 평가 보고서를 획득하는 단계; 및
상기 품질 평가 보고서 및 상기 클러스터의 모든 노드의 부하 상태에 따라 데이터 수집 패턴 및 데이터 처리 모델을 어댑터하고, 상기 클러스터의 각 노드의 수집 태스크를 할당하는 단계; 를 포함하고,
상기 품질 평가 보고서는 데이터 타입, 데이터 코드, 데이터 용장율, 데이터 희소성 및 데이터 전송 속도를 포함한다.
선택적으로, 상기 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크에 따라, 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하고, 처리 후의 데이터를 획득하는 단계는,
상기 클러스터의 각 노드가 상응한 수집 태스크에 따라 상기 수집 패턴으로 데이터 수집을 진행하도록 제어하는 단계; 및
상기 클러스터의 각 노드가 상기 데이터 처리 모델에 따라 수집된 데이터를 처리하도록 제어하고, 처리 후의 데이터를 획득하는 단계; 를 포함한다.
선택적으로, 상기 처리 후의 데이터에 대해 일괄 융합을 진행하고, 일괄 융합 후의 데이터를 획득하는 단계는,
미리 설정한 데이터 정규화 모델에 따라 처리 후의 데이터에 대해 데이터 정규화를 진행하여 일괄 융합 후의 데이터를 얻는 단계; 미리 설정한 데이터 통합 모델에 따라 처리 후의 데이터에 대해 데이터 통합을 진행하여 일괄 융합 후의 데이터를 얻는 단계; 및 미리 설정한 데이터 모델링 모델에 따라 처리 후의 데이터에 대해 데이터 모델링을 진행하여 일괄 융합 후의 데이터를 얻는 단계; 중의 적어도 하나를 포함한다.
선택적으로, 상기 처리 후의 데이터에 대해 일괄 융합을 진행하고, 일괄 융합 후의 데이터를 획득한 후, 상기 방법은
상기 일괄 융합 후의 데이터를 분류 기억하는 단계를 더 포함한다.
선택적으로, 상기 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하여, 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크를 얻기 전에, 상기 방법은,
데이터 수집 인터페이스를 배치하는 단계를 더 포함하고,
상기 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하는 단계는,
상기 데이터 수집 인터페이스를 통해 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하는 단계를 포함하고,
상기 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하는 단계는,
클러스터의 각 노드가 상기 데이터 수집 인터페이스를 통해 데이터 수집을 진행하도록 제어하고, 클러스터의 각 노드가 수집된 데이터에 대해 데이터 처리를 진행하도록 제어하는 단계를 포함한다.
선택적으로, 상기 데이터 수집 인터페이스를 배치하는 단계는,
데이터 수집 인터페이스 구성 파라미터를 획득하는 단계;
상기 구성 파라미터에 따라 상기 데이터 수집 인터페이스의 연결 테스트를 진행하는 단계;
상기 연결 테스트가 성공하였을 경우에, 상기 구성 파라미터가 포함되어 있는 데이터 수집 인터페이스 구성 파일을 클러스터의 다른 노드에 전송하고, 상기 클러스터의 각 노드를 배치하며, 상기 클러스터의 각 노드가 상기 데이터 수집 인터페이스에 연결하도록 제어하는 단계; 및
상기 연결 테스트가 성공하지 않았을 경우에, 데이터 수집 인터페이스 구성 파라미터를 획득하는 단계로 이동하는 단계; 를 포함한다.
또한, 본 발명의 실시예에 따르면, 데이터 처리 장치가 더 제공되며, 상기 장치는
수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하여, 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크를 얻는 어댑터 모듈;
상기 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크에 따라, 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하고, 처리 후의 데이터를 획득하는 데이터 처리 모듈; 및
상기 처리 후의 데이터에 대해 일괄 융합을 진행하고, 일괄 융합 후의 데이터를 획득하는 일괄 융합 모듈; 을 구비한다.
선택적으로, 상기 어댑터 모듈은
상기 클러스터의 각 노드가 수집 대상 데이터를 읽도록 제어하고, 수집 대상 데이터 샘플 및 클러스터의 모든 노드의 부하 상태를 획득하는 샘플 수집 유닛;
수집 대상 데이터 샘플을 평가하고 품질 평가 보고서를 획득하는 데이터 평가 유닛; 및
상기 품질 평가 보고서 및 상기 클러스터의 모든 노드의 부하 상태에 따라 데이터 수집 패턴 및 데이터 처리 모델을 어댑터하고, 상기 클러스터의 각 노드의 수집 태스크를 할당하는 어댑터 유닛; 을 구비하고,
상기 품질 평가 보고서는 데이터 타입, 데이터 코드, 데이터 용장율, 데이터 희소성 및 데이터 전송 속도를 포함한다.
선택적으로, 상기 데이터 처리 모듈은
상기 클러스터의 각 노드가 상응한 수집 태스크에 따라 상기 수집 패턴으로 데이터 수집을 진행하도록 제어하는 데이터 수집 유닛; 및
상기 클러스터의 각 노드가 상기 데이터 처리 모델에 따라 상기 수집된 데이터를 처리하도록 제어하고, 처리 후의 데이터를 획득하는 데이터 처리 유닛; 을 구비한다.
선택적으로, 상기 일괄 융합 모듈은, 데이터 획득 유닛, 데이터 정규화 유닛, 데이터 통합 유닛, 데이터 모델링 유닛 중의 하나 이상의 유닛을 구비하며,
상기 데이터 정규화 유닛은 미리 설정한 데이터 정규화 모델에 따라 처리 후의 데이터에 대해 데이터 정규화를 진행하도록 구성되고,
상기 데이터 통합 유닛은 미리 설정한 데이터 통합 모델에 따라 처리 후의 데이터에 대해 데이터 통합을 진행하도록 구성되며,
상기 데이터 모델링 유닛은 미리 설정한 데이터 모델링 모델에 따라 처리 후의 데이터에 대해 데이터 모델링을 진행하도록 구성되고,
상기 데이터 획득 유닛은 일괄 융합 후의 데이터를 획득하도록 구성된다.
선택적으로, 상기 데이터 처리 장치는 상기 일괄 융합 후의 데이터를 분류 기억하는 분류 기억 모듈을 더 포함한다.
선택적으로, 상기 데이터 처리 장치는 데이터 수집 인터페이스를 배치하는 인터페이스 배치 모듈을 더 포함하며,
상기 어댑터 모듈에 의해 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하는 것은, 상기 어댑터 모듈에 의해 상기 데이터 수집 인터페이스를 통해 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하는 것을 포함하고,
상기 데이터 처리 모듈에 의해 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하는 것은, 상기 데이터 처리 모듈에 의해 클러스터의 각 노드가 상기 데이터 수집 인터페이스를 통해 데이터 수집을 진행하도록 제어하고, 클러스터의 각 노드가 수집된 데이터에 대해 데이터 처리를 진행하도록 제어하는 것을 포함한다.
선택적으로, 상기 인터페이스 배치 모듈은
데이터 수집 인터페이스 구성 파라미터를 획득하는 파라미터 획득 유닛;
상기 구성 파라미터에 따라 상기 데이터 수집 인터페이스의 연결 테스트를 진행하는 연결 테스트 유닛; 및
상기 연결 테스트가 성공하였을 경우에, 상기 구성 파라미터가 포함되어 있는 데이터 수집 인터페이스 구성 파일을 클러스터의 다른 노드에 전송하고, 상기 클러스터의 각 노드를 배치하며, 상기 클러스터의 각 노드가 상기 데이터 수집 인터페이스에 연결하도록 제어하는 파일 전송 유닛; 을 구비하고,
상기 파라미터 획득 유닛은 또한, 상기 연결 테스트가 성공하지 않았을 경우에, 상기 데이터 수집 인터페이스 구성 파라미터를 획득하도록 구성된다.
또한, 본 발명의 실시예에 따르면, 데이터 처리 시스템이 더 제공되며, 상기 시스템은 어댑터 프로세서, 데이터 프로세서 및 데이터 일괄 융합 프로세서를 구비하고,
상기 어댑터 프로세서는 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하여, 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크를 얻도록 구성되고,
상기 데이터 프로세서는 상기 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크에 따라, 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하고, 처리 후의 데이터를 획득하도록 구성되며,
상기 데이터 일괄 융합 프로세서는 상기 처리 후의 데이터에 대해 일괄 융합을 진행하고, 일괄 융합 후의 데이터를 획득하도록 구성된다.
선택적으로, 상기 데이터 처리 시스템은
데이터 수집 인터페이스를 배치하는 데이터 수집 인터페이스 어댑터;
상기 일괄 융합 후의 데이터를 분류 기억하는 데이터 분류 메모리; 및
시스템 매니저; 를 더 구비하고,
상기 시스템 매니저는
상기 데이터 수집 인터페이스 구성 파일, 데이터 수집 인터페이스의 연결 테스트 결과, 수집 대상 데이터 샘플, 품질 평가 보고서 및 클러스터의 모든 노드의 부하 상태를 관리하는 데이터 관리 모듈;
상기 수집 대상 데이터 샘플, 데이터 수집, 데이터 처리, 데이터 일괄 융합 및 데이터 기억, 클러스터 리소스 소모 상태를 관리하고, 상기 클러스터의 모든 노드의 부하 균형을 제어하는 리소스 관리 모듈;
데이터 수집 인터페이스 구성 템플릿, 데이터 평가 템플릿, 데이터 수집 템플릿, 데이터 처리 모델, 데이터 정규화 모델, 데이터 통합 모델 및 데이터 모델링 모델을 관리하는 모델 관리 모듈; 및
데이터 수집 인터페이스의 배치, 수집 대상 데이터 샘플의 읽기, 데이터 평가, 데이터 처리, 데이터 일괄 융합 및 데이터 기억 프로세스를 모니터링하고, 데이터 수집 인터페이스의 배치, 수집 대상 데이터 샘플의 읽기, 데이터 평가, 데이터 처리, 데이터 일괄 융합 및 데이터 기억 프로세스의 완료 상태, 중간 오류 및 이상을 기록하고 처리하는 프로세스 모니터링 모듈; 을 구비한다.
본 발명의 실시예에 따르면, 이종 데이터에 대해 샘플에 따라 분석을 진행하고, 데이터 수집 패턴 및 데이터 처리 모델을 자동으로 어댑터하며, 데이터를 수집하고 데이터 처리를 진행하여 클러스터의 모든 노드의 부하 균형을 조정하고, 내부 연관성이 있는 각종 이종 데이터에 대해 일괄 융합을 진행함으로써, 종래 기술에 있어서 빅 데이터 처리 효율이 낮고, 융합도가 낮은 문제를 유효하게 해결하고, 데이터 처리 효율 및 데이터 융합도를 개선하며, 최종 데이터의 이용 가치 및 실용성을 높이고, 빅 데이터 분석 및 가치 발굴을 위해 데이터 품질 보장을 제공하였다.
도면 및 상세한 설명을 읽고 이해한 후 다른 양태를 알 수 있다.
도 1은 데이터 처리 방법의 제1 실시예의 흐름을 나타내는 모식도이다.
도 2는 데이터 처리 방법의 제2 실시예의 흐름을 나타내는 모식도이다.
도 3은 데이터 처리 방법의 제3 실시예의 흐름을 나타내는 모식도이다.
도 4는 데이터 처리 방법의 제4 실시예의 흐름을 나타내는 모식도이다.
도 5는 데이터 처리 방법의 제5 실시예의 흐름을 나타내는 모식도이다.
도 6은 데이터 처리 방법의 제6 실시예의 흐름을 나타내는 모식도이다.
도 7은 데이터 처리 방법의 제7 실시예의 흐름을 나타내는 모식도이다.
도 8은 데이터 처리 장치의 제1 실시예의 기능 모듈을 나타내는 모식도이다.
도 9는 데이터 처리 장치의 제2 실시예의 기능 모듈을 나타내는 모식도이다.
도 10은 데이터 처리 장치의 제3 실시예의 기능 모듈을 나타내는 모식도이다.
도 11은 데이터 처리 장치의 제4 실시예의 기능 모듈을 나타내는 모식도이다.
도 12는 데이터 처리 장치의 제5 실시예의 기능 모듈을 나타내는 모식도이다.
도 13은 데이터 처리 장치의 제6 실시예의 기능 모듈을 나타내는 모식도이다.
도 14는 데이터 처리 장치의 제7 실시예의 기능 모듈을 나타내는 모식도이다.
도 15는 데이터 처리 시스템의 제1 실시예의 구성을 나타내는 모식도이다.
도 16은 데이터 처리 시스템의 제2 실시예의 구성을 나타내는 모식도이다.
본 발명의 실시예에 따른 주요 해결 수단은, 데이터 수집 인터페이스를 통해 수집 대상 데이터 샘플을 획득하고 상기 수집 대상 데이터 샘플에 대한 전처리를 진행하여 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크를 얻고, 상기 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크에 따라, 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하고, 처리 후의 데이터를 획득하며, 상기 처리 후의 데이터에 대해 일괄 융합을 진행하고, 일괄 융합 후의 데이터를 획득하는 것이다.
종래 기술의 데이터 처리 프로세스가 인위적 관여도가 높고, 데이터 처리가 세밀하지 않으며, 효율이 낮고, 또한 내부 연관성이 있는 분산 데이터에 대해 일괄 융합을 진행하지 않았으므로, 융합도가 높지 않고, 획득되는 최종 데이터의 이용 가치 및 실용성이 높지 않다.
본 발명의 실시예는, 데이터 수집 패턴 및 처리 타입을 자동으로 어댑터하고, 멀티 소스 이종 대용량 데이터에 대해 일괄 융합을 진행함으로써, 데이터 처리 효율 및 데이터 융합도를 개선하고, 최종 데이터의 이용 가치 및 실용성을 높이고, 빅 데이터 분석 및 가치 발굴을 위해 데이터 품질 보장을 제공할 수 있는 해결 방안을 제공한다.
도 1을 참조하여, 데이터 처리 방법의 제1 실시예에 따르면, 데이터 처리 방법이 제공되고, 상기 데이터 처리 방법은 아래의 단계를 포함한다.
단계 S10 : 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하여, 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크를 얻는다.
수집 대상 데이터 샘플의 수집 프로세스에서의 각 노드의 리소스 부하 상태를 파악하기 위하여, 클러스터의 각 노드가 수집 대상 데이터를 수집하도록 제어하고, 수집 대상 데이터 샘플 및 클러스터의 모든 노드의 부하 상태를 획득하며, 수집 대상 데이터 샘플은 소정 수량의 수집 대상 데이터를 포함하고, 클러스터의 모든 노드의 부하 상태는 데이터 수집 프로세스에서의 각 노드의 데이터 수집 속도, 성능, 응답 상태, 부하 능력을 포함한다.
수집 대상 데이터 샘플에 대해 전처리를 진행하고, 수집 대상 데이터의 기본 품질 특성을 검측하고 판정하며, 품질 평가 보고서를 얻는다.
품질 평가 보고서 및 클러스터의 모든 노드의 부하 상태에 따라, 데이터 수집 패턴을 결정하고 데이터 처리 모델을 어댑터하며 클러스터의 각 노드의 수집 태스크를 할당한다.
부동한 데이터 타입에 따라 부동한 데이터 수집 패턴을 어댑터하고, 부동한 데이터 수집 패턴은 전량, 증량, 비 실시간, 실시간을 포함하며, 예를 들어, 동적 스트리밍 데이터는 증량 실시간 수집 패턴을 어댑터하고, 구조적 데이터는 전량 비 실시간 수집 패턴을 어댑터하며, 반 구조적 데이터 및 비 구조적 데이터는 전량 비 실시간 수집 패턴을 어댑터하고, 데이터 수집 패턴은 기타 수집 패턴일 수도 있으며, 실제 수요에 따라 유연하게 설정할 수 있다.
부동한 데이터 타입에 따라 데이터 처리 모델을 어댑터하며, 예를 들어, 스트리밍 데이터, 배치 데이터, 구조적 데이터, 반 구조적 데이터 및 비 구조적 데이터와 같은 부동한 데이터 타입에 대해 부동한 데이터 처리를 진행하며, 프리셋 데이터 처리 모델은 스트리밍 데이터, 비 구조적 화상 데이터, 비 구조적 음성 영상 데이터, 비 구조적 텍스트 데이터, 반 구조적 데이터, 구조적 데이터의 처리에 적용되며, 직접적으로 어댑터하여 호출할 수 있으며, 모델의 다중화 및 보정을 지지한다.
데이터 처리 모델은 동적 스트리밍 데이터의 데이터 추출, 데이터 필터링, 데이터 연관, 데이터 변환, 데이터 분류를 위한 순차적인 처리 단계; 구조적 데이터의 데이터 추출, 에러 제거를 위한 순차적인 처리 단계; 및 반 구조적 데이터 및 비 구조적 데이터의 데이터 추출, 데이터 해석, 에러 제거, 데이터 분할, 특징 추출을 위한 순차적인 처리 단계를 포함한다. 또한, 데이터 처리 모델을 직접적으로 어댑터할 수 있고, 데이터 처리 모델을 미세 조정하여 사용할 수도 있으며, 또는 실제 처리 수요에 따라 데이터 처리 단계 및 모델을 유연하게 설정할 수도 있다.
클러스터의 각 노드의 수집 태스크를 할당함으로써 클러스터의 각 노드의 부하 상태에 대한 동적 조정을 실현하고, 시스템 중 모든 노드의 부하가 불균형한 현상을 해소 또는 감소시켜 데이터 수집 및 데이터 처리 효율을 향상시킨다.
단계 S20 : 상기 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크에 따라, 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하고 처리 후의 데이터를 획득한다.
클러스터의 각 노드가 할당된 상응한 수집 태스크에 따라(즉, 각 노드가 할당된 본 노드의 수집 태스크에 따라), 어댑터된 수집 패턴으로 데이터 수집을 진행하도록 제어하고, 수집된 데이터를 획득한다. 예를 들어, 동적 스트리밍 데이터는 증량 실시간 수집 패턴으로 데이터를 수집하고, 구조적 데이터는 전량 비 실시간 수집 패턴으로 데이터를 수집하며, 반 구조적 데이터 및 비 구조적 데이터는 전량 비 실시간 수집 패턴으로 데이터를 수집한다.
클러스터의 각 노드가 어댑터된 데이터 처리 모델에 따라 본 노드가 수집한 데이터에 대해 각각 데이터 처리를 진행하도록 제어함으로써, 각종 부동한 이종 데이터에 대해 자체의 데이터 특성에 따라 상응한 수집 및 처리를 진행하는 것을 실현하고, 처리 후의 데이터를 획득한다. 예를 들어, 데이터 처리 모델에 따라 동적 스트리밍 데이터에 대해 데이터 추출, 데이터 필터링, 데이터 연관, 데이터 변환, 데이터 분류의 처리 단계를 순차적으로 진행하고, 데이터 처리 모델에 따라 구조적 데이터에 대해 데이터 추출, 에러 제거의 처리 단계를 순차적으로 진행하며, 데이터 처리 모델에 따라 반 구조적 데이터 및 비 구조적 데이터에 대해 데이터 추출, 데이터 해석, 에러 제거, 데이터 분할, 특징 추출의 처리 단계를 순차적으로 진행한다.
단계 S30 : 상기 처리 후의 데이터에 대해 일괄 융합을 진행하고, 일괄 융합 후의 데이터를 얻는다.
수집 및 처리 후의 데이터에 대해 데이터 정규화, 데이터 통합, 데이터 모델링을 진행하고, 여기서, 데이터 정규화 및 데이터 통합은 내부 연관성이 있는 데이터에 대해 일괄 포맷 정규화 및 효과적인 통합을 진행하고, 데이터 모델링은 데이터 모델 설계 및 데이터 인덱스 구축 기능을 제공하며, 이로써 각종 내부 연관성이 있는 분산 데이터를 관련시켜 일괄 융합 후의 데이터를 획득할 수 있다.
본 실시예에서는 이종 데이터에 대해 샘플에 따라 분석하고, 데이터 수집 패턴 및 데이터 처리 모델을 자동으로 어댑터하며, 데이터를 수집하고 데이터 처리를 진행하여 클러스터의 모든 노드의 부하 균형을 조정하고, 내부 연관성이 있는 각종 이종 데이터에 대해 일괄 융합을 진행함으로써, 종래 기술에 있어서 빅 데이터 처리 효율이 낮고, 융합도가 낮은 문제를 유효하게 해결하고, 데이터 처리 효율 및 데이터 융합도를 개선하며, 최종 데이터의 이용 가치 및 실용성을 높이고, 빅 데이터 분석 및 가치 발굴을 위해 데이터 품질 보장을 제공하였다.
선택적으로, 도 2를 참조하여, 데이터 처리 방법의 제2 실시예에 따르면, 데이터 처리 방법이 제공되며, 상기의 도 1에 나타낸 실시예를 기초로, 단계 S10은 아래의 단계를 포함한다.
단계 S11 : 상기 클러스터의 각 노드가 수집 대상 데이터를 읽도록 제어하고, 수집 대상 데이터 샘플 및 클러스터의 모든 노드의 부하 상태를 획득한다.
클러스터의 각 노드가 소정 수량의 수집 대상 데이터를 수집하도록 제어하고, 수집 대상 데이터 샘플 및 데이터 수집 프로세스에서의 클러스터의 모든 노드의 부하 상태를 획득하며, 수집 대상 데이터 샘플은 소정 수량의 수집 대상 데이터를 포함하고, 클러스터의 모든 노드의 부하 상태는 데이터 수집 프로세스에서의 각 노드의 데이터 수집 속도, 성능, 응답 상태, 부하 능력을 포함한다.
단계 S12 : 상기 수집 대상 데이터 샘플을 평가하고, 품질 평가 보고서를 획득하며, 상기 품질 평가 보고서는 데이터 타입, 데이터 코드, 데이터 용장율, 데이터 희소성 및 데이터 전송 속도를 포함한다.
클러스터의 각 노드가 각각 수집한 수집 대상 데이터 샘플에 대한 데이터 품질 평가를 진행하도록 제어하고, 상기 데이터 품질 평가는 클러스터의 각 노드가 수집한 수집 대상 데이터 샘플의 데이터 타입, 데이터 코드, 데이터 용장율, 데이터 희소성 및 데이터 전송 속도를 포함하며, 클러스터의 각 노드의 데이터 품질 평가 데이터를 집계하여 최종 품질 평가 보고서로 정리하고, 최종 품질 평가 보고서는 최종 수집 대상 데이터 샘플에 대한 데이터 기본 품질 특성의 검측 및 판정이며, 최종 수집 대상 데이터 샘플의 데이터 타입, 데이터 코드, 데이터 용장율, 데이터 희소성 및 데이터 전송 속도를 포함한다. 또는
클러스터의 각 노드가 수집한 수집 대상 데이터 샘플을 획득하고, 수집된 수집 대상 데이터 샘플을 집계하며, 집계 후의 수집 대상 데이터 샘플에 대해 데이터 기본 품질 특성의 검측 및 판정을 진행하여 품질 평가 보고서를 획득하며, 상기 품질 평가 보고서는 데이터 타입, 데이터 코드, 데이터 용장율, 데이터 희소성 및 데이터 전송 속도를 포함한다.
단계 S13 : 상기 품질 평가 보고서 및 상기 클러스터의 모든 노드의 부하 상태에 따라 데이터 수집 패턴 및 데이터 처리 모델을 어댑터하고, 상기 클러스터의 각 노드의 수집 태스크를 할당한다.
품질 평가 보고서 중의 데이터 타입 및 데이터 전송 속도에 따라 데이터 수집 패턴을 어댑터하고, 품질 평가 보고서 중의 데이터 코드, 데이터 용장율, 데이터 희소성에 따라 데이터 처리 모델을 어댑터하며, 품질 평가 보고서 중의 데이터 전송 속도 및 클러스터의 모든 노드의 부하 상태에 따라 클러스터의 각 노드의 수집 태스크를 할당한다.
본 실시예에서는 수집 대상 데이터 샘플을 획득하고, 수집 대상 데이터 샘플에 대한 전처리를 통해 품질 평가 보고서 및 클러스터의 모든 노드의 부하 상태를 얻으며, 품질 평가 보고서 및 클러스터의 모든 노드의 부하 상태에 따라 데이터 수집 패턴 및 데이터 처리 모델을 자동으로 어댑터함으로써, 각종 동적 스트리밍 데이터, 정적 구조적 데이터, 반 구조적 데이터 및 비 구조적 데이터와 같은 각종 이종 데이터 자체의 데이터 특성에 따라 보다 합리적이고 효과적인 데이터 수집 및 데이터 처리를 실시하는 것을 실현하고, 클러스터의 각 노드가 상응한 수집 태스크에 따라 데이터 수집을 진행하도록 수집 태스크를 합리적으로 할당함으로써, 클러스터의 모든 노드의 부하 균형을 실현하고, 클러스터 처리 능력을 향상시켰다.
선택적으로, 도 3을 참조하여, 데이터 처리 방법의 제3 실시예에 따르면, 데이터 처리 방법이 제공되며, 상기의 도 1에 나타낸 실시예를 기초로, 단계 S20은 아래의 단계를 포함한다.
단계 S21 : 상기 클러스터의 각 노드가 상응한 수집 태스크에 따라 상기 수집 패턴으로 데이터 수집을 진행하도록 제어한다.
클러스터의 각 노드가 할당된 상응한 수집 태스크에 따라, 어댑터된 수집 패턴으로 데이터 수집을 진행하도록 제어하고, 수집된 데이터를 획득한다. 예를 들어, 동적 스트리밍 데이터는 증량 실시간 수집 패턴으로 데이터를 수집하고 캐시하며, 구조적 데이터는 전량 비 실시간 수집 패턴으로 데이터를 수집하고, 반 구조적 데이터 및 비 구조적 데이터는 전량 비 실시간 수집 패턴으로 데이터를 수집한다.비 구조적 데이터는 텍스트 데이터, 음성 데이터, 영상 데이터, 이미지 데이터로 세분되며, 부동한 타입의 비구조적 데이터의 수집 방법은 다르다. 예를 들어 텍스트 데이터는 텍스트 데이터 수집을 진행하고, 음성 데이터는 음성 데이터 수집을 진행하며, 영상 데이터는 영상 데이터 수집을 진행하고, 이미지 데이터는 이미지 데이터 수집을 진행한다.
단계 S22 : 상기 클러스터의 각 노드가 상기 데이터 처리 모델에 따라 수집된데이터를 처리하도록 제어하고, 처리 후의 데이터를 획득한다.
클러스터의 각 노드가 어댑터된 데이터 처리 모델에 따라 본 노드가 수집한 데이터에 대해 각각 데이터 처리를 진행하도록 제어함으로써 데이터 처리를 완료하고 처리 후의 데이터를 획득한다. 예를 들어, 데이터 처리 모델에 따라 동적 스트리밍 데이터에 대해 데이터 추출, 데이터 필터링, 데이터 연관, 데이터 변환, 데이터 분류의 처리 단계를 순차적으로 진행하고, 데이터 처리 모델에 따라, 구조적 데이터에 대해 데이터 추출, 에러 제거의 처리 단계를 순차적으로 진행하며, 데이터 처리 모델에 따라, 반 구조적 데이터 및 비 구조적 데이터에 대해 데이터 추출, 데이터 해석, 에러 제거, 데이터 분할, 특징 추출의 처리 단계를 순차적으로 진행한다. 비 구조적 데이터는 텍스트 데이터, 음성 데이터, 영상 데이터, 이미지 데이터로 세분되며 부동한 타입의 비 구조적 데이터의 처리 방법은 다르며, 예를 들어, 데이터 처리 모델에 따라, 텍스트 데이터에 대해서는 텍스트 데이터 수집, 텍스트 구조 및 코드 분석, 중복 및 로직 에러 제거, 중국어 단어 분할, 특징 추출의 처리를 진행한다
데이터 처리 프로세스에 있어서 발생한 중간 데이터, 메타 데이터 및 데이터 처리 후의 결과 데이터에 대해, 부동한 수집 패턴에 따라 적절한 기억 매체를 선택하여 데이터 기억 및 캐시를 진행하며, 즉, 수집 대상 데이터의 원시 데이터가 데이터 추출, 데이터 해석 및 에러 제거를 거친 후의 결과 데이터, 데이터 분할을 거친 후의 결과 데이터, 특징 추출을 거친 후의 결과 데이터는 분산 파일 시스템 또는 분산 데이터 베이스에 기억되고, 증량 스트리밍 데이터의 중간 데이터는 메모리 데이터 베이스를 사용하여 캐시하며, 결과 데이터는 우선 파일 캐시를 진행한 후에 분산 데이터 베이스에 기억된다.
본 실시예에서는 부동한 데이터 타입에 따라 자동으로 적절한 데이터 수집 패턴을 사용하여 데이터 수집을 진행하고, 어댑터된 데이터 처리 모델에 따라 부동한 타입의 데이터에 대해 특정의 데이터 처리를 진행함으로써, 각종 이종 데이터 자체의 데이터 특성에 따라 적절하고 지향성이 있는 데이터 수집 및 처리를 자동으로 진행하는 것을 실현하고, 데이터 처리 효율 및 처리 후의 데이터 품질을 향상시키며, 처리 전의 데이터가 처리를 거쳐 조작 가능한 일괄적인 데이터가 되도록 하여, 데이터 융합에 편리하다.
선택적으로, 도 4를 참조하여, 데이터 처리 방법의 제4 실시예에 따르면, 데이터 처리 방법이 제공되며, 상기의 도 1에 나타낸 실시예를 기초로, 단계 S30은 아래의 단계를 포함한다.
단계 S31 : 미리 설정한 데이터 정규화 모델에 따라 처리 후의 데이터에 대해 데이터 정규화를 진행한다.
미리 설정한 데이터 정규화 모델에 따라, 처리 후의 부동한 데이터에 대해 일괄 데이터 정규화를 진행하고, 일괄 정규화된 데이터를 획득하며, 상기 일괄 데이터 정규화는 일괄 포맷 변환, 일괄 코딩, 데이터 보정 및 누락 보충을 포함한다.
단계 S32 : 미리 설정한 데이터 통합 모델에 따라 처리 후의 데이터에 대해 데이터 통합을 진행한다.
미리 설정한 데이터 통합 모델에 따라, 처리 후의 부동한 데이터 또는 데이터 정규화 후의 데이터에 대해 데이터 통합을 진행하여 일괄적이고 일반적인 기본 데이터 세트를 형성하며, 상기 데이터 통합은 데이터 연관, 데이터 합성, 데이터 패킷화, 데이터 집계를 포함한다.
단계 S33 : 미리 설정한 데이터 모델링 모델에 따라 처리 후의 데이터에 대해 데이터 모델링을 진행한다.
후속의 더 높은 레벨의 데이터 분석, 데이터 발굴의 기본적인 데이터 지원을 형성하기 위하여, 미리 설정한 데이터 모델링 모델에 따라 처리 후의 부동한 데이터, 데이터 정규화 후의 데이터, 또는 데이터 통합 후의 데이터에 대해 모델 설계, 인덱스 구축을 진행한다.
이상의 단계 S31, S32 및 S33은 그 중 어느 하나의 단계를 실행할 수 있으며, 또는 하나 이상의 단계를 실행할 수도 있다.
단계 S34 : 일괄 융합 후의 데이터를 얻는다.
처리 후의 데이터에 대해, 데이터 처리 후의 상황에 따라, 데이터 정규화의 일괄 융합 조작, 데이터 통합의 일괄 융합 조작, 데이터 모델링의 일괄 융합 조작 중의 하나 이상의 조작을 진행하고, 마지막에 일괄 융합 후의 데이터를 획득한다. 여기서, 데이터 정규화, 데이터 통합 및 데이터 모델링을 순차적으로 진행하여 일괄 융합을 완료할 수 있고, 데이터 정규화, 데이터 통합을 순차적으로 진행하여 일괄 융합을 완료할 수도 있으며, 또는 다른 일괄 융합 조작을 진행하여 일괄 융합을 완료할 수도 있으며, 실제 일괄 융합의 필요에 따라 데이터 정규화, 데이터 통합, 또는 데이터 모델링의 일괄 융합 조작을 진행할 수 있다.
본 실시예에서 처리 후의 데이터에 대해 데이터 정규화, 데이터 통합, 데이터 모델링의 일괄 융합 조작을 진행함으로써, 각종 내부 연관성이 있는 분산 이종 데이터에 대한 자동 연관을 실현하고, 데이터 융합도를 개선하며, 최종 데이터의 이용 가치 및 실용성을 높이고, 후속의 빅 데이터 분석 및 데이터 가치 발굴을 위해 기본적인 데이터 지원 및 데이터 품질 보장을 제공하였다.
선택적으로, 도 5를 참조하여, 데이터 처리 방법의 제5 실시예에 따르면, 데이터 처리 방법이 제공되며, 상기의 도 1 내지 도 4에 나타낸 임의의 실시예(본 실시예에서는 도 1을 예로 한다.)를 기초로, 단계 S30 후에, 상기 방법은 아래의 단계를 더 포함한다.
단계 S40 : 상기 일괄 융합 후의 데이터를 분류 기억한다.
부동한 타입의 데이터를 분류 기억하며, 일괄 융합 후의 데이터를 분산 데이터 웨어 하우스에 기억하고, 특정 데이터를 전용 데이터 베이스에 기억하며, 예를 들어, 교통, 기상 등의 시공간 데이터를 시공간 데이터 베이스에 기억하고, 소셜 네트워크 등의 이미지 데이터를 이미지 데이터 베이스에 기억한다. 수집된 반 구조적 데이터, 비 구조적 데이터의 원시 데이터를 분산 파일 시스템에 기억하고, 수집된 구조적 데이터의 원시 데이터를 분산 데이터 베이스에 기억하며, 반 구조적 데이터 및 비 구조적 데이터를 처리한 후의 데이터를 분산 데이터 베이스에 기억하고, 스트리밍 데이터의 처리를 실시간 데이터 베이스에서 진행한다.
본 실시예에서는 데이터 수집 패턴 및 데이터 처리 모델을 자동으로 어댑터하고, 데이터 처리 모델에 따라 수집된 데이터를 처리하며, 처리 후의 데이터에 대해 일괄 융합을 진행하고, 일괄 융합 후의 데이터를 분류 기억함으로써, 후속 데이터의 빅 데이터의 분류 조회 및 분석 처리에 편리하며, 최종 데이터의 실용성 및 호출 편리성을 향상시켰다.
선택적으로, 도 6을 참조하여, 데이터 처리 방법의 제6 실시예에 따르면, 데이터 처리 방법이 제공되며, 상기의 도 1에 나타낸 실시예를 기초로, 단계 S10 전에, 상기 방법은 아래의 단계를 더 포함한다.
단계 S50 : 데이터 수집 인터페이스를 배치한다.
부동한 데이터 소스의 데이터 수집 인터페이스에 대해 일괄 배치를 진행하고, 배치에 대해 연결 테스트를 진행하며, 연결이 성공한 후에, 구성 파일의 일괄 전송을 진행하고, 클러스터의 각 노드가 부동한 데이터 소스의 데이터 수집 인터페이스에 연결하도록 제어하며, 배치가 성공된 데이터 수집 인터페이스를 통해 데이터를 수집하며, 연결 테스트가 실패하였을 경우, 데이터 수집 인터페이스의 배치를 다시 진행한다.
단계 S10에 있어서, 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하는 단계는, 상기 데이터 수집 인터페이스를 통해 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하는 단계를 포함한다.
수집 대상 데이터 샘플의 수집 프로세스에서의 각 노드의 리소스 부하 상태를 파악하기 위하여, 클러스터의 각 노드가 데이터 수집 인터페이스를 통해 수집 대상 데이터를 수집하도록 제어하고, 수집 대상 데이터 샘플 및 클러스터의 모든 노드의 부하 상태를 획득하며, 수집 대상 데이터 샘플은 소정 수량의 수집 대상 데이터를 포함하고, 모든 노드의 부하 상태는 데이터 수집 프로세스에서의 각 노드의 데이터 수집 속도, 성능, 응답 상태, 부하 능력을 포함한다.
수집 대상 데이터 샘플에 대해 전처리를 진행하고, 수집 대상 데이터의 기본 품질 특성을 검측하고 판정하며, 품질 평가 보고서를 얻는다.
단계 S20에 있어서, 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하는 단계는, 클러스터의 각 노드가 상기 데이터 수집 인터페이스를 통해 데이터 수집을 진행하도록 제어하고, 클러스터의 각 노드가 수집된 데이터에 대해 데이터 처리를 진행하도록 제어하는 단계를 포함한다.
클러스터의 각 노드가 할당된 상응한 수집 태스크에 따라 어댑터된 수집 패턴으로 데이터 수집 인터페이스를 통해 데이터 수집을 진행하도록 제어하고, 수집된 데이터를 획득한다. 예를 들어, 동적 스트리밍 데이터는 데이터 수집 인터페이스를 통해 증량 실시간 수집 패턴으로 데이터를 수집하고, 구조적 데이터는 데이터 수집 인터페이스를 통해 전량 비 실시간 수집 패턴으로 데이터를 수집하며, 반 구조적 데이터 및 비 구조적 데이터는 데이터 수집 인터페이스를 통해 전량 비 실시간 수집 패턴으로 데이터를 수집한다.
클러스터의 각 노드가 어댑터된 데이터 처리 모델에 따라 본 노드가 수집한 데이터에 대해 각각 데이터 처리를 진행하도록 제어함으로써, 각종 부동한 이종 데이터에 대해 자체의 데이터 특성에 따라 상응한 수집 및 처리를 진행하는 것을 실현한다. 예를 들어, 데이터 처리 모델에 따라 동적 스트리밍 데이터에 대해 데이터 추출, 데이터 필터링, 데이터 연관, 데이터 변환, 데이터 분류의 처리 단계를 순차적으로 진행하고, 데이터 처리 모델에 따라 구조적 데이터에 대해 데이터 추출, 에러 제거의 처리 단계를 순차적으로 진행하며, 데이터 처리 모델에 따라 반 구조적 데이터 및 비 구조적 데이터에 대해 데이터 추출, 데이터 해석, 에러 제거, 데이터 분할, 특징 추출의 처리 단계를 순차적으로 진행한다.
본 실시예에서는 데이터 수집 인터페이스를 일괄 배치하고, 정적, 동적, 구조적, 반 구조적, 비 구조적인 이종 데이터 수집 인터페이스의 배치를 겸함으로써, 멀티 소스 데이터 수집 시의 데이터 수집 인터페이스의 일괄 배치를 실현하고, 멀티 소스 이종 데이터의 수집을 위해 준비를 갖추었으며, 따라서 클러스터의 각 노드가 데이터 수집 인터페이스를 통해 멀티 소스 이종 데이터를 수집하도록 제어할 수 있고, 데이터 수집 속도를 향상시켰다.
선택적으로, 도 7을 참조하여, 데이터 처리 방법의 제7 실시예에 따르면, 데이터 처리 방법이 제공되며, 상기의 도 6에 나타낸 실시예를 기초로, 단계 S50은 아래의 단계를 포함한다.
단계 S51 : 데이터 수집 인터페이스 구성 파라미터를 획득한다.
사용자가 선택할 수 있도록 사용자에게 프리셋 인터페이스 구성 템플릿을 제공하고, 사용자가 선택한 인터페이스 구성 템플릿에 따라 템플릿 중의 구성 파라미터를 획득하며, 또는
사용자에게 프리셋 인터페이스 구성 템플릿을 제공하고, 사용자가 인터페이스 구성 템플릿을 선택한 후, 실제 상황에 따라 템플릿 중의 구성 파라미터를 변경할 수 있으며, 또는
사용자에 의해 데이터 수집 인터페이스 구성 파라미터를 자체 정의로 설정하고, 실제 필요에 따라 유연하게 설정할 수 있으며,
상기 프리셋 인터페이스 구성 템플릿은 파일 시스템 인터페이스 구성 템플릿, 데이터 베이스 인터페이스 구성 템플릿 및 네트워크 인터페이스 구성 템플릿을 포함한다.
데이터 수집 인터페이스 구성 파라미터는 네트워크 주소, 포트 번호 및 경로와 같은 데이터 수집 인터페이스의 키 인터페이스 파라미터를 포함한다.
단계 S52 : 상기 구성 파라미터에 따라 상기 데이터 수집 인터페이스의 연결 테스트를 진행한다.
획득한 데이터 수집 인터페이스 구성 파라미터에 따라 클러스터의 마스터 노드가 데이터 수집 인터페이스에 연결하도록 제어하고, 획득한 구성 파라미터에 따라 데이터 수집 인터페이스에 성공적으로 연결할 수 있는지 여부를 테스트하며, 획득한 구성 파라미터에 따라 데이터 수집 인터페이스에 성공적으로 연결하였을 경우에 연결 테스트가 성공하며, 획득한 구성 파라미터에 따라 데이터 수집 인터페이스에 성공적으로 연결하지 못하였을 경우, 연결 테스트가 성공하지 못한다.
단계 S53 : 상기 연결 테스트가 성공하였을 경우에, 상기 구성 파라미터가 포함되어 있는 데이터 수집 인터페이스 구성 파일을 클러스터의 다른 노드에 전송하고, 상기 클러스터의 각 노드를 배치하며, 상기 클러스터의 각 노드가 상기 데이터 수집 인터페이스에 연결하도록 제어하고, 상기 연결 테스트가 성공하지 않았을 경우, 단계 S51로 이동한다.
연결 테스트가 성공하였을 경우, 획득한 데이터 수집 인터페이스 구성 파라미터를 데이터 수집 인터페이스 구성 파일로 고정화하고, 구성 파일을 클러스터의 다른 노드로 전송하며, 클러스터의 각 노드가 획득한 데이터 수집 인터페이스 구성 파라미터에 따라 데이터 수집 인터페이스에 연결하도록 제어한다.
연결 테스트가 성공하지 않았을 경우, 사용자에게 데이터 수집 인터페이스에 성공적으로 연결하지 못한 것을 통지하고, 사용자에 의해 인터페이스 구성 템플릿을 교체하며, 또는 사용자에 의해 템플릿 중의 데이터 수집 인터페이스 구성 파라미터를 변경하며, 또는 사용자에 의해 데이터 수집 인터페이스 구성 파라미터를 자체 정의로 설정하고, 데이터 수집 인터페이스 구성 파라미터를 다시 획득한다.
본 실시예에서는 데이터 수집 인터페이스에 연결하기 위하여, 데이터 수집 인터페이스 구성 파라미터를 획득하고, 연결 테스트를 진행하여 정확하고 사용 가능한 데이터 수집 인터페이스 구성 파라미터를 획득하여 데이터 수집 인터페이스의 배치를 완료함으로써, 멀티 소스 데이터 수집 인터페이스에 대한 일괄 자동 배치 및 연결을 실현하고, 데이터 수집을 위해 준비 및 지원을 갖추었으며, 데이터 수집 및 처리 효율을 향상시켰다.
도 8을 참조하여, 데이터 처리 장치의 제1 실시예에 따르면, 데이터 처리 장치가 제공되고, 상기 데이터 처리 장치는 어댑터 모듈(100), 데이터 처리 모듈(200) 및 일괄 융합 모듈(300)를 구비한다.
어댑터 모듈(100)은 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하여, 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크를 얻도록 구성된다.
수집 대상 데이터 샘플의 수집 프로세스에서의 각 노드의 리소스 부하 상태를 파악하기 위하여, 어댑터 모듈(100)에 의해 클러스터의 각 노드가 수집 대상 데이터를 수집하도록 제어하고, 수집 대상 데이터 샘플 및 클러스터의 모든 노드의 부하 상태를 획득하며, 수집 대상 데이터 샘플은 소정 수량의 수집 대상 데이터를 포함하고, 클러스터의 모든 노드의 부하 상태는 데이터 수집 프로세스에서의 각 노드의 데이터 수집 속도, 성능, 응답 상태, 부하 능력을 포함한다.
어댑터 모듈(100)에 의해 수집 대상 데이터 샘플에 대해 전처리를 진행하고, 수집 대상 데이터의 기본 품질 특성을 검측하고 판정하며, 품질 평가 보고서를 얻는다.
품질 평가 보고서 및 클러스터의 모든 노드의 부하 상태에 따라, 어댑터 모듈(100)에 의해 데이터 수집 패턴을 결정하고 데이터 처리 모델을 어댑터하며 클러스터의 각 노드의 수집 태스크를 할당한다.
부동한 데이터 타입에 따라 부동한 데이터 수집 패턴을 어댑터하고, 부동한 데이터 수집 패턴은 전량, 증량, 비 실시간, 실시간을 포함하며, 예를 들어, 동적 스트리밍 데이터는 증량 실시간 수집 패턴을 어댑터하고, 구조적 데이터는 전량 비 실시간 수집 패턴을 어댑터하며, 반 구조적 데이터 및 비 구조적 데이터는 전량 비 실시간 수집 패턴을 어댑터하고, 데이터 수집 패턴은 기타 수집 패턴일 수도 있으며, 실제 수요에 따라 유연하게 설정할 수 있다.
부동한 데이터 타입에 따라 데이터 처리 모델을 어댑터하며, 예를 들어, 스트리밍 데이터, 배치 데이터, 구조적 데이터, 반 구조적 데이터 및 비 구조적 데이터와 같은 부동한 데이터 타입에 대해 부동한 데이터 처리를 진행하며, 프리셋 데이터 처리 모델은 스트리밍 데이터, 비 구조적 화상 데이터, 비 구조적 음성 영상 데이터, 비 구조적 텍스트 데이터, 반 구조적 데이터, 구조적 데이터의 처리에 적용되며, 직접적으로 어댑터하여 호출할 수 있으며, 모델의 다중화 및 보정을 지지한다.
데이터 처리 모델은 동적 스트리밍 데이터의 데이터 추출, 데이터 필터링, 데이터 연관, 데이터 변환, 데이터 분류를 위한 순차적인 처리 단계; 구조적 데이터의 데이터 추출, 에러 제거를 위한 순차적인 처리 단계; 및 반 구조적 데이터 및 비 구조적 데이터의 데이터 추출, 데이터 해석, 에러 제거, 데이터 분할, 특징 추출을 위한 순차적인 처리 단계를 포함한다. 또한, 데이터 처리 모델을 직접적으로 어댑터할 수 있고, 데이터 처리 모델을 미세 조정하여 사용할 수도 있으며, 또는 실제 처리 수요에 따라 데이터 처리 단계 및 모델을 유연하게 설정할 수도 있다.
클러스터의 각 노드의 수집 태스크를 할당함으로써 클러스터의 각 노드의 부하 상태에 대한 동적 조정을 실현하였고, 시스템 중 모든 노드의 부하가 불균형한 현상을 해소 또는 감소시켜 데이터 수집 및 데이터 처리 효율을 향상시켰다.
데이터 처리 모듈(200)은 상기 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크에 따라, 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하고, 처리 후의 데이터를 획득하도록 구성된다.
데이터 처리 모듈(200)에 의해 클러스터의 각 노드가 할당된 상응한 수집 태스크에 따라, 어댑터된 수집 패턴으로 데이터 수집을 진행하도록 제어하고, 수집된 데이터를 획득한다. 예를 들어, 동적 스트리밍 데이터는 증량 실시간 수집 패턴으로 데이터를 수집하고, 구조적 데이터는 전량 비 실시간 수집 패턴으로 데이터를 수집하며, 반 구조적 데이터 및 비 구조적 데이터는 전량 비 실시간 수집 패턴으로 데이터를 수집한다.
데이터 처리 모듈(200)에 의해 클러스터의 각 노드가 어댑터된 데이터 처리 모델에 따라 본 노드가 수집한 데이터에 대해 각각 데이터 처리를 진행하도록 제어함으로써, 각종 부동한 이종 데이터에 대해 자체의 데이터 특성에 따라 상응한 수집 및 처리를 진행하는 것을 실현하고, 처리 후의 데이터를 획득한다. 예를 들어, 데이터 처리 모델에 따라 동적 스트리밍 데이터에 대해 데이터 추출, 데이터 필터링, 데이터 연관, 데이터 변환, 데이터 분류의 처리 단계를 순차적으로 진행하고, 데이터 처리 모델에 따라 구조적 데이터에 대해 데이터 추출, 에러 제거의 처리 단계를 순차적으로 진행하며, 데이터 처리 모델에 따라 반 구조적 데이터 및 비 구조적 데이터에 대해 데이터 추출, 데이터 해석, 에러 제거, 데이터 분할, 특징 추출의 처리 단계를 순차적으로 진행한다.
일괄 융합 모듈(300)은 상기 처리 후의 데이터에 대해 일괄 융합을 진행하고, 일괄 융합 후의 데이터를 획득하도록 구성된다.
일괄 융합 모듈(300)에 의해 수집 및 처리 후의 데이터에 대해 데이터 정규화, 데이터 통합, 데이터 모델링을 진행하고, 여기서, 데이터 정규화 및 데이터 통합은 내부 연관성이 있는 데이터에 대해 진행하고, 데이터 모델링은 데이터 모델 설계 및 데이터 인덱스 구축 기능을 제공하며, 이로써 각종 내부 연관성이 있는 분산 데이터를 관련시켜 일괄 융합 후의 데이터를 획득할 수 있다.
본 실시예에서는 어댑터 모듈(100)에 의해 이종 데이터에 대해 샘플에 따라 분석하고, 데이터 수집 패턴 및 데이터 처리 모델을 자동으로 어댑터하며, 데이터 처리 모듈(200)에 의해 데이터를 수집하고 데이터를 처리하여 클러스터의 모든 노드의 부하 균형을 조정하며, 일괄 융합 모듈(300)에 의해 내부 연관성이 있는 각종 이종 데이터에 대해 일괄 융합을 진행함으로써, 종래 기술에 있어서 빅 데이터 처리 효율이 낮고, 융합도가 낮은 문제를 유효하게 해결하고, 데이터 처리 효율 및 데이터 융합도를 개선하며, 최종 데이터의 이용 가치 및 실용성을 높이고, 빅 데이터 분석 및 가치 발굴을 위해 데이터 품질 보장을 제공하였다.
선택적으로, 도 9를 참조하여, 데이터 처리 장치의 제2 실시예에 따르면, 데이터 처리 장치가 제공되며, 상기의 도 8에 나타낸 실시예를 기초로, 어댑터 모듈(100)은 샘플 수집 유닛(110), 데이터 평가 유닛(120) 및 어댑터 유닛(130)을 구비한다.
샘플 수집 유닛(110)은 상기 클러스터의 각 노드가 수집 대상 데이터를 읽도록 제어하고, 수집 대상 데이터 샘플 및 클러스터의 모든 노드의 부하 상태를 획득하도록 구성된다.
샘플 수집 유닛(110)에 의해 클러스터의 각 노드가 소정 수량의 수집 대상 데이터를 수집하도록 제어하고, 수집 대상 데이터 샘플 및 데이터 수집 프로세스에서의 클러스터의 모든 노드의 부하 상태를 획득하며, 수집 대상 데이터 샘플은 소정 수량의 수집 대상 데이터를 포함하고, 클러스터의 모든 노드의 부하 상태는 데이터 수집 프로세스에서의 각 노드의 데이터 수집 속도, 성능, 응답 상태, 부하 능력을 포함한다.
데이터 평가 유닛(120)은 수집 대상 데이터 샘플을 평가하고, 품질 평가 보고서를 획득하도록 구성되며, 상기 품질 평가 보고서는 데이터 타입, 데이터 코드, 데이터 용장율, 데이터 희소성 및 데이터 전송 속도를 포함한다.
데이터 평가 유닛(120)에 의해 클러스터의 각 노드가 각각 수집한 수집 대상 데이터 샘플에 대한 데이터 품질 평가를 진행하도록 제어하고, 상기 데이터 품질 평가는 클러스터의 각 노드가 수집한 수집 대상 데이터 샘플의 데이터 타입, 데이터 코드, 데이터 용장율, 데이터 희소성 및 데이터 전송 속도를 포함하며, 데이터 평가 유닛(120)에 의해 클러스터의 각 노드의 데이터 품질 평가 데이터를 집계하여 최종 품질 평가 보고서로 정리하고, 최종 품질 평가 보고서는 최종 수집 대상 데이터 샘플에 대한 데이터 기본 품질 특성의 검측 및 판정이며, 최종 수집 대상 데이터 샘플의 데이터 타입, 데이터 코드, 데이터 용장율, 데이터 희소성 및 데이터 전송 속도를 포함한다.
또는 데이터 평가 유닛(120)에 의해 클러스터의 각 노드가 수집한 수집 대상 데이터 샘플을 획득하고, 수집된 수집 대상 데이터 샘플을 집계하며, 집계 후의 수집 대상 데이터 샘플에 대해 데이터 기본 품질 특성의 검측 및 판정을 진행하여 품질 평가 보고서를 획득하며, 상기 품질 평가 보고서는 데이터 타입, 데이터 코드, 데이터 용장율, 데이터 희소성 및 데이터 전송 속도를 포함한다.
어댑터 유닛(130)은 상기 품질 평가 보고서 및 상기 클러스터의 모든 노드의 부하 상태에 따라 데이터 수집 패턴 및 데이터 처리 모델을 어댑터하고, 상기 클러스터의 각 노드의 수집 태스크 할당하도록 구성된다.
어댑터 유닛(130)에 의해 품질 평가 보고서 중의 데이터 타입 및 데이터 전송 속도에 따라 데이터 수집 패턴을 어댑터하고, 품질 평가 보고서 중의 데이터 코드, 데이터 용장율, 데이터 희소성에 따라 데이터 처리 모델을 어댑터하며, 품질 평가 보고서 중의 데이터 전송 속도 및 클러스터의 모든 노드의 부하 상태에 따라 클러스터의 각 노드의 수집 태스크를 할당한다.
본 실시예에서는 샘플 수집 유닛(110)에 의해 수집 대상 데이터 샘플을 획득하고, 데이터 평가 유닛(120)에 의해 수집 대상 데이터 샘플에 대한 전처리를 통해 품질 평가 보고서 및 클러스터의 모든 노드의 부하 상태를 얻으며, 어댑터 유닛(130)에 의해 품질 평가 보고서 및 클러스터의 모든 노드의 부하 상태에 따라 데이터 수집 패턴 및 데이터 처리 모델을 자동으로 어댑터함으로써, 각종 동적 스트리밍 데이터, 정적 구조적 데이터, 반 구조적 데이터 및 비 구조적 데이터와 같은 각종 이종 데이터 자체의 데이터 특성에 따라 보다 합리적이고 효과적인 데이터 수집 및 데이터 처리를 실시하는 것을 실현하고, 클러스터의 각 노드가 상응한 수집 태스크에 따라 데이터 수집을 진행하도록 수집 태스크를 합리적으로 할당함으로써, 클러스터의 모든 노드의 부하 균형을 실현하고, 클러스터 처리 능력을 향상시켰다.
선택적으로, 도 10을 참조하여, 데이터 처리 장치의 제3 실시예에 따르면, 데이터 처리 장치가 제공되며, 상기의 도 8에 나타낸 실시예를 기초로, 데이터 처리 모듈(200)은 데이터 수집 유닛(210) 및 데이터 처리 유닛(220)을 구비한다.
데이터 수집 유닛(210)은 상기 클러스터의 각 노드가 상응한 수집 태스크에 따라 상기 수집 패턴으로 데이터 수집을 진행하도록 제어하도록 구성된다.
데이터 수집 유닛(210)에 의해, 클러스터의 각 노드가 할당된 상응한 수집 태스크에 따라 어댑터된 수집 패턴으로 데이터 수집을 진행하도록 제어하고, 수집된 데이터를 획득한다. 예를 들어, 동적 스트리밍 데이터는 증량 실시간 수집 패턴으로 데이터를 수집하고 캐시하며, 구조적 데이터는 전량 비 실시간 수집 패턴으로 데이터를 수집하고, 반 구조적 데이터 및 비 구조적 데이터는 전량 비 실시간 수집 패턴으로 데이터를 수집한다. 비 구조적 데이터는 텍스트 데이터, 음성 데이터, 영상 데이터, 이미지 데이터로 세분되며, 부동한 타입의 비구조적 데이터의 수집 방법은 다르다. 예를 들어 텍스트 데이터는 텍스트 데이터 수집을 진행하고, 음성 데이터는 음성 데이터 수집을 진행하며, 영상 데이터는 영상 데이터 수집을 진행하고, 이미지 데이터는 이미지 데이터 수집을 진행한다.
데이터 처리 장치(220)는 상기 클러스터의 각 노드가 상기 데이터 처리 모델에 따라 상기 수집된 데이터를 처리하도록 제어하고, 처리 후의 데이터를 획득하도록 구성된다.
데이터 처리 유닛(220)에 의해 클러스터의 각 노드가 어댑터된 데이터 처리 모델에 따라 본 노드가 수집한 데이터에 대해 각각 데이터 처리를 진행하도록 제어함으로써 데이터 처리를 완료하고 처리 후의 데이터를 획득한다. 예를 들어, 데이터 처리 모델에 따라 동적 스트리밍 데이터에 대해 데이터 추출, 데이터 필터링, 데이터 연관, 데이터 변환, 데이터 분류의 처리 단계를 순차적으로 진행하고, 데이터 처리 모델에 따라, 구조적 데이터에 대해 데이터 추출, 에러 제거의 처리 단계를 순차적으로 진행하며, 데이터 처리 모델에 따라, 반 구조적 데이터 및 비 구조적 데이터에 대해 데이터 추출, 데이터 해석, 에러 제거, 데이터 분할, 특징 추출의 처리 단계를 순차적으로 진행한다. 비 구조적 데이터는 텍스트 데이터, 음성 데이터, 영상 데이터, 이미지 데이터로 세분되며 부동한 타입의 비 구조적 데이터의 처리 방법은 다르며, 예를 들어, 데이터 처리 모델에 따라, 텍스트 데이터에 대해서는 텍스트 데이터 수집, 텍스트 구조 및 코드 분석, 중복 및 로직 에러 제거, 중국어 단어 분할, 특징 추출의 처리를 진행한다.
데이터 처리 프로세스에 있어서 발생한 중간 데이터, 메타 데이터 및 데이터 처리 후의 결과 데이터에 대해, 데이터 처리 유닛(220)에 의해 부동한 수집 패턴에 따라 적절한 기억 매체를 선택하여 데이터 기억 및 캐시를 진행하며, 즉, 수집 대상 데이터의 원시 데이터가 데이터 추출, 데이터 해석 및 에러 제거를 거친 후의 결과 데이터, 데이터 분할을 거친 후의 결과 데이터, 특징 추출을 거친 후의 결과 데이터는 분산 파일 시스템 또는 분산 데이터 베이스에 기억되고, 증량 스트리밍 데이터의 중간 데이터는 메모리 데이터 베이스를 사용하여 캐시하며, 결과 데이터는 우선 파일 캐시를 진행한 후에 분산 데이터 베이스에 기억된다.
본 실시예에서는 데이터 수집 유닛(210)에 의해 부동한 데이터 타입에 따라 자동으로 적절한 데이터 수집 패턴을 사용하여 데이터 수집을 진행하고, 데이터 처리 유닛(220)에 의해 어댑터된 데이터 처리 모델에 따라 부동한 타입의 데이터에 대해 특정의 데이터 처리를 진행함으로써, 각종 이종 데이터 자체의 데이터 특성에 따라 적절하고 지향성이 있는 데이터 수집 및 처리를 자동으로 진행하는 것을 실현하고, 데이터 처리 효율 및 처리 후의 데이터 품질을 향상하며, 처리 전의 데이터가 처리를 거쳐 조작 가능한 일괄적인 데이터가 되도록 하여, 데이터 융합에 편리하다.
선택적으로, 도 11을 참조하여, 데이터 처리 장치의 제4 실시예에 따르면, 데이터 처리 장치가 제공되며, 상기의 도 8에 나타낸 실시예를 기초로, 일괄 융합 모듈(300)은 데이터 획득 유닛(340) 및 데이터 정규화 유닛(310), 데이터 통합 유닛(320), 데이터 모델링 유닛(330) 중의 하나 이상의 유닛을 구비한다.
데이터 정규화 유닛(310)은 미리 설정한 데이터 정규화 모델에 따라 처리 후의 데이터에 대해 데이터 정규화를 진행하도록 구성된다.
미리 설정한 데이터 정규화 모델에 따라, 데이터 정규화 유닛(310)에 의해 처리 후의 부동한 데이터에 대해 일괄 데이터 정규화를 진행하고, 일괄 정규화된 데이터를 획득하며, 상기 일괄 데이터 정규화는 일괄 포맷 변환, 일괄 코딩, 데이터 보정 및 누락 보충을 포함한다.
데이터 통합 유닛(320)은 미리 설정한 데이터 통합 모델에 따라 처리 후의 데이터에 대해 데이터 통합을 진행하도록 구성된다.
미리 설정한 데이터 통합 모델에 따라, 데이터 통합 유닛(320)에 의해 처리 후의 부동한 데이터 또는 데이터 정규화 후의 데이터에 대해 데이터 통합을 진행하여 일괄적이고 일반적인 기본 데이터 세트를 형성하며, 상기 데이터 통합은 데이터 연관, 데이터 합성, 데이터 패킷화, 데이터 집계를 포함한다.
데이터 모델링 유닛(330)은 미리 설정한 데이터 모델링 모델에 따라 처리 후의 데이터에 대해 데이터 모델링을 진행하도록 구성된다.
후속의 더 높은 레벨의 데이터 분석, 데이터 발굴의 기본적인 데이터 지원을 형성하기 위하여, 미리 설정한 데이터 모델링 모델에 따라 데이터 모델링 유닛(330)에 의해 처리 후의 부동한 데이터, 데이터 정규화 후의 데이터, 또는 데이터 통합 후의 데이터에 대해 모델 설계, 인덱스 구축을 진행한다.
데이터 획득 유닛(340)은 일괄 융합 후의 데이터를 획득하도록 구성된다.
처리 후의 데이터에 대해, 데이터 처리 후의 상황에 따라, 데이터 획득 유닛(340)에 의해, 데이터 정규화 유닛(310)에 의해 데이터 정규화의 일괄 융합 조작을 진행하고, 데이터 통합 유닛(320)에 의해 데이터 통합의 일괄 융합 조작을 진행하며, 데이터 모델링 유닛(330)에 의해 데이터 모델링의 일괄 융합 조작을 진행하도록 제어하고, 데이터 획득 유닛(340)에 의해 일괄 융합 후의 데이터를 획득한다. 여기서, 데이터 정규화, 데이터 통합 및 데이터 모델링을 순차적으로 진행하여 일괄 융합을 완료할 수 있고, 데이터 정규화, 데이터 통합을 순차적으로 진행하여 일괄 융합을 완료할 수도 있으며, 또는 다른 일괄 융합 조작을 진행하여 일괄 융합을 완료할 수도 있으며, 실제 일괄 융합의 필요에 따라 데이터 정규화, 데이터 통합, 또는 데이터 모델링의 일괄 융합 조작을 진행할 수 있다.
본 실시예에서는 데이터 획득 유닛(340)에 의해, 데이터 정규화 유닛(310), 데이터 통합 유닛(320) 및 데이터 모델링 유닛(330)에 의해 처리 후의 데이터에 대해 일괄 융합을 진행하도록 제어함으로써, 각종 내부 연관성이 있는 분산 이종 데이터에 대한 자동 연관을 실현하고, 데이터 융합도를 개선하며, 최종 데이터의 이용 가치 및 실용성을 높이고, 후속의 빅 데이터 분석 및 데이터 가치 발굴을 위해 기본적인 데이터 지원 및 데이터 품질 보증을 제공하였다.
선택적으로, 도 12를 참조하여, 데이터 처리 장치의 제5 실시예에 따르면, 데이터 처리 장치가 제공되며, 상기의 도 8 내지 도 11에 나타낸 임의의 실시예(본 실시예에서는 도 8을 예로 한다.)를 기초로, 상기 데이터 처리 장치는 분류 기억 모듈(400)을 더 구비하고,
분류 기억 모듈(400)은 상기 일괄 융합 후의 데이터를 분류 기억하도록 구성된다.
분류 기억 유닛(400)에 의해 부동한 타입의 데이터를 분류 기억하며, 일괄 융합 후의 데이터를 분산 데이터 웨어 하우스에 기억하고, 특정 데이터를 전용 데이터 베이스에 기억하며, 예를 들어, 분류 기억 유닛(400)에 의해, 교통, 기상 등의 시공간 데이터를 시공간 데이터 베이스에 기억하고, 분류 기억 유닛(400)에 의해, 소셜 네트워크 등의 이미지 데이터를 이미지 데이터 베이스에 기억한다. 분류 기억 유닛(400)에 의해, 수집된 반 구조적 데이터, 비 구조적 데이터의 원시 데이터를 분산 파일 시스템에 기억하고, 분류 기억 유닛(400)에 의해, 수집된 구조적 데이터의 원시 데이터를 분산 데이터 베이스에 기억하며, 분류 기억 유닛(400)에 의해, 반 구조적 데이터 및 비 구조적 데이터를 처리한 후의 데이터를 분산 데이터 베이스에 기억하고, 분류 기억 모듈(400)에 의해 스트리밍 데이터의 처리를 실시간 데이터 베이스에서 진행한다.
본 실시예에서는 어댑터 모듈(100)에 의해 데이터 수집 패턴 및 데이터 처리 모델을 자동으로 어댑터하고, 데이터 처리 모듈(200)에 의해 데이터 처리 모델에 따라 수집된 데이터를 처리하며, 일괄 융합 모듈(300)에 의해 처리 후의 데이터에 대해 일괄 융합을 진행하고, 분류 기억 유닛(400)에 의해 일괄 융합 후의 데이터를 분류 기억함으로써, 후속 데이터의 빅 데이터의 분류 조회 및 분석 처리에 편리하며, 최종 데이터의 실용성 및 호출 편리성을 향상시켰다.
선택적으로, 도 13을 참조하여, 데이터 처리 장치의 제6 실시예에 따르면, 데이터 처리 장치가 제공되며, 상기의 도 8에 나타낸 실시예를 기초로, 상기 데이터 처리 장치는 인터페이스 배치 모듈(500)을 더 구비하고,
인터페이스 배치 모듈(500)은 데이터 수집 인터페이스를 배치하도록 구성된다.
인터페이스 배치 모듈(500)에 의해 부동한 데이터 소스의 데이터 수집 인터페이스에 대해 일괄 배치를 진행하고, 배치에 대해 연결 테스트를 진행하며, 연결이 성공한 후에, 인터페이스 배치 모듈(500)에 의해 구성 파일의 일괄 전송을 진행하고, 클러스터의 각 노드가 부동한 데이터 소스의 데이터 수집 인터페이스에 연결하도록 제어하며, 연결 테스트가 실패하였을 경우, 인터페이스 배치 모듈(500)에 의해 데이터 수집 인터페이스의 배치를 다시 진행한다.
상기 어댑터 모듈(100)에 의해 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하는 단계는, 상기 어댑터 모듈(100)에 의해 상기 데이터 수집 인터페이스를 통해 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하는 단계를 포함한다.
수집 대상 데이터 샘플의 수집 프로세스에서의 각 노드의 리소스 부하 상태를 파악하기 위하여, 어댑터 모듈(100)에 의해, 클러스터의 각 노드가 데이터 수집 인터페이스를 통해 수집 대상 데이터를 수집하도록 제어하고, 수집 대상 데이터 샘플 및 클러스터의 모든 노드의 부하 상태를 획득하며, 수집 대상 데이터 샘플은 소정 수량의 수집 대상 데이터를 포함하고, 클러스터의 모든 노드의 부하 상태는 데이터 수집 프로세스에서의 각 노드의 데이터 수집 속도, 성능, 응답 상태, 부하 능력을 포함한다.
어댑터 모듈(100)에 의해 수집 대상 데이터 샘플에 대해 전처리를 진행하고, 수집 대상 데이터의 기본 품질 특성을 검측하고 판정하며, 품질 평가 보고서를 얻는다.
상기 데이터 처리 모듈(200)에 의해 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하는 단계는, 상기 데이터 처리 모듈(200)에 의해 클러스터의 각 노드가 상기 데이터 수집 인터페이스를 통해 데이터 수집을 진행하도록 제어하고, 클러스터의 각 노드가 수집된 데이터에 대해 데이터 처리를 진행하도록 제어하는 단계를 포함한다.
데이터 처리 모듈(200)에 의해 클러스터의 각 노드가 할당된 상응한 수집 태스크에 따라 어댑터된 수집 패턴으로 데이터 수집 인터페이스를 통해 데이터 수집을 진행하도록 제어하고, 수집된 데이터를 획득한다. 예를 들어, 동적 스트리밍 데이터는 데이터 수집 인터페이스를 통해 증량 실시간 수집 패턴으로 데이터를 수집하고, 구조적 데이터는 데이터 수집 인터페이스를 통해 전량 비 실시간 수집 패턴으로 데이터를 수집하며, 반 구조적 데이터 및 비 구조적 데이터는 데이터 수집 인터페이스를 통해 전량 비 실시간 수집 패턴으로 데이터를 수집한다.
데이터 처리 모듈(200)에 의해 클러스터의 각 노드가 어댑터된 데이터 처리 모델에 따라 본 노드가 수집한 데이터에 대해 각각 데이터 처리를 진행하도록 제어함으로써, 각종 부동한 이종 데이터에 대해 자체의 데이터 특성에 따라 상응한 수집 및 처리를 진행하는 것을 실현한다. 예를 들어, 데이터 처리 모델에 따라 동적 스트리밍 데이터에 대해 데이터 추출, 데이터 필터링, 데이터 연관, 데이터 변환, 데이터 분류의 처리 단계를 순차적으로 진행하고, 데이터 처리 모델에 따라 구조적 데이터에 대해 데이터 추출, 에러 제거의 처리 단계를 순차적으로 진행하며, 데이터 처리 모델에 따라 반 구조적 데이터 및 비 구조적 데이터에 대해 데이터 추출, 데이터 해석, 에러 제거, 데이터 분할, 특징 추출의 처리 단계를 순차적으로 진행한다.
본 실시예에서는 인터페이스 배치 모듈(500)에 의해 데이터 수집 인터페이스를 일괄 배치하고, 정적, 동적, 구조적, 반 구조적, 비 구조적인 이종 데이터 수집 인터페이스의 배치를 겸함으로써, 멀티 소스 데이터 수집 시의 데이터 수집 인터페이스의 일괄 배치를 실현하고, 멀티 소스 이종 데이터의 수집을 위해 준비를 갖추었으며, 따라서 어댑터 모듈(100) 및 데이터 처리 모듈(200)에 의해 클러스터의 모든 노드가 데이터 수집 인터페이스를 통해 멀티 소스 이종 데이터를 수집하도록 제어할 수 있고, 데이터 수집 속도를 향상시켰다.
선택적으로, 도 14를 참조하여, 데이터 처리 장치의 제7 실시예에 따르면, 데이터 처리 장치가 제공되며, 상기의 도 13에 나타낸 실시예를 기초로, 인터페이스 배치 모듈(500)은 파라미터 획득 유닛(510), 연결 테스트 유닛(520) 및 파일 전송 유닛(530)을 포함한다.
파라미터 획득 유닛(510)은 데이터 수집 인터페이스 구성 파라미터를 획득하도록 구성된다.
파라미터 획득 유닛(510)에 의해, 사용자가 선택할 수 있도록 사용자에게 프리셋 인터페이스 구성 템플릿을 제공하고, 사용자가 선택한 인터페이스 구성 템플릿에 따라 템플릿 중의 구성 파라미터를 획득하며, 또는
파라미터 획득 유닛(510)에 의해 사용자에게 프리셋 인터페이스 구성 템플릿을 제공하고, 사용자가 인터페이스 구성 템플릿을 선택한 후, 실제 상황에 따라 템플릿 중의 구성 파라미터를 변경할 수 있으며, 또는
사용자에 의해 데이터 수집 인터페이스 구성 파라미터를 자체 정의로 설정하고, 파라미터 획득 유닛(510)에 의해 사용자가 자체 정의로 설정한 데이터 수집 인터페이스 구성 파라미터를 획득하며,
상기 프리셋 인터페이스 구성 템플릿은 파일 시스템 인터페이스 구성 템플릿, 데이터 베이스 인터페이스 구성 템플릿 및 네트워크 인터페이스 구성 템플릿을 포함한다.
데이터 수집 인터페이스 구성 파라미터는 네트워크 주소, 포트 번호 및 경로와 같은 데이터 수집 인터페이스의 키 인터페이스 파라미터를 포함한다.
연결 테스트 유닛(520)은 상기 구성 파라미터에 따라 상기 데이터 수집 인터페이스의 연결 테스트를 진행하도록 구성된다.
연결 테스트 유닛(520)에 의해, 획득한 데이터 수집 인터페이스 구성 파라미터에 따라 클러스터의 마스터 노드가 데이터 수집 인터페이스에 연결하도록 제어하고, 획득한 구성 파라미터에 따라 데이터 수집 인터페이스에 성공적으로 연결할 수 있는지 여부를 테스트하며, 획득한 구성 파라미터에 따라 데이터 수집 인터페이스에 성공적으로 연결하였을 경우, 연결 테스트 유닛(520)에 의해 연결 테스트가 성공했음을 확인하고, 획득한 구성 파라미터에 따라 데이터 수집 인터페이스에 성공적으로 연결하지 못하였을 경우, 연결 테스트 유닛(520)에 의해 연결 테스트가 성공하지 못했음을 확인한다.
파일 전송 유닛(530)은 상기 연결 테스트가 성공하였을 경우에, 상기 구성 파라미터가 포함되어 있는 데이터 수집 인터페이스 구성 파일을 클러스터의 다른 노드에 전송하고, 상기 클러스터의 각 노드를 배치하며, 상기 클러스터의 각 노드가 상기 데이터 수집 인터페이스에 연결하도록 제어하도록 구성된다.
연결 테스트가 성공하였을 경우, 파일 전송 유닛(530)에 의해 획득한 데이터 수집 인터페이스 구성 파라미터를 데이터 수집 인터페이스 구성 파일로 고정화하고, 구성 파일을 클러스터의 다른 노드로 전송하며, 클러스터의 각 노드가 획득한 데이터 수집 인터페이스 구성 파라미터에 따라 데이터 수집 인터페이스에 연결하도록 제어한다.
상기 파라미터 획득 유닛(510)은 또한, 상기 연결 테스트가 성공하지 않았을 경우에, 상기 데이터 수집 인터페이스 구성 파라미터를 획득하도록 구성된다.
연결 테스트가 성공하지 않았을 경우, 파라미터 획득 유닛(510)에 의해 사용자에게 데이터 수집 인터페이스에 성공적으로 연결하지 못한 것을 통지하고, 사용자에 의해 인터페이스 구성 템플릿을 교체하며, 또는 사용자에 의해 템플릿 중의 데이터 수집 인터페이스 구성 파라미터를 변경하며, 또는 사용자에 의해 데이터 수집 인터페이스 구성 파라미터를 자체 정의로 설정하고, 파라미터 획득 유닛(510)에 의해 데이터 수집 인터페이스 구성 파라미터를 다시 획득한다.
본 실시예에서는 파라미터 획득 유닛(510)에 의해 데이터 수집 인터페이스 구성 파라미터를 획득하고, 연결 테스트 유닛(520)에 의해 연결 테스트를 진행하여 정확하고 사용 가능한 데이터 수집 인터페이스 구성 파라미터를 획득하며, 파일 전송 유닛(530)에 의해 데이터 수집 인터페이스에 연결하여 데이터 수집 인터페이스의 배치를 완료함으로써, 멀티 소스 데이터 수집 인터페이스에 대한 일괄 자동 배치 및 연결을 실현하고, 데이터 수집을 위해 준비 및 지원을 갖추었으며, 데이터 수집 및 처리 효율을 향상시켰다.
도 15를 참조하여, 데이터 처리 시스템의 제1 실시예에 따르면, 데이터 처리 시스템이 제공되며, 상기 시스템은 어댑터 프로세서(A), 데이터 프로세서(B) 및 데이터 일괄 융합 프로세서(C)를 구비한다.
어댑터 프로세서(A)는 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하여, 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크를 얻도록 구성된다.
어댑터 프로세서(A)는 샘플 수집 모듈(A1), 데이터 평가 모듈(A2) 및 어댑터 모듈(A3)을 구비하며,
샘플 수집 모듈(A1)은 수집 대상 데이터 샘플을 획득하도록 구성되고, 데이터 평가 모듈(A2)은 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하도록 구성되며, 어댑터 모듈(A3)은 데이터 수집 패턴 및 데이터 처리 모델을 어댑터하고, 클러스터의 각 노드의 수집 태스크를 할당하도록 구성된다.
데이터 프로세서(B)는 상기 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크에 따라, 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하고, 처리 후의 데이터를 획득하도록 구성된다.
데이터 프로세서(B)는 데이터 수집 모듈(B1) 및 데이터 처리 모듈(B2)을 구비하며,
데이터 수집 모듈(B1)은 어댑터된 데이터 수집 패턴 및 클러스터의 각 노드의 수집 태스크에 따라 데이터를 수집하도록 구성되고, 데이터 처리 모듈(B2)은 어댑터된 데이터 처리 모델에 따라 수집된 데이터에 대해 데이터 처리를 진행하고, 처리 후의 데이터를 획득하도록 구성된다.
데이터 일괄 융합 프로세서(C)는 상기 처리 후의 데이터에 대해 일괄 융합을 진행하고, 일괄 융합 후의 데이터를 획득하도록 구성된다.
데이터 일괄 융합 프로세서(C)는 데이터 정규화 모듈(C1), 데이터 통합 모듈(C2), 데이터 모델링 모듈(C3) 및 데이터 획득 모듈(C4)을 구비하며,
데이터 정규화 모듈(C1)은 미리 설정한 데이터 정규화 모델에 따라 처리 후의 데이터에 대해 데이터 정규화를 진행하도록 구성되고, 데이터 통합 모듈(C2)은 미리 설정한 데이터 통합 모델에 따라 처리 후의 데이터에 대해 데이터 통합을 진행하도록 구성되며, 데이터 모델링 모듈(C3)은 미리 설정한 데이터 모델링 모델에 따라 처리 후의 데이터에 대해 데이터 모델링을 진행하도록 구성되고, 데이터 획득 모듈(C4)은 정규화 모듈(C1), 데이터 통합 모듈(C2) 및 데이터 모델링 모듈(C3)에 따라 데이터 일괄 융합을 진행하도록 제어하고, 일괄 융합 후의 데이터를 획득하도록 구성된다.
본 실시예에서는 어댑터 프로세서(A)가 이종 데이터에 대해 샘플에 따라 분석하고, 데이터 수집 패턴 및 데이터 처리 모델을 자동으로 어댑터하며, 데이터 프로세서(B)가 데이터를 수집하고 데이터를 처리하여 클러스터의 모든 노드의 부하 균형을 조정하며, 데이터 일괄 융합 프로세서(C)가 내부 연관성이 있는 각종 이종 데이터에 대해 일괄 융합을 진행함으로써, 종래 기술에 있어서 빅 데이터 처리 효율이 낮고, 융합도가 낮은 문제를 유효하게 해결하고, 데이터 처리 효율 및 데이터 융합도를 개선하며, 최종 데이터의 이용 가치 및 실용성을 높이고, 빅 데이터 분석 및 가치 발굴을 위해 데이터 품질 보장을 제공하였다.
선택적으로, 도 16을 참조하여, 데이터 처리 시스템의 제2 실시예에 따르면, 데이터 처리 시스템이 제공되며, 상기의 도 15에 나타낸 실시예를 기초로, 상기 시스템은 데이터 수집 인터페이스 어댑터(D), 데이터 분류 메모리(E) 및 시스템 매니저(F)를 더 구비한다.
데이터 수집 인터페이스 어댑터(D)는 데이터 수집 인터페이스를 배치하도록 구성된다.
데이터 수집 인터페이스 어댑터(D)는 파라미터 획득 모듈(D1), 연결 테스트 모듈(D2) 및 파일 전송 모듈(D3)을 구비하며,
파라미터 획득 모듈(D1)은 데이터 수집 인터페이스 구성 파라미터를 획득하도록 구성되고, 연결 테스트 모듈(D2)은 획득한 데이터 수집 인터페이스 구성 파라미터에 따라 데이터 수집 인터페이스에 연결할 수 있는지 여부를 테스트하도록 구성되며, 파일 전송 모듈(D3)은 연결 테스트가 성공하였을 경우에, 상기 구성 파라미터가 포함되어 있는 데이터 수집 인터페이스 구성 파일을 클러스터의 다른 노드에 전송하고, 상기 클러스터의 모든 노드를 배치하며, 상기 클러스터의 모든 노드가 데이터 수집 인터페이스에 연결하도록 제어하도록 구성된다.
데이터 분류 메모리(E)는 상기 일괄 융합 후의 데이터를 분류 기억하도록 구성된다.
데이터 분류 메모리(E)는 분산 파일 시스템(E1), 분산 데이터 베이스(E2), 분산 데이터 웨어 하우스(E3) 및 전용 데이터 베이스(E4)를 구비하며,
데이터 분류 메모리(E)는 일괄 융합 후의 데이터를 분산 데이터 웨어 하우스(E3)에 기억하고 특정 데이터를 전용 데이터 베이스(E4)에 기억하며, 예를 들어, 교통, 기상 등의 시공간 데이터를 전용 데이터 베이스(E4)에 기억하고 소셜 네트워크 등의 이미지 데이터를 전용 데이터 베이스(E4)에 기억한다.
데이터 분류 메모리(E)가 수집된 반 구조적 데이터, 비 구조적 데이터의 원시 데이터를 분산 파일 시스템(E1)에 기억하고, 수집된 구조적 데이터의 원시 데이터를 분산 데이터 베이스(E2)에 기억하며, 반 구조적 데이터 및 비 구조적 데이터를 처리한 후의 데이터를 분산 데이터 베이스(E2)에 기억하고, 스트리밍 데이터의 처리를 전용 데이터 베이스(E4)에서 진행한다.
시스템 매니저(F)는 데이터 관리 모듈(F1), 리소스 관리 모듈(F2), 모델 관리 모듈(F3) 및 프로세스 모니터링 모듈(F4)을 구비하고,
데이터 관리 모듈(F1)은 상기 데이터 수집 인터페이스 구성 파일, 데이터 수집 인터페이스의 연결 테스트 결과, 수집 대상 데이터 샘플, 품질 평가 보고서 및 클러스터의 모든 노드의 부하 상태를 관리하도록 구성된다.
데이터 관리 모듈(F1)에 의해 데이터 수집 인터페이스 구성 파일을 기억하고 전송하며, 데이터 수집 인터페이스의 연결 테스트 결과를 기억하여 사용자에게 피드백하며, 수집 대상 데이터 샘플을 기억 또는 캐시하고, 수집 대상 데이터 샘플을 평가하며, 품질 평가 보고서를 획득하고 기억하며, 클러스터의 모든 노드의 부하 상태를 획득하고 기억하며, 기타의 모듈 조회 및 호출에 편리하다.
리소스 관리 모듈(F2)은 상기 수집 대상 데이터 샘플, 데이터 수집, 데이터 처리, 데이터 일괄 융합 및 데이터 기억, 클러스터 리소스 소모 상태를 관리하고, 상기 클러스터의 모든 노드의 부하 균형을 제어하도록 구성된다.
리소스 관리 모듈(F2)은 수집 대상 데이터 샘플의 수집 프로세스, 데이터 품질 평가 프로세스, 데이터 수집 프로세스, 데이터 처리 프로세스, 데이터 일괄 융합 프로세스 및 데이터 기억 프로세스의 클러스터 리소스 상태에 따라 클러스터의 모든 노드의 부하 균형을 제어하도록 구성된다.
모델 관리 모듈(F3)은 데이터 수집 인터페이스 구성 템플릿, 데이터 평가 템플릿, 데이터 수집 템플릿, 데이터 처리 모델, 데이터 정규화 모델, 데이터 통합 모델 및 데이터 모델링 모델을 관리하도록 구성된다.
모델 관리 모듈(F3)은 데이터 수집 인터페이스 구성 템플릿의 기억 및 변경, 데이터 평가 템플릿의 관리, 데이터 수집 템플릿의 기억, 어댑터, 호출 및 변경, 데이터 처리 모델의 기억, 어댑터, 호출 및 변경, 데이터 정규화 모델 기억 및 호출, 데이터 통합 모델의 기억 및 호출, 데이터 모델링 모델의 구축, 기억 및 호출하도록 구성된다.
프로세스 모니터링 모듈(F4)은 데이터 수집 인터페이스의 배치, 수집 대상 데이터 샘플의 읽기, 데이터 평가, 데이터 처리, 데이터 일괄 융합 및 데이터 기억 프로세스를 모니터링하고, 데이터 수집 인터페이스의 배치, 수집 대상 데이터 샘플의 읽기, 데이터 평가, 데이터 처리, 데이터 일괄 융합 및 데이터 기억 프로세스의 완료 상태, 중간 오류 및 이상을 기록하고 처리하도록 구성된다.
프로세스 모니터링 모듈(F4)은 데이터 처리 시스템의 각 모듈의 운전 상태, 리소스 사용 상태를 모니터링하고, 데이터 처리 시스템의 각 모듈의 운전 시의 오류, 이상을 기록하고 처리하도록 구성된다.
본 실시예에서, 시스템 매니저(F)는 어댑터 프로세서(A), 데이터 프로세서(B), 데이터 일괄 융합 프로세서(C), 데이터 수집 인터페이스 어댑터(D) 및 데이터 분류 메모리(E)의 운전 상태, 데이터 처리 상태 및 부하 상태를 모니터링하고, 각 모듈의 운전에 대해 프로세스 제어를 진행하며, 데이터 처리 시스템 중의 각종 데이터를 집중적으로 관리함으로써, 멀티 소스 데이터 인터페이스의 일괄 배치, 이종 데이터 수집 방법 및 처리 모델의 자동 어댑터, 이종 데이터에 대한 일괄 융합 및 분류 기억을 실현하고, 데이터 처리 효율 및 융합도를 개선하며, 최종 데이터의 이용 가치 및 실용성을 높이고, 빅 데이터 분석 및 가치 발굴을 위해 데이터 품질 보장을 제공하였다.
이상은 본 발명의 선택 가능한 실시예에 지나지 않고, 본 발명의 명세서 및 도면의 내용에 근거하여 제출된 동일한 구성 또는 동일한 흐름의 변환, 또는 다른 관련 기술 분야에 직접 또는 간접적으로 운용되는 것들은 모두 본 발명의 특허 청구 범위 내에 포함된다.
당업자라면 상기 방법의 전부 또는 일부 단계가 프로그램 관련 하드웨어(예를 들어 프로세서)에 명령함으로써 완성될 수 있으며, 상기 프로그램이 예를 들어, 읽기 전용 메모리(ROM), 자기 디스크 또는 광디스크 등의 컴퓨터 판독 가능한 기록 매체에 기억될 수 있다는 것을 이해할 수 있다. 선택적으로, 상기 실시예의 전부 또는 일부 단계는 하나 또는 복수의 집적 회로를 사용하여 실현될 수도 있다. 상응하게, 상기 실시예의 각 모듈 / 장치는 집적 회로에 의해 상응한 기능을 실현하듯이, 하드웨어에 의해 실현될 수 있으며, 또는 프로세서에 의해 메모리에 기억된 프로그램 / 명령을 실행함으로써 상응한 기능을 실현하듯이, 소프트웨어 기능 모듈에 의해 실현될 수 있다. 본 발명의 실시예는 특정 형태의 하드웨어와 소프트웨어의 조합에 한정되지 않는다.
(산업상 이용가능성)
본 발명의 실시예에 따르면, 이종 데이터에 대해 샘플에 따라 분석을 진행하고, 데이터 수집 패턴 및 데이터 처리 모델을 자동으로 어댑터하며, 데이터를 수집하고 데이터 처리를 진행하여 클러스터의 모든 노드의 부하 균형을 조정하고, 내부 연관성이 있는 각종 이종 데이터에 대해 일괄 융합을 진행함으로써, 종래 기술에 있어서 빅 데이터 처리 효율이 낮고, 융합도가 낮은 문제를 유효하게 해결하고, 데이터 처리 효율 및 데이터 융합도를 개선하며, 최종 데이터의 이용 가치 및 실용성을 높이고, 빅 데이터 분석 및 가치 발굴을 위해 데이터 품질 보장을 제공하였다.

Claims (16)

  1. 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하여, 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크를 얻는 단계;
    상기 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크에 따라, 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하고, 처리 후의 데이터를 획득하는 단계; 및
    상기 처리 후의 데이터에 대해 일괄 융합을 진행하고, 일괄 융합 후의 데이터를 획득하는 단계; 를 포함하는
    데이터 처리 방법.
  2. 제1항에 있어서,
    상기 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하여, 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크를 얻는 단계는,
    상기 클러스터의 각 노드가 수집 대상 데이터를 읽도록 제어하고, 수집 대상 데이터 샘플 및 클러스터의 모든 노드의 부하 상태를 획득하는 단계;
    상기 수집 대상 데이터 샘플을 평가하고, 품질 평가 보고서를 획득하는 단계; 및
    상기 품질 평가 보고서 및 상기 클러스터의 모든 노드의 부하 상태에 따라 데이터 수집 패턴 및 데이터 처리 모델을 어댑터하고, 상기 클러스터의 각 노드의 수집 태스크를 할당하는 단계; 를 포함하고,
    상기 품질 평가 보고서는 데이터 타입, 데이터 코드, 데이터 용장율, 데이터 희소성 및 데이터 전송 속도를 포함하는
    데이터 처리 방법.
  3. 제1항에 있어서,
    상기 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크에 따라, 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하고, 처리 후의 데이터를 획득하는 단계는,
    상기 클러스터의 각 노드가 상응한 수집 태스크에 따라 상기 수집 패턴으로 데이터 수집을 진행하도록 제어하는 단계; 및
    상기 클러스터의 각 노드가 상기 데이터 처리 모델에 따라 수집된 데이터를 처리하도록 제어하고, 처리 후의 데이터를 획득하는 단계; 를 포함하는
    데이터 처리 방법.

  4. 제1항에 있어서,
    상기 처리 후의 데이터에 대해 일괄 융합을 진행하고, 일괄 융합 후의 데이터를 획득하는 단계는,
    미리 설정한 데이터 정규화 모델에 따라 처리 후의 데이터에 대해 데이터 정규화를 진행하여 일괄 융합 후의 데이터를 얻는 단계;
    미리 설정한 데이터 통합 모델에 따라 처리 후의 데이터에 대해 데이터 통합을 진행하여 일괄 융합 후의 데이터를 얻는 단계; 및
    미리 설정한 데이터 모델링 모델에 따라 처리 후의 데이터에 대해 데이터 모델링을 진행하여 일괄 융합 후의 데이터를 얻는 단계; 중의 적어도 하나를 포함하는
    데이터 처리 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 처리 후의 데이터에 대해 일괄 융합을 진행하고, 일괄 융합 후의 데이터를 획득한 후,
    상기 일괄 융합 후의 데이터를 분류 기억하는 단계를 더 포함하는
    데이터 처리 방법.
  6. 제1항에 있어서,
    상기 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하여, 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크를 얻기 전에,
    데이터 수집 인터페이스를 배치하는 단계를 더 포함하고,
    상기 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하는 단계는,
    상기 데이터 수집 인터페이스를 통해 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하는 단계를 포함하고,
    상기 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하는 단계는,
    클러스터의 각 노드가 상기 데이터 수집 인터페이스를 통해 데이터 수집을 진행하도록 제어하고, 클러스터의 각 노드가 수집된 데이터에 대해 데이터 처리를 진행하도록 제어하는 단계를 포함하는
    데이터 처리 방법.
  7. 제6항에 있어서,
    상기 데이터 수집 인터페이스를 배치하는 단계는,
    데이터 수집 인터페이스 구성 파라미터를 획득하는 단계;
    상기 구성 파라미터에 따라 상기 데이터 수집 인터페이스의 연결 테스트를 진행하는 단계;
    상기 연결 테스트가 성공하였을 경우에, 상기 구성 파라미터가 포함되어 있는 데이터 수집 인터페이스 구성 파일을 클러스터의 다른 노드에 전송하고, 상기 클러스터의 각 노드를 배치하며, 상기 클러스터의 각 노드가 상기 데이터 수집 인터페이스에 연결하도록 제어하는 단계; 및
    상기 연결 테스트가 성공하지 않았을 경우, 데이터 수집 인터페이스 구성 파라미터를 획득하는 단계로 이동하는 단계; 를 포함하는
    데이터 처리 방법.
  8. 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하여, 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크를 얻는 어댑터 모듈;
    상기 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크에 따라, 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하고, 처리 후의 데이터를 획득하는 데이터 처리 모듈; 및
    상기 처리 후의 데이터에 대해 일괄 융합을 진행하고, 일괄 융합 후의 데이터를 획득하는 일괄 융합 모듈; 을 구비하는
    데이터 처리 장치.
  9. 제8항에 있어서,
    상기 어댑터 모듈은
    상기 클러스터의 각 노드가 수집 대상 데이터를 읽도록 제어하고, 수집 대상 데이터 샘플 및 클러스터의 모든 노드의 부하 상태를 획득하는 샘플 수집 유닛;
    수집 대상 데이터 샘플을 평가하고 품질 평가 보고서를 획득하는 데이터 평가 유닛; 및
    상기 품질 평가 보고서 및 상기 클러스터의 모든 노드의 부하 상태에 따라 데이터 수집 패턴 및 데이터 처리 모델을 어댑터하고, 상기 클러스터의 각 노드의 수집 태스크를 할당하는 어댑터 유닛; 을 구비하고,
    상기 품질 평가 보고서는 데이터 타입, 데이터 코드, 데이터 용장율, 데이터 희소성 및 데이터 전송 속도를 포함하는
    데이터 처리 장치.
  10. 제8항에 있어서,
    상기 데이터 처리 모듈은
    상기 클러스터의 각 노드가 상응한 수집 태스크에 따라 상기 수집 패턴으로 데이터 수집을 진행하도록 제어하는 데이터 수집 유닛; 및
    상기 클러스터의 각 노드가 상기 데이터 처리 모델에 따라 상기 수집된 데이터를 처리하도록 제어하고, 처리 후의 데이터를 획득하는 데이터 처리 유닛; 을 구비하는
    데이터 처리 장치.
  11. 제8항에 있어서,
    상기 일괄 융합 모듈은 데이터 획득 유닛 및 데이터 정규화 유닛, 데이터 통합 유닛, 데이터 모델링 유닛 중 하나 이상의 유닛을 구비하며,
    상기 데이터 정규화 유닛은 미리 설정한 데이터 정규화 모델에 따라 처리 후의 데이터에 대해 데이터 정규화를 진행하도록 구성되고,
    상기 데이터 통합 유닛은 미리 설정한 데이터 통합 모델에 따라 처리 후의 데이터에 대해 데이터 통합을 진행하도록 구성되며,
    상기 데이터 모델링 유닛은 미리 설정한 데이터 모델링 모델에 따라 처리 후의 데이터에 대해 데이터 모델링을 진행하도록 구성되고,
    상기 데이터 획득 유닛은 일괄 융합 후의 데이터를 획득하도록 구성되는
    데이터 처리 장치.

  12. 제8항 내지 제11항 중 어느 한 항에 있어서,
    상기 데이터 처리 장치는 상기 일괄 융합 후의 데이터를 분류 기억하는 분류 기억 모듈을 더 포함하는
    데이터 처리 장치.
  13. 제8항에 있어서,
    상기 데이터 처리 장치는 데이터 수집 인터페이스를 배치하는 인터페이스 배치 모듈을 더 포함하고,
    상기 어댑터 모듈에 의해 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하는 것은, 상기 어댑터 모듈에 의해 상기 데이터 수집 인터페이스를 통해 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하는 것을 포함하고,
    상기 데이터 처리 모듈에 의해 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하는 것은, 상기 데이터 처리 모듈에 의해 클러스터의 각 노드가 상기 데이터 수집 인터페이스를 통해 데이터 수집을 진행하도록 제어하고, 클러스터의 각 노드가 수집된 데이터에 대해 데이터 처리를 진행하도록 제어하는 것을 포함하는
    데이터 처리 장치.
  14. 제13항에 있어서,
    상기 인터페이스 배치 모듈은
    데이터 수집 인터페이스 구성 파라미터를 획득하는 파라미터 획득 유닛;
    상기 구성 파라미터에 따라 상기 데이터 수집 인터페이스의 연결 테스트를 진행하는 연결 테스트 유닛; 및
    상기 연결 테스트가 성공하였을 경우에, 상기 구성 파라미터가 포함되어 있는 데이터 수집 인터페이스 구성 파일을 클러스터의 다른 노드에 전송하고, 상기 클러스터의 각 노드를 배치하며, 상기 클러스터의 각 노드가 상기 데이터 수집 인터페이스에 연결하도록 제어하는 파일 전송 유닛; 을 구비하고,
    상기 파라미터 획득 유닛은 또한, 상기 연결 테스트가 성공하지 않았을 경우, 상기 데이터 수집 인터페이스 구성 파라미터를 획득하도록 구성되는
    데이터 처리 장치.
  15. 어댑터 프로세서, 데이터 프로세서 및 데이터 일괄 융합 프로세서를 구비하는 데이터 처리 시스템으로,
    상기 어댑터 프로세서는 수집 대상 데이터 샘플을 획득하고, 상기 수집 대상 데이터 샘플에 대해 전처리를 진행하여, 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크를 얻도록 구성되고,
    상기 데이터 프로세서는 상기 데이터 수집 패턴, 데이터 처리 모델 및 클러스터의 각 노드의 수집 태스크에 따라, 클러스터의 각 노드가 데이터 수집 및 데이터 처리를 진행하도록 제어하고, 처리 후의 데이터를 획득하도록 구성되며,
    상기 데이터 일괄 융합 프로세서는 상기 처리 후의 데이터에 대해 일괄 융합을 진행하고, 일괄 융합 후의 데이터를 획득하도록 구성되는
    데이터 처리 시스템.
  16. 제15항에 있어서,
    데이터 수집 인터페이스를 배치하는 데이터 수집 인터페이스 어댑터;
    상기 일괄 융합 후의 데이터를 분류 기억하는 데이터 분류 메모리; 및
    시스템 매니저; 를 더 구비하고,
    상기 시스템 매니저는
    상기 데이터 수집 인터페이스 구성 파일, 데이터 수집 인터페이스의 연결 테스트 결과, 수집 대상 데이터 샘플, 품질 평가 보고서 및 클러스터의 모든 노드의 부하 상태를 관리하는 데이터 관리 모듈;
    상기 수집 대상 데이터 샘플, 데이터 수집, 데이터 처리, 데이터 일괄 융합 및 데이터 기억, 클러스터 리소스 소모 상태를 관리하고, 상기 클러스터의 모든 노드의 부하 균형을 제어하는 리소스 관리 모듈;
    데이터 수집 인터페이스 구성 템플릿, 데이터 평가 템플릿, 데이터 수집 템플릿, 데이터 처리 모델, 데이터 정규화 모델, 데이터 통합 모델 및 데이터 모델링 모델을 관리하는 모델 관리 모듈; 및
    데이터 수집 인터페이스의 배치, 수집 대상 데이터 샘플의 읽기, 데이터 평가, 데이터 처리, 데이터 일괄 융합 및 데이터 기억 프로세스를 모니터링하고, 데이터 수집 인터페이스의 배치, 수집 대상 데이터 샘플의 읽기, 데이터 평가, 데이터 처리, 데이터 일괄 융합 및 데이터 기억 프로세스의 완료 상태, 중간 오류 및 이상을 기록하고 처리하는 프로세스 모니터링 모듈; 을 구비하는
    데이터 처리 시스템.
KR1020187001533A 2015-07-15 2016-06-12 데이터 처리 방법, 장치, 시스템, 프로그램 및 컴퓨터 판독가능한 기록매체 KR102125219B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510417386.0A CN106708815B (zh) 2015-07-15 2015-07-15 数据处理方法、装置和系统
CN201510417386.0 2015-07-15
PCT/CN2016/085487 WO2017008604A1 (zh) 2015-07-15 2016-06-12 数据处理方法、装置和系统

Publications (2)

Publication Number Publication Date
KR20180017198A true KR20180017198A (ko) 2018-02-20
KR102125219B1 KR102125219B1 (ko) 2020-06-23

Family

ID=57757781

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187001533A KR102125219B1 (ko) 2015-07-15 2016-06-12 데이터 처리 방법, 장치, 시스템, 프로그램 및 컴퓨터 판독가능한 기록매체

Country Status (6)

Country Link
US (1) US20180225346A1 (ko)
EP (1) EP3324304A1 (ko)
JP (1) JP6659820B2 (ko)
KR (1) KR102125219B1 (ko)
CN (1) CN106708815B (ko)
WO (1) WO2017008604A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020139074A1 (en) * 2018-12-26 2020-07-02 Mimos Berhad System and method for monitoring data errors in extract, transform and load (etl) flow

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107070748A (zh) * 2017-04-13 2017-08-18 周发辉 一种通信大数据的处理系统及方法
CN107229474B (zh) * 2017-05-31 2020-12-25 成都药王科技股份有限公司 基于可视化界面快速配置Java接口和图表服务的方法及装置
CN108170722A (zh) * 2017-12-07 2018-06-15 深圳市华力特电气有限公司 一种统计任务控制系统和方法
US11432982B2 (en) 2018-03-26 2022-09-06 Augustine Biomedical + Design, LLC Relocation module and methods for surgical equipment
US11426318B2 (en) * 2020-05-20 2022-08-30 Augustine Biomedical + Design, LLC Medical module including automated dose-response record system
CN108509595A (zh) * 2018-04-02 2018-09-07 深圳市华傲数据技术有限公司 异构数据的整理方法、装置、存储介质及设备
CN110519316A (zh) * 2018-05-22 2019-11-29 山东数盾信息科技有限公司 一种实现基于arm平台的集群资源监控方法
CN109067565A (zh) * 2018-07-03 2018-12-21 深圳市脉山龙信息技术股份有限公司 一种用于异构时序运维数据的融合计算方法和装置
CN109635311A (zh) * 2018-10-24 2019-04-16 中国电子科技集团公司第二十八研究所 一种基于dds的仿真试验数据采集系统
CN110113421A (zh) * 2019-05-08 2019-08-09 西南民族大学 一种基于物联网的大数据信息处理系统
CN110415027B (zh) * 2019-07-16 2023-05-26 上海金融期货信息技术有限公司 一种大数据行情平台系统
CN111209943B (zh) * 2019-12-30 2020-08-25 广州高企云信息科技有限公司 数据融合方法、装置及服务器
CN111158918B (zh) * 2019-12-31 2022-11-11 深圳大学 支撑点并行枚举负载均衡方法、装置、设备及介质
CN111522801A (zh) * 2020-03-25 2020-08-11 平安科技(深圳)有限公司 分布式的数据库动态扩容方法、装置、设备及存储介质
CN111581281A (zh) * 2020-04-24 2020-08-25 贵州力创科技发展有限公司 一种数据融合方法和装置
CN111815146B (zh) * 2020-07-02 2021-04-06 上海微亿智造科技有限公司 生成用于模拟质检机的测试数据的方法及系统
CN111914274A (zh) * 2020-07-30 2020-11-10 南京中诚区块链研究院有限公司 一种基于多信息来源的全流程区块链系统
CN111914015A (zh) * 2020-08-25 2020-11-10 河北时代电子有限公司 一种基于工业协议的多源数据网关数据分析预警系统
CN112395281B (zh) * 2020-12-10 2021-05-11 太极计算机股份有限公司 一种异构多源数据融合系统
CN112802500B (zh) * 2020-12-31 2022-08-12 周凯 一种面向多源异构文旅大数据的分布式全息数据存储装置
CN112860553A (zh) * 2021-02-05 2021-05-28 北京迈格威科技有限公司 模型测试方法、装置、分布式集群、电子设备及存储介质
CN113836130B (zh) * 2021-09-28 2024-05-10 深圳创维智慧科技有限公司 数据质量评估方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090035545A (ko) * 2006-07-26 2009-04-09 마이크로소프트 코포레이션 초대형 데이터베이스 상의 데이터 처리
US20130268650A1 (en) * 2012-04-04 2013-10-10 Yakov Faitelson Enterprise level data collection systems and methodologies
JP2014137709A (ja) * 2013-01-17 2014-07-28 Hitachi Solutions Ltd 計算機システム
KR20150061864A (ko) * 2013-11-28 2015-06-05 한국전자통신연구원 대용량 순차 수집 데이터 처리를 위한 프레임워크 제공장치 및 이의 데이터 처리방법

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6701324B1 (en) * 1999-06-30 2004-03-02 International Business Machines Corporation Data collector for use in a scalable, distributed, asynchronous data collection mechanism
JP5525673B2 (ja) * 2000-09-28 2014-06-18 オラクル・インターナショナル・コーポレイション エンタープライズウェブマイニングシステム及び方法
JP2011139149A (ja) * 2009-12-25 2011-07-14 Toshiba Corp 電話交換装置及びミラーリング制御方法
CN101820384A (zh) * 2010-02-05 2010-09-01 浪潮(北京)电子信息产业有限公司 一种集群服务动态分配方法及装置
US9852176B2 (en) * 2010-09-03 2017-12-26 Vocus, Inc. Dynamic gathering of social media content
JP5775481B2 (ja) * 2012-03-29 2015-09-09 株式会社日立製作所 情報処理システム及びその処理方法
JP5933410B2 (ja) * 2012-10-25 2016-06-08 株式会社日立製作所 データベース分析装置及びデータベース分析方法
CN103023970B (zh) * 2012-11-15 2015-07-22 中国科学院计算机网络信息中心 一种物联网海量数据存储方法及系统
JP2015032173A (ja) * 2013-08-05 2015-02-16 株式会社日立製作所 行動推定システム
CN103944777B (zh) * 2014-03-26 2017-08-25 广州杰赛科技股份有限公司 分布式监控系统信息处理方法和系统
CN104021194A (zh) * 2014-06-13 2014-09-03 浪潮(北京)电子信息产业有限公司 一种面向行业大数据多样性应用的混合型处理系统及处理方法
CN104270402A (zh) * 2014-08-25 2015-01-07 浪潮电子信息产业股份有限公司 一种异构集群存储自适应数据负载的方法
CN104463465B (zh) * 2014-12-05 2019-01-04 国家电网公司 一种基于分布式模型的实时监控集群处理方法
CN104765765B (zh) * 2015-02-15 2017-10-24 浙江邦盛科技有限公司 一种基于时间窗口可移动的动态数据快速处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090035545A (ko) * 2006-07-26 2009-04-09 마이크로소프트 코포레이션 초대형 데이터베이스 상의 데이터 처리
US20130268650A1 (en) * 2012-04-04 2013-10-10 Yakov Faitelson Enterprise level data collection systems and methodologies
JP2014137709A (ja) * 2013-01-17 2014-07-28 Hitachi Solutions Ltd 計算機システム
KR20150061864A (ko) * 2013-11-28 2015-06-05 한국전자통신연구원 대용량 순차 수집 데이터 처리를 위한 프레임워크 제공장치 및 이의 데이터 처리방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Surajit Chaudhuri 외, "An Overview of Data Warehousing and OLAP Technology", Apperars in ACM sigmod Record, 1997.03.01* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020139074A1 (en) * 2018-12-26 2020-07-02 Mimos Berhad System and method for monitoring data errors in extract, transform and load (etl) flow

Also Published As

Publication number Publication date
EP3324304A4 (en) 2018-05-23
JP6659820B2 (ja) 2020-03-04
CN106708815A (zh) 2017-05-24
CN106708815B (zh) 2021-09-17
JP2018524733A (ja) 2018-08-30
US20180225346A1 (en) 2018-08-09
KR102125219B1 (ko) 2020-06-23
WO2017008604A1 (zh) 2017-01-19
EP3324304A1 (en) 2018-05-23

Similar Documents

Publication Publication Date Title
KR102125219B1 (ko) 데이터 처리 방법, 장치, 시스템, 프로그램 및 컴퓨터 판독가능한 기록매체
CN110221962B (zh) 一种集中式软件测试管理系统及方法
Lockwood et al. A year in the life of a parallel file system
EP3806432A1 (en) Method for changing service on device and service changing system
Lu et al. Speedup your analytics: Automatic parameter tuning for databases and big data systems
CN108345544B (zh) 一种基于复杂网络的软件缺陷分布影响因素分析方法
CN108595306B (zh) 一种面向混部云的服务性能测试方法
US10042611B2 (en) Stream operator management
CN111241129B (zh) 一种工业生产企业指标数据采集与计算的系统
US20210065083A1 (en) Method for changing device business and business change system
CN106850330B (zh) 智能化的云桌面性能测试系统及方法
CN110740079A (zh) 一种面向分布式调度系统的全链路基准测试系统
CN104573977A (zh) 一种质量数据管理系统与方法
US12019059B2 (en) Detecting equipment defects using lubricant analysis
CN109933515B (zh) 一种回归测试用例集的优化方法和自动优化装置
CN111858713A (zh) 基于对象的政府信息化资产管理方法及系统
Poggi et al. ALOJA: A systematic study of hadoop deployment variables to enable automated characterization of cost-effectiveness
CN108108296A (zh) 一种云测试方法、服务器及客户端
CN104123397A (zh) Web页面的自动化测试装置及方法
Nunes et al. State of the art on microservices autoscaling: An overview
CN104461832B (zh) 一种监控应用服务器资源的方法及装置
CN113742227A (zh) 一种软件测试过程的控制方法、装置、设备和介质
CN113506098A (zh) 基于多源数据的电厂元数据管理系统及方法
CN111626896B (zh) 一种建筑工程质量检测数据自动采集和信息管理系统
CN110750582A (zh) 数据处理方法、装置和系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant