KR20190020801A

KR20190020801A - 분산 컴퓨팅 프레임워크 및 분산 컴퓨팅 방법

Info

Publication number: KR20190020801A
Application number: KR1020197002252A
Authority: KR
Inventors: 지안웨이 장; 운종 장; 충 왕; 야오 수; 춘양 원; 신 후앙; 잔 송; 관인 주
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2016-09-21
Filing date: 2016-10-14
Publication date: 2019-03-04
Also published as: JP6781820B2; KR102172138B1; JP2019527441A; EP3480693A4; US20190213188A1; US11132363B2; CN106406985B; EP3480693A1; CN106406985A; WO2018053889A1

Abstract

본 출원은 분산 컴퓨팅 프레임워크 및 분산 컴퓨팅 방법을 개시한다. 일 구현 방법에 의하면, 이러한 분산 컴퓨팅 프레임워크는 분산 컴퓨팅 태스크의 표현식을 파싱하고 연산자 및 연산자에 대응하는 필드를 확정하기 위해 구성되는 파싱 유닛; 및 연산자를 제공하기 위해 구성되고, 연산자의 입력 파라미터는 필드 및 필드 타입 분산 데이터 집합을 포함하는 연산자 유닛을 포함한다. 이로 인하여, 임의의 연산자가 수신하거나 반환한 파라미터의 유형은 모두 필드 타입 분산 데이터 집합일 수가 있게 되고, 임의의 연산자는 모두 필드 타입 분산 데이터 집합에서 필드에 대응하는 데이터에 대하여 작업할 수 있게 된다. 이로써, 임의의 연산자는 한 번의 구현을 하고 나서 연산자의 재사용이 가능하게 된다. 분산 컴퓨팅 태스크를 더 간단한 표현식으로 나타내어 표현함으로써, 사용자가 분산 컴퓨팅 프레임워크를 이용하여 분산 컴퓨팅 프로그램을 작성하는 복잡성을 간소화하였고, 나아가, 표현식을 통하여 분산 컴퓨팅에 관련되는 연산자를 확정할 수 있어서 분산 컴퓨팅 과정을 최적화할 수 있다.

Description

분산 컴퓨팅 프레임워크 및 분산 컴퓨팅 방법

본 출원은 컴퓨터 분야에 관한 것으로, 구체적으로 분산 분야에 관한 것이고, 특히 분산 컴퓨팅 프레임워크 및 분산 컴퓨팅 방법에 관한 것이다.

분산 컴퓨팅 프로그램 개발에서 사용자는 분산 컴퓨팅 프레임워크로부터 제공된 인터페이스, 예를 들면 분산 컴퓨팅 프레임워크 Hive의 SQL-like 인터페이스, 분산 컴퓨팅 프레임워크 Spark의 DataFrame 인터페이스를 이용하여, 분산 컴퓨팅 프로그램을 작성할 수 있다.

그러나 현재 분산 프레임워크가 제공하는 인터페이스는, 일 측면으로는 연산자의 재사용을 실현할 수 없다. DataFrame 인터페이스를 예로 들어 설명하면, max/min/count 등의 UDF 제공이 필요하고, 이러한 UDF는 모두 스탠드얼론 데이터 집합을 프로세싱하는 것으로, 기존의 sum/count 등 작업은 재사용할 수 없다. 필드에서 가능한 작업도 극히 제한적이고, 이미 사용자에 의하여 구현된 연산자는 일정 필드에서의 사용이 필요할지라도 재사용될 수 없다. 다른 측면으로, 일부 분산 컴퓨팅에서 흔히 보는 분산 컴퓨팅 태스크에 대한 설명에 불편이 따른다. SQL-like 인터페이스를 예로 들면, SQL-like 인터페이스는 중첩된 데이터 집합에 대한 컨셉이 결여되므로, 데이터를 어느 한 필드에 따라 그룹화하고 각각의 그룹으로부터 어느 한 필드에서의 제일 큰 n개의 기록을 추출하는 것과 같은 분산 컴퓨팅 태스크를 프로세싱할 시, 표현식 select field_1, field_2 from table_1 group by field1 order by field_2 desc limit 10을 사용하게 되면 사실은 전역에서 10개의 기록을 추출하는 것이지 각각의 그룹에서 10개의 기록을 추출하는 것이 아니다. 표현식 select field_1, field_2 from table_1 group by field_1 limit 10 order by field_2 desc를 사용하게 되면 이러한 표현식은 SQL 문법에 맞지 않으므로 분산 컴퓨팅 태스크를 설명할 수 없게 된다.

본 출원은 상기 배경기술 부분에 존재하는 기술적 문제를 해결하기 위한 분산 컴퓨팅 프레임워크 및 분산 컴퓨팅 방법을 제공하고자 한다.

첫 번째 측면으로, 본 출원은 분산 컴퓨팅 프레임워크를 제공하고, 이러한 분산 컴퓨팅 프레임워크에는 분산 컴퓨팅 태스크의 표현식을 파싱하고 연산자 및 연산자에 대응하는 필드를 확정하기 위해 구성되고, 여기서 필드는 연산자가 작용하는 분산 데이터 집합의 데이터의 속성을 가리키는 파싱 유닛; 및 연산자를 제공하기 위해 구성되고, 연산자의 입력 파라미터는 필드 및 필드 타입 분산 데이터 집합을 포함하고 여기서 필드 타입 분산 데이터 집합은 적어도 하나의 요소를 포함하고 요소는 복수의 키-값 쌍을 포함하고 키-값 쌍의 키는 필드이고 값은 분산 데이터 집합에서 필드에 대응하는 데이터인 연산자 유닛이 포함된다.

두 번째 측면으로, 본 출원은 분산 컴퓨팅 방법을 제공하고, 이러한 방법은 분산 컴퓨팅 태스크의 표현식을 파싱하고 연산자 및 연산자에 대응하는 필드를 확정하되, 여기서 필드는 연산자가 작용하는 분산 데이터 집합의 데이터의 속성을 가리키는 단계; 연산자의 입력 파라미터를 생성하되, 연산자의 입력 파라미터는 필드 및 필드 타입 분산 데이터 집합을 포함하며, 여기서 필드 타입 분산 데이터 집합은 적어도 하나의 요소를 포함하고 요소는 복수의 키-값 쌍을 포함하고 키-값 쌍의 키는 필드이고 값은 분산 데이터 집합에서 필드에 대응하는 데이터인 단계; 및 연산자가 입력 파라미터에 근거하여 분산 컴퓨팅을 수행하는 단계를 포함한다.

본 출원에서 제공하는 분산 컴퓨팅 프레임워크 및 분산 컴퓨팅 방법은, 분산 컴퓨팅 태스크의 표현식을 파싱하고 연산자 및 연산자에 대응하는 필드를 확정하기 위해 구성되는 파싱 유닛 및 연산자를 제공하고 연산자의 입력 파라미터는 필드 및 필드 타입 분산 데이터 집합을 포함하는 연산자 유닛을 통하여, 임의의 연산자가 수신하거나 반환한 파라미터의 유형은 모두 필드 타입 분산 데이터 집합일 수 있고 임의의 연산자는 모두 필드 타입 분산 데이터 집합에서 필드에 대응하는 데이터에 대하여 작업할 수 있도록 구현하였다. 이로써 임의의 연산자는 한 번의 구현을 하고 나서 연산자의 재사용이 가능하게 된다. 분산 컴퓨팅 태스크를 더 간단한 표현식으로 나타내어 표현함으로써 사용자가 분산 컴퓨팅 프레임워크를 이용하여 분산 컴퓨팅 프로그램을 작성하는 복잡성을 간소화하였고, 나아가, 표현식을 통하여 분산 컴퓨팅에 관련되는 연산자를 확정할 수 있어서 분산 컴퓨팅 과정을 최적화할 수 있다.

이하 첨부 도면과 결부되어 제시되는 실시예에 대한 상세한 설명은 본원의 기타 특징, 목적 및 장점을 더 명확하게 보여준다.
도1은 본원의 일 실시예에 따른 분산 컴퓨팅 프레임워크의 구조 개략도이다.
도2는 본원의 일 실시예에 따른 분산 컴퓨팅 방법의 흐름도이다.
도3은 본원의 실시예에 따른 분산 컴퓨팅 프레임워크를 구현하기에 적합한 컴퓨터 시스템의 구조 개략도이다.

이하 첨부된 도면 및 실시예와 결부하여 본원에 대하여 더 상세히 설명하도록 한다. 여기 설명되는 구체적인 실시예는 단지 관련 발명에 대한 해석을 위한 것으로 본 발명에 대하여 한정하려는 의도가 아님을 이해하여야 한다. 또한, 설명의 편의를 위하여 첨부 도면에는 관련 발명에 관한 부분만 도시함을 밝히고자 한다.

본원의 실시예 및 실시예의 특징은 서로 모순되지 않는 한 상호 조합되어 실시될 수 있음을 밝히고자 한다. 이하, 첨부된 도면과 실시예를 참조하여 본원에 대하여 상세히 설명하도록 한다.

도1은 본원의 일 실시예에 따른 분산 컴퓨팅 프레임워크의 구조 개략도를 도시한 것이다. 분산 컴퓨팅 프레임워크(100)는 파싱 유닛(101) 및 연산자 유닛(102)을 포함한다. 파싱 유닛(101)은 분산 컴퓨팅 태스크의 표현식을 파싱하고 연산자 및 연산자에 대응하는 필드를 확정하기 위해 구성되고, 여기서 필드는 연산자가 작용하는 분산 데이터 집합의 데이터의 속성을 가리키며; 연산자 유닛(102)은 연산자를 제공하기 위해 구성되고, 연산자의 입력 파라미터는 필드 및 필드 타입 분산 데이터 집합을 포함하고, 필드 타입 분산 데이터 집합은 적어도 하나의 요소를 포함하고, 요소는 복수의 키-값 쌍을 포함하고, 키-값 쌍의 키는 필드이고 값은 분산 데이터 집합에서 필드에 대응하는 데이터이다.

본 실시예에서, 분산 컴퓨팅 태스크는 표현식을 이용하여 표현할 수 있다. 분산 컴퓨팅 태스크의 표현식은 각각의 연산자에 대응하는 연산자 키워드 및 연산자가 작용하는 분산 데이터 집합의 데이터의 속성을 가리키는 필드에 대응하는 필드 키워드를 포함할 수 있다. 파싱 유닛은 표현식 중의 연산자 키워드 및 필드 키워드를 파싱하고 연산자 및 연산자에 대응하는 필드를 확정할 수 있다.

웹사이트 클릭 수 데이터가 분산 컴퓨팅 태스크에 필요한 데이터인 경우를 예로 들어 설명하면, 웹사이트 클릭 수 데이터는 웹사이트 데이터와 클릭 수 데이터 두 부분을 포함한다. 연산자는 웹사이트 데이터와 클릭 수 데이터에 작용할 수 있다. 분산 컴퓨팅 태스크의 표현식은 연산자 키워드 및 필드 키워드를 포함할 수 있다. 파싱 유닛은 분산 컴퓨팅 태스크의 표현식 중의 연산자 키워드 및 필드 키워드에 대한 파싱을 통하여 연산자 및 연산자에 대응하는 필드, 즉 웹사이트 필드 및 클릭 수 필드를 확정할 수 있다.

본 실시예에서, 분산 컴퓨팅 프레임워크는 필드 타입 분산 데이터 집합 SchemaPCollection을 제공할 수 있다. 데이터 구조 PCollection은 분산 데이터 집합을 나타낼 수 있다. SchemaPCollection 데이터 구조는 구조화된, 필드를 갖춘 PCollection을 표시할 수 있다. SchemaPCollection 데이터 구조는 각각의 요소가 하나의 사전이 되는 PCollection에 상당할 수 있다. 연산자 유닛이 제공하는 각각의 연산자의 입력 파라미터는 SchemaPCollection 및 필드를 포함할 수 있고, 반환 값의 유형은 SchemaPCollection일 수도 있다.

본 실시예의 일부 선택 가능한 구현방법에 있어서, 연산자 유닛은 필드에 근거하여 분산 컴퓨팅 태스크에 필요한 데이터에 대응하는 분산 데이터 집합을 필드 타입 분산 데이터 집합으로 전환하기 위해 구성되는 필드 타입 분산 데이터 집합 생성 연산자를 포함하고, 필드 타입 분산 데이터 집합 중의 요소는 복수의 키-값 쌍을 포함하고, 여기서 각각의 키-값 쌍의 키는 하나의 필드이고 값은 분산 데이터 집합에서 필드에 대응하는 데이터이다.

웹사이트 클릭 수 데이터가 분산 컴퓨팅 태스크에 필요한 데이터인 경우를 예로 들어 설명하면, 각 조각의 데이터는 복수의 웹사이트와 클릭 수 두 부분을 포함한다. 분산 컴퓨팅 태스크에 필요한 데이터는 PCollection일 수 있다. 필드 타입 분산 데이터 집합 생성 연산자는 웹사이트 필드 및 클릭 수 필드를 포함하는 필드 파라미터를 수신하여 분산 컴퓨팅 태스크에 필요한 데이터에 대응하는 SchemaPCollection을 생성할 수 있다. 분산 컴퓨팅 태스크에 필요한 데이터에 대응하는 SchemaPCollection 중의 각각의 요소가 하나의 사전이 될수 있고, 이러한 사전은 복수의 키-값 쌍으로 이루어지고, 키는 웹사이트 집합, 클릭 수일 수 있다. 키 웹사이트 집합에 대응하는 값은 복수의 웹사이트이고, 키 클릭 수에 대응하는 값은 클릭 수 데이터이다.

본 실시예의 일부 선택 가능한 구현방법에 있어서, 연산자 유닛은, 필드 타입 분산 데이터 집합 중의 각각의 요소 중의 부동한 키를 가진 키-값 쌍을 조합하여 각각의 요소가 키가 서로 다른 키-값 쌍을 포함하는 필드 타입 분산 데이터 집합을 얻기 위해 구성되는 스플라이스 연산자를 포함한다.

본 실시예의 일부 선택 가능한 구현방법에 있어서, 연산자 유닛은, 필드 타입 분산 데이터 집합 중의 요소 중의 그룹화 필드가 가리키는 키에 대응하는 값에 근거하여 필드 타입 분산 데이터 집합 중의 요소를 그룹화하여 복수의 그룹화된 필드 타입 분산 데이터 집합을 얻고 여기서 각각의 그룹화 필드가 가리키는 키에 대응하는 값은 하나의 그룹화된 필드 타입 분산 데이터 집합에 대응하고 그룹화된 필드 타입 분산 데이터 집합은 그룹화 필드가 가리키는 키에 대응하는 값을 포함하는 요소를 적어도 하나 포함하는 것을 구현하기 위해 구성된 그룹화 연산자를 포함한다.

본 실시예의 일부 선택 가능한 구현방법에 있어서, 연산자 유닛은, 순회 필드에 근거하여 필드 타입 분산 데이터 집합 중의 모든 요소 중의 순회 필드가 가리키는 키에 대응하는 값에 대하여 작업을 수행하기 위해 구성되는 순회 연산자를 포함한다.

본 실시예의 일부 선택 가능한 구현방법에 있어서, 집계 연산자(Aggregation Operator)는 필드 타입 분산 데이터 집합 중의 모든 요소 중의 순회 필드가 가리키는 키에 대응하는 값에 대하여 작업을 수행하여 얻은 결과를 집계를 하기 위해 구성된 것이다.

본 실시예에서, 연산자 유닛은 스플라이스 연산자 select연산자 및 집계 연산자 agg연산자를 포함할 수 있다. 분산 컴퓨팅 프레임워크는 사용자한테 select연산자 및 agg연산자에 대응하는 select 인터페이스 및 agg 인터페이스를 제공할 수 있다. select 인터페이스 및 agg 인터페이스 외에 추가로 보조 인터페이스, 예를 들면 join 인터페이스, distinct 인터페이스 및 sort_by 인터페이스를 패키징할 수가 있다.

본 실시예에서는, select 인터페이스 및 agg 인터페이스를 통하여 SchemaPCollection에 대하여 프로세싱할 수 있다. 이로써, 분산 컴퓨팅 프레임워크에 기존하고 PCollection에 작용하는 여러 가지 인터페이스를 재사용할 수 있고, select 인터페이스 및 agg 인터페이스는 PCollection에 작용하는 임의의 기존하는 여러 가지 인터페이스와 조합하여 여러 가지 분산 컴퓨팅 태스크를 수행할 수 있는 작업을 구성하고 완전한 기능을 구현할 수 있다.

이하 코드와 결부하여 본 출원의 분산 컴퓨팅 프레임워크로부터 제공되는 연산자의 작용에 대하여 설명한다.

분산 컴퓨팅 태스크에 필요한 데이터는 이하 웹사이트 클릭 수 데이터인 ('alibaba.com, baidu.com, tencent.com', 1), ('baidu.com, tencent.com', 2), ('alibaba.com, tencent.com', 3), ('alibaba.com, baidu.com', 2), ('alibaba.com, jd.com', 1)이다. 분산 컴퓨팅 태스크는 웹사이트에 따라 그룹화를 수행하고 각각의 웹사이트의 클릭 수의 총 합계, 클릭 수의 최대치 및 클릭 수의 평균치를 산출하는 것이다.

상기 분산 컴퓨팅 태스크의 수행에 사용될 수 있는 일부 코드는 다음과 같다.

p = base.Pipeline.create('local')

analytics = p.parallelize([('alibaba.com, baidu.com, tencent.com', 1), ('baidu.com, tencent.com', 2), ('alibaba.com, tencent.com', 3), ('alibaba.com, baidu.com', 2), ('alibaba.com, jd.com', 1)])\

.apply(schema.from_tuple, ['websites', 'clicknum'])

.apply(schema.select, lambda cols: {

'website': cols['websites'].flat_map(lambda line: line.split(', ')),

'clicknum': cols['clicknum']

})

.apply(schema.group_by, ['website'])\

.apply_values(schema.agg, lambda cols: {

'max_click_num': cols['clicknum'].max(),

'sum_click_num': cols['clicknum'].flat_map(lambda x: x['x']),

'avg_click_num': cols['clicknum'].sum() / cols['clicknum'].count()

})

본 실시예에서, 각각의 한줄 코드는 하나의 표현식에 상당할 수 있고, 사용자는 표현식의 형식으로 분산 컴퓨팅 태스크의 코드를 작성할 수 있다. 분산 컴퓨팅 프레임워크는 하나의 apply문법 설탕을 제공할 수 있고, apply문법 설탕의 의미는 다음과 같을 수 있다.

.apply(f, *args)는 f(pcollection, *args)에 등가된다.

분산 컴퓨팅 태스크에 필요한 데이터인 ('alibaba.com, baidu.com, tencent.com', 1), ('baidu.com, tencent.com', 2), ('alibaba.com, tencent.com', 3), ('alibaba.com, baidu.com', 2) 및 ('alibaba.com, jd.com', 1)는 하나의 분산 데이터 집합 PCollection이다.

상기 코드 중의 .apply(schema.from_tuple, ['websites', 'clicknum'])에 대하여, 파싱 유닛은 연산자 키워드 from_tuple에 근거하여 필드 타입 분산 데이터 집합 생성 연산자를 확정할 수 있다. 필드 websites 및 clicknum은 필드 키워드 websites 및 clicknum을 통하여 확정될 수 있다. 필드 타입 분산 데이터 집합 생성 연산자는 필드 websites 및 필드clicknum에 근거하여 분산 컴퓨팅 태스크에 필요한 데이터에 대응하는 PCollection을 필드 websites 및 clicknum에 따라서 필드 타입 분산 데이터 집합 SchemaPCollection으로 전환할 수 있다. SchemaPCollection에는 복수의 요소가 포함되고 각각의 요소는 복수의 키-값 쌍을 포함하고, 여기서 각각의 키-값 쌍의 키는 하나의 필드이고 값은 PCollection에서 필드에 대응하는 데이터이다. 전환으로 얻은 SchemaPCollection은 5개의 요소를 포함하고 각각의 요소는 사전일 수 있다. 사전에는 키 websites와 websites에 대응하는 값으로 구성된 키-값 쌍 및 키 clicknum과 clicknum에 대응하는 값으로 구성된 키-값 쌍이 포함된다.

첫 번째 요소에는 키-값 쌍websites-alibaba.com, baidu.com, tencent.com 및 키-값 쌍clicknum-1이 포함된다.

두 번째 요소에는 키-값 쌍websites-baidu.com, tencent.com 및 키-값 쌍clicknum-2가 포함된다.

세 번째 요소에는 키-값 쌍websites-alibaba.com, tencent.com 및 키-값 쌍clicknum-3가 포함된다.

네 번째 요소에는 키-값 쌍websites-alibaba.com, baidu.com 및 키-값 쌍clicknum-2가 포함된다.

다섯 번째 요소에는 키-값 쌍websites-alibaba.com, jd.com 및 키-값 쌍clicknum-1이 포함된다.

상기 코드 중의 .apply(schema.select, lambda cols: {'website': cols['websites'].flat_map(lambda line: line.split(', ')), 'clicknum': cols['clicknum']})에 대하여, 파싱 유닛은 연산자 키워드 select에 근거하여 스플라이스 연산자를 확정할 수 있다. 필드 website 및 clicknum은 필드 키워드에 근거하여 확정될 수 있다.

SchemaPCollection 에서의 각각의 요소 중의 키 websites에 대하여, flat_map연산자를 적용하여 키 websites에 대응하는 값을 쉼표에 따라 분할하여 키 website 및 키 website에 대응하는 값으로 구성된 키-값 쌍을 얻는다.

키 websites에 대응하는 값을 쉼표에 따라 분할한 후, SchemaPCollection 중의 요소는 키 website와 키 website에 대응하는 값으로 구성된 키-값 쌍, 그리고 키 clicknum과 키 clicknum에 대응하는 값으로 구성된 키-값 쌍을 포함하게 된다.

첫 번째 요소는 키-값 쌍website-alibaba.com, 키-값 쌍website-baidu.com, 키-값 쌍website-tencent.com, 키-값 쌍clicknum-1이다.

두 번째 요소는 키-값 쌍website-baidu.com, 키-값 쌍website-tencent.com, 키-값 쌍clicknum-2이다.

세 번째 요소는 키-값 쌍website-alibaba.com, 키-값 쌍website-tencent.com, 키-값 쌍clicknum-3이다.

네 번째 요소는 키-값 쌍website-alibaba.com, 키-값 쌍website-baidu.com, 키-값 쌍clicknum-2이다.

다섯 번째 요소는 키-값 쌍website-alibaba.com, 키-값 쌍website-jd.com, 키-값 쌍clicknum-1이다.

본 실시예에서, 스플라이스 연산자는 필드 타입 분산 데이터 집합 중의 각각의 요소 중 부동한 키를 가진 키-값 쌍을 조합하여 각각의 요소가 키가 서로 다른 키-값 쌍을 포함하는 필드 타입 분산 데이터 집합을 얻는다.

스플라이스 연산자는 각각의 요소 중의 키 website에 대응하는 키-값 쌍과 키 clicknum에 대응하는 키-값 쌍을 조합하여 각각의 요소가 하나의 website에 대응하는 키-값 쌍 및 하나의 키 clicknum에 대응하는 키-값 쌍을 포함하는 SchemaPCollection을 얻을 수 있다.

각각의 요소 중의 키 website에 대응하는 키-값 쌍과 키 clicknum에 대응하는 키-값 쌍을 조합한 후, SchemaPCollection에서의

첫 번째 요소는 키-값 쌍website-alibaba.com과 키-값 쌍clicknum-1이다.

두 번째 요소는 키-값 쌍website-baidu.com과 키-값 쌍clicknum-1이다.

세 번째 요소는 키-값 쌍website-tencent.com과 키-값 쌍clicknum-1이다.

네 번째 요소는 키-값 쌍website-baidu.com과 키-값 쌍clicknum-2이다.

다섯 번째 요소는 키-값 쌍website-tencent.com과 키-값 쌍clicknum-2이다.

여섯 번째 요소가 키-값 쌍website-alibaba.com과 키-값 쌍clicknum-3이다.

일곱 번째 요소가 키-값 쌍website-tencent.com과 키-값 쌍clicknum-3이다.

여덟 번째 요소가 키-값 쌍website-alibaba.com과 키-값 쌍clicknum-2이다.

아홉 번째 요소가 키-값 쌍website-baidu.com과 키-값 쌍clicknum-2이다.

열 번째 요소가 키-값 쌍website-alibaba.com과 키-값 쌍clicknum-1이다.

열한 번째 요소가 키-값 쌍website-jd.com과 키-값 쌍clicknum-1이다.

상기 코드 중의 .apply(schema.group_by, ['website'])에 대하여, 파싱 유닛은 그룹화 연산자 키워드 group_by에 근거하여 그룹화 연산자를 확정할 수 있다. 필드 website는 필드 키워드 website에 근거하여 확정될수 있다.

본 실시예에서, 그룹화 연산자는 그룹화 필드 website가 가리키는 키 website에 대응하는 값에 근거하여 SchemaPCollection 중의 요소를 그룹화하여 복수의 그룹화된 SchemaPCollection을 얻을 수 있고, 각각의 그룹화 필드가 가리키는 키 website에 대응하는 값은 하나의 그룹화된 SchemaPCollection에 대응하고, 그룹화된 SchemaPCollection은 그룹화 필드가 가리키는 키 website에 대응하는 값을 포함하는 요소를 적어도 하나 포함한다.

그룹화 연산자는 키 website에 대응하는 값이 동일한 요소를 집계하여 키 website에 대응하는 값이 동일한 키-값 쌍을 복수 개 포함하는 그룹화된 SchemaPCollection을 얻을 수 있다.

첫 번째 그룹화된 SchemaPCollection에는 키-값 쌍website-baidu.com과 키-값 쌍clicknum-1, 키-값 쌍website-baidu.com과 키-값 쌍clicknum-2, 그리고 키-값 쌍website-baidu.com과 키-값 쌍clicknum-2가 포함된다.

두 번째 그룹화된 SchemaPCollection에는 키-값 쌍website-tencent.com과 키-값 쌍clicknum-1, 키-값 쌍website-tencent.com과 키-값 쌍clicknum-2, 그리고 키-값 쌍website-tencent.com과 키-값 쌍clicknum-3가 포함된다.

세 번째 그룹화된 SchemaPCollection에는 키-값 쌍website-alibaba.com과 키-값 쌍clicknum-1, 키-값 쌍website-alibaba.com과 키-값 쌍clicknum-3, 키-값 쌍website-alibaba.com과 키-값 쌍clicknum-2, 그리고 키-값 쌍website-alibaba.com과 키-값 쌍clicknum-1이 포함된다.

네 번째 그룹화된 SchemaPCollection에는 키-값 쌍website-jd.com과 키-값 쌍clicknum-1이 포함된다.

상기 코드 중의 apply_values(schema.agg, lambda cols: { 'max_click_num': cols['clicknum'].max(), 'sum_click_num':cols['clicknum'].flat_map(lambda x: x['x']), 'avg_click_num':cols['clicknum'].sum()/cols['clicknum'].count()})에 대하여, 파싱 유닛은 순회 연산자 키워드 apply_values에 근거하여 순회 연산자를 확정할 수 있다. 필드clicknum은 필드 키워드 clicknum에 근거하여 확정될 수 있다. 순회 연산자는 순회 필드clicknum에 근거하여 각각의 그룹화된 SchemaPCollection중의 모든 요소 중의 키 clicknum에 대응하는 값에 대하여 각각max, sum 및 count작업을 수행할수 있다. 이로써, baidu.com, tencent.com, alibaba.com, jd.com의 클릭 수 최대치, 클릭 수 총 합계 및 클릭 수 평균치를 각각 산출할 수 있다.

파싱 유닛은 집계 연산자 키워드 agg에 근거하여 집계 연산자를 확정할 수 있다. 집계 연산자는 각각의 그룹화된 필드 타입 분산 데이터 집합 중의 모든 요소 중의 순회 필드가 가리키는 키에 대응하는 값에 대하여 작업을 수행하여 얻은 결과를 집계할 수 있다. 집계 연산자는 각각의 그룹화된 SchemaPCollection중의 모든 요소 중의 키 clicknum에 대응하는 값에 대하여 max, sum, count작업을 수행하여 얻은baidu.com, tencent.com, alibaba.com, jd.com의 클릭 수 최대치, 클릭 수 총 합계 및 클릭 수 평균치를 집계할 수 있다.

본 출원에서 임의의 연산자가 수신하거나 반환한 파라미터의 유형은 모두 필드 타입 분산 데이터 집합일 수 있고, 임의의 연산자는 모두 필드 타입 분산 데이터 집합에서 필드에 대응하는 데이터에 대하여 작업할 수 있다. 이로써, 임의의 연산자는 모두 한번 구현되면 연산자의 재사용이 가능하게 된다. 분산 컴퓨팅 태스크를 더 간단한 표현식으로 나타내어 표현함으로써, 사용자가 분산 컴퓨팅 프레임워크를 이용하여 분산 컴퓨팅 프로그램을 작성하는 복잡성을 간소화하였고, 나아가, 표현식을 통하여 분산 컴퓨팅에 관련되는 연산자를 확정할 수 있어서 분산 컴퓨팅 과정을 최적화할 수 있다.

도2는 본원의 일 실시예에 따른 분산 컴퓨팅 방법의 절차(200)를 도시한 것이다. 이러한 방법은 다음과 같은 단계를 포함한다.

단계(201), 분산 컴퓨팅 태스크의 표현식을 파싱하고 연산자 및 연산자에 대응하는 필드를 확정한다.

본 실시예에서, 필드는 연산자가 작용하는 분산 데이터 집합의 데이터의 속성을 가리킨다. 분산 컴퓨팅 태스크는 표현식을 이용하여 표현할 수 있다. 웹사이트 클릭 수 데이터가 분산 컴퓨팅 태스크에 필요한 데이터인 경우를 예로 들어 설명하면, 웹사이트 클릭 수 데이터는 웹사이트 데이터와 클릭 수 데이터 두 부분을 포함한다. 연산자는 웹사이트 데이터와 클릭 수 데이터에 작용할 수 있다. 분산 컴퓨팅 태스크의 표현식은 연산자 키워드 및 필드 키워드를 포함할 수 있다. 파싱 유닛은 분산 컴퓨팅 태스크의 표현식 중의 연산자 키워드 및 필드 키워드에 대한 파싱을 통하여 연산자 및 연산자에 대응하는 필드, 즉 웹사이트 필드 및 클릭 수 필드를 확정할 수 있다.

단계(202), 연산자의 입력 파라미터를 생성한다.

본 실시예에서, 연산자의 입력 파라미터는 필드 및 필드 타입 분산 데이터 집합을 포함하고, 필드 타입 분산 데이터 집합은 적어도 하나의 요소를 포함하고, 요소는 복수의 키-값 쌍을 포함하고, 키-값 쌍의 키는 필드이고 값은 분산 데이터 집합에서 필드에 대응하는 데이터이다.

본 실시예에서, 분산 컴퓨팅 프레임워크는 필드 타입 분산 데이터 집합 SchemaPCollection을 제공할 수 있다. 데이터 구조 PCollection은 분산 데이터 집합을 나타낼 수 있다. SchemaPCollection 데이터 구조는 구조화된, 필드를 갖춘 PCollection을 표시할 수 있다. SchemaPCollection 데이터 구조는 각각의 요소가 하나의 사전이 되는 PCollection에 상당할 수 있다. 각각의 연산자의 입력 파라미터는 SchemaPCollection 및 필드를 포함할 수 있고, 반환 값의 유형은 SchemaPCollection일 수도 있다.

본 실시예의 일부 선택 가능한 구현방법에 있어서, 필드에 근거하여 분산 컴퓨팅 태스크에 필요한 데이터에 대응하는 분산 데이터 집합을 필드 타입 분산 데이터 집합으로 전환하고, 필드 타입 분산 데이터 집합 중의 요소는 복수의 키-값 쌍을 포함하고, 여기서, 각각의 키-값 쌍의 키는 하나의 필드이고 값은 분산 데이터 집합에서 필드에 대응하는 데이터인 단계도 포함한다.

웹사이트 클릭 수 데이터가 분산 컴퓨팅 태스크에 필요한 데이터인 경우를 예로 들어 설명하면, 각 조각의 데이터는 복수의 웹사이트와 클릭 수 두 부분을 포함한다. 분산 컴퓨팅 태스크에 필요한 데이터는 PCollection일 수 있다. 웹사이트 필드 및 클릭 수 필드에 근거하여 분산 컴퓨팅 태스크에 필요한 데이터에 대응하는 SchemaPCollection을 생성할 수 있다. 분산 컴퓨팅 태스크에 필요한 데이터에 대응하는 SchemaPCollection 중의 각각의 요소가 하나의 사전이 될수 있고, 이러한 사전은 복수의 키-값 쌍으로 이루어지고, 키는 웹사이트 집합, 클릭 수일 수 있다. 키 웹사이트 집합에 대응하는 값은 복수의 웹사이트이고, 키 클릭 수에 대응하는 값은 클릭 수 데이터이다.

예하면, 분산 컴퓨팅 태스크에 필요한 데이터는 이하 웹사이트의 클릭 수 데이터인 ('alibaba.com, baidu.com, tencent.com', 1), ('baidu.com, tencent.com', 2), ('alibaba.com, tencent.com', 3), ('alibaba.com, baidu.com', 2), ('alibaba.com, jd.com', 1)이다. 분산 컴퓨팅 태스크에 필요한 데이터는 하나의 분산 데이터 집합 PCollection이다.

본 실시예에서, 필드 websites 및 필드clicknum에 근거하여 분산 컴퓨팅 태스크에 필요한 데이터에 대응하는 PCollection을 필드 websites 및 clicknum에 따라서 필드 타입 분산 데이터 집합 SchemaPCollection으로 전환할 수 있다. SchemaPCollection에는 복수의 요소가 포함되고 각각의 요소는 복수의 키-값 쌍을 포함하고, 여기서, 각각의 키-값 쌍의 키는 하나의 필드이고 값은 PCollection에서 필드에 대응하는 데이터이다.

SchemaPCollection은 5개 요소를 포함하고 각각의 요소는 사전일 수 있다. 사전에는 키 websites와 websites에 대응하는 값으로 구성된 키-값 쌍 및 키 clicknum과 clicknum에 대응하는 값으로 구성된 키-값 쌍이 포함된다.

첫 번째 요소에는 키-값 쌍websites-alibaba.com, baidu.com, tencent.com및 키-값 쌍clicknum-1이 포함된다.

세 번째 요소에는 키-값 쌍websites-alibaba.com, tencent.com및 키-값 쌍clicknum-3가 포함된다.

단계(203), 연산자가 입력 파라미터에 근거하여 분산 컴퓨팅을 수행한다.

본 실시예에서, 단계(202)을 통하여 연산자의 입력 파라미터를 생성한 후, 연산자가 입력 파라미터SchemaPCollection 및 필드에 근거하여 분산 컴퓨팅을 수행할 수 있다.

본 실시예에서, 하나의 apply문법 설탕을 제공할 수 있고, apply문법 설탕의 의미는 다음과 같을 수 있다.

.apply(f, *args)는 f(pcollection, *args)에 등가된다.

본 실시예의 일부 선택 가능한 구현방법에 있어서, 필드 타입 분산 데이터 집합 중의 각각의 요소 중의 부동한 키를 가진 키-값 쌍을 조합하여 각각의 요소가 키가 서로 다른 키-값 쌍을 포함하는 필드 타입 분산 데이터 집합을 얻는 단계를 더 포함한다.

본 실시예에서, 필드 타입 분산 데이터 집합 중의 각각의 요소 중의 부동한 키를 가진 키-값 쌍을 조합하여 각각의 요소가 키가 서로 다른 키-값 쌍을 포함하는 필드 타입 분산 데이터 집합을 얻는다.

웹사이트 클릭 수 데이터가 분산 컴퓨팅 태스크에 필요한 데이터인 경우를 예로 들어 설명하면, 각 조각의 데이터는 복수의 웹사이트와 클릭 수 두 부분을 포함한다. 분산 컴퓨팅 태스크에 필요한 데이터는 PCollection일 수 있다. 웹사이트 필드 및 클릭 수 필드에 근거하여 분산 컴퓨팅 태스크에 필요한 데이터에 대응하는 SchemaPCollection을 생성할 수 있다. 분산 컴퓨팅 태스크에 필요한 데이터에 대응하는 SchemaPCollection 중의 각각의 요소는 하나의 사전이 될수 있고, 이러한 사전은 복수의 키-값 쌍으로 이루어지고, 키는 웹사이트 집합 및 클릭 수일 수 있다. 키 웹사이트 집합에 대응하는 값은 복수의 웹사이트이고, 키 클릭 수에 대응하는 값은 클릭 수 데이터이다.

예하면, SchemaPCollection중의 요소는 키 website와 키 website에 대응하는 값으로 구성된 키-값 쌍, 그리고 키 clicknum과 키 clicknum에 대응하는 값으로 구성된 키-값 쌍을 포함한다.

각각의 요소 중의 키 website에 대응하는 키-값 쌍과 키 clicknum에 대응하는 키-값 쌍을 조합하여 각각의 요소가 하나의 website에 대응하는 키-값 쌍 및 하나의 키 clicknum에 대응하는 키-값 쌍을 포함하는 SchemaPCollection을 얻을 수 있다.

각각의 요소 중의 키 website에 대응하는 키-값 쌍과 키 clicknum에 대응하는 키-값 쌍을 조합한 후, SchemaPCollection에서 첫 번째 요소는 키-값 쌍website-alibaba.com 및 키-값 쌍clicknum-1이다.

여섯 번째 요소는 키-값 쌍website-alibaba.com과 키-값 쌍clicknum-3이다.

일곱 번째 요소는 키-값 쌍website-tencent.com과 키-값 쌍clicknum-3이다.

여덟 번째 요소는 키-값 쌍website-alibaba.com과 키-값 쌍clicknum-2이다.

아홉 번째 요소는 키-값 쌍website-baidu.com과 키-값 쌍clicknum-2이다.

열 번째 요소는 키-값 쌍website-alibaba.com과 키-값 쌍clicknum-1이다.

열한 번째 요소는 키-값 쌍website-jd.com과 키-값 쌍clicknum-1이다.

본 실시예의 일부 선택 가능한 구현방법에 있어서, 필드 타입 분산 데이터 집합 중의 요소 중의 그룹화 필드가 가리키는 키에 대응하는 값에 근거하여 필드 타입 분산 데이터 집합 중의 요소를 그룹화하여 복수의 그룹화된 필드 타입 분산 데이터 집합을 얻고, 여기서, 각각의 그룹화 필드가 가리키는 키에 대응하는 값은 하나의 그룹화된 필드 타입 분산 데이터 집합에 대응하고, 그룹화된 필드 타입 분산 데이터 집합은 그룹화 필드가 가리키는 키에 대응하는 값을 포함하는 요소를 적어도 하나 포함하는 단계도 포함한다.

예하면, SchemaPCollection에서 첫 번째 요소는 키-값 쌍website-alibaba.com과 키-값 쌍clicknum-1이다.

그룹화 필드 website에 근거하여 요소 중의 website가 가리키는 키 website에 대응하는 값에 따라 SchemaPCollection중의 요소를 그룹화하여 복수의 그룹화된 SchemaPCollection을 얻을 수 있고, 각각의 그룹화 필드가 가리키는 키 website에 대응하는 값은 하나의 그룹화된 SchemaPCollection에 대응하고, 그룹화된 SchemaPCollection은 그룹화 필드가 가리키는 키 website에 대응하는 값을 포함하는 요소를 적어도 하나 포함한다.

SchemaPCollection 중에서 키 website에 대응하는 값이 동일한 요소를 집계하여 키 website에 대응하는 값이 동일한 키-값 쌍을 복수 개 포함하는 그룹화된 SchemaPCollection을 얻을 수 있다.

첫 번째 그룹화된 SchemaPCollection에는 키-값 쌍website-baidu.com과 키-값 쌍clicknum-1, 키-값 쌍website-baidu.com과 키-값 쌍clicknum-2 및 키-값 쌍website-baidu.com과 키-값 쌍clicknum-2가 포함된다.

두 번째 그룹화된 SchemaPCollection에는 키-값 쌍website-tencent.com과 키-값 쌍clicknum-1, 키-값 쌍website-tencent.com과 키-값 쌍clicknum-2 및 키-값 쌍website-tencent.com과 키-값 쌍clicknum-3가 포함된다.

세 번째 그룹화된 SchemaPCollection에는 키-값 쌍website-alibaba.com과 키-값 쌍clicknum-1, 키-값 쌍website-alibaba.com과 키-값 쌍clicknum-3, 키-값 쌍website-alibaba.com과 키-값 쌍clicknum-2 및 키-값 쌍website-alibaba.com과 키-값 쌍clicknum-1이 포함된다.

네 번째 그룹화된 SchemaPCollection에는 키-값 쌍website-jd.com 및 키-값 쌍clicknum-1이 포함된다.

본 실시예의 일부 선택 가능한 구현방법에 있어서, 순회 필드에 근거하여 필드 타입 분산 데이터 집합 중의 모든 요소 중의 순회 필드가 가리키는 키에 대응하는 값에 대하여 작업을 수행하는 단계도 포함한다.

그룹화 필드 website에 근거하여 요소 중의 website가 가리키는 키 website에 대응하는 값에 따라 SchemaPCollection중의 요소를 그룹화하여 복수의 그룹화된 SchemaPCollection을 얻는 과정을 예로 들면, 첫 번째 그룹화된 SchemaPCollection에는 키-값 쌍website-baidu.com과 키-값 쌍clicknum-1, 키-값 쌍website-baidu.com과 키-값 쌍clicknum-2 및 키-값 쌍website-baidu.com과 키-값 쌍clicknum-2가 포함된다.

순회 필드clicknum에 근거하여 각각의 그룹화된 SchemaPCollection중의 모든 요소 중의 키 clicknum에 대응하는 값에 대하여 각각 max, sum, count작업을 수행함으로써, baidu.com, tencent.com, alibaba.com, jd.com의 클릭 수 최대치, 클릭 수 총 합계 및 클릭 수 평균치를 각각 산출할 수 있다.

본 실시예의 일부 선택 가능한 구현방법에 있어서, 필드 타입 분산 데이터 집합 중의 모든 요소 중의 순회 필드가 가리키는 키에 대응하는 값에 대하여 작업을 수행하여 얻은 결과를 집계하는 단계도 포함한다.

그룹화된 SchemaPCollection을 예로 들면, 각각의 그룹화된 SchemaPCollection중의 모든 요소 중의 키 clicknum에 대응하는 값에 대하여 max, sum, count작업을 수행하여 얻은 baidu.com, tencent.com, alibaba.com, jd.com의 클릭 수 최대치, 클릭 수 총 합계 및 클릭 수 평균치를 집계할 수 있다. 출력 결과는 다음과 같은 형식으로 표현할 수 있다.

[{'sum_click_num': 7, 'website': 'alibaba.com', 'avg_click_num': 1, 'max_click_num': 3},

{'sum_click_num': 6, 'website': 'tencent.com', 'avg_click_num': 2, 'max_click_num': 3},

{'sum_click_num': 5, 'website': 'baidu.com', 'avg_click_num': 1, 'max_click_num': 2},

{'sum_click_num': 1, 'website': 'jd.com', 'avg_click_num': 1, 'max_click_num': 1}].

도3은 본원의 실시예에 따른 분산 컴퓨팅 프레임워크를 구현하기에 적합한 컴퓨터 시스템(300)의 구조 개략도를 도시한 것이다.

도3에서, 컴퓨터 시스템(300)은 중앙 처리 장치(CPU)(301)를 포함하고, 이는 리드 온리 메모리(ROM)(302)에 저장된 프로그램 또는 저장 파트(308)로부터 랜덤 엑세스 메모리(RAM)(303)에 로딩된 프로그램에 근거하여 여러 가지 적당한 동작 및 처리를 수행할 수 있다. RAM(303)에는 시스템(300) 작업에 필요한 여러 가지 프로그램 및 데이터도 저장되어 있다. CPU(301), ROM(302) 및 RAM(303)은 버스(304)를 통하여 서로 연결된다. 입력/출력(I/O) 인터페이스(305)도 버스(304)에 연결된다.

I/O 인터페이스(305)에, 다음과 같은 부재들을, 즉 키보드, 마우스 등을 포함하는 입력 파트(306); 음극선관(CRT) 및 액정 디스플레이(LCD) 등, 및 스피커 등을 포함하는 출력 파트(607); 하드디스크 등을 포함하는 저장 파트(308); 및 LAN 카드, 모뎀 등과 같은 네트워크 인터페이스 카드를 포함하는 통신 파트(309)를 연결할 수 있다. 통신 파트(309)는 인터넷과 같은 네트워크를 통하여 통신 처리를 수행한다. 드라이버(310)도 수요에 따라 I/O 인터페이스(305)에 연결된다. 플로피 디스크, 광 디스크, 광자기 디스크, 반도체 메모리 등과 같은 이동식 매체(311)는 이로부터 리드된 컴퓨터 프로그램이 수요에 따라 저장 파트(308)에 설치되도록 수요에 따라 드라이버(310)에 설치된다.

특히, 본원에서 개시된 실시예에 따라 흐름도를 참고로 하여 설명된 상술의 과정은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예하면, 본원에서 개시된 실시예에는 컴퓨터 프로그램 제품이 포함되고, 이는 기계 가독 매체 위에 실체가 있도록 포함되어 있는 컴퓨터 프로그램을 포함하고 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 수행하기 위한 프로그램 코드를 포함한다. 이런 실시예에서 이러한 컴퓨터 프로그램은 통신 파트(309)를 통해 온라인에서 다운받아서 설치할 수 있거나 및/또는 이동식 매체(311)로부터 설치할 수 있다.

첨부 도면 중의 흐름도 및 블록도은 본원의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 시스템 체계, 기능과 작업을 도시한다. 이러한 부분에서 흐름도 또는 블록도 중의 각각의 블록은 하나의 모듈, 프로그램 세그먼트 또는 코드의 일부분을 표시할수 있고 상기 모듈, 프로그램 세그먼트, 또는 코드의 일부분은 규정된 로직 기능을 구현하기 위한 실행 가능한 명령을 하나 또는 복수 개 포함한다. 그리고 유의할 점은, 일부 대안적인 구현에 있어서, 블록에 표기된 기능은 첨부 도면에서의 표기 순서와 다른 순서로 발생할 수도 있다. 예하면, 순차적인 연결로 표시된 두개 의 블록은 사실상 기본적으로 병행하여 수행될 수도 있고 경우에 따라서는 반대인 순서로 수행될 수도 있는데 이러한 부분은 관련 기능에 따라 결정된다. 이 외에도, 블록도 및/또는 흐름도에서의 각각의 블록, 그리고 블록도 및/또는 흐름도에서의 블록의 조합은, 하드웨어를 기반으로 하고 규정된 기능 또는 작업을 수행하는 전용화된 시스템을 통하여 구현되거나 또는 전용 하드웨어와 컴퓨터 명령의 조합으로도 구현될 수 있음을 유의하여야 한다.

본 발명의 다른 측면으로, 비휘발성 컴퓨터 저장 매체가 제공된다. 이러한 비휘발성 컴퓨터 저장 매체는 상기 실시예 중의 상기 기기에 포함되어 구성된 비휘발성 컴퓨터 저장 매체일 수도 있고 단말기에 구성되어 있지 않고 단독으로 존재하는 비휘발성 컴퓨터 저장 매체일 수도 있다. 상기 비휘발성 컴퓨터 저장 매체에는 하나 또는 복수의 프로그램이 저장되어 있다. 상기 하나 또는 복수의 프로그램이 하나의 기기에 의하여 실행될 시, 상기 기기는, 분산 컴퓨팅 태스크의 표현식을 파싱하고 연산자 및 상기 연산자에 대응하는 필드를 확정하되, 여기서 상기 필드는 연산자가 작용하는 분산 데이터 집합의 데이터의 속성을 가리키고; 상기 연산자의 입력 파라미터를 생성하되, 연산자의 입력 파라미터는 필드 및 필드 타입 분산 데이터 집합을 포함하고, 여기서 상기 필드 타입 분산 데이터 집합은 적어도 하나의 요소를 포함하고, 상기 요소는 복수의 키-값 쌍을 포함하고, 키-값 쌍의 키는 필드이고 값은 분산 데이터 집합에서 상기 필드에 대응하는 데이터이고; 및 상기 연산자가 상기 입력 파라미터를 기반으로 분산 컴퓨팅을 수행한다.

이상의 설명은 단지 본 출원의 바람직한 실시예 및 운용된 기술 원리에 대한 설명일 뿐이다. 당해 분야의 통상의 기술자라면 본 출원에서 주장하는 발명의 범위는 상술한 기술적 특징의 특정 조합으로 구성된 기술 방안에 한정되지 않으며, 또한 상기 발명 사상을 벗어나지 않는 범주에서 상기 기술적 특징 또는 그 등가물의 임의의 조합으로 구성된 기타 기술방안도 이에 포함되는 것임을 이해할 수가 있다. 예하면, 상기 특징을 본원에서 개시한(단, 이에 한정되지 않음) 이와 유사한 기능을 가진 기술 특징으로 치환하여 얻은 기술방안도 본원의 청구 범위에 포함된다.

Claims

분산 컴퓨팅 프레임워크에 있어서,
분산 컴퓨팅 태스크의 표현식을 파싱하고 연산자 및 상기 연산자에 대응하는 필드를 확정하기 위해 구성되고,
상기 필드는 상기 연산자가 작용하는 분산 데이터 집합의 데이터의 속성을 나타내기 위한 것인 파싱 유닛; 및
상기 연산자를 제공하기 위해 구성되고, 상기 연산자의 입력 파라미터는 필드 및 필드 타입 분산 데이터 집합을 포함하되, 여기서, 상기 필드 타입 분산 데이터 집합은 적어도 하나의 요소를 포함하고, 상기 요소는 복수의 키-값 쌍을 포함하고, 키-값 쌍의 키는 필드이고 값은 분산 데이터 집합에서 상기 필드에 대응하는 데이터인 연산자 유닛;을 포함하는 것을 특징으로 하는 분산 컴퓨팅 프레임워크.
제1항에 있어서,
상기 연산자 유닛은
상기 필드에 근거하여 분산 컴퓨팅 태스크에 필요한 데이터에 대응하는 분산 데이터 집합을 필드 타입 분산 데이터 집합으로 전환하기 위하여 구성되고, 상기 필드 타입 분산 데이터 집합 중의 요소는 복수의 키-값 쌍을 포함하고, 여기서, 각 키-값 쌍의 키는 하나의 필드이고 값은 분산 데이터 집합에서 상기 필드에 대응하는 데이터인 필드 타입 분산 데이터 집합 생성 연산자를 포함하는 것을 특징으로 하는 분산 컴퓨팅 프레임워크.
제2항에 있어서,
상기 연산자 유닛은
상기 필드 타입 분산 데이터 집합 중의 각 요소 중 부동한 키를 가진 키-값 쌍을 조합하여 각 요소는 키가 서로 다른 키-값 쌍을 포함하는 필드 타입 분산 데이터 집합을 얻기 위해 구성되는 스플라이스 연산자를 포함하는 것을 특징으로 하는 분산 컴퓨팅 프레임워크.
제3항에 있어서,
상기 연산자 유닛은
상기 필드 타입 분산 데이터 집합 중의 요소 중 그룹화 필드가 가리키는 키에 대응하는 값에 근거하여 필드 타입 분산 데이터 집합 중의 요소를 그룹화하여 복수의 그룹화된 필드 타입 분산 데이터 집합을 얻기 위해 구성되고, 여기서, 각 그룹화 필드가 가리키는 키에 대응하는 값은 하나의 그룹화된 필드 타입 분산 데이터 집합에 대응하고, 그룹화된 필드 타입 분산 데이터 집합은 그룹화 필드가 가리키는 키에 대응하는 값을 포함하는 요소를 적어도 하나 포함하는 그룹화 연산자를 포함하는 것을 특징으로 하는 분산 컴퓨팅 프레임워크.
제4항에 있어서,
상기 연산자 유닛은
순회 필드에 근거하여 필드 타입 분산 데이터 집합 중의 모든 요소 중의 순회 필드가 가리키는 키에 대응하는 값에 대하여 작업을 수행하기 위해 구성되는 순회 연산자를 포함하는 것을 특징으로 하는 분산 컴퓨팅 프레임워크.
제5항에 있어서,
상기 연산자 유닛은
상기 필드 타입 분산 데이터 집합 중의 모든 요소 중 순회 필드가 가리키는 키에 대응하는 값에 대하여 작업을 수행하여 얻은 결과를 집계하기 위해 구성되는 집계 연산자를 포함하는 것을 특징으로 하는 분산 컴퓨팅 프레임워크.
분산 컴퓨팅 방법에 있어서,
분산 컴퓨팅 태스크의 표현식을 파싱하고 연산자 및 상기 연산자에 대응하는 필드를 확정하되, 여기서, 상기 필드는 연산자가 작용하는 분산 데이터 집합의 데이터의 속성을 나타내는 단계;
상기 연산자의 입력 파라미터를 생성하되, 상기 연산자의 입력 파라미터는 필드 및 필드 타입 분산 데이터 집합을 포함하고, 여기서, 상기 필드 타입 분산 데이터 집합은 적어도 하나의 요소를 포함하고, 상기 요소는 복수의 키-값 쌍을 포함하고, 키-값 쌍의 키는 필드이고 값은 분산 데이터 집합에서 상기 필드에 대응하는 데이터인 단계; 및
상기 연산자가 상기 입력 파라미터를 기반으로 분산 컴퓨팅을 수행하는 단계를 포함하는 것을 특징으로 하는 분산 컴퓨팅 방법.
제7항에 있어서,
상기 필드에 근거하여 분산 컴퓨팅 태스크에 필요한 데이터에 대응하는 분산 데이터 집합을 필드 타입 분산 데이터 집합으로 전환하되, 상기 필드 타입 분산 데이터 집합 중의 요소는 복수의 키-값 쌍을 포함하고, 여기서 각 키-값 쌍의 키는 하나의 필드이고 값은 분산 데이터 집합에서 상기 필드에 대응하는 데이터인 단계를 더 포함하는 것을 특징으로 하는 분산 컴퓨팅 방법.
제8항에 있어서,
상기 필드 타입 분산 데이터 집합 중의 각 요소 중 부동한 키를 가진 키-값 쌍을 조합하여, 각 요소는 키가 서로 다른 키-값 쌍을 포함하는 필드 타입 분산 데이터 집합을 얻는 단계를 더 포함하는 것을 특징으로 하는 분산 컴퓨팅 방법.
제9항에 있어서,
상기 필드 타입 분산 데이터 집합 중의 요소 중 그룹화 필드가 가리키는 키에 대응하는 값에 근거하여 필드 타입 분산 데이터 집합 중의 요소를 그룹화하여 복수의 그룹화된 필드 타입 분산 데이터 집합을 얻되, 여기서, 각 그룹화 필드가 가리키는 키에 대응하는 값은 하나의 그룹화된 필드 타입 분산 데이터 집합에 대응하고, 그룹화된 필드 타입 분산 데이터 집합은 그룹화 필드가 가리키는 키에 대응하는 값을 포함하는 요소를 적어도 하나 포함하는 단계도 포함하는 것을 특징으로 하는 분산 컴퓨팅 방법.
제10항에 있어서,
순회 필드에 근거하여 상기 필드 타입 분산 데이터 집합 중의 모든 요소 중의 순회 필드가 가리키는 키에 대응하는 값에 대하여 작업을 수행하는 단계도 포함하는 것을 특징으로 하는 분산 컴퓨팅 방법.
제11항에 있어서,
상기 필드 타입 분산 데이터 집합 중의 모든 요소 중 순회 필드가 가리키는 키에 대응하는 값에 대하여 작업을 수행하여 얻은 결과를 집계하는 단계도 포함하는 것을 특징으로 하는 분산 컴퓨팅 방법.
프로세서; 및
메모리를 포함하고,
상기 메모리에는 상기 프로세서에 의하여 수행 가능한 컴퓨터 판독가능 명령이 저장되어 있고, 상기 컴퓨터 판독가능 명령이 수행 될 시, 상기 프로세서는 분산 컴퓨팅 방법을 수행하되, 상기 방법은
분산 컴퓨팅 태스크의 표현식을 파싱하고 연산자 및 상기 연산자에 대응하는 필드를 확정하되, 여기서, 상기 필드는 연산자가 작용하는 분산 데이터 집합의 데이터의 속성을 나타내는 단계;
상기 연산자의 입력 파라미터를 생성하되, 상기 연산자의 입력 파라미터는 필드 및 필드 타입 분산 데이터 집합을 포함하고, 여기서, 상기 필드 타입 분산 데이터 집합은 적어도 하나의 요소를 포함하고, 상기 요소는 복수의 키-값 쌍을 포함하고, 키-값 쌍의 키는 필드이고 값은 분산 데이터 집합에서 상기 필드에 대응하는 데이터인 단계; 및
상기 연산자가 상기 입력 파라미터를 기반으로 분산 컴퓨팅을 수행하는 단계를 포함하는 기기.
비휘발성 컴퓨터 저장 매체로서, 상기 컴퓨터 저장 매체에는 프로세서에 의하여 수행 가능한 컴퓨터 판독가능 명령이 저장되어 있고, 상기 컴퓨터 판독가능 명령이 프로세서에 의하여 수행 될 시, 상기 프로세서는 분산 컴퓨팅 방법을 수행하되, 상기 방법은
분산 컴퓨팅 태스크의 표현식을 파싱하고 연산자 및 상기 연산자에 대응하는 필드를 확정하되, 여기서, 상기 필드는 연산자가 작용하는 분산 데이터 집합의 데이터의 속성을 나타내는 단계;
상기 연산자의 입력 파라미터를 생성하되, 상기 연산자의 입력 파라미터는 필드 및 필드 타입 분산 데이터 집합을 포함하고, 여기서, 상기 필드 타입 분산 데이터 집합은 적어도 하나의 요소를 포함하고, 상기 요소는 복수의 키-값 쌍을 포함하고, 키-값 쌍의 키는 필드이고 값은 분산 데이터 집합에서 상기 필드에 대응하는 데이터인 단계; 및
상기 연산자가 상기 입력 파라미터를 기반으로 분산 컴퓨팅을 수행하는 단계를 포함하는 비휘발성 컴퓨터 저장 매체.