KR20120132116A - 예측 및 분석을 위한 분산 의사 결정 트리 생성방법 - Google Patents

예측 및 분석을 위한 분산 의사 결정 트리 생성방법 Download PDF

Info

Publication number
KR20120132116A
KR20120132116A KR1020110050739A KR20110050739A KR20120132116A KR 20120132116 A KR20120132116 A KR 20120132116A KR 1020110050739 A KR1020110050739 A KR 1020110050739A KR 20110050739 A KR20110050739 A KR 20110050739A KR 20120132116 A KR20120132116 A KR 20120132116A
Authority
KR
South Korea
Prior art keywords
value
entropy
prediction
attribute
sufficient statistics
Prior art date
Application number
KR1020110050739A
Other languages
English (en)
Other versions
KR101256922B1 (ko
Inventor
강대기
Original Assignee
동서대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동서대학교산학협력단 filed Critical 동서대학교산학협력단
Priority to KR1020110050739A priority Critical patent/KR101256922B1/ko
Publication of KR20120132116A publication Critical patent/KR20120132116A/ko
Application granted granted Critical
Publication of KR101256922B1 publication Critical patent/KR101256922B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Abstract

본 발명은 분산 컴퓨팅 환경의 분산 컴퓨팅 환경의 파편화된 데이터 소스로부터 의사 결정 트리를 생성하는 방법에 관한 것으로, (a) 복수개의 분산된 데이터베이스의 각 데이터 소스에 대한 래퍼(wrapper) 또는 정보 제공자(IP: Information Provider)로부터 획득한 데이터의 속성(attribute)들과 상기 속성들의 충분 통계량인 조인트 카운트(joint count) 계산하는 단계; (b) 상기 충분 통계량을 기반으로 의사 결정 트리를 생성하기 위한 분할 기준(splitting criteria)을 계산하는 단계; (c) 상기 분할 기준을 바탕으로 재귀 호출(recursion)을 통해 분할을 반복하는 단계; (d) 상기 충분 통계량을 바탕으로 가지치기 알고리즘을 이용하여 분할을 종료하는 단계; (e) 상기 충분 통계량을 기반으로 리프 노드(leaf node)의 대푯값을 산출하는 단계를 포함한다.
이와 같은 본 발명은, 종래의 분산 데이터베이스를 그대로 활용할 수 있으면서, 예측 및 분석을 위한 의사 결정 트리를 구성하기 위한 기계 학습 알고리즘을 제공할 수 있고, 대용량의 분산 데이터베이스 환경에서, 때로는 불가능한, 데이터베이스의 통합이나 조인이 없이도, 예측 및 분석을 위한 의사 결정 트리를 구성하기 위한 기계 학습 알고리즘 방법을 제공할 수 있게 된다.

Description

예측 및 분석을 위한 분산 의사 결정 트리 생성방법{Method for distributed decision tree induction algorithm for prediction and analysis}
본 발명은 분산 컴퓨팅 환경의 파편화된 (fragmented) 데이터 소스(data source)로부터 충분 통계량 (sufficient statistics)을 계산하여 이를 기반으로 의사 결정 트리를 생성하는 방법에 관한 것이다.
유비쿼터스 컴퓨팅, 클라우드 컴퓨팅, 그리드 컴퓨팅 등의 분산 컴퓨팅 환경에서는 파편화된 (fragmented) 또는 분산된 (distributed) 데이터베이스들이 각각 데이터 소스(data source)로서 존재한다. 분산 환경에서 데이터가 파편화되는 양상은 수직 파편화(vertical fragmentation)와 수평 파편화(horizontal fragmentation)로 나누어진다.
이러한 분산 컴퓨팅 환경의 분산 데이터베이스에서의 추론 및 학습을 통한 예측 및 분석은 많은 응용 예를 가진다. 예를 들어 구글, 페이스북 등의 글로벌 기업은 상상을 초월하는 양의 빅 데이터를 보유하고, 고급분석 환경을 구축하여 서비스를 제공하거나 준비 중이다. 이러한 선도적인 글로벌 기업들의 분석 및 서비스를 수행하려는 데이터의 종류로는 위치기반 데이터, 소셜 미디어에 의해 생산되는 사용자 활동 데이터, 빅 데이터라고 부르는 클라우드 컴퓨팅 환경의 초 대형 데이터 등이 있다.
이러한 데이터를 기반으로 한 고급 분석을 통한 결과가 각종 의사결정 단계에 실제로 활용되는 패턴 기반의 전략수행, 이른바 비즈니스 어낼리틱스가 글로벌 서비스 기업 및 초일류 컨설팅 기업들의 주력 사업으로 각광받고 있다.
데이터베이스가 분산 환경에서 파편화되는 경우, 전체 데이터베이스에 대해 의사 결정 트리를 학습하는 가장 단순한 방법은 전체 데이터베이스들을 하나의 거대한 데이터베이스로 조인 연산을 통해 통합하여, 이에 대해 의사 결정 트리를 학습하는 것이다. 그러나 이러한 학습 방법은 하나의 거대한 데이터베이스를 생성하고 관리하기 위한 방대한 양의 메모리가 필요하며, 이 거대한 데이터베이스의 각 속성에 대해 분할 기준을 계산하고, 이를 재귀 호출을 통해 반복해야 하기 때문에 메모리 부담 및 오버헤드가 매우 크거나, 분산 데이터베이스가 방대한 경우, 학습이 불가능하다.
이러한 문제를 해결하기 위해, 데이터를 저장하는 근본적인 방법을 개선하는 방안으로 GFS(Google File System), MapReduce, BigTable, Amazon SimpleDB, Dynamo storage system, Apache Hadoop Distributed File System 등이 제안되었다. 그러나 이러한 방안들은 예를 들면 컬럼 지향 DBMS(column oriented DBMS)와 같이, 데이터를 저장하는 방안을 개선하는 것으로, 기존의 수많은 분산 데이터베이스를 아우를 수 있는 해결책은 아니다.
따라서, 기존의 분산 데이터베이스를 활용할 수 있으면서, 대용량의 분산 데이터베이스 환경에서 데이터베이스의 통합이나 조인이 없이도, 예측 및 분석을 위한 의사 결정 트리의 기계 학습 알고리즘을 위한 방법 및 장치의 기술 개발이 절실하게 요구된다.
상술한 문제를 해결하기 위한 본 발명의 과제는 종래의 분산 데이터베이스를 그대로 활용할 수 있으면서, 예측 및 분석을 위한 의사 결정 트리를 구성하고, 대용량의 분산 데이터베이스 환경에서, 때로는 불가능한, 데이터베이스의 통합이나 결합(join)이 없이도, 예측 및 분석을 위한 의사 결정 트리를 구성하기 위한 기계 학습 알고리즘 방법을 제공하고자 함이다.
상술한 문제를 해결하기 위한 본 발명의 특징은 분산 컴퓨팅 환경의 파편화된 데이터 소스로부터 의사 결정 트리를 생성하는 방법에 있어서, (a) 복수개의 분산된 데이터베이스의 각 데이터 소스에 대한 래퍼(wrapper) 또는 정보 제공자(IP: Information Provider)로부터 획득한 데이터의 속성(attribute)들과 상기 속성들의 충분 통계량인 조인트 카운트(joint count) 계산하는 단계; (b) 상기 충분 통계량을 기반으로 의사 결정 트리를 생성하기 위한 분할 기준(splitting criteria)을 계산하는 단계; (c) 상기 분할 기준을 바탕으로 재귀 호출(recursion)을 통해 분할을 반복하는 단계; (d) 상기 충분 통계량을 바탕으로 가지치기 알고리즘을 이용하여 분할을 종료하는 단계; 및 (e) 상기 충분 통계량을 기반으로 리프 노드(leaf node)의 대푯값을 산출하는 단계를 포함한다.
여기서, 상기 (b) 단계는, 상기 충분 통계량을 기반으로 하여 엔트로피 값과 정보이득(IG) 값을 통하여 분할 기준을 계산하는 단계인 것이 바람직하다.
또한, 상기 데이터가 수직 파편화된 경우, 엔트로피값과, 상기 정보이득 값은,
Figure pat00001
,
Figure pat00002
(여기서, S는 데이터베이스이고, V는 속성이고, Svi 는 상기 V 값에 따라 나누어지는 서브 데이터베이스를 의미한다. 엔트로피는 각각의 데이터 소스들 중에서 클래스 속성이 있는 Sx에 대한 엔트로피이고, P는 예측을 수행하고자 하는 종속 변수인 클래스 속성의 가능한 값을 의미하고, Svi ,x 는 특정 속성값 Vi를 가지는 행들의 클래스 값이다.) 와 같은 식으로 연산되는 것이 바람직하다.
또한, 상기 데이터가 수평 파편화된 경우, 엔트로피 값과, 정보이득 값은,
Figure pat00003
(여기서, S는 데이터베이스이고, V는 속성이고, Svi 는 상기 V 값에 따라 나누어지는 서브 데이터베이스를 의미한다. 엔트로피는 각각의 데이터 소스들 중에서 클래스 속성이 있는 Sx에 대한 엔트로피이고, P는 예측을 수행하고자 하는 종속 변수인 클래스 속성의 가능한 값을 의미하고, count(Si, ck)는 조인트 카운트를 의미한다.) 와 같은 식으로 연산되는 것이 바람직하다.
더하여, 바람직하게는 상기 (c) 단계는, 상기 분할 기준을 통하여 분할 가능한 노드가 있는지를 판단하는 단계; 상기 분할 가능한 노드가 있는 경우, 상기 분할 기준을 통해 속성을 선택하여 분할하는 단계; 상기 분할된 노드를 데이터 구조인 큐(que)에 삽입하는 단계; 및 상기 단계를 반복하는 것일 수 있고, 상기 (d) 단계는 상기 충분 통계량을 기반으로 가지치기 알고리즘(pruning algorithm)을 이용하여 분할을 종료하는 단계인 것일 수 있다.
이와 같은 본 발명은, 종래의 분산 데이터베이스를 그대로 활용할 수 있으면서, 예측 및 분석을 위한 의사 결정 트리를 구성하기 위한 기계 학습 알고리즘을 제공할 수 있고, 대용량의 분산 데이터베이스 환경에서, 때로는 불가능한, 데이터베이스의 통합이나 조인이 없이도, 예측 및 분석을 위한 의사 결정 트리를 구성하기 위한 기계 학습 알고리즘 방법을 제공할 수 있게 된다.
도 1은 본 발명의 바람직한 실시 예에 따른 예측 및 분석을 위한 분산 의사 결정 트리 생성방법 흐름도이고,
도 2는 본 발명이 적용되는 데이터 소스가 분산된 상황을 일반적으로 나타낸 다이어그램이고,
도 3은 본 발명에 따른 일 실시 예에 적용되는 수직 단편화된 분산 데이터베이스의 예이고,
도 4은 본 발명이 따른 일 실시 예에 적용되는 수평 단편화된 분산 데이터베이스의 예를 나타낸다.
본 발명의 이점 및 특징, 그리고 그것을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 통해 설명될 것이다. 그러나 본 발명은 여기에서 설명되는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 단지, 본 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여 제공되는 것이다.
도면들에 있어서, 본 발명의 실시예들은 도시된 특정 형태로 제한되는 것이 아니며 명확성을 기하기 위하여 과장된 것이다. 또한 명세서 전체에 걸쳐서 동일한 참조번호로 표시된 부분들은 동일한 구성요소를 나타낸다.
본 명세서에서 "및/또는"이란 표현은 전후에 나열된 구성요소들 중 적어도 하나를 포함하는 의미로 사용된다. 또한, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 또한, 명세서에서 사용되는 "포함한다" 또는 "포함하는"으로 언급된 구성요소, 단계, 동작 및 소자는 하나 이상의 다른 구성요소, 단계, 동작, 소자 및 장치의 존재 또는 추가를 의미한다.
이하에서 본발명에 따른 바람직한 실시예를 도면을 참조하여 상세히 설명하기로한다.
도 1은 본 발명에 따른 예측 및 분석을 위한 분산 의사 결정 트리 생성방법의 흐름도를 나타낸 도면이다. 도 1에 나타낸 바와 같이, 본 발명에 따른 의사 결정 트리 생성방법은, 분산 컴퓨팅 환경의 파편화된 데이터 소스로부터 의사 결정 트리를 생성하는 방법에 있어서, (a) 복수개의 분산된 데이터베이스의 각 데이터 소스로부터 속성(attribute)들과 상기 속성들의 충분 통계량을 계산하는 단계(S200); (b) 상기 충분 통계량을 기반으로 의사 결정 트리를 생성하기 위한 분할 기준(splitting criteria)을 계산하는 단계(S300); (c) 상기 분할 기준을 바탕으로 재귀 호출(recursion)을 통해 분할을 반복하는 단계(S400, S500, S600); (d) 상기 충분 통계량을 바탕으로 가지치기 알고리즘을 이용하여 분할을 종료하는 단계(S700); (e) 상기 충분 통계량을 기반으로 리프 노드(leaf node)의 대푯값을 산출하는 단계(S800)를 포함한다.
먼저, 분산 컴퓨팅 환경에서 데이터 구조인 큐(que)에 루트 노드를 삽입하고(S100), 상기 (a) 단계는, 분산된 데이터베이스들이 있을 때, 각각의 데이터 소스에 대한 래퍼(wrapper) 또는 정보 제공자(information provider)로부터 독립 변수인 속성(attribute)들과 속성들의 충분 통계량인 조인트 카운트(joint count)을 계산하는 단계이다.(S200) 이 단계에서는 다음 단계에서 분할 기준을 계산하기 위해 필요한 조인트 카운트를 계산해서 각 데이터 소스에 서버 시스템으로 존재하는 래퍼나 정보 제공자가 도 2의 중앙 서버에 제공한다.
여기서, 조인트 카운트를 이해하기 위해, 정보 이득 (information gain)이 분할 기준으로 사용되는 의사 결정 트리 알고리즘의 경우를 보면, 의사 결정 트리 알고리즘에서 엔트로피는 [수학식 1]과 같이 계산된다.
Figure pat00004
여기서 확률 p는 예측을 수행하고자 하는 종속 변수인 클래스 속성(attribute)의 가능한 값들로서, 클래스 레이블 각각의 분포에 따라 계산된다. 예를 들어 데이터베이스 S의 전체 행의 수가 10 개일 때, 클래스 속성이 4 개의 YES 값과 6 개의 NO 값을 가진다면, 엔트로피는 -{(4/10)*log(4/10)+(6/10)*log(6/10)}로 계산된다. 특정 속성을 분할하고자 하는 노드로 선택했을 때, 이에 따라 정보 이득이 달라진다. 특정 속성에 대한 정보 이득은 [수학식 2]와 같이 계산된다.
Figure pat00005
즉, 원래의 데이터베이스 S의 엔트로피 값에서, 특정 속성 V를 선택했을 때, 그 속성 V의 각각의 값에 따라 나누어지는 서브 데이터베이스들인 에 대한 각각의 엔트로피들을 그 서브 데이터베이스의 크기에 따라 가중치를 곱한 값의 합으로 뺀 것이 바로 정보 이득 IG(S,V)가 된다.
도 2에 나타낸 바와 같이, 분산 환경에서는 중앙 서버에서 정보 이득을 계산하기 위해서는 전체 속성 집합에 대한 데이터베이스 스키마, 즉 사전 (dictionary) 정보와 정보 이득을 계산하기 위한 조인트 카운트로 충분하다.
(b) 단계는 계산한 충분 통계량을 기반으로 결정 트리를 생성하기 위한 분할 기준(splitting criteria)를 계산하는 단계이다.(S300) 이 단계에서 상술한 엔트로피와 정보 이득이 어떻게 구해지는지 설명하기로 한다. 우선, 엔트로피는 도 2에 나타낸 바와 같이, 수직 파편화된 경우 [수학식 3]과 같이 구해진다.
Figure pat00006
즉, 각각의 데이터 소스들 중에서 클래스 속성이 있는 Sx 에 대한 엔트로피를 구하면 된다. 이에 대한 정보 이득은 [수학식 4]와 같이 구한다.
Figure pat00007
여기서, Sx는 클래스 속성을 가진 특정 데이터 소스에서 주기적으로 보내진다. 특정 속성 V는 해당되는 데이터 소스에서 얻어지며, SVi ,x는 특정 속성 값 Vi를 가지는 행들에 대한 클래스 값이다.
그리고, 도 3에 나타낸 바와 같이, 수평 파편화된 경우, 엔트로피는 [수학식 5]와 같이 구할 수 있다.
Figure pat00008
즉, 각각의 데이터 소스가 보내는 클래스 속성의 분포를 나타내는 조인트 카운트인 count(Si,ck)를 전체 행의 수로 나눈 값인 pk를 기반으로 엔트로피를 구할 수 있다. 이에 대한 정보 이득은 [수학식 6]과 같다.
Figure pat00009
(c) 단계는 상기와 같은 분할을 재귀 호출(recursion)을 이용하여 반복하는 단계이다.(S400,S500,S600) 이렇게 재귀 호출을 반복하면서, 트리 구조를 생성해 나간다. 기존의 결정 트리 알고리즘과 다른 점은 각 단계에서 충분 통계량인 조인트 카운트를 통하여 엔트로피 값과 정보 이득과 같은 분할 기준 값을 계산해 나간다는 점이다.
보다 구체적으로 살펴보면, (c) 단계는 도 1에 나타낸 바와 같이, 상기 분할 기준을 통하여 분할 가능한 노드가 있는지를 판단하는 단계(S400); 상기 분할 가능한 노드가 있는 경우, 상기 분할 기준을 통해 속성을 선택하여 분할하는 단계(S500); 및 상기 분할된 노드를 데이터 구조인 큐(que)에 삽입하는 단계(S600)를 반복하는 단계이다.
(d) 단계는 충분 통계량을 기반으로 가지치기 알고리즘(pruning algorithm)을 이용하여 분할을 종료하는 단계이다. 이러한 가지치기 알고리즘은 프리 프루닝(pre pruning) 또는 포스트 프루닝(post pruning)과 같은 여러 가지 방법이 가능하나, 이들 또한 충분 통계량인 조인트 카운트를 기반으로 계산된다.
마지막으로, (e) 단계는 충분 통계량을 기반으로 리프 노드(leaf node)의 대푯값을 계산하는 단계를 포함할 수 있다. 일반적으로 이 대푯값은 그 노드에 남아있는 데이터베이스의 각 행들에 대한 클래스 레이블 중 최빈수를 가지는 클래스 레이블, 즉 가장 많은 수를 가지는 값(majority)이 사용된다.
이상의 설명에서 본 발명은 특정의 실시 예와 관련하여 도시 및 설명하였지만, 특허청구범위에 의해 나타난 발명의 사상 및 영역으로부터 벗어나지 않는 한도 내에서 다양한 개조 및 변화가 가능 하다는 것을 당 업계에서 통상의 지식을 가진 자라면 누구나 쉽게 알 수 있을 것이다.

Claims (6)

  1. 분산 컴퓨팅 환경의 파편화된 데이터 소스로부터 의사 결정 트리를 생성하는 방법에 있어서,
    (a) 복수개의 분산된 데이터베이스의 각 데이터 소스에 대한 래퍼(wrapper) 또는 정보 제공자(IP: Information Provider)로부터 획득한 데이터의 속성(attribute)들과 상기 속성들의 충분 통계량인 조인트 카운트(joint count) 계산하는 단계;
    (b) 상기 충분 통계량을 기반으로 의사 결정 트리를 생성하기 위한 분할 기준(splitting criteria)을 계산하는 단계;
    (c) 상기 분할 기준을 바탕으로 재귀 호출(recursion)을 통해 분할을 반복하는 단계;
    (d) 상기 충분 통계량을 바탕으로 가지치기 알고리즘을 이용하여 분할을 종료하는 단계;
    (e) 상기 충분 통계량을 기반으로 리프 노드(leaf node)의 대푯값을 산출하는 단계를 포함하는 것을 특징으로 하는 예측 및 분석을 위한 분산 의사 결정 트리 생성방법.
  2. 제1항에 있어서,
    상기 (b) 단계는,
    상기 충분 통계량을 기반으로 하여 엔트로피 값과 정보이득(IG) 값을 통하여 분할 기준을 계산하는 단계인 것을 특징으로 하는 예측 및 분석을 위한 분산 의사 결정 트리 생성방법.
  3. 제2항에 있어서,
    상기 데이터가 수직 파편화된 경우, 엔트로피값과, 상기 정보이득 값은,
    Figure pat00010
    ,
    Figure pat00011

    (여기서, S는 데이터베이스이고, V는 속성이고, Svi 는 상기 V 값에 따라 나누어지는 서브 데이터베이스를 의미한다. 엔트로피는 각각의 데이터 소스들 중에서 클래스 속성이 있는 Sx에 대한 엔트로피이고, P는 예측을 수행하고자 하는 종속 변수인 클래스 속성의 가능한 값을 의미하고, Svi ,x 는 특정 속성값 Vi를 가지는 행들의 클래스 값이다.)
    와 같은 식으로 연산되는 것을 특징으로 하는 예측 및 분석을 위한 분산 의사 결정 트리 생성방법.
  4. 제2항에 있어서,
    상기 데이터가 수평 파편화된 경우, 엔트로피 값과, 정보이득 값은,
    Figure pat00012

    (여기서, S는 데이터베이스이고, V는 속성이고, Svi 는 상기 V 값에 따라 나누어지는 서브 데이터베이스를 의미한다. 엔트로피는 각각의 데이터 소스들 중에서 클래스 속성이 있는 Sx에 대한 엔트로피이고, P는 예측을 수행하고자 하는 종속 변수인 클래스 속성의 가능한 값을 의미하고, count(Si, ck)는 조인트 카운트를 의미한다.)
    와 같은 식으로 연산되는 것을 특징으로 하는 예측 및 분석을 위한 분산 의사 결정 트리 생성방법.
  5. 제1항에 있어서,
    상기 (c) 단계는,
    상기 분할 기준을 통하여 분할 가능한 노드가 있는지를 판단하는 단계;
    상기 분할 가능한 노드가 있는 경우, 상기 분할 기준을 통해 속성을 선택하여 분할하는 단계;
    상기 분할된 노드를 데이터 구조인 큐(que)에 삽입하는 단계;
    상기 단계를 반복하는 것을 특징으로 하는 예측 및 분석을 위한 분산 의사 결정 트리 생성방법.
  6. 제5항에 있어서,
    상기 (d) 단계는 상기
    상기 충분 통계량을 기반으로 가지치기 알고리즘(pruning algorithm)을 이용하여 분할을 종료하는 단계인 것을 특징으로 하는 의사 결정 트리 학습방법.




KR1020110050739A 2011-05-27 2011-05-27 예측 및 분석을 위한 분산 의사 결정 트리 생성방법 KR101256922B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110050739A KR101256922B1 (ko) 2011-05-27 2011-05-27 예측 및 분석을 위한 분산 의사 결정 트리 생성방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110050739A KR101256922B1 (ko) 2011-05-27 2011-05-27 예측 및 분석을 위한 분산 의사 결정 트리 생성방법

Publications (2)

Publication Number Publication Date
KR20120132116A true KR20120132116A (ko) 2012-12-05
KR101256922B1 KR101256922B1 (ko) 2013-04-19

Family

ID=47515819

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110050739A KR101256922B1 (ko) 2011-05-27 2011-05-27 예측 및 분석을 위한 분산 의사 결정 트리 생성방법

Country Status (1)

Country Link
KR (1) KR101256922B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110085324A (zh) * 2019-04-25 2019-08-02 深圳市华嘉生物智能科技有限公司 一种多重生存终端结果联合分析的方法
KR101973642B1 (ko) * 2018-08-31 2019-09-02 서울대학교산학협력단 텍스트 자동 생성을 위한 인터랙티브 시스템 및 방법
KR102020012B1 (ko) * 2018-06-08 2019-09-11 (주)에이피케이어플킹 빅데이터 분석 기반의 인공지능 실시간 스포츠 기사 자동 작성 시스템 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100727555B1 (ko) * 2005-12-05 2007-06-14 성균관대학교산학협력단 시간 가중치 엔트로피를 이용한 결정 트리 생성 방법 및이를 기록한 기록매체

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102020012B1 (ko) * 2018-06-08 2019-09-11 (주)에이피케이어플킹 빅데이터 분석 기반의 인공지능 실시간 스포츠 기사 자동 작성 시스템 및 방법
KR101973642B1 (ko) * 2018-08-31 2019-09-02 서울대학교산학협력단 텍스트 자동 생성을 위한 인터랙티브 시스템 및 방법
CN110085324A (zh) * 2019-04-25 2019-08-02 深圳市华嘉生物智能科技有限公司 一种多重生存终端结果联合分析的方法
CN110085324B (zh) * 2019-04-25 2023-09-08 深圳市华嘉生物智能科技有限公司 一种多重生存终端结果联合分析的方法

Also Published As

Publication number Publication date
KR101256922B1 (ko) 2013-04-19

Similar Documents

Publication Publication Date Title
CN110609759B (zh) 一种故障根因分析的方法及装置
US10031922B2 (en) Systems and methods for query evaluation over distributed linked data stores
US11487772B2 (en) Multi-party data joint query method, device, server and storage medium
US20170357653A1 (en) Unsupervised method for enriching rdf data sources from denormalized data
CN108427684B (zh) 数据查询方法、装置及计算设备
US9633311B2 (en) Decision tree learning
US9870382B2 (en) Data encoding and corresponding data structure
US9959299B2 (en) Compression-aware partial sort of streaming columnar data
EP2753044A1 (en) Method and device for resource matching in vpc migration
JP6928677B2 (ja) オンライン分析処理を行うためのデータ処理方法及び装置
US11245729B2 (en) Group optimization for network communications
WO2017091925A1 (zh) 数据查询的方法、装置和数据库系统
CN107798017B (zh) 分布式数据库中的执行计划信息生成方法和系统
CN109902126B (zh) 支持hive自动分区的加载系统及其实现方法
CN111858760B (zh) 一种异构数据库的数据处理方法及装置
US11687512B2 (en) Index suggestion engine for relational databases
CN103138981A (zh) 一种社交网络分析方法和装置
CN103336791A (zh) 基于Hadoop的粗糙集快速属性约简方法
CN112416908A (zh) 基于Handle标识解析前缀分库存储数据的方法及系统
KR101256922B1 (ko) 예측 및 분석을 위한 분산 의사 결정 트리 생성방법
CN113285960B (zh) 一种服务数据共享云平台的数据加密方法及系统
CN111177481A (zh) 用户标识映射方法及装置
CN113326523A (zh) 一种隐私计算方法、装置及电子设备
CN111159142B (zh) 一种数据处理方法及装置
CN115510116A (zh) 数据目录构建方法、装置、介质及设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151222

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170607

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180411

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 7