KR101844874B1 - System for predicting decision using big data based on data mining techniques and method therefor - Google Patents

System for predicting decision using big data based on data mining techniques and method therefor Download PDF

Info

Publication number
KR101844874B1
KR101844874B1 KR1020170032322A KR20170032322A KR101844874B1 KR 101844874 B1 KR101844874 B1 KR 101844874B1 KR 1020170032322 A KR1020170032322 A KR 1020170032322A KR 20170032322 A KR20170032322 A KR 20170032322A KR 101844874 B1 KR101844874 B1 KR 101844874B1
Authority
KR
South Korea
Prior art keywords
data
learning
class
svm
mining technique
Prior art date
Application number
KR1020170032322A
Other languages
Korean (ko)
Inventor
김다남
Original Assignee
(주)에이피케이어플킹
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)에이피케이어플킹 filed Critical (주)에이피케이어플킹
Priority to KR1020170032322A priority Critical patent/KR101844874B1/en
Application granted granted Critical
Publication of KR101844874B1 publication Critical patent/KR101844874B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F17/30386
    • G06F15/18
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • G06F17/30318
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N99/005
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention discloses a system for predicting a result. More particularly, the present invention relates to a system and method for predicting a result using big data based on a data mining technique with improved accuracy in analyzing data classified into two classes. According to an embodiment of the present invention, learning data is generated by selecting an item for applying raw data according to game contents accumulated from the past in a sports field in which victory and defeat result exists to an SVM algorithm and performing preprocessing, and an analysis model is constructed by applying the selected item to the SVM algorithm, thereby maximizing a hitting ration of the analysis model.

Description

데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템 및 방법{SYSTEM FOR PREDICTING DECISION USING BIG DATA BASED ON DATA MINING TECHNIQUES AND METHOD THEREFOR}BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a system and method for predicting a result using big data based on data mining techniques,

본 발명은 결과예측 시스템에 관한 것으로, 특히 두 개의 클래스로 이분화된 데이터 분석시 향상된 정확도를 갖는 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템 및 방법에 관한 것이다. The present invention relates to a result prediction system, and more particularly, to a system and method for predicting a result using big data based on a data mining technique having improved accuracy in analyzing the divided data into two classes.

IT 기술의 비약적인 발전에 따라, 축구, 야구, 농구, 배구 및 골프 등의 모든 스포츠는 선수들에 의해 진행되는 경기를 관람자가 단순히 관람하는 수동적인 형태에서 탈피하여, 관람자가 경기결과를 예측하고 배팅을 하는 등의 참여하는 형태로 진화하고 있으며, 일방적으로 관람자에게 경기내용에 관련된 정보만 제공해 주던 TV중계의 기능 역시 혁신적인 IT기술의 등장에 따라 경기내용을 통계적으로 분석하고 결과를 예측하는 수준으로 발전하고 있다.In accordance with the rapid development of IT technology, all sports such as soccer, baseball, basketball, volleyball and golf are separated from the passive form in which the spectators simply watch the game played by the athletes, And the function of the TV relay which provided only the information related to the content of the game to the spectator unilaterally was also developed to the level of statistical analysis of the contents of the competition and prediction of the result according to the emergence of the innovative IT technology .

그러나, 종래에 TV 또는 인터넷으로 제공되는 스포츠에 대한 승부예측에 관한 정보는 단순히 경기하는 팀이나 선수에 대한 이전 경기 데이터 등을 수집하여 포인트를 부여 및 비교하고 그 결과를 수치로 제공하는 형태가 일반적이다.However, conventionally, the information on the prediction of a game against a sport provided on the TV or the Internet is merely a form in which points are given and compared, and the result is provided as a numerical value to be.

이는, 다양한 변수가 존재하는 스포츠에서 선수나 팀 기록과 같은 단순한 입력 데이터들로 예측값을 산출하게 되므로 보다 정확하고 신뢰성 있는 예측 모델을 제시하지 못하는 한계가 있다.This is because a predicted value is calculated using simple input data such as a player or a team record in a sport in which various variables exist, so that there is a limit in that a more accurate and reliable prediction model can not be presented.

최근에는 인공지능 기술에 기반한 다양한 형태의 학습머신이 등장하여 이를 스포츠 경기의 승부예측에 적용하려는 시도가 점차적으로 증가하고 있으나, 현재까지는 과거의 경기관련 데이터를 학습머신의 학습데이터로 이용하는 수준에 불과하여 이를 통해 획득한 결과는 정확도가 낮다는 문제점이 있다.In recent years, various types of learning machines based on artificial intelligence technology have appeared, and attempts to apply them to the prediction of a game in a sports game have been gradually increasing. However, until now, only past level data are used as learning data of a learning machine And the result obtained through this is low in accuracy.

한국공개특허공보 제10-2012-0136567호(공개일자: 2012.12.20.)Korean Patent Laid-Open Publication No. 10-2012-0136567 (Published date: December 20, 2012) 한국등록특허공보 제10-1463425호(등록일자: 2014.11.13.)Korean Registered Patent No. 10-1463425 (Registration date: November 13, 2014)

본 발명은 전술한 문제점을 해결하기 위해 안출된 것으로, 본 발명은 축구와 같이 이분화된 승부결과가 존재하는 스포츠 분야에 적용하여 적중률이 높은 분석모델을 생성하기 위해, 서포트 벡터 머신(SVM) 알고리즘을 적용한 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템 및 방법을 제공하는 데 과제가 있다.SUMMARY OF THE INVENTION The present invention has been made in order to solve the above problems, and it is an object of the present invention to provide a support vector machine (SVM) algorithm for generating an analysis model having a high hit ratio, There is a problem in providing a system and a method for predicting a result using big data based on a data mining technique to which the present invention is applied.

또한, 본 발명은 분석모델을 생성함에 있어 이용되는 로우 데이터를 시간을 기준으로 선택하여 기계학습을 수행함으로써, 보다 정확도를 향상시킨 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템 및 방법을 제공하는 데 과제가 있다.Also, the present invention provides a system and method for predicting a result using big data based on a data mining technique in which accuracy is improved by performing machine learning by selecting raw data used for generating an analysis model on the basis of time There is a challenge.

전술한 과제를 해결하기 위해, 본 발명의 실시예에 따른 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 방법은, 빅데이터를 이용한 결과예측 방법으로서, 수집된 빅데이터를 전처리하고, 데이터 마이닝 기법에 기반하여 데이터에 포함되는 개체의 현상 및 특성을 추출하며, 추출결과에 따라 생성된 분석모델에 질의 데이터를 입력하여 적어도 둘 이상의 클래스로 구분되는 이분적 예측결과를 제공하는 데이터 마이닝 기법에 기반한 빅데이터를 이용할 수 있다.In order to solve the above-described problems, a method for predicting a result using big data based on a data mining technique according to an embodiment of the present invention is a method for predicting a result using big data, wherein the preliminary processing of collected big data, Based on a data mining technique that extracts the phenomenon and characteristics of entities included in the data and inputs the query data to the analysis model generated according to the extraction result and provides the partial prediction results classified into at least two classes, Can be used.

상기 결과예측 방법은, 두 팀의 시간별 경기내용에 따른 개체의 프로파일을 포함하는 로우 데이터를 수집하는 단계; 상기 로우 데이터를 가공하여, 상기 프로파일에 대응하며 상기 클래스로 분류되는 복수의 특징을 포함하는 학습 데이터를 제공하는 단계; 시간범위를 설정하고, 상기 시간범위 내 학습 데이터를 SVM 알고리즘으로 기계학습시켜 분류기를 생성하는 단계; 및 상기 분류기를 이용하여 질의 데이터가 속한 클래스를 예측하는 단계를 포함할 수 있다.The result prediction method includes: collecting raw data including a profile of an entity according to contents of a time-based competition of two teams; Processing the raw data to provide training data corresponding to the profile and including a plurality of features classified into the class; Setting a time range and generating a classifier by mechanically learning learning data in the time range with an SVM algorithm; And predicting a class to which the query data belongs using the classifier.

상기 분류기를 생성하는 단계는, 상기 학습 데이터의 선형 또는 비선형 처리 설정을 입력받는 단계; 및 상기 복수의 특징을 SVM 함수의 독립변수로 입력받아 서포트 벡터를 생성하는 단계; 상기 서포트 벡터에 대응하여 초평면을 산출하는 단계를 포함할 수 있다.The step of generating the classifier includes: receiving linear or non-linear processing settings of the learning data; And generating a support vector by receiving the plurality of features as independent variables of the SVM function; And calculating a hyperplane corresponding to the support vector.

상기 질의 데이터가 속한 클래스를 예측하는 단계 이후, 각 클래스별 속한 상기 독립변수의 비율을 산출하는 단계; 및 상기 비율에 비례하여 각 독립변수에 가중치를 적용하는 단계를 포함할 수 있다.Calculating a ratio of the independent variable belonging to each class after predicting the class to which the query data belongs; And applying a weight to each independent variable in proportion to the ratio.

상기 초평면은, 상기 독립변수를 제1 및 제2 클래스로 분류하는 2차 평면상의 직선으로 정의될 수 있다.The hyperplane may be defined as a straight line on a second plane that classifies the independent variable into first and second classes.

상기 초평면은, 상기 독립변수를 커널트릭을 통해 제1 및 제2 클래스로 분류하는 3차 공간내 평면으로 정의될 수 있다.The hyperplane may be defined as a plane in a cubic space that classifies the independent variable into first and second classes through a kernel trick.

또한, 본 발명의 다른 양태에 따른 실시예로서, 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템은, 수집된 빅데이터를 전처리하고, 데이터 마이닝 기법에 기반하여 데이터에 포함되는 개체의 현상 및 특성을 추출하며, 추출결과에 따라 생성된 분석모델에 질의 데이터를 입력하여 적어도 둘 이상의 클래스로 구분되는 이분적 예측결과를 제공하는 데이터 마이닝 기법에 기반한 빅데이터를 이용할 수 있다.According to another embodiment of the present invention, a result prediction system using big data based on a data mining technique preprocesses the collected big data, and based on the data mining technique, And inputting query data to the analysis model generated according to the extraction result, and using the big data based on the data mining technique for providing the result of the partial prediction divided into at least two classes.

상기 결과예측 시스템은, 두 팀의 시간별 경기내용에 따른 개체의 프로파일을 포함하는 로우 데이터를 수집하는 데이터 수집부; 상기 로우 데이터를 가공하여, 상기 프로파일에 대응하며 상기 클래스로 분류되는 복수의 특징을 포함하는 학습 데이터를 제공하는 전처리부; 시간범위를 설정하고, 상기 시간범위 내 학습 데이터를 SVM 알고리즘으로 학습시켜 분류기를 생성하는 SVM부; 및 상기 분류기를 이용하여 질의 데이터가 속한 클래스를 예측하는 예측부를 포함할 수 있다.The result prediction system includes: a data collection unit for collecting raw data including a profile of an entity according to contents of time-series games of two teams; A preprocessor for processing the raw data to provide learning data corresponding to the profile and including a plurality of features classified into the class; An SVM unit for setting a time range and learning the learning data in the time range with an SVM algorithm to generate a classifier; And a prediction unit for predicting a class to which the query data belongs using the classifier.

상기 SVM부는, 상기 학습 데이터의 선형 또는 비선형 처리 설정을 입력받는 타입 결정모듈; 상기 복수의 특징 마다 상기 클래스에 대응하는 분류라벨을 설정받는 라벨 설정모듈; 상기 학습 데이터 내 포함된 프로파일을 SVM 함수의 독립변수로 입력받아 서포트 벡터를 생성하는 벡터 생성모듈; 및 상기 서포트 벡터에 대응하여 초평면을 산출하는 초평면 산출모듈을 포함할 수 있다.Wherein the SVM unit comprises: a type determination module for receiving linear or nonlinear processing settings of the learning data; A label setting module that sets a classification label corresponding to the class for each of the plurality of features; A vector generation module receiving the profile included in the learning data as an independent variable of the SVM function and generating a support vector; And a hyperplane calculating module for calculating a hyperplane corresponding to the support vector.

상기 예측부는, 각 클래스별 속한 상기 독립변수의 비율을 산출하는 비율 산출모듈; 및 상기 비율에 비례하여 각 독립변수에 가중치를 적용하는 가중치 설정모듈을 포함할 수 있다.Wherein the predicting unit comprises: a rate calculating module for calculating a ratio of the independent variable belonging to each class; And a weight setting module that applies a weight to each independent variable in proportion to the ratio.

상기 SVM부는, 상기 초평면에 대하여, 상기 독립변수를 제1 및 제2 클래스로 분류하는 2차 평면상의 직선으로 정의할 수 있다.The SVM unit may define, for the hyperplane, a straight line on a secondary plane that classifies the independent variable into a first class and a second class.

상기 SVM부는, 상기 초평면에 대하여 상기 독립변수를 커널트릭을 통해 제1 및 제2 클래스로 분류하는 3차 공간내 평면으로 정의할 수 있다.The SVM unit may define a plane in the third space for classifying the independent variable into the first and second classes through the kernel trick for the hyperplane.

본 발명의 실시예에 따르면, 승부결과가 존재하는 스포츠 분야에서 과거로부터 축적된 경기내용에 따른 로우 데이터를 SVM 알고리즘에 적용하기 위한 항목을 선정하여 전처리를 통해 학습 데이터를 생성하고, 이를 SVM 알고리즘에 적용하여 분석모델을 구축함으로써, 분석모델의 적중률을 극대화 할 수 있는 효과가 있다. According to the embodiment of the present invention, training data is generated through preprocessing by selecting an item for applying the raw data according to the accumulated game contents to the SVM algorithm in the sports field in which the game result exists, And the analytical model is applied to maximize the hit rate of the analytical model.

또한, 본 발명의 실시예에 따르면, 로우 데이터를 시간 기준에 따라 선택적으로 이용하여 기계학습을 수행함으로써, 분석머신의 정확도를 향상시킬 수 있는 효과가 있다.Also, according to the embodiment of the present invention, the accuracy of the analysis machine can be improved by performing the machine learning by selectively using the row data according to the time reference.

도 1은 본 발명의 실시예에 따른 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 방법을 나타낸 도면이다.
도 2a 및 도 2b는 본 발명의 실시예에 따른 결과예측 시스템의 SVM 알고리즘을 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따른 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템의 구조를 나타낸 도면이다.
도 4a 및 도 4b는 본 발명의 실시예에 따른 결과예측 시스템에서 이용되는 로우 데이터의 일 예를 표로 나타낸 도면이다.
1 is a diagram illustrating a result prediction method using big data based on a data mining technique according to an embodiment of the present invention.
FIGS. 2A and 2B are diagrams for explaining an SVM algorithm of a result prediction system according to an embodiment of the present invention.
3 is a diagram illustrating a structure of a result prediction system using big data based on a data mining technique according to an embodiment of the present invention.
4A and 4B are tables showing an example of row data used in a result prediction system according to an embodiment of the present invention.

설명에 앞서, 명세서 전체에서 어떤 부분이 어떤 구성요소를 "구비" 또는 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부(Unit)", "...모듈(system)" 및, "...시스템(system)" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어, 소프트웨어 또는, 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.Prior to the description, when an element is referred to as being "comprising" or "including" an element throughout the specification, it is to be understood that the element may be further comprised of other elements . Also, terms such as " unit, "" module, and system," and the like, as used in the specification, designate units that process at least one function or operation , Which may be implemented in hardware, software, or a combination of hardware and software.

또한, 본 명세서에서 "실시예"라는 용어는 예시, 사례 또는 도해의 역할을 하는 것을 의미하나, 발명의 대상은 그러한 예에 의해 제한되지 않는다. 또한, "포함하는", "구비하는", "갖는" 및 다른 유사한 용어가 사용되고 있으나, 청구범위에서 사용되는 경우 임의의 추가적인 또는 다른 구성요소를 배제하지 않는 개방적인 전환어(Transition word)로서 "포함하는(Comprising)"이라는 용어와 유사한 방식으로 포괄적으로 사용된다.Furthermore, the term "embodiment" is used herein to mean serving as an example, instance, or illustration, but the subject matter of the invention is not limited by such example. It is also to be understood that the terms "including, "" having, "and other similar terms are used, but that they do not exclude any additional or different components when used in the claims, Quot; is < / RTI > used in a manner similar to the term " Comprising ".

본 명세서에 설명된 다양한 기법은 하드웨어 또는 소프트웨어와 함께 구현될 수 있거나, 적합한 경우에 이들 모두의 조합과 함께 구현될 수 있다. 본 명세서에 사용된 바와 같은 "부(Unit)", "...모듈(system)" 및, "...시스템(system)" 등의 용어는 마찬가지로 컴퓨터 관련 엔티티(Entity), 즉 하드웨어, 하드웨어 및 소프트웨어의 조합, 소프트웨어 또는 실행 시의 소프트웨어와 등가로 취급할 수 있다. 또한, 본 발명에서는 단말기를 포함하는 시스템에서 실행되는 프로그램 및 하드웨어 모두가 모듈단위로 구성될 수 있고, 하나의 물리적 메모리에 기록되거나, 둘 이상의 메모리 및 기록매체 사이에 분산되어 기록될 수 있다.The various techniques described herein may be implemented with hardware or software, or may be implemented with a combination of both, where appropriate. As used herein, terms such as "unit," "system," and "system" are likewise equally applicable to computer-related entities, And a combination of software, software, or software at the time of execution. Further, in the present invention, both programs and hardware executed in a system including a terminal can be configured in units of modules, and can be recorded in one physical memory, or distributed among two or more memories and recording media.

이하, 도면을 참조하여 본 발명의 실시예에 따른 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템 및 방법을 설명한다.Hereinafter, a system and method for predicting results using big data based on a data mining technique according to an embodiment of the present invention will be described with reference to the drawings.

도 1은 본 발명의 실시예에 따른 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 방법을 나타낸 도면이다.1 is a diagram illustrating a result prediction method using big data based on a data mining technique according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 실시예에 따른 결과예측 방법은, 두 팀의 시간별 경기내용에 따른 복수의 항목을 포함하는 로우 데이터를 수집하는 단계(S100), 로우 데이터를 가공하여, 상기 항목에 대응하며 둘 이상의 클래스로 분류되는 복수의 특징을 포함하는 학습 데이터를 준비하는 단계(S110), 시간범위를 설정하고, 상기 시간범위 내 해당하는 학습 데이터를 SVM(Support Vector Machine) 알고리즘으로 학습시켜 분류기를 생성하는 단계(S120) 및, 분류기를 이용하여 질의 데이터가 속한 클래스를 예측하는 단계(S130)를 포함할 수 있다.Referring to FIG. 1, a result prediction method according to an embodiment of the present invention includes collecting row data including a plurality of items according to time content of two teams (S100), processing raw data, (S110) of preparing learning data including a plurality of features classified into two or more classes, setting a time range and learning corresponding learning data within the time range using a SVM (Support Vector Machine) algorithm Generating a classifier (S120), and estimating a class to which the query data belongs using the classifier (S130).

이하의 설명에서 각 단계는, 별도의 지시가 없더라도 본 발명의 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템 및 이를 구성하는 각 구성부가 주체가 되어 수행된다.In the following description, each step constituting the result prediction system using big data based on the data mining technique of the present invention and each constituent part constituting it are performed without any other instruction.

빅데이터(Big data)는 디지털 기술의 발전에 따라, 규모를 산정할 수 없는 많은 방대한 양의 형태, 수치, 문자 및 영상 등의 데이터로 정의된다. 이러한 빅데이터는 기존의 데이터와의 차이점으로서 데이터의 양(Volume), 데이터의 생성속도(Velocity) 및 형태의 다양성(Variety)을 갖는 특징이 있다.Big data is defined in terms of many vast amounts of form, numbers, text, and images that can not be scaled as digital technology evolves. Such big data is characterized by a volume of data, a velocity of data generation, and a variety of types as a difference from existing data.

상기 데이터의 양은 일반적으로 수십 테라 바이트(Tera Byte) 혹은 수십 페타 바이트(Peta Byte) 이상 규모의 데이터 속성을 의미하나 이에 한정되는 것은 아니며, 생성속도는 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성을 가리킨다. 즉 앞으로의 IT 환경에서 각종 데이터들은 매우 빠른 속도로 생산됨에 따라, 이를 실시간으로 저장, 유통, 수집 및 분석처리가 가능한 성능을 의미한다.The amount of the data generally refers to a data attribute of a size of more than tens of terabytes (Tera Bytes) or dozens of petabytes (Peta Bytes), but the present invention is not limited thereto. The generation rate is a property that can process and analyze a large amount of data quickly Lt; / RTI > In other words, in the future IT environment, various kinds of data are produced at a very high speed, and this means performance capable of storing, distributing, collecting and analyzing in real time.

또한, 형태의 다양성은 다양한 종류의 데이터를 의미하며, 일예로서 정형화의 종류에 따라 정형, 반정형 및 비정형 데이터로 분류될 수 있다.Also, the variety of forms means various types of data, and can be classified into stereotyped, semi-stereotyped, and non-stereotyped data according to the type of stereotyping as an example.

본 발명의 실시예에서는 이러한 빅데이터를 이용하여 다양한 분야에 대한 결과를 예측하는 시스템 및 방법은 제안하며, 이를 위해 데이터 마이닝 기법을 이용한다.In the embodiment of the present invention, a system and a method for predicting the results of various fields using such big data are proposed, and a data mining technique is used for this purpose.

데이터 마이닝(Data Mining)은 전술한 빅데이터 내 포함된 개체들간의 상관관계를 발견하여, 유용한 정보를 추출해내고 의사결정에 활용하는 과정으로 정의된다.Data mining is defined as the process of discovering the correlation between entities contained in the above-mentioned big data, extracting useful information, and utilizing it for decision making.

이러한 데이터 마이닝은 분류(Classification), 예측(Predication), 추정(Estimation), 군집화(Clustering) 및 유사집단화(Affinity Grouping) 등으로 구분될 수 있으며, 분류는 데이터내 개체들의 새로운 특성을 관찰하고 이를 미리 정의된 집단에 소속시키는 것이고, 예측은 아직 발생하지 않는 미래의 행위나 가치를 찾아내는 것이다.Such data mining can be classified into Classification, Predication, Estimation, Clustering, and Affinity Grouping. The classification is performed by observing new characteristics of entities in the data, It belongs to a defined group, and prediction is to find future actions or values that do not yet occur.

또한, 추정은 분류와 같이 이분 및 이산형 결과를 다루는 것이 아닌, 연속적인 결과를 찾아내는 것이고, 군집화는 이질적인 집단을 몇 개의 동질적인 소집단으로 세분화하는 것이며, 유사 집단화는 개체들 중, 어떤 것들이 함께 움직이는가를 결정하는 것이다.In addition, the estimation is to find successive results, not to deal with bipartite and discrete results, such as classification; clustering is to subdivide heterogeneous groups into several homogeneous subgroups; .

본 발명의 실시예에서는 이전부터 현재까지 축적된 스포츠 경기에 대한 경기정보를 빅데이터로 이용하여 데이터 마이닝 기법을 통해 분류기(Classifier)를 생성하고 결과를 예측하는 시스템 및 방법을 개시한다.In the embodiment of the present invention, a system and method for generating a classifier and predicting a result through a data mining technique using game information on a sports game accumulated from the past to the present are used as big data.

상세하게는, 두 팀의 시간별 경기내용에 따른 복수의 항목을 포함하는 로우 데이터를 수집하는 단계(S100)는 분석모델을 구축하고자 하는 학습 대상이 되는 로우 데이터를 수집하는 단계로서, 시스템 운용자는 두 팀에 의해 진행되는 축구와 같은 스포츠 경기에 대하여 경기내용에 대한 데이터를 로우 데이터로서 입력하여 결과예측 시스템에 그 입력되는 데이터를 수집하는 단계이다.Specifically, the step of collecting row data including a plurality of items according to the contents of the hourly games of the two teams collects raw data to be an object of learning to build an analysis model, The data on the game content is input as raw data to a sports game such as a soccer game played by the team, and the input data is collected in the result prediction system.

여기서, 기계학습의 대상이 되는 로우 데이터는 예측 대상이 되는 스포츠 분야의 경기내용과 관련된 다수의 항목을 포함하는 데이터일 수 있으며, 그 항목들은 시스템 운용자에 의해 선정될 수 있고, 선수이름을 식별코드로 하고 경기내용에 대한 항목을 필드로 하는 2차 매트릭스 형태의 데이터일 수 있다.Here, the row data to be subjected to the machine learning may be data including a plurality of items related to the game contents of the sports field to be predicted, the items may be selected by the system operator, And data of the second matrix may be used as fields of the game content.

다음으로, 로우 데이터를 가공하여 상기 항목에 대응하며 둘 이상의 클래스로 분류되는 복수의 특징을 포함하는 학습 데이터를 준비하는 단계(S110)는, 결과예측 시스템이 수집된 로우 데이터를 SVM 알고리즘에 적용할 수 있는 형태로 가공하는 단계이다.Next, the step of preparing learning data including a plurality of features corresponding to the items and processing the low data and classified into two or more classes (S110) may include applying the collected raw data to the SVM algorithm It is a step of machining into a form that can be made.

전술한 바와 같이, 로우 데이터는 복수의 항목에 대한 수치값을 갖는 2차 매트릭스 형태일 수 있고, S110 단계는 데이터의 전처리 단계로서, 후술하는 SVM 알고리즘에 대입할 수 있도록 식별코드마다 항목별 값을 갖는 형태의 학습 데이터로 변환하게 된다.As described above, the row data may be in the form of a second-order matrix having numerical values for a plurality of items. Step S110 is a step of preprocessing the data. In step S110, an item-specific value is set for each identification code so that it can be substituted into the SVM algorithm Into learning data in the form of having.

이어서, 시간범위를 설정하고, 상기 시간범위내 해당하는 학습 데이터를 SVM 알고리즘으로 학습시켜 분류기를 생성하는 단계(S120)는, 설정자가 자신의 의도에 따라 준비된 학습 데이터를 SVM 알고리즘을 적용하여 기계학습을 수행함으로써, 이분화된 결과를 획득할 수 있는 분류기를 생성하는 단계이다.The step of setting a time range and learning the corresponding learning data in the time range using the SVM algorithm (S120) includes a step S120 of applying the SVM algorithm to the learning data prepared according to the user's intention, , Thereby generating a classifier capable of obtaining the differentiated result.

여기서, SVM 알고리즘은 주로 다루고자 하는 데이터가 2개의 클래스로 분류될 때 사용하는 것으로, 본 발명에서는 과거 스포츠 경기에서 두 팀, 일 예로서 축구경기에서 두 팀의 경기 내용에 대한 데이터를 기계학습하여 승리 및 패배에 대한 모델을 생성하면, 상기 데이터의 항목 중 어떤 것이 승부에 높은 영향을 주는 지 판단할 수 있으며, 그 항목에 대하여 새로운 데이터를 입력하면 승부를 예측할 수 있게 된다. Here, the SVM algorithm is mainly used when the data to be handled is classified into two classes. In the present invention, data on the game contents of two teams in past sports games, for example, If a model for victory and defeat is created, it is possible to determine which of the items of data has a high influence on the game, and a new game can be predicted by inputting new data.

즉, 본 발명의 실시예에서는 데이터에 포함되는 개체로서 선수를 적용하며, 경기 수행에 따른 선수별 복수의 프로파일(profile) 중, 적어도 하나를 학습 데이터로 이용하게 된다.That is, in the embodiment of the present invention, a player is applied as an entity included in the data, and at least one of a plurality of profiles for each player according to a competition is used as learning data.

일 예로서, 과거 두 팀의 축구경기에서 개체별 발생한 복수의 행위 및 이에 대한 결과로서, 상기 프로파일은 경기 중 발생하는 선수별 골, 어시스트, 유효슈팅, 기타슈팅, 블록슛, 오프 사이드, 파울횟수, 파울당한 횟수, 옐로우 카드 받은 횟수, 레드 카드 받은 횟수, 패스성공률 및 점유율 등의 항목을 가리키며, 이를 학습 데이터로 이용하여 SVM 알고리즘에 기초한 기계학습을 통해 승부 및 패배의 두 클래스로 구분되는 분류기를 생성하고, 이후 경기에 대하여 상기 항목 중 어느 하나를 분류기에 입력하면 그 항목에 따른 결과가 어느 클래스에 속하는지, 즉 승리인지 패배인지를 예측할 수 있게 된다. As an example, as a result of a plurality of behaviors generated by an individual in a football game of the past two teams, and as a result thereof, the profile includes a player's goals, assists, effective shots, other shots, block shots, offside, It indicates items such as the number of fouls, the number of yellow cards received, the number of red cards received, the success rate of pass, and the share. Using this as learning data, a classifier classified into two classes, game and defeat, is created through machine learning based on the SVM algorithm Then, if any one of the above items is entered into the classifier for the subsequent game, it is possible to predict to which class the result according to the item belongs, namely, victory or defeat.

이러한 S120 단계를 세분화하면, 학습 데이터의 선형 또는 비선형 처리 설정을 입력받는 단계와, 복수의 특징을 SVM 함수의 독립변수로 입력받아 서포트 벡터를 생성하는 단계와, 서포트 벡터에 대응하여 초평면을 산출하는 단계로 구분할 수 있으며, 이하 각 단계를 수행하기 위해 도출되는 수학식을 통해 본 발명의 기술적 사상을 설명한다. The subdivision of step S120 may include receiving linear or nonlinear processing settings of learning data, generating a support vector by receiving a plurality of features as independent variables of the SVM function, and calculating a hyperplane corresponding to the support vector And the technical idea of the present invention will be described by the mathematical formula derived for performing each step below.

상세하게는, SVM 알고리즘은 도 2a에 나타난 바와 같이, 복수의 샘플 '△', '○' 들이 각각 제1 및 제2 클래스로 분리되는 직선(y)에 기초한 초평면(Hyperplane)을 찾는 것으로서, 이를 수학식으로 나타나면 이하의 수학식 1과 같다.More specifically, the SVM algorithm finds a hyperplane based on a straight line (y) in which a plurality of samples '?' And '?' Are divided into first and second classes, respectively, (1) " (1) "

Figure 112017025544316-pat00001
Figure 112017025544316-pat00001

여기서, ω는 직선에 수직인 법선 벡터로서, 크기는 ∥ω∥이며, 직선을 회전시키는 성질을 가질 수 있다. 또한, b는 스칼라 상수이고, x는 임의의 데이터 벡터가 된다.Here, [omega] is a normal vector perpendicular to the straight line, the size is [omega] [theta], and it can have a property of rotating a straight line. B is a scalar constant, and x is an arbitrary data vector.

다음으로, 수학식 1에 기초하여 두 클래스의 첫 데이터(x1, x2)와 각각 만나는 두 직선(y)이 1, -1이라 하면, 이하의 수학식 2가 된다.Next, based on Equation ( 1 ), if the two straight lines (y) which respectively meet the first data (x 1 , x 2 ) of the two classes are 1, -1,

Figure 112017025544316-pat00002
Figure 112017025544316-pat00002

Figure 112017025544316-pat00003
Figure 112017025544316-pat00003

여기서, x1, x2을 서포트 벡터(support vector)라 한다. 이때, 두 직선간의 마진(M)은 서포트 벡터의 ω방향 성분이 된다.Here, x 1 and x 2 are referred to as a support vector. At this time, the margin (M) between the two straight lines becomes the ω direction component of the support vector.

따라서, 이하의 수학식 3과 같이 마진(M)은 이하의 수학식 3을 만족한다.Therefore, the margin M satisfies the following equation (3) as shown in the following equation (3).

Figure 112017025544316-pat00004
Figure 112017025544316-pat00004

여기서, 마진(M)을 최대화 시키기 위해서는 ∥ω∥가 최소가 되도록 해야 함을 알 수 있고, 이는

Figure 112017025544316-pat00005
로 바꿀 수 있다.Here, in order to maximize the margin M, it can be seen that < RTI ID = 0.0 >
Figure 112017025544316-pat00005
.

그리고, 두 클래스에 속한 모든 데이터(xi)는 조건식으로서 이하의 수학식 4를 만족해야 한다.All data (x i ) belonging to the two classes must satisfy the following expression (4) as a conditional expression.

Figure 112017025544316-pat00006
Figure 112017025544316-pat00006

Figure 112017025544316-pat00007
Figure 112017025544316-pat00007

이에 따라, 임의의 데이터(xi1)가 제1 클래스에 있으면 yi≥1이고, 임의의 데이터(xi2)가 제2 클래스에 있으면 yi ≤-1이 됨에 따라, 하나의 식으로 표현하면 다음의 수학식 5와 같다.Accordingly, if y i ≥1 if any data x i1 is in the first class and y i ≤-1 if any data x i2 is in the second class, (5) " (5) "

Figure 112017025544316-pat00008
Figure 112017025544316-pat00008

상기의 수학식 5를 조건으로 하여, 목적함수인

Figure 112017025544316-pat00009
에 대한 최적화 문제는 수학식 6의 최적화 문제로 변환할 수 있다.Under the condition of Equation (5) above,
Figure 112017025544316-pat00009
Can be transformed into the optimization problem of Equation (6).

Figure 112017025544316-pat00010
Figure 112017025544316-pat00010

여기서, αi는 라그랑지 승수(Lagrange multiplier)로서, 최소값을 구하는 최적화 문제에서는 αi≥0이 되며, 편미분을 수행하면 ω에 대한 식인 수학식 7로 표현할 수 있다.Here, α i is a Lagrange multiplier, and α i ≥0 in the optimization problem in which the minimum value is obtained, and Equation (7), which is an expression for ω, when the partial differential is performed.

Figure 112017025544316-pat00011
Figure 112017025544316-pat00011

상기 수학식 7을 수학식 6에 대입하면, 다음과 같다.Substituting Equation (7) into Equation (6), it is as follows.

Figure 112017025544316-pat00012
Figure 112017025544316-pat00012

한편, 학습 데이터에 이용되는 행렬(H)로 나타내면 수학식 9로 나타낼 수 있다.On the other hand, the equation (9) can be expressed by a matrix H used for learning data.

Figure 112017025544316-pat00013
Figure 112017025544316-pat00013

이에 따라, 수학식 8을 αi의 최소값을 구하는 식으로 변환하고, 상기 수학식 9를 대입하면, 이하의 수학식 10으로 변환할 수 있으며, 이를 경사감소법 등을 통해 α를 산출할 수 있다.Accordingly, when Equation (8) is converted into Equation (8) to obtain the minimum value of? I , and Equation (9) is substituted, it can be converted into Equation (10) below, .

Figure 112017025544316-pat00014
Figure 112017025544316-pat00014

또한, 상기 수학식 5에 기초하여 b에 관한 식인 수학식 11로 변환하면 b를 산출할 수 있다.Further, based on Equation (5), b can be calculated by converting to Equation (11), which is an equation relating to b.

Figure 112017025544316-pat00015
Figure 112017025544316-pat00015

여기서, 전술한 수학식 1 내지 11에 따라 ω 및 b를 산출함으로써, 초평면을 산출할 수 있으며, 분류기를 생성하게 된다.Here, by calculating? And b according to the above-described Equations 1 to 11, it is possible to calculate a hyperplane and generate a classifier.

한편, 전술한 SVM 알고리즘은 두 클래스를 엄격하게 분리하는 경계식을 산출하는 하드마진(Hard Margin) 방식으로서, 학습 데이터의 양이 커지면 도 2b에 도시된 바와 같이, 입력공간의 초평면이 선형이 아닌 비선형형태가 되며 노이즈 발생률이 증가하게 된다. 이러한 문제를 개선하게 위해 차원을 높여 특성공간을 3차 평면으로 변환하여 클래스를 구분하는 소프트 마진(Soft Margin) 방식이 제안되었다. On the other hand, the SVM algorithm described above is a hard margin method for calculating a boundary equation that strictly separates two classes. When the amount of learning data increases, as shown in FIG. 2B, the hyperplane of the input space is not linear It becomes a nonlinear shape and the noise generation rate is increased. In order to improve these problems, a soft margin method has been proposed in which classes are classified by converting the characteristic space into a tertiary plane by raising the dimension.

상세하게는, 수학식 12와 같이 선형분리가 가능하도록 한 차원 높은 공간으로 변환한다. More specifically, it transforms into a higher-dimensional space such that linear separation is possible as shown in Equation (12).

Figure 112017025544316-pat00016
Figure 112017025544316-pat00016

그리고, 스칼라 곱이 용이한 변환함수를 선정한다. 이러한 변환함수의 예는 수학식 13에 나타내었다.Then, a conversion function that is easy to perform scalar multiplication is selected. An example of such a transform function is shown in Equation (13).

Figure 112017025544316-pat00017
Figure 112017025544316-pat00017

상기의 수학식 12, 13을 통해 학습 데이터의 행렬(H)을 계산하면 다음과 같다.The matrix H of the learning data is calculated through Equations (12) and (13) as follows.

Figure 112017025544316-pat00018
Figure 112017025544316-pat00018

상기의 수학식 14에서 변환함수끼리 스칼라 곱 등을 모아놓은 집합을 커널(kernel)이라 한다. 커널은 선형 분류가 어려운 분포를 선형 분류가 가능한 한 차원이 증가된 공간으로 변환시킴에 따라, 행렬(H)을 용이하게 산출할 수 있게 된다. 이러한 커널로는 다항식 커널, 쌍곡 탄젠트 커널 등이 있다. 따라서, 초평면은 커널함수에 의한 커널트릭(Kernel Trick)을 통해 직선이 아닌 평면형태로 정의되게 된다.In the above Equation (14), a set of scalar multiplications among conversion functions is called a kernel. The kernel can easily calculate the matrix H by transforming the distribution which is difficult to linearly classify into a space with one dimension that is linearly classifiable. Such kernels include polynomial kernels and hyperbolic tangent kernels. Therefore, the hyperplane is defined as a plane shape rather than a straight line through a kernel trick by a kernel function.

전술한 절차에 따라 분류기를 생성하면, 이후 예측하고자 하는 질의 데이터를 입력하여 클래스를 판단하게 된다. When the classifier is generated according to the above-described procedure, the class is determined by inputting query data to be predicted thereafter.

도 1을 다시 참조하면, 분류기를 이용하여 질의 데이터가 속한 클래스를 예측하는 단계(S130)는 분류기에 예측하고자 하는 질의 데이터를 입력하여 이분화된 결과 즉, 승리 또는 패배 중 어느 클래스에 속하는지 산출하여 예측 데이터를 출력하는 단계이다.Referring back to FIG. 1, in step S130 of predicting the class to which the query data belongs using the classifier, the query data to be predicted is input to the classifier, and the classification result, that is, And outputting the prediction data.

특히, 질의 데이터는 학습 데이터와 동일한 종류의 하나 이상의 항목으로 이루어질 수 있으며, 그 항목을 입력하였을 때, 입력된 항목에 따라 해당 팀이 어느 클래스에 속하는지 분류됨에 따라 승부를 예측할 수 있게 된다.In particular, the query data can be composed of one or more items of the same kind as the learning data. When the items are input, the game can be predicted according to the classification of the classes belonging to the corresponding team according to the input items.

또한, 본 발명의 실시예에 따르면, 기계학습 과정과는 별도로 질의 데이터가 속한 클래스를 예측하는 단계 이후, 각 클래스별 속한 상기 독립변수간 비율을 산출하는 단계 및, 비율에 비례하여 각 독립변수에 가중치를 적용하는 단계를 수행하여 현재 분석모델의 정확도를 확인하는 절차를 더 수행할 수 있다.According to an embodiment of the present invention, there is provided a method for estimating a class of a query data, the method comprising: calculating a ratio between the independent variables belonging to each class, A step of applying weights may be performed to further confirm the accuracy of the current analysis model.

이하, 도면을 참조하여, 본 발명의 실시예에 따른 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템을 설명한다.Hereinafter, a result prediction system using big data based on a data mining technique according to an embodiment of the present invention will be described with reference to the drawings.

이하의 설명에서, 결과예측 시스템은 컴퓨팅 장치에서 실행되며, 그 구성부 및 이에 포함되는 모듈들은 소정의 프로그래밍 언어로 작성되어 기록매체에 기록된 프로그램 형태로 구현될 수 있다.In the following description, the result prediction system is implemented in a computing device, and its components and the modules included therein may be implemented in a program form written in a predetermined programming language and recorded in a recording medium.

도 3은 본 발명의 실시예에 따른 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템의 구조를 나타낸 도면이다.3 is a diagram illustrating a structure of a result prediction system using big data based on a data mining technique according to an embodiment of the present invention.

도 3을 참조하면, 본 발명의 결과예측 시스템(100)은 두 팀의 시간별 경기내용에 따른 복수의 항목을 포함하는 로우 데이터를 수집하는 데이터 수집부(110), 로우 데이터를 가공하여, 항목에 대응하며 둘 이상의 클래스로 분류되는 복수의 특징을 포함하는 학습 데이터를 제공하는 전처리부(120), 시간범위를 설정하고, 상기 시간범위내 해당하는 학습 데이터를 SVM 알고리즘으로 학습시켜 분류기를 생성하는 SVM부(130) 및, 분류기를 이용하여 질의 데이터가 속한 클래스를 예측하는 예측부(140)를 포함할 수 있다.3, the result prediction system 100 of the present invention includes a data collecting unit 110 for collecting raw data including a plurality of items according to contents of time-series games of two teams, A preprocessing unit 120 for providing learning data including a plurality of features corresponding to at least two classes, a SVM for setting a time range and learning the corresponding learning data in the time range using an SVM algorithm, And a prediction unit 140 for predicting a class to which the query data belongs using the classifier.

데이터 수집부(110)는 분석모델을 구축하고자 하는 학습 대상이 되는 로우 데이터를 수집하는 역할을 한다. 본 발명의 결과예측 시스템은 승리 또는 패배와 같이 이분화된 결과를 갖는 스포츠 경기에 대한 분석모델을 제공하기 위한 것으로서, 시스템 운용자에 의해 선정된 다수의 로우 데이터를 수집한다.The data collecting unit 110 collects raw data to be a learning target for building an analysis model. The result prediction system of the present invention is to provide an analysis model for sports events having differentiated results such as victory or defeat, and collects a plurality of row data selected by the system operator.

여기서, 기계학습의 대상이 되는 로우 데이터는 경기 수행에 따른 개체별 복수의 프로파일들로서, 예측 대상이 되는 스포츠 분야의 경기내용과 관련된 다수의 항목을 포함하는 데이터일 수 있으며, 개체는 각 선수일 수 있고, 상기 항목으로는 축구경기의 경우, 그에 참여한 두 팀에 소속된 각 선수들의 골, 어시스트, 유효슈팅, 기타슈팅, 블록슛, 오프 사이드, 파울횟수, 파울당한 횟수, 옐로우 카드 받은 횟수, 레드 카드 받은 횟수, 패스성공률 및 점유율 등을 포함할 수 있다.Here, the raw data to be subjected to the machine learning may be data including a plurality of items related to the contents of a game in the sports field to be predicted, In the case of a soccer game, the above items include the goals, assists, effective shots, other shots, block shots, offside, number of fouls, number of fouls, number of yellow cards received, The number of times of receipt, the pass success rate, and the share of the pass.

특히, 로우 데이터는 선수이름을 식별코드로 하고 경기내용에 대한 항목을 필드로 하는 2차 매트릭스 형태의 데이터 일 수 있고, 전처리부(120)는 그 2차 매트릭스상의 식별코드별 필드값이 SVM부에 입력될 수 있도록 변환하게 된다.In particular, the row data may be data of a secondary matrix type having an item name as an identification code and an item of a game content as a field, and the preprocessing unit 120 prepares a field value of each ID code on the secondary matrix, As shown in FIG.

즉, 전처리부(120)는 수집된 로우 데이터를 SVM 알고리즘에 적용할 수 있는 형태로 가공하는 역할을 한다. 로우 데이터는 복수의 항목에 대한 수치값을 가지며, 식별코드마다 항목별 값을 갖는 형태의 학습 데이터로 변환하여, SVM부(130)에 독립변수의 값으로 입력되게 된다. That is, the preprocessing unit 120 processes the collected raw data into a form applicable to the SVM algorithm. The row data has a numeric value for a plurality of items and is converted into learning data of a form having a value for each item for each identification code, and is input to the SVM unit 130 as the value of the independent variable.

SVM부(130)는 전처리부(120)로부터 제공되는 학습 데이터에 대응하여 분석모듈을 생성하는 역할을 한다.The SVM unit 130 generates an analysis module corresponding to the learning data provided from the preprocessing unit 120.

즉, SVM부(130)는 서포트 벡터 머신 알고리즘에 근거한 학습머신으로서, 학습 데이터에 포함된 각 항목들의 값에 따라 승패를 분류하는 초평면을 포함하는 분류기를 생성하게 된다.That is, the SVM unit 130 is a learning machine based on a support vector machine algorithm, and generates a classifier including a hyperplane for classifying win / lose according to the value of each item included in the learning data.

여기서, 학습 데이터에 포함되는 수치값은 형(type)에 따라 학습머신 내 정수(int), 실수(float) 등으로 선언된 변수에 입력되며, 전술한 수학식 1 내지 14에 따라 산출된 초평면을 통해 어느 하나의 클래스로 구분되게 된다. Here, the numerical value included in the learning data is input to a variable declared as an integer (int), a float, or the like in the learning machine according to the type, and the hyperplane calculated according to the above-described Equations 1 to 14 The class is divided into one class.

이러한 기능을 구현하기 위해, SVM부(130)는 학습 데이터의 선형 또는 비선형 처리 설정을 입력받는 타입 결정모듈(121)과, 복수의 특징마다 상기 클래스에 대응하는 분류라벨을 설정받는 라벨 설정모듈(122)과, 학습 데이터를 SVM 함수의 독립변수로 입력받아 서포트 벡터를 생성하는 벡터 생성모듈(123)과, 서포트 벡터에 대응하여 초평면을 산출하는 초평면 산출모듈(124)을 포함할 수 있다.In order to implement this function, the SVM unit 130 includes a type determination module 121 that receives linear or nonlinear processing settings of learning data, a label setting module 121 that sets a classification label corresponding to the class for each of a plurality of features A vector generation module 123 that receives the training data as independent variables of the SVM function and generates a support vector, and a hyperplane calculating module 124 that calculates a hyperplane corresponding to the support vector.

특히, 타입 결정모듈(121)은 입력되는 학습 데이터의 양에 따라 최적의 SVM 알고리즘 선정을 위해 선형 또는 비선형과 같은 타입을 입력받게 되며, 그 타입에 대응하여 분류기를 생성하기 위한 SVM 알고리즘이 확정된다.In particular, the type determination module 121 receives a type such as linear or non-linear for selecting an optimal SVM algorithm according to the amount of input learning data, and an SVM algorithm for creating a classifier corresponding to the type is determined .

SVM 알고리즘이 확정되면, 벡터 생성모듈(132)은 전술한 수학식 1 내지 14에 따라 서포트 벡터를 생성하고, 초평면 산출모듈(133)은 초평면을 산출함으로써 분류기를 생성하게 된다. When the SVM algorithm is determined, the vector generation module 132 generates the support vector according to Equations 1 to 14 described above, and the hyperplane calculating module 133 generates the classifier by calculating the hyperplane.

예측부(140)는 상기 분류기에 예측하고자 하는 질의 데이터(query_data)를 입력하여 이분화된 결과 즉, 승리 또는 패배 중 어느 클래스에 속하는지 산출하여 예측 데이터(predict_data)를 출력하는 역할을 한다. The predicting unit 140 inputs the query data (query_data) to be predicted to the classifier and calculates which class of the classified result, namely, victory or defeat, and outputs the predicted data (predict_data).

여기서, 질의 데이터(query_data)는 학습 데이터와 동일한 종류의 하나 이상의 항목으로 이루어질 수 있으며, 그 항목을 입력하였을 때, 예측 데이터(predict_data)로서, 입력된 항목이 어느 클래스에 해당 팀이 어디에 속하는지 분류됨에 따라 승부를 예측할 수 있게 된다.Here, the query data (query_data) may be composed of one or more items of the same kind as the learning data. When the item is input, the predicted data (predict_data) As a result, the game can be predicted.

또한, 도시되어 있지는 않지만, 예측 이후 예측 데이터(predict_data)와 실제 경기결과를 대조하여 생성된 분류기의 정확도를 산출할 수 있다.Although not shown, it is possible to calculate the accuracy of the classifier generated by comparing the predicted data (predict_data) after the prediction with the actual game result.

이러한 기능을 구현하기 위해, 예측부(140)는 각 클래스별 속한 독립변수의 비율을 산출하는 비율 산출모듈(141) 및 그 비율에 비례하여 각 독립변수에 가중치를 적용하는 가중치 설정모듈(142)을 포함할 수 있다.In order to realize this function, the prediction unit 140 includes a ratio calculation module 141 for calculating a ratio of independent variables belonging to each class, a weight setting module 142 for applying a weight to each independent variable in proportion to the ratio, . ≪ / RTI >

이하, 도면을 참조하여 본 발명의 실시예에 따른 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템에서 이용되는 로우 데이터 형태의 일 예를 통해 본 발명에서 학습 데이터를 도출하는 기법을 설명한다.Hereinafter, a method of deriving learning data in the present invention will be described with reference to an example of a row data type used in a result prediction system using big data based on a data mining technique according to an embodiment of the present invention, with reference to the drawings.

도 4a 및 도 4b는 본 발명의 실시예에 따른 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템에서 이용되는 로우 데이터의 일 예를 표로 나타낸 도면이다.4A and 4B are tables showing an example of row data used in a result prediction system using big data based on a data mining technique according to an embodiment of the present invention.

도 4a 및 도 4b를 참조하면, 본 발명의 결과예측 시스템은 축구경기와 같이 두 팀이 경기를 진행함에 따라 시간별 발생하는 선수들의 행위에 대하여 승패에 영향을 주는 소정의 항목을 이용한 학습 데이터를 통해 기계학습을 수행하고 분류기를 생성하게 된다.Referring to FIGS. 4A and 4B, the result prediction system of the present invention is a system for predicting the performance of a player who occurs in time according to progress of a game, such as a football game, through learning data using a predetermined item Perform machine learning and generate classifiers.

즉, 본 발명의 실시예에 따른 결과예측 시스템은 경기 수행에 따른 선수별 복수의 프로파일 중, 적어도 하나를 학습 데이터의 인자로 이용하여 분석모델을 생성하게 된다.That is, the result prediction system according to the embodiment of the present invention generates an analysis model by using at least one of a plurality of profiles for each player according to a competition as a factor of learning data.

도 4a 및 도 4b는 과거 발생한 'Everton' 및 'Liverpool'간의 축구경기에서 발생한 두 팀의 선발선수들의 경기내용에 대응하는 데이터(200, 210)를 나타내고 있으며, 이러한 로우 데이터는 경기시작 후 특정시간에서의 데이터이다. FIGS. 4A and 4B show data 200 and 210 corresponding to the game contents of the players of the two teams, which occurred in the soccer game between 'Everton' and 'Liverpool' which occurred in the past, As shown in FIG.

경기내용에 포함되는 각 항목들(202)은 골(G), 어시스트(A), 유효슈팅(GA), 기타슈팅(SG), 블록슛(BS), 오프 사이드(O), 파울횟수(FC), 파울당한 횟수(FS), 옐로우 카드 받은 횟수(YC), 레드 카드 받은 횟수(RC), 패스성공률(PS) 및 점유율(TP)로 이루어질 수 있고, 선수명(201)을 식별코드로 하여 각 항목을 학습 데이터의 독립변수로 입력하게 된다.Each item 202 included in the game content includes a goal G, an assist A, an effective shot GA, another shooting SG, a block shoot BS, an offside O, a foul count FC, , The number of fouls (FS), the number of yellow cards received (YC), the number of red cards received (RC), the pass success rate (PS), and the occupancy rate (TP) Is input as an independent variable of the learning data.

특히, 전술한 데이터는 경기시작 후 특정시점까지의 데이터로서, 이전 시간에서의 데이터를 더 수집할 수 있으며, 시스템 운용자의 의도에 따라 각 시간별 로우 데이터를 모두 전처리부(120)에 입력하여 학습 데이터로 이용함으로써 분석모델을 구축하게 된다.Particularly, the above-described data can collect more data at a previous time as data up to a specific time point after the game starts, input all the raw data for each time into the preprocessor 120 according to the intention of the system operator, The analysis model is constructed.

또한, 예시된 로우 데이터(200, 210)는 경기 종료시 'Everton'이 'Liverpool'를 상태로 1:0으로 승리한 경기로서, 'Liverpool' 데이터(210)의 'Mane S.'의 골(G) 항목의 값이 결정적이며, 본 로우 데이터(200)에 따르면, 'Mane S.'를 식별코드로 하는 항목들이 식별코드의 항목보다 승리에 가장 많은 영향을 주는 것으로 볼 수 있으며, 이러한 항목들은 분석모델의 생성 이후, 예측을 위한 질의 데이터의 입력시 해당 선수 또는 항목에 대하여 비율을 산출하고 가중치를 설정하여 예측성능을 더욱 향상시킬 수 있다.In addition, the illustrated low data 200 and 210 are games in which 'Everton' has won 1: 0 with 'Liverpool' at the end of the game, and the score of 'Mane S.' in the 'Liverpool' ) Item is deterministic. According to the raw data 200, items having 'Mane S.' as an identification code have the greatest influence on victory over items of identification code, and these items are analyzed After the generation of the model, the prediction performance can be further improved by calculating the ratios and setting the weights for the corresponding player or item when inputting the query data for prediction.

상기한 설명에 많은 사항이 구체적으로 기재되어 있으나 이것은 발명의 범위를 한정하는 것이라기보다 바람직한 실시예의 예시로서 해석되어야 한다. 따라서, 발명은 설명된 실시예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위에 균등한 것에 의하여 정하여져야 한다.While a great many are described in the foregoing description, it should be construed as an example of preferred embodiments rather than limiting the scope of the invention. Accordingly, the invention is not to be determined by the embodiments described, but should be determined by equivalents to the claims and the appended claims.

100 : 결과예측 시스템 110 : 데이터 수집부
120 : 전처리부 130 : SVM부
131 : 타입결정모듈 132 : 벡터생성모듈
133 : 초평면 산출모듈 140 : 예측부
141 : 비율산출모듈 142 : 가중치 설정모듈
100: result prediction system 110: data collection unit
120: preprocessing unit 130: SVM unit
131: type determination module 132: vector generation module
133: hyperplane calculating module 140: predictor
141: Rate calculation module 142: Weight setting module

Claims (12)

삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 수집된 빅데이터를 전처리하고, 데이터 마이닝 기법에 기반하여 학습 데이터에 포함되는 개체의 현상 및 특성을 추출하며, 추출결과에 따라 생성된 분석모델에 질의 데이터를 입력하여 적어도 둘 이상의 클래스로 구분되는 이분적 예측결과를 제공하는 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템으로서,
두 팀의 시간별 경기내용에 따른 개체의 프로파일을 포함하는 빅데이터를 로우 데이터로서 수집하는 데이터 수집부; 상기 로우 데이터를 가공하여, 상기 프로파일에 대응하며 상기 클래스로 분류되는 복수의 특징을 포함하는 학습 데이터를 제공하는 전처리부; 시간범위를 설정하고, 상기 시간범위 내 학습 데이터를 SVM 알고리즘으로 학습시켜 분류기를 생성하는 SVM부; 및 상기 분류기를 이용하여 질의 데이터가 속한 클래스를 예측하는 예측부를 포함하는 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템.
Extracting phenomena and characteristics of entities included in the learning data based on the data mining technique, inputting query data into the analysis model generated according to the extraction result, As a result prediction system using big data based on a data mining technique that provides partial prediction results,
A data collecting unit for collecting, as raw data, big data including a profile of an individual according to the contents of time-series games of the two teams; A preprocessor for processing the raw data to provide learning data corresponding to the profile and including a plurality of features classified into the class; An SVM unit for setting a time range and learning the learning data in the time range with an SVM algorithm to generate a classifier; And a predictor for predicting a class to which the query data belongs using the classifier, based on the data mining technique.
제 7 항에 있어서,
상기 경기내용은 축구경기의 경기내용이며, 상기 개체는 선수의 이름이고 상기 프로파일은 상기 선수의 골, 어시스트, 유효슈팅, 기타 슈팅, 블록슛, 오프 사이트, 파울횟수, 파울당한 횟수, 옐로우 카드 받은 횟수, 레드 카드 받은 횟수, 패스 성공률, 및 점유율을 포함하는 상기 선수의 경기내용에 대한 항목인 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템.
8. The method of claim 7,
The game content is a game content of a soccer game, the object is a name of a player, and the profile includes a player's goal, assist, effective shooting, other shooting, block shoot, offsite, number of fouls, number of fouls, , The number of times the red card was received, the pass success rate, and the share of the player.
제 7 항에 있어서,
상기 SVM부는,
상기 학습 데이터의 선형 또는 비선형 처리 설정을 입력받는 타입 결정모듈;
상기 복수의 특징마다 상기 클래스에 대응하는 분류라벨을 설정받는 라벨 설정모듈;
상기 학습 데이터 내 포함된 프로파일을 SVM 함수의 독립변수로 입력받아 서포트 벡터를 생성하는 벡터 생성모듈; 및
상기 서포트 벡터에 대응하여 초평면을 산출하는 초평면 산출모듈
을 포함하는 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템.
8. The method of claim 7,
The SVM unit,
A type determination module that receives linear or nonlinear processing settings of the learning data;
A label setting module that sets a classification label corresponding to the class for each of the plurality of features;
A vector generation module receiving the profile included in the learning data as an independent variable of the SVM function and generating a support vector; And
A hyperplane calculating module for calculating a hyperplane corresponding to the support vector
Based on the data mining technique.
제 9 항에 있어서,
상기 예측부는,
각 클래스별 속한 상기 독립변수의 비율을 산출하는 비율 산출모듈; 및
상기 비율에 비례하여 각 독립변수에 가중치를 적용하는 가중치 설정모듈
을 포함하는 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템.
10. The method of claim 9,
The predicting unit,
A ratio calculating module for calculating a ratio of the independent variable belonging to each class; And
A weight setting module that applies a weight to each independent variable in proportion to the ratio
Based on the data mining technique.
제 9 항에 있어서,
상기 SVM부는,
상기 초평면에 대하여, 상기 독립변수를 제1 및 제2 클래스로 분류하는 2차 평면상의 직선으로 정의하는 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템.
10. The method of claim 9,
The SVM unit,
A result prediction system using big data based on a data mining technique in which the hyperplane is defined as a straight line on a secondary plane that classifies the independent variable into first and second classes.
제 9 항에 있어서,
상기 SVM부는
상기 초평면에 대하여 상기 독립변수를 커널트릭을 통해 제1 및 제2 클래스로 분류하는 3차 공간내 평면으로 정의하는 데이터 마이닝 기법에 기반한 빅데이터를 이용한 결과예측 시스템.
10. The method of claim 9,
The SVM unit
Wherein the independent variable is defined as a plane in a cubic space that classifies the independent variable into a first class and a second class through the kernel trick for the hyperplane.
KR1020170032322A 2017-03-15 2017-03-15 System for predicting decision using big data based on data mining techniques and method therefor KR101844874B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170032322A KR101844874B1 (en) 2017-03-15 2017-03-15 System for predicting decision using big data based on data mining techniques and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170032322A KR101844874B1 (en) 2017-03-15 2017-03-15 System for predicting decision using big data based on data mining techniques and method therefor

Publications (1)

Publication Number Publication Date
KR101844874B1 true KR101844874B1 (en) 2018-04-04

Family

ID=61975622

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170032322A KR101844874B1 (en) 2017-03-15 2017-03-15 System for predicting decision using big data based on data mining techniques and method therefor

Country Status (1)

Country Link
KR (1) KR101844874B1 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200046147A (en) * 2018-10-15 2020-05-07 장수진 Artificial Intelligence football game analysis method based on application, football game analysis application for the same, and computer-readable recording medium with providing program of Artificial Intelligence football game analysis
KR20200096037A (en) * 2019-02-01 2020-08-11 숭실대학교산학협력단 Method and apparatus for predicting result of game
KR20200131142A (en) * 2019-05-13 2020-11-23 숭실대학교산학협력단 Method and apparatus for predicting the result of games
KR20210136828A (en) * 2020-05-08 2021-11-17 가부시키가이샤 덴츠 win-loss prediction system
KR20230139005A (en) 2022-03-25 2023-10-05 김성윤 Result prediction system for a game of League of Legends

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016126718A (en) 2015-01-08 2016-07-11 日本電信電話株式会社 Time series data prediction device and time series data prediction method
US20160224896A1 (en) 2015-02-03 2016-08-04 International Business Machines Corporation Group generation using sets of metrics and predicted success values

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016126718A (en) 2015-01-08 2016-07-11 日本電信電話株式会社 Time series data prediction device and time series data prediction method
US20160224896A1 (en) 2015-02-03 2016-08-04 International Business Machines Corporation Group generation using sets of metrics and predicted success values

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Chinwe Peace Igiri. Support Vector Machine-Based Prediction System for a Football Match Result. IOSR Journal of Computer Engineering. 2015년.

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200046147A (en) * 2018-10-15 2020-05-07 장수진 Artificial Intelligence football game analysis method based on application, football game analysis application for the same, and computer-readable recording medium with providing program of Artificial Intelligence football game analysis
KR102149581B1 (en) * 2018-10-15 2020-08-28 장수진 Artificial Intelligence football game analysis method based on application, football game analysis application for the same, and computer-readable recording medium with providing program of Artificial Intelligence football game analysis
KR20200096037A (en) * 2019-02-01 2020-08-11 숭실대학교산학협력단 Method and apparatus for predicting result of game
KR102186949B1 (en) * 2019-02-01 2020-12-04 숭실대학교산학협력단 Method and apparatus for predicting result of game
KR20200131142A (en) * 2019-05-13 2020-11-23 숭실대학교산학협력단 Method and apparatus for predicting the result of games
KR102253373B1 (en) * 2019-05-13 2021-05-18 숭실대학교산학협력단 Method and apparatus for predicting the result of games
KR20210136828A (en) * 2020-05-08 2021-11-17 가부시키가이샤 덴츠 win-loss prediction system
KR102443007B1 (en) * 2020-05-08 2022-09-15 가부시키가이샤 덴츠 win-loss prediction system
KR20230139005A (en) 2022-03-25 2023-10-05 김성윤 Result prediction system for a game of League of Legends

Similar Documents

Publication Publication Date Title
KR101844874B1 (en) System for predicting decision using big data based on data mining techniques and method therefor
Spearman et al. Physics-based modeling of pass probabilities in soccer
KR101796667B1 (en) System and method for alalyzing time series data using mining techniques based on clustering and association rule in big data environments
EP3473016B1 (en) Method and system for automatically producing video highlights
Vistro et al. The cricket winner prediction with application of machine learning and data analytics
KR102186949B1 (en) Method and apparatus for predicting result of game
Warnakulasuriya et al. Discovering methods of scoring in soccer using tracking data
KR101764227B1 (en) Interface providing system for predicting-analysing sprots game using data mining based on sports big data and method predicting-analysing sprots game using the same
US10664691B2 (en) Method and system for automatic identification of player
Migliorati Detecting drivers of basketball successful games: an exploratory study with machine learning algorithms
Weeratunga et al. Application of computer vision and vector space model for tactical movement classification in badminton
Umemoto et al. Location analysis of players in UEFA EURO 2020 and 2022 using generalized valuation of defense by estimating probabilities
Barbon Junior et al. Sport action mining: Dribbling recognition in soccer
Host et al. Action recognition in handball scenes
Wang et al. How is the stroke? inferring shot influence in badminton matches via long short-term dependencies
Liu et al. Research on action recognition of player in broadcast sports video
Adachi et al. Classifying the strategies of an opponent team based on a sequence of actions in the RoboCup SSL
Wu et al. Evaluation of off-the-ball actions in soccer
Yu et al. Framework for analysis and prediction of NBA basketball plays: On-ball screens
KR20190105171A (en) Apparatus and method for predicting result of game using predictive model of game result
JP2018198870A (en) Evaluation device, evaluation method, program, and information recording media
CN116324668A (en) Predicting NBA zenithal and quality from non-professional tracking data
JP2017209237A (en) Attack pattern extraction apparatus, attack pattern display device, attack pattern extraction method, attack pattern display method, and attack pattern extraction program
Patton et al. Predicting nba talent from enormous amounts of college basketball tracking data
Skoki et al. ML-Based Approach for NFL Defensive Pass Interference Prediction Using GPS Tracking Data

Legal Events

Date Code Title Description
GRNT Written decision to grant