KR20190062848A - System of big data mining using incremental learning and a method thereof - Google Patents

System of big data mining using incremental learning and a method thereof Download PDF

Info

Publication number
KR20190062848A
KR20190062848A KR1020170161455A KR20170161455A KR20190062848A KR 20190062848 A KR20190062848 A KR 20190062848A KR 1020170161455 A KR1020170161455 A KR 1020170161455A KR 20170161455 A KR20170161455 A KR 20170161455A KR 20190062848 A KR20190062848 A KR 20190062848A
Authority
KR
South Korea
Prior art keywords
data
unit
interface
learning model
big data
Prior art date
Application number
KR1020170161455A
Other languages
Korean (ko)
Inventor
최미숙
Original Assignee
주식회사 비네아
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 비네아 filed Critical 주식회사 비네아
Priority to KR1020170161455A priority Critical patent/KR20190062848A/en
Publication of KR20190062848A publication Critical patent/KR20190062848A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a big data mining system using an incremental learning model, and to a method thereof. More specifically, the big data mining system distinguishes and processes typical data and atypical data, generates a unit classifier without depending on an existing feature reduction technique, uses a mass storage classifier generated in accordance with dynamic combination to freely learn a large amount of documents, processes the data in real time or in semi-real time by additionally reflecting only changing factors when additionally changing partial features, loads the data into distributed parallel frameworks by using modular algorithms, and provides an interface in consideration of the user convenience.

Description

점진적 학습 모델을 이용한 빅데이터 마이닝 시스템 및 그 방법{SYSTEM OF BIG DATA MINING USING INCREMENTAL LEARNING AND A METHOD THEREOF}TECHNICAL FIELD [0001] The present invention relates to a large data mining system using progressive learning models,

본 발명은 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템 및 그 방법에 관한 것으로서, 더욱 상세하게는 정형 데이터 및 비정형 데이터를 구분하여 처리하며, 기존의 자질축소 기법에 의존하지 않고 단위 분류기 생성 및 동적 결합에 따라 생성되는 대용량 분류기를 이용하여 대량의 문서를 자유롭게 학습하고 부분적인 자질추가 변경 시에 변경요소만을 추가 반영함으로써 실시간/준실시간 처리가 가능하며, 모듈화 알고리즘을 이용함으로써 분산 병렬 프레임워크에 적재 가능하고, 사용자 편의를 고려한 인터페이스를 제공하는 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템 및 그 방법에 관한 것이다.The present invention relates to a big data mining system and a method thereof using a progressive learning model, and more particularly, to a large data mining system using a progressive learning model, and more particularly to a method and apparatus for classifying and processing fixed data and unstructured data, It is possible to learn real time / semi real time processing by learning a large amount of documents freely by using the large capacity classifier generated and reflecting only the change elements when changing the partial characteristic addition, and it is possible to load in the distributed parallel framework by using the modularization algorithm And a big data mining system using a progressive learning model that provides an interface considering user's convenience and a method thereof.

새로운 유형의 멀티미디어 콘텐츠, SNS(social network service)의 광범위한 확장, 그리고 스마트 기기들의 보급과 이용으로 인해 웹상에서 발생 및 유통되는 데이터의 규모가 기하 급수적으로 늘어나고 있다. 웹상에서 존재하고 지금도 늘어나고 있는 엄청난 양의 데이터는 세상을 해석하기 위해 사용될 수 있다. 이것이 바로 '빅 데이터'이다. 빅 데이터란 쉽게 말해 디지털화된 방대한 양의 정보를 뜻한다. 빅 데이터에서 불필요한 데이터들을 걸러내고 유용한 정보만을 추출 및 분석하여 사람들의 생각과 의견, 트랜드를 읽어내고 더 나아가 그들의 행동을 미리 예측할 수 있다. 빅 데이터는 이러한 유용성으로 인해 현재 우리나라에서뿐만 아니라 전세계적으로 각광받고 있는 차세대 IT(information technology) 기술 중 하나이다.With the expansion of new types of multimedia content, social network services (SNS), and the dissemination and use of smart devices, the size of data generated and distributed on the web is increasing exponentially. A tremendous amount of data that exists and is still growing on the Web can be used to interpret the world. This is the Big Data. Big data means a vast amount of information digitized. It can filter out unnecessary data from big data and extract and analyze only useful information to read people's thoughts, opinions and trends and to predict their behavior in advance. Big Data is one of the next generation information technology (IT) technology that is not only in Korea but also in the world because of its usefulness.

국내 빅 데이터 시장은 2015년 3,000억 원대를 형성하며, 2020년 1조원 규모로 성장할 것으로 예상된다. 빅 데이터와 관련된 국내 시장 규모도 매년 28% 이상 성장하고 있다.The domestic big data market is expected to reach 300 billion won in 2015 and grow to 1 trillion won in 2020. The domestic market related to Big Data is growing by more than 28% every year.

빅데이터 시대의 도래로 분석해야할 데이터의 양적 증대와 더불어 시계열 분석을 위한 정형 및 비정형 데이터 분석의 요구가 증대 되고 있다.With the advent of the Big Data era, there is a growing demand for both quantitative and qualitative data analysis for time series analysis.

한국 공개특허 10-2016-0075971에는 공공기관에서 다양한 소스로 제공되는 민원 데이터를 웹 포탈, SNS, 공공기관 내부 인트라넷에서 실시간으로 수집하는 공공민원 빅 데이터 수집기 모듈, 수집된 빅 데이터를 하둡 분산 파일 시스템(HDFS)을 통하여 저장 관리하고, 맵리듀스 프레임워크를 통하여 실시간 분산 병렬 처리하여 관계형 DB에 저장 관리하는 공공민원 빅 데이터 실시간 저장 관리기 모듈, 저장된 공공 민원 데이터로부터 실시간 데이터 마이닝 기술을 이용하여 데이터를 주제별로 분석하고, 분류, 그룹화, 민원 추이를 예측하는 공공민원 빅 데이터 분석 및 가시화 처리기 모듈을 포함하는 공공민원 서비스를 위한 빅데이터 관리 및 시스템을 개시하고 있다.Korean Patent Laid-open Publication No. 10-2016-0075971 discloses a public-private large data collector module for collecting civil data provided from various sources in a public institution in real time on a web portal, SNS, intranet in a public institution, (HDFS), and real-time distributed parallel processing through the MapReduce framework to store and manage the data in a relational database. The real-time data management module stores real-time data mining And a big data management and system for a public service, including a public data large data analysis and visualization processor module that predicts classification, grouping, and civil movements.

상기 공개특허 10-2016-0075971는 전통적인 마이닝 기으로 다양한 디지털 매체와 센서 등에서 생산되는 빅데이터를 처리하기 어려울 뿐 아니라 신규 데이터 누적시 전체 데이터를 재분석 해야하는 비효율성이 있다.The above-mentioned patent document is a conventional mining machine, and it is difficult to process big data produced by various digital media and sensors, and there is an inefficiency of re-analyzing the entire data when accumulating new data.

이와 같이 대용량의 데이터가 수시로 추가되는 환경에서의 데이터 마이닝을 위해, 데이터 전체를 반복 학습하지 않고 증분 데이터만을 학습하는 기술, 점진적인 학습 (Incremental learning) 기술이 필요하게 되었다.In order to perform data mining in an environment in which a large amount of data is frequently added as described above, there is a need for a technique of learning only incremental data and an incremental learning technique without repeating the entire data.

한국공개특허 [10-2016-0075971(공개일자: 2016. 06. 30)Korean Patent Publication [10-2016-0075971 (Publication date: June 30, 2016)

Mengle, S.S.R. and Goharian, N. 2009. "Ambiguity measure feature-selection algorithm." Journal of The American Society for Information Science and Technology. 60(5):1037-1050.Mengle, S.S.R. and Goharian, N. 2009. "Ambiguity measure feature-selection algorithm." Journal of The American Society for Information Science and Technology. 60 (5): 1037-1050. Ko, Y., and J. Seo. 2004. "Using the feature projection technique based on a normalized voting method for text classification." Information Processing and Management. 40(2): 191-208.Ko, Y., and J. Seo. 2004. "Using the feature projection technique based on a normalized voting method for text classification." Information Processing and Management. 40 (2): 191-208.

따라서, 본 발명은 상기한 바와 같은 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은 정형 데이터 및 비정형 데이터를 구분하여 처리하며, 기존의 자질축소 기법에 의존하지 않고 단위 분류기 생성 및 동적 결합에 따라 생성되는 대용량 분류기를 이용하여 대량의 문서를 자유롭게 학습하고 부분적인 자질추가 변경 시에 변경요소만을 추가 반영함으로써 실시간/준실시간 처리가 가능하며, 모듈화 알고리즘을 이용함으로써 분산 병렬 프레임워크에 적재 가능하고, 사용자 편의를 고려한 인터페이스를 제공하는 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템 및 그 방법을 제공하는 것이다.SUMMARY OF THE INVENTION Accordingly, the present invention has been made to solve the above-mentioned problems, and an object of the present invention is to provide a method and apparatus for classifying and processing fixed data and unstructured data, It is possible to learn real time / semi real time processing by learning a large amount of documents freely by using the large capacity classifier generated and reflecting only the change elements when changing the partial characteristic addition, and it is possible to load in the distributed parallel framework by using the modularization algorithm , And a big data mining system using a gradual learning model that provides an interface considering user's convenience and a method therefor.

본 발명의 실 시예들의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The objects of the embodiments of the present invention are not limited to the above-mentioned objects, and other objects not mentioned can be clearly understood by those skilled in the art from the following description .

상기한 바와 같은 목적을 달성하기 위한 본 발명의 일 실시예에 따른 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템은, 정형 데이터 및 비정형 데이터를 입력받는 데이터 입력부(101); 상기 입력되는 데이터를 저장하는 데이터 저장부(데이터베이스)(102); 상기 입력되는 데이터의 전처리 및 언어처리를 위한 데이터 전처리부(103); 입력되는 대용량 데이터에서 부분적 변경요소만을 추가 반영하는 점진적 학습 모델에 기반하여 데이터를 처리하는 대용량 분류기(104); 상기 대용량 분류기의 작업을 분산 처리하는 멀티프로세싱 병렬 처리부(105); 상기 대용량 분류기의 작업 성능을 측정하는 성능 측정부(106); 및 상기 점진적 학습 모델 기반 빅데이터 마이닝 시스템의 웹기반 통합 인터페이스를 제공하는 인터페이스 제공부(107)를 포함한다.According to an aspect of the present invention, there is provided a big data mining system using a progressive learning model, comprising: a data input unit 101 for receiving fixed data and unstructured data; A data storage unit (database) 102 for storing the input data; A data preprocessing unit 103 for preprocessing and language processing the input data; A mass classifier (104) for processing data based on an incremental learning model that additionally reflects only partial change elements in input large data; A multiprocessing parallel processing unit 105 for distributing the tasks of the large capacity classifier; A performance measuring unit (106) for measuring the performance of the mass spectrometer; And an interface providing unit 107 for providing a web-based integrated interface of the progressive learning model-based big data mining system.

또한, 상기한 바와 같은 목적을 달성하기 위한 본 발명의 일 실시예에 따른 점진적 학습 모델을 이용한 빅데이터 마이닝 방법은, 정형 데이터 및 비정형 데이터를 입력받는 데이터 입력단계; 상기 입력되는 데이터를 저장하는 데이터 저장 단계; 상기 입력되는 데이터의 전처리 및 언어처리를 위한 데이터 전처리단계; 입력되는 대용량 데이터에서 부분적 변경요소만을 추가 반영하는 점진적 학습 모델에 기반하여 데이터를 처리하는 대용량 분류단계; 상기 대용량 분류단계의 작업을 분산 처리하는 멀티프로세싱 병렬 처리단계; 상기 대용량 분류단계의 작업 성능을 측정하는 성능 측정단계; 점진적 학습 모델 기반 빅데이터 마이닝 시스템의 웹기반 통합 인터페이스를 제공하는 인터페이스 제공단계를 포함한다.According to another aspect of the present invention, there is provided a big data mining method using a progressive learning model, the method comprising: inputting formatted data and unstructured data; A data storing step of storing the input data; A data preprocessing step for pre-processing and language processing of the input data; A large classification step of processing data based on an incremental learning model that additionally reflects only partial change elements in input large data; A multiprocessing parallel processing step of distributing the tasks of the large capacity classification step; A performance measurement step of measuring an operation performance of the large capacity classification step; Based interface of the Big Data Mining System based on the progressive learning model.

또한, 본 발명의 일 실시예에 따르면, 상기 점진적 학습 모델을 이용한 빅데이터 마이닝 방법을 구현하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록매체가 제공되는 것을 특징으로 한다.According to an embodiment of the present invention, there is provided a computer-readable recording medium storing a program for implementing a big data mining method using the progressive learning model.

아울러, 본 발명의 일 실시예에 따르면, 상기 점진적 학습 모델을 이용한 빅데이터 마이닝 방법을 구현하기 위해, 컴퓨터 판독 가능한 기록매체에 저장된 프로그램이 제공되는 것을 특징으로 한다.According to an embodiment of the present invention, a program stored in a computer-readable recording medium is provided to implement a big data mining method using the progressive learning model.

본 발명의 일 실시예에 따른 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템 및 그 방법에 의하면, 폭증하는 빅데이터를 처리할 수 있는 상용 수준의 점진적 학습 모델로 비정형 데이터 뿐만 아니라 IoT 기술이 활용된 다양한 정형 센서 데이터의 분류가 가능함으로써, 거의 모든 유형의 데이터 처리가 가능하기 때문에 산업 전반에 효과가 상당할 것으로 예측된다.According to the big data mining system and the method using the progressive learning model according to an embodiment of the present invention, it is possible to use a commercial-grade gradual learning model capable of processing large data that is rapidly growing, as well as atypical data, Since it is possible to classify sensor data, almost all types of data processing are possible, and it is expected that the effect will be significant in the whole industry.

또한, 본 발명의 일 실시예에 따른 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템 및 그 방법에 의하면, 점진적 학술 기술을 통해 신속하고 정확한 빅데이터 분석을 수행할 수 있으며, 데이터 저장 효율을 증대시켜, 거대 매트릭스 (Large-scale sparse matrix)를 PC급의 클러스터 환경에서도 계산 처리할 수 있어 초고성능 컴퓨팅 환경에서 더욱 큰 효율을 기대할 수 있다.According to the big data mining system and the method using the progressive learning model according to an embodiment of the present invention, fast and accurate big data analysis can be performed through progressive academic technology, and data storage efficiency can be increased, Matrix (large-scale sparse matrix) can be computed in a PC-class cluster environment, thereby achieving greater efficiency in a very high-performance computing environment.

또한, 본 발명의 일 실시예에 따른 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템 및 그 방법에 의하면, 정형 및 비정형 데이터의 유형 구분없이 데이터 분석의 응용 분야를 넓힐 수 있으며, 시스템 효용성이 증대될 수 있다.Further, according to the big data mining system and the method using the progressive learning model according to an embodiment of the present invention, it is possible to broaden the application field of data analysis without discriminating the type of the fixed and unstructured data, and the utility of the system can be increased .

또한, 본 발명의 일 실시예에 따른 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템 및 그 방법에 의하면, 마이닝 과정과 결과를 효과적으로 관리하는 웹기반의 통합 데이터 관리 시스템을 기반으로, 사용자간의 데이터 공유가 가능하고 기존 데이터 처리 결과를 손쉽게 재활용함으로서 대용량 데이터 분석에 있어 중요한 이슈인 학습 결과의 재활용성을 개선할 수 있다.Further, according to the big data mining system and the method using the progressive learning model according to an embodiment of the present invention, it is possible to share data among users based on a web-based integrated data management system for effectively managing mining processes and results By easily reusing existing data processing results, it is possible to improve the recyclability of learning results, an important issue in large data analysis.

또한, 본 발명의 일 실시예에 따른 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템 및 그 방법에 의하면, 실시간으로 대량 생산되는 데이터의 효과적인 분석을 위해 시계열 빅데이터 마이닝 기술을 구현함으로써 빅데이터 마이닝의 고급 분석에 활용될 수 있다.According to the big data mining system and the method using the progressive learning model according to an embodiment of the present invention, time-series big data mining technology is implemented for effective analysis of mass-produced data in real time, .

또한, 본 발명의 일 실시예에 따른 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템 및 그 방법에 의하면, 연구개발된 사용자 도구는 핵심 분류 모델과 구동 모듈, 사용자 인터페이스로 모듈화되어 구성되어있기 때문에 NoSQL과 같은 대용량 데이터베이스에 쉽게 적용할 수 있기 때문에 다양한 분산병렬 프레임워크에 탑재하여 기능적 확장이 용이한 효과가 있다.According to the big data mining system and method using the progressive learning model according to the embodiment of the present invention, the user tool that has been researched and developed is modularized into a core classification model, a driving module, and a user interface, Since it can be easily applied to a large-scale database, it can be easily installed in various distributed parallel frameworks and thus can be easily expanded.

또한, 본 발명의 일 실시예에 따른 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템 및 그 방법에 의하면, 향후, 재난, 재해 대응 업무와 관련하여, 데이터 분석 및 예측을 위한 소프트웨어에 활용 가능한 효과가 있다.Further, according to the big data mining system and method using the progressive learning model according to an embodiment of the present invention, there is an effect that can be applied to software for analyzing and predicting data with respect to future disaster and disaster countermeasures.

도 1은 본 발명의 일 실시예에 따른 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템의 구성도.
도 2는 본 발명의 일 실시예에 따른 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템에서 대용량 분류기의 설명도.
도 3은 본 발명에 따른 대용량 분류기의 구성도.
도 4는 본 발명의 일 실시예에 따른 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템에서 웹기반 통합 인터페이스 화면의 도면.
도 5는 도 4에서 작업 및 자원 관리 인터페이스를 도시한 도면.
도 6은 도 4에서 마이닝 병렬처리 인터페이스를 도시한 도면.
도 7은 도 4에서 학습결과 성능 평가 인터페이스를 도시한 도면.
1 is a block diagram of a big data mining system using a progressive learning model according to an embodiment of the present invention;
FIG. 2 is an explanatory diagram of a large capacity classifier in a big data mining system using a progressive learning model according to an embodiment of the present invention; FIG.
3 is a configuration diagram of a large capacity classifier according to the present invention;
4 is a diagram of a web-based integrated interface screen in a big data mining system using a progressive learning model according to an embodiment of the present invention.
Figure 5 illustrates a work and resource management interface in Figure 4;
Figure 6 illustrates a mining parallel processing interface in Figure 4;
FIG. 7 illustrates a learning result performance evaluation interface in FIG. 4; FIG.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야한다.While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail. It is to be understood, however, that the invention is not to be limited to the specific embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.It is to be understood that when an element is referred to as being "connected" or "connected" to another element, it may be directly connected or connected to the other element, .

반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.On the other hand, when an element is referred to as being "directly connected" or "directly connected" to another element, it should be understood that there are no other elements in between.

본 명세서에서 사용되는 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 공정, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 공정, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In the present application, the term " comprises " or " having ", etc. is intended to specify the presence of stated features, integers, steps, operations, elements, parts, or combinations thereof, And does not preclude the presence or addition of one or more other features, integers, integers, steps, operations, elements, components, or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미가 있는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries are to be interpreted as having a meaning consistent with the meaning in the context of the relevant art and are to be construed as ideal or overly formal in meaning unless explicitly defined in the present application Do not.

이하, 첨부된 도면을 참조하여 본 발명을 더욱 상세하게 설명한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정하여 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여, 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 또한, 사용되는 기술 용어 및 과학 용어에 있어서 다른 정의가 없다면, 이 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 통상적으로 이해하고 있는 의미를 가지며, 하기의 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 설명은 생략한다. 다음에 소개되는 도면들은 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것이다. 따라서, 본 발명은 이하 제시되는 도면들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 또한, 명세서 전반에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다. Hereinafter, the present invention will be described in more detail with reference to the accompanying drawings. Prior to this, terms and words used in the present specification and claims should not be construed as limited to ordinary or dictionary terms, and the inventor should appropriately interpret the concept of the term appropriately in order to describe its own invention in the best way. The present invention should be construed in accordance with the meaning and concept consistent with the technical idea of the present invention. Further, it is to be understood that, unless otherwise defined, technical terms and scientific terms used herein have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Descriptions of known functions and configurations that may be unnecessarily blurred are omitted. The following drawings are provided by way of example so that those skilled in the art can fully understand the spirit of the present invention. Therefore, the present invention is not limited to the following drawings, but may be embodied in other forms. In addition, like reference numerals designate like elements throughout the specification. It is to be noted that the same elements among the drawings are denoted by the same reference numerals whenever possible.

도 1은 본 발명의 일 실시예에 따른 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템의 구성도이다.1 is a block diagram of a big data mining system using a progressive learning model according to an embodiment of the present invention.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템은 데이터 입력부(101), 데이터 저장부(DB)(102), 데이터 전처리부(103), 대용량 분류기(104), 멀티프로세싱 병렬 처리부(105), 성능 측정부(106), 및 인터페이스 제공부(107)를 포함한다.1, a big data mining system using a progressive learning model according to an embodiment of the present invention includes a data input unit 101, a data storage unit (DB) 102, a data preprocessing unit 103, a large capacity A classifying unit 104, a multiprocessing parallel processing unit 105, a performance measuring unit 106, and an interface providing unit 107.

상기 데이터 입력부(101)는 정형 데이터 및 비정형 데이터를 입력받는다.The data input unit 101 receives the fixed data and the unstructured data.

상기 데이터 저장부(DB)(102)는 상기 데이터 입력부(101)를 통해 입력되는 데이터를 저장한다.The data storage unit (DB) 102 stores data input through the data input unit 101.

상기 데이터 전처리부(103)는 상기 입력되는 데이터의 전처리 및 언어처리를 수행한다.The data preprocessing unit 103 performs preprocessing and language processing of the input data.

상기 대용량 분류기(104)는 입력되는 대용량 데이터에서 부분적 변경요소만을 추가 반영하는 점진적 학습 모델에 기반하여 데이터를 처리한다.The mass classifier 104 processes data based on an incremental learning model that additionally reflects only partial change elements in the input large amount of data.

상기 멀티프로세싱 병렬 처리부(105)는 상기 대용량 분류기의 작업을 분산 처리한다.The multiprocessing parallel processing unit 105 distributes the tasks of the large capacity classifier.

상기 성능 측정부(106)는 상기 대용량 분류기의 작업 성능을 측정한다.The performance measuring unit 106 measures the performance of the large capacity classifier.

상기 인터페이스 제공부(107)는 상기 점진적 학습 모델 기반 빅데이터 마이닝 시스템의 웹기반 통합 인터페이스를 제공한다. 상기 인터페이스 제공부(107)는 작업 및 자원 관리 인터페이스, 자원 재사용 인터페이스, 병렬 처리 인터페이스 및 학습 결과 성능 평가 인터페이스를 제공한다.The interface providing unit 107 provides a web-based integrated interface of the progressive learning model-based big data mining system. The interface providing unit 107 provides a task and resource management interface, a resource reuse interface, a parallel processing interface, and a learning result performance evaluation interface.

도 2는 본 발명의 일 실시예에 따른 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템에서 대용량 분류기의 설명도이고, 도 3은 본 발명에 따른 대용량 분류기의 구성도이다.FIG. 2 is an explanatory diagram of a large capacity classifier in a big data mining system using a progressive learning model according to an embodiment of the present invention, and FIG. 3 is a configuration diagram of a large capacity classifier according to the present invention.

도 2에 도시된 바와 같이, 대용량 분류기(104)는, 다수의 단위 분류기(210-1, 210-2, 210-n)를 포함하고, 상기 다수의 단위 분류기의 결합을 통해 생성되는 것을 특징으로 하며, 각 단위 분류기(210-1, 210-2, 210-n)는, 자질을 추출하기 위한 자질 추출부(211-1, 211-2, 211-n), 문헌별 자질정보를 추출하기 위한 문헌별 자질정보 추출부(212-1, 212-2, 212-n), 자질 특성 매트릭스를 생성하기 위한 자질 특성 매트릭스 생성부(213-1, 213-2, 213-n)를 포함한다.2, the large-capacity classifier 104 includes a plurality of unit classifiers 210-1, 210-2, and 210-n, and is generated by combining the plurality of unit classifiers. Each of the unit classifiers 210-1, 210-2 and 210-n includes qualities extraction units 211-1, 211-2 and 211-n for extracting qualities, (213-1, 213-2, and 213-n) for generating characteristic-quality matrices. The feature-quality-matrix extracting units 212-1, 212-2, and 212-

상기 대용량 분류기(104)는, 결합 대상이 되는 다수의 자질 특성 매트릭스의 정보를 통합하여 결합하기 위한 매트릭스 동적 결합부(221), 상기 통합된 자질 특성 매트릭스로부터 유사척도를 이용하여 주제-가중치 벡터를 생성하기 위한 주제-가중치 백터 생성부(222), 상기 생성된 주제-가중치 백터를 이용하여 투표형 분류기법에 따라 분류하기 위한 다원 분류부(223)를 포함한다.The large-capacity classifier 104 includes a matrix dynamic combining unit 221 for combining information on a plurality of feature-value matrices to be combined, and a matrix-dynamic weighting unit 221 for calculating a subject-weight vector from the integrated feature- Weighted vector generating unit 222 for generating a subject-weighted vector, and a multiple classification unit 223 for classifying the selected subject-weighted vector according to the voting type classification technique.

이하, 도 2 및 도 3을 참고하여 대용량 분류기 생성 방법에 대하여 설명하기로 한다.Hereinafter, a method of generating a large capacity classifier will be described with reference to FIGS. 2 and 3. FIG.

1. 단위 분류기 생성과 동적 결합방법1. Unit classifier generation and dynamic combining method

자동 범주화 기술을 실제 서비스에 응용하고자 할 때, 경우에 따라서는 수백만 건 이상의 정보자원을 학습하고 해석해야 하는 경우가 있다. 일반적으로 효율적인 문서처리를 위해 자질 선정 기법을 사용하는데, 이는 정보량의 축소 뿐만 아니라 성능의 향상을 위해서도 필요한 과정으로 알려져 있다. 그러나, 실시간 (또는 준실시간)으로 대용량의 데이터가 쏟아지는 빅데이터 환경에서 대용량의 문서학습을 하는 과업에서는, 자질 특성을 분석하고 이를 제거하는 과정에 소요되는 시간과 컴퓨팅 자원 문제에서 자유로울 수 없으며, 자질선택 및 축소기법의 적용 역시 한계가 존재하게 된다.When you want to apply automatic categorization technology to real services, you may need to learn and interpret millions of information resources in some cases. Generally, the feature selection technique is used for efficient document processing, which is known as a necessary process not only for reducing the amount of information but also for improving the performance. However, in the task of performing a large amount of document learning in a big data environment in which a large amount of data is poured in real time (or semi-real time), it is not free from the time and computing resource problem in analyzing the characteristics of the characteristics, The application of selection and reduction techniques also has its limitations.

본 발명에 따른 점진적 학습 기술에서 사용하는 기법은 작은 용량의 매트릭스를 다수 생성하여 정보 손실 없이 동적으로 결합하는 것이다. 도 2는 데이터베이스별로 여러 개의 작은 단위의 학습 결과(분류기)(210-1, 210-2, 210-n)를 조합하는 예시이다. 여러 개의 분할된 복수의 단위 분류기(210-1, 210-2, 210-n)로 구성하여 동적으로 결합하여 최종 대용량 학습모델(분류기)(104)를 생성할 수 있다.The technique used in the progressive learning technique according to the present invention is to generate a large number of small capacity matrices and combine them dynamically without loss of information. FIG. 2 is an example of combining a plurality of small-scale learning results (classifiers) 210-1, 210-2, and 210-n for each database. A plurality of divided unit sorters 210-1, 210-2, and 210-n may be dynamically combined to generate a final large capacity learning model (classifier) 104. [

2. 단위 분류기의 생성과정2. Creation process of unit classifier

단위 분류기의 생성을 위해 아래와 같은 전처리 과정을 포함한 일련의 과정을 거친다.In order to generate the unit classifier, a series of processes including the following preprocessing process is performed.

(1) 자질 추출부(211-1, 211-2, 211-n)(1) The quality extracting units 211-1, 211-2, and 211-

자질을 추출하기 위해 아래의 두가지 타입을 고려할 수 있다. 타이틀, 초록 등으로부터 정보를 추출하는 경우에는 스테밍(영문) 또는 형태소분석(한글)을 거쳐 자질집합을 생성한다. 이때, 저빈도 자질 제거 과정을 고려하는 것이 좋다. 보통 전체문서 집합에서 1회 출현 저빈도 (collection frequency = 1) 자질은 전체 중 약 40- 60% 정도를 차지한다.The following two types can be considered for extracting qualities. When extracting information from titles, abstracts, etc., a feature set is generated through stemming (English) or morphological analysis (Korean). At this time, it is better to consider the process of removing low frequency features. Typically, a single occurrence of collection frequency = 1 in an entire document set takes up about 40-60% of the total.

① 키워드, 디스크립터① Keyword, descriptor

논문 저자의 키워드 필드나 통제어휘인 디스크립터 필드를 이용한다.The descriptor field, which is a keyword field or a controlled vocabulary, is used.

② 용어 추출(Info Extraction)② Info Extraction

타이틀, 초록 등의 비구조적인 정보로부터 명사구를 포함한 주요 정보를 추출한다.Extracts key information including noun phrases from unstructured information such as title and abstract.

(2) 문헌별 자질정보 추출부(212-1, 212-2, 212-n)(2) Qualification information extraction sections 212-1, 212-2 and 212-n for each document,

문헌를 구성하는 개별 자질에 범주코드를 부여한다. A category code is assigned to individual qualities constituting a document.

주요 생성필드는 문헌고유ID, 자질, 및 범주코드를 포함한다.The main creation field includes a document unique ID, a qualification, and a category code.

(3) 자질 특성 매트릭스 생성부(213-1, 213-2, 213-n)(3) The feature-property-matrix generating units 213-1, 213-2, and 213-

본 발명에서는 개별 단위분류기를 생성하기 위한 핵심정보 매트릭스를'자질 특성 매트릭스'라 칭한다. 최종 자질 벡터를 연산하기 위한 매트릭스 정보를 생성하여 데이터베이스(DB)나 바이너리 파일로 적재한다.In the present invention, a core information matrix for generating individual unit classifiers is referred to as a " quality characteristic matrix ". Matrix information for computing the final feature vector is generated and loaded into a database (DB) or a binary file.

주요 생성필드는 자질고유ID, 자질, 범주코드, TP, TN, FP, FN, CF, IDF 등을 포함한다. <표 1>은 자질-범주간 출현관계 분할표에 관한 것으로, 상기 자질 특성 매트릭스의 생성필드 중 일부가 나타나 있다.The main generated fields include the qualification unique ID, the qualification, the category code, TP, TN, FP, FN, CF, IDF and the like. <Table 1> relates to the feature-divisional appearance relation partition table, and some of the generation fields of the feature characteristic matrix are shown.

범주 cj 소속Category c j belongs 범주 cj 미소속Category c j Smile 자질 fi 출현Appearance of qualities f i TP (True-Positive)TP (True-Positive) FN (False-Negative)FN (False-Negative) 자질 fi 미출현No qualities f i appear FP (False-Positive)FP (False-Positive) TN (True-Negative)TN (True-Negative)

3. 단위 분류기 결합을 통한 대용량 분류기 생성3. Generation of mass classifier by combining unit classifier

본 발명에 따른 대용량 분류기 생성의 핵심은 단위 분류기 생성과정 중 (3)단계에서 생성된 자질 특성 매트릭스를 결합하는 방법을 이용해 분류기의 동적결합의 수행하는 것이다. 단위 분류기는 학습할 대상 문헌이 많을 경우 자동 분할 후 동적으로 결합해 거대한 매트릭스를 재생산할 수 있다.The key to generating a large capacity classifier according to the present invention is to perform dynamic combining of a classifier using a method of combining characteristic feature matrices generated in step (3) during a unit classifier generation process. The unit classifier can automatically combine and dynamically combine and reproduce huge matrices if there are many documents to be studied.

(1) 매트릭스 동적결합부(221)(1) Matrix dynamic coupling unit 221

① 우선 복수개의 결합 대상 '자질특성 매트릭스'를 메모리에 상주하여, 모든 매트릭스에 출현한 자질 값의 고유한(distinct) 전체 셋을 만든다.(1) First, a plurality of "target feature matrices" to be combined reside in the memory, and a distinct whole set of the feature values appearing in all the matrices is created.

② 개별 자질에 결합 대상 매트릭스들을 참조하여 정보를 가져온다. 이때, 자질이 모든 자질특성 매트릭스에서 출현하지 않으므로 자질의 개수, 전체 문헌의 수 등 각 매트릭스의 통합정보를 동적으로 산출하여 TP, TN, FP, FN과 IDF, CF 등 주요 정보를 재계산한다. 이 과정은 10만 건씩 학습된 10개의 분류기를 결합한 통합매트릭스 생성결과와 100만 건 전체를 한번에 학습한 분류기 매트릭스 내의 개별 파라미터요소의 수치가 정확히 일치함을 의미한다.(2) The information is retrieved by referring to the matrices to be combined with individual qualities. In this case, since the qualities do not appear in all the qualitative characteristics matrices, the main information such as TP, TN, FP, FN, IDF and CF is recalculated by dynamically calculating integrated information of each matrix such as the number of qualities and the total number of documents. This process means that the integrated matrix generation result of combining 10 learned classes of 10 classifiers and the numerical values of individual parameter elements in the classifier matrix obtained once at a time are exactly the same.

(2) 주제-가중치 벡터를 생성부(222)(2) a subject-weight vector generator 222,

통합된 자질 특성 매트릭스로부터 거리계수 및 Cosine, LOR (log odds ration) 등 유사척도를 이용해 최종 투표분류기에 적합한 자질 벡터형태를 생성하여 DB나 바이너리 파일로 적재한다.Using the similarity measures such as distance coefficient, cosine and log odds ratio (LOR) from the integrated feature property matrix, a feature vector form suitable for the final voting classifier is created and loaded into a DB or binary file.

LogTF*IDF*Cosine 계수를 이용한 자질벡터는 하기 <수학식 1>과 같이 표현이 가능하다. 또한 본 발명에 따른 점진적 학습 모델에서는 자질 가중치를 부여하기 위해 승산비(OR)와 의미모호성 해소(AM) 모델을 추가로 적용하였다.The feature vector using the LogTF * IDF * cosine coefficient can be expressed as Equation (1) below. Further, in the progressive learning model according to the present invention, a multiplication ratio (OR) and a semantic ambiguity resolution (AM) model are additionally applied to assign a quality weight.

<수학식 1>&Quot; (1) &quot;

Figure pat00001
Figure pat00001

(3) 다원 분류부(223)(3) The multiple classification unit 223

통합 매트릭스에서 생성된 자질벡터를 이용해 하기 <수학식 2>와 같이 투표형 분류기법으로 분류를 수행한다. 자질값 투표형 분류기(Feature Voting Classifier, FVC)는 좋은 분류 성능과 빠른 속도를 나타내는 확률기반 모델이다. 생성된 자질 벡터를 메모리에 상주한 후, 대량의 입력문헌에 대해 고속의 다원분류를 수행하여 입력문서를 분류한다.The classification is performed using the voting type classification technique as shown in Equation (2) using the feature vector generated in the integrated matrix. Feature Voting Classifier (FVC) is a probabilistic model that shows good classification performance and fast speed. After the generated feature vector resides in the memory, the input document is classified by performing high-speed multi-classification on a large number of input documents.

<수학식 2>&Quot; (2) &quot;

Figure pat00002
Figure pat00002

최종 생성된 분류기는 최종 계산된 벡터의 데이터량이 상대적으로 많지 않아 메모리 상주용량이 적기 때문에 자질 종수의 제한이 없으며 각 가중치의 선형결합을 실시하므로 자질 종수의 증가에 따른 속도저하도 거의 없는 고속의 분류기이다.Since the final generated classifier has a relatively small amount of data of the final computed vector, there is no restriction on the number of the qualities of the class because the memory resident capacity is small. Since the linear combination of each weight is performed, to be.

도 4는 본 발명의 일 실시예에 따른 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템에서 웹기반 통합 인터페이스 화면의 도면이다.4 is a diagram of a web-based integrated interface screen in a big data mining system using a progressive learning model according to an embodiment of the present invention.

본 연구에서 개발한 시스템은 웹 기반의 인터페이스를 통해 사용자 접근성을 높였고, 운영체제에 관계없이 윈도우, 리눅스 등 다양한 환경에서 구동이 가능하다. 또한 전문 지식이 없는 사용자도 쉽게 분류 작업을 가능하도록 직관적인 인터페이스를 구현하였다. The system developed in this study has improved user accessibility through web based interface and can be operated in various environments such as Windows and Linux regardless of operating system. We also implemented an intuitive interface so that users without expert knowledge can easily classify them.

학습 관리 인터페이스와 같이 웹 브라우저에서 점진적 학습 기능을 용이하게 수행하기 위해 사용자 권한에 따른 작업 및 자원 관리 기능을 개발하였다. 사용자는 자원 관리 기능을 통해 소유하고 있는 데이터를 손쉽게 데이터베이스로 적재할 수 있고, 업로드 된 자원을 기반으로 데이터 분류 작업을 수행하고 관리 할 수 있다.In order to facilitate the progressive learning function in the web browser such as the learning management interface, we developed a task and resource management function according to the user authority. Through the resource management function, users can easily load their own data into the database, and can perform and manage data classification based on the uploaded resources.

한편, 사용자는 자원 관리에서 업로드 된 데이터를 이용해 새로운 작업을 생성할 수 있으며, 각 학습 과정의 진행 상황을 시각적으로 확인할 수 있다(직관적 학습 수행). 현재 모듈에서는 총 4단계의 과정을 거쳐서 학습을 진행되는데 데이터의 전처리 단계인 1단계 및 2단계에서는 사용자가 지정한 숫자로 학습 데이터를 분할하여 작업을 멀티 프로세스로 진행한다. 데이터 통합 과정인 3단계에서는 2단계 까지 완료된 데이터를 사용자가 선택하여 통합하는 과정을 거친 후, 실질적인 데이터 학습 단계인 4단계 작업을 통해 학습이 완료된다.On the other hand, the user can create a new job using the uploaded data in the resource management, and visually check the progress of each learning process (intuitive learning). In the present module, learning is performed through a total of four steps. In the first and second steps of data preprocessing, the learning data is divided into a number designated by the user and the work is progressed to a multi-process. In the third step of the data integration process, the user selects and integrates the data completed up to the second step, and then the learning is completed through the four-step operation, which is an actual data learning step.

사용자는 각 작업에서 생산된 결과물은 새로운 작업과 공유하여 재사용 할 수 있다 (자원 및 결과 재사용). 작업 및 자원 관리를 통해 사용자 자신의 데이터뿐만 아니라 다른 사용자가 공유한 작업 결과물을 공유하여 동일한 작업을 다시 수행하지 않을 수 있는 기능을 구현하여 효율적인 분류 실험을 진행 할 수 있도록 하였다. 그렇기 때문에 사용자는 이러한 데이터 재사용 기능을 통해 빅데이터 환경에서 지속적으로 생산되는 데이터에 대해 학습 전체를 다시 수행하지 않고 추가되는 데이터에 대해서만 점진적으로 학습이 가능하다.Users can reuse the results produced by each task with new work (reuse of resources and results). Through the work and resource management, it is possible to carry out the efficient classification experiment by implementing the function that does not perform the same operation again by sharing the user's own data as well as the work results shared by other users. Therefore, the user can gradually learn only the added data without re-learning the whole data continuously generated in the big data environment through the data reuse function.

마지막으로 사용자는 학습된 모듈의 성능을 자동으로 테스트 할 수 있는데, (결과분석)과 같이 학습 과정을 마친 후 테스트 버튼을 통해서 학습 결과의 성능을 시각적으로 확인 할 수 있다. 테스트 결과에서는 테스트 데이터의 각 클래스별 성능 지표를 계산하여 출력하고, 성능 평가 결과에 대해 그래프를 통해 시각화하여 사용자에게 보여준다. 또한 해당 작업의 성능 평가 결과를 별도로 저장하고 관리 할 수 있도록 결과 출력 기능을 구현하였으며 분석 통계 정보와 시각적 그래프를 병기하여 분석 결과의 해석을 도울 수 있다.Finally, the user can test the performance of the learned module automatically. After finishing the learning process (test result analysis), the performance of the learning result can be visually confirmed through the test button. In the test result, the performance index of each class of test data is calculated and output, and the performance evaluation result is visualized by a graph and displayed to the user. In addition, the result output function is implemented to save and manage the performance evaluation result of the job separately, and it is possible to analyze the analysis result by stating the analysis statistical information and the visual graph.

도 5는 도 4에서 작업 및 자원 관리 인터페이스를 도시한 도면이다.FIG. 5 is a diagram illustrating a task and resource management interface in FIG.

분류 프로세스의 워크플로우를 담고 있는 작업 관리와 분류 프로세스에서 사용되는 자원관리로 나누어 진다.It is divided into work management which contains workflow of classification process and resource management which is used in classification process.

작업관리는 정형/비정형의 원시데이터를 파싱하여 자원 등록하는 파서, 등록된 자원을 이용해서 분류에 사용되는 자질을 정제하는 전처리 및 언어처리 기능, 타 작업에서 생산된 결과 및 점직적 처리 결과를 병합하는 자원 병합 기능, 병합된 결과를 멀티 프로세스로 병렬 처리하는 학습 기능, 처리된 학습 모델을 이용하여 분류 및 성능 측정을 하는 테스트 기능으로 구성된다. 자원 관리는 원시 데이터를 포함하여 작업에 사용되는 데이터를 재사용할 수 있도록 공유하는 기능을 한다. 작업 관리와 자원 관리는 상호간 권한이 있는 사용자의 작업과 자원을 공유하고 협업을 할 수 있는 프레임워크를 제공한다.Task management is a parser that parses and registers resource data by parsing raw / unstructured raw data, preprocessing and language processing functions to refine the qualities used in classification using registered resources, merging results produced by other tasks and results of processing , A learning function for parallel processing of merged results in multiple processes, and a test function for classifying and measuring performance using a processed learning model. Resource management functions include sharing raw data, including raw data, so that the data used in the work can be reused. Task management and resource management provide a framework for sharing and collaborating tasks and resources of mutually privileged users.

도 6은 도 4에서 마이닝 병렬처리 인터페이스를 도시한 도면이다.FIG. 6 is a diagram illustrating a mining parallel processing interface in FIG.

본 발명에서 따른 빅데이터 마이닝 환경에서는 점진적 학습의 병렬 처리를 위해 프로세스 단위 병렬 수행이 가능하다. 또한 이를 사용자 인터페이스에서 병렬 처리할 프로세스의 개수를 직접 선정할 수 있다. 또한 점진적 학습 모델은 알고리즘 자체로 응용 프로그램으로 수행이 가능하기 때문에 Hadoop, Hbase 등 다양한 분산병렬 기반 NoSql 프레임워크에 쉽게 접목이 가능하다. 도 6에서는 5개의 작업이 멀티 프로세싱되는 과정을 보여준다.In the big data mining environment according to the present invention, it is possible to perform parallel processing in units of processes for parallel processing of progressive learning. In addition, it is possible to directly select the number of processes to be parallelized in the user interface. In addition, since the progressive learning model can be implemented as an application program itself, it can be easily applied to various distributed parallel NoSql frameworks such as Hadoop and Hbase. FIG. 6 shows a process in which five jobs are multiprocessed.

도 7은 도 4에서 학습결과 성능 평가 인터페이스를 도시한 도면이다.FIG. 7 is a diagram showing a learning result performance evaluation interface in FIG.

점진적 학습은 일반적인 학습 방법이 데이터의 추가 및 변동시마다 모든 데이터를 재학습하는 데 반해, 기존의 학습 결과에 증분된 데이터만 재처리 없이 추가적으로 학습한다. 재학습을 위해 사용자는 작업 수행 중 자원 관리를 통해 기존에 처리된 데이터를 자유롭게 가져와서 새로운 데이터와 병합이 가능하다. 이러한 점직적 학습 효율성은 빅데이터 기반 데이터 처리에 주요한 특성인 데이터 생산 속도를 극복하기 위한 좋은 대안이 될 수 있다. Progressive learning adds to the existing learning outcomes without reworking only the incremental data of the existing learning results, while the general learning method re-learns all data every time data is added and changed. For re-learning, users can freely import previously processed data through resource management during job execution and merge with new data. This brilliant learning efficiency can be a good alternative to overcome data production speed, a key characteristic of big data-driven data processing.

학습이 진행된 후에는 사용자 인터페이스의 테스트 과정에서 간단히 성능을 평가하고 결과를 확인 할 수 있다. 도 7과 같이 테스트 데이터의 각 클래스별 분류 통계 및 성능 지표를 계산하여 출력하고, 성능 평가 결과에 대해 그래프를 통해 시각화 하여 사용자에게 보여준다. 또한 해당 작업의 성능 평가 결과를 별도로 저장하고 관리 할 수 있도록 결과 출력 기능을 구현하였으며 분석 통계 정보와 시각적 그래프를 병기하여 분석 결과의 해석을 도울 수 있다. 이렇게 계산된 학습 결과는 작업관리 메뉴에 저장되어 언제든 사용자가 원할 때 조회 할 수 있도록 사용성을 보장하고 있다.After the learning process, you can simply evaluate the performance and check the results in the test process of the user interface. As shown in FIG. 7, classification statistics and performance indicators for each class of test data are calculated and output, and the performance evaluation results are visualized through graphs and displayed to the user. In addition, the result output function is implemented to save and manage the performance evaluation result of the job separately, and it is possible to analyze the analysis result by stating the analysis statistical information and the visual graph. The calculated learning result is stored in the job management menu, and the usability is ensured so that the user can inquire at any time.

이상에서 본 발명의 일 실시예에 따른 점진적 학습 모델을 이용한 빅데이터 마이닝 방법에 대하여 설명하였지만, 점진적 학습 모델을 이용한 빅데이터 마이닝 방법을 구현하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록매체 및 점진적 학습 모델을 이용한 빅데이터 마이닝 방법을 구현하기 위한 컴퓨터 판독 가능한 기록매체에 저장된 프로그램 역시 구현 가능함은 물론이다.Although the big data mining method using the progressive learning model according to an embodiment of the present invention has been described above, it is possible to use a computer readable recording medium and a progressive learning model in which a program for implementing a big data mining method using the progressive learning model is stored It is needless to say that a program stored in a computer-readable recording medium for implementing a big data mining method using the present invention can also be implemented.

즉, 상술한 점진적 학습 모델을 이용한 빅데이터 마이닝 방법은 이를 구현하기 위한 명령어들의 프로그램이 유형적으로 구현됨으로써, 컴퓨터를 통해 판독될 수 있는 기록매체에 포함되어 제공될 수도 있음을 당업자들이 쉽게 이해할 수 있을 것이다. 다시 말해, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어, 컴퓨터 판독 가능한 기록매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 상기 컴퓨터 판독 가능한 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리, USB 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 컴퓨터 판독 가능한 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.That is, the big data mining method using the above-described progressive learning model can be easily understood by those skilled in the art that a program of instructions for implementing the big data mining method can be tangibly embodied and provided in a recording medium readable by a computer will be. In other words, it can be implemented in the form of a program command that can be executed through various computer means, and can be recorded on a computer-readable recording medium. The computer-readable recording medium may include program commands, data files, data structures, and the like, alone or in combination. The program instructions recorded on the computer-readable recording medium may be those specially designed and configured for the present invention or may be those known and available to those skilled in the computer software. Examples of the computer-readable medium include magnetic media such as hard disks, floppy disks and magnetic tape, optical media such as CD-ROMs and DVDs, and optical disks such as floppy disks. Magneto-optical media and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, USB memory, and the like. The computer-readable recording medium may be a transmission medium such as a light or metal line, a wave guide, or the like, including a carrier wave for transmitting a signal designating a program command, a data structure, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware device may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

본 발명은 상기한 실시예에 한정되지 아니하며, 적용범위가 다양함은 물론이고, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 다양한 변형 실시가 가능한 것은 물론이다.It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims.

101: 데이터 입력부 102: 데이터 저장부(DB)
103: 데이터 전처리부 104: 대용량 분류기
105: 멀티프로세싱 병렬 처리부 106: 성능 측정부
107: 인터페이스 제공부
210: 단위 학습모델(단위 분류기)
220: 대용량 학습모델(대용량 분류기)
211-1, 211-2, 211-n : 자질 추출부
212-1, 212-2, 212-n : 문헌별 자질정보 추출부
213-1, 213-2, 213-n : 자질 특성 매트릭스 생성부
221: 매트릭스 동적 결합부
222: 주제-가중치 벡터 생성부
223: 다원 분류부
101: Data input unit 102: Data storage unit (DB)
103: Data preprocessing unit 104: Large capacity classifier
105: Multiprocessing parallel processing unit 106: Performance measurement unit
107: interface provisioning
210: unit learning model (unit sorter)
220: Large Capacity Learning Model (Mass Classifier)
211-1, 211-2, 211-n:
212-1, 212-2, and 212-n:
213-1, 213-2, and 213-n:
221: Matrix dynamic coupling unit
222: subject-weight vector generation unit
223:

Claims (3)

점진적 학습 모델을 이용한 빅데이터 마이닝 시스템에 있어서,
정형 데이터 및 비정형 데이터를 입력받는 데이터 입력부(101);
상기 입력되는 데이터를 저장하는 데이터 저장부(데이터베이스)(102);
상기 입력되는 데이터의 전처리 및 언어처리를 위한 데이터 전처리부(103);
입력되는 대용량 데이터에서 부분적 변경요소만을 추가 반영하는 점진적 학습 모델에 기반하여 데이터를 처리하는 대용량 분류기(104);
상기 대용량 분류기의 작업을 분산 처리하는 멀티프로세싱 병렬 처리부(105);
상기 대용량 분류기의 작업 성능을 측정하는 성능 측정부(106); 및
상기 점진적 학습 모델 기반 빅데이터 마이닝 시스템의 웹기반 통합 인터페이스를 제공하는 인터페이스 제공부(107)
를 포함하는 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템.
In a big data mining system using a progressive learning model,
A data input unit 101 for receiving the fixed data and the irregular data;
A data storage unit (database) 102 for storing the input data;
A data preprocessing unit 103 for preprocessing and language processing the input data;
A mass classifier (104) for processing data based on an incremental learning model that additionally reflects only partial change elements in input large data;
A multiprocessing parallel processing unit 105 for distributing the tasks of the large capacity classifier;
A performance measuring unit (106) for measuring the performance of the mass spectrometer; And
The interface providing unit 107 for providing a web-based integrated interface of the progressive learning model-based big data mining system,
Big data mining system using incremental learning model.
제1항에 있어서,
상기 대용량 분류기(104)는,
다수의 단위 분류기(210-1, 210-2, 210-n)를 포함하고, 상기 다수의 단위 분류기의 결합을 통해 생성되는 것을 특징으로 하며,
각 단위 분류기(210-1, 210-2, 210-n)는,
자질을 추출하기 위한 자질 추출부(211-1, 211-2, 211-n);
문헌별 자질정보를 추출하기 위한 문헌별 자질정보 추출부(212-1, 212-2, 212-n);
자질 특성 매트릭스를 생성하기 위한 자질 특성 매트릭스 생성부(213-1, 213-2, 213-n);
를 포함하며,
상기 대용량 분류기(104)는,
결합 대상이 되는 다수의 자질 특성 매트릭스의 정보를 통합하여 결합하기 위한 매트릭스 동적 결합부(221);
상기 통합된 자질 특성 매트릭스로부터 유사척도를 이용하여 주제-가중치 벡터를 생성하기 위한 주제-가중치 백터 생성부(222);
상기 생성된 주제-가중치 백터를 이용하여 투표형 분류기법에 따라 분류하기 위한 다원 분류부(223)
를 더 포함하는 것을 특징으로 하는 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템.
The method according to claim 1,
The mass classifier (104)
And includes a plurality of unit classifiers 210-1, 210-2, and 210-n, and is generated through combining the plurality of unit classifiers.
Each of the unit classifiers 210-1, 210-2, and 210-
Qualities extraction units (211-1, 211-2, 211-n) for extracting qualities;
A qualification information extraction unit (212-1, 212-2, 212-n) for each document for extracting qualification information per document;
Qualities characteristic matrix generation sections (213-1, 213-2, 213-n) for generating a qualification characteristic matrix;
/ RTI &gt;
The mass classifier (104)
A matrix dynamic joining unit 221 for integrating and combining the information of a plurality of feature characteristic matrices to be combined;
A subject-weight vector generation unit 222 for generating a subject-weight vector from the integrated feature-property matrix using a similar measure;
A multi-classifying unit 223 for classifying according to the voting type classification scheme using the generated topic-weighted vector,
Wherein the data mining system further comprises:
제2항에 있어서,
상기 인터페이스 제공부(107)는,
작업 및 자원 관리 인터페이스, 자원 재사용 인터페이스, 병렬 처리 인터페이스 및 학습 결과 성능 평가 인터페이스를 제공하는 것을 특징으로 하는 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템.
3. The method of claim 2,
The interface providing unit (107)
A task and resource management interface, a resource reuse interface, a parallel processing interface, and a learning result performance evaluation interface.
KR1020170161455A 2017-11-29 2017-11-29 System of big data mining using incremental learning and a method thereof KR20190062848A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170161455A KR20190062848A (en) 2017-11-29 2017-11-29 System of big data mining using incremental learning and a method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170161455A KR20190062848A (en) 2017-11-29 2017-11-29 System of big data mining using incremental learning and a method thereof

Publications (1)

Publication Number Publication Date
KR20190062848A true KR20190062848A (en) 2019-06-07

Family

ID=66849936

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170161455A KR20190062848A (en) 2017-11-29 2017-11-29 System of big data mining using incremental learning and a method thereof

Country Status (1)

Country Link
KR (1) KR20190062848A (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110567522A (en) * 2019-09-06 2019-12-13 广州数知科技有限公司 application method and system of sensor semaphore identification in time-space big data analysis
KR102091529B1 (en) 2019-09-03 2020-03-23 (주)빅인사이트 Method and apparatus for training AI model using user's time series behavior data
KR102156289B1 (en) * 2020-03-20 2020-09-15 주식회사 비네아 Curation system using platform of high value-added intelligent research information based on prescriptive analysis and a method thereof
KR20210028554A (en) 2020-03-13 2021-03-12 (주)빅인사이트 Method and apparatus for training AI model using user's time series behavior data
KR102268817B1 (en) * 2019-12-19 2021-06-24 국민대학교산학협력단 Method and device for evaluating machine learning performance in a distributed cloud envirionment
US11227608B2 (en) 2020-01-23 2022-01-18 Samsung Electronics Co., Ltd. Electronic device and control method thereof
KR102365391B1 (en) 2020-12-07 2022-02-21 조영찬 Labeling method of video data and donation method using the same
WO2022107994A1 (en) * 2020-11-20 2022-05-27 (주)피씨엔 Big data augmented analysis profiling system
KR20220118051A (en) * 2021-02-18 2022-08-25 더스카이랩(주) Apparatus and method for big data processing and visualization
US11645572B2 (en) 2020-01-17 2023-05-09 Nec Corporation Meta-automated machine learning with improved multi-armed bandit algorithm for selecting and tuning a machine learning algorithm

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160075971A (en) 2014-12-19 2016-06-30 케이웨어 (주) Big data management system for public complaints services

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160075971A (en) 2014-12-19 2016-06-30 케이웨어 (주) Big data management system for public complaints services

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ko, Y., and J. Seo. 2004. "Using the feature projection technique based on a normalized voting method for text classification." Information Processing and Management. 40(2): 191-208.
Mengle, S.S.R. and Goharian, N. 2009. "Ambiguity measure feature-selection algorithm." Journal of The American Society for Information Science and Technology. 60(5):1037-1050.

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102091529B1 (en) 2019-09-03 2020-03-23 (주)빅인사이트 Method and apparatus for training AI model using user's time series behavior data
CN110567522A (en) * 2019-09-06 2019-12-13 广州数知科技有限公司 application method and system of sensor semaphore identification in time-space big data analysis
KR102268817B1 (en) * 2019-12-19 2021-06-24 국민대학교산학협력단 Method and device for evaluating machine learning performance in a distributed cloud envirionment
US11645572B2 (en) 2020-01-17 2023-05-09 Nec Corporation Meta-automated machine learning with improved multi-armed bandit algorithm for selecting and tuning a machine learning algorithm
US11227608B2 (en) 2020-01-23 2022-01-18 Samsung Electronics Co., Ltd. Electronic device and control method thereof
KR20210028554A (en) 2020-03-13 2021-03-12 (주)빅인사이트 Method and apparatus for training AI model using user's time series behavior data
KR102156289B1 (en) * 2020-03-20 2020-09-15 주식회사 비네아 Curation system using platform of high value-added intelligent research information based on prescriptive analysis and a method thereof
WO2022107994A1 (en) * 2020-11-20 2022-05-27 (주)피씨엔 Big data augmented analysis profiling system
KR102365391B1 (en) 2020-12-07 2022-02-21 조영찬 Labeling method of video data and donation method using the same
KR20220118051A (en) * 2021-02-18 2022-08-25 더스카이랩(주) Apparatus and method for big data processing and visualization

Similar Documents

Publication Publication Date Title
KR20190062848A (en) System of big data mining using incremental learning and a method thereof
Da Costa et al. Industry 4.0 technologies basic network identification
CN107918600B (en) Report development system and method, storage medium and electronic equipment
US11663254B2 (en) System and engine for seeded clustering of news events
Vysotska et al. Web Content Support Method in Electronic Business Systems.
KR100340386B1 (en) Method of data-processing and auto-generating patent map for patent/technical information analysis
Zhou et al. News Text Topic Clustering Optimized Method Based on TF-IDF Algorithm on Spark.
Soibelman et al. Management and analysis of unstructured construction data types
WO2017097231A1 (en) Topic processing method and device
CN108304382B (en) Quality analysis method and system based on text data mining in manufacturing process
Zhang et al. Topic modeling for OLAP on multidimensional text databases: topic cube and its applications
CA2956627A1 (en) System and engine for seeded clustering of news events
CN115795030A (en) Text classification method and device, computer equipment and storage medium
CN110874366A (en) Data processing and query method and device
Noh et al. Bigdata platform design and implementation model
KR102096328B1 (en) Platform for providing high value-added intelligent research information based on prescriptive analysis and a method thereof
CN116932906A (en) Search term pushing method, device, equipment and storage medium
KR20210129465A (en) Apparatus for managing laboratory note and method for searching laboratory note using thereof
CN110059316B (en) Dynamic scientific and technological resource semantic analysis method based on data perception
Shen et al. A cross-database comparison to discover potential product opportunities using text mining and cosine similarity
EP4002151A1 (en) Data tagging and synchronisation system
Olszak et al. Big Data Approach to Analyzing the IT Job Market
Aliguliyev et al. Current scientific and theoretical problems of Big Data
CN111680516A (en) PDM system product design requirement information semantic analysis and extraction method and system
JP6496078B2 (en) Analysis support device, analysis support method, and analysis support program