KR20200010624A - Big Data Integrated Diagnosis Prediction System Using Machine Learning - Google Patents

Big Data Integrated Diagnosis Prediction System Using Machine Learning Download PDF

Info

Publication number
KR20200010624A
KR20200010624A KR1020180072207A KR20180072207A KR20200010624A KR 20200010624 A KR20200010624 A KR 20200010624A KR 1020180072207 A KR1020180072207 A KR 1020180072207A KR 20180072207 A KR20180072207 A KR 20180072207A KR 20200010624 A KR20200010624 A KR 20200010624A
Authority
KR
South Korea
Prior art keywords
data
analysis
machine learning
unit
collected
Prior art date
Application number
KR1020180072207A
Other languages
Korean (ko)
Inventor
임학수
Original Assignee
주식회사 링크트리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 링크트리 filed Critical 주식회사 링크트리
Priority to KR1020180072207A priority Critical patent/KR20200010624A/en
Publication of KR20200010624A publication Critical patent/KR20200010624A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a big data integrated diagnostic prediction system using machine learning and a method thereof. According to the present invention, the method comprises the steps of: (A) collecting data corresponding to a keyword set by a collection unit to a connected website or from an IoT device; (B) classifying, by a classification unit, the data to meet a preset value in order to analyze and learn the collected data; (C) generating analysis information by analyzing data stored in a database so as to correspond to analysis performance definition data by an analysis unit; (D) performing machine learning on the collected data or the classified data by a learning unit; and (e) generating, by a predictive diagnosis unit, a report including a predicted value and reliability of the collected data or classified data based on a result of the machine learning.

Description

머신러닝을 이용한 빅데이터 통합진단 예측 시스템{Big Data Integrated Diagnosis Prediction System Using Machine Learning}Big Data Integrated Diagnosis Prediction System Using Machine Learning

본 발명은 머신러닝을 이용한 빅데이터 통합진단 예측 시스템 및 그 방법에 관한 것으로 더욱 상세하게는, 웹사이트 또는 IoT 디바이스로부터 수집한 각종 데이터에 대한 분류와 분석을 통해 평가항목을 계량화하고, 계량화한 편향과 가중치를 딥러닝 기법을 통해 학습하여 신뢰도와 오차를 함께 도출해 정확성을 향상시키는 기술에 관한 것이다.The present invention relates to a big data integrated diagnostic prediction system and method using machine learning, and more specifically, to quantify and quantify evaluation items through classification and analysis on various data collected from a website or an IoT device. This study relates to a technique for learning accuracy and weights through deep learning techniques to derive reliability and error together to improve accuracy.

빅데이터란 기존의 데이터베이스 관리 도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다.Big data refers to a large set of structured or unstructured data sets that go beyond the ability to collect, store, manage, and analyze data with existing database management tools and techniques for extracting value and analyzing the results from such data.

다양한 종류의 대용량 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로 하는 빅데이터 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동하게 하고 개인화된 현대 사회 구성원마다 맞춤형정보를 제공, 관리, 분석할 수 있도록 한다.The development of big data technology, which is characterized by the creation, collection, analysis, and expression of various kinds of large-capacity data, makes it possible to predict and efficiently operate a diversified modern society more efficiently and provide customized information for each individual member of modern society. Allow management and analysis.

이와 같이, 빅데이터는 정치, 사회, 경제, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 유용한 정보를 제공할 수 있는 가능성을 제시하며 그 중요성이 부각되고 있다.As such, big data shows the possibility of providing useful information to society and mankind in all areas such as politics, society, economy, culture, science and technology, and its importance is highlighted.

빅데이터 분석에는 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식등이 동원될 수 있다. 특히, 최근 소셜 미디어와 같은 비정형 데이터의 증가로 인해 분석 기법들 중에서 텍스트 마이닝, 오피니언 마이닝, 소셜 네트워크 분석, 군집 분석 등이 주목을 받고 있다.Big data analysis can involve data mining, machine learning, natural language processing, and pattern recognition, which were used in traditional statistics and computing. In particular, due to the increase in unstructured data, such as social media, text mining, opinion mining, social network analysis, cluster analysis, etc. are attracting attention.

그러나, 종래의 빅데이터 분석은 데이터의 형태나 특징이 변하는 경우 모델을 다시 분석하고 지정하여 분석 프로그램을 다시 실행해야만 하며, 정해진 데이터에 정해진 분석만이 가능하다는 문제점이 있다.However, in the conventional big data analysis, when the shape or feature of the data is changed, the model must be re-analyzed and designated again to execute the analysis program again.

또한, 정해진 빅데이터 저장용 데이터베이스에서 값을 추출하여 프로그램이 가공 분석하는 형태로 운영되는데, 원본 데이터베이스와 타겟 데이터베이스를 지정할 수 없다는 문제점이 있다.In addition, the program extracts a value from a predetermined big data storage database and operates in a form in which the program is processed and analyzed.

아울러, 종래의 빅데이터 분석 도구는 데이터베이스에 저장된 데이터만을 색인하여 분석결과를 제공하기 때문에, 빅데이터 수집 중에는 분석결과 확인이 어렵고 빅데이터 수집이 완료된 이후 데이터베이스로부터 수집된 데이터를 색인하여 분석해야하는 번거로움이 있다.In addition, the conventional big data analysis tool indexes only the data stored in the database and provides the analysis result. Therefore, it is difficult to check the analysis result during the big data collection, and it is troublesome to index and analyze the data collected from the database after the big data collection is completed. There is this.

한국등록특허 제1638986호Korean Registered Patent No. 1638986

본 발명의 목적은, 웹사이트 또는 IoT 디바이스로부터 수집한 각종 데이터에 대한 분류와 분석을 통해 평가항목을 계량화하고, 계량화한 편향과 가중치를 딥러닝 기법을 통해 학습하여 신뢰도와 오차를 함께 도출해 정확성을 향상시키는데 있다.The purpose of the present invention is to quantify evaluation items through classification and analysis of various data collected from websites or IoT devices, and to learn the biases and weights quantified through deep learning techniques to derive reliability and errors to improve accuracy. To improve.

본 발명의 목적은, 수집대상 데이터의 형태 및 모델이 변경될 때 마다 분석도구를 재개발 하지 않고, 로직의 변경 없이 파라미터 변경만으로 실시간으로 수집대상 데이터에 대한 분석이 가능함으로써, 원본 데이터베이스, 통신장비의 테이블 규격 및 통신 프로토콜이 변경되어도 분석 프로그램을 다시 실행하지 않아도 됨에 따라 유연하고 유지보수가 용이하며 재개발에 소요되는 비용을 절감하는데 있다.An object of the present invention is to analyze the data to be collected in real time only by changing parameters without changing the logic without re-developing an analysis tool whenever the shape and model of the data to be collected change. Even if the table specification and communication protocol are changed, the analysis program does not need to be executed again, which is flexible, easy to maintain, and reduces the cost of redevelopment.

이러한 기술적 과제를 달성하기 위한 본 발명의 일 실시예는 머신러닝을 이용한 빅데이터 통합진단 예측 시스템으로서, 디바이스로부터 설정된 기초데이터에 대응하는 데이터를 수집하는 수집부; 수집한 데이터의 분석 및 학습을 위해 기 설정된 값과 부합하도록 분류한 데이터를 데이터베이스에 저장하는 분류부; 기 설정된 분석수행 정의데이터에 부합하도록 데이터베이스에 저장된 데이터를 분석하여 분석정보를 생성하는 분석부; 수집한 데이터 또는 분류한 데이터에 대한 기계학습을 수행하는 학습부; 및 기계학습 결과를 토대로 상기 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성하는 예측진단부를 포함하는 것을 특징으로 한다.One embodiment of the present invention for achieving the technical problem is a big data integrated diagnostic prediction system using machine learning, the collection unit for collecting data corresponding to the basic data set from the device; A classification unit configured to store data classified in accordance with a predetermined value for analysis and learning of collected data in a database; An analysis unit for analyzing the data stored in the database to generate analysis information so as to correspond to the preset analysis performance definition data; A learning unit which performs machine learning on collected data or classified data; And a predictive diagnosis unit configured to generate a report including a predicted value of the collected data or classified data and a reliability thereof based on a machine learning result.

수집부는 디바이스와 접속된 웹사이트로부터 수집한 데이터를 빅데이터 분석을 위한 데이터베이스에 저장하는 Legacy DB모듈; 및 디바이스와 접속된 IoT 기기로부터 수집한 데이터를 빅데이터 분석을 위한 데이터베이스에 저장하는 IoT DB모듈을 포함하는 것을 특징으로 한다.The collection unit Legacy DB module for storing the data collected from the website connected to the device in a database for big data analysis; And an IoT DB module for storing data collected from the IoT devices connected to the device in a database for big data analysis.

기초데이터는, 데이터 수집방법, 수집한 데이터 저장경로, 테이블 정보, 필드 정보, 키워드, 수집한 데이터의 크기, 데이터 수집 시간 또는 수집대상 사이트 중에 어느 하나를 포함하는 것을 특징으로 한다.The basic data may include any one of a data collection method, a collected data storage path, table information, field information, a keyword, a size of collected data, a data collection time, and a collection target site.

분석부는 수집한 데이터의 분석 및 학습을 위해 기 설정된 값과 부합하도록 분류하는 코디네이터모듈; 및 코디네이터모듈에 의해 분류된 데이터를 메모리 기반으로 저장 및 관리하는 통합DB를 포함하는 것을 특징으로 한다.The analysis unit includes a coordinator module for classifying to match a predetermined value for analysis and learning of the collected data; And an integrated DB for storing and managing data classified by the coordinator module on a memory basis.

분석수행 정의데이터는 분석실행 방식, 분석수행 주기, 분석대상 평가항목 또는 가중치 중에 어느 하나를 포함하고, 분석정보는 키워드 각각에 대한 빈도수를 수치화한 데이터를 포함하는 것을 특징으로 한다.The analysis execution definition data may include any one of an analysis execution method, an analysis execution cycle, an analysis target evaluation item, and a weight, and the analysis information may include data obtained by quantifying the frequency of each keyword.

예측값은 수집한 데이터 또는 분류한 데이터에 대한 판매량, 호감도, 증가율 또는 수요량 중에 어느 하나의 수치형 예측값과, 업/다운, 매수/매도 또는 호감/비호감 중에 어느 하나의 범주형 예측값을 포함하는 것을 특징으로 한다.The forecast value includes a numerical forecast value of any one of sales volume, attractiveness, growth rate, or demand for collected data or classified data, and categorical forecast value of any one of up / down, buy / sell, or crush / unlikeness. It is done.

전술한 시스템을 기반으로 하는 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법은, 수집부가 접속된 웹사이트로 또는 IoT디바이스로부터 설정된 키워드에 대응하는 데이터를 수집하는 (a) 단계; 분류부가 수집한 데이터의 분석 및 학습을 위해 기 설정된 값과 부합하도록 분류하여 데이터베이스에 저장하는 (b) 단계; 분석부가 분석수행 정의데이터에 부합하도록 데이터베이스에 저장된 데이터를 분석하여 분석정보를 생성하는 (c) 단계; 학습부가 수집한 데이터 또는 분류한 데이터에 대한 기계학습을 수행하는 (d) 단계; 및 예측진단부가 기계학습 결과를 토대로 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성하는 (e) 단계를 포함한다.In the big data integrated diagnosis prediction method using machine learning according to an embodiment of the present invention based on the above-described system, (a) collecting data corresponding to a keyword set to a website connected to a collection unit or from an IoT device; step; (B) classifying and classifying the classification unit so as to correspond to a predetermined value for analyzing and learning the collected data; (C) generating analysis information by analyzing the data stored in the database so as to correspond to the analysis performance definition data by the analysis unit; (D) performing machine learning on the collected data or the classified data by the learning unit; And (e) generating, by the predictive diagnosis unit, a report including predicted values of the collected data or classified data based on the machine learning result and reliability thereof.

바람직하게 (a) 단계는 수집부가 설정된 기초데이터에 포함된 데이터 수집대상이 웹사이트인지 또는 IoT 디바이스인지 여부를 판단하는 (a-1) 단계; (a-1) 단계의 판단결과, 데이터 수집대상이 웹사이트인 경우, 수집부가 접속한 웹사이트로부터 수집한 데이터를 Legacy DB모듈을 통해 데이터베이스에 저장하는 (a-2) 단계; 및 (a-1) 단계의 판단결과, 데이터 수집대상이 IoT 디바이스인 경우, 수집부가 접속한 IoT 디바이스로부터 수집한 데이터를 IoT DB모듈을 통해 데이터베이스에 저장하는 (a-3) 단계를 포함하는 것을 특징으로 한다.Preferably, step (a) comprises: (a-1) determining whether the data collection target included in the basic data set by the collector is a website or an IoT device; (a-2) when the data collection target is a website as a result of the determination in step (a-1), storing the data collected from the website accessed by the collector in a database through a legacy DB module; And (a-3) storing the data collected from the connected IoT device in the database through the IoT DB module when the data collection target is the IoT device as a result of the determination in step (a-1). It features.

(b) 단계는, 분류부가 코디네이터모듈에 의해 설정된 값을 색인하는 (b-1) 단계; 분류부가 코디네이터모듈이 색인한 설정값과 부합하도록 수집된 데이터를 분류하는 (b-2) 단계; 및 분류부가 분류된 데이터를 통합DB를 통해 메모리 기반의 저장소에 저장하는 (b-3) 단계를 포함하는 것을 특징으로 한다.Step (b) includes the step of classifying the index set by the coordinator module (b-1); (B-2) classifying the collected data to match the set value indexed by the coordinator module; And (b-3) storing the classified data in the memory-based storage through the integrated DB.

(c) 단계는, 분석부가 분석실행 방식, 분석수행 주기, 분석대상 평가항목 또는 가중치 중에 어느 하나를 포함하는 분석수행 정의데이터를 색인하는 (c-1) 단계; 분석부가 데이터 분석대상이 웹사이트인지 또는 IoT 디바이스인지 여부를 판단하는 (c-2) 단계; (c-2) 단계의 판단결과, 데이터 분석대상이 웹사이트인 경우, 분석부가 Legacy DB모듈에 저장된 데이터를 분석수행 정의데이터에 부합하도록 분석하는 (c-3) 단계; (c-2) 단계의 판단결과, 데이터 분석대상이 IoT 디바이스인 경우, 분석부가 IoT DB모듈에 저장된 데이터를 분석수행 정의데이터에 부합하도록 분석하는 (c-4) 단계; 및 분석부가 분석한 데이터를 키워드 각각에 대한 빈도수를 수치화한 분석정보를 생성하는 (c-5) 단계를 포함하는 것을 특징으로 한다.(c) step (c-1) of analyzing, by the analysis unit, analyzing analysis definition data including any one of an analysis execution method, an analysis execution cycle, an analysis target evaluation item, and a weight; (C-2) determining, by the analysis unit, whether the data analysis target is a website or an IoT device; (c-3) analyzing the data stored in the Legacy DB module in accordance with the analysis performance definition data when the data analysis target is the website as a result of the determination in step (c-2); As a result of the determination in step (c-2), when the data analysis target is the IoT device, the analyzing unit analyzes the data stored in the IoT DB module to match the analysis performance definition data (c-4); And (c-5) generating the analysis information obtained by quantifying the frequency of each keyword of the data analyzed by the analysis unit.

(d) 단계는, 학습부가 기계학습을 위해 입력층, 은닉층, 학습모델 및 파라미터 각각의 값을 입력받는 (d-1) 단계; 학습부가 기계학습 수행을 위해 정의된 기능을 색인하는 (d-2) 단계; 학습부가 기계학습 수행을 위한 데이터 마이닝 기법을 색인하는 (d-3) 단계; 및 학습부가 색인한 기능 및 데이터 마이닝 기법을 통해 기계학습을 실행하여 기계학습 결과정보를 생성하는 (d-4) 단계를 포함하는 것을 특징으로 한다.In step (d), the learning unit receives a value of each of an input layer, a hidden layer, a learning model, and parameters for machine learning (d-1); (D-2) the learning unit indexing a function defined for performing machine learning; (D-3) the learning unit indexing a data mining technique for performing machine learning; And (d-4) generating the machine learning result information by executing the machine learning through the function and data mining technique indexed by the learning unit.

(e) 단계는, 예측진단부가 학습부로부터 기계학습 결과를 인가받는 (e-1) 단계; 예측진단부가 수집한 데이터 또는 분류한 데이터를 인가받는 (e-2) 단계; 및 예측진단부가 기계학습 결과를 토대로 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성하는 (e-3) 단계를 포함하는 것을 특징으로 한다.In step (e), the prediction diagnosis unit receives the machine learning result from the learning unit (e-1); (E-2) receiving the collected data or the classified data by the prediction diagnosis unit; And (e-3) generating, by the predictive diagnostic unit, a report including predicted values and reliability of the collected data or classified data based on the machine learning results.

상기와 같은 본 발명에 따르면, 웹사이트 또는 IoT 디바이스로부터 수집한 각종 데이터에 대한 분류와 분석을 통해 평가항목을 계량화하고, 계량화한 편향과 가중치를 딥러닝 기법을 통해 학습하여 신뢰도와 오차를 함께 도출해 정확성을 향상시키는 효과가 있다.According to the present invention as described above, the evaluation items are quantified through classification and analysis of various data collected from a website or an IoT device, and the deflections and weights are learned through deep learning techniques to derive reliability and error together. This has the effect of improving accuracy.

본 발명에 따르면, 수집대상 데이터의 형태 및 모델이 변경될 때 마다 분석도구를 재개발 하지 않고, 로직의 변경 없이 파라미터 변경만으로 실시간으로 수집대상 데이터에 대한 분석이 가능함으로써, 원본 데이터베이스, 통신장비의 테이블 규격 및 통신 프로토콜이 변경되어도 분석 프로그램을 다시 실행하지 않아도 됨에 따라 유연하고 유지보수가 용이하며 재개발에 소요되는 비용을 절감하는 효과가 있다.According to the present invention, it is possible to analyze the data to be collected in real time only by changing parameters without changing the logic without re-developing an analysis tool whenever the shape and model of the data to be collected are changed. Even if the specifications and communication protocols change, the analysis program does not need to be run again, which is flexible, easy to maintain, and reduces the cost of redevelopment.

도 1은 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템을 도시한 구성도.
도 2는 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템의 세부구성을 도시한 도면.
도 3은 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템의 동작흐름을 도시한 도면.
도 4는 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템의 프레임워크를 도시한 도면.
도 5는 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법을 도시한 순서도.
도 6은 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S100단계를 도시한 순서도.
도 7은 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S200단계를 도시한 순서도.
도 8은 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S300단계를 도시한 순서도.
도 9는 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S400단계를 도시한 순서도.
도 10은 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S500단계를 도시한 순서도.
1 is a block diagram showing a big data integrated diagnostic prediction system using machine learning in accordance with an embodiment of the present invention.
2 is a diagram showing a detailed configuration of a big data integrated diagnostic prediction system using machine learning according to an embodiment of the present invention.
3 is a flowchart illustrating an operation of a big data integrated diagnosis prediction system using machine learning according to an embodiment of the present invention.
4 is a diagram illustrating a framework of a big data integrated diagnostic prediction system using machine learning according to an embodiment of the present invention.
5 is a flowchart illustrating a method for predicting big data integrated diagnosis using machine learning according to an embodiment of the present invention.
6 is a flowchart illustrating step S100 of a method for predicting integrated big data diagnosis using machine learning according to an embodiment of the present invention.
7 is a flowchart illustrating step S200 of a method for predicting integrated big data diagnosis using machine learning according to an embodiment of the present invention.
8 is a flowchart illustrating step S300 of a method for predicting big data integrated diagnosis using machine learning according to an embodiment of the present invention.
9 is a flowchart illustrating step S400 of a method for predicting integrated big data diagnosis using machine learning according to an embodiment of the present invention.
10 is a flowchart illustrating step S500 of a method for predicting integrated big data diagnosis using machine learning according to an embodiment of the present invention.

본 발명의 구체적인 특징 및 이점들은 첨부 도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다. 또한, 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.Specific features and advantages of the present invention will become more apparent from the following detailed description based on the accompanying drawings. Prior to this, terms or words used in the present specification and claims are defined in the technical spirit of the present invention on the basis of the principle that the inventor can appropriately define the concept of the term in order to explain the invention in the best way. It should be interpreted to mean meanings and concepts. In addition, when it is determined that the detailed description of the known function and the configuration related to the present invention may unnecessarily obscure the subject matter of the present invention, it should be noted that the detailed description is omitted.

도 1은 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템(S)을 도시한 구성도이고, 도 2는 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템(S)의 세부구성을 도시한 도면이다.1 is a block diagram showing a big data integrated diagnostic prediction system (S) using machine learning according to an embodiment of the present invention, Figure 2 is a big data integrated diagnostic using machine learning according to an embodiment of the present invention It is a figure which shows the detailed structure of the prediction system S. FIG.

이하에서는 그 구체적인 언급을 생략하겠으나, 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템(S)은 파이선(python)이 제공하는 scikit-learn, tensorflow 또는 keras 중에 어느 하나의 라이브러리 및 함수를 설정하여 모듈별로 선택 적용이 가능한 프레임워크가 탑재되어 있는 것으로 상정한다.Hereinafter, detailed description thereof will be omitted, but the big data integrated diagnosis prediction system S using machine learning according to an embodiment of the present invention may be any one of scikit-learn, tensorflow, or keras provided by Python. It is assumed that a framework that can be selected and applied for each module by setting a function and a function is installed.

도 1 및 도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템(S)은, 수집부(100) 분류부(200), 분석부(300), 학습부(400) 및 예측진단부(500)를 포함하여 구성된다.As shown in Figure 1 and 2, the big data integrated diagnostic prediction system (S) using the machine learning according to an embodiment of the present invention, the collecting unit 100, the classification unit 200, the analysis unit 300 , The learning unit 400 and the predictive diagnosis unit 500 are configured.

먼저, 수집부(100)는 설정된 키워드 및 기초데이터에 대응하는 데이터를 수집하되, 수집한 데이터를 빅데이터 분석을 위한 데이터베이스에 저장하는 Legacy DB모듈(102)과, IoT 디바이스로부터 수집한 데이터를 빅데이터 분석을 위한 데이터베이스에 저장하는 IoT DB모듈(104)을 포함하여 구성된다.First, the collection unit 100 collects data corresponding to the set keyword and the basic data, the Legacy DB module 102 for storing the collected data in a database for big data analysis, and the data collected from the IoT device big It is configured to include an IoT DB module 104 to store in the database for data analysis.

이때, 기초데이터는 데이터 수집방법, 수집한 데이터 저장경로, 테이블 정보, 필드 정보, 키워드, 수집한 데이터의 크기, 데이터 수집 시간 또는 수집대상 사이트 중에 어느 하나를 포함할 수 있다.In this case, the basic data may include any one of a data collection method, a collected data storage path, table information, field information, a keyword, a size of collected data, a data collection time, and a collection target site.

또한, 빅데이터 저장을 위한 데이터베이스는 카산드라(Kasandra), 하둡(hadoop) 또는 몽고DB(mongoDB) 중에 어느 하나로 구성될 수 있으나, 본 발명이 이에 국한되는 것은 아니다.In addition, the database for storing the big data may be composed of any one of Kasandra, hadoop or mongoDB, but the present invention is not limited thereto.

아울러, 수집부(100)가 수집하는 데이터는 텍스트, 음성 또는 이미지 중에 어느 하나를 포함하고, 태그와 키워드를 기준으로 댓글을 수집할 수 있다.In addition, the data collected by the collection unit 100 may include any one of text, voice, or image, and collect comments based on tags and keywords.

분류부(200)는 수집한 데이터의 분석 및 학습을 위해 기 설정된 값과 부합하도록 분류하는 코디네이터모듈(202)과, 코디네이터모듈(202)에 의해 분류된 데이터를 메모리 기반으로 저장 및 관리하는 통합DB(204)를 포함하여 구성된다.The classification unit 200 classifies the coordinator module 202 for classifying and matching data with a predetermined value for analyzing and learning the collected data, and an integrated DB for storing and managing data classified by the coordinator module 202 on a memory basis. And 204.

이때, 수집한 데이터 분류를 위해 기 설정된 값은 데이터 분류 방식과 파라미터 설정을 위한 값으로 관리자에 의해 변경될 수 있다.In this case, the preset value for classifying the collected data may be changed by the administrator as a value for data classification and parameter setting.

본 발명의 일 실시예에 따른 분류부(200)에 의하면 수집대상 데이터의 형태, 통신장비의 테이블 규격, 또는 통신 프로토콜이 변경될 경우, 로직의 변경 없이 파라미터 변경만으로 변경된 수집대상 데이터나 모델에 대한 데이터 분류가 가능하다.According to the classification unit 200 according to an embodiment of the present invention, when the type of data to be collected, a table standard of a communication device, or a communication protocol is changed, the data or model about the data to be collected is changed by only changing parameters without changing logic. Data classification is possible.

분석부(300)는 수집한 데이터 분석을 위해 분석대상 데이터가 저장된 데이터베이스를 선별하고, 분석수행 정의데이터에 부합하도록 데이터베이스에 저장된 데이터를 분석하여 분석정보를 생성한다.The analysis unit 300 selects a database in which the analysis target data is stored for analyzing the collected data, and analyzes the data stored in the database to meet the analysis performance definition data to generate analysis information.

이때, 데이터베이스 선별은 원본 데이터가 저장된 수집부(100)의 Legacy DB모듈(102) 또는 IoT DB모듈(104)와, 분류된 데이터가 저장된 분류부(200)의 통합DB(204) 중에 어느 하나를 선별하는 것으로 이해함이 바람직하다.At this time, the database selection is any one of the Legacy DB module 102 or IoT DB module 104 of the collecting unit 100, the original data is stored, and the integrated DB 204 of the classification unit 200 stored the classified data. It is preferable to understand by selecting.

또한, 분석수행 정의데이터는 분석실행 방식, 분석수행 주기, 분석대상 평가항목 또는 가중치 중에 어느 하나를 포함하며, 분석정보는 키워드 각각에 대한 빈도수를 수치화한 데이터를 포함하여 구성된다.In addition, the analysis execution definition data includes any one of an analysis execution method, an analysis execution cycle, an analysis target evaluation item, or a weight, and the analysis information includes data obtained by quantifying a frequency for each keyword.

학습부(400)는 입력받은 입력층, 은닉층, 학습모델 및 파라미터 각각의 값에 부합하도록 딥러닝을 통한 학습을 수행하되, 수집부(100)에 의해 수집된 데이터 또는 분류부(200)에 의해 분류된 데이터의 학습 수행을 위한 기능들을 정의하는 기계학습 정의모듈(402)과, 기계학습 정의모듈(402)에 정의된 기능을 통해 기계학습을 실행하여 기계학습 결과정보를 생성하는 기계학습 실행모듈(404)을 포함하여 구성된다.The learning unit 400 performs the learning through deep learning so as to correspond to the values of the input layer, the hidden layer, the learning model, and the parameters, respectively, by the data or classification unit 200 collected by the collecting unit 100. Machine learning execution module for defining the functions for performing the learning of the sorted data and machine learning execution module for generating machine learning result information by executing machine learning through the functions defined in the machine learning definition module 402 404.

이때, 기계학습 실행모듈(404)은 규칙 정의에 의한 지도학습(supervised learning) 또는 규칙을 찾아내는 비지도학습(unsupervised learning) 중에 어느 하나의 데이터 마이닝 기법으로 학습을 수행하며, 관리자에 의해 학습 기법에 대한 설정이 변경될 수 있다.At this time, the machine learning execution module 404 performs the learning by either data mining technique of supervised learning based on rule definition or unsupervised learning finding a rule. Settings can be changed.

본 발명의 일 실시예에 따른 학습부(400)의 지도학습을 통해 지식베이스(Knowledge Base)와 의사결정규칙(Decision Rules)을 내재한 전문가시스템(Expert System)을 보완하고, 비지도학습을 통해 비구조적인 의사결정을 지원하는 의사결정지원시스템(Decision support system)을 보완할 수 있다.Through the supervised learning of the learning unit 400 according to an embodiment of the present invention, an expert system embedded with a knowledge base and decision rules is supplemented and unsupervised learning. Complement the decision support system to support unstructured decision making.

예측진단부(500)는 학습부(400)로부터 인가받은 기계학습 결과정보를 토대로 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성한다.The predictive diagnosis unit 500 generates a report including predicted values of the collected data or classified data and reliability thereof based on the machine learning result information received from the learner 400.

이때, 예측값은 판매량, 호감도, 증가율 또는 수요량 중에 어느 하나의 수치형 예측값과, 업/다운, 매수/매도 또는 호감/비호감 중에 어느 하나의 범주형 예측값을 포함할 수 있다.In this case, the predicted value may include any one of the numerical predictive value among the sales volume, the likelihood, the increase rate, or the demand quantity, and the categorical predictive value among the up / down, buy / sell, or crush / unfavorable values.

또한, 예측진단부(500)가 생성하는 보고서는 시계열적인 차트, 다이어그램 또는 동영상 형태의 데이터 흐름도 중에 어느 하나를 포함하며, In addition, the report generated by the predictive diagnosis unit 500 includes any one of a data flow chart in the form of a time series chart, diagram, or video.

도 3은 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템(S)의 동작흐름을 도시한 도면이다.3 is a diagram illustrating an operation flow of a big data integrated diagnosis prediction system S using machine learning according to an embodiment of the present invention.

도 3에 도시된 바와 같이, 먼저 수집부(100)가 머신러닝을 수행할 프론트엔드 및 백엔드 프레임워크를 입력받는다(step 1).As shown in FIG. 3, first, the collecting unit 100 receives a front end and a back end framework for performing machine learning (step 1).

이어서, 수집부(100)가 데이터의 수집방법, 데이터베이스, 테이블 정보, 필드정보 및 통합데이터베이스에 대한 설정을 정의한다(step 2).Subsequently, the collection unit 100 defines a data collection method, a database, table information, field information, and settings for the integrated database (step 2).

뒤이어, 분류부(200)가 데이터분석을 위한 방식과 파라미터를 정의한다(step 3).Subsequently, the classification unit 200 defines a method and a parameter for data analysis (step 3).

이어서, 분석부(300)가 지정한 주기 동안 정해진 규칙에 따라 수집된 정보를 분석한다(step 4).Subsequently, the analysis unit 300 analyzes the collected information according to a predetermined rule during the designated period (step 4).

뒤이어, 학습부(400)가 기계학습을 위한 입력층, 은닉층, 학습모델 및 파라미터를 정의한다(step 5).Subsequently, the learner 400 defines an input layer, a hidden layer, a learning model, and parameters for machine learning (step 5).

이어서, 학습부(400)가 정의된 값에 부합하도록 기계학습을 수행한다(step 6).Next, the learning unit 400 performs a machine learning to match the defined value (step 6).

그리고, 예측진단부(500)가 학습 결과를 토대로 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성한다(step 7).Then, the predictive diagnosis unit 500 generates a report including the predicted value and the reliability thereof based on the learning result (step 7).

이때, step 1은 최초에 한번 실행되고, step 2, step 3 및 step 5는 모델의 변경이 있는 경우 사용자에 의해 변경이 가능하며(모델 변경의 제안은 머신러닝 엔진의 자동 추천을 통해 변경될 수 있음), step 4 및 step 6은 주기적으로 자동 실행된다.At this time, step 1 is executed once at first, and step 2, step 3, and step 5 can be changed by the user if there is a change in the model (suggestion of model change can be changed through automatic recommendation of the machine learning engine. Step 4 and step 6 are automatically executed periodically.

도 4는 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템(S)의 프레임워크 구성을 도시한 도면이다.4 is a diagram illustrating a framework of a big data integrated diagnosis prediction system S using machine learning according to an embodiment of the present invention.

도 4에 도시된 바와 같이, 프레임워크 하단부터 머신러닝을 위한 파이선 라이브러리인 Scikit-learn라이브러리와 수치해석을 위한 Numpy, 수치해석과 시각화를 위한 pandas, 시각화를 위한 matplotlib와 seaborn을 구성하여 공통 라이브러리로 사용한다.As shown in FIG. 4, Scikit-learn library, which is a Python library for machine learning, Numpy for numerical analysis, pandas for numerical analysis and visualization, matplotlib for visualization and seaborn are configured as common libraries from the bottom of the framework. use.

또한, 사용자의 설정에 따라 backend를 tensorflow나 theano등을 선별적으로 구성할 수 있도록 하고 frontend는 keras/pytorch로 구성하였다.In addition, the backend can be selectively configured as tensorflow or theano according to the user's setting, and the frontend is configured as keras / pytorch.

각종 레거시 데이터베이스와 IoT 디바이스로부터 정보 수집을 위한 Collector를 구성하였고, 인티그레이션 용도로 Oracle과 MySQL을, 기존 빅데이터 저장 도구인 Hadoop, MonogoDB, Redis, Cassandra 및 elastic connnector들을 배치하였다.Collectors for collecting information from various legacy databases and IoT devices were configured, and Oracle and MySQL were deployed for integration purposes, and Hadoop, MonogoDB, Redis, Cassandra, and elastic connnectors, which are existing big data storage tools, were deployed.

데이터 분류 및 분석을 위해 Data coordinator와 Integration DB를 구성하였고, M/L level의 분석과 학습을 ML student가 맡아서 진행하고, D/L level(신경망)의 분석과 학습을 DL student가 맡아서 진행하도록 구성하였다.Data coordinator and integration DB were configured for data classification and analysis, ML student was in charge of M / L level analysis and learning, and DL student was in charge of D / L level analysis and learning. It was.

WAS는 각종 웹 Application을 이용하여 Report를 자동으로 생성하게 되고 이것을 Election Viewer로 사용자에게 보여줌으로써, Mobile Device, Web, Application 등 다양한 매체로 정보를 제공할 수 있다.WAS automatically generates a report using various web applications and shows it to the user with the Election Viewer, so that information can be provided to various media such as mobile devices, web, and applications.

이하, 도 5를 참조하여 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법에 대해 살피면 아래와 같다.Hereinafter, a method for predicting big data integrated diagnosis using machine learning according to an embodiment of the present invention will be described with reference to FIG. 5.

먼저, 수집부(100)가 접속된 웹사이트 또는 IoT디바이스로부터 설정된 키워드에 대응하는 데이터를 수집한다(S100).First, the collection unit 100 collects data corresponding to a keyword set from the connected website or IoT device (S100).

이어서, 분류부(200)가 수집한 데이터의 분석 및 학습을 위해 기 설정된 값과 부합하도록 분류하여 데이터베이스에 저장한다(S200).Subsequently, the classification unit 200 classifies and stores the data in a database in accordance with a predetermined value for analyzing and learning the collected data (S200).

뒤이어, 분석부(300)가 분석수행 정의데이터에 부합하도록 데이터베이스에 저장된 데이터를 분석하여 분석정보를 생성한다(S300).Subsequently, the analysis unit 300 analyzes the data stored in the database to match the analysis performance definition data to generate analysis information (S300).

이어서, 학습부(400)가 수집한 데이터 또는 분류한 데이터에 대한 기계학습을 수행한다(S400).Next, the learning unit 400 performs a machine learning on the collected data or classified data (S400).

그리고, 예측진단부(500)가 기계학습 결과를 토대로 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성한다(S500).Then, the predictive diagnosis unit 500 generates a report including the predicted value and reliability according to the data collected or classified based on the machine learning result (S500).

이하, 도 6을 참조하여 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S100단계에 대해 살피면 아래와 같다.Hereinafter, referring to FIG. 6, the S100 step of the big data integrated diagnosis prediction method using machine learning according to an embodiment of the present invention will be described below.

먼저, 수집부(100)가 설정된 기초데이터에 포함된 데이터 수집대상이 웹사이트인지 또는 IoT 디바이스인지 여부를 판단한다(S102).First, the collection unit 100 determines whether the data collection target included in the set basic data is a website or an IoT device (S102).

제S102단계의 판단결과, 데이터 수집대상이 웹사이트인 경우, 수집부(100)가 접속한 웹사이트로부터 수집한 데이터를 Legacy DB모듈(102)을 통해 데이터베이스에 저장한다(S104).As a result of the determination in step S102, when the data collection target is a website, the collection unit 100 stores the data collected from the connected website through the legacy DB module 102 in the database (S104).

제S102단계의 판단결과, 데이터 수집대상이 IoT 디바이스인 경우, 수집부(100)가 접속한 IoT 디바이스로부터 수집한 데이터를 IoT DB모듈(104)을 통해 데이터베이스에 저장한다(S106).As a result of the determination of step S102, when the data collection target is an IoT device, the data collected from the connected IoT device by the collector 100 is stored in a database through the IoT DB module 104 (S106).

이하, 도 7을 참조하여 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S200단계의 세부과정에 대해 살피면 아래와 같다.Hereinafter, referring to FIG. 7, a detailed process of step S200 of the method for predicting big data integrated diagnosis using machine learning according to an embodiment of the present invention will be described below.

제S100단계 이후, 분류부(200)가 코디네이터모듈(202)에 의해 설정된 값을 색인한다(S202). 이때, 설정된 값은 데이터 분류 방식과 파라미터 설정을 위한 값이며, 관리자에 의해 변경될 수 있다.After operation S100, the classification unit 200 indexes the value set by the coordinator module 202 (S202). In this case, the set value is a value for data classification and parameter setting and may be changed by an administrator.

이어서, 분류부(200)가 코디네이터모듈(202)이 색인한 설정값과 부합하도록 수집된 데이터를 분류한다(S204).Subsequently, the classification unit 200 classifies the collected data to match the set value indexed by the coordinator module 202 (S204).

그리고, 분류부(200)가 분류된 데이터를 통합DB(204)를 통해 메모리 기반의 저장소에 저장한다(S206).Then, the classification unit 200 stores the classified data in the memory-based storage through the integrated DB (204) (S206).

이하, 도 8을 참조하여 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S300단계의 세부과정에 대해 살피면 아래와 같다.Hereinafter, referring to FIG. 8, a detailed process of step S300 of the big data integrated diagnosis prediction method using machine learning according to an embodiment of the present invention will be described below.

제S200단계 이후, 분석부(300)가 분석실행 방식, 분석수행 주기, 분석대상 평가항목 또는 가중치 중에 어느 하나를 포함하는 분석수행 정의데이터를 색인한다(S302).After operation S200, the analysis unit 300 indexes analysis execution definition data including any one of an analysis execution method, an analysis execution cycle, an analysis target evaluation item, and a weight (S302).

이어서, 분석부(300)가 데이터 분석대상이 웹사이트인지 또는 IoT 디바이스인지 여부를 판단한다(S304).Next, the analysis unit 300 determines whether the data analysis target is a website or an IoT device (S304).

제S304단계의 판단결과, 데이터 분석대상이 웹사이트인 경우, 분석부(300)가 Legacy DB모듈(102)에 저장된 데이터를 분석수행 정의데이터에 부합하도록 분석한다(S306).As a result of the determination in step S304, when the data analysis target is a website, the analysis unit 300 analyzes the data stored in the legacy DB module 102 to match the analysis performance definition data (S306).

제S304단계의 판단결과, 데이터 분석대상이 IoT 디바이스인 경우, 분석부(300)가 IoT DB모듈(104)에 저장된 데이터를 분석수행 정의데이터에 부합하도록 분석한다(S308).As a result of the determination in step S304, when the data analysis target is the IoT device, the analysis unit 300 analyzes the data stored in the IoT DB module 104 to match the analysis performance definition data (S308).

그리고, 분석부(300)가 분석한 데이터를 키워드 각각에 대한 빈도수를 수치화한 분석정보를 생성한다(S310).Then, the analysis unit 300 generates analysis information obtained by quantifying the frequency for each of the keywords (S310).

이하, 도 9를 참조하여 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S400단계의 세부과정에 대해 살피면 아래와 같다.Hereinafter, referring to FIG. 9, a detailed process of step S400 of the big data integrated diagnosis prediction method using machine learning according to an embodiment of the present invention will be described below.

제S300단계 이후, 학습부(400)가 기계학습을 위해 입력층, 은닉층, 학습모델 및 파라미터 각각의 값을 입력받는다(S402).After operation S300, the learner 400 receives values of each of an input layer, a hidden layer, a learning model, and parameters for machine learning (S402).

이어서, 학습부(400)가 기계학습 수행을 위해 정의된 기능을 색인한다(S404).Next, the learning unit 400 indexes the function defined for performing the machine learning (S404).

뒤이어, 학습부(400)가 기계학습 수행을 위한 데이터 마이닝 기법을 색인한다(S406).Subsequently, the learning unit 400 indexes a data mining technique for performing machine learning (S406).

그리고, 학습부(400)가 색인한 기능 및 데이터 마이닝 기법을 통해 기계학습을 실행하여 기계학습 결과정보를 생성한다(S408).Then, the learning unit 400 executes the machine learning through the function and the data mining technique indexed to generate the machine learning result information (S408).

이하, 도 10 참조하여 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S500단계의 세부과정에 대해 살피면 아래와 같다.Hereinafter, the detailed process of step S500 of the big data integrated diagnostic prediction method using machine learning according to an embodiment of the present invention will be described with reference to FIG. 10.

제S400단계 이후, 예측진단부(500)가 학습부(400)로부터 기계학습 결과를 인가받는다(S502).After operation S400, the predictive diagnosis unit 500 receives a machine learning result from the learner 400 (S502).

이어서, 예측진단부(500)가 수집한 데이터 또는 분류한 데이터를 인가받는다(S504).Subsequently, the predicted diagnosis unit 500 receives the collected data or classified data (S504).

그리고, 예측진단부(500)가 기계학습 결과를 토대로 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성한다(S506).In operation S506, the predictive diagnosis unit 500 generates a report including predicted values of the collected data or the classified data based on the machine learning result and the reliability thereof.

전술한바와 같이 본 발명의 일 실시예에 따르면, 수집대상 데이터의 형태 및 모델이 변경될 때 마다 분석도구를 재개발 하지 않고, 로직의 변경 없이 파라미터 변경만으로 실시간으로 수집대상 데이터에 대한 분석이 가능함으로써, 원본 데이터베이스, 통신장비의 테이블 규격 및 통신 프로토콜이 변경되어도 분석 프로그램을 다시 실행하지 않아도 됨에 따라 유연하고 유지보수가 용이하며 재개발에 소요되는 비용을 절감할 수 있다.As described above, according to one embodiment of the present invention, the analysis tool can be analyzed in real time by changing parameters without changing logic without re-developing an analysis tool whenever the shape and model of the data to be collected are changed. Even if the source database, the table specifications and communication protocols of the communication equipment change, the analysis program does not need to be run again, which is flexible, easy to maintain, and reduces the cost of redevelopment.

이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서 그러한 모든 적절한 변경 및 수정과 균등 물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.As described above and described with reference to a preferred embodiment for illustrating the technical idea of the present invention, the present invention is not limited to the configuration and operation as shown and described as such, it is a deviation from the scope of the technical idea It will be understood by those skilled in the art that many changes and modifications can be made to the invention without departing from the scope of the invention. Accordingly, all such suitable changes, modifications, and equivalents should be considered to be within the scope of the present invention.

S: 머신러닝을 이용한 빅데이터 통합진단 예측 시스템
100: 수집부
102: Legacy DB모듈
104: IoT DB모듈
200: 분류부
202: 코디네이터모듈
204: 통합DB
300: 분석부
400: 학습부
402: 기계학습 정의모듈
404: 기계학습 실행모듈
500: 예측진단부
S: Big Data Integrated Diagnosis Prediction System Using Machine Learning
100: collector
102: Legacy DB Module
104: IoT DB module
200: classification
202: coordinator module
204: Integrated DB
300: analysis unit
400: learning unit
402: machine learning definition module
404: machine learning execution module
500: predictive diagnostic unit

Claims (12)

디바이스로부터 설정된 기초데이터에 대응하는 데이터를 수집하는 수집부;
수집한 데이터의 분석 및 학습을 위해 기 설정된 값과 부합하도록 분류한 데이터를 데이터베이스에 저장하는 분류부;
기 설정된 분석수행 정의데이터에 부합하도록 상기 데이터베이스에 저장된 데이터를 분석하여 분석정보를 생성하는 분석부;
상기 수집한 데이터 또는 분류한 데이터에 대한 기계학습을 수행하는 학습부; 및
기계학습 결과를 토대로 상기 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성하는 예측진단부를
포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 시스템.
A collector configured to collect data corresponding to the basic data set from the device;
A classification unit configured to store data classified in accordance with a predetermined value for analysis and learning of collected data in a database;
An analysis unit for analyzing the data stored in the database to generate analysis information so as to correspond to preset analysis performance definition data;
A learning unit which performs machine learning on the collected data or classified data; And
Based on the machine learning results, the predictive diagnostic unit for generating a report containing the predicted value and the resulting reliability for the collected data or classified data
Big data integrated diagnostic prediction system using a machine learning, comprising.
제1항에 있어서,
상기 수집부는,
상기 디바이스와 접속된 웹사이트로부터 수집한 데이터를 빅데이터 분석을 위한 데이터베이스에 저장하는 Legacy DB모듈; 및
상기 디바이스와 접속된 IoT 기기로부터 수집한 데이터를 빅데이터 분석을 위한 데이터베이스에 저장하는 IoT DB모듈을
포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 시스템.
The method of claim 1,
The collection unit,
Legacy DB module for storing the data collected from the website connected to the device in a database for big data analysis; And
IoT DB module for storing the data collected from the IoT device connected to the device in a database for big data analysis
Big data integrated diagnostic prediction system using a machine learning, comprising.
제1항에 있어서,
상기 기초데이터는,
데이터 수집방법, 수집한 데이터 저장경로, 테이블 정보, 필드 정보, 키워드, 수집한 데이터의 크기, 데이터 수집 시간 또는 수집대상 사이트 중에 어느 하나를 포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 시스템.
The method of claim 1,
The basic data is,
Big data integrated diagnostic prediction using machine learning, comprising any one of a data collection method, collected data storage path, table information, field information, keywords, size of collected data, data collection time or collection target site system.
제1항에 있어서,
상기 분석부는,
수집한 데이터의 분석 및 학습을 위해 기 설정된 값과 부합하도록 분류하는 코디네이터모듈; 및
상기 코디네이터모듈에 의해 분류된 데이터를 메모리 기반으로 저장 및 관리하는 통합DB를
포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 시스템.
The method of claim 1,
The analysis unit,
Coordinator module for classifying to match the predetermined value for analysis and learning of the collected data; And
Integrated DB for storing and managing data classified by the coordinator module on a memory basis
Big data integrated diagnostic prediction system using a machine learning, comprising.
제1항에 있어서,
상기 분석수행 정의데이터는 분석실행 방식, 분석수행 주기, 분석대상 평가항목 또는 가중치 중에 어느 하나를 포함하고,
상기 분석정보는 키워드 각각에 대한 빈도수를 수치화한 데이터를 포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 시스템.
The method of claim 1,
The analysis performance definition data includes any one of an analysis execution method, an analysis execution cycle, an analysis target evaluation item, or a weight,
The analysis information is a big data integrated diagnostic prediction system using machine learning, characterized in that it comprises data digitized the frequency for each keyword.
제1항에 있어서,
상기 예측값은,
상기 수집한 데이터 또는 분류한 데이터에 대한 판매량, 호감도, 증가율 또는 수요량 중에 어느 하나의 수치형 예측값과, 업/다운, 매수/매도 또는 호감/비호감 중에 어느 하나의 범주형 예측값을 포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 시스템.
The method of claim 1,
The predicted value is,
It includes any one of the numerical forecast value of the sales volume, favorability, increase rate or demand for the collected data or classified data, and the categorical prediction value of any one of up / down, buy / sell or crush / dislike Big Data Integrated Diagnostic Prediction System using Machine Learning.
(a) 수집부가 접속된 웹사이트로 또는 IoT디바이스로부터 설정된 키워드에 대응하는 데이터를 수집하는 단계;
(b) 분류부가 수집한 데이터의 분석 및 학습을 위해 기 설정된 값과 부합하도록 분류하여 데이터베이스에 저장하는 단계;
(c) 분석부가 분석수행 정의데이터에 부합하도록 데이터베이스에 저장된 데이터를 분석하여 분석정보를 생성하는 단계;
(d) 학습부가 수집한 데이터 또는 분류한 데이터에 대한 기계학습을 수행하는 단계; 및
(e) 예측진단부가 기계학습 결과를 토대로 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성하는 단계를
포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 방법.
(a) collecting data corresponding to a keyword set by the collection unit to a connected website or from an IoT device;
(b) classifying the classification unit so as to correspond to a predetermined value for analyzing and learning the collected data and storing the same in a database;
(c) analyzing the data stored in the database to generate analysis information so as to correspond to analysis performance definition data;
(d) performing machine learning on data collected or classified by the learner; And
(e) the predictive diagnostics unit generating a report including predicted values and reliability of the collected data or classified data based on the machine learning results.
Big data integrated diagnostic prediction method using a machine learning comprising a.
제7항에 있어서,
상기 (a) 단계는,
(a-1) 수집부가 설정된 기초데이터에 포함된 데이터 수집대상이 웹사이트인지 또는 IoT 디바이스인지 여부를 판단하는 단계;
(a-2) 상기 (a-1) 단계의 판단결과, 데이터 수집대상이 웹사이트인 경우, 수집부가 접속한 웹사이트로부터 수집한 데이터를 Legacy DB모듈을 통해 데이터베이스에 저장하는 단계; 및
(a-3) 상기 (a-1) 단계의 판단결과, 데이터 수집대상이 IoT 디바이스인 경우, 수집부가 접속한 IoT 디바이스로부터 수집한 데이터를 IoT DB모듈을 통해 데이터베이스에 저장하는 단계를
포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 방법.
The method of claim 7, wherein
In step (a),
(a-1) determining whether the data collection target included in the basic data set by the collector is a website or an IoT device;
(a-2) when the data collection target is a website as a result of the determination in the step (a-1), storing the data collected from the website accessed by the collection unit in a database through a legacy DB module; And
(a-3) When the data collection target is the IoT device as a result of the determination in the step (a-1), storing the data collected from the IoT device connected to the collection unit in the database through the IoT DB module
Big data integrated diagnosis prediction method using a machine learning comprising a.
제7항에 있어서,
상기 (b) 단계는,
(b-1) 분류부가 코디네이터모듈에 의해 설정된 값을 색인하는 단계;
(b-2) 분류부가 코디네이터모듈이 색인한 설정값과 부합하도록 수집된 데이터를 분류하는 단계; 및
(b-3) 분류부가 분류된 데이터를 통합DB를 통해 메모리 기반의 저장소에 저장하는 단계를
포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 방법.
The method of claim 7, wherein
Step (b),
(b-1) the classification unit indexing the value set by the coordinator module;
(b-2) classifying, by the classification unit, classifying the collected data to match the set value indexed by the coordinator module; And
(b-3) storing the classified data in the memory-based storage through the integrated DB.
Big data integrated diagnosis prediction method using a machine learning comprising a.
제7항에 있어서,
상기 (c) 단계는,
(c-1) 분석부가 분석실행 방식, 분석수행 주기, 분석대상 평가항목 또는 가중치 중에 어느 하나를 포함하는 분석수행 정의데이터를 색인하는 단계;
(c-2) 분석부가 데이터 분석대상이 웹사이트인지 또는 IoT 디바이스인지 여부를 판단하는 단계;
(c-3) 상기 (c-2) 단계의 판단결과, 데이터 분석대상이 웹사이트인 경우, 분석부가 Legacy DB모듈에 저장된 데이터를 분석수행 정의데이터에 부합하도록 분석하는 단계;
(c-4) 상기 (c-2) 단계의 판단결과, 데이터 분석대상이 IoT 디바이스인 경우, 분석부가 IoT DB모듈에 저장된 데이터를 분석수행 정의데이터에 부합하도록 분석하는 단계; 및
(c-5) 분석부가 분석한 데이터를 키워드 각각에 대한 빈도수를 수치화한 분석정보를 생성하는 단계를
포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 방법.
The method of claim 7, wherein
In step (c),
(c-1) indexing, by the analysis unit, analysis execution definition data including any one of an analysis execution method, an analysis execution cycle, an analysis target evaluation item, and a weight;
(c-2) the analyzing unit determining whether the data analysis target is a website or an IoT device;
(c-3) analyzing the data stored in the Legacy DB module in accordance with the analysis performance definition data when the data analysis target is a website as a result of the determination of step (c-2);
(c-4) analyzing the data stored in the IoT DB module in accordance with analysis performance definition data when the data analysis target is the IoT device as a result of the determination of step (c-2); And
(c-5) generating analysis information quantifying the frequency of each keyword of the data analyzed by the analysis unit.
Big data integrated diagnosis prediction method using a machine learning comprising a.
제7항에 있어서,
상기 (d) 단계는,
(d-1) 학습부가 기계학습을 위해 입력층, 은닉층, 학습모델 및 파라미터 각각의 값을 입력받는 단계;
(d-2) 학습부가 기계학습 수행을 위해 정의된 기능을 색인하는 단계;
(d-3) 학습부가 기계학습 수행을 위한 데이터 마이닝 기법을 색인하는 단계; 및
(d-4) 학습부가 색인한 기능 및 데이터 마이닝 기법을 통해 기계학습을 실행하여 기계학습 결과정보를 생성하는 단계를
포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 방법.
The method of claim 7, wherein
In step (d),
(d-1) the learning unit receiving values of each of the input layer, the hidden layer, the learning model, and the parameters for machine learning;
(d-2) the learning unit indexing a function defined for performing machine learning;
(d-3) the learning unit indexing a data mining technique for performing machine learning; And
(d-4) the step of generating machine learning result information by executing machine learning through the function and data mining technique indexed by the learning department.
Big data integrated diagnosis prediction method using a machine learning comprising a.
제7항에 있어서,
상기 (e) 단계는,
(e-1) 예측진단부가 학습부로부터 기계학습 결과를 인가받는 단계;
(e-2) 예측진단부가 수집한 데이터 또는 분류한 데이터를 인가받는 단계; 및
(e-3) 예측진단부가 기계학습 결과를 토대로 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성하는 단계를
포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 방법.
The method of claim 7, wherein
In step (e),
(e-1) the predictive diagnosis unit receiving the machine learning result from the learner;
(e-2) receiving the collected data or the classified data by the predictive diagnosis unit; And
(e-3) the predictive diagnosis unit generates a report including the predicted values and the reliability of the data collected or classified based on the machine learning results.
Big data integrated diagnostic prediction method using a machine learning comprising a.
KR1020180072207A 2018-06-22 2018-06-22 Big Data Integrated Diagnosis Prediction System Using Machine Learning KR20200010624A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180072207A KR20200010624A (en) 2018-06-22 2018-06-22 Big Data Integrated Diagnosis Prediction System Using Machine Learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180072207A KR20200010624A (en) 2018-06-22 2018-06-22 Big Data Integrated Diagnosis Prediction System Using Machine Learning

Publications (1)

Publication Number Publication Date
KR20200010624A true KR20200010624A (en) 2020-01-31

Family

ID=69369384

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180072207A KR20200010624A (en) 2018-06-22 2018-06-22 Big Data Integrated Diagnosis Prediction System Using Machine Learning

Country Status (1)

Country Link
KR (1) KR20200010624A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT202100013871A1 (en) 2021-05-27 2021-08-27 Innova S R L motor aid system
WO2022108427A1 (en) * 2020-11-20 2022-05-27 한국과학기술원 Smart trust enabler system for 5g-based iot environment
KR20220105792A (en) * 2021-01-21 2022-07-28 인하대학교 산학협력단 AI-based Decision Making Support System utilizing Dynamic Text Sources
US11494424B2 (en) 2019-05-13 2022-11-08 Tata Consultancy Services Limited System and method for artificial intelligence based data integration of entities post market consolidation
KR102509553B1 (en) * 2022-05-17 2023-03-10 백승훈 Analyzing comsumption pattern and predicting future demand using bigdata analysis framework platform
WO2023080275A1 (en) * 2021-11-04 2023-05-11 (주)한국플랫폼서비스기술 Deep learning framework application database server for classifying gender and age, and method therefor

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101638986B1 (en) 2015-03-04 2016-07-22 오상용 Server, method and system for information service with big data classification user-based and recording medium thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101638986B1 (en) 2015-03-04 2016-07-22 오상용 Server, method and system for information service with big data classification user-based and recording medium thereof

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494424B2 (en) 2019-05-13 2022-11-08 Tata Consultancy Services Limited System and method for artificial intelligence based data integration of entities post market consolidation
WO2022108427A1 (en) * 2020-11-20 2022-05-27 한국과학기술원 Smart trust enabler system for 5g-based iot environment
US11832106B2 (en) 2020-11-20 2023-11-28 Korea Advanced Institute Of Science And Technology 5G-IoT intelligent trust enabler system
KR20220105792A (en) * 2021-01-21 2022-07-28 인하대학교 산학협력단 AI-based Decision Making Support System utilizing Dynamic Text Sources
IT202100013871A1 (en) 2021-05-27 2021-08-27 Innova S R L motor aid system
WO2023080275A1 (en) * 2021-11-04 2023-05-11 (주)한국플랫폼서비스기술 Deep learning framework application database server for classifying gender and age, and method therefor
KR102509553B1 (en) * 2022-05-17 2023-03-10 백승훈 Analyzing comsumption pattern and predicting future demand using bigdata analysis framework platform

Similar Documents

Publication Publication Date Title
KR20200010624A (en) Big Data Integrated Diagnosis Prediction System Using Machine Learning
JP6817426B2 (en) Yield prediction system and method for machine learning-based semiconductor manufacturing
CN106528874B (en) The CLR multi-tag data classification method of big data platform is calculated based on Spark memory
CN107193967A (en) A kind of multi-source heterogeneous industry field big data handles full link solution
CN106228389A (en) Network potential usage mining method and system based on random forests algorithm
CN114722746B (en) Chip aided design method, device and equipment and readable medium
KR101953190B1 (en) A multidimensional recursive learning process and system used to discover complex dyadic or multiple counterparty relationships
US10963802B1 (en) Distributed decision variable tuning system for machine learning
CN116882978B (en) Deep sea submersible operation and maintenance support system based on product information frame
CN116611546B (en) Knowledge-graph-based landslide prediction method and system for target research area
CN107045511A (en) A kind of method for digging and device of target signature data
Wallace et al. Towards explaining metaheuristic solution quality by data mining surrogate fitness models for importance of variables
CN113779261A (en) Knowledge graph quality evaluation method and device, computer equipment and storage medium
CN113254517A (en) Service providing method based on internet big data
CN112667869A (en) Data processing method, device, system and storage medium
CN112364093B (en) Learning type big data visualization method and system
CN115062791A (en) Artificial intelligence interpretation method, device, equipment and storage medium
KR20200000208A (en) Social data collection analysis system and method
CN112015912B (en) Intelligent index visualization method and device based on knowledge graph
KR20220074571A (en) A method and an apparatus for embedding sns contents based on deep learning analysis for collecting channel information of marketing knowledge graphs
JP2021152751A (en) Analysis support device and analysis support method
CN117668205B (en) Smart logistics customer service processing method, system, equipment and storage medium
CN116126852B (en) BIM-based intelligent management data storage method for fabricated building
Han Intelligent recommendation method of literature reading based on user social network analysis
CN117556118B (en) Visual recommendation system and method based on scientific research big data prediction

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E601 Decision to refuse application