KR102644147B1 - 대규모 클래스 분류가 가능한 인공지능 예측 시스템 및 그 방법 - Google Patents

대규모 클래스 분류가 가능한 인공지능 예측 시스템 및 그 방법 Download PDF

Info

Publication number
KR102644147B1
KR102644147B1 KR1020230104758A KR20230104758A KR102644147B1 KR 102644147 B1 KR102644147 B1 KR 102644147B1 KR 1020230104758 A KR1020230104758 A KR 1020230104758A KR 20230104758 A KR20230104758 A KR 20230104758A KR 102644147 B1 KR102644147 B1 KR 102644147B1
Authority
KR
South Korea
Prior art keywords
data
clustering
learning
prediction
module
Prior art date
Application number
KR1020230104758A
Other languages
English (en)
Inventor
박동화
Original Assignee
(주)인터웹
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)인터웹 filed Critical (주)인터웹
Priority to KR1020230104758A priority Critical patent/KR102644147B1/ko
Application granted granted Critical
Publication of KR102644147B1 publication Critical patent/KR102644147B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 대규모 클래스 분류가 가능한 인공지능 예측 시스템 및 그 방법에 관한 것으로, 해결하고자 하는 과제는 비지도 학습에 의해 군집화된 다계층 모델링을 자동적으로 구축한 후 다계층 구조의 데이터에 대하여 지도 학습에 의한 딥러닝 학습 및 평가를 수행하여 대규모 클래스 분류 결과를 수초 이내의 실시간 수준으로 응답하여 처리하는데 있다.
일례로, 원시 데이터에 대한 전처리를 수행하고, 전처리가 완료된 데이터 세트를 학습용 데이터와 평가용 데이터로 분리하는 데이터 전처리 모듈; 미리 준비된 비지도 학습 모델을 이용해 상기 학습용 데이터에 대한 클러스터링을 수행하여 트리 구조의 다계층 데이터를 생성하는 클러스터링 모듈; 미리 준비된 지도 학습 모델을 이용해 상기 다계층 데이터에 대한 학습을 수행하고, 상기 평가용 데이터를 이용하여 학습 수행 결과를 평가하며, 평가가 완료된 다계층 예측 모델을 제공하는 학습 모듈; 및 서비스 요청에 따라 예측 대상 데이터를 수신하고, 상기 다계층 예측 모델을 이용해 상기 예측 대상 데이터에 대한 분류 예측을 수행하여 예측 결과를 도출하는 예측 모듈을 포함하는 인공지능 예측 시스템을 개시한다.

Description

대규모 클래스 분류가 가능한 인공지능 예측 시스템 및 그 방법{ARTIFICIAL INTELLIGENCE PREDICTION SYSTEM CAPABLE OF LARGE-SCALE CLASS CLASSIFICATION AND METHOD THEREOF}
본 발명의 실시예는 대규모 클래스 분류가 가능한 인공지능 예측 시스템 및 그 방법에 관한 것이다.
인공지능을 이용한 매칭 시스템을 구현함에 있어서 상품과 같이 매칭하고자 하는 대상이 수천만 또는 수억 개의 대규모 클래스인 경우 일반적인 인공지능 모델의 경우 수 많은 연산으로 인하여 예측 소요시간이 수십 분에서 수 시간까지 소요되므로 실시간 응답이 필요한 시스템에서는 특별한 모델 구성이 필요하다.
한편, 기계 학습 방법 중 지도 학습(Supervised Learning)은 입력 값에 대한 결과 값이 주어지는 학습데이터를 이용하는 학습 방법이다. 따라서, 지도 학습을 위해서는 데이터의 레이블링(labeling)이 필요하다. 지도 학습은 데이터 레이블링 과정을 통해 사용자 의도에 맞는 모델의 생성이 가능하다.
그러나, 산업 현장이나 경제계 또는 온라인 등에서 발생하는 대부분의 데이터는 레이블링되지 않은 데이터이다. 따라서 이들 데이터로는 지도학습방법을 사용할 수 없으며 비지도 학습 방법을 적용할 수 있다.
비지도 학습(Unsupervised Learning) 방법론 중 하나인 군집화(cluster)를 통해 문제 해결을 도모해 볼 수 있으나, 비지도 학습의 군집화는 알고리즘의 속성에 따라 군집을 형성할 뿐 어떤 기준으로 군집화가 이루어지는지 사용자가 알 수 없는 한계점을 가진다.
이에 따라 비지도 학습 및 지도 학습이 복합적으로 적용된 인공지능 기법을 활용하여 대규모의 클래스 분류가 가능한 시스템을 구축하는 방안이 필요한 실정이다.
등록특허공보 제10-2514996호(등록일자: 2023년03월23일) 등록특허공보 제10-2499412호(등록일자: 2023년02월08일)
본 발명의 실시예는, 비지도 학습에 의해 군집화된 다계층 모델링을 자동적으로 구축한 후 다계층 구조의 데이터에 대하여 지도 학습에 의한 딥러닝 학습 및 평가를 수행하여 대규모 클래스 분류 결과를 수초 이내의 실시간 수준으로 응답하여 처리할 수 있는 인공지능 예측 시스템 및 그 방법을 제공한다.
본 발명의 일 실시예에 따른 대규모 클래스 분류가 가능한 인공지능 예측 시스템은, 원시 데이터에 대한 전처리를 수행하고, 전처리가 완료된 데이터 세트를 학습용 데이터와 평가용 데이터로 분리하는 데이터 전처리 모듈; 미리 준비된 비지도 학습 모델을 이용해 상기 학습용 데이터에 대한 클러스터링을 수행하여 트리 구조의 다계층 데이터를 생성하는 클러스터링 모듈; 미리 준비된 지도 학습 모델을 이용해 상기 다계층 데이터에 대한 학습을 수행하고, 상기 평가용 데이터를 이용하여 학습 수행 결과를 평가하며, 평가가 완료된 다계층 예측 모델을 제공하는 학습 모듈; 및 서비스 요청에 따라 예측 대상 데이터를 수신하고, 상기 다계층 예측 모델을 이용해 상기 예측 대상 데이터에 대한 분류 예측을 수행하여 예측 결과를 도출하는 예측 모듈을 포함한다.
또한, 상기 데이터 전처리 모듈은, 상기 원시 데이터에 포함된 텍스트 데이터에 대하여 품사화, 불용어 처리, 정제 및 결측치 처리 중 적어도 하나의 전처리를 수행하는 텍스트 전처리 수행부; 및 상기 원시 데이터에 포함된 이미지 데이터에 대하여 특성정보 추출, 리사이징 및 차원 감소 처리 중 적어도 하나의 전처리를 수행하는 이미지 전처리 수행부를 포함할 수 있다.
또한, 클러스터링 여부를 설정하고, 클러스터링을 수행하는 것으로 설정된 경우 상기 클러스터링 모듈을 통해 상기 학습용 데이터에 대한 클러스터링이 수행되도록 하고, 클러스터링을 수행하지 않는 것으로 설정된 경우 상기 학습 모듈을 통해 상기 학습용 데이터에 대한 학습 및 상기 평가용 데이터를 이용한 학습 수행 결과의 평가가 각각 수행되도록 하는 클러스터링 여부 확인 모듈을 더 포함할 수 있다.
또한, 상기 비지도 학습 모델을 선정하고, 선정된 모델의 클러스터링 파라미터를 설정하며, 선정된 모델에 따라 클러스터링 할 클래스 수를 지정하는 클러스터링 파라미터 설정 모듈을 더 포함할 수 있다.
또한, 상기 다계층 데이터에 포함된 데이터들이 상기 클러스터링 모듈을 통하여 미리 설정된 기준에 따라 유사 데이터끼리 클러스터링 되었는지를 확인하여 클러스터링 적합 여부를 판단하고, 클러스터링 부적합 판단 시 상기 클러스터링 파라미터 설정 모듈을 통해 상기 클러스터링 파라미터 또는 클래스 수를 조정한 후 클러스터링 적합 판단 시까지 상기 클러스터링 모듈을 통한 클러스터링 과정을 반복 수행하는 클러스터링 적합화 모듈을 더 포함할 수 있다.
또한, 신규 학습용 데이터의 추가 요청 시 상기 신규 학습용 데이터를 상기 다계층 예측 모델을 통해 딥러닝 예측이 수행되도록 하고, 예측 수행 결과를 상기 다계층 데이터에 추가하는 데이터 추가 모듈을 더 포함할 수 있다.
본 발명의 다른 실시예에 따른 대규모 클래스 분류가 가능한 인공지능 예측 방법은, 데이터 전처리 모듈이, 원시 데이터에 대한 전처리를 수행하고, 전처리가 완료된 데이터 세트를 학습용 데이터와 평가용 데이터로 분리하는 데이터 전처리 단계; 클러스터링 모듈이, 미리 준비된 비지도 학습 모델을 이용해 상기 학습용 데이터에 대한 클러스터링을 수행하여 트리 구조의 다계층 데이터를 생성하는 클러스터링 단계; 학습 모듈이, 미리 준비된 지도 학습 모델을 이용해 상기 다계층 데이터에 대한 딥러닝 학습을 수행하고, 상기 평가용 데이터를 이용하여 학습 수행 결과를 평가하며, 평가가 완료된 다계층 예측 모델을 제공하는 학습 단계; 및 예측 모듈이, 서비스 요청에 따라 예측 대상 데이터를 수신하고, 상기 다계층 예측 모델을 이용해 상기 예측 대상 데이터에 대한 분류 예측을 수행하여 예측 결과를 도출하는 예측 단계를 포함한다.
또한, 상기 데이터 전처리 단계는, 텍스트 전처리 수행부가, 상기 원시 데이터에 포함된 텍스트 데이터에 대하여 품사화, 불용어 처리, 정제 및 결측치 처리 중 적어도 하나의 전처리를 수행하는 텍스트 전처리 수행 단계; 및 이미지 전처리 수행부가, 상기 원시 데이터에 포함된 이미지 데이터에 대하여 특성정보 추출, 리사이징 및 차원 감소 처리 중 적어도 하나의 전처리를 수행하는 이미지 전처리 수행 단계를 포함할 수 있다.
또한, 상기 데이터 전처리 단계 및 상기 클러스터링 단계 사이에, 클러스터링 여부 확인 모듈이, 클러스터링 여부를 설정하고, 클러스터링을 수행하는 것으로 설정한 경우 상기 클러스터링 단계를 통해 상기 학습용 데이터에 대한 클러스터링이 수행되도록 하고, 클러스터링을 수행하지 않는 것으로 설정한 경우 상기 학습 단계를 통해 상기 학습용 데이터에 대한 딥러닝 학습 및 상기 평가용 데이터를 이용한 학습 수행 결과의 평가가 각각 수행되도록 하는 클러스터링 여부 확인 단계를 더 포함할 수 있다.
또한, 상기 다계층 예측 모델 사용 여부 확인 단계 및 상기 클러스터링 단계 사이에, 클러스터링 파라미터 설정 모듈이, 상기 비지도 학습 모델을 선정하고, 선정된 모델의 클러스터링 파라미터를 설정하며, 선정된 모델에 따라 클러스터링 할 클래스 수를 지정하는 클러스터링 파라미터 설정 단계를 더 포함할 수 있다.
또한, 상기 학습 단계 이후에, 클러스터링 적합화 모듈이, 상기 다계층 데이터에 포함된 데이터들이 상기 클러스터링 단계를 통하여 미리 설정된 기준에 따라 유사 데이터끼리 클러스터링 되었는지를 확인하여 클러스터링 적합 여부를 판단하고, 클러스터링 부적합 판단 시 상기 클러스터링 파라미터 설정 단계를 통해 상기 클러스터링 파라미터 또는 클래스 수를 조정한 후 클러스터링 적합 판단 시까지 상기 클러스터링 단계를 통한 클러스터링 과정을 반복 수행하는 클러스터링 적합화 단계를 더 포함할 수 있다.
또한, 상기 예측 단계 이후에, 데이터 추가 모듈이, 신규 학습용 데이터의 추가 요청 시 상기 신규 학습용 데이터를 상기 다계층 예측 모델을 통해 딥러닝 예측이 수행되도록 하고, 예측 수행 결과를 상기 다계층 데이터에 추가하는 데이터 추가 단계를 더 포함할 수 있다.
본 발명에 따르면, 비지도 학습에 의해 군집화된 다계층 모델링을 자동적으로 구축한 후 다계층 구조의 데이터에 대하여 지도 학습에 의한 딥러닝 학습 및 평가를 수행하여 대규모 클래스 분류 결과를 수초 이내의 실시간 수준으로 응답하여 처리할 수 있다.
좀 더 구체적으로는, 수천만 개 이상의 대규모 대상(상품, 인명, 기업 등) 클래스로 구성된 데이터를 분류하거나 찾아야 하는 경우, 실시간 응답이 가능 함으로서 고객의 요구에 빠른 대응이 가능하다.
또한, 대량의 데이터를 수작업으로 분류 시 막대한 인력과 시간이 소요되는 것에 비하여 인공지능 기술에 의하여 대량의 데이터에 대한 특성 별 군집화(그룹핑)을 자동으로 수행함으로써 시스템 구축 비용을 획기적으로 줄일 수 있다.
도 1은 본 발명의 일 실시예에 따른 대규모 클래스 분류가 가능한 인공지능 예측 시스템의 전체 구성을 나타낸 블록도이다.
도 2는 본 발명의 일 실시예에 따른 데이터 전처리 모듈의 구성을 나타낸 블록도이다.
도 3은 본 발명의 다른 실시예에 따른 대규모 클래스 분류가 가능한 인공지능 예측 방법의 전체 동작 흐름을 나타낸 순서도이다.
도 4는 본 발명의 다른 실시예에 따른 데이터 전처리 단계의 구성을 나타낸 블록도이다.
도 5는 본 발명의 다른 실시예에 따른 대규모 클래스 분류가 가능한 인공지능 예측 방법의 전체 구성을 나타낸 블록도이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나 이상의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 본 발명의 일 실시예에 따른 대규모 클래스 분류가 가능한 인공지능 예측 시스템의 전체 구성을 나타낸 블록도이고, 도 2는 본 발명의 일 실시예에 따른 데이터 전처리 모듈의 구성을 나타낸 블록도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 대규모 클래스 분류가 가능한 인공지능 예측 시스템(1000)은 데이터 전처리 모듈(100), 클러스터링 여부 확인 모듈(200), 클러스터링 파라미터 설정 모듈(300), 클러스터링 모듈(400), 클러스터링 적합화 모듈(500), 학습 모듈(600), 예측 모듈(700) 및 데이터 추가 모듈(800) 중 적어도 하나를 포함할 수 있다.
상기 데이터 전처리 모듈(100)은, 원시 데이터(텍스트, 이미지 데이터)에 대한 전처리를 수행하고, 전처리가 완료된 데이터 세트를 학습용 데이터와 평가용 데이터로 분리하여 저장할 수 있다.
상기 데이터 전처리 모듈(100)은 도 2에 도시된 바와 같이 텍스트 전처리 수행부(110)와 이미지 전처리 수행부(120) 중 적어도 하나를 포함할 수 있다.
상기 텍스트 전처리 수행부(110)는, 원시 데이터에 포함된 텍스트 데이터에 대하여 품사화, 단어 추출, 리-샘플링(Re-sampling), 불용어 처리, 정제 및 결측치 처리 중 적어도 하나의 전처리를 수행하여 텍스트 데이터에 대한 빠른 학습 처리가 가능하도록 한다. 이와 같이 텍스트 전처리 수행부(110)는 텍스트 데이터에 대한 토큰화, 패딩 처리 및 이미지에 대한 벡터 처리 등을 통하여 클러스터링 대상 데이터를 준비할 수 있다.
상기 이미지 전처리 수행부(120)는, 원시 데이터에 포함된 이미지 데이터에 대하여 특성정보(Features) 추출, 리사이징(Re-sizing) 및 차원 감소 처리 중 적어도 하나의 전처리를 수행하여 이미지 데이터에 대한 빠른 학습 처리가 가능하도록 한다.
상기 클러스터링 여부 확인 모듈(200)은, 후술하는 클러스터링 모델의 사용 여부 즉 대상 데이터에 대한 클러스터링(군집화 또는 그룹핑)을 수행할지 여부를 설정하고, 클러스터링을 수행하는 것으로 설정된 경우 클러스터링 모듈(400)을 통해 학습용 데이터(원시 데이터 또는 대상 데이터)에 대한 클러스터링이 수행되도록 하고, 클러스터링을 수행하지 않는 것으로 설정된 경우 학습 모듈(600)을 통해 학습용 데이터에 대한 학습 및 평가용 데이터를 이용한 학습 수행 결과의 평가를 위한 프로세스로 넘어가도록 할 수 있다.
여기서, 클러스터링 여부의 설정은 원시 데이터를 대상으로 사전에 이루어질 수 있다. 즉, 원시 데이터에 대한 클러스터링이 필요 없는 경우(군집화가 완료된 데이터인 경우)에는 클러스터링 작업이 필요하지 않으므로, 원시 데이터에 대한 클러스터링 과정을 생략하고 지도 학습 모델에 의한 딥러닝 학습을 실시할 수 있도록 설정하여 클러스터링 과정에 대한 불필요한 작업 부하를 줄일 수 있다. 물론, 원시 데이터에 대한 클러스터링이 필요한 경우에는 클러스터링 모델을 사용하는 것으로 해당 원시 데이터 또는 대상 데이터에 대한 클러스터링 과정(클러스터링 파라미터 설정, 비지도 학습 모델에 의한 클러스터링 실시)이 이루어지도록 한다.
상기 클러스터링 파라미터 설정 모듈(300)은, 비지도 학습 모델(Unsupervised training model)을 선정하고, 선정된 모델의 클러스터링 파라미터를 설정하며, 선정된 모델에 따라 클러스터링 할 클래스 수를 지정할 수 있다. 이러한 클러스터링 파라미터 설정 모듈(300)은 후술하는 다계층 데이터에서의 계층 별 또는 데이터의 사이즈 등 상황에 따라 클러스터링 파라미터를 동적으로 할당할 수 있다.
본 실시예에서 비지도 학습은 인공지능 모델이 결과에 해당하는 라벨 값이 없이 자동적으로 학습을 수행하는 방식으로 군집화를 수행하는 클러스터링 기법이 대표적인 비지도 학습에 해당되며, 대표적인 모델로는 KMeans, DBSCAN, Spectral-clustering 등이 있다. 클러스터링 파라미터 설정 모듈(300)은 상기한 클러스터링 모델들 중 사용할 모델을 선정하고 해당 모델의 파라미터를 선택할 수 있으며, 군집할 클래스 수를 지정하는 모델이 선정된 경우 클래스 수를 반드시 지정하여야 하며, 이러한 비지도 학습 모델은 상술한 모델 이외도 다른 모델을 선택할 수 있어야 한다.
본 실시예에서는 데이터의 특징이나 모델의 구성요건에 따라 적절한 클러스터링 모델을 선택하여 사용한다. 비지도 학습에 의하여 학습하고자 하는 데이터를 대상으로 계층적 군집화(hierarchical clustering)를 수행하여 다계층 구조로 분류하고, 인공지능 모델을 세분화하여 모델을 경량화 하며, 이러한 경량화에 의하여 학습을 효율적으로 수행하고 예측을 신속하게 할 수 있도록 한다. 또한, 본 실시예에서는 계층적 군집화 중 분할적 군집화(Partitional Clustering)를 적용하여 학습하고자 하는 데이터를 상위 개념의 계층에서 복수의 하위 개념의 계층으로 분류해나가는 방식의 클러스터링을 수행함으로써 트리 구조를 갖는 다계층 데이터로 분류할 수 있다.
상기 클러스터링 모듈(400)은, 미리 준비된 비지도 학습 모델을 이용해 학습용 데이터에 대한 클러스터링을 수행하여 트리 구조의 다계층 데이터(다계층 클러스터링 및 속성정보를 포함하는 구조의 데이터)를 생성할 수 있다. 이러한 클러스터링 모듈(400)은, 클러스터링 파라미터 설정 모듈(300)을 통해 선정된 클러스터링 모델에 의하여 군집화를 실시하며, 그 결과로 생성되는 다계층 구조의 데이터를 분할하여 저장할 수 있다. 이러한 데이터 구조는 트리 구조를 가지며 이러한 트리 구조에 따라 학습을 진행하고, 학습된 모델을 동일한 구조로 저장할 수 있다.
상기 클러스터링 모듈(400)은, 다계층 생성 로직에 따라 군집화 구조를 자동으로 생성한 후, 노이즈 데이터를 검출하여 제거하고, 이에 따라 데이터의 경량화 처리('DBSCAN'와 같은 노이즈 검출 클러스터링 모델에 한함)가 가능하다. 또한, 전체 데이터 세트가 대량일 경우 소량의 샘플 데이터에 의한 클러스터링 모델을 구축하고 추가 데이터는 학습된 모델의 예측 결과에 의해 해당 클러스터링 모델에 추가하는 방식이 가능함에 따라 이론적으로 무한의 데이터 세트 추가가 가능하다.
상기 클러스터링 적합화 모듈(500)은, 다계층 데이터에 포함된 데이터들이 클러스터링 모듈(400)을 통하여 미리 설정된 기준에 따라 유사 데이터끼리 클러스터링 되었는지를 확인하여 클러스터링 적합 여부를 판단하고, 클러스터링 부적합 판단 시 클러스터링 파라미터 설정 모듈(300)을 통해 클러스터링 파라미터 또는 클래스 수를 조정한 후 클러스터링 적합 판단 시까지 클러스터링 과정을 반복 수행할 수 있도록 한다.
이를 위해, 우선 클러스터링(군집화 또는 그룹화) 결과를 조회하여 각각의 결과를 받아 볼 수 있고, 해당 결과들에 대하여 미리 설정된 기준(유사 데이터끼리 그룹화되었는지를 판단하는 기준)에 따라 클러스터링이 되었는지를 확인(판단)하는 과정을 거쳐 각각의 결과물들에 대한 클러스터링 여부를 체크할 수 있다.
클러스터링 여부에 대한 확인 결과, 그 결과물들이 서로 다른 데이터에 대한 클러스터링으로 확인되면 클러스터링할 클래스(K-Means의 경우 k 파라미터)수를 증가 시킨 후 클러스터링 과정을 반복 수행할 수 있도록 하며, 클러스터링이 된 경우로 확인(적합)되면 그 다음 단계인 학습 처리를 진행할 수 있도록 한다.
상기 학습 모듈(600)은, 미리 준비된 지도 학습 모델을 이용해 다계층 데이터에 대한 학습을 수행하고, 평가용 데이터를 이용하여 학습 수행 결과를 평가하며, 평가가 완료된 다계층 예측 모델(속성정보를 포함하는 구조)을 제공할 수 있다.
이를 위해, 학습 모듈(600)은 효율적인 학습을 위하여 'epoch', 'learning-rate', 'batch-size' 등 학습 파라미터를 설정할 수 있으며, 학습 파라미터가 설정된 지도 학습 모델을 이용하여 다계층 데이터(트리 구조로 클러스터링 된 데이터)에 대한 딥러닝 학습을 실시할 수 있다.
본 실시예에 따른 지도 학습 모델은 학습 대상의 데이터가 텍스트 또는 이미지인지에 따라 사용할 모델을 다르게 구성할 수 있는데, 텍스트의 경우 'CNN' 및 'Transformer' 모델을 주요하게 적용할 수 있으며, 이미지의 경우는 'CNN'과 'VGG16', 'ResNet' 등 'Pre-trained' 모델을 결합하여 적용할 수 있다. 지도 학습 기반의 주요한 모델로는 텍스트 또는 이미지 분류에 적용하는 CNN(Convolutional Neural Network), 시계열 데이터에 주로 적용하는 RNN(Recurrent Neural Network) 이 있으며, 최근에는 Attention 기법을 이용한 Transformer 모델이 각광 받고 있다. 본 실시예에 따른 지도 학습은 비지도 학습에 의하여 구축된 다계층 데이터의 구조에 따라 진행되며, 학습 결과로서 다계층화 구조의 예측 모델(다계층 예측 모델)을 구축할 수 있다. 이러한 다계층 예측 모델은 매칭하고자 하는 텍스트 또는 이미지 정보에 대하여 대상 아이템을 실시간으로 빠르게 예측하여 제시할 수 있다.
한편, 다계층 예측 모델의 구축이 완료된 후 추가로 학습해야 할 데이터가 발생되면, 비지도 학습에 따라 구축된 클러스터링 모델(군집화 모델)에 추가할 수 있으나, 본 실시예의 경우 지도 학습에 의한 다계층 예측 모델을 통한 딥러닝 예측 과정을 수행하여 해당 예측 수행 결과를 자동으로 추가하는 기능의 구현이 가능하다.
상기 학습 모듈(600)을 통한 딥러닝 학습이 완료되면 전처리가 완료된 평가 데이터를 이용하여 학습 결과에 대한 평가를 실시할 수 있으며, 평가는 학습된 모델의 예측(prediction)에 의하여 실시할 수 있다. 이때 학습 모듈(600)은 평가결과 정확도(Accuracy), Loss값 및 재현율 등 예측 결과가 미리 설정된 기준 값 이상인지를 확인한 후, 평가가 적합한 경우에 해당 다계층 예측 모델을 서비스 모드(운영)로 진행할 수 있다.
상기 예측 모듈(700)은, 서비스 요청에 따라 예측 대상 데이터(텍스트, 이미지, 텍스트+이미지 형태의 데이터)를 수신하고, 미리 구축된 다계층 예측 모델(인공지능 모델)을 이용해 예측 대상 데이터에 대한 분류 예측을 수행하여 그 예측 결과를 도출할 수 있다. 이때, 예측 대상 데이터는 텍스트, 이미지, 또는 텍스트+이미지 형태의 데이터일 수 있으며, 데이터의 형태에 따른 다계층 예측 모델을 호출하여 그에 따른 예측 결과를 도출해 제공할 수 있다. 다계층 예측 모델은 서비스 요청에 따라 수신된 데이터와 가장 유사한 아이템(텍스트 또는 이미지)을 선정하고, 선정된 정보를 제공할 수 있다. 이러한 예측 정보는 상품의 공급사 추천 등에 활용될 수도 있다.
상기 데이터 추가 모듈(800)은, 신규 학습용 데이터의 추가 요청 시 신규 학습용 데이터를 다계층 예측 모델을 통해 딥러닝 예측이 수행되도록 하고, 예측 수행 결과를 다계층 데이터(비지도 학습 모델에 의한 클러스터링 수행 결과)에 추가할 수 있으며, 신규 데이터가 학습용이 아니라 서비스 요청에 따른 신규 데이터인 경우 예측 모듈(700)로 제공하여 그 예측 결과가 제공될 수 있도록 한다.
이와 같은 방식으로 데이터를 추가함으로써 초기에 클러스터링하는 과정에서 데이트를 경량화할 수 있으며, 학습 대상 데이터가 증가하는 것에 대한 유연한 대응이 가능하다. 신규 데이터에 대한 예측 결과를 클러스터링 된 다계층 데이터에 추가함으로써, 추가된 데이트는 추후 학습 시 반영되도록 하여 원시 데이터(대상 데이터)의 확장에 따른 정확도를 향상시키는데 기여할 수 있다.
본 실시예에 따르면, 대규모 클래스를 가지는 데이터 세트를 효율적으로 학습하고 예측(분류)하며, 학습 데이터의 증식이 용이할 수 있다.
또한, 클러스터링과 학습에 사용되는 데이터에 대한 분리(클러스터링용 데이터 및 학습용 데이터)를 통하여 인공지능 학습과 예측에 대한 일반화를 도모할 수 있다.
또한, 예측(분류) 결과에 대한 추적(Tracking)이 가능하다. 기존의 딥러닝 학습 방식에서는 XAI(설명 가능한 인공지능)에 의하여 예측 구조를 추정하는 방식만 적용이 가능하였으나, 본 실시예에서는 분리된 경량 모델의 연속적인 구조로 인하여 예측 과정에 대한 추적이 용이하며, 기존의 XAI 방식과 결합함으로써 보다 정확한 추적이 가능하다.
또한, 다계층 멀티 모델 방식을 통해 빠른 예측 결과를 도출할 수 있고, 신규 학습 데이터 세트 추가 시 구축된 다계층 멀티 모델에 의하여 예측 후 추가하는 것이 가능하므로 학습 데이터 세트의 추가가 용이하다.
도 3은 본 발명의 다른 실시예에 따른 대규모 클래스 분류가 가능한 인공지능 예측 방법의 전체 구성을 나타낸 블록도이고, 도 4는 본 발명의 다른 실시예에 따른 데이터 전처리 단계의 구성을 나타낸 블록도이며, 도 5는 본 발명의 다른 실시예에 따른 대규모 클래스 분류가 가능한 인공지능 예측 방법의 전체 동작 흐름을 나타낸 순서도이다.
도 3을 참조하면, 본 발명의 다른 실시예에 따른 대규모 클래스 분류가 가능한 인공지능 예측 방법(S1000)는 데이터 전처리 단계(S100), 클러스터링 여부 확인 단계(S200), 클러스터링 파라미터 설정 단계(S300), 클러스터링 단계(S400), 클러스터링 적합화 단계(S500), 학습 단계(S600), 예측 단계(S700) 및 데이터 추가 단계(S800) 중 적어도 하나를 포함할 수 있다.
상기 데이터 전처리 단계(S100)는, 원시 데이터(텍스트, 이미지 데이터)에 대한 전처리를 수행하고, 전처리가 완료된 데이터 세트를 학습용 데이터와 평가용 데이터로 분리하여 저장할 수 있다.
상기 데이터 전처리 단계(S100)는 도 4에 도시된 바와 같이 텍스트 전처리 수행 단계(S110)와 이미지 전처리 수행 단계(S120) 중 적어도 하나를 포함할 수 있다.
상기 텍스트 전처리 수행 단계(S110)는, 원시 데이터에 포함된 텍스트 데이터에 대하여 품사화, 단어 추출, 리-샘플링(Re-sampling), 불용어 처리, 정제 및 결측치 처리 중 적어도 하나의 전처리를 수행하여 텍스트 데이터에 대한 빠른 학습 처리가 가능하도록 한다. 이와 같이 텍스트 전처리 수행부(110)는 텍스트 데이터에 대한 토큰화, 패딩 처리 및 이미지에 대한 벡터 처리 등을 통하여 클러스터링 대상 데이터를 준비할 수 있다.
상기 이미지 전처리 수행 단계(S120)는, 원시 데이터에 포함된 이미지 데이터에 대하여 특성정보(Features) 추출, 리사이징(Re-sizing) 및 차원 감소 처리 중 적어도 하나의 전처리를 수행하여 이미지 데이터에 대한 빠른 학습 처리가 가능하도록 한다.
상기 클러스터링 여부 확인 단계(S200)는, 후술하는 클러스터링 모델의 사용 여부 즉 대상 데이터에 대한 클러스터링(군집화 또는 그룹핑)을 수행할지 여부를 설정하고, 클러스터링을 수행하는 것으로 설정된 경우 클러스터링 단계(S400)을 통해 학습용 데이터(원시 데이터 또는 대상 데이터)에 대한 클러스터링이 수행되도록 하고, 클러스터링을 수행하지 않는 것으로 설정된 경우 학습 단계(S600)를 통해 학습용 데이터에 대한 학습 및 평가용 데이터를 이용한 학습 수행 결과의 평가를 위한 프로세스로 넘어가도록 할 수 있다.
여기서, 클러스터링 여부의 설정은 원시 데이터를 대상으로 사전에 이루어질 수 있다. 즉, 원시 데이터에 대한 클러스터링이 필요 없는 경우(군집화가 완료된 데이터인 경우)에는 클러스터링 작업이 필요하지 않으므로, 원시 데이터에 대한 클러스터링 과정을 생략하고 지도 학습 모델에 의한 딥러닝 학습을 실시할 수 있도록 설정하여 클러스터링 과정에 대한 불필요한 작업 부하를 줄일 수 있다. 물론, 원시 데이터에 대한 클러스터링이 필요한 경우에는 클러스터링 모델을 사용하는 것으로 해당 원시 데이터 또는 대상 데이터에 대한 클러스터링 과정(클러스터링 파라미터 설정, 비지도 학습 모델에 의한 클러스터링 실시)이 이루어지도록 한다.
상기 클러스터링 파라미터 설정 단계(S300)는, 비지도 학습 모델(Unsupervised training model)을 선정하고, 선정된 모델의 클러스터링 파라미터를 설정하며, 선정된 모델에 따라 클러스터링 할 클래스 수를 지정할 수 있다. 이러한 클러스터링 파라미터 설정 단계(S300)는 후술하는 다계층 데이터에서의 계층 별 또는 데이터의 사이즈 등 상황에 따라 클러스터링 파라미터를 동적으로 할당할 수 있다.
본 실시예에서 비지도 학습은 인공지능 모델이 결과에 해당하는 라벨 값이 없이 자동적으로 학습을 수행하는 방식으로 군집화를 수행하는 클러스터링 기법이 대표적인 비지도 학습에 해당되며, 대표적인 모델로는 KMeans, DBSCAN, Spectral-clustering 등이 있다. 클러스터링 파라미터 설정 단계(S300)는 상기한 클러스터링 모델들 중 사용할 모델을 선정하고 해당 모델의 파라미터를 선택할 수 있으며, 군집할 클래스 수를 지정하는 모델이 선정된 경우 클래스 수를 반드시 지정하여야 하며, 이러한 비지도 학습 모델은 상술한 모델 이외도 다른 모델을 선택할 수 있어야 한다.
본 실시예에서는 데이터의 특징이나 모델의 구성요건에 따라 적절한 클러스터링 모델을 선택하여 사용한다. 비지도 학습에 의하여 학습하고자 하는 데이터를 대상으로 계층적 군집화(hierarchical clustering)를 수행하여 다계층 구조로 분류하고, 인공지능 모델을 세분화하여 모델을 경량화 하며, 이러한 경량화에 의하여 학습을 효율적으로 수행하고 예측을 신속하게 할 수 있도록 한다. 또한, 본 실시예에서는 계층적 군집화 중 분할적 군집화(Partitional Clustering)를 적용하여 학습하고자 하는 데이터를 상위 개념의 계층에서 복수의 하위 개념의 계층으로 분류해나가는 방식의 클러스터링을 수행함으로써 트리 구조를 갖는 다계층 데이터로 분류할 수 있다.
상기 클러스터링 단계(S400)는, 미리 준비된 비지도 학습 모델을 이용해 학습용 데이터에 대한 클러스터링을 수행하여 트리 구조의 다계층 데이터를 생성할 수 있다. 이러한 클러스터링 단계(S400)는, 클러스터링 파라미터 설정 단계(S300)를 통해 선정된 클러스터링 모델에 의하여 군집화를 실시하며, 그 결과로 생성되는 다계층 구조의 데이터를 분할하여 저장할 수 있다. 이러한 데이터 구조는 트리 구조를 가지며 이러한 트리 구조에 따라 학습을 진행하고, 학습된 모델을 동일한 구조로 저장할 수 있다.
상기 클러스터링 단계(S400)는, 다계층 생성 로직에 따라 군집화 구조를 자동으로 생성한 후, 노이즈 데이터를 검출하여 제거하고, 이에 따라 데이터의 경량화 처리('DBSCAN'와 같은 노이즈 검출 클러스터링 모델에 한함)가 가능하다. 또한, 전체 데이터 세트가 대량일 경우 소량의 샘플 데이터에 의한 클러스터링 모델을 구축하고 추가 데이터는 학습된 모델의 예측 결과에 의해 해당 클러스터링 모델에 추가하는 방식이 가능함에 따라 이론적으로 무한의 데이터 세트 추가가 가능하다.
상기 클러스터링 적합화 단계(S500)는, 다계층 데이터에 포함된 데이터들이 클러스터링 단계(S400)를 통하여 미리 설정된 기준에 따라 유사 데이터끼리 클러스터링 되었는지를 확인하여 클러스터링 적합 여부를 판단하고, 클러스터링 부적합 판단 시 클러스터링 파라미터 설정 단계(S300)을 통해 클러스터링 파라미터 또는 클래스 수를 조정한 후 클러스터링 적합 판단 시까지 클러스터링 과정을 반복 수행할 수 있도록 한다.
이를 위해, 우선 클러스터링(군집화 또는 그룹화) 결과를 조회하여 각각의 결과를 받아 볼 수 있고, 해당 결과들에 대하여 미리 설정된 기준(유사 데이터끼리 그룹화되었는지를 판단하는 기준)에 따라 클러스터링이 되었는지를 확인(판단)하는 과정을 거쳐 각각의 결과물들에 대한 클러스터링 여부를 체크할 수 있다.
클러스터링 여부에 대한 확인 결과, 그 결과물들이 서로 다른 데이터에 대한 클러스터링으로 확인되면 클러스터링할 클래스(K-Means의 경우 k 파라미터)수를 증가 시킨 후 클러스터링 과정을 반복 수행할 수 있도록 하며, 클러스터링이 된 경우로 확인(적합)되면 그 다음 단계인 학습 처리를 진행할 수 있도록 한다.
상기 학습 단계(S600)는, 미리 준비된 지도 학습 모델을 이용해 다계층 데이터에 대한 학습을 수행하고, 평가용 데이터를 이용하여 학습 수행 결과를 평가하며, 평가가 완료된 다계층 예측 모델을 제공할 수 있다.
이를 위해, 학습 단계(S600)는 효율적인 학습을 위하여 'epoch', 'learning-rate', 'batch-size' 등 학습 파라미터를 설정할 수 있으며, 학습 파라미터가 설정된 지도 학습 모델을 이용하여 다계층 데이터(트리 구조로 클러스터링 된 데이터)에 대한 딥러닝 학습을 실시할 수 있다.
본 실시예에 따른 지도 학습 모델은 학습 대상의 데이터가 텍스트 또는 이미지인지에 따라 사용할 모델을 다르게 구성할 수 있는데, 텍스트의 경우 'CNN' 및 'Transformer' 모델을 주요하게 적용할 수 있으며, 이미지의 경우는 'CNN'과 'VGG16', 'ResNet' 등 'Pre-trained' 모델을 결합하여 적용할 수 있다. 지도 학습 기반의 주요한 모델로는 텍스트 또는 이미지 분류에 적용하는 CNN(Convolutional Neural Network), 시계열 데이터에 주로 적용하는 RNN(Recurrent Neural Network) 이 있으며, 최근에는 Attention 기법을 이용한 Transformer 모델이 각광 받고 있다. 본 실시예에 따른 지도 학습은 비지도 학습에 의하여 구축된 다계층 데이터의 구조에 따라 진행되며, 학습 결과로서 다계층화 구조의 예측 모델(다계층 예측 모델)을 구축할 수 있다. 이러한 다계층 예측 모델은 매칭하고자 하는 텍스트 또는 이미지 정보에 대하여 대상 아이템을 실시간으로 빠르게 예측하여 제시할 수 있다.
한편, 다계층 예측 모델의 구축이 완료된 후 추가로 학습해야 할 데이터가 발생되면, 비지도 학습에 따라 구축된 클러스터링 모델(군집화 모델)에 추가할 수 있으나, 본 실시예의 경우 지도 학습에 의한 다계층 예측 모델을 통한 딥러닝 예측 과정을 수행하여 해당 예측 수행 결과를 자동으로 추가하는 기능의 구현이 가능하다.
상기 학습 단계(S600)를 통한 딥러닝 학습이 완료되면 전처리가 완료된 평가 데이터를 이용하여 학습 결과에 대한 평가를 실시할 수 있으며, 평가는 학습된 모델의 예측(prediction)에 의하여 실시할 수 있다. 이때 학습 단계(S600)는 평가결과 정확도(Accuracy), Loss값 및 재현율 등 예측 결과가 미리 설정된 기준 값 이상인지를 확인한 후, 평가가 적합한 경우에 해당 다계층 예측 모델을 서비스 모드(운영)로 진행할 수 있다.
상기 예측 단계(S700)는, 서비스 요청에 따라 예측 대상 데이터(텍스트, 이미지, 텍스트+이미지 형태의 데이터)를 수신하고, 미리 구축된 다계층 예측 모델(인공지능 모델)을 이용해 예측 대상 데이터에 대한 분류 예측을 수행하여 그 예측 결과를 도출할 수 있다. 이때, 예측 대상 데이터는 텍스트, 이미지, 또는 텍스트+이미지 형태의 데이터일 수 있으며, 데이터의 형태에 따른 다계층 예측 모델을 호출하여 그에 따른 예측 결과를 도출해 제공할 수 있다. 다계층 예측 모델은 서비스 요청에 따라 수신된 데이터와 가장 유사한 아이템(텍스트 또는 이미지)을 선정하고, 선정된 정보를 제공할 수 있다. 이러한 예측 정보는 상품의 공급사 추천 등에 활용될 수도 있다.
상기 데이터 추가 단계(S800)는, 신규 학습용 데이터의 추가 요청 시 신규 학습용 데이터를 다계층 예측 모델을 통해 딥러닝 예측이 수행되도록 하고, 예측 수행 결과를 다계층 데이터(비지도 학습 모델에 의한 클러스터링 수행 결과)에 추가할 수 있으며, 신규 데이터가 학습용이 아니라 서비스 요청에 따른 신규 데이터인 경우 예측 단계(S700)로 제공하여 그 예측 결과가 제공될 수 있도록 한다.
이와 같은 방식으로 데이터를 추가함으로써 초기에 클러스터링하는 과정에서 데이트를 경량화할 수 있으며, 학습 대상 데이터가 증가하는 것에 대한 유연한 대응이 가능하다. 신규 데이터에 대한 예측 결과를 클러스터링 된 다계층 데이터에 추가함으로써, 추가된 데이트는 추후 학습 시 반영되도록 하여 원시 데이터(대상 데이터)의 확장에 따른 정확도를 향상시키는데 기여할 수 있다.
본 실시예에 따르면, 대규모 클래스를 가지는 데이터 세트를 효율적으로 학습하고 예측(분류)하며, 학습 데이터의 증식이 용이할 수 있다.
또한, 클러스터링과 학습에 사용되는 데이터에 대한 분리(클러스터링용 데이터 및 학습용 데이터)를 통하여 인공지능 학습과 예측에 대한 일반화를 도모할 수 있다.
또한, 예측(분류) 결과에 대한 추적(Tracking)이 가능하다. 기존의 딥러닝 학습 방식에서는 XAI(설명 가능한 인공지능)에 의하여 예측 구조를 추정하는 방식만 적용이 가능하였으나, 본 실시예에서는 분리된 경량 모델의 연속적인 구조로 인하여 예측 과정에 대한 추적이 용이하며, 기존의 XAI 방식과 결합함으로써 보다 정확한 추적이 가능하다.
또한, 다계층 멀티 모델 방식을 통해 빠른 예측 결과를 도출할 수 있고, 신규 학습 데이터 세트 추가 시 구축된 다계층 멀티 모델에 의하여 예측 후 추가하는 것이 가능하므로 학습 데이터 세트의 추가가 용이하다.
이상에서 설명한 것은 본 발명에 의한 대규모 클래스 분류가 가능한 인공지능 예측 시스템 및 그 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기 실시예에 한정되지 않고, 이하의 특허청구범위에서 청구하는 바와 같이 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.
1000: 대규모 클래스 분류가 가능한 인공지능 예측 시스템
100: 데이터 전처리 모듈
110: 텍스트 전처리 수행부
120: 이미지 전처리 수행부
200: 클러스터링 여부 확인 모듈
300: 클러스터링 파라미터 설정 모듈
400: 클러스터링 모듈
500: 클러스터링 적합화 모듈
600: 학습 모듈
700: 예측 모듈
800: 데이터 추가 모듈
S1000: 대규모 클래스 분류가 가능한 인공지능 예측 방법
S100: 데이터 전처리 단계
S110: 텍스트 전처리 수행 단계
S120: 이미지 전처리 수행 단계
S200: 클러스터링 여부 확인 단계
S300: 클러스터링 파라미터 설정 단계
S400: 클러스터링 단계
S500: 클러스터링 적합화 단계
S600: 학습 단계
S700: 예측 단계
S800: 데이터 추가 단계

Claims (12)

  1. 원시 데이터에 대한 전처리를 수행하고, 전처리가 완료된 데이터 세트를 학습용 데이터와 평가용 데이터로 분리하는 데이터 전처리 모듈;
    미리 준비된 비지도 학습 모델을 이용해 상기 학습용 데이터를 상위 개념의 계층에서 복수의 하위 개념의 계층으로 클러스터링하여 트리 구조를 갖는 다계층 데이터로 분류하는 클러스터링 모듈;
    미리 준비된 지도 학습 모델을 이용해 상기 다계층 데이터에 대한 학습을 수행하고, 상기 평가용 데이터를 이용하여 학습 수행 결과를 평가하며, 평가가 완료된 다계층 예측 모델을 제공하는 학습 모듈;
    서비스 요청에 따라 예측 대상 데이터를 수신하고, 상기 다계층 예측 모델을 이용해 상기 예측 대상 데이터에 대한 분류 예측을 수행하여 예측 결과를 도출하는 예측 모듈;
    상기 비지도 학습 모델을 선정하고, 선정된 모델의 클러스터링 파라미터를 설정하며, 선정된 모델에 따라 클러스터링 할 클래스 수를 지정하는 클러스터링 파라미터 설정 모듈; 및
    상기 다계층 데이터에 포함된 데이터들이 상기 클러스터링 모듈을 통하여 미리 설정된 기준에 따라 유사 데이터끼리 클러스터링 되었는지를 확인하여 클러스터링 적합 여부를 판단하고, 클러스터링 부적합 판단 시 상기 클러스터링 파라미터 설정 모듈을 통해 상기 클러스터링 파라미터 또는 클래스 수를 조정한 후 클러스터링 적합 판단 시까지 상기 클러스터링 모듈을 통한 클러스터링 과정을 반복 수행하는 클러스터링 적합화 모듈을 포함하는 것을 특징으로 하는 대규모 클래스 분류가 가능한 인공지능 예측 시스템.
  2. 제1 항에 있어서,
    상기 데이터 전처리 모듈은,
    상기 원시 데이터에 포함된 텍스트 데이터에 대하여 품사화, 불용어 처리, 정제 및 결측치 처리 중 적어도 하나의 전처리를 수행하는 텍스트 전처리 수행부; 및
    상기 원시 데이터에 포함된 이미지 데이터에 대하여 특성정보 추출, 리사이징 및 차원 감소 처리 중 적어도 하나의 전처리를 수행하는 이미지 전처리 수행부를 포함하는 것을 특징으로 하는 대규모 클래스 분류가 가능한 인공지능 예측 시스템.
  3. 제1 항에 있어서,
    클러스터링 여부를 설정하고, 클러스터링을 수행하는 것으로 설정된 경우 상기 클러스터링 모듈을 통해 상기 학습용 데이터에 대한 클러스터링이 수행되도록 하고, 클러스터링을 수행하지 않는 것으로 설정된 경우 상기 학습 모듈을 통해 상기 학습용 데이터에 대한 학습 및 상기 평가용 데이터를 이용한 학습 수행 결과의 평가가 각각 수행되도록 하는 클러스터링 여부 확인 모듈을 더 포함하는 것을 특징으로 하는 대규모 클래스 분류가 가능한 인공지능 예측 시스템.
  4. 삭제
  5. 삭제
  6. 제1 항에 있어서,
    신규 학습용 데이터의 추가 요청 시 상기 신규 학습용 데이터를 상기 다계층 예측 모델을 통해 딥러닝 예측이 수행되도록 하고, 예측 수행 결과를 상기 다계층 데이터에 추가하는 데이터 추가 모듈을 더 포함하는 것을 특징으로 하는 대규모 클래스 분류가 가능한 인공지능 예측 시스템.
  7. 데이터 전처리 모듈이, 원시 데이터에 대한 전처리를 수행하고, 전처리가 완료된 데이터 세트를 학습용 데이터와 평가용 데이터로 분리하는 데이터 전처리 단계;
    클러스터링 파라미터 설정 모듈이, 미리 준비된 비지도 학습 모델을 선정하고, 선정된 모델의 클러스터링 파라미터를 설정하며, 선정된 모델에 따라 클러스터링 할 클래스 수를 지정하는 클러스터링 파라미터 설정 단계;
    클러스터링 모듈이, 상기 비지도 학습 모델을 이용해 상기 학습용 데이터를 상위 개념의 계층에서 복수의 하위 개념의 계층으로 클러스터링하여 트리 구조를 갖는 다계층 데이터로 분류하는 클러스터링 단계;
    학습 모듈이, 미리 준비된 지도 학습 모델을 이용해 상기 다계층 데이터에 대한 딥러닝 학습을 수행하고, 상기 평가용 데이터를 이용하여 학습 수행 결과를 평가하며, 평가가 완료된 다계층 예측 모델을 제공하는 학습 단계;
    클러스터링 적합화 모듈이, 상기 다계층 데이터에 포함된 데이터들이 상기 클러스터링 단계를 통하여 미리 설정된 기준에 따라 유사 데이터끼리 클러스터링 되었는지를 확인하여 클러스터링 적합 여부를 판단하고, 클러스터링 부적합 판단 시 상기 클러스터링 파라미터 설정 단계를 통해 상기 클러스터링 파라미터 또는 클래스 수를 조정한 후 클러스터링 적합 판단 시까지 상기 클러스터링 단계를 통한 클러스터링 과정을 반복 수행하는 클러스터링 적합화 단계; 및
    예측 모듈이, 서비스 요청에 따라 예측 대상 데이터를 수신하고, 상기 다계층 예측 모델을 이용해 상기 예측 대상 데이터에 대한 분류 예측을 수행하여 예측 결과를 도출하는 예측 단계를 포함하는 것을 특징으로 하는 대규모 클래스 분류가 가능한 인공지능 예측 방법.
  8. 제7 항에 있어서,
    상기 데이터 전처리 단계는,
    텍스트 전처리 수행부가, 상기 원시 데이터에 포함된 텍스트 데이터에 대하여 품사화, 불용어 처리, 정제 및 결측치 처리 중 적어도 하나의 전처리를 수행하는 텍스트 전처리 수행 단계; 및
    이미지 전처리 수행부가, 상기 원시 데이터에 포함된 이미지 데이터에 대하여 특성정보 추출, 리사이징 및 차원 감소 처리 중 적어도 하나의 전처리를 수행하는 이미지 전처리 수행 단계를 포함하는 것을 특징으로 하는 대규모 클래스 분류가 가능한 인공지능 예측 방법.
  9. 제7 항에 있어서,
    상기 데이터 전처리 단계 및 상기 클러스터링 단계 사이에, 클러스터링 여부 확인 모듈이, 클러스터링 여부를 설정하고, 클러스터링을 수행하는 것으로 설정한 경우 상기 클러스터링 단계를 통해 상기 학습용 데이터에 대한 클러스터링이 수행되도록 하고, 클러스터링을 수행하지 않는 것으로 설정한 경우 상기 학습 단계를 통해 상기 학습용 데이터에 대한 딥러닝 학습 및 상기 평가용 데이터를 이용한 학습 수행 결과의 평가가 각각 수행되도록 하는 클러스터링 여부 확인 단계를 더 포함하는 것을 특징으로 하는 대규모 클래스 분류가 가능한 인공지능 예측 방법.
  10. 삭제
  11. 삭제
  12. 제7 항에 있어서,
    상기 예측 단계 이후에, 데이터 추가 모듈이, 신규 학습용 데이터의 추가 요청 시 상기 신규 학습용 데이터를 상기 다계층 예측 모델을 통해 딥러닝 예측이 수행되도록 하고, 예측 수행 결과를 상기 다계층 데이터에 추가하는 데이터 추가 단계를 더 포함하는 것을 특징으로 하는 대규모 클래스 분류가 가능한 인공지능 예측 방법.
KR1020230104758A 2023-08-10 2023-08-10 대규모 클래스 분류가 가능한 인공지능 예측 시스템 및 그 방법 KR102644147B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230104758A KR102644147B1 (ko) 2023-08-10 2023-08-10 대규모 클래스 분류가 가능한 인공지능 예측 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230104758A KR102644147B1 (ko) 2023-08-10 2023-08-10 대규모 클래스 분류가 가능한 인공지능 예측 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR102644147B1 true KR102644147B1 (ko) 2024-03-06

Family

ID=90239783

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230104758A KR102644147B1 (ko) 2023-08-10 2023-08-10 대규모 클래스 분류가 가능한 인공지능 예측 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR102644147B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200103172A (ko) * 2019-02-12 2020-09-02 주식회사 자이냅스 문서 학습 장치
KR20210108319A (ko) * 2020-02-25 2021-09-02 한국전자통신연구원 기계학습 기반 적응형 자동분류 방법 및 시스템
KR20220142823A (ko) * 2021-04-15 2022-10-24 (주)농협정보시스템 인공지능 기반의 병해충 진단 시스템 및 방법
KR102499412B1 (ko) 2021-09-27 2023-02-13 한국생산기술연구원 데이터 특성 기반 산업 공정 예측모델 개발 및 그를 사용한 산업 공정 데이터의 예측 방법
KR102514996B1 (ko) 2022-09-13 2023-03-29 성한 주식회사 머신러닝 비지도학습과 지도학습을 이용한 전력수요 예측 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200103172A (ko) * 2019-02-12 2020-09-02 주식회사 자이냅스 문서 학습 장치
KR20210108319A (ko) * 2020-02-25 2021-09-02 한국전자통신연구원 기계학습 기반 적응형 자동분류 방법 및 시스템
KR20220142823A (ko) * 2021-04-15 2022-10-24 (주)농협정보시스템 인공지능 기반의 병해충 진단 시스템 및 방법
KR102499412B1 (ko) 2021-09-27 2023-02-13 한국생산기술연구원 데이터 특성 기반 산업 공정 예측모델 개발 및 그를 사용한 산업 공정 데이터의 예측 방법
KR102514996B1 (ko) 2022-09-13 2023-03-29 성한 주식회사 머신러닝 비지도학습과 지도학습을 이용한 전력수요 예측 시스템 및 방법

Similar Documents

Publication Publication Date Title
Prudent et al. An incremental growing neural gas learns topologies
US20220138656A1 (en) Decision-making agent having hierarchical structure
US6728689B1 (en) Method and apparatus for generating a data classification model using interactive adaptive learning algorithms
CN110889282B (zh) 一种基于深度学习的文本情感分析方法
CN115145551A (zh) 一种面向机器学习应用低代码开发的智能辅助系统
WO2002057958A1 (en) Method and apparatus for data clustering
CN114329029B (zh) 对象检索方法、装置、设备及计算机存储介质
CN114693397A (zh) 一种基于注意力神经网络的多视角多模态商品推荐方法
KR20190098801A (ko) 머신 러닝을 활용한 상표 이미지 분류 방법
CN115422369B (zh) 基于改进TextRank的知识图谱补全方法和装置
US20220121961A1 (en) Establishment of general-purpose artificial intelligence system
CN105678340B (zh) 一种基于增强型栈式自动编码器的自动图像标注方法
CN118093962A (zh) 数据检索方法、装置、系统、电子设备及可读存储介质
KR102644147B1 (ko) 대규모 클래스 분류가 가능한 인공지능 예측 시스템 및 그 방법
Rijal et al. Integrating Information Gain methods for Feature Selection in Distance Education Sentiment Analysis during Covid-19.
Chakraborty et al. Connectionist models for part-family classifications
CN116484105B (zh) 业务处理方法、装置及计算机设备、存储介质、程序产品
CN113704620A (zh) 基于人工智能的用户标签更新方法、装置、设备及介质
US20230259761A1 (en) Transfer learning system and method for deep neural network
KR102707647B1 (ko) 인공지능 기반 생성적 설계 방법, 장치 및 컴퓨터프로그램
KR102395876B1 (ko) 딥러닝을 이용하여 유사한 이미지를 필터링할 수 있는 상품 분류 시스템 및 방법
CN115689639A (zh) 一种基于深度学习的商业广告点击率预测方法
CN114565436A (zh) 基于时序建模的车型推荐系统、方法、设备及存储介质
CN113821656A (zh) 基于人工智能的图像处理方法、装置及电子设备
Kirikkayis The autoML jungle-An overview

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant