KR20210058116A - 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법 및 그 시스템 - Google Patents

기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법 및 그 시스템 Download PDF

Info

Publication number
KR20210058116A
KR20210058116A KR1020190145161A KR20190145161A KR20210058116A KR 20210058116 A KR20210058116 A KR 20210058116A KR 1020190145161 A KR1020190145161 A KR 1020190145161A KR 20190145161 A KR20190145161 A KR 20190145161A KR 20210058116 A KR20210058116 A KR 20210058116A
Authority
KR
South Korea
Prior art keywords
machine learning
data
learning model
user terminal
data collection
Prior art date
Application number
KR1020190145161A
Other languages
English (en)
Other versions
KR102275658B1 (ko
Inventor
이수현
안재성
Original Assignee
주식회사 테서
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 테서 filed Critical 주식회사 테서
Priority to KR1020190145161A priority Critical patent/KR102275658B1/ko
Publication of KR20210058116A publication Critical patent/KR20210058116A/ko
Application granted granted Critical
Publication of KR102275658B1 publication Critical patent/KR102275658B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법 및 그 시스템에 관한 것으로서, a) 사용자 단말에 의해 머신러닝 프로젝트가 개설되면, 상기 머신러닝 프로젝트에 기초하여 데이터 수집 양식을 설정하고, 상기 설정된 데이터 수집 양식에 따라 사용자 단말 및 기설정된 참여 단말들을 통해 원시 데이터를 수집하는 단계; b) 상기 수집된 원시 데이터에 대해 하나 이상의 머신러닝 알고리즘을 적용하고, 상기 하나 이상의 머신러닝 알고리즘의 적용한 결과에 따라 상기 머신러닝 프로젝트에 부합되는 유의미한 데이터를 추출하는 단계; c) 상기 추출된 유의미한 데이터에 대한 하나 이상의 카테고리를 설정하고, 상기 하나 이상의 카테고리별 데이터 유형에 맞는 머신러닝 알고리즘을 적용하여 기계학습 모델들을 생성하고, 상기 생성된 기계학습 모델들에 대한 최적화 작업을 통해 최적화된 기계학습 모델을 생성하는 단계; 및 d) 상기 최적화된 기계학습 모델을 이용한 분석 결과를 상기 사용자 단말로 제공하고, 상기 사용자 단말로부터 상기 분석 결과에 대한 평가 정보가 수신되면 상기 평가 정보를 상기 최적화된 기계학습 모델에 적용하여 업데이트하는 단계를 포함하는 방법일 수 있다.

Description

기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법 및 그 시스템{SYSTEM FOR AUTOMATICALLY COLLECTING AND LEARNING DATA USING MACHINE LEARNING MODEL}
본 발명은 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법 및 그 시스템에 관한 것이다.
최근 인공지능 기술의 발달과 더불어 많은 데이터를 처리하여 유용한 정보를 추출하는 머신러닝 기술이 주목을 받고 있다. 일반적으로 머신러닝 알고리즘은 지도 학습, 비지도 학습, 준지도 학습, 자기 지도 학습, 강화 학습의 5개범주 안에 속한다.
먼저, 지도 학습 (Supervised Learning)은 샘플 데이터가 주어지면 알고 있는 타겟(레이블)에 입력 데이터를 매핑하는 방법을 학습하는 것으로서, 문자 판독, 음성 인식, 이미지 분류, 언어 번역 등이 지도학습에 속한다. 다음에 비지도 학습 (Unsupervised Learning)은 타겟(레이블)을 사용하지 않고, 미분류된 입력 데이터에 대해 유의미한 정보를 찾는 방법으로서, 데이터 시각화, 데이터 압축, 데이터의 노이즈 제거, 데이터에 있는 상관관계를 더 잘 이해하기 위해 사용한다. 이러한 비지도 학습은 대표적으로 차원 축소(dimensionality reduction), 군집(clustering), 희소 트리 및 그래프 등과 같은 데이터의 기저를 이루는 고유 패턴을 발견하도록 설정된다.
준지도 학습 (Semi-supervised Learning)은 분류가 한정적일 때에 지도 학습을 개선하기 위해 미분류 사례와 함께 소량의 분류 데이터를 이용하여 학습하는 것으로서, 대부분 지도 학습과 비지도 학습의 조합으로 이루어진다. 자기 지도 학습 (Self-supervised Learning)은 지도 학습의 특별한 경우에 속하는 것으로서, 지도 학습이지만 사람이 만든 레이블을 사용하지 않는다. 레이블이 필요하지만 보통 경험적인 알고리즘(heuristic algorithm)을 사용해서 입력 데이터로부터 생성한다.
강화 학습 (Reinforcement Learning)은 에이전트(agent)가 환경에 대한 정보를 피드백받아 보상을 최대화하는 행동을 선택하도록 학습한다.
이러한 머신러닝 기술을 사용자가 이용하고자 할 경우에, 1) 데이터의 크기, 품질, 특성, 2) 가용 연산 시간, 3) 작업의 긴급성, 4) 데이터를 이용해 하고 싶은 것 등의 이유로 수많은 종류의 머신러닝 알고리즘 중 어떤 알고리즘을 사용해할지 선택하기 어렵다. 따라서 머신러닝 기술 분야의 데이터 과학자와 머신러닝 전문가 및 개발자에게 알고리즘이 무엇을 제공하고, 어떻게 사용되는지, 특정 프로젝트에 부합되는 학습 모델의 설계를 의뢰하게 된다.
그러나, 데이터 과학자와 머신러닝 전문가 및 개발자 조차도 여러 머신러닝 알고리리즘 중에 특정 프로젝트에 맞는 알고리즘을 직접 써보기 전까지 최고의 성과를 낼 수 있는 최적의 알고리즘을 구별하기가 쉽지 않다.
본 발명은 전술한 문제점을 해결하기 위하여, 본 발명의 일 실시예에 따라 수많은 머신러닝 알고리즘 중 사용자가 개설한 프로젝트에 맞는 알고리즘을 선택할 때에 해당 프로젝트에 적합한 머신러닝 알고리즘을 식별하고, 이 머신러닝 알고리즘이 적용된 최적화된 기계학습 모델을 제공하는 것에 목적이 있다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서 본 발명의 일 실시예에 따른 데이터 수집 및 학습을 위한 서버에 의해 수행되는 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법에 있어서, a) 사용자 단말에 의해 머신러닝 프로젝트가 개설되면, 상기 머신러닝 프로젝트에 기초하여 데이터 수집 양식을 설정하고, 상기 설정된 데이터 수집 양식에 따라 사용자 단말 및 기설정된 참여 단말들을 통해 원시 데이터를 수집하는 단계; b) 상기 수집된 원시 데이터에 대해 하나 이상의 머신러닝 알고리즘을 적용하고, 상기 하나 이상의 머신러닝 알고리즘의 적용한 결과에 따라 상기 머신러닝 프로젝트에 부합되는 유의미한 데이터를 추출하는 단계; c) 상기 추출된 유의미한 데이터에 대한 하나 이상의 카테고리를 설정하고, 상기 하나 이상의 카테고리별 데이터 유형에 맞는 머신러닝 알고리즘을 적용하여 기계학습 모델들을 생성하고, 상기 생성된 기계학습 모델들에 대한 최적화 작업을 통해 최적화된 기계학습 모델을 생성하는 단계; 및 d) 상기 최적화된 기계학습 모델을 이용한 분석 결과를 상기 사용자 단말로 제공하고, 상기 사용자 단말로부터 상기 분석 결과에 대한 평가 정보가 수신되면 상기 평가 정보를 상기 최적화된 기계학습 모델에 적용하여 업데이트하는 단계를 포함하는 방법일 수 있다.
상기 a) 단계는, 하나 이상의 통신 단말에 상기 머신러닝 프로젝트에 대한 참여 메시지 또는 참여 주소 정보를 전송하여 상기 머신러닝 프로젝트에 초대하고, 상기 참여 메시지 또는 참여주소 정보를 통해 상기 머신러닝 프로젝트의 초대에 응답한 통신 단말들을 수집하여 참여 단말로 설정할 수 있다.
상기 하나 이상의 머신러닝 알고리즘은 클러스터링 알고리즘, 빈도 분석 알고리즘, T-Test 알고리즘 리니어 리그레션 알고리즘을 포함한 복수 개의 분석 및 통계 알고리즘일 수 있다.
상기 c) 단계는, 상기 생성된 학습 모델들 간에 데이터의 크기와 유사성에 기반하여 자동 조합을 수행하는 미세 조정(fine tunig) 과정을 거쳐 최적화된 기계학습 모델을 도출할 수 있다.
상기 c) 단계는, 상기 생성된 학습 모델들 중 어느 하나의 기계학습 모델이 상기 사용자 단말에 의해 선택되면, 상기 선택된 기계학습 모델을 자동으로 API(Application Programming Interface)화하여 상기 최적화된 기계학습 모델로 도출할 수 있다.
상기 c) 단계는, 상기 사용자 단말에 의해 선택된 기계학습 모델이 결과값의 출력에 필요한 입력값들을 입력하기 위한 필드를 자동으로 생성할 수 있다.
상기 c) 단계는, 상기 사용자 단말에서 원하는 대로 필드를 생성하고, 상기 필드에 필드값을 입력함에 따라 상기 사용자 단말이 최종적으로 입력 완료한 필드 및 필드값을 수신하는 단계를 더 포함할 수 있다. 이때, 상기 c) 단계는, 상기 필드 및 필드값에 대한 논리적 모순에 의한 오류나 기 설정된 범위를 벗어나는 필드값들을 제거하는 정제작업을 수행하는 단계; 및 상기 정제 작업을 통해 필터링된 데이터를 바탕으로 각 필드 간의 연관성 분석을 수행하여 연관성이 낮은 필드 및 필드값을 제거하는 단계를 포함할 수 있다.
또한, 본 발명의 다른 일 실시예에 따른 기계학습 모델을 이용한 자동 데이터 수집 및 학습 시스템은, 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법을 수행하기 위한 프로그램이 기록된 메모리; 및 상기 프로그램을 실행하기 위한 프로세서;를 포함하며, 상기 프로세서는, 상기 프로그램의 실행에 의해, 사용자 단말에 의해 머신러닝 프로젝트가 개설되면, 상기 머신러닝 프로젝트에 기초하여 데이터 수집 양식을 설정하고, 상기 설정된 데이터 수집 양식에 따라 사용자 단말 및 기설정된 참여 단말들을 통해 원시 데이터를 수집하고, 상기 수집된 원시 데이터에 대해 하나 이상의 머신러닝 알고리즘을 적용하고, 상기 하나 이상의 머신러닝 알고리즘의 적용한 결과에 따라 상기 머신러닝 프로젝트에 부합되는 유의미한 데이터를 추출하고, 상기 추출된 유의미한 데이터에 대한 하나 이상의 카테고리를 설정하고, 상기 하나 이상의 카테고리별 데이터 유형에 맞는 머신러닝 알고리즘을 적용하여 기계학습 모델들을 생성하고, 상기 생성된 기계학습 모델들에 대한 최적화 작업을 통해 최적화된 기계학습 모델을 생성하고, 상기 최적화된 기계학습 모델을 이용한 분석 결과를 상기 사용자 단말로 제공하고, 상기 사용자 단말로부터 상기 분석 결과에 대한 평가 정보가 수신되면 상기 평가 정보를 상기 최적화된 기계학습 모델에 적용하여 업데이트할 수 있다.
전술한 본 발명의 과제 해결 수단에 의하면, 학습할 데이터를 준비하고, 복수개의 머신러닝 알고리즘을 통해 학습을 수행한 후 사용자의 프로젝트에 가장 효율적으로 분석과 학습을 수행할 수 있는 머신러닝 알고리즘을 적용하여 최적화된 기계학습 모델을 제공할 수 있다.
이와 같이, 본 발명은 수많은 머신러닝 알고리즘 중에서 특정한 프로젝트에 적합한 알고리즘을 선택할 수 있고, 정확성, 학습 시간, 사용 편의성 등을 고려하여 기계학습 모델을 자동으로 또는 사용자가 직접 선택할 수 있다.
도 1은 본 발명의 일 실시예에 따른 기계학습 모델을 이용한 자동 데이터 수집 및 학습 시스템의 구성을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법을 설명하는 순서도이다.
도 3은 본 발명의 일 실시예에 따른 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법에 에서 데이터 필터링 과정을 설명하기 위한 도면이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에서 ‘단말’은 휴대성 및 이동성이 보장된 무선 통신 장치일 수 있으며, 예를 들어 스마트 폰, 태블릿 PC 또는 노트북 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치일 수 있다. 또한, ‘단말’은 네트워크를 통해 다른 단말 또는 서버 등에 접속할 수 있는 PC 등의 유선 통신 장치인 것도 가능하다. 또한, 네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다.
무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.
이하의 실시예는 본 발명의 이해를 돕기 위한 상세한 설명이며, 본 발명의 권리 범위를 제한하는 것이 아니다. 따라서 본 발명과 동일한 기능을 수행하는 동일 범위의 발명 역시 본 발명의 권리 범위에 속할 것이다.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 기계학습 모델을 이용한 자동 데이터 수집 및 학습 시스템의 구성을 나타낸 도면이다.
도 1을 참조하면, 기계학습 모델을 이용한 자동 데이터 수집 및 학습 시스템은 사용자 단말(200), 데이터 수집 및 학습 서비스 제공 서버(100)를 포함한다.
서버(100)는 통신모듈(110), 메모리(120), 프로세서(130) 및 데이터베이스(140)를 포함한다.
통신 모듈(110)은 통신망과 연동하여 서버(100)와 사용자 단말(200) 간의 송수신 신호를 패킷 데이터 형태로 제공하는 데 필요한 통신 인터페이스를 제공한다. 나아가, 통신 모듈(110)은 사용자 단말(200)로부터 데이터 요청을 수신하고, 이에 대한 응답으로서 데이터를 송신하는 역할을 수행할 수 있다.
여기서, 통신 모듈(110)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.
메모리(120)는 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법을 수행하기 위한 프로그램이 기록된다. 또한, 프로세서(130)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행한다. 여기서, 메모리(120)는 휘발성 저장 매체(volatile storage media) 또는 비휘발성 저장 매체(non-volatile storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
프로세서(130)는 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법을 제공하는 전체 과정을 제어하는 것으로서, 사용자 단말(200)에 의해 개설된 머신러닝 프로젝트에 따라 복수의 기계학습 모델을 생성하고, 생성된 복수의 기계학습 모델들을 자동 미세 조정(Fine Tuning)을 통해 최적화하여 최적화된 기계학습 모델을 도출한 후 분석과 학습이 가장 효율적으로 될 수 있는 경로를 기계학습 모델이 자동으로 학습하여 분석 결과를 출력하도록 한다. 프로세서(130)가 수행하는 각각의 동작에 대해서는 추후 보다 상세히 살펴보기로 한다.
데이터베이스(140)는 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법을 수행하면서 누적되는 데이터가 저장된다. 예컨대, 데이터베이스(140)에는 사용자 정보, 프로젝트 정보, 복수의 분석 및 통계 알고리즘, 생성된 학습 모델 정보 등이 저장될 수 있다.
사용자 단말(200)은 스마트폰과 같이 다양한 기능이 탑재 되거나 또는 다양한 프로그램(예를 들어, 모바일 앱 등)을 자유롭게 탑재 및 설치할 수 있는 지능형 단말일 수 있다. 이러한 사용자 단말(200)은 데이터 수집 및 분석 플랫폼 사용자인터페이스를 통해 사용자가 분석하고자 하는 머신러닝 프로젝트를 개설할 수 있다. 예를 들어, 의료데이터 분석 프로젝트인 경우에, 환자의 상태를 특정 기간동안 주기적으로 조사하는 연구에 관한 의료데이터 입력템플릿, 병원 진료기록 템플릿, 일회성 의료정보조사 템플릿, 의학논문분석 템플릿, 의료이미지 학습 템플릿 등을 포함할 수 있다. 이외에도 프로젝트에 따라 다양한 데이터를 수집 및 분석할 수 있다.
도 2는 본 발명의 일 실시예에 따른 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법을 설명하는 순서도이다.
도 2를 참조하면, 기계학습 모델을 이용한 자동 데이터 수집 및 학습 공 방법은 사용자 단말(200)에 의해 머신러닝 프로젝트가 개설되면(S1), 머신러닝 프로젝트에 기초하여 데이터 수집 양식을 설정하고, 설정된 데이터 수집 양식에 따라 사용자 단말(200) 및 기설정된 참여 단말들을 통해 원시 데이터를 수집한다(S2).
이때, 사용자 단말(200)은 머신러닝 프로젝트 개설시 타임 시리즈, 일회성 데이터 등의 데이터 형태, 레이어, 수집 방식 등을 자유롭게 설정할 수 있다. 또한, 사용자 단말(200)은 하나 이상의 통신 단말에 머신러닝 프로젝트에 대한 참여 메시지 또는 참여 주소 정보(URL)를 전송하여 머신러닝 프로젝트에 초대하고, 참여 메시지 또는 참여주소 정보를 통해 머신러닝 프로젝트의 초대에 응답한 통신 단말들을 수집하여 참여 단말(210)로 설정한다. 또한, 사용자 단말(200) 및 참여 단말(210)은 데이터 수집을 위한 데이터 수집 양식을 설정하는데, 참여자들이 직접 데이터를 입력하거나 csv, xlxs 등의 파일 업로드를 통해 데이터를 일괄 추가할 수도 있다.
즉, 사용자 단말(200)은 사용자 입력에 따라 프로젝트 성격에 맞는 필드를 원하는 대로 생성할 수 있다. 이때 필드는 입력양식(Case Report Form)을 의미한다. 예시적으로, 사용자 단말(200)은 사용자 자신의 프로젝트 성격에 맞는 원하는 필드종류(예를 들어, 질병의 증상, 질병의 기간, 환자 나이, 환자 성별, 환자 거주지, 환자의 생활 습관, 통증이 나타나는 시점, 통증의 강도, 진단명(진단코드), 대표증상, 처방명 등에 관한 정보)와 입력방식(예를 들어, 표, 텍스트, 이미지, 숫자, 체크박스, 의학용어 라이브러리를 활용한 자동 완성)을 여러 개 생성하고, 그 필드에 해당하는 필드값을 기입할 수 있다.
서버(100)는 수집된 원시 데이터의 종류가 다양하므로, 데이터 종류에 따라 클러스터링 알고리즘, 빈도 분석 알고리즘, T-Test 알고리즘 리니어 리그레션 알고리즘 등의 다양한 분석 및 통계 알고리즘을 적용한다(S3). 이때, 원시 데이터를 학습에 사용할 수 있도록 데이터 전처리를 수행하여 정규화된 데이터셋을 준비한다(S3).
이러한 데이터셋을 사용하여 학습을 수행할 수행할 기계학습 모델을 생성하기 위해 여러 가지 복수개의 머신러닝 알고리즘을 적용하여 해당 데이터텟에 가장 잘 맞는 머신러닝 알고리즘을 찾게 된다(S4). 이를 위해 서버(100)는 복수 개의 알고리즘을 적용한 결과에 따라 다양한 데이터들 중 유의미한 데이터와 무의미한 데이터를 분류한다(S5). 이때, 서버(100)는 각 알고리즘의 수행 결과에 따라 머신러닝 프로젝트에 부합되는 유의미한 데이터를 추출한다. 또한, 서버(100)는 추출된 유의미한 데이터에 대한 하나 이상의 카테고리를 설정하는데, 사용자가 직접 카테고리를 설정하거나 별도의 알고리즘을 통해 자동으로 카테고리를 설정할 수 있다(S6).
서버(100)는 하나 이상의 카테고리별 데이터 유형에 맞는 머신러닝 알고리즘을 적용하여 학습 모델들을 생성하고(S7), 생성된 학습 모델들에 대한 최적화 작업을 통해 최적화된 기계학습 모델을 도출한다(S8).
여기서, 최적화 작업은 자동 미세 조정(Fine Tuning)을 수행하는 것으로서, 미세 조정은 크게 4가지 전략으로 구분된다. 첫 번째 전략은 크기가 크고 유사성이 작은 데이터셋(dataset)일 경우에, 데이터셋의 크기가 크므로 학습 모델을 다시 처음부터 내가 원하는 대로 완전히 다시 학습시키는 것이다. 두번째 전략은 크기가 크고 유사성도 높은 데이터셋일 경우에 데이터셋의 크기가 커서 오버피팅은 문제가 안 될 것이므로, 분류기(classifier)와 컨벌루션 베이스(convolutional base)의 높은 레벨 계층 일부만 학습시키는 것이다. 세번째 전략은 크기가 작고 유사성도 작은 데이터셋일 경우에, 컨벌루션 베이스를 두번째 전략에서보다 조금 더 깊은 계층까지 새로 학습시키고, 작은 크기의 데이터셋을 보완하기 위해서 데이터 증강(data augmentation)를 수행한다. 네번째 전략은 크기가 작지만 유사성은 높은 데이터셋일 경우에, 세번째 전략에 기초하여 사전 학습모델의 마지막 부분인 분류기(classifier)만 삭제하고 기존의 컨벌루션 베이스는 특징 추출기로써 사용하고, 추출된 특징을 새로운 분류기에 넣어서 분류할 수 있도록 학습시키는 것이다.
상기한 S3 단계 내지 S7 단계의 절차에 머신러닝 학습 알고리즘을 적용시킴으로써 분석과 학습이 가장 효율적으로 될 수 있는 경로를 최적화된 기계학습 모델이 자동으로 학습하고 분석 결과를 제공할 수 있다(S9).
서버(100)는 최적화된 기계학습 모델의 분석 결과를 사용자 단말(200)에 제공하고, 사용자 단말(200)로부터 분석 결과에 대한 평가 정보가 수신되면 평가 정보를 최적화된 기계학습 모델에 적용하여 업데이트한다(S10).
최적화된 기계학습 모델의 평가는 데이터를 훈련(training), 검증(valid), 테스트(test)의 세트로 나누고, 훈련 세트(training set)에서 모델을 훈련하고, 검증 세트(validation set)에서 모델을 평가하고, 테스트 세트를 이용해 모델을 테스트 한다.
도 3은 본 발명의 일 실시예에 따른 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법에 에서 데이터 필터링 과정을 설명하기 위한 도면이다.
다양한 데이터가 포함된 데이터셋이 활용되어 서버(100)에 의해 복수개의 서로 다른 유형의 기계학습 모델이 생성될 수 있다. 여기서, 서버(100)는 다양한 기능성을 수행하기 위해 다른 시스템 구성요소와 상호 작용하고, 컴퓨터 프로그램 명령을 실행하는 구성으로 이해될 수 있다. 또한 서버(100)는 하나 이상의 컴퓨팅 장치 또는 하나 이상의 프로세서를 포함할 수 있다.
서버(100)에서 생성된 복수개의 기계학습 모델이 적용됨으로써 데이터 분석 및 학습에 대한 각각의 분석 결과가 출력되어 저장된다. 이때, 사용자는 복수 개의 기계학습 모델의 분석 결과를 서로 비교하여 가장 빠른 결과값이 출력되는 모델, 가장 정확한 결과값이 분석되는 모델 중 어느 하나를 선택할 수 있다.
사용자가 복수 개의 기계학습 모델 중 어느 하나의 기계학습 모델을 선택하면, 서버(100)는 사용자에 의해 선택된 기계학습 모델을 자동으로 API화하여 최적화된 기계학습 모델로 도출할 수 있다. 이때, 서버(100)는 사용자 단말(200)에 의해 선택된 기계학습 모델이 결과값을 출력하는데 필요한 입력값들을 입력하기 위한 필드를 자동으로 생성한다(S31).
이때, 서버(100)는 필드 및 필드값에 대한 논리적 모순에 의한 오류나 기 설정된 범위를 벗어나는 필드값들을 제거하는 정제작업을 수행하고(S32), 정제 작업을 통해 필터링된 데이터에 기초하여 각 필드 간의 연관성 분석을 수행하여 연관성이 낮은 필드 및 필드값을 제거할 수 있다(S33).
구체적으로, 서버(100)는 데이터베이스(140)에 저장된 데이터셋을 활용하여 최적화된 기계학습 모델의 학습을 수행하되, 임의의 필드에 해당하는 필드값이 기입되기 위한 조건 정보를 분석하도록 학습을 수행할 수 있다. 또한, 서버(100)는 데이터베이스에 기초하여 임의의 필드에 해당하는 필드값의 수치 또는 범위 등의 기준점을 설정할 수 있다. 이후, 서버(100)는 학습과 기준점을 바탕으로 불필요한 것으로 판단된 항목을 제거하고 모순된 필드값을 교정할 수 있다.
서버(100)는 정제 작업 후 남은 필드와 공통적인 필드를 갖는 데이터들을 반복적으로 검색하여 통계적인 노출 빈도를 분석하고, 공통적인 필드를 갖는 데이터 내에서의 결과값과 남은 필드 간의 연관성 분석을 수행하여, 통계적 의미가 기 설정된 기준치보다 낮은 필드 및 필드값을 분류하고, 분류된 필드 및 필드값을 제거할 수 있다. 즉, 최종적으로, 유의미한 필드들의 정제된 데이터를 추출함으로써, 보다 적은 데이터로 효과적인 학습이 가능하도록 한다는 효과가 있다.
예시적으로, 사용자 단말(200)은 복수의 필드 및 필드값 중에서 분석이 필요한 항목과 적용할 기법 정보를 선택할 수 있다. 일 예로, 서버(100)는 사용자 단말(200)로부터 수신한 분석이 필요한 항목과 기법 정보를 참고하여, 사용자 단말(200)로 pValue 가설 검정, T검정, 네트워크 분석, 빈도 분석, Odds ratio 등 다양한 통계치를 실시간으로 분석한 통계세트를 제공할 수 있다. 이때, 통계세트는 그래프 및 표 등으로 시각화된 정보를 의미하며, 예를 들어 다양한 진료 데이터 사이에서 음주량과 치매발생율 간의 연관관계를 별도의 설정 없이도 자동으로 분석하여 제공할 수 있다.
다른 예로, 서버(100)는 수집된 데이터를 더 범주화하는 작업을 수행할 수 있다. 예를 들어, 사용자 단말(200)은 보고서 형태로 인쇄하거나 추출된 pdf 파일이나 웹 페이지를 다양한 방식으로 제공받고 공유할 수 있다.
이상에서 설명한 본 발명의 실시예에 따른 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법은, 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 이러한 기록 매체는 컴퓨터 판독 가능 매체를 포함하며, 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함하며, 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 기계학습 모델의 생성 및 제공 서버
110: 통신 모듈 120: 메모리
130: 프로세서 140: 데이터베이스

Claims (10)

  1. 데이터 수집 및 학습을 위한 서버에 의해 수행되는 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법에 있어서,
    a) 사용자 단말에 의해 머신러닝 프로젝트가 개설되면, 상기 머신러닝 프로젝트에 기초하여 데이터 수집 양식을 설정하고, 상기 설정된 데이터 수집 양식에 따라 사용자 단말 및 기설정된 참여 단말들을 통해 원시 데이터를 수집하는 단계;
    b) 상기 수집된 원시 데이터에 대해 하나 이상의 머신러닝 알고리즘을 적용하고, 상기 하나 이상의 머신러닝 알고리즘의 적용한 결과에 따라 상기 머신러닝 프로젝트에 부합되는 유의미한 데이터를 추출하는 단계;
    c) 상기 추출된 유의미한 데이터에 대한 하나 이상의 카테고리를 설정하고, 상기 하나 이상의 카테고리별 데이터 유형에 맞는 머신러닝 알고리즘을 적용하여 기계학습 모델들을 생성하고, 상기 생성된 기계학습 모델들에 대한 최적화 작업을 통해 최적화된 기계학습 모델을 생성하는 단계; 및
    d) 상기 최적화된 기계학습 모델을 이용한 분석 결과를 상기 사용자 단말로 제공하고, 상기 사용자 단말로부터 상기 분석 결과에 대한 평가 정보가 수신되면 상기 평가 정보를 상기 최적화된 기계학습 모델에 적용하여 업데이트하는 단계를 포함하는 것인, 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법.
  2. 제 1 항에 있어서,
    상기 a) 단계는,
    하나 이상의 통신 단말에 상기 머신러닝 프로젝트에 대한 참여 메시지 또는 참여 주소 정보를 전송하여 상기 머신러닝 프로젝트에 초대하고, 상기 참여 메시지 또는 참여주소 정보를 통해 상기 머신러닝 프로젝트의 초대에 응답한 통신 단말들을 수집하여 참여 단말로 설정하는 것인, 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법.
  3. 제 1 항에 있어서,
    상기 하나 이상의 머신러닝 알고리즘은 클러스터링 알고리즘, 빈도 분석 알고리즘, T-Test 알고리즘 리니어 리그레션 알고리즘을 포함한 복수 개의 분석 및 통계 알고리즘인 것인, 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법.
  4. 제 1 항에 있어서,
    상기 c) 단계는,
    상기 생성된 학습 모델들 간에 데이터의 크기와 유사성에 기반하여 자동 조합을 수행하는 미세 조정(fine tunig) 과정을 거쳐 최적화된 기계학습 모델을 도출하는 것인, 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법.
  5. 제 1 항에 있어서,
    상기 c) 단계는,
    상기 생성된 학습 모델들 중 어느 하나의 기계학습 모델이 상기 사용자 단말에 의해 선택되면, 상기 선택된 기계학습 모델을 자동으로 API(Application Programming Interface)화하여 상기 최적화된 기계학습 모델로 도출하는 것인, 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법.
  6. 제 5 항에 있어서,
    상기 c) 단계는,
    상기 사용자 단말에 의해 선택된 기계학습 모델이 결과값의 출력에 필요한 입력값들을 입력하기 위한 필드를 자동으로 생성하는 것인, 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법.
  7. 제 1 항에 있어서,
    상기 c) 단계는,
    상기 사용자 단말에서 원하는 대로 필드를 생성하고, 상기 필드에 필드값을 입력함에 따라 상기 사용자 단말이 최종적으로 입력 완료한 필드 및 필드값을 수신하는 단계를 더 포함하는 것인, 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법.
  8. 제 7 항에 있어서,
    상기 c) 단계는,
    상기 필드 및 필드값에 대한 논리적 모순에 의한 오류나 기 설정된 범위를 벗어나는 필드값들을 제거하는 정제작업을 수행하는 단계; 및
    상기 정제 작업을 통해 필터링된 데이터를 바탕으로 각 필드 간의 연관성 분석을 수행하여 연관성이 낮은 필드 및 필드값을 제거하는 단계를 포함하는 것인, 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법.
  9. 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법을 수행하기 위한 프로그램이 기록된 메모리; 및
    상기 프로그램을 실행하기 위한 프로세서;를 포함하며,
    상기 프로세서는, 상기 프로그램의 실행에 의해,
    사용자 단말에 의해 머신러닝 프로젝트가 개설되면, 상기 머신러닝 프로젝트에 기초하여 데이터 수집 양식을 설정하고, 상기 설정된 데이터 수집 양식에 따라 사용자 단말 및 기설정된 참여 단말들을 통해 원시 데이터를 수집하고,
    상기 수집된 원시 데이터에 대해 하나 이상의 머신러닝 알고리즘을 적용하고, 상기 하나 이상의 머신러닝 알고리즘의 적용한 결과에 따라 상기 머신러닝 프로젝트에 부합되는 유의미한 데이터를 추출하고,
    상기 추출된 유의미한 데이터에 대한 하나 이상의 카테고리를 설정하고, 상기 하나 이상의 카테고리별 데이터 유형에 맞는 머신러닝 알고리즘을 적용하여 기계학습 모델들을 생성하고, 상기 생성된 기계학습 모델들에 대한 최적화 작업을 통해 최적화된 기계학습 모델을 생성하고,
    상기 최적화된 기계학습 모델을 이용한 분석 결과를 상기 사용자 단말로 제공하고, 상기 사용자 단말로부터 상기 분석 결과에 대한 평가 정보가 수신되면 상기 평가 정보를 상기 최적화된 기계학습 모델에 적용하여 업데이트하는 것인, 기계학습 모델을 이용한 자동 데이터 수집 및 학습 시스템.
  10. 제 1 항에 따른 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법을 수행하는 프로그램이 기록된 컴퓨터 판독가능 기록매체.
KR1020190145161A 2019-11-13 2019-11-13 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법 및 그 시스템 KR102275658B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190145161A KR102275658B1 (ko) 2019-11-13 2019-11-13 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법 및 그 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190145161A KR102275658B1 (ko) 2019-11-13 2019-11-13 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법 및 그 시스템

Publications (2)

Publication Number Publication Date
KR20210058116A true KR20210058116A (ko) 2021-05-24
KR102275658B1 KR102275658B1 (ko) 2021-07-12

Family

ID=76152751

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190145161A KR102275658B1 (ko) 2019-11-13 2019-11-13 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법 및 그 시스템

Country Status (1)

Country Link
KR (1) KR102275658B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102382379B1 (ko) * 2021-09-16 2022-04-04 주식회사 라젠 클러치 엔진 기반 인공지능 빅데이터 견적 제공 시스템 및 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102608631B1 (ko) * 2021-07-29 2023-12-04 팁스밸리(주) 빅데이터 및 인공지능 기반의 비즈니스 데이터 맞춤 분석 및 솔루션 제공 시스템
KR20240041647A (ko) * 2022-09-23 2024-04-01 한국전자기술연구원 IoT 플랫폼에서 정책 리소스를 활용한 ML 데이터셋 관리 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101704926B1 (ko) * 2015-10-23 2017-02-23 한양대학교 산학협력단 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법
JP2018156415A (ja) * 2017-03-17 2018-10-04 株式会社リコー 診断装置、診断システム、診断方法およびプログラム
KR101942219B1 (ko) * 2018-07-05 2019-01-24 고재성 컨볼루션 뉴럴 네트워크를 이용한 폐기물 이미지 식별 장치 및 방법
KR20190059662A (ko) * 2017-11-23 2019-05-31 주식회사 넥슨코리아 게임 서비스를 제공하기 위한 장치, 방법 및 컴퓨터 프로그램

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101704926B1 (ko) * 2015-10-23 2017-02-23 한양대학교 산학협력단 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법
JP2018156415A (ja) * 2017-03-17 2018-10-04 株式会社リコー 診断装置、診断システム、診断方法およびプログラム
KR20190059662A (ko) * 2017-11-23 2019-05-31 주식회사 넥슨코리아 게임 서비스를 제공하기 위한 장치, 방법 및 컴퓨터 프로그램
KR101942219B1 (ko) * 2018-07-05 2019-01-24 고재성 컨볼루션 뉴럴 네트워크를 이용한 폐기물 이미지 식별 장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102382379B1 (ko) * 2021-09-16 2022-04-04 주식회사 라젠 클러치 엔진 기반 인공지능 빅데이터 견적 제공 시스템 및 방법

Also Published As

Publication number Publication date
KR102275658B1 (ko) 2021-07-12

Similar Documents

Publication Publication Date Title
US11500818B2 (en) Method and system for large scale data curation
Dam et al. Automatic feature learning for predicting vulnerable software components
US20200012666A1 (en) Dataset connector and crawler to identify data lineage and segment data
US11521713B2 (en) System and method for generating clinical trial protocol design document with selection of patient and investigator
Fernández-García et al. A recommender system for component-based applications using machine learning techniques
KR102275658B1 (ko) 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법 및 그 시스템
Xu et al. Improving user recommendation by extracting social topics and interest topics of users in uni-directional social networks
CN110337645A (zh) 可适配的处理组件
KR20210056598A (ko) 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 방법 및 시스템
WO2020238353A1 (zh) 数据处理方法和装置、存储介质及电子装置
US20160110502A1 (en) Human and Machine Assisted Data Curation for Producing High Quality Data Sets from Medical Records
US10409866B1 (en) Systems and methods for occupation normalization at a job aggregator
Tieppo et al. Hierarchical classification of data streams: a systematic literature review
CN116821301A (zh) 基于知识图谱的问题应答方法、装置、介质及计算机设备
KR20210057308A (ko) 머신러닝에 기반한 챗봇 서비스 제공방법 및 시스템
Behnisch et al. Urban data-mining: spatiotemporal exploration of multidimensional data
Qi et al. Hyperparameter optimization of neural networks based on Q-learning
CN113342988B (zh) 一种基于lda跨域的构建服务知识图谱实现服务组合优化的方法及系统
Wang et al. Unsupervised graph domain adaptation for neurodevelopmental disorders diagnosis
Luo et al. Risk factors analysis and classification on heart disease
Montenegro et al. Disentangled Representation Learning for Privacy-Preserving Case-Based Explanations
Nasira et al. A study on prediction of cardiovascular victimization data processing techniques
Bashar et al. ALGAN: Time Series Anomaly Detection with Adjusted-LSTM GAN
Mariappan Early Detection of Covid Using Spectral Analysis of Cough and Deep Convolutional Neural Network
Gu et al. Multi-label Learning by Exploiting Imbalanced Label Correlations

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant