KR20200068050A - 인공지능 수행을 위한 학습 데이터 생성장치 및 방법 - Google Patents

인공지능 수행을 위한 학습 데이터 생성장치 및 방법 Download PDF

Info

Publication number
KR20200068050A
KR20200068050A KR1020180147383A KR20180147383A KR20200068050A KR 20200068050 A KR20200068050 A KR 20200068050A KR 1020180147383 A KR1020180147383 A KR 1020180147383A KR 20180147383 A KR20180147383 A KR 20180147383A KR 20200068050 A KR20200068050 A KR 20200068050A
Authority
KR
South Korea
Prior art keywords
data
learning
learning data
virtual
augmentation
Prior art date
Application number
KR1020180147383A
Other languages
English (en)
Other versions
KR102225822B1 (ko
Inventor
이경용
김준호
Original Assignee
국민대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국민대학교산학협력단 filed Critical 국민대학교산학협력단
Priority to KR1020180147383A priority Critical patent/KR102225822B1/ko
Publication of KR20200068050A publication Critical patent/KR20200068050A/ko
Application granted granted Critical
Publication of KR102225822B1 publication Critical patent/KR102225822B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

본 발명은 인공지능 수행을 위한 학습 데이터 생성장치에 관한 것으로, 데이터와 라벨을 포함하는 실제 학습 데이터를 입력받는 실제 학습 데이터 처리부, 상기 라벨을 기초로 상기 데이터를 변형하여 적어도 하나의 가상 데이터를 생성하는 가상 학습 데이터 증강부 및 상기 실제 학습 데이터 및 상기 적어도 하나의 가상 데이터와 상기 라벨을 맵핑(mapping)한 가상 학습 데이터를 학습 데이터로서 저장하는 학습 데이터 수집부를 포함한다. 따라서, 본 발명은 데이터 증강 작업의 중복을 피하고 모델링 작업 서버의 부하를 감소시켜 궁극적으로는 딥러닝 모델의 성능을 향상시킬 수 있다.

Description

인공지능 수행을 위한 학습 데이터 생성장치 및 방법 {APPARATUS AND METHOD FOR GENERATING LEARNING DATA FOR ARTIFICIAL INTELLIGENCE PERFORMANCE}
본 발명은 인공지능 수행을 위한 학습 데이터 생성 기술에 관한 것으로, 보다 상세하게는 데이터 증강 작업의 중복을 피하고 모델링 작업 서버의 부하를 감소시켜 궁극적으로는 딥러닝 모델의 성능을 향상시킬 수 있는 인공지능 수행을 위한 학습 데이터 생성장치 및 방법에 관한 것이다.
딥러닝 작업의 학습 단계에서 모델의 정확도를 높이기 위하여 입력으로 주어진 데이터 셋의 개수를 늘리고, 변종의 데이터에 대해서도 높은 정확도를 확보하기 위하여, 입력 데이터셋에 약간의 변화를 가해주는 augmentation(데이터 증강) 작업이 필요로 하게 된다 (image flip, image rotation, image scale, image crop, translation of x, y coordinate, adding noise 등). 이러한 augmentation 작업은 일반적으로 딥러닝 학습이 일어나는 서버에서 일어나게 되며, 이는 제한된 작업서버의 자원들 (CPU, 메모리)을 학습 단계와 augmentation 단계에서 공유를 하여 학습 성능에 영향을 미칠 수 있다. 또한 입력 자료의 크기가 클 경우에는 모든 입력 자료들의 augmentation 한 결과가 메모리에 존재할 수 없기에, 같은 데이터 셋에 대해서도 중복적인 augmentation 작업이 발생할 수 있다. 본 발명에서는 확장성이 뛰어난 클라우드 기반 서비스를 활용하여 augmentation 작업에 의한 딥러닝 모델의 작업의 성능 저하와 중복된 augmentation 작업을 예방하는 내용을 제안한다.
한국공개특허 제10-2007-0060862 (2007.06.13)호
본 발명의 일 실시예는 데이터 증강 작업의 중복을 피하고 학습을 위한 충분한 서버 자원을 확보하여 학습 성능을 향상시키는 인공지능 수행을 위한 학습 데이터 생성장치 및 방법을 제공하고자 한다.
본 발명의 일 실시예는 딥러닝 모델링에 있어서 데이터 증강 작업을 포함하는 데이터 전처리 서버와 실제 학습 서버를 분리하여 학습 서버의 부하를 줄이고 궁극적으로 딥러닝 성능을 향상시키는 인공지능 수행을 위한 학습 데이터 생성장치 및 방법을 제공하고자 한다.
본 발명의 일 실시예는 클라우드 기반의 서비스를 활용한 학습 데이터의 전처리를 통해 중복된 전처리 작업 및 딥러닝 모델의 성능 저하를 예방하면서 딥러닝 서버에 계속적으로 다양한 학습 데이터를 제공하는 인공지능 수행을 위한 학습 데이터 생성장치 및 방법을 제공하고자 한다.
실시예들 중에서, 인공지능 수행을 위한 학습 데이터 생성장치는 데이터와 라벨을 포함하는 실제 학습 데이터를 입력받는 실제 학습 데이터 처리부, 상기 라벨을 기초로 상기 데이터를 변형하여 적어도 하나의 가상 데이터를 생성하는 가상 학습 데이터 증강부 및 상기 실제 학습 데이터 및 상기 적어도 하나의 가상 데이터와 상기 라벨을 맵핑(mapping)한 가상 학습 데이터를 학습 데이터로서 저장하는 학습 데이터 수집부를 포함한다.
인공지능 수행을 위한 학습 데이터 생성장치는 상기 학습 데이터 수집부와 상기 학습 데이터에서 필요한 만큼을 가져올 수 있도록 원격 호출기반으로 연결되고 상기 학습 데이터를 기초로 특정 목적을 위한 딥러닝을 수행하는 딥러닝 수행부를 더 포함할 수 있다.
상기 가상 학습 데이터 증강부는 각각은 상기 실제 학습 데이터의 입력을 검출하여 독자적인 데이터 증강 알고리즘을 통해 해당 가상 데이터를 생성하는 복수의 데이터 증강 모듈들을 포함할 수 있다.
상기 딥러닝 수행부는 상기 특정 목적에 따라 상기 독자적인 데이터 증강 알고리즘을 결정하여 해당 데이터 증강 모듈에 의해 생성된 가상 데이터를 가져올 수 있다.
상기 딥러닝 수행부는 상기 특정 목적에 따라 상기 독자적인 데이터 증강 알고리즘의 확률 분포를 결정하여 상기 확률 분포에 따른 가상 데이터를 가져올 수 있다.
상기 가상 학습 데이터 증강부는 각각이 상기 해당 가상 데이터에 관해 기준 인공지능 알고리즘을 통한 데이터 유효성 검증을 수행하여 유효 가상 데이터를 결정하는 복수의 데이터 유효성 검증 모듈들을 더 포함할 수 있다
상기 가상 학습 데이터 증강부는 상기 기준 인공지능 알고리즘을 해당 독자적인 데이터 증강 알고리즘에 따라 결정할 수 있다.
상기 복수의 데이터 증강 모듈들 각각은 상기 독자적인 데이터 증강 알고리즘의 수행 과정에서 서버리스 컨테이너를 생성하여 상기 해당 가상 데이터를 생성할 수 있다.
실시예들 중에서, 인공지능 수행을 위한 학습 데이터 생성방법은 데이터와 라벨을 포함하는 실제 학습 데이터를 입력받는 실제 학습 데이터 처리단계, 상기 라벨을 기초로 상기 데이터를 변형하여 적어도 하나의 가상 데이터를 생성하는 가상 학습 데이터 증강단계 및 상기 실제 학습 데이터 및 상기 적어도 하나의 가상 데이터와 상기 라벨을 맵핑한 가상 학습 데이터를 학습 데이터로서 저장하는 학습 데이터 수집단계를 포함한다.
개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명의 일 실시예에 따른 인공지능 수행을 위한 학습 데이터 생성장치 및 방법은 데이터 증강 작업의 중복을 피하고 학습을 위한 충분한 서버 자원을 확보하여 학습 성능을 향상시킬 수 있다.
본 발명의 일 실시예에 따른 인공지능 수행을 위한 학습 데이터 생성장치 및 방법은 딥러닝 모델링에 있어서 데이터 증강을 포함하는 데이터 전처리 서버와 실제 학습 서버를 분리하여 학습 서버의 부하를 줄이고 궁극적으로 딥러닝 학습 성능을 향상시킬 수 있다.
본 발명의 일 실시예에 따른 인공지능 수행을 위한 학습 데이터 생성장치 및 방법은 클라우드 기반의 서비스를 활용한 학습 데이터의 전처리를 통해 중복된 전처리 작업 및 딥러닝 모델의 성능 저하를 예방하면서 딥러닝 서버에 계속적으로 다양한 학습 데이터를 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 인공지능 수행을 위한 학습 데이터 생성 시스템을 나타내는 도면이다.
도 2는 도 1에 있는 인공지능 수행을 위한 학습 데이터 생성장치를 나타내는 블록도이다.
도 3은 도 2에 있는 가상 학습 데이터 증강부를 나타내는 구성도이다.
도 4는 도 2에 있는 인공지능 수행을 위한 학습 데이터 생성장치의 일 실시예에 따른 동작 과정을 보여주는 예시도이다.
도 5는 본 발명의 일 실시예에 따른 인공지능 수행을 위한 학습 데이터 생성방법을 나타내는 순서도이다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
도 1은 본 발명의 일 실시예에 따른 인공지능 수행을 위한 학습 데이터 생성 시스템을 나타내는 도면이다.
도 1을 참조하면, 인공지능 수행을 위한 학습 데이터 생성 시스템(100)은 인공지능 수행을 위한 학습 데이터 생성장치(110), 사용자 단말(120) 및 데이터베이스(130)를 포함할 수 있다.
인공지능 수행을 위한 학습 데이터 생성장치(110)는 인공지능 수행시 필요한 데이터 증강(또는 확장)(data augmentation)을 포함하는 데이터 전처리 과정을 실제 학습 서버(또는 모델링 서버)와 분리하여 클라우드 자원을 통해 수행하고, 이후 학습 서버에 전달할 수 있다. 이를 통해, 인공지능 수행을 위한 학습 데이터 생성장치(110)는 중복된 데이터 전처리 과정을 줄이고 학습에 필요한 모델링 서버의 부하를 감소시킬 수 있다.
인공지능 수행을 위한 학습 데이터 생성장치(110)는 사용자 단말(120)로부터 인공지능 수행을 위한 학습 데이터 생성 요청을 수신할 수 있고, 이러한 요청에 따라 인공지능 수행을 위한 학습 데이터를 생성하는 작업을 수행할 수 있다. 예를 들어, 인공지능 수행을 위한 학습 데이터 생성장치(110)는 분산 컴퓨팅 기반으로 동작되는 적어도 하나의 클라우드 서버에서 구현될 수 있다. 인공지능 수행을 위한 학습 데이터 생성장치(110)는 사용자 단말(120)과 유선 네트워크 또는 블루투스, WiFi 등과 같은 무선 네트워크로 연결될 수 있고, 유선 또는 무선 네트워크를 통해 사용자 단말(120)과 통신을 수행할 수 있다. 인공지능 수행을 위한 학습 데이터 생성장치(110)는 데이터베이스(130)와 연동하여 인공지능 수행을 위한 학습 데이터 생성과 관련된 적어도 하나의 클라우드 서버에 관한 CPU(Central Processing Unit), GPU(Graphics Processing Unit), TPU(Tensor Processing Units) 및 메모리를 포함하는 자원 정보를 저장할 수 있다. 한편, 인공지능 수행을 위한 학습 데이터 생성장치(110)는 도 1과 달리, 데이터베이스(130)를 내부에 데이터베이스 모듈로서 포함하여 구성될 수 있다.
사용자 단말(120)은 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 스마트폰, 태블릿 PC 등 다양한 디바이스로 구현될 수 있다.
데이터베이스(130)는 인공지능 수행을 위한 학습 데이터 생성장치(110)가 사용자 단말(120)로부터 수신한 인공지능 수행을 위한 학습 데이터 생성요청에 따라 가상 학습 데이터의 생성을 포함하는 다양한 형태의 데이터 전처리를 수행하기 위해 필요한 정보들을 저장할 수 있다. 예를 들어, 데이터베이스(130)는 학습 데이터를 생성하여 딥러닝을 수행하기 위해 필요한 데이터 셋의 양, 가용 서버 자원 또는 다양한 전처리 관련 정보들을 저장할 수 있으며, 반드시 이에 한정되지 않고, 충분한 서버 자원을 가지고 인공지능을 수행하기 위한 학습 데이터를 생성하는 과정에서 다양한 형태로 수집 또는 가공된 정보들을 저장할 수 있다. 일 실시예에서, 데이터베이스(130)는 학습에 필요한 데이터 셋을 저장하는 다양한 방식의 클라우드 기반 파일 저장소에 해당할 수 있다.
도 2는 도 1에 있는 인공지능 수행을 위한 학습 데이터 생성장치를 나타내는 블록도이다.
도 2를 참조하면, 인공지능 수행을 위한 학습 데이터 생성장치(110)는 실제 학습 데이터 처리부(210), 가상 학습 데이터 증강부(220), 학습 데이터 수집부(230), 딥러닝 수행부(240) 및 제어부(250)를 포함한다.
실제 학습 데이터 처리부(210)는 데이터와 라벨을 포함하는 실제 학습 데이터를 입력받을 수 있다. 여기에서, 실제 학습 데이터는 특정 학습에 활용될 수 있는 라벨링(labeling) 정보가 포함되어 있는 데이터에 해당할 수 있다. 일 실시예에서, 실제 학습 데이터 처리부(210)는 사용자가 사용자 단말(120)을 통해 데이터베이스(130)에 저장한 실제 학습 데이터를 입력받을 수 있다.
가상 학습 데이터 증강부(220)는 라벨을 기초로 데이터를 변형하여 적어도 하나의 가상 데이터를 생성할 수 있다. 여기에서, 라벨은 라벨링된 데이터에 주어져 있는 결과 값(또는 평가 값)을 의미할 수 있다. 딥러닝에서 지도학습(supervised learning)방법론을 사용할 때 데이터와 라벨을 가지고 학습을 수행한다. 일 실시예에서, 가상 학습 데이터 증강부(220)는 실제 학습 데이터를 기초로 데이터 증강(또는 확장)(data augmentation) 작업을 수행할 수 있다. 여기에서, 데이터 증강은 딥러닝 작업의 학습 단계에서 모델의 정확도를 높이기 위해 입력된 데이터 셋의 개수를 늘리고, 변종의 데이터에 대해서도 높은 정확도를 확보하기 위해 입력된 데이터를 변형하는 작업을 의미할 수 있다. 예를 들어, 가상 학습 데이터 증강부(220)는 해당 데이터(예를 들어, 특정 이미지)를 지시하는 라벨(예를 들어, 고양이)을 기초로 해당 데이터에 데이터 증강 작업을 수행하여 적어도 하나의 가상 데이터를 생성할 수 있다. 일 실시예에서, 가상 학습 데이터 증강부(220)는 복수의 데이터 증강 모듈(222)들을 포함할 수 있다. 여기에서, 복수의 데이터 증강 모듈(222)들은 각각 실제 학습 데이터의 입력을 검출하여 독자적인 데이터 증강 알고리즘을 통해 해당 가상 데이터를 생성할 수 있다. 보다 구체적으로, 가상 학습 데이터 증강부(220)는 각각 독자적인 데이터 증강 알고리즘을 가진 복수의 데이터 증강 모듈(222)들을 통해 실제 학습 데이터에서 복수의 가상 데이터를 생성할 수 있다. 예를 들어, 가상 학습 데이터 증강부(220)는 특정 이미지에 관한 실제 학습 데이터를 기초로 각각 이미지 반전 알고리즘, 이미지 확대/축소 알고리즘 또는 이미지 회전 알고리즘 등의 독자적인 데이터 증강 알고리즘을 수행하는 복수의 데이터 증강 모듈(220)을 통해 각각의 가상 데이터들을 생성할 수 있다.
일 실시예에서, 가상 학습 데이터 증강부(220)는 각각이 해당 가상 데이터에 관해 기준 인공지능 알고리즘을 통한 데이터 유효성 검증을 수행하여 유효 가상 데이터를 결정하는 복수의 데이터 유효성 검증 모듈(224)들을 더 포함할 수 있다. 여기에서, 기준 인공지능 알고리즘은 생성된 가상 데이터의 완성도를 분석하여 해당 가상 데이터의 해당 실제 학습 데이터로의 분류가 가능한지 여부를 판단하는 알고리즘에 해당할 수 있다. 보다 구체적으로, 데이터 유효성 검증 모듈(224)은 기준 인공지능 알고리즘을 기초로 해당 실제 학습 데이터에 대한 가상 데이터로 분류가 불가능한 특정 가상 데이터에 대해서 유효 가상 데이터로 결정하지 않을 수 있다. 예를 들어, 데이터 유효성 검증 모듈(224)은 특정 이미지에 관한 실제 학습 데이터를 기초로 이미지 크기를 변형한 가상 데이터의 이미지 크기가 기준 인공지능 알고리즘을 기초로 너무 크거나 너무 작은 경우에는 해당 가상 데이터를 유효 가상 데이터에서 제외할 수 있다. 일 실시예에서, 가상 학습 데이터 증강부(220)는 데이터 유효성 검증 모듈(224)을 통해 기준 인공지능 알고리즘을 기초로 적절하게 가상 데이터를 분류할 수 있는 경우에는 데이터 유효성이 적절한 것으로 판단할 수 있다. 일 실시예에서, 가상 학습 데이터 증강부(220)는 기준 인공지능 알고리즘을 해당 독자적인 데이터 증강 알고리즘에 따라 결정할 수 있다. 즉, 가상 학습 데이터 증강부(220)는 복수의 데이터 증강 모듈(222)들에 대해서 기준 인공지능 알고리즘을 각각 다르게 결정할 수 있다. 보다 구체적으로, 가상 학습 데이터 증강부(220)는 복수의 데이터 증강 모듈(222)들이 각각 가지는 독자적인 데이터 증강 알고리즘들에 대해서 적합한 기준 인공지능 알고리즘을 각각 결정할 수 있다. 예를 들어, 가상 학습 데이터 증강부(220)는 특정 이미지에 관한 실제 학습 데이터에 대해서 데이터 증강 알고리즘이 이미지의 선명도를 조절하는 방식으로 동작한다면, 기준 인공지능 알고리즘은 조절된 선명도에 따라서 이미지를 분간할 수 있는지 여부를 확인하기 위한 것으로 결정될 수 있다.
일 실시예에서, 복수의 데이터 증강 모듈들(222) 각각은 독자적인 데이터 증강 알고리즘의 수행 과정에서 서버리스(serverless) 컨테이너를 생성하여 해당 가상 데이터를 생성할 수 있다. 여기에서, 서버리스는 서버 관리 측면을 클라우드 제공자에게 일임하여 개발자는 개발에만 집중할 수 있는 컴퓨팅 환경을 의미할 수 있고, 컨테이너는 리소스 격리 프로세스에서 어플리케이션과 종속 항목을 실행하게 해주는 운영 시스템 가상화 방법에 해당할 수 있다. 컨테이너는 어플리케이션의 코드, 구성 및 종속성을 하나의 객체로 패키징하는 표준화된 방식을 제공할 수 있다. 서버리스 컨테이너는 서버리스 컴퓨팅과 컨테이너 기술을 통합한 개념으로 컨테이너 기반의 서버리스 컴퓨팅 환경에 해당할 수 있다. 보다 구체적으로, 복수의 데이터 증강 모듈들(222) 각각은 사용자가 서버 관리를 하지않고 컨테이너를 실행할 수 있는 서버리스 컨테이너를 통해 가상 데이터를 생성할 수 있다.
학습 데이터 수집부(230)는 실제 학습 데이터 및 적어도 하나의 가상 데이터와 라벨을 맵핑(mapping)한 가상 학습 데이터를 학습 데이터로서 저장할 수 있다. 보다 구체적으로, 학습 데이터 수집부(230)는 데이터와 라벨을 포함하는 실제 학습 데이터 및 복수의 가상 데이터들 중 유효 데이터로 검증된 적어도 하나의 가상 데이터에 적합한 라벨을 맵핑(mapping)한 가상 학습 데이터를 생성하고, 학습 데이터로서 저장할 수 있다. 일 실시예에서, 학습 데이터 수집부(230)는 생성된 학습 데이터를 저장하는 과정에서 데이터베이스 모듈로 구현될 수 있고 또는, 별도의 데이터베이스(130)에 학습 데이터를 저장할 수 있다. 예를 들어, 데이터 수집부(230)는 key-value 스토어에 해당할 수 있다. 학습 데이터 수집부(230)는 저장된 학습 데이터를 딥러닝 수행부(240)로 전달하여 학습 또는 모델링에 활용할 수 있다.
딥러닝 수행부(240)는 학습 데이터 수집부(230)와 학습 데이터에서 필요한 만큼을 가져올 수 있도록 원격 호출 기반으로 연결될 수 있다. 일 실시예에서, 딥러닝 수행부(240)는 실제 학습 데이터를 기초로 데이터 증강을 포함하는 데이터 변형을 수행하여 학습 데이터를 수집하는 데이터 증강 서버(20)와 분리되어 별도의 서버로 구성될 수 있다. 여기에서, 데이터 증강 서버(20)는 클라우드 서버에 해당할 수 있다. 예를 들어, 딥러닝 수행부(240)는 학습 데이터 수집부(230)와 Rest(Representational State Transfer) API(Application Program Interface)를 통해 연결될 수 있다. 여기에서, Rest API는 Rest 기반으로 서비스API를 구현한 것을 의미할 수 있고, Rest는 인터넷 상의 컴퓨터 시스템간 상호 운용성을 제공하는 하나의 방법에 해당할 수 있다. 일 실시예에서, 딥러닝 수행부(240)는 학습 데이터를 기초로 이미지 또는 영상을 생성하는 등의 특정 목적을 위한 딥러닝을 수행할 수 있다. 예를 들어, 딥러닝 수행부(240)는 특정 모델링 작업을 수행하는 서버에 해당할 수 있다. 일 실시예에서, 딥러닝 수행부(240)는 특정 목적에 따라 독자적인 데이터 증강 알고리즘을 결정하여 해당 데이터 증강 모듈에 의해 생성된 가상 데이터를 가져올 수 있다. 예를 들어, 딥러닝 수행부(240)는 특정 이미지에 대한 크기 보정을 목적으로 하는 딥러닝을 수행하는 과정에서 이미지 크기 보정 알고리즘을 결정하고 해당 데이터 증강 모듈에 의해 생성된 가상 데이터를 가져올 수 있다. 일 실시예에서, 딥러닝 수행부(240)는 특정 목적에 따라 독자적인 데이터 증강 알고리즘의 확률 분포를 결정하여 확률 분포에 따른 가상 데이터를 가져올 수 있다. 보다 구체적으로, 딥러닝 수행부(240)는 복수의 데이터 증강 모듈들의 복수의 독자적인 데이터 증강 알고리즘들에 대해서 확률 분포를 각각 다르게 결정하고 확률 분포에 따라 가상 데이터를 가져올 수 있다. 예를 들어, 딥러닝 수행부(240)는 특정 이미지를 생성하는 목적의 모델링을 수행하는 경우, 이미지 윤곽 조절 알고리즘에 대해서 높은 확률을 부여하고 기타 텍스트 조절 알고리즘 등에 대해서 낮은 확률을 부여할 수 있고, 이에 따라 결정된 가상 데이터를 가져올 수 있다.
제어부(250)는 인공지능 수행을 위한 학습 데이터 생성장치(110)의 동작 전반을 제어할 수 있고, 실제 학습 데이터 처리부(210), 가상 학습 데이터 증강부(220) 및 학습 데이터 수집부(230)간의 데이터 흐름을 제어할 수 있다.
도 3은 도 2에 있는 가상 학습 데이터 증강부를 나타내는 구성도이다.
도 3을 참조하면, 가상 학습 데이터 증강부(220)는 복수의 데이터 증강 모듈들(222) 및 복수의 데이터 유효성 검증 모듈들(224)을 포함할 수 있다.
복수의 데이터 증강 모듈들(222)은 각각 독자적인 데이터 증강 알고리즘을 가지고, 실제 학습 데이터가 입력되면 해당 가상 데이터를 생성할 수 있다. 예를 들어, 복수의 데이터 증강 모듈들(222)은 각각 이미지 회전 알고리즘 또는 이미지 크기 조절 알고리즘 등을 가지고 각각 해당 회전 이미지 데이터 또는 조절된 크기를 가지는 이미지 데이터 등을 생성할 수 있다.
복수의 데이터 유효성 검증 모듈들(224)은 각각 기준 인공지능 알고리즘을 가지고, 복수의 데이터 증강 모듈들(222)에 의해 생성된 가상 데이터에 관해 데이터 유효성 검증을 수행하여 유효 가상 데이터를 결정할 수 있다. 일 실시예에서, 복수의 데이터 유효성 검증 모듈들(224)은 독자적인 데이터 증강 알고리즘에 따라 기준 인공지능 알고리즘을 각각 결정할 수 있다. 예를 들어, 복수의 데이터 유효성 검증 모듈들(224)은 이미지 윤곽선 조절 알고리즘을 통해 생성된 가상 데이터에 대해서 기준 인공지능 알고리즘을 이미지의 윤곽선을 추출할 수 있는지 여부를 통해 데이터 유효성을 검증하는 것으로 결정할 수 있다. 가상 학습 데이터 증강부(220)는 복수의 데이터 증강 모듈들(222)과 복수의 데이터 유효성 검증 모듈들(224)을 통해 실제 학습 데이터를 변형하고 검증하여 적어도 하나의 유효 가상 데이터를 생성할 수 있다.
도 4는 도 2에 있는 인공지능 수행을 위한 학습 데이터 생성장치의 일 실시예에 따른 동작 과정을 보여주는 예시도이다.
도 4에서, 실제 학습 데이터 처리부(210)는 사용자에 의해 클라우드 기반 데이터베이스에 업로드되고 학습에 활용될 라벨링 정보가 포함된 데이터 셋을 입력받을 수 있다(단계 1).
가상 학습 데이터 증강부(220)는 사용자 파일 업로드 이벤트가 발생하면 컨테이너 기반 서버리스 플랫폼(serverless platform)에서 입력 자료를 순차적으로 다운로드 받아서 다양한 데이터 증강(augmentation)작업을 실행할 수 있다(단계 2). 여기에서, 서버리스 플랫폼은 서버리스 컴퓨팅을 수행하는 환경을 의미할 수 있다. 상기한 바와 같이, 서버리스 컴퓨팅은 클라우드 컴퓨팅 실행 모델의 하나로서 물리적 서버가 없는 형태가 아니고, 클라우드 제공자에 의해 동적으로 머신 자원의 할당이 관리되어 사용자 관점에서 서버 관리가 필요없는 IT 인프라 아키텍쳐에 해당할 수 있다. 일 실시예에서, 가상 학습 데이터 증강부(220)는 CPU(Central Processing Unit) 기반의 컨테이너뿐만 아니라 작업의 특성에 따라서 GPU(Graphics Processing Unit)기반의 컨테이너를 활용하여 데이터 증강 작업을 수행할 수 있다. 데이터 증강(또는 확장) 작업은 서비스에서 기본으로 제공되는 작업이외에도, 사용자 정의 함수를 지정하여 서버리스 플랫폼에 등록할 수 있다. 가상 학습 데이터 증강부(220)는 사용자 정의 함수에 의해 여러 컨테이너 기반의 서버리스 플랫폼 인스턴스가 개별적으로 동작하더라도, 취합한 전체 결과물은 사용자가 의도한 확률분포를 가지는 데이터 증강 결과가 나오도록 동작할 수 있다.
학습 데이터 수집부(230)는 서버리스 플랫폼에서 완료된 데이터 증강 결과물을 읽기에 최적화된 클라우드 기반 key-value store(KVS, 또는 key-value database)에 저장할 수 있다(단계 3). 여기에서, key-value store는 key와 value의 집합을 기입하고, key를 지정함으로써 value를 판독할 수 있는 데이터 베이스 관리 방식에 해당할 수 있다.
딥러닝 수행부(240)는 key-value store에 저장된 데이터 증강 작업이 완료된 결과물을 HTTP(HyperText Transfer Protocol) 기반의 RestAPI를 통하여 전달받아, 별도의 서버에서 모델링 작업 등을 수행할 수 있다(단계 4).
도 5는 본 발명의 일 실시예에 따른 인공지능 수행을 위한 학습 데이터 생성방법을 나타내는 순서도이다.
도 5에서, 인공지능 수행을 위한 학습 데이터 생성장치(110)는 실제 학습 데이터 처리부(210)를 통해 데이터와 라벨을 포함하는 실제 학습 데이터를 입력받을 수 있다(단계 S510).
인공지능 수행을 위한 학습 데이터 생성장치(110)는 가상 학습 데이터 증강부(220)를 통해 라벨을 기초로 데이터를 변형하여 적어도 하나의 가상 데이터를 생성할 수 있다(단계 S520). 보다 구체적으로, 가상 학습 데이터 증강부(220)는 복수의 데이터 증강 모듈들(222)을 통해 적어도 하나의 독자적인 데이터 증강 알고리즘에 따라 적어도 하나의 가상 데이터를 생성할 수 있다.
인공지능 수행을 위한 학습 데이터 생성장치(110)는 학습 데이터 수집부(230)를 통해 실제 학습 데이터 및 적어도 하나의 가상 데이터와 라벨을 맵핑한 가상 학습 데이터를 학습 데이터로서 저장할 수 있다(단계 S530).
인공지능 수행을 위한 학습 데이터 생성장치(110)는 학습 데이터 수집부(230)와 학습 데이터에서 필요한 만큼을 가져올 수 있도록 원격 호출 기반으로 연결된 딥러닝 수행부(240)를 통해서 학습 데이터를 기초로 특정 목적을 위한 딥러닝을 수행할 수 있다(단계 S540). 일 실시예에서, 인공지능 수행을 위한 학습 데이터 생성장치(110)는 학습 데이터를 생성하는 데이터 증강 서버(20)와 딥러닝을 수행하는 서버를 분리하여 학습에 필요한 충분한 자원을 확보하고 더불어, 중복되는 데이터 증강 작업을 줄일 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
20: 데이터 증강 서버
100: 인공지능 수행을 위한 학습 데이터 생성 시스템
110: 인공지능 수행을 위한 학습 데이터 생성장치
120: 사용자 단말
130: 데이터베이스
210: 실제 학습 데이터 처리부 220: 가상 학습 데이터 증강부
222: 복수의 데이터 증강 모듈들
224: 복수의 데이터 유효성 검증 모듈들
230: 학습 데이터 수집부
240: 딥러닝 수행부
250: 제어부

Claims (9)

  1. 데이터와 라벨을 포함하는 실제 학습 데이터를 입력받는 실제 학습 데이터 처리부;
    상기 라벨을 기초로 상기 데이터를 변형하여 적어도 하나의 가상 데이터를 생성하는 가상 학습 데이터 증강부; 및
    상기 실제 학습 데이터 및 상기 적어도 하나의 가상 데이터와 상기 라벨을 맵핑(mapping)한 가상 학습 데이터를 학습 데이터로서 저장하는 학습 데이터 수집부를 포함하는 인공지능 수행을 위한 학습 데이터 생성장치.
  2. 제1항에 있어서,
    상기 학습 데이터 수집부와 상기 학습 데이터에서 필요한 만큼을 가져올 수 있도록 원격 호출기반으로 연결되고 상기 학습 데이터를 기초로 특정 목적을 위한 딥러닝을 수행하는 딥러닝 수행부를 더 포함하는 것을 특징으로 하는 인공지능 수행을 위한 학습 데이터 생성장치.
  3. 제1항에 있어서, 상기 가상 학습 데이터 증강부는
    각각은 상기 실제 학습 데이터의 입력을 검출하여 독자적인 데이터 증강 알고리즘을 통해 해당 가상 데이터를 생성하는 복수의 데이터 증강 모듈들을 포함하는 것을 특징으로 하는 인공지능 수행을 위한 학습 데이터 생성장치.
  4. 제3항에 있어서,
    상기 학습 데이터를 기초로 특정 목적을 위한 딥러닝을 수행하는 딥러닝 수행부를 더 포함하고,
    상기 딥러닝 수행부는
    상기 특정 목적에 따라 상기 독자적인 데이터 증강 알고리즘을 결정하여 해당 데이터 증강 모듈에 의해 생성된 가상 데이터를 가져오는 것을 특징으로 하는 인공지능 수행을 위한 학습 데이터 생성장치.
  5. 제4항에 있어서, 상기 딥러닝 수행부는
    상기 특정 목적에 따라 상기 독자적인 데이터 증강 알고리즘의 확률 분포를 결정하여 상기 확률 분포에 따른 가상 데이터를 가져오는 것을 특징으로 하는 인공지능 수행을 위한 학습 데이터 생성장치.
  6. 제3항에 있어서, 상기 가상 학습 데이터 증강부는
    각각이 상기 해당 가상 데이터에 관해 기준 인공지능 알고리즘을 통한 데이터 유효성 검증을 수행하여 유효 가상 데이터를 결정하는 복수의 데이터 유효성 검증 모듈들을 더 포함하는 것을 특징으로 하는 인공지능 수행을 위한 학습 데이터 생성장치.
  7. 제6항에 있어서, 상기 가상 학습 데이터 증강부는
    상기 기준 인공지능 알고리즘을 해당 독자적인 데이터 증강 알고리즘에 따라 결정하는 것을 특징으로 하는 인공지능 수행을 위한 학습 데이터 생성장치.
  8. 제3항에 있어서, 상기 복수의 데이터 증강 모듈들 각각은
    상기 독자적인 데이터 증강 알고리즘의 수행 과정에서 서버리스 컨테이너를 생성하여 상기 해당 가상 데이터를 생성하는 것을 특징으로 하는 인공지능 수행을 위한 학습 데이터 생성장치.
  9. 데이터와 라벨을 포함하는 실제 학습 데이터를 입력받는 실제 학습 데이터 처리단계;
    상기 라벨을 기초로 상기 데이터를 변형하여 적어도 하나의 가상 데이터를 생성하는 가상 학습 데이터 증강단계; 및
    상기 실제 학습 데이터 및 상기 적어도 하나의 가상 데이터와 상기 라벨을 맵핑한 가상 학습 데이터를 학습 데이터로서 저장하는 학습 데이터 수집단계를 포함하는 인공지능 수행을 위한 학습 데이터 생성방법.
KR1020180147383A 2018-11-26 2018-11-26 인공지능 수행을 위한 학습 데이터 생성장치 및 방법 KR102225822B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180147383A KR102225822B1 (ko) 2018-11-26 2018-11-26 인공지능 수행을 위한 학습 데이터 생성장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180147383A KR102225822B1 (ko) 2018-11-26 2018-11-26 인공지능 수행을 위한 학습 데이터 생성장치 및 방법

Publications (2)

Publication Number Publication Date
KR20200068050A true KR20200068050A (ko) 2020-06-15
KR102225822B1 KR102225822B1 (ko) 2021-03-10

Family

ID=71081790

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180147383A KR102225822B1 (ko) 2018-11-26 2018-11-26 인공지능 수행을 위한 학습 데이터 생성장치 및 방법

Country Status (1)

Country Link
KR (1) KR102225822B1 (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102247179B1 (ko) * 2020-12-18 2021-05-04 주식회사 이글루시큐리티 이상행위탐지모델의 비지도 학습을 위한 xai 기반 정상학습데이터 생성방법 및 장치
KR102320958B1 (ko) * 2021-06-09 2021-11-02 현대엔지니어링 주식회사 데이터 증강 기반 인공지능을 이용한 n치 예측 장치 및 방법
KR20220049421A (ko) 2020-10-14 2022-04-21 삼성에스디에스 주식회사 데이터 증강 기법 스케줄링 장치 및 방법
KR20220079209A (ko) 2020-12-04 2022-06-13 동의대학교 산학협력단 회전장치를 이용한 딥러닝 cms 데이터셋 구축을 위한 장치 및 방법
KR20220097862A (ko) * 2020-11-11 2022-07-08 주식회사 유토비즈 확장현실을 이용한 딥러닝 의료 처치 시스템
KR20220135890A (ko) * 2021-03-31 2022-10-07 한국전자기술연구원 인공지능 객체인식 모델을 위한 가상환경 기반 데이터 수집 방법 및 시스템
KR102469710B1 (ko) 2021-12-27 2022-11-22 주식회사 딥노이드 인공신경망을 학습시키기 위한 학습 데이터를 생성하기 위한 장치 및 이를 위한 방법
KR102489448B1 (ko) * 2022-07-05 2023-01-18 주식회사 뷰이 데이터 라벨링 서비스를 제공하기 위한 시스템
KR102636220B1 (ko) * 2023-07-13 2024-02-14 오케스트로 주식회사 이상탐지의 클라우드 서비스 제공 서버 및 제공 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102375547B1 (ko) 2021-11-02 2022-03-17 주식회사 스누아이랩 준지도학습 인공지능장치 및 그 장치의 구동방법
KR20230081294A (ko) * 2021-11-30 2023-06-07 엘지이노텍 주식회사 신경망의 학습 방법, 인공지능 장치 및 컴퓨터 판독 가능 저장매체에 저장된 컴퓨터 프로그램
KR102636217B1 (ko) 2023-04-14 2024-02-14 고려대학교산학협력단 가중 국소변환을 이용한 3차원 데이터 증강 방법 및 이를 위한 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070060862A (ko) 2005-12-09 2007-06-13 한국전자통신연구원 학습 데이터 구축 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070060862A (ko) 2005-12-09 2007-06-13 한국전자통신연구원 학습 데이터 구축 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Kwon, JungHyun, et al. "Issue Tracking-Based Test Data Augmentation for Web Services." International Workshop on ICT. IPSJ, SES/KISE, APTKOM, (2013.12.12. 공개)* *
Taylor, Luke, and Geoff Nitschke. "Improving deep learning using generic data augmentation." arXiv:1708.06020 (2017.08.20. 공개).* *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220049421A (ko) 2020-10-14 2022-04-21 삼성에스디에스 주식회사 데이터 증강 기법 스케줄링 장치 및 방법
KR20220097862A (ko) * 2020-11-11 2022-07-08 주식회사 유토비즈 확장현실을 이용한 딥러닝 의료 처치 시스템
KR20220079209A (ko) 2020-12-04 2022-06-13 동의대학교 산학협력단 회전장치를 이용한 딥러닝 cms 데이터셋 구축을 위한 장치 및 방법
KR102247179B1 (ko) * 2020-12-18 2021-05-04 주식회사 이글루시큐리티 이상행위탐지모델의 비지도 학습을 위한 xai 기반 정상학습데이터 생성방법 및 장치
KR20220135890A (ko) * 2021-03-31 2022-10-07 한국전자기술연구원 인공지능 객체인식 모델을 위한 가상환경 기반 데이터 수집 방법 및 시스템
KR102320958B1 (ko) * 2021-06-09 2021-11-02 현대엔지니어링 주식회사 데이터 증강 기반 인공지능을 이용한 n치 예측 장치 및 방법
WO2022260227A1 (ko) * 2021-06-09 2022-12-15 현대엔지니어링 주식회사 데이터 증강 기반 인공지능을 이용한 n치 예측 장치 및 방법
KR102469710B1 (ko) 2021-12-27 2022-11-22 주식회사 딥노이드 인공신경망을 학습시키기 위한 학습 데이터를 생성하기 위한 장치 및 이를 위한 방법
KR102489448B1 (ko) * 2022-07-05 2023-01-18 주식회사 뷰이 데이터 라벨링 서비스를 제공하기 위한 시스템
KR102636220B1 (ko) * 2023-07-13 2024-02-14 오케스트로 주식회사 이상탐지의 클라우드 서비스 제공 서버 및 제공 방법

Also Published As

Publication number Publication date
KR102225822B1 (ko) 2021-03-10

Similar Documents

Publication Publication Date Title
KR102225822B1 (ko) 인공지능 수행을 위한 학습 데이터 생성장치 및 방법
US11128668B2 (en) Hybrid network infrastructure management
US10726335B2 (en) Generating compressed representation neural networks having high degree of accuracy
EP3752962A1 (en) Application development platform and software development kits that provide comprehensive machine learning services
WO2018217635A1 (en) Application development platform and software development kits that provide comprehensive machine learning services
US10762678B2 (en) Representing an immersive content feed using extended reality based on relevancy
US11429434B2 (en) Elastic execution of machine learning workloads using application based profiling
US11373117B1 (en) Artificial intelligence service for scalable classification using features of unlabeled data and class descriptors
CN102929646B (zh) 应用程序生成方法及装置
CN110249312B (zh) 用于将数据集成作业从源框架转换到目标框架的方法和系统
CN108549909B (zh) 基于众包的对象分类方法及对象分类系统
WO2021189960A1 (zh) 对抗网络训练、医疗数据补充方法、装置、设备及介质
WO2020000689A1 (zh) 基于迁移学习的智能投顾策略生成方法及装置、电子设备、存储介质
KR20210015531A (ko) 뉴럴 네트워크 모델을 업데이트하는 방법 및 시스템
WO2023226947A1 (zh) 端云协同推荐系统、方法以及电子设备
US20210294600A1 (en) Automated transformation of applications to a target computing environment
CN115358404A (zh) 基于机器学习模型推理的数据处理方法、装置及设备
US20210021479A1 (en) Provisioning infrastructure from visual diagrams
CN110888972A (zh) 一种基于Spark Streaming的敏感内容识别方法及装置
CN114691953A (zh) 结合大数据的沉浸式交互偏好挖掘方法及系统
US20220292390A1 (en) Uniform artificial intelligence model conversion
US11409564B2 (en) Resource allocation for tuning hyperparameters of large-scale deep learning workloads
CN112230911B (zh) 模型部署方法、装置、计算机设备和存储介质
US20220004904A1 (en) Deepfake detection models utilizing subject-specific libraries
US20220269531A1 (en) Optimization of Workload Scheduling in a Distributed Shared Resource Environment

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant