KR20200068050A

KR20200068050A - 인공지능 수행을 위한 학습 데이터 생성장치 및 방법

Info

Publication number: KR20200068050A
Application number: KR1020180147383A
Authority: KR
Inventors: 이경용; 김준호
Original assignee: 국민대학교산학협력단
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2020-06-15
Also published as: KR102225822B1

Abstract

본 발명은 인공지능 수행을 위한 학습 데이터 생성장치에 관한 것으로, 데이터와 라벨을 포함하는 실제 학습 데이터를 입력받는 실제 학습 데이터 처리부, 상기 라벨을 기초로 상기 데이터를 변형하여 적어도 하나의 가상 데이터를 생성하는 가상 학습 데이터 증강부 및 상기 실제 학습 데이터 및 상기 적어도 하나의 가상 데이터와 상기 라벨을 맵핑(mapping)한 가상 학습 데이터를 학습 데이터로서 저장하는 학습 데이터 수집부를 포함한다. 따라서, 본 발명은 데이터 증강 작업의 중복을 피하고 모델링 작업 서버의 부하를 감소시켜 궁극적으로는 딥러닝 모델의 성능을 향상시킬 수 있다.

Description

인공지능 수행을 위한 학습 데이터 생성장치 및 방법 {APPARATUS AND METHOD FOR GENERATING LEARNING DATA FOR ARTIFICIAL INTELLIGENCE PERFORMANCE}

본 발명은 인공지능 수행을 위한 학습 데이터 생성 기술에 관한 것으로, 보다 상세하게는 데이터 증강 작업의 중복을 피하고 모델링 작업 서버의 부하를 감소시켜 궁극적으로는 딥러닝 모델의 성능을 향상시킬 수 있는 인공지능 수행을 위한 학습 데이터 생성장치 및 방법에 관한 것이다.

딥러닝 작업의 학습 단계에서 모델의 정확도를 높이기 위하여 입력으로 주어진 데이터 셋의 개수를 늘리고, 변종의 데이터에 대해서도 높은 정확도를 확보하기 위하여, 입력 데이터셋에 약간의 변화를 가해주는 augmentation(데이터 증강) 작업이 필요로 하게 된다 (image flip, image rotation, image scale, image crop, translation of x, y coordinate, adding noise 등). 이러한 augmentation 작업은 일반적으로 딥러닝 학습이 일어나는 서버에서 일어나게 되며, 이는 제한된 작업서버의 자원들 (CPU, 메모리)을 학습 단계와 augmentation 단계에서 공유를 하여 학습 성능에 영향을 미칠 수 있다. 또한 입력 자료의 크기가 클 경우에는 모든 입력 자료들의 augmentation 한 결과가 메모리에 존재할 수 없기에, 같은 데이터 셋에 대해서도 중복적인 augmentation 작업이 발생할 수 있다. 본 발명에서는 확장성이 뛰어난 클라우드 기반 서비스를 활용하여 augmentation 작업에 의한 딥러닝 모델의 작업의 성능 저하와 중복된 augmentation 작업을 예방하는 내용을 제안한다.

한국공개특허 제10-2007-0060862 (2007.06.13)호

본 발명의 일 실시예는 데이터 증강 작업의 중복을 피하고 학습을 위한 충분한 서버 자원을 확보하여 학습 성능을 향상시키는 인공지능 수행을 위한 학습 데이터 생성장치 및 방법을 제공하고자 한다.

본 발명의 일 실시예는 딥러닝 모델링에 있어서 데이터 증강 작업을 포함하는 데이터 전처리 서버와 실제 학습 서버를 분리하여 학습 서버의 부하를 줄이고 궁극적으로 딥러닝 성능을 향상시키는 인공지능 수행을 위한 학습 데이터 생성장치 및 방법을 제공하고자 한다.

본 발명의 일 실시예는 클라우드 기반의 서비스를 활용한 학습 데이터의 전처리를 통해 중복된 전처리 작업 및 딥러닝 모델의 성능 저하를 예방하면서 딥러닝 서버에 계속적으로 다양한 학습 데이터를 제공하는 인공지능 수행을 위한 학습 데이터 생성장치 및 방법을 제공하고자 한다.

실시예들 중에서, 인공지능 수행을 위한 학습 데이터 생성장치는 데이터와 라벨을 포함하는 실제 학습 데이터를 입력받는 실제 학습 데이터 처리부, 상기 라벨을 기초로 상기 데이터를 변형하여 적어도 하나의 가상 데이터를 생성하는 가상 학습 데이터 증강부 및 상기 실제 학습 데이터 및 상기 적어도 하나의 가상 데이터와 상기 라벨을 맵핑(mapping)한 가상 학습 데이터를 학습 데이터로서 저장하는 학습 데이터 수집부를 포함한다.

인공지능 수행을 위한 학습 데이터 생성장치는 상기 학습 데이터 수집부와 상기 학습 데이터에서 필요한 만큼을 가져올 수 있도록 원격 호출기반으로 연결되고 상기 학습 데이터를 기초로 특정 목적을 위한 딥러닝을 수행하는 딥러닝 수행부를 더 포함할 수 있다.

상기 가상 학습 데이터 증강부는 각각은 상기 실제 학습 데이터의 입력을 검출하여 독자적인 데이터 증강 알고리즘을 통해 해당 가상 데이터를 생성하는 복수의 데이터 증강 모듈들을 포함할 수 있다.

상기 딥러닝 수행부는 상기 특정 목적에 따라 상기 독자적인 데이터 증강 알고리즘을 결정하여 해당 데이터 증강 모듈에 의해 생성된 가상 데이터를 가져올 수 있다.

상기 딥러닝 수행부는 상기 특정 목적에 따라 상기 독자적인 데이터 증강 알고리즘의 확률 분포를 결정하여 상기 확률 분포에 따른 가상 데이터를 가져올 수 있다.

상기 가상 학습 데이터 증강부는 각각이 상기 해당 가상 데이터에 관해 기준 인공지능 알고리즘을 통한 데이터 유효성 검증을 수행하여 유효 가상 데이터를 결정하는 복수의 데이터 유효성 검증 모듈들을 더 포함할 수 있다

상기 가상 학습 데이터 증강부는 상기 기준 인공지능 알고리즘을 해당 독자적인 데이터 증강 알고리즘에 따라 결정할 수 있다.

상기 복수의 데이터 증강 모듈들 각각은 상기 독자적인 데이터 증강 알고리즘의 수행 과정에서 서버리스 컨테이너를 생성하여 상기 해당 가상 데이터를 생성할 수 있다.

실시예들 중에서, 인공지능 수행을 위한 학습 데이터 생성방법은 데이터와 라벨을 포함하는 실제 학습 데이터를 입력받는 실제 학습 데이터 처리단계, 상기 라벨을 기초로 상기 데이터를 변형하여 적어도 하나의 가상 데이터를 생성하는 가상 학습 데이터 증강단계 및 상기 실제 학습 데이터 및 상기 적어도 하나의 가상 데이터와 상기 라벨을 맵핑한 가상 학습 데이터를 학습 데이터로서 저장하는 학습 데이터 수집단계를 포함한다.

개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

본 발명의 일 실시예에 따른 인공지능 수행을 위한 학습 데이터 생성장치 및 방법은 데이터 증강 작업의 중복을 피하고 학습을 위한 충분한 서버 자원을 확보하여 학습 성능을 향상시킬 수 있다.

본 발명의 일 실시예에 따른 인공지능 수행을 위한 학습 데이터 생성장치 및 방법은 딥러닝 모델링에 있어서 데이터 증강을 포함하는 데이터 전처리 서버와 실제 학습 서버를 분리하여 학습 서버의 부하를 줄이고 궁극적으로 딥러닝 학습 성능을 향상시킬 수 있다.

본 발명의 일 실시예에 따른 인공지능 수행을 위한 학습 데이터 생성장치 및 방법은 클라우드 기반의 서비스를 활용한 학습 데이터의 전처리를 통해 중복된 전처리 작업 및 딥러닝 모델의 성능 저하를 예방하면서 딥러닝 서버에 계속적으로 다양한 학습 데이터를 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 인공지능 수행을 위한 학습 데이터 생성 시스템을 나타내는 도면이다.
도 2는 도 1에 있는 인공지능 수행을 위한 학습 데이터 생성장치를 나타내는 블록도이다.
도 3은 도 2에 있는 가상 학습 데이터 증강부를 나타내는 구성도이다.
도 4는 도 2에 있는 인공지능 수행을 위한 학습 데이터 생성장치의 일 실시예에 따른 동작 과정을 보여주는 예시도이다.
도 5는 본 발명의 일 실시예에 따른 인공지능 수행을 위한 학습 데이터 생성방법을 나타내는 순서도이다.

본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.

도 1은 본 발명의 일 실시예에 따른 인공지능 수행을 위한 학습 데이터 생성 시스템을 나타내는 도면이다.

도 1을 참조하면, 인공지능 수행을 위한 학습 데이터 생성 시스템(100)은 인공지능 수행을 위한 학습 데이터 생성장치(110), 사용자 단말(120) 및 데이터베이스(130)를 포함할 수 있다.

인공지능 수행을 위한 학습 데이터 생성장치(110)는 인공지능 수행시 필요한 데이터 증강(또는 확장)(data augmentation)을 포함하는 데이터 전처리 과정을 실제 학습 서버(또는 모델링 서버)와 분리하여 클라우드 자원을 통해 수행하고, 이후 학습 서버에 전달할 수 있다. 이를 통해, 인공지능 수행을 위한 학습 데이터 생성장치(110)는 중복된 데이터 전처리 과정을 줄이고 학습에 필요한 모델링 서버의 부하를 감소시킬 수 있다.

인공지능 수행을 위한 학습 데이터 생성장치(110)는 사용자 단말(120)로부터 인공지능 수행을 위한 학습 데이터 생성 요청을 수신할 수 있고, 이러한 요청에 따라 인공지능 수행을 위한 학습 데이터를 생성하는 작업을 수행할 수 있다. 예를 들어, 인공지능 수행을 위한 학습 데이터 생성장치(110)는 분산 컴퓨팅 기반으로 동작되는 적어도 하나의 클라우드 서버에서 구현될 수 있다. 인공지능 수행을 위한 학습 데이터 생성장치(110)는 사용자 단말(120)과 유선 네트워크 또는 블루투스, WiFi 등과 같은 무선 네트워크로 연결될 수 있고, 유선 또는 무선 네트워크를 통해 사용자 단말(120)과 통신을 수행할 수 있다. 인공지능 수행을 위한 학습 데이터 생성장치(110)는 데이터베이스(130)와 연동하여 인공지능 수행을 위한 학습 데이터 생성과 관련된 적어도 하나의 클라우드 서버에 관한 CPU(Central Processing Unit), GPU(Graphics Processing Unit), TPU(Tensor Processing Units) 및 메모리를 포함하는 자원 정보를 저장할 수 있다. 한편, 인공지능 수행을 위한 학습 데이터 생성장치(110)는 도 1과 달리, 데이터베이스(130)를 내부에 데이터베이스 모듈로서 포함하여 구성될 수 있다.

사용자 단말(120)은 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 스마트폰, 태블릿 PC 등 다양한 디바이스로 구현될 수 있다.

데이터베이스(130)는 인공지능 수행을 위한 학습 데이터 생성장치(110)가 사용자 단말(120)로부터 수신한 인공지능 수행을 위한 학습 데이터 생성요청에 따라 가상 학습 데이터의 생성을 포함하는 다양한 형태의 데이터 전처리를 수행하기 위해 필요한 정보들을 저장할 수 있다. 예를 들어, 데이터베이스(130)는 학습 데이터를 생성하여 딥러닝을 수행하기 위해 필요한 데이터 셋의 양, 가용 서버 자원 또는 다양한 전처리 관련 정보들을 저장할 수 있으며, 반드시 이에 한정되지 않고, 충분한 서버 자원을 가지고 인공지능을 수행하기 위한 학습 데이터를 생성하는 과정에서 다양한 형태로 수집 또는 가공된 정보들을 저장할 수 있다. 일 실시예에서, 데이터베이스(130)는 학습에 필요한 데이터 셋을 저장하는 다양한 방식의 클라우드 기반 파일 저장소에 해당할 수 있다.

도 2는 도 1에 있는 인공지능 수행을 위한 학습 데이터 생성장치를 나타내는 블록도이다.

도 2를 참조하면, 인공지능 수행을 위한 학습 데이터 생성장치(110)는 실제 학습 데이터 처리부(210), 가상 학습 데이터 증강부(220), 학습 데이터 수집부(230), 딥러닝 수행부(240) 및 제어부(250)를 포함한다.

실제 학습 데이터 처리부(210)는 데이터와 라벨을 포함하는 실제 학습 데이터를 입력받을 수 있다. 여기에서, 실제 학습 데이터는 특정 학습에 활용될 수 있는 라벨링(labeling) 정보가 포함되어 있는 데이터에 해당할 수 있다. 일 실시예에서, 실제 학습 데이터 처리부(210)는 사용자가 사용자 단말(120)을 통해 데이터베이스(130)에 저장한 실제 학습 데이터를 입력받을 수 있다.

가상 학습 데이터 증강부(220)는 라벨을 기초로 데이터를 변형하여 적어도 하나의 가상 데이터를 생성할 수 있다. 여기에서, 라벨은 라벨링된 데이터에 주어져 있는 결과 값(또는 평가 값)을 의미할 수 있다. 딥러닝에서 지도학습(supervised learning)방법론을 사용할 때 데이터와 라벨을 가지고 학습을 수행한다. 일 실시예에서, 가상 학습 데이터 증강부(220)는 실제 학습 데이터를 기초로 데이터 증강(또는 확장)(data augmentation) 작업을 수행할 수 있다. 여기에서, 데이터 증강은 딥러닝 작업의 학습 단계에서 모델의 정확도를 높이기 위해 입력된 데이터 셋의 개수를 늘리고, 변종의 데이터에 대해서도 높은 정확도를 확보하기 위해 입력된 데이터를 변형하는 작업을 의미할 수 있다. 예를 들어, 가상 학습 데이터 증강부(220)는 해당 데이터(예를 들어, 특정 이미지)를 지시하는 라벨(예를 들어, 고양이)을 기초로 해당 데이터에 데이터 증강 작업을 수행하여 적어도 하나의 가상 데이터를 생성할 수 있다. 일 실시예에서, 가상 학습 데이터 증강부(220)는 복수의 데이터 증강 모듈(222)들을 포함할 수 있다. 여기에서, 복수의 데이터 증강 모듈(222)들은 각각 실제 학습 데이터의 입력을 검출하여 독자적인 데이터 증강 알고리즘을 통해 해당 가상 데이터를 생성할 수 있다. 보다 구체적으로, 가상 학습 데이터 증강부(220)는 각각 독자적인 데이터 증강 알고리즘을 가진 복수의 데이터 증강 모듈(222)들을 통해 실제 학습 데이터에서 복수의 가상 데이터를 생성할 수 있다. 예를 들어, 가상 학습 데이터 증강부(220)는 특정 이미지에 관한 실제 학습 데이터를 기초로 각각 이미지 반전 알고리즘, 이미지 확대/축소 알고리즘 또는 이미지 회전 알고리즘 등의 독자적인 데이터 증강 알고리즘을 수행하는 복수의 데이터 증강 모듈(220)을 통해 각각의 가상 데이터들을 생성할 수 있다.

일 실시예에서, 가상 학습 데이터 증강부(220)는 각각이 해당 가상 데이터에 관해 기준 인공지능 알고리즘을 통한 데이터 유효성 검증을 수행하여 유효 가상 데이터를 결정하는 복수의 데이터 유효성 검증 모듈(224)들을 더 포함할 수 있다. 여기에서, 기준 인공지능 알고리즘은 생성된 가상 데이터의 완성도를 분석하여 해당 가상 데이터의 해당 실제 학습 데이터로의 분류가 가능한지 여부를 판단하는 알고리즘에 해당할 수 있다. 보다 구체적으로, 데이터 유효성 검증 모듈(224)은 기준 인공지능 알고리즘을 기초로 해당 실제 학습 데이터에 대한 가상 데이터로 분류가 불가능한 특정 가상 데이터에 대해서 유효 가상 데이터로 결정하지 않을 수 있다. 예를 들어, 데이터 유효성 검증 모듈(224)은 특정 이미지에 관한 실제 학습 데이터를 기초로 이미지 크기를 변형한 가상 데이터의 이미지 크기가 기준 인공지능 알고리즘을 기초로 너무 크거나 너무 작은 경우에는 해당 가상 데이터를 유효 가상 데이터에서 제외할 수 있다. 일 실시예에서, 가상 학습 데이터 증강부(220)는 데이터 유효성 검증 모듈(224)을 통해 기준 인공지능 알고리즘을 기초로 적절하게 가상 데이터를 분류할 수 있는 경우에는 데이터 유효성이 적절한 것으로 판단할 수 있다. 일 실시예에서, 가상 학습 데이터 증강부(220)는 기준 인공지능 알고리즘을 해당 독자적인 데이터 증강 알고리즘에 따라 결정할 수 있다. 즉, 가상 학습 데이터 증강부(220)는 복수의 데이터 증강 모듈(222)들에 대해서 기준 인공지능 알고리즘을 각각 다르게 결정할 수 있다. 보다 구체적으로, 가상 학습 데이터 증강부(220)는 복수의 데이터 증강 모듈(222)들이 각각 가지는 독자적인 데이터 증강 알고리즘들에 대해서 적합한 기준 인공지능 알고리즘을 각각 결정할 수 있다. 예를 들어, 가상 학습 데이터 증강부(220)는 특정 이미지에 관한 실제 학습 데이터에 대해서 데이터 증강 알고리즘이 이미지의 선명도를 조절하는 방식으로 동작한다면, 기준 인공지능 알고리즘은 조절된 선명도에 따라서 이미지를 분간할 수 있는지 여부를 확인하기 위한 것으로 결정될 수 있다.

일 실시예에서, 복수의 데이터 증강 모듈들(222) 각각은 독자적인 데이터 증강 알고리즘의 수행 과정에서 서버리스(serverless) 컨테이너를 생성하여 해당 가상 데이터를 생성할 수 있다. 여기에서, 서버리스는 서버 관리 측면을 클라우드 제공자에게 일임하여 개발자는 개발에만 집중할 수 있는 컴퓨팅 환경을 의미할 수 있고, 컨테이너는 리소스 격리 프로세스에서 어플리케이션과 종속 항목을 실행하게 해주는 운영 시스템 가상화 방법에 해당할 수 있다. 컨테이너는 어플리케이션의 코드, 구성 및 종속성을 하나의 객체로 패키징하는 표준화된 방식을 제공할 수 있다. 서버리스 컨테이너는 서버리스 컴퓨팅과 컨테이너 기술을 통합한 개념으로 컨테이너 기반의 서버리스 컴퓨팅 환경에 해당할 수 있다. 보다 구체적으로, 복수의 데이터 증강 모듈들(222) 각각은 사용자가 서버 관리를 하지않고 컨테이너를 실행할 수 있는 서버리스 컨테이너를 통해 가상 데이터를 생성할 수 있다.

학습 데이터 수집부(230)는 실제 학습 데이터 및 적어도 하나의 가상 데이터와 라벨을 맵핑(mapping)한 가상 학습 데이터를 학습 데이터로서 저장할 수 있다. 보다 구체적으로, 학습 데이터 수집부(230)는 데이터와 라벨을 포함하는 실제 학습 데이터 및 복수의 가상 데이터들 중 유효 데이터로 검증된 적어도 하나의 가상 데이터에 적합한 라벨을 맵핑(mapping)한 가상 학습 데이터를 생성하고, 학습 데이터로서 저장할 수 있다. 일 실시예에서, 학습 데이터 수집부(230)는 생성된 학습 데이터를 저장하는 과정에서 데이터베이스 모듈로 구현될 수 있고 또는, 별도의 데이터베이스(130)에 학습 데이터를 저장할 수 있다. 예를 들어, 데이터 수집부(230)는 key-value 스토어에 해당할 수 있다. 학습 데이터 수집부(230)는 저장된 학습 데이터를 딥러닝 수행부(240)로 전달하여 학습 또는 모델링에 활용할 수 있다.

딥러닝 수행부(240)는 학습 데이터 수집부(230)와 학습 데이터에서 필요한 만큼을 가져올 수 있도록 원격 호출 기반으로 연결될 수 있다. 일 실시예에서, 딥러닝 수행부(240)는 실제 학습 데이터를 기초로 데이터 증강을 포함하는 데이터 변형을 수행하여 학습 데이터를 수집하는 데이터 증강 서버(20)와 분리되어 별도의 서버로 구성될 수 있다. 여기에서, 데이터 증강 서버(20)는 클라우드 서버에 해당할 수 있다. 예를 들어, 딥러닝 수행부(240)는 학습 데이터 수집부(230)와 Rest(Representational State Transfer) API(Application Program Interface)를 통해 연결될 수 있다. 여기에서, Rest API는 Rest 기반으로 서비스API를 구현한 것을 의미할 수 있고, Rest는 인터넷 상의 컴퓨터 시스템간 상호 운용성을 제공하는 하나의 방법에 해당할 수 있다. 일 실시예에서, 딥러닝 수행부(240)는 학습 데이터를 기초로 이미지 또는 영상을 생성하는 등의 특정 목적을 위한 딥러닝을 수행할 수 있다. 예를 들어, 딥러닝 수행부(240)는 특정 모델링 작업을 수행하는 서버에 해당할 수 있다. 일 실시예에서, 딥러닝 수행부(240)는 특정 목적에 따라 독자적인 데이터 증강 알고리즘을 결정하여 해당 데이터 증강 모듈에 의해 생성된 가상 데이터를 가져올 수 있다. 예를 들어, 딥러닝 수행부(240)는 특정 이미지에 대한 크기 보정을 목적으로 하는 딥러닝을 수행하는 과정에서 이미지 크기 보정 알고리즘을 결정하고 해당 데이터 증강 모듈에 의해 생성된 가상 데이터를 가져올 수 있다. 일 실시예에서, 딥러닝 수행부(240)는 특정 목적에 따라 독자적인 데이터 증강 알고리즘의 확률 분포를 결정하여 확률 분포에 따른 가상 데이터를 가져올 수 있다. 보다 구체적으로, 딥러닝 수행부(240)는 복수의 데이터 증강 모듈들의 복수의 독자적인 데이터 증강 알고리즘들에 대해서 확률 분포를 각각 다르게 결정하고 확률 분포에 따라 가상 데이터를 가져올 수 있다. 예를 들어, 딥러닝 수행부(240)는 특정 이미지를 생성하는 목적의 모델링을 수행하는 경우, 이미지 윤곽 조절 알고리즘에 대해서 높은 확률을 부여하고 기타 텍스트 조절 알고리즘 등에 대해서 낮은 확률을 부여할 수 있고, 이에 따라 결정된 가상 데이터를 가져올 수 있다.

제어부(250)는 인공지능 수행을 위한 학습 데이터 생성장치(110)의 동작 전반을 제어할 수 있고, 실제 학습 데이터 처리부(210), 가상 학습 데이터 증강부(220) 및 학습 데이터 수집부(230)간의 데이터 흐름을 제어할 수 있다.

도 3은 도 2에 있는 가상 학습 데이터 증강부를 나타내는 구성도이다.

도 3을 참조하면, 가상 학습 데이터 증강부(220)는 복수의 데이터 증강 모듈들(222) 및 복수의 데이터 유효성 검증 모듈들(224)을 포함할 수 있다.

복수의 데이터 증강 모듈들(222)은 각각 독자적인 데이터 증강 알고리즘을 가지고, 실제 학습 데이터가 입력되면 해당 가상 데이터를 생성할 수 있다. 예를 들어, 복수의 데이터 증강 모듈들(222)은 각각 이미지 회전 알고리즘 또는 이미지 크기 조절 알고리즘 등을 가지고 각각 해당 회전 이미지 데이터 또는 조절된 크기를 가지는 이미지 데이터 등을 생성할 수 있다.

복수의 데이터 유효성 검증 모듈들(224)은 각각 기준 인공지능 알고리즘을 가지고, 복수의 데이터 증강 모듈들(222)에 의해 생성된 가상 데이터에 관해 데이터 유효성 검증을 수행하여 유효 가상 데이터를 결정할 수 있다. 일 실시예에서, 복수의 데이터 유효성 검증 모듈들(224)은 독자적인 데이터 증강 알고리즘에 따라 기준 인공지능 알고리즘을 각각 결정할 수 있다. 예를 들어, 복수의 데이터 유효성 검증 모듈들(224)은 이미지 윤곽선 조절 알고리즘을 통해 생성된 가상 데이터에 대해서 기준 인공지능 알고리즘을 이미지의 윤곽선을 추출할 수 있는지 여부를 통해 데이터 유효성을 검증하는 것으로 결정할 수 있다. 가상 학습 데이터 증강부(220)는 복수의 데이터 증강 모듈들(222)과 복수의 데이터 유효성 검증 모듈들(224)을 통해 실제 학습 데이터를 변형하고 검증하여 적어도 하나의 유효 가상 데이터를 생성할 수 있다.

도 4는 도 2에 있는 인공지능 수행을 위한 학습 데이터 생성장치의 일 실시예에 따른 동작 과정을 보여주는 예시도이다.

도 4에서, 실제 학습 데이터 처리부(210)는 사용자에 의해 클라우드 기반 데이터베이스에 업로드되고 학습에 활용될 라벨링 정보가 포함된 데이터 셋을 입력받을 수 있다(단계 1).

가상 학습 데이터 증강부(220)는 사용자 파일 업로드 이벤트가 발생하면 컨테이너 기반 서버리스 플랫폼(serverless platform)에서 입력 자료를 순차적으로 다운로드 받아서 다양한 데이터 증강(augmentation)작업을 실행할 수 있다(단계 2). 여기에서, 서버리스 플랫폼은 서버리스 컴퓨팅을 수행하는 환경을 의미할 수 있다. 상기한 바와 같이, 서버리스 컴퓨팅은 클라우드 컴퓨팅 실행 모델의 하나로서 물리적 서버가 없는 형태가 아니고, 클라우드 제공자에 의해 동적으로 머신 자원의 할당이 관리되어 사용자 관점에서 서버 관리가 필요없는 IT 인프라 아키텍쳐에 해당할 수 있다. 일 실시예에서, 가상 학습 데이터 증강부(220)는 CPU(Central Processing Unit) 기반의 컨테이너뿐만 아니라 작업의 특성에 따라서 GPU(Graphics Processing Unit)기반의 컨테이너를 활용하여 데이터 증강 작업을 수행할 수 있다. 데이터 증강(또는 확장) 작업은 서비스에서 기본으로 제공되는 작업이외에도, 사용자 정의 함수를 지정하여 서버리스 플랫폼에 등록할 수 있다. 가상 학습 데이터 증강부(220)는 사용자 정의 함수에 의해 여러 컨테이너 기반의 서버리스 플랫폼 인스턴스가 개별적으로 동작하더라도, 취합한 전체 결과물은 사용자가 의도한 확률분포를 가지는 데이터 증강 결과가 나오도록 동작할 수 있다.

학습 데이터 수집부(230)는 서버리스 플랫폼에서 완료된 데이터 증강 결과물을 읽기에 최적화된 클라우드 기반 key-value store(KVS, 또는 key-value database)에 저장할 수 있다(단계 3). 여기에서, key-value store는 key와 value의 집합을 기입하고, key를 지정함으로써 value를 판독할 수 있는 데이터 베이스 관리 방식에 해당할 수 있다.

딥러닝 수행부(240)는 key-value store에 저장된 데이터 증강 작업이 완료된 결과물을 HTTP(HyperText Transfer Protocol) 기반의 RestAPI를 통하여 전달받아, 별도의 서버에서 모델링 작업 등을 수행할 수 있다(단계 4).

도 5는 본 발명의 일 실시예에 따른 인공지능 수행을 위한 학습 데이터 생성방법을 나타내는 순서도이다.

도 5에서, 인공지능 수행을 위한 학습 데이터 생성장치(110)는 실제 학습 데이터 처리부(210)를 통해 데이터와 라벨을 포함하는 실제 학습 데이터를 입력받을 수 있다(단계 S510).

인공지능 수행을 위한 학습 데이터 생성장치(110)는 가상 학습 데이터 증강부(220)를 통해 라벨을 기초로 데이터를 변형하여 적어도 하나의 가상 데이터를 생성할 수 있다(단계 S520). 보다 구체적으로, 가상 학습 데이터 증강부(220)는 복수의 데이터 증강 모듈들(222)을 통해 적어도 하나의 독자적인 데이터 증강 알고리즘에 따라 적어도 하나의 가상 데이터를 생성할 수 있다.

인공지능 수행을 위한 학습 데이터 생성장치(110)는 학습 데이터 수집부(230)를 통해 실제 학습 데이터 및 적어도 하나의 가상 데이터와 라벨을 맵핑한 가상 학습 데이터를 학습 데이터로서 저장할 수 있다(단계 S530).

인공지능 수행을 위한 학습 데이터 생성장치(110)는 학습 데이터 수집부(230)와 학습 데이터에서 필요한 만큼을 가져올 수 있도록 원격 호출 기반으로 연결된 딥러닝 수행부(240)를 통해서 학습 데이터를 기초로 특정 목적을 위한 딥러닝을 수행할 수 있다(단계 S540). 일 실시예에서, 인공지능 수행을 위한 학습 데이터 생성장치(110)는 학습 데이터를 생성하는 데이터 증강 서버(20)와 딥러닝을 수행하는 서버를 분리하여 학습에 필요한 충분한 자원을 확보하고 더불어, 중복되는 데이터 증강 작업을 줄일 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

20: 데이터 증강 서버
100: 인공지능 수행을 위한 학습 데이터 생성 시스템
110: 인공지능 수행을 위한 학습 데이터 생성장치
120: 사용자 단말
130: 데이터베이스
210: 실제 학습 데이터 처리부 220: 가상 학습 데이터 증강부
222: 복수의 데이터 증강 모듈들
224: 복수의 데이터 유효성 검증 모듈들
230: 학습 데이터 수집부
240: 딥러닝 수행부
250: 제어부

Claims

데이터와 라벨을 포함하는 실제 학습 데이터를 입력받는 실제 학습 데이터 처리부;
상기 라벨을 기초로 상기 데이터를 변형하여 적어도 하나의 가상 데이터를 생성하는 가상 학습 데이터 증강부; 및
상기 실제 학습 데이터 및 상기 적어도 하나의 가상 데이터와 상기 라벨을 맵핑(mapping)한 가상 학습 데이터를 학습 데이터로서 저장하는 학습 데이터 수집부를 포함하는 인공지능 수행을 위한 학습 데이터 생성장치.
제1항에 있어서,
상기 학습 데이터 수집부와 상기 학습 데이터에서 필요한 만큼을 가져올 수 있도록 원격 호출기반으로 연결되고 상기 학습 데이터를 기초로 특정 목적을 위한 딥러닝을 수행하는 딥러닝 수행부를 더 포함하는 것을 특징으로 하는 인공지능 수행을 위한 학습 데이터 생성장치.
제1항에 있어서, 상기 가상 학습 데이터 증강부는
각각은 상기 실제 학습 데이터의 입력을 검출하여 독자적인 데이터 증강 알고리즘을 통해 해당 가상 데이터를 생성하는 복수의 데이터 증강 모듈들을 포함하는 것을 특징으로 하는 인공지능 수행을 위한 학습 데이터 생성장치.
제3항에 있어서,
상기 학습 데이터를 기초로 특정 목적을 위한 딥러닝을 수행하는 딥러닝 수행부를 더 포함하고,
상기 딥러닝 수행부는
상기 특정 목적에 따라 상기 독자적인 데이터 증강 알고리즘을 결정하여 해당 데이터 증강 모듈에 의해 생성된 가상 데이터를 가져오는 것을 특징으로 하는 인공지능 수행을 위한 학습 데이터 생성장치.
제4항에 있어서, 상기 딥러닝 수행부는
상기 특정 목적에 따라 상기 독자적인 데이터 증강 알고리즘의 확률 분포를 결정하여 상기 확률 분포에 따른 가상 데이터를 가져오는 것을 특징으로 하는 인공지능 수행을 위한 학습 데이터 생성장치.
제3항에 있어서, 상기 가상 학습 데이터 증강부는
각각이 상기 해당 가상 데이터에 관해 기준 인공지능 알고리즘을 통한 데이터 유효성 검증을 수행하여 유효 가상 데이터를 결정하는 복수의 데이터 유효성 검증 모듈들을 더 포함하는 것을 특징으로 하는 인공지능 수행을 위한 학습 데이터 생성장치.
제6항에 있어서, 상기 가상 학습 데이터 증강부는
상기 기준 인공지능 알고리즘을 해당 독자적인 데이터 증강 알고리즘에 따라 결정하는 것을 특징으로 하는 인공지능 수행을 위한 학습 데이터 생성장치.
제3항에 있어서, 상기 복수의 데이터 증강 모듈들 각각은
상기 독자적인 데이터 증강 알고리즘의 수행 과정에서 서버리스 컨테이너를 생성하여 상기 해당 가상 데이터를 생성하는 것을 특징으로 하는 인공지능 수행을 위한 학습 데이터 생성장치.
데이터와 라벨을 포함하는 실제 학습 데이터를 입력받는 실제 학습 데이터 처리단계;
상기 라벨을 기초로 상기 데이터를 변형하여 적어도 하나의 가상 데이터를 생성하는 가상 학습 데이터 증강단계; 및
상기 실제 학습 데이터 및 상기 적어도 하나의 가상 데이터와 상기 라벨을 맵핑한 가상 학습 데이터를 학습 데이터로서 저장하는 학습 데이터 수집단계를 포함하는 인공지능 수행을 위한 학습 데이터 생성방법.