KR102588531B1

KR102588531B1 - 학습데이터 처리 장치 및 그 방법

Info

Publication number: KR102588531B1
Application number: KR1020210159792A
Authority: KR
Inventors: 박종빈; 정종진; 김경원
Original assignee: 한국전자기술연구원
Priority date: 2020-11-19
Filing date: 2021-11-18
Publication date: 2023-10-13
Also published as: KR20220068942A

Abstract

본 발명은 학습데이터 처리 장치 및 그 방법에 관한 것으로, 보다 상세하게는 인공지능 및 기계학습을 위한 미디어 타입의 학습데이터를 처리하는 장치 및 그 방법에 관한 것이다.
본 발명에 따른 학습데이터 처리 장치는 미디어 타입의 입력 데이터를 수신하는 경우 선별,증식,분석,가공 처리 중 적어도 어느 하나의 작업을 수행하고, 출력을 수행하는 데이터 처리부 및 데이터 처리부에서 처리한 데이터를 저장하는 저장부를 포함하고, 저장부는 시간에 따라 상기 입력 데이터가 지속적으로 주입되는 경우, 해시값 비교를 통해 중복 데이터의 저장을 방지하고,메타정보 및 농축정보 중 적어도 어느 하나를 이용한 비교 결과에 따라 기준에 부합되는 것으로 확인된 데이터를 저장한다.

Description

학습데이터 처리 장치 및 그 방법{SYSTEM AND METHOD FOR PROCESSING TRAINING DATA}

본 발명은 학습데이터 처리 장치 및 그 방법에 관한 것으로, 보다 상세하게는 인공지능 및 기계학습을 위한 미디어 타입의 학습데이터를 처리하는 장치 및 그 방법에 관한 것이다.

딥러닝과 같은 기계학습분야에서는 인공적으로 신경망 모델을 구성하고 이를 학습하기 위해 대량의 학습데이터를 요구한다. 여기서 모델의 학습이란 신경망을 기술하는 가중치(weight)나 바이어스(bias)와 같은 매개변수(parameter)의 값을 결정하는 과정이라 할 수 있다. 이러한 매개변수를 훈련하려면 수천에서 수만 개, 혹은 그 이상의 학습데이터가 필요한데, 인공신경망 모델에 따라서는 부족한 데이터로 학습을 수행할 경우 주어진 소량의 데이터에만 학습된 모델이 정상 반응하고, 나머지 입력데이터를 잘 처리하지 못하는 과적합(over-fitting) 결과를 초래할 수 있다. 이러한 과적합 문제를 해결하기 위해서는 다수의 학습데이터가 필요하나, 데이터 확보를 위한 시간,자원,금전 비용이 많이 필요한 문제점이 있다.

종래 기술에 따르면, 학습 시 필요한 데이터 부족 문제를 해소하기 위해서 주어진 데이터를 변형하여 학습데이터의 양을 늘리는 데이터 증강(Data Augmentation) 기술이 제안되었다. 일례로 영상에 대해서는 주어진 데이터에 대해서 밝기 변환, 기하학적 왜곡, 첨예도 처리, 색상처리와 같은 변형 작업을 수행하여 다양성을 높이는 것이 가능하며, 소수의 변환 기술들을 사용하더라도 매개변수를 조절하고, 변환 방법을 서로 조합하고, 최종 변환된 출력을 다시 변환기에 입력하는 과정을 반복 수행함으로써 천문학적인 개수의 데이터 집합을 만들어 낼 수도 있다는 장점이 있다. 그러나 증식한 일부 데이터는 학습에 사용되는 경우 오히려 학습한 모델의 성능이 감소할 수 있다는 문제점이 있고, 지나치게 많은 데이터로 인해 학습에 필요한 연산시간과 자원이 지나치게 커질 수도 있다.

종래의 학습데이터 사용 방식은 대개 수동적이고 정적이다. 일례로 누군가 만들어준 학습데이터를 패키지로 다운로드 받고, 이를 적절히 전처리하여 학습에 사용한다. 그러나 기계학습은 확률적 특징으로 인해 입력 데이터 집합을 지속적으로 바꿔보면서 성능을 개선하는 노력이 필요하다. 초기 데이터는 목표 문제 해결에 실패할 수 있지만, 실패 원인을 파악하여 데이터를 바꿔가면서 다시 학습하면 성능을 차근히 개선시킬 수 있다. 이와 유사하게 특정 시간 구간에만 유효한 데이터 집합이 있을 수 있는데, 이런 경우에는 시간에 따라 최신의 데이터를 학습데이터에 꾸준히 포함시켜주고, 특정 시간 구간의 데이터만을 추출하여 학습에 사용하는 것과 같은 노력이 필요하다. 종래의 수동적이고 정적인 방식의 데이터 처리 및 관리 방법은 이와 같은 기계학습 데이터 요구사항에 대응하기 어려운 한계가 있고, 무작정 쌓아놓은 데이터의 규격을 일치시키는데 드는 비용도 만만치 않다는 문제점이 있다.

본 발명은 전술한 문제점을 해결하기 위해 제안된 것으로, 인공신경망과 같은 기계학습 분야에 사용되는 데이터 집합을 처리하여 기계학습에 사용될 데이터를 확보, 관리, 사용하는데 있어서 소요되는 각종 어려움을 줄이고 합리적인 기능을 제공하여 기계학습 과정에 도움을 주는 것이 가능한 학습데이터 처리 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명에 따른 학습데이터 처리 장치는 미디어 타입의 입력 데이터를 수신하는 경우 선별,증식,분석,가공 처리 중 적어도 어느 하나의 작업을 수행하고, 출력을 수행하는 데이터 처리부 및 데이터 처리부에서 처리한 데이터를 저장하는 저장부를 포함하고, 저장부는 시간에 따라 상기 입력 데이터가 지속적으로 주입되는 경우, 해시값 비교를 통해 중복 데이터의 저장을 방지하고, 메타정보 및 농축정보 중 적어도 어느 하나를 이용한 비교 결과에 따라 기준에 부합되는 것으로 확인된 데이터를 저장한다.

상기 미디어 타입의 입력 데이터는 영상,텍스트,오디오,비디오 중 적어도 어느 하나를 포함한다.

상기 데이터처리부는 입력 데이터에 대응하는 입력 부가정보를 처리하고, 출력 데이터에 대응하는 출력 부가정보를 출력한다.

상기 데이터 처리부는 상기 선별,분석,가공 처리 중 적어도 하나 이상의 작업을 수행하는 경우, 작업 수행 결과를 상기 저장부에 기록하고, 상기 저장부에 기저장된 데이터를 이용하여 상기 출력 데이터 및 출력 부가정보 중 적어도 어느 하나를 출력한다.

상기 데이터 처리부는 상기 입력 데이터와 상기 입력 부가정보가 존재하지 않으며 데이터 출력에 대한 요청이 있는 경우, 상기 저장부에 기록된 데이터를 선별하여 상기 출력 데이터 및 출력 부가정보 중 적어도 어느 하나를 출력한다.

상기 입력 부가정보는 중요도, 가중치, 외부데이터 확장 유무, 저장부 저장 유무, 증식 기준으로 활용 유무, 메타정보 기반 처리 유무, 농축정보 기반 처리 유무 중 적어도 어느 하나의 항목을 포함한다.

상기 입력 부가정보는 분류 클래스, 텍스트 메타정보, 미디어 타입, 파일 확장자, 위치 정보, 시간 정보 중 적어도 어느 하나를 포함하여 상기 입력 데이터의 속성을 나타낸다.

상기 입력 부가정보는 상기 입력 데이터를 이용한 학습 과정 중 발생되는 데이터로서, 학습에 걸리는 시간, 메모리 중 적어도 어느 하나를 포함한다.

본 발명에 따른 학습데이터 처리 장치는 외부데이터 수집부를 더 포함하고, 상기 데이터 처리부는 상기 외부데이터 수집부가 수집한 데이터를 이용하여 출력으로 사용한다.

상기 데이터 처리부는 상기 입력 데이터, 입력 부가정보, 상기 저장부에 기록된 정보를 참고하여 상기 외부데이터 수집부에 외부 데이터 수집을 요청하고, 상기 외부 데이터를 처리하여 상기 저장부에 저장하고 출력을 수행한다.

상기 데이터 처리부는, 상기 입력 데이터에 대해 대표성을 가지거나 학습에 주된 역할을 담당할 것으로 판단되는 데이터를 추출하고, 상기 저장부에서 유사 연계된 미디어 콘텐츠를 찾는 선별 및 증식처리부;메타정보 분석 및 농축정보 분석을 수행하는 분석처리부;및 출력 데이터의 규격을 조정하거나 학습에 사용할 수 있도록 데이터 가공을 수행하는 가공처리부를 포함한다.

상기 선별 및 증식처리부는 데이터 분포 및 경계에 위치하는 데이터를 검색하여 증식처리를 수행한다.

상기 분석처리부는 상기 입력 데이터에서 객체를 표현하는 속성 및 설명을 기계학습 과정에서 추출하여 상기 메타정보를 정의하고, 추출된 상기 메타정보를 이용하여 데이터의 유사도를 계산한다.

상기 분석처리부는 상기 입력 데이터의 차원을 축소하는 정보압축을 수행하여 입력 데이터 대비 적은 크기의 데이터로 변환하여 상기 농축정보를 계산한다.

상기 가공처리부는 메타정보 및 농축정보 사이의 규격을 맞추고, 이종의 미디어 상호간 비교 가능한 조인트 농축정보를 생성한다.

본 발명에 따르면, 입력된 학습 데이터 처리에 따라 기계학습에 도움이 되는 데이터를 출력하는 것이 가능하고, 반복적인 기계학습 과정에서 인루프(in the loop) 모듈로 포함될 수도 있고, 학습에 쓰일 데이터의 학습 초기에 필요한 데이터 집합을 원하는 데이터 분포 및 특징으로 구성할 수 있게 하여 다양한 기계학습 분야에 활용이 가능한 장점이 있다.

본 발명에 따르면, 종래 기술에 따른 데이터 증식 기능의 단점을 보완하고 일부 역할을 대체하는 것이 가능하며, 학습데이터의 특성을 제어함으로써 변인 통제된 학습결과를 도출할 수 있으며, 개선된 학습 성능을 달성하는데 기여하는 효과가 있다.

본 발명에 따르면, CPU나 GPU, RAM과 같은 학습에 소요되는 제한된 연산 자원을 기계학습 시 효과적으로 활용하는 것이 가능한 효과가 있다.

본 발명의 효과는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 실시예에 따른 학습데이터 처리 장치를 도시한다.
도 2는 종래 기술에 따른 기계학습 과정의 개념도를 도시한다.
도 3은 본 발명의 실시예에 따른 학습데이터 처리장치의 활용을 도시한다.
도 4는 본 발명의 실시예에 따른 데이터처리부의 구성을 도시한다.
도 5는 본 발명의 실시예에 따른 선별 및 증식처리부의 부가 정보를 이용한 확률 분포를 갖는 데이터 구성 및 출력을 도시한다.
도 6 및 도 7은 본 발명의 실시예에 따른 학습데이터 처리 장치의 자체적인 기준 기반 선별 및 증식을 도시한다.

본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.

그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 목적, 구성 및 효과를 용이하게 알려주기 위해 제공되는 것일 뿐으로서, 본 발명의 권리범위는 청구항의 기재에 의해 정의된다.

한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자가 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가됨을 배제하지 않는다.

종래 기술에 따르면, 원본 데이터를 적절히 변형하여 데이터 규모를 키우는 데이터 증강(Augmentation)과 같은 방법을 사용한 반면, 본 발명의 실시예에 따른 학습데이터 처리장치를 지속적으로 사용하면 주입된 데이터를 이용한 내부 분류, 관련성 계산, 중요성 계산 등을 수행하여 꾸준히 누적할 수 있고, 데이터 요청 시점에 데이터 분포, 데이터 특성 등을 고려하여 출력이 가능한 특징이 있다.

본 발명의 실시예에 따르면, 학습과정 중에 발생한 가중치 정보를 이용하거나, 메타정보와 농축정보를 통해 이상치(outlier)를 검출하여 제거하거나, 데이터를 군집화 시킨 후 경계부에 포함될 것으로 판단되는 데이터를 추가로 제공하는 것이 가능하여, 학습 성능을 저해할 수 있는 데이터를 사전에 걸러 내어 학습 성능 개선에 도움을 주는 효과가 있다.

본 발명의 실시예에 따르면, 학습에 필요한 연산자원정보(CPU 성능, GPU 성능, 메모리 용량 등)와 목표로 하는 학습시간을 추가로 입력 받아 주어진 가용 자원을 고려한 기계학습 데이터 출력이 가능한 장점이 있다.

본 발명의 실시예에 따르면, 데이터를 반복적으로 수집하고, 가공하고, 지속적으로 관리할 수 있게 되어 사용이 누적될수록 유일하고 품질 높은 데이터 집합을 확보하는 것이 가능하다.

즉, 본 발명의 실시예에 따른 학습데이터 처리의 초기 시점에는 데이터 품질과 양이 제한될 수 있지만, 사용할수록 품질이 점진적으로 진화되는 특징이 있다.

성공적인 기계학습 모델 개발을 위해서는 모델 구축과 평가를 빠르고 여러 번 반복하는 것이 핵심이며, 이를 위해 데이터 수집, 준비, 메타데이터 추가는 반복적으로 이뤄지는 것이 바람직하다.

그런데, 종래 기술에 따르면 데이터의 확보와 처리는 모델 학습과는 별개로 이루어졌다.

또한, 종래 기술에 따르면, 이미 만들어진 정적인 데이터 집합을 수동적으로 활용하는 것이 일반적이며, 이를 동적으로 수행하는 것은 모델을 학습시키는 단계에서 추가로 고려되어야 하는 사항으로 간주되었다.

이러한 종래의 프로시저를 따른다면 데이터 집합이 달라지면 서로 호환이 되지 않고, 매번 새롭게 정제하고 가공하는 과정을 일관된 규칙 없이 반복해야만 하는 문제점이 잇다.

그런, 본 발명의 실시예에 따르면, 이종의 데이터 셋을 통합적으로 관리하도록 안내자(guide) 역할을 하는 것이 가능하고, 이종의 학습데이터를 규칙적이고 지속적으로 업데이트하는 장점이 있다.

도 1은 본 발명의 실시예에 따른 학습데이터 처리 장치를 도시한다.

도 1을 참조하면, 영상(image), 텍스트(text), 오디오(audio), 비디오(video)를 포함하는 미디어 타입을 갖는 데이터 가 학습데이터 처리장치(100)에 입력되고, 데이터 처리부(110)는 선별처리, 증식처리, 분석처리, 가공처리중 적어도 어느 하나 이상의 작업을 수행하여 데이터를 출력한다. 기호 과 은 입력과 출력의 원소의 수를 의미하고 크기는 , , 이 가능하여, 입력된 데이터의 집합 크기와 출력데이터의 집합 크기가 서로 같거나 다를 수 있다. 본 발명의 실시예에 따르면 입력된 데이터의 전부 또는 일부를 출력할 수도 있고, 저장부(120)에 미리 저장된 데이터를 검색하여 출력하는 것이 가능하기 때문이다. 즉, 본 발명의 실시예에 다르면 데이터의 증식이 가능하지만, 종래 기술에 따른 데이터 증식 방법과는 구체적인 방법 측면에서의 차이가 있다.

저장부(120)는 데이터 처리부(110)에서 처리한 데이터를 저장하고 출력이 필요할 때 이를 제공한다. 저장부(120)는 새롭게 추가된 데이터만을 선별적으로 추가할 수 있는데, 일례로 입력데이터가 시간에 따라 , , ... 와 같이 지속적으로 주입되는 경우, 해시값(hash) 비교를 통해 중복 데이터의 저장을 방지하고, 메타정보나 농축정보의 비교를 통해 기설정된 기준에 따라 임계 차이 이상 또는 이하의 데이터만을 저장할 수 있다.

도 1을 참고하면, 입력데이터와 함께 각각의 원소에 대응하는 부가정보 가 함께 입력될 수 있고, 출력데이터 중에서도 출력 에 대응하는 부가정보 가 함께 출력될 수 있다. 여기서 , 는 입력데이터집합 와, 출력데이터집합 의 번째 원소인 및 에 대응하는 부가정보를 의미한다. 본 발명의 실시예에 따른 학습데이터 처리 장치(100)는 외부데이터 수집부(130)를 포함할 수 있으며, 명시적으로 입력된 이외의 외부데이터를 출력으로 사용함으로써 학습데이터의 다양성을 높이는 것이 가능하다.

도 1을 참조하여 본 발명의 실시예에 따른 데이터 흐름을 설명한다.

입력데이터와 부가정보가 본 발명의 실시예에 따른 학습데이터 처리장치(100)에 입력되면, 다음 서술하는 방식 중 한가지 방식으로 데이터를 출력한다.

(1) 데이터 처리부(110)는 선별처리, 분석처리, 가공처리중 한 가지 이상의 조합된 방법의 처리를 수행하고, 그 결과를 바로 혹은 로 출력한다.

(2) 데이터 처리부(110)는 선별처리, 분석처리, 가공처리중 한가지 이상의 조합된 방법의 처리를 수행하고, 처리 수행 결과를 저장부(120)에 기록하고, 저장부(120)에 이미 저장된 데이터를 이용하여 혹은 로 출력한다. 이는 입력된 데이터가 아닌 새로운 데이터를 출력하는 과정이므로 증식처리와 관련된다.

(3) 데이터 처리부(110)는 입력데이터와 , 그리고 저장부(120)에 기록된 정보를 참고하여 외부 데이터 수집부(130)에 외부데이터에 대한 즉각적, 백그라운드(back ground), 또는 일정별로 수집을 요구한다. 외부 데이터 수집부(130)가 외부데이터를 확보하면 데이터 처리부(110)가 이를 처리하여 저장부(120)에 저장시키고, 전술한 증식처리를 통해 출력데이터로 출력한다.

(4) 학습데이터 처리장치에 데이터 출력에 대한 요청이 있는 경우, 데이터 처리부(110)는 입력데이터나 가 모두 없더라도 저장부(120)에 기록된 데이터 중에서 데이터를 선별하여 혹은 로 출력한다. 이는 선별처리, 증식처리가 함께 이뤄지는 경우이다.

도 2는 종래 기술에 따른 기계학습 과정의 개념도를 도시하고, 도 3은 본 발명의 실시예에 따른 학습데이터 처리장치의 활용을 도시하며, 도 2 및 도 3은 도 1에 도시한 본 발명의 실시예에 따른 학습데이터 처리 장치가 어떻게 기계학습 과정에 활용되는 것인지 도시한다.

도 2를 참조하면, 도 2의 (1)은 임의의 학습부가 원시 학습 데이터를 반복적으로 가져와서 학습을 수행하는 것을 도시한다. 도 2의 (2)는 원시 학습 데이터에 대해 데이터 증식부가 기하학적 변환, 밝기 변환 등을 수행하여 학습데이터의 규모를 키우고, 이를 임의의 학습부가 반복 학습하는 것을 도시한다.

도 3은 본 발명의 실시예에 따른 학습데이터 처리 장치를 기계학습 과정에 활용하는 4가지의 예를 도시한다.

도 3의 (1)은 본 발명의 실시예에 따른 학습데이터 처리장치를 이용하여, 학습 초기에 원시 학습 데이터를 수정된 학습 데이터로 활용하는 것을 도시한다. 도 3의 (2) 내지 (4)는 반복적인 기계학습 과정에서 인루프(in the loop) 모듈로 본 발명의 실시예에 따른 학습데이터 처리장치를 포함하는 것을 도시한다. 도 3의 (2)는 본 발명의 실시예에 따른 학습데이터 처리장치가 종래의 데이터 증식부를 대체하는 역할로써 활용되는 것을 도시하고, 도3의 (3)은 본 발명의 실시예에 따른 학습데이터 처리장치가 데이터 증식부 전단에 위치하는 것을 도시하고, 도3의 (4)은 본 발명의 실시예에 따른 학습데이터 처리장치가 데이터 증식부 후단에 위치하는 것을 도시한다.

도 2와 도 3에 도시하지는 않았으나, 통상적으로 기계학습 과정에서는 기확보한 학습 데이터를 학습셋(Training set), 검증셋(Validation set), 시험셋(Test set)으로 나눈다. 이후 나눈 데이터를 사용하여 단계적으로 학습하고, 검증하고 시험하는 과정을 거친다. 본 발명의 실시예에 따른 학습데이터 처리장치는 기확보한 학습 데이터를 학습셋, 검증셋, 시험셋으로 나누지 않은 상태에서도, 도 3에 도시한 방식을 사용하여 데이터 처리를 수행할 수 있고, 기확보한 학습 데이터에서 학습셋을 부분적으로 추출하여 구성한 후 이를 원시 학습 데이터로 가정하여 도 3에 도시한 바와 같이 데이터 처리를 수행할 수도 있다.

이하에서는, 본 발명의 실시예에 따른 학습데이터 처리장치의 입력데이터에 대해 설명한다.

본 발명의 실시예에 따른 학습데이터 처리장치는 입력데이터의 미디어 타입(type)으로 영상(image), 텍스트(text), 오디오(audio), 비디오(video) 중에서 적어도 하나 이상의 미디어 형식을 처리한다. 입력데이터는 개의 데이터를 특정 시점에 함께 입력할 수 있으며, 이를 와 같이 표기할 수 있다. 지원하는 미디어 타입의 범위 내에서 개의 데이터들은, 각각의 형식 별(이미지이면 이미지, 텍스트면 텍스트)로 동일한 것이 일반적이지만, 서로 달라도 처리가 가능한 특징이 있다. 대신, 정확한 파일 확장자를 파일명에 부가하거나, 파일의 타입에 대한 명시적인 인식이 가능하도록 메타정보(meta information)를 제공하여 미디어 타입 판별이 용이하도록 하는 것이 바람직하다. 입력데이터는 파일로써 하드디스크와 같은 저장 공간에 저장된 것이 일반적이지만, 반드시 파일 형태로 한정하지는 않으며, 일례로 베이스64(base64) 와 같은 인코딩을 수행하여 공유메모리(shared memory) 방식으로 프로세스간 통신을 수행하거나 이종 네트워크 상호간 전송할 수도 있다.

입력데이터의 각 원소에 대응하는 부가데이터,가 입력될 수 있다. 전술한 바와 같이 는 입력데이터를 구성하는 집합 의 번째 원소인 에 대응하는 부가정보를 나타낸다. 부가정보 는 부분적으로 없거나 또는 해당 항목 모두가 없을 수도 있으며, 정보가 없는 경우 빈칸으로 두거나 “N/A”(Not available, 이용할 수 없음), NULL(없음), 혹은 NONE(없음) 과 같이 표기할 수 있다.

입력데이터에 해당하는 부가정보가 있다면 학습데이터 처리장치내부의 데이터 처리부에서 추가적인 연산처리를 줄일 수 있고, 속도를 개선하는 것이 가능하다. 부가정보 는 정형화된 구조를 갖는 메타정보로 표현하는 것이 바람직하다.

[표 1] 및 [표 2]와 같이, 입력데이터에 대한 부가정보 가 {중요도, 가중치, 외부데이터 확장 유무, 저장부 저장 유무, 증식 기준으로 활용 유무, 메타정보 기반 처리 유무, 농축정보 기반 처리 유무}, {분류 클래스, 텍스트 메타정보, 미디어 타입, 파일 확장자, GPS(Global Positioning System) 위치정보, 시간정보}와 같이 나타낼 수 있으며, 이는 예시적인 것으로 전술한 것에 한정되지는 않는다.

[표 1]은 에 대한 내부 처리 방법을 제어하는데 기능하는 부가입력정보 항목 예시를 나타낸다.

항목	변수 타입			...
중요도	Number	2	1	...	3
가중치	Number	1/N	5/N	...	0
외부데이터 확장 유무	Boolean	True	True	...	False
저장부 저장 유무	Boolean	True	False	...	True
증식 기준으로 활용 유무	Boolean	True	False	...	False
메타정보 기반 처리 유무	Boolean	True	True	...	True
농축정보 기반 처리 유무	Boolean	False	True	...	False
...	...	...	...	...	...

[표 2]는 의 속성을 기술하는 부가입력정보 항목 예시를 나타낸다.

항목	변수 타입			...
분류 클래스	String	사물	사물	...	행위
텍스트 메타정보	String	사과, 과일	고구마	...	말하다
미디어 타입	Dictionary	image	video	...	audio
파일 확장자	Dictionary	png	mp4	...	mp3
위치정보	String	{위도,경도}	{위도,경도}	...	{위도,경도}
시간정보	String	YYYY-MM-DD hh:mm:ss	YYYY-MM-DD hh:mm:ss	...	YYYY-MM-DD hh:mm:ss
...	...	...	...	...	...

[표 3]은를 이용한 학습과정 중에 일시적으로 발생하는 데이터에 대한 부가입력정보 항목 예시를 나타낸다.

항목	변수 타입	단위			...
학습에 걸리는 시간	Number (float)	초	1	0.5	...	2
학습에 필요한 메모리	Number (float)	MBytes	100	105	...	90
...	...		...	...	...	...

부가정보들은 [표 1]과 같이 입력데이터 를 내부적으로 처리하는 방법을 제어하기 위한 관련한 항목 정보, [표 2]와 같이 입력된 미디어 콘텐츠 의 속성을 기술하는 항목 정보 및 [표 3]과 같이 입력데이터 를 이용한 학습과정 중에 일시적으로 발생하는 데이터에 대한 항목으로 분류할 수 있다.

[표 1]에서 “중요도 (type: Number)” 항목의 경우, 숫자로 표현되는 변수가 될 수 있는데, 입력데이터에 대한 개의 원소 각각의 상대적, 또는 절대적인 중요도를 나타내는 값이다. 정의에 따라서 숫자가 클수록 중요도가 높다고 평가할 수도 있고, 숫자가 작을수록 높은 우선순위(Priority)를 갖는다고 평가할 수도 있다. 데이터 처리부(110)는 중요도에 따라 입력 데이터별로 투입할 연산 자원을 차등 적용하거나, 가능한 분석 처리 중에서 더 많은 시도를 하거나, 출력을 위한 선별이 필요할 때 우선순위를 결정하거나, 저장부에서 유사한 데이터를 가져오거나, 저장부에 분석된 데이터를 중요도에 따라 차등하여 넣거나, 외부 데이터 수집부를 통해 수집해야 할 데이터 항목에 대한 우선순위를 통제할 수 있다. 일례로 [표 1]에서는 2번 입력데이터 에 대한 부가정보가 이고, “중요도”는 “1”의 값을 갖는다. 낮은 숫자를 더욱 중요하다고 간주한다면 는 출력데이터에 그대로 포함될 가능성, 저장부에 보관될 가능성, 외부 데이터 수집부를 통해 관련된 데이터를 수집할 가능성이 전반적으로 높아질 수 있다.

[표 1]에서 “가중치 (type: Number)”도 숫자로 표현되는 변수가 될 수 있는데, “중요도”와 마찬가지로 “가중치” 정보를 이용하면 출력데이터, 저장부(120), 외부데이터 수집부(130)와 상호 연계를 하여 가중치가 높은 데이터에 대해서 출력, 저장, 외부데이터 수집의 우선순위를 부여할 수 있고, 데이터 처리를 위한 연산자원 사용의 우선순위를 결정하는데 활용할 수 있다. 단, 가중치의 경우,개의 입력 원소에 대한 가중치 전체의 합이 1이 되도록 하여 상대적인 중요도를 명시적으로 결정함으로써 각 원소별 우선순위 및 중요성을 수치적(Numerical)으로 표현하는 것이 전술한 “중요도” 항목과의 차이가 된다.

[표 1]에서 “외부데이터 확장 유무 (type: Boolean)” 항목은 {“True”, “False”} 혹은 {“1”, “0”} 혹은 {“ON”, “OFF”} 등과 같이 이진(binary) 데이터 타입으로 표현되는 변수가 될 수 있는데, 명시적으로 해당 데이터와 관련된 외부데이터를 수집할지 여부를 지정하는 것이다. 해당 항목이 “True”, “1”, “ON”과 같은 값을 갖는다면 관련되는 외부데이터를 적극적으로 수집하도록 유도할 수 있고, 반대의 경우 해당 데이터에 대한 수집은 하지 않도록 강제할 수 있다. 일례로 “중요도”나 “가중치”의 값이 높더라도 명시적으로 외부데이터를 수집하지 않도록 강제할 수 있으므로, 데이터 수집에 따른 비용 및 이슈 등을 고려하여 작업 수행 여부를 결정하는 것이 가능한 장점이 있다.

[표 1]에서 “저장부 저장 유무 (type: Boolean)” 항목도 “외부데이터 확장 유무”와 유사하게 이진 데이터 타입으로써 데이터 처리부(110)를 통해 처리된 데이터를 저장부(120)에 기입할지 여부를 명시적으로 정할 수 있도록 한다.

[표 1]에서 “증식 기준으로 활용 유무 (type: Boolean)” 항목도 이진 데이터 타입으로써, 해당 데이터를 기준으로 저장부(120)에서 관련된 데이터를 추출하여 이를 출력데이터로 내보낼 지를 정하는 역할을 할 수 있다. 일례로 [표 1]에서 에 대한 부가정보 은 “증식 기준으로 활용 유무”가 “True”이므로 이와 관련된 데이터를 저장부에서 찾아서 추가로 출력할 수 있다.

[표 2]의 예에서 에 대한 “텍스트 메타정보”는 “사과, 과일”이라고 메타정보가 포함되어 있으므로 저장부에서 메타정보를 상호 비교하여 “사과”나 “과일”과 연관된 {“빨간사과”, “녹색사과”, “배”, “키위”, ... } 와 같은 데이터를 추출할 수도 있고, 입력된 미디어 콘텐츠를 농축정보(Concentrated information)로 변환하고 이를 저장부에 있는 데이터들의 농축정보를 상호 비교하여 추출할 수 도 있다. 단, 이 예시에서는 “사과”보다 “과일”이 보다 포괄적인 개념이므로 2가지 개념의 합집합에 해당하는 “과일” 집합이 출력으로 표시될 가능성이 커졌는데, 메타정보에 {AND, OR, NOT} 과 같은 논리적 연산자를 부가하여 메타정보의 범위와 개념을 한정하는 처리도 물론 가능하다.

[표 1]에서 “메타정보 기반 처리 유무 (type: Boolean)” 항목도 이진 데이터 타입으로써, 본 발명의 실시예에 따른 학습데이터 처리장치가 데이터 선별, 증식, 분석, 가공과 같은 처리를 함에 있어서 이미지, 텍스트, 오디오, 비디오와 같은 타입의 미디어 데이터에서 메타정보를 추출하고, 이에 기반하여 전반적인 데이터 처리를 수행할 것인지 유무를 학습데이터 처리장치에게 알려준다.

[표 1]에서 “농축정보 기반 처리 유무 (type: Boolean)” 항목도 이진 데이터 타입으로써, 본 발명의 실시예에 따른 학습데이터 처리장치가 데이터 분석, 가공, 선별과 같은 처리를 함에 있어서 이미지, 텍스트, 오디오, 비디오와 같은 타입의 미디어 데이터에서 농축정보를 추출하고, 이에 기반하여 전반적인 처리를 수행할 것인지 유무를 학습데이터 처리장치에게 알려준다.

[표 2]는 부가입력정보 에서 메타정보 관련 항목의 예시이다.

[표 2]의 “분류 클래스” 항목은 문자열 데이터 타입으로써, 어떤 객체를 기술하기 위한 메타정보로써 객체의 속성, 관계, 의미를 공유하기 위해 서로 중복되지 않게 정의한 유한한 집합이다. 일례로 동물 클래스는 {“사자”, “호랑이”, “사슴”, “토끼”}와 같이 나타낼 수 있고, 육식동물 클래스는 {“사자”, “호랑이”}로, 초식동물 클래스는 {“사슴”, “토끼”}처럼 나타낼 수 있다. 이와 같이 분류 클래스 정보를 이용하면 출력 데이터를 원하는 확률분포(Probability distribution), 또는 발생빈도(Histogram, Frequency)로 출력하는 것이 용이하다.

본 발명의 실시예에 따른 학습데이터 처리 장치는 분류 클래스 정보를 다음과 같이 활용한다. 주어진 입력데이터에 육식동물 클래스 {“사자”, “호랑이”}로 정의된 데이터들이 있다고 가정한다. 그리고 “사자” 클래스가 20개, “호랑이” 클래스가 10개였다고 가정한다. 이 경우 학습데이터 처리장치는 다음과 같은 방식으로 데이터를 출력하는 것이 가능하다.

(i) “사자” 클래스 5개, “호랑이” 클래스 5개 → “사자” 클래스 20개 중에서 대표성을 갖는 것으로 판단하는 5개를 선별하고, “호랑이” 클래스 10개 중에서 대표성을 갖는 것으로 판단하는 5개를 선별하여 출력한다.

(ii) “사자” 클래스 10개, “호랑이” 클래스 10개 → “사자” 클래스 20개 중에서 대표성을 갖는 것으로 판단하는 10개를 선별하고, “호랑이” 클래스 10개를 그대로 출력한다.

(iii) “사자” 클래스 20개, “호랑이” 클래스 20개 → “사자” 클래스 20개를 그대로 출력하고, 입력된 “호랑이” 클래스 10개와 저장부에서 10개를 추가로 선별하여 합계 20개를 출력한다.

(iv) “사자” 클래스 m개, “호랑이” 클래스 n개 → “사자” 클래스와 “호랑이” 클래스를 입력된 것보다 출력할 것이 적으면 입력된 데이터에서 대표성을 갖는 데이터 m개와 n개를 각각 출력하고, 입력된 것보다 출력할 것이 많으면 입력된 데이터의 수에 저장부(120)의 데이터를 추가로 선별하여 m개와 n개를 구성한 후에 출력한다.

전술한 예에서는 선별처리, 증식처리에 관한 구체적인 예를 보여주며, 이러한 처리는 데이터 처리부(110)를 중심으로 이뤄진다.

[표 2]의 “텍스트 메타정보” 항목은 문자열 데이터 타입으로써, 어떤 객체를 기술하는 메타정보로써 통상적으로 어노테이션(annotation)정보, 태그(tag)정보라고 칭하며, 단어나 문자열들의 집합이 될 수 있다.

앞서 설명한 예시와 같이 “텍스트 메타정보”는 “사과, 과일”과 같이 표현할 수 있고 {AND, OR, NOT} 과 같은 논리적 연산자를 부가하여 메타정보의 범위와 개념을 한정하는 처리도 가능하다.

[표 2]의 “미디어 타입” 항목은 종래의 미디어 타입(Media type), MIME 타입 (Multipurpose Internet Mail Extensions) 타입, 콘텐츠 타입(content type)과 같은 정보를 명시적으로 기술하기 위한 것이다.

[표 2]의 “파일 확장자” 항목은 파일 확장자(file extension) 정보를 명시적으로 기술하기 위한 것이다.

[표 2]의 “GPS 위치정보” 항목은 콘텐츠와 연계된 위치정보에 대한 것으로써, 미국의 GPS(Global positioning system)나 유럽연합의 갈릴레오, 인도의 IRNSS, 일본의 QZSS, 향후 대한민국의 KPS(한국형 위성항법시스템, Korean Positioning System)와 같은 위치정보 (위도, 경도, 고도)를 명시적으로 기술하기 위한 것이다.

[표 2]의 “시간정보” 항목은 콘텐츠와 연계된 시간정보에 대한 것으로써, 날짜, 시간과 같은 시간 정보를 명시적으로 기술하기 위한 것이다.

[표 3]의 “학습에 걸리는 시간”, “학습에 필요한 메모리” 항목의 경우 주어진 가용 자원을 고려하여 데이터를 선별하는데 활용하기 위한 것이다. 예를 들어 도 3의 (2), (3), (4)와 같이 본 발명의 실시예에 따른 학습데이터 처리장치가 학습 과정 중에 인루프 형태로 탑재되어 기능이 수행된다면 학습이 반복적으로 진행됨에 따라서 일시적으로 관련 데이터가 바뀔 수 있게 되고, 이중에는 학습에 참여한 데이터별로 얼마만큼의 연산자원이 사용되는지를 추정할 수 있다. 그리고 학습에 사용된 시스템의 CPU 성능, GPU 성능, 메모리 용량이 함께 제공되고, 목표로 하는 연산시간, 연산자원을 본 발명의 실시예에 따른 학습데이터 처리장치로 제공함으로써 이에 맞춰 데이터를 선별하고 제공하는 것이 가능하다.

이하에서는, 본 발명의 실시예에 따른 학습데이터 처리장치의 출력데이터에 대해 설명한다.

전술한 바와 같이, 본 발명의 실시예에 따른 학습데이터 처리 장치 내의 데이터 처리부는 선별처리, 증식처리, 분석처리, 가공처리중에서 일부 혹은 전부를 조합하여 수행한 후 개의 데이터 를 출력한다.

또한 각각의 출력 원소에 대응하는 부가정보 를 제공할 수 있으며, 출력 데이터 생성 방식의 예는 다음과 같다.

(i) 출력데이터는 입력데이터혹은 를 그대로 혹은 로 출력할 수 있다.

(ii) 출력데이터는 입력데이터혹은 의 일부를 선별처리를 통해 선별하여 혹은 로 출력할 수 있다.

(iii) 출력데이터는 입력데이터혹은 의 일부 혹은 전부를 선별적으로 취하고, 저장부에 있는 데이터를 추가로 추출하는 증식처리를 하여 혹은 로 출력할 수 있다.

(iv) 출력데이터는 입력데이터 없이 저장부의 데이터만을 사용하여 혹은 로 출력할 수 있다.

(v) 상기 (i) 내지 (iv)에 대해서 입력데이터 및 저장부의 데이터를 분석처리, 가공처리를 추가로 하여 혹은 로 출력할 수 있다.

출력데이터의 부가정보는 [표 1]내지 [표 2]와 같은 항목의 데이터를 그대로 제공하거나, 선별하거나, 추가하거나, 가공하여 제공할 수 있다. 이와 관련한 예시로써 [표 2]의 “분류 클래스” 항목의 구체적인 값이 바뀔 수도 있고, “새로운 분류 클래스”라는 새로운 항목이 추가되어 자체적인 분류 결과를 기입하여 출력할 수도 있다. 그리고 데이터 처리부에서 수행한 농축정보 추출 작업을 통해 생성된 농축정보를 출력으로 제공할 수도 있다.

이하에서는, 본 발명의 실시예에 따른 학습데이터 처리장치의 입출력을 위한 부가정보의 물리적 형태에 대해 설명한다.

전술한 입력데이터 및 출력데이터 중 부가정보들은 본 발명의 실시예에 따른 학습데이터 처리 장치와 연계되기 위해 파일이나 공유메모리 형식으로 연동된다.

일례로 파일 형식으로는 텍스트(Text), 제이슨(json, Javascript Object Notation), 콤마로 분리된 파일 형식(CSV, Comma Separated Values), XML(eXtensible Markup Language), 스프레드시트(Spread Sheet), 마크다운(Markdown), 이진 압축 데이터 형식 등이 가능하다.

공통적으로 데이터 형식이 일정하고 구조적 (Structured)인 형태를 갖는 것이 부가정보를 표현하는데 있어서 바람직하다.

이하에서는, 본 발명의 실시예에 따른 학습데이터 처리장치의 데이터 처리부(110)에 대해 설명한다.

도 4는 본 발명의 실시예에 따른 데이터처리부(110)의 구성을 도시한다.

본 발명의 실시예에 따른 데이터처리부(110)는 선별 및 증식처리부(111), 분석처리부(112), 가공처리부(113)를 포함하고, 미디어 콘텐츠 및 부가정보와 관련하여 처리를 수행하며,이러한 작업을 저장부(120)와 연계하여 수행하는 것이 바람직하고, 선택적으로 외부 데이터 수집부(130)와 연계된다.

선별 및 증식처리부(111)는 미디어 콘텐츠(이미지,텍스트,오디오,비디오)의 대표성을 갖거나 학습에 주된 역할을 담당할 것으로 판단되는 것을 추출한다. 또는, 선별 및 증식처리부(111)는 유사하거나 연계된 미디어 콘텐츠를 저장부(120)로부터 찾아서,출력되는 데이터 수를 입력된 데이터 수에 비해 늘려준다.

분석처리부(1121)는 메타정보 분석, 농축정보 분석을 수행한다. 메타정보 분석은 데이터 속성을 기술하는 메타정보를 새롭게 찾거나, 이미 기입된 정보를 갱신한다. 농축정보 분석은 데이터의 핵심 정보를 적은 데이터로 표현하는 농축정보를 새롭게 찾거나 이미 확보된 정보를 갱신한다.

가공처리부(113)는 각종 데이터 가공 작업을 수행하여, 출력데이터의 규격을 일관성 있게 맞추거나 학습에 사용할 수 있도록 한다.

선별 및 증식처리부(111)의 선별처리는 주어진 이미지, 텍스트, 오디오, 비디오에 대해서 대표성을 갖거나 학습에 도움이 될 것으로 판단되는 데이터를 선택하고 이를 추출한다.

선별 및 증식처리부(111)는 [표 1]과 [표 2]와 관련한 설명에서 서술한 바와 같이,“중요도”, “가중치”와 같은 정보를 기초로 정렬하여 중요하거나 우선순위에 따라 출력할 수 있다.

선별 및 증식처리부(111)는 [표 2]와 같은 부가정보를 기초로 적절한 확률 분포를 갖는 데이터를 구성하고 이를 출력할 수 있다. 도 5는 이에 대한 예시로, 자율주행 자동차의 학습데이터를 구성함에 있어서 분류 클래스별로 데이터를 구성하고, 지역, 날씨와 같은 부가정보를 통해 선별하는 예시를 보여준다. 데이터 편향(bias)이 발생하지 않도록 균등분포(Uniform distribution)가 되도록 데이터를 선별 및 증식하여 출력하는 것이 바람직하지만, 경우에 따라서 데이터 분포에 따른 성능 차이 검증이 필요한 경우도 있으므로, 본 발명의 실시예에서는 임의의 원하는 확률 분포에 맞게 클래스별로 출력 데이터의 분포를 정할 수 있다. 이와 관련하여 목표로 하는 확률분포를 명시적으로 알려주는 항목을 [표 1]에 추가할 수 있다.

선별 및 증식처리부(111)는 [표 3]과 관련한 설명에서 기술한 바와 같이, 학습에 쓰이고 있는 시스템의 CPU 성능, GPU 성능, 메모리 용량이 함께 제공되고, 목표로 하는 연산시간, 연산자원에 맞춰서 데이터를 선별하고 제공한다.

예컨대 시스템의 가용 연산시간이 10 이라면 [표 3]과 같은 부가정보를 활용하여 각각의 데이터의 연산시간의 합이 10이하가 되도록 데이터를 선별한다.

선별 및 증식처리부(111)는 [표 1]에 기재한 중요도나 우선순위, 가중치를 고려하여 연산시간이나 메모리에 맞는 데이터를 출력할 수 있다. 즉, 조합방법에 따라 다양한 변형 응용이 가능하다.

선별 및 증식처리부(111)는 주어진 이미지, 텍스트, 오디오, 비디오와 유사하거나 연계된 미디어 콘텐츠를 저장부에서 찾아서 출력되는 데이터 수를 입력된 데이터 수에 비해서 늘려주는 증식과정을 위한 별도의 처리 과정을 담당한다. [표 2]의 “분류 클래스” 정보에 대한 설명에서 육식동물 클래스 {“사자”, “호랑이”}의 출력 분포를 20:10에서 m:n 으로 바꾸어 출력하기 위해서는 입력되지 않은 데이터를 저장부에서 가져오는 작업이 필요하다.

증식을 위해서는 선별 및 증식처리부(111)가 [표 1]의 “증식 기준으로 활용 유무”와 같은 명시적인 정보를 기반으로 원하는 입력데이터에 대해서 관련되는 데이터를 저장부(120)에서 찾아서 이를 출력하도록 처리한다. 저장부(120)에서 찾는 과정은 [표 2]의 속성과 관련된 부가정보를 이용하거나, 이하 서술하는 분석처리부(112)에서 추출한 메타정보나 농축정보를 이용하여 유사도가 높은 자료를 검색하여 추출한다.

전술한 예에서는 [표 1]의 외부 입력정보를 이용하는 예를 설명하였으나, 본 발명의 실시예에 따르면 외부 정보에만 의존하지 않고 학습데이터 처리 장치의 자체적인 기준으로도 선별 및 증식을 수행할 수 있다.

도 6을 참고하면, 입력데이터가 2개의 분류기준에 따라 2차원 평면상에 “네모”, “동그라미”, “마름모”, “세모”와 같이 4개의 분류 클래스로 나뉘어져 있다고 가정한다.“네모”, “동그라미”, “마름모” 클래스는 각각 3개의 원소를 가지고 있지만, “세모” 클래스는 1개의 원소만 가지고 있다. 이런 데이터를 학습에 사용하게 되면 편향(Bias)된 학습이 이뤄질 가능성이 존재하므로, 본 발명의 실시예에 따르면 저장부에서 메타정보 및 농축정보를 이용하여“세모”와 유사한 데이터를 검색하고 증식하여 출력할 수 있다.

도면 6과 관련하여 선별 및 증식처리부(111)는 데이터 분포를 고려하는 것 뿐만 아니라, 경계에 위치하는 데이터에 대해서도 검색하여 이를 출력에 추가할 수 있다.

도 7을 참고하면, 경계 데이터란 “네모”와 “동그라미” 사이, “동그라미”와 “마름모” 사이, “네모”와 “마름모” 사이처럼 경계부에 존재할 수 있는 데이터를 의미한다.

통상적으로 이런 데이터는 구분이 모호하여 학습을 어렵게 하지만, 오히려 이런 데이터를 잘 처리하는 인공신경망 모델이 존재한다면 현장에서 우수한 추론 성능을 보일 가능성이 존재한다.

본 발명의 실시예에 따르면, 메타정보와 농축정보를 이용하여 경계 데이터를 찾는다.

통상적으로 메타정보와 농축정보는 벡터 공간에 표현될 수 있는데, 이는 도 7에 도시한 바와 같이 임의의 기하학적 평면에서 벡터로 상대적 위치를 기술할 수 있다는 의미이다.

도 7을 참고하면,“네모”와 “마름모”의 경계를 찾기 위해서 “네모”에 대한 군집의 중심을 “벡터 A”로 찾고, “마름모”에 대한 군집의 중심을 “벡터 B”로 찾게 되면 “벡터 A”와 “벡터 B”의 중간위치 “벡터 C”가 경계에 해당하는 하나의 위치가 될 수 있다.

메타정보와 농축정보는 본 발명의 실시예에 따른 학습데이터 처리 장치의 외부에서 주입될 수 있고, 본 발명의 실시예에 따른 분석처리부(112)에서 자체적으로 비어있는 메타정보와 농축정보를 새로 찾아내거나, 이미 존재하는 경우 이를 다시 수행하는 구성요소를 제공한다.

메타정보는 이미지, 텍스트, 오디오, 비디오와 같은 서로 다른 형식의 데이터들을 동시에 처리하기 위해 고안된 것으로, 이미지, 동영상, 오디오, 텍스트 정보가 함께 입력되더라도 이를 공통의 기준을 통해 분류 및 선별할 수 있게 된다.

단순 농축정보는 동일한 미디어 타입에 대해서만 서로 비교가 가능한 측면이 있으나, 후술하는 조인트 농축정보는 이미지, 동영상, 오디오, 텍스트 상호간 비교를 지원하는 것이 가능하다.

메타정보 분석은 입력된 콘텐츠를 효율적으로 이용하기 위해 설명하는 정보를 찾는 과정으로, 크게 2가지 방식으로 이뤄지는데, 사전에 주어진 정보를 검토하여 찾는 방식과 원시 콘텐츠를 자체적으로 분석하여 취득하는 방식이 있다.

첫 번째 메타정보 분석 접근법은 다음과 같다.

이미지, 텍스트, 오디오, 비디오와 같은 콘텐츠는 통상적으로 생성한 시간, 데이터 크기, 생성 장소와 같은 정보를 포함할 수 있는데 일례로 “이미지”의 경우에는 부가적으로 EXIF(EXchangable Image File format) 정보를 활용할 수 있다. 본 발명의 실시예에 따르면 분석처리부가 이러한 정보를 확보하여 각각의 데이터별로 [표 2]와 같은 속성 정보에 추가하고, 필요 시 저장부에 저장한다.

두 번째 메타정보 분석 접근법은 다음과 같다.

이미지, 텍스트, 오디오, 비디오와 같은 데이터에서 각각의 객체를 표현하는 속성, 객체, 설명을 기계학습과 같은 과정을 통해 추출하며, 이는 텍스트와 같은 같은 메타정보로 정의할 수 있다. 추출된 메타정보를 이용하면 데이터 사이의 유사도를 계산할 수 있으며, 이때 메타정보는 딕셔너리(사전, dictionary) 형태로 사전에 정의되어있는 것이 바람직하다. 메타정보 사이의 유사도 계산은 TF-IDF(Term Frequency-Inverse Document Frequency), LSI(Latent Semantic Indexing), LDA(Latent Dirichlet Allocation), Word2Vec, Word2Doc, 각종 Word Embedding과 같은 방법을 사용한다.

추출된 메타정보는 데이터를 기술하는 새로운 속성 정보가 될 수도 있고, 종래의 메타정보를 갱신할 수도 있다.

본 발명의 실시예에 따른 분석처리부(112)에서 농축정보를 계산하는 과정은 다음과 같다.

이미지, 텍스트, 오디오, 비디오에 대해서 차원을 축소와 같은 정보압축을 수행하여 입력된 데이터에 비해서 적은 크기의 데이터로 변환한다. 이를 위해서는 PCA나 LDA와 같은 연산을 수행한 후 고유벡터(Eigen Vector), 주성분(Principle component) 요소를 농축정보로 사용할 수 있으며, 이러한 농축정보는 기저벡터(Basis vector)가 되어, 해당 벡터 공간에서 데이터 사이의 유사도나 군집화 계산을 수행할 수 있다.

또 다른 농축정보계산방법으로는 입력된 이미지, 텍스트, 오디오, 비디오에 대해서 상위 수준의 시맨틱 정보를 얻을 수 있는 인공신경망에 통과시킨 후, 인공신경망에서 시맨틱 정보를 포함하는 레이어(Layer) 정보를 농축정보로 사용한다. 이러한 농축정보를 취득하는 인공신경망으로는 오토인코더나, 변이형 오토인코더, 생성적 적대 신경망과 같은 방식을 사용할 수 있다. 일례로 농축정보를 생성할 수 있는 종래의 잘 알려진 신경망으로는 구글의 인셉션넷(inception), 옥스포드 대학교의 VGG넷, 스퀴즈넷(SqueezeNet)을 들 수 있다. 이러한 인공신경망들은 학습이 수행되면 특정한 신경망 계층(layer)의 경우 표현 벡터(Representation vector)라고 칭할 수 있는 요소가 학습을 통해 만들어질 수 있다. 표현 벡터는 벡터의 차원에 해당하는 대수적인 공간을 나타내는데 이를 잠재 공간(Latent space)라고 부를 수 있으며 이것이 일종의 농축정보로 기능하게 된다.

이미지에 대해서 인공신경망으로 농축정보를 얻는 과정을 보다 구체적으로 살펴보면 입력된 영상(흑백 혹은 컬러)에 대해서 표현 벡터 혹은 잠재 공간을 생성한다. 일례로 가로가 100픽셀, 세로가 100픽셀, RGB 컬러 채널이 3개인 컬러영상은 100x100x3이라는 텐서(tensor)로 표현할 수 있고, 이 값이 인공신경망을 통해 2x1 크기의 표현 벡터로 축소되었다면, 결과적으로 100x100x3 영상이 2차원의 잠재 공간에 인코딩(혹은 매핑 혹은 projection 혹은 사상)되었다고 볼 수 있고, 이것이 농축정보가 된다.

농축정보는 보다 일반적으로 비선형으로 차원을 축소(Nonlinear dimensionality reduction)하는 과정에서 생기는 취득하는 정보라고도 볼 수 있다. 먼저 영상 가 입력되어 라는 저차원 표현 벡터를 출력하는 과정을 비선형 차원축소 과정 라고 가정한다. 비선형 차원축소를 위한 함수 는 다수의 함수들이 합성된 와 같은 형태로 표현될 수 있다. 이때 각각의 부분 함수들은 선형 혹은 비선형 함수가 될 수 있으며, 따라서 최종 는 비선형 함수가 된다. 비선형 차원축소를 위한 바람직한 방법으로는 Laplacian eigenmaps, Isomap, LLE(Local Linear Embedding), t-SNE(Stochastic Neighbor Embedding), 오토인코더(Autoencoder), VAE(변이형 오토인코더, Variational Autoencoder) 등이다. 이런 과정을 통해 상위수준의 의미(시맨틱, Semantic) 수준의 정보를 얻을 수 있고 이것이 농축정보가 될 수 있다.

이와 같이 이미지, 텍스트, 오디오 등의 다양한 형태의 데이터들에서 각각 상위 수준의 메타정보 (Semantic Information)와 농축정보를 추출하고, 이를 해당 메타정보 공간이나 벡터공간에서 유사도를 측정함으로써 본 발명의 데이터 처리부는 데이터간 유사도, 군집, 이상치 검출, 경계값 추출 등의 다양한 처리를 할 수 있다.

가공처리부(113)는 먼저 데이터들 사이의 규격을 가급적 일치시키는 역할을 수행한다. 일례로 입력데이터가 이미지이고 크기가 100x100 크기인데, 저장부에서 검색된 이미지의 크기가 640x480 이라면 영상을 잘라내기(crop)하거나 크기변환(resize)를 수행하여 일관된 크기로 바꿔주는 처리가 필요하다. 이때 규격 일치를 위한 가공 처리를 위해서는 동일한 미디어 타입인 경우여야만 올바른 처리가 가능하다. 일례로 이미지와 이미지간 변환은 바람직하지만, 이미지와 오디오 사이의 변환은 가능하지 않다.

데이터 처리부(110)내부의 가공처리부(113)는 메타정보나 농축정보 사이의 규격을 가급적 일치시키는 역할을 수행한다. 일례로 메타정보의 형식의 다르거나 일부 데이터에는 메타정보가 있고, 일부에는 비어있다면, 비어있는 메타정보를 분석처리부(112)에서 계산하여 빠진 부분의 정보를 메꿔 넣는 작업을 수행하여, 가급적 출력데이터의 규격 혹은 형식을 일관성 있게 일치시킨다.

가공처리부(113)는 이미지, 텍스트, 오디오, 비디오와 같은 미디어 콘텐츠에 대해서 이종의 미디어 상호간 서로 비교가 가능한 조인트 농축정보를 생성한다. 조인트 농축정보생성을 위해서는 종래의 인공신경망 기술 중의 하나인 조인트 임베딩 인공신경망기법을 적용하여, 이미지, 텍스트, 오디오, 비디오와 같은 서로 다른 형태의 데이터들 상호간에도 유사도 비교와 같은 처리가 가능하므로, 본 발명의 실시예에 따른 선별 및 증식처리부에서 달성하고자 하는 기능들을 수행할 수 있게 된다.

이하에서는, 본 발명의 실시예에 따른 학습데이터 처리장치의 저장부(120)에 대해 설명한다.

저장부(120)는 전술한 내용들을 실제 저장하며, [표 4] 내지 [표 6]의 예와 같이 저장한다.

저장부(120)에는 [표 4]와 같이 메타정보와 농축정보가 저장되고, 데이터가 입력된 시간, 출력요청 빈도와 같이 출력이 될 때마다 값이 증가되어 자주 사용되는 데이터를 확인할 수 있도록 한다.

메타정보와 농축정보를 기초로 저장된 데이터들 상호간에 관련이 있는지를 기술하는 항목을 추가하면 향후 빠른 데이터 추출에 유리하다. [표 4]에는 표시하지 않았지만 모든 데이터들 상호간 유사도 및 연관성을 빠르게 확인하기 위해 연관그래프를 생성하고 상호 데이터간 유사도를 계산해서 저장할 수 있다. 이런 작업은 사전에 미리 처리해 놓는 것이 바람직하다.

그리고 “유일성 판단 데이터”의 경우 데이터를 SHA256과 같은 SHA계열의 해시함수, MD5 해시함수, CRC32와 같은 비암호학적 해시함수를 사용하여 획득한 해시값을 의미한다. 이 값은 데이터 처리부에서 새로운 데이터가 입력되어 저장부에 데이터를 넣으려고 할 때, 같은 데이터가 중복으로 들어가 있는지를 확인하는데 사용할 수 있다. 예를 들어, 저장부에 새롭게 입력하려는 데이터는 해시값을 먼저 계산하고 이미 입력된 데이터의 해시값(유일성 판단 데이터)이 없다면 저장부에 넣고, 이미 있다면 그 데이터는 저장부(120)에 입력하지 않는다. 이를 통해 중복 저장을 미연에 방지할 수 있다.

저장부(120)에는 새롭게 저장하려는 데이터에 대해서 종래의 메타정보와 농축정보를 비교하여 임계 차이 이상, 이하, 동일성을 검토하여 조건에 맞는 데이터만을 저장부에 저장할 수 있다.

	데이터 1	데이터 2	데이터 3	데이터 4	...
메타정보	메타정보1	메타정보2	메타정보3	메타정보4	...
농축정보	농축정보1	농축정보2	농축정보3	농축정보4	...
데이터가 입력된 시간	YYYY-MM-DD hh:mm:ss	YYYY-MM-DD hh:mm:ss	YYYY-MM-DD hh:mm:ss	YYYY-MM-DD hh:mm:ss	...
출력요청 빈도	10	32	1	0	...
연관 데이터	{2, 3}	{1, 3}	{1, 2}	YYYY-MM-DD hh:mm:ss	...
유일성 판단 데이터 (예: 해시값)	(예) 해시값 1	(예) 해시값 2	(예) 해시값 3	(예) 해시값 4	...

[표 5]는 [표 4]에 나타낸 메타정보들을 나타낸다. 앞서 [표 3]과 같이 외부에서 입력된 메타정보를 그대로 활용할 수도 있고 분석처리부를 통해 갱신되거나 항목이 추가된 값이 저장될 수 있다.

[표 6]은 [표 4]에 나타낸 농축정보들을 나타낸다. 앞서 분석처리부에서 설명한 바와 같은 농축정보를 저장한다. [표 6]의 예에서는 데이터를 앞서 설명한 방법들을 기초로 데이터를 벡터공간에 임베딩(embedding) 했을 때, 그 값을 표현하는 예이다.

	메타정보1	메타정보2	메타정보3	메타정보4	...
분류 클래스	사물	사물	사물	동물	...
텍스트 메타정보	딸기	사과, 과일	고구마	사자	...
미디어 타입	image	image	video	image	...
파일 확장자	png	png	mp4	png	...
위치정보	{위도,경도}	{위도,경도}	{위도,경도}	{위도,경도}	...
시간정보	YYYY-MM-DD hh:mm:ss	YYYY-MM-DD hh:mm:ss	YYYY-MM-DD hh:mm:ss	YYYY-MM-DD hh:mm:ss	...
...		...	...	...	...

	농축정보1	농축정보2	농축정보3	농축정보4	...
axis 1	{float32}	{float32}	{float32}	{float32}	...
axis 2	{float32}	{float32}	{float32}	{float32}	...
axis 3	{float32}	{float32}	{float32}	{float32}	...
...	...	...	...	...	...
axis K	{float32}	{float32}	{float32}	{float32}	...
...		...	...	...	...

이하에서는, 본 발명의 실시예에 따른 학습데이터 처리장치의 외부데이터 수집부(130)에 대해 설명한다.

전술한 바와 같이, 외부데이터 수집부는 입력데이터와 , 그리고 저장부에 기록된 정보를 참고하여 외부 데이터 수집부에 외부데이터를 즉각적, 백그라운드(back ground), 혹은 일정별로 수집을 요구하면, 이를 외부 데이터 수집부가 확보하여 데이터 처리부가 분석처리하여 저장부에 넣을 수 있도록 한다.

이를 통해 데이터의 다양성을 높일 수 있으며, 외부데이터 수집부는 이런 역할을 위해 수집항목을 기술하는 큐(Queue)와 수집 스케줄러를 포함한다.

한편, 본 발명의 실시예에 따른 학습데이터 처리 방법은 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다. 컴퓨터 시스템은 적어도 하나 이상의 프로세서와, 메모리와, 사용자 입력 장치와, 데이터 통신 버스와, 사용자 출력 장치와, 저장소를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스를 통해 데이터 통신을 한다.

컴퓨터 시스템은 네트워크에 커플링된 네트워크 인터페이스를 더 포함할 수 있다. 프로세서는 중앙처리 장치(central processing unit (CPU))이거나, 혹은 메모리 및/또는 저장소에 저장된 명령어를 처리하는 반도체 장치일 수 있다.

메모리 및 저장소는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 메모리는 ROM 및 RAM을 포함할 수 있다.

따라서, 본 발명의 실시예에 따른 학습데이터 처리 방법은 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 학습데이터 처리 방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 학습데이터 처리 방법을 수행할 수 있다.

한편, 상술한 본 발명에 따른 학습데이터 처리 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

Claims

미디어 타입의 입력 데이터를 수신하는 경우 선별,증식,분석,가공 처리 중 적어도 어느 하나의 작업을 수행하고, 상기 입력 데이터에 대응하는 입력 부가정보를 처리하고, 출력 데이터에 대응하는 출력 부가정보를 출력하며, 데이터 분포 및 경계에 위치하는 데이터를 검색하여 증식처리를 수행하는 데이터 처리부;
외부 데이터에 대한 즉각적, 백그라운드, 일정별 수집 요구를 수신하여 외부 데이터를 확보하고 상기 데이터 처리부로 전달하는 외부 데이터 수집부; 및
상기 데이터 처리부에서 처리한 데이터를 저장하는 저장부를 포함하고,
상기 저장부는 시간에 따라 상기 입력 데이터가 지속적으로 주입되는 경우, 해시값 비교를 통해 중복 데이터의 저장을 방지하고, 메타정보 및 농축정보를 이용한 비교 결과에 따라 기준에 부합되는 것으로 확인된 데이터를 저장하고,
상기 데이터 처리부는 상기 입력 데이터, 상기 입력 부가정보, 상기 저장부에 기록된 정보를 참고하여 상기 외부데이터 수집부에 외부 데이터 수집을 요청하고, 상기 외부 데이터를 처리하여 상기 저장부에 저장하고 출력을 수행하고,
상기 입력 부가정보는, 중요도, 가중치, 외부데이터 확장 유무, 저장부 저장 유무, 증식 기준으로 활용 유무, 메타정보 기반 처리 유무, 농축정보 기반 처리 유무 중 적어도 어느 하나의 항목을 포함하고, 분류 클래스, 텍스트 메타정보, 미디어 타입, 파일 확장자, 위치 정보, 시간 정보 중 적어도 어느 하나를 포함하여 상기 입력 데이터의 속성을 나타내고, 상기 입력 데이터를 이용한 학습 과정 중 발생되는 데이터로서 학습에 걸리는 시간, 메모리 중 적어도 어느 하나를 포함하는 것
인 학습데이터 처리 장치.
제1항에 있어서,
상기 미디어 타입의 입력 데이터는 영상,텍스트,오디오,비디오 중 적어도 어느 하나를 포함하는 것
인 학습데이터 처리 장치.
삭제
제1항에 있어서,
상기 데이터 처리부는 상기 선별,분석,가공 처리 중 적어도 하나 이상의 작업을 수행하는 경우, 작업 수행 결과를 상기 저장부에 기록하고, 상기 저장부에 기저장된 데이터를 이용하여 상기 출력 데이터 및 출력 부가정보 중 적어도 어느 하나를 출력하는 것
인 학습데이터 처리 장치.
제1항에 있어서,
상기 데이터 처리부는 상기 입력 데이터와 상기 입력 부가정보가 존재하지 않으며 데이터 출력에 대한 요청이 있는 경우, 상기 저장부에 기록된 데이터를 선별하여 상기 출력 데이터 및 출력 부가정보 중 적어도 어느 하나를 출력하는 것
인 학습데이터 처리 장치.
삭제
삭제
삭제
삭제
삭제
제1항에 있어서,
상기 데이터 처리부는,
상기 입력 데이터에 대해 대표성을 가지거나 학습에 주된 역할을 담당할 것으로 판단되는 데이터를 추출하고, 상기 저장부에서 유사 연계된 미디어 콘텐츠를 찾는 선별 및 증식처리부;
메타정보 분석 및 농축정보 분석을 수행하는 분석처리부;및
출력 데이터의 규격을 조정하거나 학습에 사용할 수 있도록 데이터 가공을 수행하는 가공처리부
를 포함하는 것인 학습데이터 처리 장치.
삭제
제11항에 있어서,
상기 분석처리부는 상기 입력 데이터에서 객체를 표현하는 속성 및 설명을 기계학습 과정에서 추출하여 상기 메타정보를 정의하고, 추출된 상기 메타정보를 이용하여 데이터의 유사도를 계산하는 것
인 학습데이터 처리 장치.
제11항에 있어서,
상기 분석처리부는 상기 입력 데이터의 차원을 축소하는 정보압축을 수행하여 입력 데이터 대비 적은 크기의 데이터로 변환하여 상기 농축정보를 계산하는 것
인 학습데이터 처리 장치.
제11항에 있어서,
상기 가공처리부는 메타정보 및 농축정보 사이의 규격을 맞추고, 이종의 미디어 상호간 비교 가능한 조인트 농축정보를 생성하는 것
인 학습데이터 처리 장치.