KR20220077311A - 인공지능 모델 훈련 데이터셋의 관리방법 - Google Patents

인공지능 모델 훈련 데이터셋의 관리방법 Download PDF

Info

Publication number
KR20220077311A
KR20220077311A KR1020200165987A KR20200165987A KR20220077311A KR 20220077311 A KR20220077311 A KR 20220077311A KR 1020200165987 A KR1020200165987 A KR 1020200165987A KR 20200165987 A KR20200165987 A KR 20200165987A KR 20220077311 A KR20220077311 A KR 20220077311A
Authority
KR
South Korea
Prior art keywords
artificial intelligence
data
intelligence data
metadata
model training
Prior art date
Application number
KR1020200165987A
Other languages
English (en)
Other versions
KR102493655B1 (ko
Inventor
조영임
Original Assignee
가천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가천대학교 산학협력단 filed Critical 가천대학교 산학협력단
Priority to KR1020200165987A priority Critical patent/KR102493655B1/ko
Publication of KR20220077311A publication Critical patent/KR20220077311A/ko
Application granted granted Critical
Publication of KR102493655B1 publication Critical patent/KR102493655B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

인공 지능 데이터를 표현하는 메타 데이터 수집, 메타 데이터를 이용하여 상기 인공 지능 데이터를 표현, 인공 지능 데이터를 이용하여 데이터셋을 구성 및 데이터셋에 포함된 인공 지능 데이터 변환을 포함하는, 인공 지능 모델 훈련 데이터셋의 관리방법이 개시된다. 본 발명에 따르면, 빅 데이터의 가공 과정을 통해 인공 지능 모델의 학습에 사용되는 훈련용 데이터셋을 체계적으로 관리할 수 있다.

Description

인공지능 모델 훈련 데이터셋의 관리방법{METHOD FOR MANAGING AI MODEL TRAINING DATASET}
본 발명은 인공지능 훈련 데이터셋의 관리방법에 관한 것으로, 더욱 상세하게는 일반 데이터 또는 빅 데이터와 구별하여 인공지능 모델의 학습 훈련에 사용되는 데이터셋의 체계적인 활용을 위해 데이터셋을 관리하는 방법에 관한 것이다.
인공 지능(AI)에 대한 학자들의 정의는 다양하지만 공학적 관점에서 처음에는 이를 '지식과 기술을 요구, 처리 및 적용할 수 있는 능력을 가진 시스템 공학을 연구하는 학문'으로 정의하고, 좁은 의미로 '특정 문제를 해결하기 위해 잘 정의된 하나의 작업에 초점을 맞춘 AI'로 정의했다.
Stuart Russell과 Peter Norvig 저자의 유명한 책인 Artificial Intelligence - A Modern Approach에서 정의된 AI는 인간의 사고 행동(human thought behavior)을 연구하는 분야, 인간의 지능을 이해하려는 분야, 인간과 같은 문제를 해결하기 위해 기계를 연구하는 분야로 정의되었다.
그렇다면 인간 모델링 시스템은 얼마나 안정적이고 안정적일 수 있을까? 인공 지능이 보편적 기술로 발전할 때 현실에 인공 지능을 적용하는 문제를 어떻게 처리해야 할까? 실제로 AI는 인간과 협력한다는 개념에서 시작되었다. AI가 컴퓨터만큼 빨리 계산을 완료할 수 없는 인간의 능력을 강화하기 위해 AI를 장려하기 시작했지만, AI가 부족한 동작 및 감정 기능으로 인간과 협력하면 더 편리하고 행복한 세상이 될 것이며 인간은 AI가 이러한 세상을 구현하길 기대한다.
이러한 인간의 기대에 부응할 수 있는 미래 AI 기술은 바로 AGI(Artificial General Intelligence) 기술이다. 특정 영역에서 인간의 지능을 능가하는 AI를 편협한 AI로 본다면 범용 AI는 더 넓은 개념에 대해 이야기하면서 스스로를 학습하고 판단하는 주요 기술이다. 자연은 가장 어려운 기술이기 때문에 범용 AI가 지향하는 세계는 고도로 발전된 AI 세계이다.
인간은 자연스럽게 이전 경험이나 지식을 재사용하여 새로운 지식을 습득하고 비유, 창의성, 상상력과 같은 인지 능력을 통해 다른 분야의 지식을 연관시킵니다. 인간이 테니스를 배우면 배드민턴을 쉽게 할 수 있는 것처럼 AI도 유사한 작업을 학습할 때 전이 학습(Transfer Learning)을 사용한다. 전이 학습은 일반적으로 특정 데이터가 풍부한 분야에서 학습한 다음 무작위로 초기화하는 대신 이전에 학습한 지식을 기반으로 대상 영역에서 데이터를 미세 조정하고 학습하는 것을 말한다.
또 다른 예는 연합 학습(Federated learning, FL)이다. 이 방법은 지연 시간이 짧고 전력 소비가 적으며 프라이버시를 보장하는 분산 AI 방법이다. FL은 모든 학습 데이터를 기기에 보관하면서 공동으로 예측 모델을 공유한다.
미래의 고급 AI를 실현하기 위해 머신 러닝은 전체 AI가 아니지만 AI 머신 러닝은 모델 학습 및 검증 목적으로 많은 빅 데이터 특성(볼륨, 속도, 다양성 등)을 활용할 수 있다는 점에 주의해야 한다.
다양한 AI 응용 분야에서 대규모 비정형 데이터 컬렉션을 사용할 수 있으므로 지식 발견 및 패턴 인식과 같은 AI 기술을 사용한 결과 새로운 통찰력이 제공된다. 학습을 위해 방대한 양의 데이터를 사용할 수 있으므로 광범위한 애플리케이션을 처리할 수 있는 향상된 기계 학습 모델이 생성된다. 따라서 빅 데이터는 AI를 가능하게 하는 요소 중 하나이다.
빅 데이터는 중요한 AI 조력자이지만 빅 데이터 자체를 직접 활용하여 AI 시스템을 구현하는 것은 어렵다. AI 시스템에는 재사용을 위해 제공되어야 하는 다양한 AI 알고리즘 또는 애플리케이션에 맞는 데이터가 필요하다. 빅 데이터는 AI에 경제적, 기술적 이점을 제공할 것이다.
일부 전문가들은 AI가 특정 문제나 과제를 해결하기 위해 더 구체적이어야 한다고 말할 수 있지만, 미래의 데이터를 포함한 AI 기술은 AI에서 보편적이고 상호 운용이 가능할 것이다. 따라서 AI 데이터는 AI의 다양한 목적에 사용할 수 있는 보다 범용적인 데이터가 되어야 한다. 이를 위해 AI 데이터에는 잘 정의된 조직(organization)이 있어야 한다.
최근 AI의 발전이 수천만, 때로는 수십억 개의 최적화된 매개 변수(parameter)를 사용하는 딥 러닝에 의존한다고 해도 과언이 아니다. 이러한 활동을 더욱 지원하려면 AI가 데이터와 모델을 교환하여 자율적으로 지능(intelligence)을 전파, 개선 및 특성화하는 다음 단계의 AI를 준비하기 위한 표준이 필요하다. 일반적인 의미에서 AI 데이터는 AI 시스템 간의 의미 있는 상호 작용을 가능하게 하는 특정 종류의 데이터를 식별하는 것이다.
본 발명은 AI 데이터를 가장 잘 구성하는 방법, AI 데이터를 처리하는 방법, AI 데이터의 정의 및 결과를 설명하는 프레임 워크를 제공하여 AI 성능을 최적화하고, 훈련 매개 변수 및 데이터는 검증(verification) 및 확인(validation)을 통해 공유, 추적 및 재사용이 가능하다.
본 발명은 모든 유형의 조직에, 예를 들어 영리 기업, 정부 기관 및 비영리 단체에 적용된다.
관련 기술인 KR 제10-2157218호의 문헌은, 공간 데이터의 의미론적 주석을 위한 데이터 변환 방법에 관한 것으로, RDF 또는 RDB의 형식으로 구성된 공간 데이터의 의미론적 주석을 XML 형식으로 변환하기 위한 데이터 변환 방법을 개시하고 있어서, 빅 데이터와의 관계에서 인공 지능 학습에 필요한 훈련 데이터셋을 관리하는 것에 관한 본 발명과, 발명의 목적, 구성, 및 효과 면에서 차이를 보인다.
한국 등록 특허 제10-2157218호(2020.09.18 공고)
상기한 바와 같은 종래의 문제점을 해결하기 위해 본 발명이 해결하고자 하는 일 과제는, 빅 데이터의 가공 과정을 통해 인공 지능 모델의 학습에 사용되는 훈련용 데이터셋을 체계적으로 관리할 수 있는 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 일 과제는, 메타 데이터를 통해서 인공 지능 모델 훈련용 데이터셋을 표현하는 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 일 과제는, 효율적인 데이터 검색을 하기 위해 인공 지능 모델 훈련용 데이터셋의 표현 체계를 구성하는 방법을 제공하는 것이다.
상기 목적을 달성하기 위해, 본 발명의 일 실시 예에 따른 인공 지능 모델 훈련 데이터셋의 관리방법은, 인공 지능 데이터를 표현하는 메타 데이터를 수집하는 단계; 메타 데이터를 이용하여 상기 인공 지능 데이터를 표현하는 단계; 인공 지능 데이터를 이용하여 데이터셋을 구성하는 단계; 및 데이터셋에 포함된 인공 지능 데이터를 변환하는 단계를 포함하도록 구성될 수 있다.
또한, 메타 데이터를 수집하는 단계는, 설명에 관한 메타 데이터 및 주석에 관한 메타 데이터를 수집하는 단계를 포함하도록 구성될 수 있다.
또한, 인공 지능 모델 훈련 데이터셋의 관리방법은, 메타 데이터를 통해 표현된 인공 지능 데이터를 저장하는 단계를 더 포함하도록 구성될 수 있다.
또한, 인공 지능 데이터를 변환하는 단계는, 인공 지능 데이터가 적용되는 레벨 유형(level type)을 분류하는 단계를 더 포함하도록 구성될 수 있다.
또한, 레벨 유형(level type)은, 기능 레벨(function level), 기술 레벨(technology level), 알고리즘 레벨(algorithm level)을 포함하도록 구성될 수 있다.
또한, 인공 지능 데이터가 적용되는 레벨 유형(level type)을 분류하는 단계는, 기능 레벨에서, 상기 인공 지능 데이터를 예측(prediction), 추론(inference), 인식(recognition) 및 최적화(optimization)로 분류하는 단계를 포함하도록 구성될 수 있다.
또한, 인공 지능 데이터가 적용되는 레벨 유형(level type)을 분류하는 단계는, 기술 레벨에서, 회귀(regression), 추론의 구성 규칙(compositional rule of inference), 분류(classification clustering) 및 피트니스 함수(fitness function)로 분류하는 단계를 포함하도록 구성될 수 있다.
또한, 인공 지능 데이터가 적용되는 레벨 유형(level type)을 분류하는 단계는, 알고리즘 레벨에서, 신경망(Neural Network)과 딥 러닝(deep learning), 퍼지 추론(fuzzy inference), 분류 알고리즘(classification algorithm), 및 유전 알고리즘(genetic algorithm)으로 분류하는 단계를 포함하도록 구성될 수 있다.
또한, 인공 지능 데이터를 변환하는 단계는, AI 시스템의 입력 과정에서, 입력되는 상기 인공 지능 데이터를 변환하는 단계를 포함하도록 구성될 수 있다.
또한, 인공 지능 모델 훈련 데이터셋의 관리방법은, AI 시스템의 사용 과정에서, AI 시스템의 하나의 프레임 워크에서 다른 프레임 워크로 미세 조정된 하이퍼 파라미터를 변환하여 AI 시스템 간에 상호운용성을 제공하는 단계를 더 포함하도록 구성될 수 있다.
또한, 인공 지능 모델 훈련 데이터셋의 관리방법은, AI 생태계의 다른 AI 시스템 또는 AI 애플리케이션에서 사용되거나 재사용될 수 있도록 변환된 인공 지능 데이터를 제공하는 단계를 더 포함하도록 구성될 수 있다.
본 발명의 일 실시 예에 따른, 인공 지능 모델 훈련 데이터셋 관리 방법은, 인공 지능 데이터를 수집하는 단계; 및 인공 지능 데이터를 가공하는 단계를 포함하되, 인공 지능 데이터를 가공하는 단계는, 인공 지능 데이터가, 상기 인공 지능 데이터에 관한 메타 데이터 중에서, Class, Attibute, Learing type, Language & Platform, UX, Usage & Algorithm 및 Ownership 중에서 적어도 하나에 관한 메타 데이터를 포함하도록 가공하는 단계를 포함하도록 구성될 수 있다.
또한, 인공 지능 데이터를 가공하는 단계는, 인공 지능 데이터가, 상기 인공 지능 데이터에 관한 메타 데이터 중에서, Object, Labelling, Type, Representation, Simulation and Hyper-parameters 중에서 적어도 하나에 관한 메타 데이터를 포함하도록 가공하는 단계를 더 포함하도록 구성될 수 있다.
본 발명의 일 실시 예에 따른, 인공 지능 모델 훈련 데이터셋 관리장치는, 수집된, 인공지능 데이터를 표현하는 메타 데이터를 입력 받는 메타 데이터 입력부; 메타 데이터를 이용하여 상기 인공 지능 데이터를 표현하는 인공 지능 데이터 표현부; 인공 지능 데이터를 이용하여 데이터셋을 구성하는 인공 지능 데이터셋 구성부; 및 데이터셋에 포함된 인공 지능 데이터를 변환하는 인공 지능 데이터 변환부를 포함하도록 구성될 수 있다.
기타 실시 예의 구체적인 사항은 "발명을 실시하기 위한 구체적인 내용" 및 첨부 "도면"에 포함되어 있다.
본 발명의 이점 및/또는 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 각종 실시 예를 참조하면 명확해질 것이다.
그러나 본 발명은 이하에서 개시되는 각 실시 예의 구성만으로 한정되는 것이 아니라 서로 다른 다양한 형태로도 구현될 수도 있으며, 단지 본 명세서에서 개시한 각각의 실시 예는 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구범위의 각 청구항의 범주에 의해 정의될 뿐임을 알아야 한다.
본 발명에 의하면, 빅 데이터의 가공 과정을 통해 인공 지능 모델의 학습에 사용되는 훈련용 데이터셋을 체계적으로 관리할 수 있다.
또한, 메타 데이터를 통해서 인공 지능 모델 훈련용 데이터셋이 주석 및 설명에 관한 정보를 포함하도록 구성될 수 있다.
또한, 효율적인 데이터 검색을 하기 위해 인공 지능 모델 훈련용 데이터셋의 표현 체계가 구성될 수 있다.
도 1은 인공지능 데이터와 빅 데이터를 포함하는 지식 피라미드를 나타낸다.
도 2는 본 발명의 일 실시 예에 따른 머신 러닝 관점의 개념적 인공 지능 데이터를 나타낸다.
도 3은 본 발명의 일 실시 예에 따른 적용 레벨 별 인공 지능 데이터 유형을 나타낸다.
도 4는 빅 데이터와 인공 지능 데이터의 비교표를 나타낸다.
도 5는 본 발명의 일 실시 예에 따른 머신 러닝에 의한 예측을 위한 개념적 기능적 뷰의 예시도이다.
도 6은 본 발명의 일 실시 예에 따른 인공 지능 데이터 기능적 뷰의 예시도이다.
도 7은 본 발명의 일 실시 예에 따른 개념적 인공 지능 데이터 표현 체계(AI-DRS)의 예시도이다.
도 8은 본 발명의 일 실시 예에 따른 인공 지능 데이터 변환 처리(AI-DTP)의 예시도이다.
도 9는 본 발명의 일 실시 예에 따른 인공 지능 모델 훈련 데이터셋의 관리방법의 흐름도이다.
도 10은 본 발명의 일 실시 예에 따른 인공 지능 모델 훈련 데이터셋의 관리장치의 네트워크 관계도이다.
도 11은 본 발명의 일 실시 예에 따른 인공 지능 모델 훈련 데이터셋의 관리장치의 블록도이다.
본 발명을 상세하게 설명하기 전에, 본 명세서에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 무조건 한정하여 해석되어서는 아니 되며, 본 발명의 발명자가 자신의 발명을 가장 최선의 방법으로 설명하기 위해서 각종 용어의 개념을 적절하게 정의하여 사용할 수 있고, 더 나아가 이들 용어나 단어는 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 함을 알아야 한다.
즉, 본 명세서에서 사용된 용어는 본 발명의 바람직한 실시 예를 설명하기 위해서 사용되는 것일 뿐이고, 본 발명의 내용을 구체적으로 한정하려는 의도로 사용된 것이 아니며, 이들 용어는 본 발명의 여러 가지 가능성을 고려하여 정의된 용어임을 알아야 한다.
또한, 본 명세서에서, 단수의 표현은 문맥상 명확하게 다른 의미로 지시하지 않는 이상, 복수의 표현을 포함할 수 있으며, 유사하게 복수로 표현되어 있다고 하더라도 단수의 의미를 포함할 수 있음을 알아야 한다.
본 명세서의 전체에 걸쳐서 어떤 구성 요소가 다른 구성 요소를 "포함"한다고 기재하는 경우에는, 특별히 반대되는 의미의 기재가 없는 한 임의의 다른 구성 요소를 제외하는 것이 아니라 임의의 다른 구성 요소를 더 포함할 수도 있다는 것을 의미할 수 있다.
더 나아가서, 어떤 구성 요소가 다른 구성 요소의 "내부에 존재하거나, 연결되어 설치된다"라고 기재한 경우에는, 이 구성 요소가 다른 구성 요소와 직접적으로 연결되어 있거나 접촉하여 설치되어 있을 수 있고, 일정한 거리를 두고 이격되어 설치되어 있을 수도 있으며, 일정한 거리를 두고 이격되어 설치되어 있는 경우에 대해서는 해당 구성 요소를 다른 구성 요소에 고정 내지 연결하기 위한 제 3의 구성 요소 또는 수단이 존재할 수 있으며, 이 제 3의 구성 요소 또는 수단에 대한 설명은 생략될 수도 있음을 알아야 한다.
반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결"되어 있다거나, 또는 "직접 접속"되어 있다고 기재되는 경우에는, 제 3의 구성 요소 또는 수단이 존재하지 않는 것으로 이해하여야 한다.
마찬가지로, 각 구성 요소 간의 관계를 설명하는 다른 표현들, 즉 " ~ 사이에"와 "바로 ~ 사이에", 또는 " ~ 에 이웃하는"과 " ~ 에 직접 이웃하는" 등도 마찬가지의 취지를 가지고 있는 것으로 해석되어야 한다.
또한, 본 명세서에서 "일면", "타면", "일측", "타측", "제 1", "제 2" 등의 용어는, 사용된다면, 하나의 구성 요소에 대해서 이 하나의 구성 요소가 다른 구성 요소로부터 명확하게 구별될 수 있도록 하기 위해서 사용되며, 이와 같은 용어에 의해서 해당 구성 요소의 의미가 제한적으로 사용되는 것은 아님을 알아야 한다.
또한, 본 명세서에서 "상", "하", "좌", "우" 등의 위치와 관련된 용어는, 사용된다면, 해당 구성 요소에 대해서 해당 도면에서의 상대적인 위치를 나타내고 있는 것으로 이해하여야 하며, 이들의 위치에 대해서 절대적인 위치를 특정하지 않는 이상은, 이들 위치 관련 용어가 절대적인 위치를 언급하고 있는 것으로 이해하여서는 아니된다.
또한, 본 명세서에서는 각 도면의 각 구성 요소에 대해서 그 도면 부호를 명기함에 있어서, 동일한 구성 요소에 대해서는 이 구성 요소가 비록 다른 도면에 표시되더라도 동일한 도면 부호를 가지고 있도록, 즉 명세서 전체에 걸쳐 동일한 참조 부호는 동일한 구성 요소를 지시하고 있다.
본 명세서에 첨부된 도면에서 본 발명을 구성하는 각 구성 요소의 크기, 위치, 결합 관계 등은 본 발명의 사상을 충분히 명확하게 전달할 수 있도록 하기 위해서 또는 설명의 편의를 위해서 일부 과장 또는 축소되거나 생략되어 기술되어 있을 수 있고, 따라서 그 비례나 축척은 엄밀하지 않을 수 있다.
또한, 이하에서, 본 발명을 설명함에 있어서, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 구성, 예를 들어, 종래 기술을 포함하는 공지 기술에 대해 상세한 설명은 생략될 수도 있다.
본 발명의 일 실시 예에 따른 인공지능 모델 훈련 데이터셋의 관리방법과 관련하여, 다음의 영역, 예를 들어, AI 데이터 용어, 유형, 개념 및 AI 데이터 구성 방법, 모델링, 표현 방법, 주석 및 설명 방법을 포함한 AI 데이터 기능적 뷰와 AI 데이터 메타 데이터(AI data metadata) 구성 방법, 및 AI 데이터 품질 및 기록 보존 방법을 포함한 AI 데이터 변환 프로세스, 사용 및 관리 문제에서 AI의 고성능 지원을 위한 AI 데이터 프레임 워크(AI data framework)를 설명한다.
본 발명의 일 실시 예에 따른 인공지능 모델 훈련 데이터셋의 관리방법과 관련하여, 사용되는 용어 및 정의는 다음과 같다.
주석은, 데이터 개체, 레이블, 유형, 표현 등을 설명하기 위해 추가된 메타 데이터(metadata)를 의미한다. 주석은 AI 데이터 표현 및 변환 프로세스에 사용된다.
인공 지능은, 하나 이상의 주어진 작업을 수행하기 위해 모델 형태로 보유한 지식을 습득, 처리, 생성 및 적용하는 시스템을 의미한다.
AI 애플리케이션은, 많은 AI 시스템을 사용하는 시스템 어플리케이션을 의미한다. AI는 의사 결정을 자동화할 수 있으므로 다양한 응용 프로그램이 존재한다. AI 애플리케이션의 예로는 컴퓨터 비전, 이미지 인식, 자연어 처리, 기계 번역, 및 음성합성이 있을 수 있다.
AI 시스템은, AI 애플리케이션을 위한 엔지니어링 정보 처리 시스템을 의미한다.
AI 데이터는, AI에서 사용되는 데이터를 의미한다. 지식 피라미드 관점에서 데이터는 환경에서, 정보는 많은 데이터에서 요약되고, 지식은 정보에서 더 일반화된 이론에서 추출된다. 마지막으로 지혜는 지식에서 얻는다. AI 데이터는 정보, 지식 및 지혜 영역에서 다루는 데이터를 참조한다.
AI 학습 데이터, 지식, 데이터베이스, 규칙 기반, 메타 데이터 등 다양한 유형의 AI 데이터가 존재한다.
AI 데이터 수명주기는, AI에서 생성에서 은퇴까지 AI 데이터의 진화를 의미한다.
AI 데이터 표현은, 주석, 설명 메타 데이터와 함께 AI 시스템에서 사용하거나 생성하는 데이터를 의미한다.
AI 데이터 변환은, AI 시스템을 소비하고 최적화 할 수 있도록 AI 데이터에 대한 변환 프로세스를 의미한다.
인공 일반 지능 (Artificial General Intelligence)은 인간이 할 수 있는 모든 지적 작업을 이해하거나 학습할 수 있는 기계의 가상 지능을 의미한다.
빅 데이터(Big Data)는 특성이 볼륨, 다양성, 속도 및 / 또는 가변성인 광범위한 데이터셋을 의미한다.
역량(capability)이란, 기능(function)을 수행하거나 지원하는 능력(ability)을 의미한다.
데이터는, 기록된 정보를 의미한다.
데이터셋은, 식별 가능한 데이터 수집(identifiable collection of data)을 의미한다.
데이터베이스(Database)는 정보 시스템에서 처리되는 모든 정보의 표현을 의미한다.
설명(description)은, 데이터 클래스, 속성, 학습 유형, 사용 된 언어, 사용 된 알고리즘, 소유권 등을 설명하기 위해 추가 된 메타 데이터(metadata)를 의미한다. 설명은 AI 데이터 표현 및 변환 프로세스에서 사용된다.
연합 학습(Federated Learning)은, 중앙 집중식 교육 데이터가 없는 협업 머신 러닝을 의미한다.
프레임 워크는, 특정 작업의 수행을 지원하도록 설계된 프로세스 및 사양의 구조를 의미한다.
하이퍼 매개 변수(Hyper-parameter)는 값이 학습 프로세스를 제어하는데 사용되는 매개 변수이다. 하이퍼 매개 변수는 값이 모델 외부의 구성이므로 데이터에서 추정할 수 없는 모델 매개 변수라고 한다. 하이퍼 매개 변수는 종종 실무자 또는 휴리스틱스, 예를 들어 시그마, K 등에 의해 지정된다.
상호 운용성(interoperability)은, 정보를 교환하고 교환된 정보를 상호 사용할 수 있는 둘 이상의 시스템 기능을 의미한다.
지식은, 인공 지능 객체, 이벤트, 개념 또는 규칙, 관계 및 속성에 대한 정보, 목표 지향적인 체계적인 사용을 위해 구성된다. 정보는 숫자 또는 기호 형식으로 존재할 수 있다. 정보는 맥락화 된 데이터이므로 해석 할 수 있다. 데이터는 세계에서 추상화 또는 측정을 통해 생성된다.
메타 데이터는, 데이터에 대한 데이터(data about data)를 의미한다.
프로세스는, 입력을 출력으로 변환하는 상호 관련되거나 상호 작용하는 활동 세트를 의미한다. 프로세스에 대한 입력은 일반적으로 다른 프로세스의 출력이다.
추적성(traceability)은, 고려중인 항목의 기록, 적용 또는 위치를 추적하는 기능을 의미한다. 제품을 고려할 때 추적 가능성은 다음, 예를 들어 재료 및 부품의 출처, 처리 내역 및 이후 제품의 유통 및 위치와 관련될 수 있다.
훈련 데이터(training data)는, 기계 학습 모델을 맞추는데 사용되는 입력 데이터 샘플의 하위 집합이다.
훈련 데이터셋(training dataset)은, 논리적으로 의미 있는 데이터 그룹을 의미한다.
전이 학습(Transfer Learning)은, 하나의 문제를 해결하고 다른 관련 문제에 적용하면서 얻은 지식을 저장하는데 초점을 맞춘 기계 학습을 의미한다.
확인(Verification)은, 객관적인 증거 제공을 통해 요구 사항이 충족되었는지 확인을 의미한다.
유효성 검사(Validation)는, 객관적인 증거 제공을 통해 특정 용도 또는 적용에 대한 요구 사항이 충족되었는지 확인을 의미한다.
이하, 본 발명의 실시 예에 대해 관련 도면들을 참조하여 상세히 설명하기로 한다.
AI 데이터는 AI에서 사용되는 데이터이다. AI 시스템에서 AI Data를 사용하는 경우, AI Data는 AI 시스템에 입력되고, AI 시스템에서 사용되며, AI 시스템에서 출력된다. 이를 위해 AI 데이터는 AI 시스템에 대한 표준 설명과 함께 AI 시스템에 대한 주석 및 설명이 있는 데이터로 표시된다.
도 1은 인공지능 데이터와 빅 데이터를 포함하는 지식 피라미드를 나타낸다.
도 1을 참조하면, 일반적으로 지식 피라미드(Knowledge Pyramid)에서는 외부 세계에서 데이터를 수집하고, 수집 된 데이터에서 정보를 요약하고, 정보에서보다 일반화 된 이론으로 지식을 구성하고, 마지막으로 지혜가 진리로 상단에 위치한다. 빅 데이터는 부피, 다양성, 속도 및 가변성 중에서 적어도 하나의 특성을 가지고 있어 AI 시스템에서 직접 사용하기가 어렵다. 따라서 AI 시스템에서 데이터를 입력, 사용, 출력에 사용해야 하기 때문에 지식 피라미드의 정보, 지식, 지혜 부분에서 다루는 보다 정교하거나 잘 구성된 데이터가 필요하다. 이 데이터는 도 1과 같이 AI 데이터로 정의된다.
확장 가능한 메타 데이터에는 시스템 생성 메타 데이터 및 사용자 정의 메타 데이터와 같은 데이터 데이터로 두 가지 유형의 데이터가 있다. AI 데이터 태그(또는 라벨)에는 프로젝트 이름과 자동 태깅 또는 실측을 통한 데이터 소스가 포함될 수 있다.
AI 데이터는 ISO / IEC 25012에 정의된 데이터 품질의 특성을 활용할 수 있다. 제품 소유자 조직이 요구하는 요구 사항을 제공 할 수 있다. 특히 이러한 요구 사항은 특성 (정확성, 완전성, 일관성, 신뢰성, 현재 화, 접근성)을 통해 데이터 품질 모델에 반영되는 요구 사항이다.
예를 들어 AI 데이터의 머신 러닝 사례를 살펴 보겠다. AI 데이터의 개념은 AI 시스템 훈련과 관련된 다양한 데이터를 모두 포함한다.
도 2는 본 발명의 일 실시 예에 따른 머신 러닝 관점의 개념적 인공 지능 데이터를 나타낸다.
도 2를 참조하면, 머신 러닝 사례에서 빅 데이터와 AI 데이터의 관계가 묘사되어 있다.
AI 시스템에는 훈련 목적으로 데이터셋이 필요하다. 예를 들어 얼굴 이미지를 분석하여 사람의 이름이나 ID를 식별해야 하는 AI 시스템은 특징 추출 및 식별 기능을 습득하기 위해 많은 수의 얼굴 이미지와 라벨로 훈련되어야 한다. 이 경우 얼굴 이미지의 튜플 세트와 해당 레이블로 구성된 데이터셋은 얼굴 인식 시스템을 훈련하는데 사용되는 AI 데이터이다.
평가는 AI 시스템의 성능을 특성화하는 작업이다. 이를 위해 평가 데이터셋은 AI 시스템 특성화를 위한 필수 테스트 기준을 제공하므로 필요하다. 많은 공개 데이터셋은 데이터셋을 훈련, 테스트 및 검증으로 분할하는 특정 방법을 제공하여 관련 AI 시스템의 성능에 대한 벤치 마크를 제공한다. 검증 테스트를 통해 새로운 입력 데이터를 기반으로 AI 시스템의 성능을 평가한다. 그러나 데이터셋이 크거나 복잡할 때 필요한 리소스와 계산 시간 사이에는 절충안이 있다.
전이 학습을 통해 첫 번째 AI 시스템을 해결하도록 이미 훈련된 모델은 새로운 AI 시스템을 해결하기 위해 용도가 변경되고 추가로 훈련된다. 예를 들어 얼굴 인식 시스템용 모델을 사용하여 얼굴 특징을 추출하고 성별 분류 시스템을 훈련할 수 있다. 이를 위해 AI 데이터는 대상 AI 시스템 훈련을 위한 다른 훈련 매개 변수와 함께 기존 데이터에서 얻은 지식을 나타내는 훈련된 모델로 구성되어야 한다. 대상 AI 시스템의 사양에는 이를 구축하는데 사용된 AI 시스템에 대한 정보가 포함되어야 한다.
요약하면 AI 시스템에는 유효성 검사가 포함된 AI 데이터가 필요하다. 검증된 AI 데이터는 다양한 정보(예를 들어 메타 데이터)와 함께 설명을 통해 고성능을 제공한다. AI의 성능을 향상 시키려면 AI 데이터의 핵심 포인트를 잘 구성하고 식별하여 적절한 AI 데이터를 검색하여 AI의 고성능뿐만 아니라 경제적 이익(예를 들어 비용 절감, 손실 감소)을 지원하는 데 사용해야 한다.
도 3은 본 발명의 일 실시 예에 따른 적용 레벨 별 인공 지능 데이터 유형을 나타낸다.
도 3은 적용 수준에 따른 AI 데이터의 유형을 보여준다. 각 수준은 AI의 기능 수준, 기술 수준 및 알고리즘 수준의 정렬 특성을 가지고 있다.
AI Data는 예측(prediction), 추론(inference) 인식(recognition) 및 최적화(optimization)를 위한 기능 수준(function level), 회귀(regression)를 위한 기술 수준(technology level), 추론의 구성 규칙(compositional rule of inference), 분류(classification clustering) 및 피트니스 기능(fitness function), 신경망(Neural Network) 알고리즘 수준, 딥 러닝 퍼지 추론 분류 알고리즘, 유전 알고리즘에서 사용된다. 위의 4 단계를 적용한 AI Data의 종류는 도 3과 같다.
기능 수준은 AI 데이터를 채택하여 예상되는 기능 또는 결과를 의미한다. 일반적으로 많은 유형의 테스트 방법, 검증 및 검증, AI 시스템의 성능 평가, 재사용 성 테스트가 수행된다. 기술 수준은 일반적으로 아키텍처, 프레임 워크, 지식 기반, 데이터베이스 및 히스토리 관리가 설계되는 각 기능 수준을 충족하기 위해 사용되는 일부 기술을 의미한다. 마지막으로 알고리즘 수준은 AI에서 존재하거나 사용자가 생성한 활용된 알고리즘을 의미한다. 일반적으로 학습(learning), 지식(knowledge), 추론(inference), 하이퍼 파라미터(hyper-parameter), 입력-출력 데이터 설계(input-output data design), 손실 함수(loss function), 피트니스 함수(fitness function) 등에 다양한 유형의 알고리즘이 사용된다.
특히 하이퍼 파라미터는 AI 기능의 높은 수준과 글로벌 속성을 모두 제공한다. 예를 들어 머신 러닝의 경우 하이퍼 파라미터의 속성에는 네트워크 계층 수, 각 계층의 너비, 활성화 함수 유형, 최적화 방법이 포함된다. 가능한 모든 조합 중에서 최적의 하이퍼 파라미터 아키텍처를 결정하는 실용적인 접근 방식 중 하나는 제약 함수에 따라 무작위 검색을 수행하는 것이다. AI 머신 러닝 학습 모델을 위해 이러한 하이퍼 매개 변수를 캡처하는 것은 최적화된 성능을 산출하는 데 중요하다.
도 4는 빅 데이터와 인공 지능 데이터의 비교표를 나타낸다.
도 1 및 도 4를 참조하면, 의 지식 피라미드(Knowledge Pyramid)에서 데이터는 외부 세계에서 수집되고, 정보는 수집 된 데이터에서 수집되며, 지식은 특수 기술에 의해 정제되고 정리됩니다. 지식 공학, 정보에서, 그리고 마지막으로 지혜는 진실로 최상위에 위치한다. 빅 데이터는 그 양, 다양성, 속도 및 / 또는 가변성이 특징이므로 AI 시스템에서 직접 사용하기가 어렵다.
따라서 지식 피라미드의 정보, 지식 및 지혜 부분에서 다루는 보다 정제되거나 잘 조직된 데이터 및 전략은 AI 데이터와 그 변환 방법이다. 즉, AI 데이터는, AI 시스템에서 입력, 사용, 및 출력에 사용되야 하는 데이터이다.
AI 데이터의 기능적 뷰(Functional View)는 AI 데이터 모델링, AI 데이터 표현 방법, AI 데이터 주석, 설명 방법 및 AI 데이터 메타 데이터 구성 방법을 설명한다.
AI 데이터 개념적 기능적 뷰는 AI 데이터 표현 체계의 관점에서 AI 데이터가 작동하는 방식을 설명한다. 기능적 뷰는 다양한 유형의 AI 데이터와 AI 데이터의 유효성 검사(validation) 및 검증(verification)을 관리할 수 있는 방법을 자세히 설명한다. 기능적 뷰는 NP 5392, 지식 공학의 참조 아키텍처 및 NP 5293-3, 데이터 품질관리 요구사항 및 데이터 라벨링에 대한 지침설명의 개념을 활용할 수 있다.
도 5는 본 발명의 일 실시 예에 따른 머신 러닝에 의한 예측을 위한 개념적 기능적 뷰의 예시도이다.
도 5는 도 3의 각 수준에 따라 AI 데이터가 작동하는 방식에 대한 개념적 기능보기를 제공한다. 이것은 기계 학습 사례 중 하나이다. AI Data는 AI Data의 알고리즘 수준에서 머신 러닝을 위한 학습 및 테스트 데이터 역할을 한다. 또한 AI 데이터의 기술 수준에서 AI 시스템 내에서 지속적인 학습을 위한 IF ~ THEN 규칙과 같은 규칙 기반 지식 표현 역할을 할 수 있다. 기능 수준에서 AI 시스템 처리의 출력은 다른 AI 시스템에 대한 입력 AI 데이터 역할을 할 수도 있다.
지식은 IF ~ THEN 규칙 기반, 자연어 기반, 텍스트 또는 숫자 기반 매너 등으로 표현됩니다. 또한 지식은 퍼지 논리의 구성원 함수, 유전 알고리즘의 이진 또는 숫자 인코딩 방법, 에이전트 등에서 역사 보존과 같은 연속 또는 이산 방식으로 표현된다.
도 5에서 볼 수 있듯이 지식은 주어진 입력 데이터로 학습 및 처리에 지속적으로 생성되고 사용된다. 지식은 사실(명제적 지식), 기술 (절차적 지식) 또는 대상(지인 지식)과 같은 누군가 또는 무언가에 대한 친숙함, 인식 또는 이해이다. 지식은 경험, 교육, 이성, 기억, 과학적 탐구, 탐구 및 실습 등을 포함하되 이에 국한되지 않는 다양한 방법과 다양한 출처에서 습득할 수 있다. 예를 들어 지식은 학습, 전문 사전 지식 또는 빅 데이터 분석 등으로부터 획득될 수 있다.
도 6은 본 발명의 일 실시 예에 따른 인공 지능 데이터 기능적 뷰의 예시도이다.
도 6은 AI 데이터 표현 체계(AI-DRS)를 포함하여 AI 데이터 변환 프로세스 (AI-DTP)의 AI 데이터 기능적 뷰를 묘사한다. AI 데이터 유형. 이 기능은 AI의 고성능, AI 기능 및 재사용성을 위해 지속적으로 업데이트되는 AI 데이터이다.
도 7은 본 발명의 일 실시 예에 따른 개념적 인공 지능 데이터 표현 체계(AI-DRS)의 예시도이다.
도 7은 데이터 셋트(datasets)에 대한 데이터(AI 시스템에서 사용되는 source data), 주석(annotation)(지도학습의 레이블링 또는 레이블링이 없는 비지도학습) 및 설명(description)(metadata 또는 standardization explanation scheme(표준화) 등)을 포함하는 개념적 AI 데이터 표현 체계(AI-DRS)를 묘사한다. 또한 AI 데이터 공급자(콘텐츠 생성자), 소비자(독자) 및 촉진자(게시자)가 AI 데이터 표현과 상호 작용하는 방식 간의 관계를 설명한다.
AI 데이터 표현은 AI 시스템에 사용할 수 있는 정확하게 맞춤 설정된 메타 데이터를 사용하여 설명 및 주석으로 더 세분화될 수 있다. 주석(Annotation)은 데이터 객체(object), 레이블(label), 유형(type), 표현(representation) 등과 관련하여 데이터 요소(data element)에 대한 필수 메타 데이터(metadata)를 제공하며 설명(Description)은 데이터 클래스(data classes), 속성(attributes), 학습 유형(learning types), 사용된 언어(language used), 사용된 알고리즘(algorithms used), 소유권(ownership) 등을 설명한다.
일반 DCMI 더블린 코어(Dublin Core), W3C Data Catalog Vocaburary(DCAT)에서 multi-parts of ISO/IEC 11179-7 Framework, ISO/IEC 11179-2 Classification, ISO/IEC 11179-3 Registry metamodel and basic attributes, ISO/IEC 11179-4 Formulation of data definitions, ISO/IEC 11179-5 Naming and identification principles, ISO/IEC 11179-6 Registration, and ISO/IEC 11179-7 Metamodel for data set registration에 이르기까지 다양한 AI 시스템에 대한 많은 표준 메타 데이터 기술이 존재한다.
이러한 표준 기반 주석 및 설명 메타 데이터 모음을 출판(publishing)하면, 특정 속성 및 속성에 대한 도메인 전체의 공통 데이터 요소를 검색을 포함하여 AI 시스템간에 상호 운용할 수 있다. 출판 형식(publication format)은 AI 시스템 별 요구 사항과 요청에 따라 달라질 수 있다.
AI 데이터 사용은 AI 데이터 변환 프로세스, 사용 및 관리 문제를 설명한다. 논의된 문제에는 AI 데이터 품질 및 기록을 보존하는 방법이 포함된다.
도 8은 본 발명의 일 실시 예에 따른 인공 지능 데이터 변환 처리(AI-DTP)의 예시도이다.
도 8의 AI 데이터 변환 프로세스(AI Data Transformation Process, AI DTP)는 모델 학습, 최적화 및 재사용 목적에서 중요한 역할을 한다. 도 8은 (a) AI 시스템에 대한 입력, (b) AI 시스템 내에서 사용 및 (c) AI 시스템의 출력에서 발생하는 AI 데이터 변환 프로세스를 묘사한다. 다음은 AI-DTP가 다양한 용도에서 AI 시스템을 지원하는 방법을 제공한다.
AI-DTP는 입력 데이터를 AI-DRS 기반의 AI 시스템으로 변환한다. 목표는 도 3의 AI 데이터 유형에 따라 주어진 AI 시스템에서 사용할 수 있는 데이터를 변환하거나 조정하는 것이다. AI 데이터는 AI-DRS로 재사용 할 수 있어야 한다.
AI-DTP는 AI 시스템의 한 프레임 워크에서 다른 프레임 워크로 미세 조정 된 하이퍼 파라미터를 변환하여 주어진 AI 시스템간에 상호 운용성을 제공하여 훈련 프로세스 시간을 줄이고 훈련된 모델 성능을 최적화 할 수 있다. 목표는 AI-DRS를 사용하여 AI 시스템 간의 상호 운용성을 촉진하는 것이다.
AI-DTP는 분석 결과를 위의 프로세스에서 최종 AI-DRS로 변환하여, AI 데이터는, AI 생태계의 다른 AI 시스템 또는 AI 애플리케이션에서 사용되거나 재사용될 수 있다. 목표는 AI 기능을 지속적으로 지원하고 AI-DRS와 AI 데이터의 재사용 성 및 / 또는 상호 운용성을 제공하는 것이다.
도 9는 본 발명의 일 실시 예에 따른 인공 지능 모델 훈련 데이터셋의 관리방법의 흐름도이다.
도 9를 참조하면, 본 발명의 일 실시 예에 따른 인공 지능 모델 훈련 데이터셋의 관리방법은, 인공 지능 데이터를 표현하는 메타 데이터를 수집하는 단계; 메타 데이터를 이용하여 상기 인공 지능 데이터를 표현하는 단계; 인공 지능 데이터를 이용하여 데이터셋을 구성하는 단계; 및 데이터셋에 포함된 인공 지능 데이터를 변환하는 단계를 포함하도록 구성될 수 있다.
또한 메타 데이터를 수집하는 단계는, 설명에 관한 메타 데이터 및 주석에 관한 메타 데이터를 수집하는 단계를 포함하도록 구성될 수 있다.
또한, 인공 지능 모델 훈련 데이터셋의 관리방법은, 메타 데이터를 통해 표현된 인공 지능 데이터를 저장하는 단계를 더 포함하도록 구성될 수 있다.
또한, 인공 지능 데이터를 변환하는 단계는, 인공 지능 데이터가 적용되는 레벨 유형(level type)을 분류하는 단계를 더 포함하도록 구성될 수 있다.
또한, 레벨 유형(level type)은, 기능 레벨(function level), 기술 레벨(technology level), 알고리즘 레벨(algorithm level)을 포함하도록 구성될 수 있다.
또한, 인공 지능 데이터가 적용되는 레벨 유형(level type)을 분류하는 단계는, 기능 레벨에서, 상기 인공 지능 데이터를 예측(prediction), 추론(inference), 인식(recognition) 및 최적화(optimization)로 분류하는 단계를 포함하도록 구성될 수 있다.
또한, 인공 지능 데이터가 적용되는 레벨 유형(level type)을 분류하는 단계는, 기술 레벨에서, 회귀(regression), 추론의 구성 규칙(compositional rule of inference), 분류(classification clustering) 및 피트니스 함수(fitness function)로 분류하는 단계를 포함하도록 구성될 수 있다.
또한, 인공 지능 데이터가 적용되는 레벨 유형(level type)을 분류하는 단계는, 알고리즘 레벨에서, 신경망(Neural Network)과 딥 러닝(deep learning), 퍼지 추론(fuzzy inference), 분류 알고리즘(classification algorithm), 및 유전 알고리즘(genetic algorithm)으로 분류하는 단계를 포함하도록 구성될 수 있다.
또한, 인공 지능 데이터를 변환하는 단계는, AI 시스템의 입력 과정에서, 입력되는 상기 인공 지능 데이터를 변환하는 단계를 포함하도록 구성될 수 있다.
또한, 인공 지능 모델 훈련 데이터셋의 관리방법은, AI 시스템의 사용 과정에서, AI 시스템의 하나의 프레임 워크에서 다른 프레임 워크로 미세 조정된 하이퍼 파라미터를 변환하여 AI 시스템 간에 상호운용성을 제공하는 단계를 더 포함하도록 구성될 수 있다.
또한, 인공 지능 모델 훈련 데이터셋의 관리방법은, AI 생태계의 다른 AI 시스템 또는 AI 애플리케이션에서 사용되거나 재사용될 수 있도록 변환된 인공 지능 데이터를 제공하는 단계를 더 포함하도록 구성될 수 있다.
도 10은 본 발명의 일 실시 예에 따른 인공 지능 모델 훈련 데이터셋의 관리장치의 네트워크 관계도이다.
도 10을 참조하면, 본 발명의 일 실시 예에 따른 인공 지능 모델 훈련 데이터셋의 관리시스템은 인공 지능 모델 훈련 데이터셋의 관리장치(100), 인공 지능 서버(200), 및 사용자 단말(300)을 포함하도록 구성될 수 있다.
인공 지능 모델 훈련 데이터셋의 관리장치(100)는, 수집된 데이터에 수집한 메타데이터를 이용하여 인공 지능 데이터를 생성하고, 인공 지능 데이터를 이용하여 논리적으로 의미가 있는 인공 지능 데이터셋을 생성하고, 기존에 이미 생성 및 사용되었던 인공 지능 데이터를 변환하여 다른 인공 지능 모델 또는 시스템이 사용할 수 있도록 다른 특징을 갖는 인공 지능 데이터로 변환하는 기능을 갖는다.
인공 지능 서버(200)는 인공 지능 데이터 또는 데이터셋을 이용하여 인공 지능 모델을 학습시키고, 인공 지능 관련 API, 프레임워크를 제공하는 역할을 한다.
사용자 단말(300)은, 인공 지능 모델 훈련 데이터셋의 관리장치(100)에 접속, 이를 제어함으로써 데이터를 관리하는 기능을 할 수 있고, 인공 지능 서버 관련 애플리케이션을 구동하는 기능을 갖는다.
도 11은 본 발명의 일 실시 예에 따른 인공 지능 모델 훈련 데이터셋의 관리장치의 블록도이다.
도 11을 참조하면, 인공 지능 모델 훈련 데이터셋의 관리장치(100)는 메타 데이터 입력부(110), 인공 지능 데이터 표현부(120), 인공 지능 데이터셋 구성부(130) 및 인공 지능 데이터 변환부(140)를 포함하도록 구성될 수 있다.
메타 데이터 입력부(110)는, 수집된, 인공지능 데이터를 표현하는 메타 데이터를 입력 받는 기능을 갖는다.
인공 지능 데이터 표현부(120)는 메타 데이터를 이용하여 상기 인공 지능 데이터를 표현하는 기능을 갖는다.
인공 지능 데이터셋 구성부(130)는 인공 지능 데이터를 이용하여 데이터셋을 생성하는 기능을 갖는다.
인공 지능 데이터 변환부(140)는 데이터셋에 포함된 인공 지능 데이터를 변환하는 기능을 갖는다.
본 발명의 일 실시 예에 따른 인공 지능 데이터의 변환은, 인공 지능 데이터가 적용되는 레벨, 즉 기능 레벨, 기술 레벨, 및 알고리즘 레벨 별로 최적으로 적용될 수 있도록 인공 지능 데이터 자체의 변환 및 인공 지능 데이터의 메타 데이터의 변환 중에서 적어도 하나 이상을 포함할 수 있다.
본 발명의 일 실시 예에 따른 인공 지능 데이터의 변환은, 인공 지능 시스템으로의 데이터 입력, 인공 지능 시스템에 의한 데이터 사용 및 인공 지능 시스템으로부터의 데이터 출력 단계에 있어서, 각 단계의 진행에 따라 인공 지능 데이터를 변환하는 것을 포함한다.
본 발명의 일 실시 예에 따른 인공 지능 데이터의 변환은, 데이터의 표현, 즉 주석 및 설명을 구성하는 파라미터 내용을 변환하는 것을 포함한다.
본 발명의 일 실시 예에 따르면, 빅 데이터의 가공 과정을 통해 인공 지능 모델의 학습에 사용되는 훈련용 데이터셋을 체계적으로 관리할 수 있다.
또한, 메타 데이터를 통해서 인공 지능 모델 훈련용 데이터셋이 주석 및 설명에 관한 정보를 포함하도록 구성될 수 있다.
또한, 효율적인 데이터 검색을 하기 위해 인공 지능 모델 훈련용 데이터셋의 표현 체계가 구성될 수 있다.
이상, 일부 예를 들어서 본 발명의 바람직한 여러 가지 실시 예에 대해서 설명하였지만, 본 "발명을 실시하기 위한 구체적인 내용" 항목에 기재된 여러 가지 다양한 실시 예에 관한 설명은 예시적인 것에 불과한 것이며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 이상의 설명으로부터 본 발명을 다양하게 변형하여 실시하거나 본 발명과 균등한 실시를 행할 수 있다는 점을 잘 이해하고 있을 것이다.
또한, 본 발명은 다른 다양한 형태로 구현될 수 있기 때문에 본 발명은 상술한 설명에 의해서 한정되는 것이 아니며, 이상의 설명은 본 발명의 개시 내용이 완전해지도록 하기 위한 것으로 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이며, 본 발명은 청구범위의 각 청구항에 의해서 정의될 뿐임을 알아야 한다.

Claims (14)

  1. 인공 지능 데이터를 표현하는 메타 데이터를 수집하는 단계;
    상기 메타 데이터를 이용하여 상기 인공 지능 데이터를 표현하는 단계;
    상기 인공 지능 데이터를 이용하여 데이터셋을 구성하는 단계; 및
    상기 데이터셋에 포함된 인공 지능 데이터를 변환하는 단계를 포함하도록 구성되는,
    인공 지능 모델 훈련 데이터셋의 관리방법.
  2. 제 1 항에 있어서,
    상기 메타 데이터를 수집하는 단계는,
    설명에 관한 메타 데이터 및 주석에 관한 메타 데이터를 수집하는 단계를 포함하도록 구성되는,
    인공 지능 모델 훈련 데이터셋의 관리방법.
  3. 제 1 항에 있어서,
    상기 메타 데이터를 통해 표현된 인공 지능 데이터를 저장하는 단계를 더 포함하도록 구성되는,
    인공 지능 모델 훈련 데이터셋의 관리방법.
  4. 제 1 항에 있어서,
    상기 인공 지능 데이터를 변환하는 단계는,
    상기 인공 지능 데이터가 적용되는 레벨 유형(level type)을 분류하는 단계를 더 포함하도록 구성되는,
    인공 지능 모델 훈련 데이터셋의 관리방법.
  5. 제 4 항에 있어서,
    상기 레벨 유형(level type)은,
    기능 레벨(function level), 기술 레벨(technology level), 알고리즘 레벨(algorithm level)을 포함하도록 구성되는,
    인공지능 모델 훈련 데이터셋의 관리방법.
  6. 제 4 항에 있어서,
    상기 인공 지능 데이터가 적용되는 레벨 유형(level type)을 분류하는 단계는,
    기능 레벨에서, 상기 인공 지능 데이터를 예측(prediction), 추론(inference), 인식(recognition) 및 최적화(optimization)로 분류하는 단계를 포함하도록 구성되는,
    인공지능 모델 훈련 데이터셋의 관리방법.
  7. 제 4 항에 있어서,
    상기 인공 지능 데이터가 적용되는 레벨 유형(level type)을 분류하는 단계는,
    기술 레벨에서, 회귀(regression), 추론의 구성 규칙(compositional rule of inference), 분류(classification clustering) 및 피트니스 함수(fitness function)로 분류하는 단계를 포함하도록 구성되는,
    인공지능 모델 훈련 데이터셋의 관리방법.
  8. 제 4 항에 있어서,
    상기 인공 지능 데이터가 적용되는 레벨 유형(level type)을 분류하는 단계는,
    알고리즘 레벨에서, 신경망(Neural Network)과 딥 러닝(deep learning), 퍼지 추론(fuzzy inference), 분류 알고리즘(classification algorithm), 및 유전 알고리즘(genetic algorithm)으로 분류하는 단계를 포함하도록 구성되는,
    인공지능 모델 훈련 데이터셋의 관리방법.
  9. 제 1 항에 있어서,
    상기 인공 지능 데이터를 변환하는 단계는,
    AI 시스템의 입력 과정에서, 입력되는 상기 인공 지능 데이터를 변환하는 단계를 포함하도록 구성되는,
    인공지능 모델 훈련 데이터셋의 관리방법.
  10. 제 9 항에 있어서,
    AI 시스템의 사용 과정에서, AI 시스템의 하나의 프레임 워크에서 다른 프레임 워크로 미세 조정된 하이퍼 파라미터를 변환하여 AI 시스템 간에 상호운용성을 제공하는 단계를 더 포함하도록 구성되는,
    인공지능 모델 훈련 데이터셋의 관리방법.
  11. 제 10 항에 있어서,
    AI 생태계의 다른 AI 시스템 또는 AI 애플리케이션에서 사용되거나 재사용될 수 있도록 변환된 인공 지능 데이터를 제공하는 단계를 더 포함하도록 구성되는,
    인공지능 모델 훈련 데이터셋의 관리방법.
  12. 인공 지능 데이터를 수집하는 단계; 및
    상기 인공 지능 데이터를 가공하는 단계를 포함하되,
    상기 인공 지능 데이터를 가공하는 단계는,
    상기 인공 지능 데이터가, 상기 인공 지능 데이터에 관한 메타 데이터 중에서, Class, Attibute, Learing type, Language & Platform, UX, Usage & Algorithm 및 Ownership 중에서 적어도 하나에 관한 메타 데이터를 포함하도록 가공하는 단계를 포함하도록 구성되는,
    인공지능 모델 훈련 데이터셋의 관리방법.
  13. 제 12 항에 있어서,
    상기 인공 지능 데이터를 가공하는 단계는,
    상기 인공 지능 데이터가, 상기 인공 지능 데이터에 관한 메타 데이터 중에서, Object, Labelling, Type, Representation, Simulation and Hyper-parameters 중에서 적어도 하나에 관한 메타 데이터를 포함하도록 가공하는 단계를 더 포함하도록 구성되는,
    인공지능 모델 훈련 데이터셋의 관리방법.
  14. 수집된, 인공지능 데이터를 표현하는 메타 데이터를 입력 받는 메타 데이터 입력부;
    상기 메타 데이터를 이용하여 상기 인공 지능 데이터를 표현하는 인공 지능 데이터 표현부;
    인공 지능 데이터를 이용하여 데이터셋을 구성하는 인공 지능 데이터셋 구성부; 및
    상기 데이터셋에 포함된 인공 지능 데이터를 변환하는 인공 지능 데이터 변환부를 포함하도록 구성되는,
    인공 지능 모델 훈련 데이터셋의 관리장치.
KR1020200165987A 2020-12-01 2020-12-01 인공지능 모델 훈련 데이터셋의 관리방법 KR102493655B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200165987A KR102493655B1 (ko) 2020-12-01 2020-12-01 인공지능 모델 훈련 데이터셋의 관리방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200165987A KR102493655B1 (ko) 2020-12-01 2020-12-01 인공지능 모델 훈련 데이터셋의 관리방법

Publications (2)

Publication Number Publication Date
KR20220077311A true KR20220077311A (ko) 2022-06-09
KR102493655B1 KR102493655B1 (ko) 2023-02-07

Family

ID=81986036

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200165987A KR102493655B1 (ko) 2020-12-01 2020-12-01 인공지능 모델 훈련 데이터셋의 관리방법

Country Status (1)

Country Link
KR (1) KR102493655B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240052394A (ko) 2022-10-14 2024-04-23 고려대학교 산학협력단 한국어 상식 추론 능력 데이터 생성 장치 및 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102613177B1 (ko) 2023-04-17 2023-12-14 주식회사 바운드포 초거대 인공지능(Hyperscale AI) 비전 데이터 드리프트(Vision Data Drift)탐지 네트워크 기반의 인공지능 데이터 관리 시스템 및 방법

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6842751B1 (en) * 2000-07-31 2005-01-11 International Business Machines Corporation Methods and apparatus for selecting a data classification model using meta-learning
US20140046880A1 (en) * 2011-01-26 2014-02-13 Google Inc. Dynamic Predictive Modeling Platform
KR20160143512A (ko) * 2015-06-04 2016-12-14 더 보잉 컴파니 머신 러닝을 위한 진보된 분석 기반시설
JP2018514840A (ja) * 2015-03-02 2018-06-07 ブルヴェクター, インコーポレーテッドBluvector, Inc. 機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム
KR102002732B1 (ko) * 2018-09-20 2019-07-23 건국대학교 산학협력단 앙상블 모델을 이용한 심층 신경망 기반 데이터 처리 방법 및 장치
KR20190110073A (ko) * 2019-09-09 2019-09-27 엘지전자 주식회사 인공 지능 모델을 갱신하는 인공 지능 장치 및 그 방법
US20200125961A1 (en) * 2018-10-19 2020-04-23 Oracle International Corporation Mini-machine learning
KR20200044173A (ko) * 2018-10-05 2020-04-29 삼성전자주식회사 전자 장치 및 그의 제어 방법
WO2020178687A1 (en) * 2019-03-07 2020-09-10 International Business Machines Corporation Computer model machine learning based on correlations of training data with performance trends
KR102157218B1 (ko) 2018-12-28 2020-09-18 인천대학교 산학협력단 공간 데이터의 의미론적 주석을 위한 데이터 변환 방법

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6842751B1 (en) * 2000-07-31 2005-01-11 International Business Machines Corporation Methods and apparatus for selecting a data classification model using meta-learning
US20140046880A1 (en) * 2011-01-26 2014-02-13 Google Inc. Dynamic Predictive Modeling Platform
JP2018514840A (ja) * 2015-03-02 2018-06-07 ブルヴェクター, インコーポレーテッドBluvector, Inc. 機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム
KR20160143512A (ko) * 2015-06-04 2016-12-14 더 보잉 컴파니 머신 러닝을 위한 진보된 분석 기반시설
KR102002732B1 (ko) * 2018-09-20 2019-07-23 건국대학교 산학협력단 앙상블 모델을 이용한 심층 신경망 기반 데이터 처리 방법 및 장치
KR20200044173A (ko) * 2018-10-05 2020-04-29 삼성전자주식회사 전자 장치 및 그의 제어 방법
US20200125961A1 (en) * 2018-10-19 2020-04-23 Oracle International Corporation Mini-machine learning
KR102157218B1 (ko) 2018-12-28 2020-09-18 인천대학교 산학협력단 공간 데이터의 의미론적 주석을 위한 데이터 변환 방법
WO2020178687A1 (en) * 2019-03-07 2020-09-10 International Business Machines Corporation Computer model machine learning based on correlations of training data with performance trends
KR20190110073A (ko) * 2019-09-09 2019-09-27 엘지전자 주식회사 인공 지능 모델을 갱신하는 인공 지능 장치 및 그 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
인공지능 데이터셋 구축 가이드북. 한국정보통신기술협회. 2020.1.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240052394A (ko) 2022-10-14 2024-04-23 고려대학교 산학협력단 한국어 상식 추론 능력 데이터 생성 장치 및 방법

Also Published As

Publication number Publication date
KR102493655B1 (ko) 2023-02-07

Similar Documents

Publication Publication Date Title
Wagire et al. Analysis and synthesis of Industry 4.0 research landscape: Using latent semantic analysis approach
Feng et al. Data-driven product design toward intelligent manufacturing: A review
Zabin et al. Applications of machine learning to BIM: A systematic literature review
Lemke et al. Metalearning: a survey of trends and technologies
Nguyen et al. Automated classification of metamodel repositories: a machine learning approach
KR102493655B1 (ko) 인공지능 모델 훈련 데이터셋의 관리방법
Lee et al. Recommendation system for technology convergence opportunities based on self-supervised representation learning
Ali et al. The KEEN universe: An ecosystem for knowledge graph embeddings with a focus on reproducibility and transferability
Education Data science
Tadejko Cloud cognitive services based on machine learning methods in architecture of modern knowledge management solutions
Romanova GNN graph classification method to discover climate change patterns
Cherradi et al. Data lake governance using IBM-Watson knowledge catalog
Murtazina et al. An ontology-based approach to the agile requirements engineering
Mihindukulasooriya et al. Knowledge graph induction enabling recommending and trend analysis: a corporate research community use case
Roderick et al. Data analysis and machine learning effort in healthcare: Organization, limitations, and development of an approach
Kim et al. Accelerating road sign ground truth construction with knowledge graph and machine learning
Mascii et al. Sentiment analysis for performance evaluation of maintenance in healthcare
Dos Santos et al. A meta-learning architecture based on linked data
Stojanovic et al. Smart services in the physical world: digital twins
Efozia et al. Development of a hybrid model for enhancing data integration process of business intelligence system
Ge Knowledge graphs and its applications in finance
Seremeti et al. Tools for ontology engineering and management
Stašák et al. Semantic technology and linguistic modelling in business strategy design and evaluation
D’Cruze et al. A Case Study on Ontology Development for AI Based Decision Systems in Industry
Sugumaran Recent advances in intelligent technologies and information systems

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)