KR102647337B1 - 데이터 증식 및 분석 장치 및 방법 - Google Patents

데이터 증식 및 분석 장치 및 방법 Download PDF

Info

Publication number
KR102647337B1
KR102647337B1 KR1020230096269A KR20230096269A KR102647337B1 KR 102647337 B1 KR102647337 B1 KR 102647337B1 KR 1020230096269 A KR1020230096269 A KR 1020230096269A KR 20230096269 A KR20230096269 A KR 20230096269A KR 102647337 B1 KR102647337 B1 KR 102647337B1
Authority
KR
South Korea
Prior art keywords
data
statistical distribution
analysis
proliferation
distribution
Prior art date
Application number
KR1020230096269A
Other languages
English (en)
Inventor
성노윤
남기환
Original Assignee
주식회사 아임토리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아임토리 filed Critical 주식회사 아임토리
Priority to KR1020230096269A priority Critical patent/KR102647337B1/ko
Application granted granted Critical
Publication of KR102647337B1 publication Critical patent/KR102647337B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 인공지능 기반의 머신 러닝을 위한 학습 데이터 증식 및 분석 기술에 관한 것으로, 딥러닝 모델 학습을 위한 원본 데이터를 수신하는 단계, 상기 수신된 원본 데이터를 증식시키는 단계, 상기 원본 데이터의 데이터 셋 특성을 반영한 통계 분포를 파악하는 단계, 상기 파악된 통계 분포 결과와 상기 증식시키는 단계에서 증식된 증식 데이터에서 발생한 이상 패턴을 비교하여 연계 분석하는 단계 및 기 연계 분석하는 단계에서의 분석 결과에 따라 통계 분포를 조절하는 단계;를 포함하고, 상기 증식시키는 단계는, 상기 조절하는 단계에서 조절된 통계적 분포를 적용하여 데이터를 증식시키는, 데이터 증식 및 분석 방법에 의해 인공지능 머신 학습에 있어서 학습 모델의 작업 효율성과 학습 정확도를 향상시킬 수 있는 효과가 도출된다.

Description

데이터 증식 및 분석 장치 및 방법{Apparatus and Method for Data augmentation and Data Analysis}
실시예는 인공지능 기반의 머신 러닝을 위한 학습 데이터 증식 및 분석 기술에 관한 것이다.
머신 러닝은 기본적으로 알고리즘을 이용해 데이터를 분석하고, 분석을 통해 학습하며, 학습한 내용을 기반으로 판단이나 예측한다.
딥 러닝은 인공신경망에서 발전한 형태의 인공 지능으로, 뇌의 뉴런과 유사한 정보 입출력 계층을 활용해 데이터를 학습한다.
딥러닝에서 데이터를 늘리는 것은 모델의 성능을 향상에 도움이 될 수 있다. 데이터 확장은 모델이 더 일반화되고 다양한 패턴과 특징을 학습할 수 있도록 도와준다. 이를 통해 과적합을 방지하고 일반화 능력을 향상시킬 수 있다.
종래에는 데이터를 늘리기 위해 인터넷, 공개 데이터 셋, 소셜 미디어, 온랑니 포럼 등 관심 있는 주제에 대한 레이블이 지정된 데이터를 수집하거나, 이미지, 텍스트, 오디오 등 다양한 형식의 데이터를 수집하여 기존 데이터 셋을 보강하는 방법등이 이용된다.
데이터를 늘리는 방법은 주어진 작업과 데이터에 따라 다를 수 있다. 적절한 데이터 증식 및 확장 방법을 선택하기 위해서는 작업에 대한 이해와 도메인 지식이 필요하다. 또한, 데이터의 품질과 분포에 대한 고려도 중요하다. 데이터 증식이 과도하게 적용되면 모델의 성능을 악화시킬 수 있으므로 적절한 균형을 유지하는 것이 중요하다.
KR 10-2023-0096901 A KR 10-2020-0057823 A
본 발명은 이 같은 기술적 배경에서 도출된 것으로, 인공지능 머신 학습에 있어서 러닝 모델의 작업 효율성과 학습 정확도를 향상시킬 수 있는 학습 데이터 증식 및 분석 장치 및 방법을 제공함에 그 목적이 있다.
나아가 이상 데이터를 탐지하는 모델이 통계적 분포와의 관계를 분석한 후 통계적 분포의 조절을 수행할 수 있어 증식 데이터의 품질을 확인하고, 모델의 학습 및 평가에 적합한 데이터를 선택할 수 있을 뿐 아니라, 모델이 실제 데이터의 이상 패턴을 잘 학습하고, 통계적 분포를 잘 반영하도록 모델의 성능 평가를 통해 데이터 증식 과정을 개선할 수 있는 학습 데이터 증식 및 분석 장치 및 방법을 제공하고자 한다.
상기의 과제를 달성하기 위한 본 발명은 다음과 같은 구성을 포함한다.
즉 본 발명의 일 실시예에 따른 데이터 증식 및 분석 방법은 하나의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 딥러닝 모델 학습을 위한 원본 데이터를 수신하는 단계, 상기 수신된 원본 데이터를 증식시키는 단계, 상기 원본 데이터의 데이터 셋 특성을 반영한 통계 분포를 파악하는 단계, 상기 파악된 통계 분포 결과와 상기 증식시키는 단계에서 증식된 증식 데이터에서 발생한 이상 패턴을 비교하여 연계 분석하는 단계 및 상기 연계 분석하는 단계에서의 분석 결과에 따라 통계 분포를 조절하는 단계를 포함하고, 상기 증식시키는 단계는 상기 조절하는 단계에서 조절된 통계적 분포를 적용하여 데이터를 증식시킨다.
한편, 일 실시예에 따른 데이터 증식 및 분석 장치는 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨터 장치로서, 딥러닝 모델 학습을 위한 원본 데이터를 수신하는 데이터 수신부, 상기 데이터 수신부에서 수신된 원본 데이터를 증식시키는 데이터 증식부, 상기 데이터 수신부에서 수신된 원본 데이터의 데이터 셋 특성을 반영한 통계 분포를 파악하는 통계 분포 파악부, 상기 통계 분포 파악부에서 파악된 통계 분포 결과와 상기 데이터 증식부에서 증식된 증식 데이터에서 발생한 이상 패턴을 비교하여 연계 분석하는 연계 분석부 및 상기 연계 분석부에서의 분석 결과에 따라 이상 패턴 타입별 개선을 위한 통계적 분포 조절 방향을 파악하여 조절하는 조절부를 포함하고, 상기 데이터 증식부는, 상기 조절부에서 조절된 통계적 분포를 적용하여 데이터를 증식시킨다.
본 발명에 의하면 인공지능 머신 학습에 있어서 학습 모델의 작업 효율성과 학습 정확도를 향상시킬 수 있는 학습 데이터 증식 및 분석 장치 및 방법을 제공할 수 있는 효과가 도출된다.
나아가 이상 데이터를 탐지하는 모델이 통계적 분포와의 관계를 분석한 후 통계적 분포의 조절을 수행할 수 있어 증식 데이터의 품질을 확인하고, 학습 모델의 학습 및 평가에 적합한 데이터를 선택할 수 있다.
또한, 학습 모델이 실제 데이터의 이상 패턴을 잘 학습하고, 통계적 분포를 잘 반영하도록 모델의 성능 평가를 통해 데이터 증식 과정을 개선할 수 있는 학습 데이터 증식 및 분석 장치 및 방법을 제공할 수 있는 효과가 있다.
도 1 은 본 발명의 일 실시예에 따른 데이터 증식 및 분석 장치의 구성을 도시한 블록도이다.
도 2 는 본 발명의 일 실시예에 따른 데이터 증식 및 분석 방법을 설명하기 위한 흐름도이다.
본 발명에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.
본 발명의 실시예들에 따른 데이터 증식 및 분석 장치는 적어도 하나의 컴퓨터 장치에 의해 구현될 수 있으며, 본 발명의 실시예들에 따른 데이터 증식 및 분석 방법은 데이터 증식 및 분석 장치에 포함되는 적어도 하나의 컴퓨터 장치를 통해 수행될 수 있다. 이때, 컴퓨터 장치에는 본 발명의 일실시예에 따른 컴퓨터 프로그램이 설치 및 구동될 수 있고, 컴퓨터 장치는 구동된 컴퓨터 프로그램의 제어에 따라 본 발명의 실시예들에 따른 데이터 증식 및 분석 방법을 수행할 수 있다. 상술한 컴퓨터 프로그램은 컴퓨터 장치와 결합되어 데이터 증식 및 분석 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장될 수 있다.
도 1 은 본 발명의 일 실시예에 따른 데이터 증식 및 분석 장치의 구성을 도시한 블록도이다.
일 실시예에 따른 데이터 증식 및 분석 장치(10)는 네트워크를 통하여 원격지의 서버나 사용자 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 사용자 단말은 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 사용자 단말은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(Smartphone), 스마트 패드(Smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
일 실시예에 따른 데이터 증식 및 분석 장치(10)는 도 1에 도시된 바와 같이, 통신 인터페이스(110), 메모리(120), 입출력 인터페이스(130) 및 프로세서(140)를 포함한다.
통신 인터페이스(110)는 네트워크(30)를 통해 데이터 증식 및 분석 장치(10)가 다른 장치(일례로, 앞서 설명한 저장장치들)와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 데이터 증식 및 분석 장치(10)의 프로세서(140)가 메모리(120)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(110)의 제어에 따라 네트워크(30)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(30)를 거쳐 의 통신 인터페이스(110)를 통해 데이터 증식 및 분석 장치(10)로 수신될 수 있다. 통신 인터페이스(110)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(140)나 메모리(120)로 전달될 수 있고, 파일 등은 데이터 증식 및 분석 장치(10)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.
네트워크(30)는 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일예에는 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷(WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), 5GPP(5th Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), RF(Radio Frequency), 블루투스(Bluetooth) 네트워크, NFC(Near-Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.
메모리(120)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(120)와는 구분되는 별도의 영구 저장 장치로서 데이터 증식 및 분석 장치(10)에 포함될 수도 있다.
또한, 메모리(120)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(120)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(120)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(110)를 통해 메모리(120)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(30)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 의 메모리(120)에 로딩될 수 있다.
입출력 인터페이스(130)는 입출력 장치와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입출력 장치는 마이크, 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(130)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치는 데이터 증식 및 분석 장치(10)와 하나의 장치로 구성될 수도있다.
프로세서(140)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(120) 또는 통신 인터페이스(110)에 의해 프로세서(140)로 제공될 수 있다. 예를 들어 프로세서(140)는 메모리(120)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.
하기에서, 적어도 하나의 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. 또한, 각 구성 요소가 단수 또는 복수로 구비되는 것은 실시예에 따라 변경 가능하다 할 것이다.
일 실시예에 있어서, 프로세서(140)는 구체적으로 데이터 수신부(1410), 데이터 증식부(1420), 통계 분포 파악부(1430), 연계 분석부(1440) 및 조절부(1450)를 포함한다.
프로세서(140)는 DI(Digital Input), AI(Analog Input), DO(Digital Output), Ethernet, SI(Serial Input) 포트를 포함할 수 있다.
데이터 수신부(1410)는 딥러닝 모델 학습을 위한 원본 데이터를 수신한다. 일 실시예에 있어서 데이터 수신부(1410)는 통신 인터페이스(110) 또는 입출력 인터페이스(130)를 통해 원본 데이터를 수신한다.
데이터 수신부(1410)는 모델이 학습을 수행하기 위해 사용되는 초기 데이터를 수집한다. 초기 데이터 즉 원본 데이터는 일반적으로 사람이 생성하거나 수집한 데이터로 딥러닝 모델은 이 원본 데이터를 사용하여 가중치와 편향을 조정하고 패턴을 학습하여 작업을 수행한다.
원본 데이터는 주어진 작업에 따라 다양한 형태일 수 있다. 예를 들어, 이미지 분류 작업의 경우, 원본 데이터는 이미지 파일로 구성되고, 음성 인식 작업의 경우, 원본 데이터는 오디오 파일로 구성되며, 자연어 처리 작업의 경우, 원본 데이터는 텍스트 문서나 문장의 형태일 수 있다.
데이터 증식부(1420)는 데이터 수신부(1410)로 수신되는 원본 데이터를 증식시킨다.
데이터 증식부(1420)는 원본 데이터를 변형하여 새로운 데이터를 생성하는 데이터 증식(Data Augmentation)을 수행한다.
일 실시예에 따른 프로세서(140)가 데이터 수신부(1410)로 수신된 원본 데이터 형태에 따라 데이터 증식 기법을 결정하고, 데이터 증식부(1420)는 프로세서(140)에 의해 결정된 데이터 증식 기법을 이용하여 데이터 증식을 수행한다.
데이터 증식부(1420)는 데이터 증식 시 통계적 분포를 고려하기 위해 원본 데이터의 분포를 분석하고 이를 기반으로 증식 기법을 선택한다. 또한, 데이터의 품질과 다양성도 고려하여 적절한 데이터 증식 기법을 선택하고 원본 데이터의 통계적 분포를 유지하면서도 데이터셋의 다양성을 향상시킬 수 있다. 데이터 증식부(1420)는 원본 데이터가 이미지 데이터인지, 텍스트 데이터인지, 오디오 데이터인지, 비디오 데이터인지 또는 이외의 다른 형식의 데이터인지 데이터 형태에 따라 상이한 기법으로 데이터 증식을 수행할 수 있다.
일 실시예에 있어서, 데이터 증식부(1420)는 원본 데이터가 이미지 데이터의 경우, 회전, 이동, 크기 조정, 반전 등의 변형을 가할 수 있다. 예를 들어, 이미지를 좌우로 뒤집거나 회전시키는 등의 변형을 적용하여 이미지 데이터의 다양성을 높일 수 있다. 그리고 원본 데이터에 기존 데이터에서 파생된 새로운 데이터를 생성하는 합성 데이터(Synthetic Data) 방식으로 이미지 데이터에서 노이즈를 추가하거나 이미지의 일부를 자르고 복사하여 새로운 이미지를 생성할 수도 있다. 이러한 합성 데이터는 원본 데이터와 다른 특징을 가질 수 있어 모델의 일반화 성능을 향상시킬 수 있다.
데이터 증식부(1420)는 미리 학습된 모델을 사용하여 새로운 작업에 적용하는 전이 학습(Transfer Learning) 방법에 의해 이미지 분류 문제의 경우, 대규모 이미지 데이터셋에서 미리 학습된 신경망을 가져와서 새로운 작업에 맞게 Fine-tuning하는 방식을 사용할 수도 있다.
또한 데이터 증식부(1420)는 데이터 확장을 위해 부트스트래핑 기법을 수행할 수도 있다.
일 실시예에 있어서, 데이터 증식부(1420)는 학습 원본 데이터가 이미지 데이터인 경우에 이미지를 회전(Rotation)시켜 새로운 각도에서의 이미지를 생성한다. 그리고 이를 통해 모델은 객체의 다양한 방향에서의 모습을 학습할 수 있다. 이미지를 좌우나 상하로 이동(Translation)시켜 새로운 위치에서의 이미지를 생성한다. 이를 통해 모델은 객체의 위치 변화에 대한 불변성을 학습할 수 있다. 또한 이미지의 크기를 조정(Scaling)하여 다양한 크기의 이미지를 생성하고, 객체의 크기 변화에 대한 불변성을 학습할 수 있다. 또한 이미지를 좌우로 뒤집거나 상하로 뒤집어 새로운 이미지를 생성하는 반전(Flip)을 통해 이미지의 좌우 대칭성이나 상하 대칭성을 학습할 수 있다. 또한 이미지에 노이즈를 추가(Noise Injection)하여 새로운 이미지를 생성할 수도 있다. 예를 들어, 이미지에 가우시안 노이즈를 적용하거나 이미지의 일부 영역을 블럭 처리하는 등의 방법을 사용하여 노이즈에 대한 강인성을 학습할 수 있다. 이미지의 일부 영역을 자르기(Cropping)하여 새로운 이미지를 생성하고 객체의 부분적인 특징을 학습할 수 있다. 예를 들어, 얼굴 인식 작업에서는 이미지의 얼굴 영역을 자르거나 확대하여 다양한 얼굴 이미지를 생성할 수 있다.
일 실시예에 있어서, 데이터 증식부(1420)는 학습 원본 데이터가 텍스트 데이터인 경우 텍스트 데이터의 다양성을 증가시키고 모델의 성능을 향상시키도록 단어 대체, 동의어 대체, 문장 재구성 등의 기법을 수행할 수 있다. 데이터 증식부(1420)는 학습 원본 데이터가 텍스트 데이터인 경우 텍스트 데이터에서 단어 대체(Word Replacement) 기법을 사용하여 특정 단어를 유사한 의미를 가진 다른 단어로 대체할 수 있다. 예를 들어, "good"라는 단어를 "great"이나 "excellent"으로 대체하여 데이터에 다양한 표현과 유사한 의미를 가진 단어가 포함되어 모델의 학습을 다각도로 개선할 수 있다. 또한 텍스트 데이터에서 동의어 대체 (Synonym Replacement) 기법을 사용하여 특정 단어를 해당 단어의 동의어로 대체할 수 있다. 이는 단어의 의미를 유지하면서 데이터에 다양성을 추가할 수 있다. 예를 들어, "happy"라는 단어를 "joyful"이나 "delighted"로 대체하는 것이다.
그리고 텍스트 데이터의 문장 재구성 (Sentence Reordering)을 통해 데이터의 순서를 변경하여 다양한 문장 구조를 만들어 낼 수 있다. 이를 통해 문장 간의 관계를 변형하고 모델이 다양한 문맥을 이해하도록 도울 수 있다. 또한, 텍스트 데이터에 노이즈 추가 (Noise Addition)를 통해 데이터를 다양하게 만들 수 있다. 이는 모델이 노이즈에 대한 강인함을 향상시킬 수 있다. 예를 들어, 텍스트 데이터에 랜덤하게 추가된 오타, 맞춤법 오류, 혹은 특수 문자 등을 포함할 수 있다. 데이터 증식부(1420)는 문장이나 단어의 순서를 무작위로 섞어서 데이터를 다양하게 만들 수 있는 데이터 셔플링 (Data Shuffling)을 통해 모델이 문장의 순서에 의존하지 않고 문맥을 이해할 수 있도록 도움이 될 수 있다.
데이터 증식부(1420)는 원본 데이터가 오디오 데이터일 경우에 오디오 스펙트로그램의 시간 축 또는 주파수 축에서 자르기, 이동, 노이즈 추가, 음성 속도 조절, 음색 변환, 반전 등의 변형을 통해 데이터를 증식시킬 수 있다. 즉, 음성 데이터의 속도를 느리게 하거나 빠르게 변조시키는 시간적 변조(Time Stretching) 및 속도 조절 방법을 통해 데이터의 길이를 조절하고 음성 톤에 변화를 주어 다양한 변형된 음성 데이터를 증식시킬 수 있다.
그리고 음성 데이터의 음조를 변경하는 피치 변조(Pitch Shifting) 방법에 의해 음성의 톤을 조절하여 다양한 음높이의 음성을 생성할 수 있다. 또한, 음성 데이터에 다양한 종류의 노이즈 추가(Noise Injection)를 통해 주변 환경 소음, 마이크 잡음 등 다양한 노이즈를 추가하여 음성의 다양성을 증가시킬 수 있다. 또한 음성 데이터의 주파수 영역에서 특정 범위를 강조(Emphasis)하는 방법을 통해 음성의 특정 주파수 대역을 강조하거나 약화시켜 음성 데이터를 다양하게 변형시킬 수 있다. 또한 음성 데이터의 방향성을 조정하여 다양한 공간적 효과를 부여하는 방향성 변화(Spatialization) 방법에 의해 음성이 특정 위치에서 들리는 것처럼 처리하여 다양한 입체 음향 효과를 시뮬레이션할 수 있다. 또한 음성 데이터를 회전, 반전 또는 일부분을 잘라내는 잘라내기 등의 변형을 가하는 방법을 통해 데이터의 다양성을 증가시킬 수 있다.
데이터 증식부(1420)는 원본 데이터가 비디오 데이터일 경우 비디오 프레임 사이에 새로운 프레임을 삽입하여 비디오의 재생 속도를 변경하거나 부드러운 모션 효과를 생성하는 프레임 보간(Frame Interpolation)을 통해 비디오의 장면을 확장하거나 축소시킬 수 있다. 또한 크롭(Cropping) 및 리사이징(Resizing)을 통해 비디오 프레임을 잘라내거나 크기를 변경하여 새로운 비디오를 생성하여 다양한 화면 비율이나 해상도의 비디오를 얻을 수 있다.
또한 비디오 프레임을 회전하거나 반전(Transformations)시켜 데이터를 다양하게 변형시켜서 비디오의 시각적 효과를 변경하거나 다른 시각적 관점을 시뮬레이션할 수 있다.
비디오의 색 공간을 변경색 공간 변환(Color Space Transformation)하여 다양한 색상 및 톤맵을 얻을 수 있고, 색상 밸런스 조정, 색조 변화, 채도 조절 등을 통해 다양한 시각적 효과를 부여할 수 있다. 비디오 데이터에 다양한 종류의 노이즈를 추가(Noise Injection)하여 시뮬레이션하고, 환경 소음, 비디오 잡음, 압축 아티팩트 등을 추가하여 비디오의 다양성을 증가시킬 수 있다. 비디오 데이터의 재생 속도를 조절하거나 프레임 간 간격을 변경하여 비디오의 시간 흐름을 변화시키는 시간적 변조(Time Manipulation)를 통해 슬로우 모션, 패스트 모션, 타임랩스 등 다양한 시간적 효과를 적용할 수 있다.
통계 분포 파악부(1430)는 데이터 수신부(1410)로 수신되는 원본 데이터의 데이터 셋 특성을 반영한 통계 분포를 파악한다.
데이터 증식은 모델의 일반화 능력을 향상시키기 위해 기존 데이터를 변형하거나 새로운 데이터를 생성하는 과정이다. 데이터를 증식할 때 통계적 분포를 고려해야 한다.
통계적 분포는 데이터의 특성과 패턴을 설명하는 확률분포이다. 이 분포는 원래 데이터셋의 특성을 반영하고 있는데, 데이터 증식 시 통계적 분포를 유지하는 것은 학습 모델이 실제 데이터와 일관성을 가지고 학습할 수 있도록 도와준다. 만약 데이터 증식을 통해 새로운 데이터를 생성할 때 통계적 분포를 무시하거나 균일한 분포로 생성하게 되면, 모델이 실제 데이터와 다른 분포를 가진 데이터에 노출되어 일반화 능력이 저하될 수 있기 때문이다.
통계 분포 파악부(1430)는 일 실시예에 있어서 주어진 원본 데이터셋을 분석하여 그 통계적 특성을 파악한다. 예를 들어, 이미지 데이터의 경우 픽셀 값의 분포, 색상 채널 간의 상관 관계, 텍스트 데이터의 경우 단어 빈도, 문장 구조 등을 분석할 수 있다. 이를 통해 데이터의 특성을 이해하고 통계적 분포를 파악할 수 있다.
이미지 데이터의 경우, 데이터 증식을 수행할 때 회전, 이동, 반전 등의 변형을 적용하면서도 원래 이미지 데이터의 특성을 유지해야 한다. 예를 들어, 이미지 데이터셋이 자연 이미지에 대한 것이라면, 데이터 증식 과정에서도 자연 이미지의 특징과 통계적 분포를 유지해야 한다. 이를 위해 회전이나 이동 시에는 이미지의 가장자리를 채우는 방식이나 보간법을 사용하여 통계적 분포를 보존할 수 있다.
연계 분석부(1440)는 통계 분포 파악부(1430)에서 파악된 통계 분포 결과와 데이터 증식부(1420)에서 증식된 증식 데이터에서 발생한 이상 패턴을 비교하여 연계 분석한다.
연계 분석부(1440)는 정상 데이터를 최대한 학습하여 정상 범위를 확인하고, 이와 다르게 패턴을 움직이도록 통계학적 방법과 실제 이상 패턴을 기반으로 데이터를 생성하는 것을 연계 분석한다.
일 실시예에 있어서, 연계 분석부(1440)는 정상 데이터 학습을 위해 증식 데이터가 정상 데이터인지 여부를 파악한다.
일예로 연계 분석부(1440)는 머신 러닝 기법을 적용하여 상기 파악된 통계 분포 결과와 상기 파악하는 단계에서 이상 데이터로 파악된 증식 데이터의 패턴을 비교하여 연계 분석할 수 있다. 즉 머신 러닝 기법을 사용하여 이상 데이터를 감지하는 모델을 구축할 수 있다. 정상 데이터로 모델을 학습한 후, 증식 데이터를 입력하여 모델의 출력을 분석하고 이상 데이터로 분류할 수 있다. 연계 분석부(1440)는 예를 들어 이상 탐지 알고리즘인 One-Class SVM, Isolation Forest, Autoencoder 등을 활용할 수 있다. 그러나 이에 한정되는 것은 아니다.
연계 분석부(1440)는 증식 데이터에 대해 해당 데이터 도메인에 대한 지식과 경험을 활용하여 증식 데이터의 정상성 여부를 판단할 수 있다. 도메인 전문가 또는 도메인 특징을 반영하는 통계적 지표나 규칙을 사용하여 증식 데이터의 이상 여부를 평가할 수 있다. 또한 증식 데이터를 시각화하여 시각적 분석을 통해 정상 데이터와의 차이점을 파악할 수 있다. 데이터의 분포, 패턴, 이상점 등을 시각적으로 비교하고 검토하여 이상 데이터를 식별할 수 있다.
또한 증식 데이터와 정상 데이터 간의 통계적 특성을 분석하여 이상 데이터인지 여부를 판단할 수도 있다. 예를 들어, 특정 통계적 지표나 기법을 사용하여 데이터의 분포, 분산, 상관 관계 등을 평가하고 비교할 수 있다. 이를 통해 이상 데이터가 정상 데이터와 통계적으로 유의미하게 다른지를 판단할 수 있다.
본 발명의 다른 양상에 있어서, 연계 분석부(1440)는 확률 분포 모델, 잔차 분석, 분포 비교 중 하나를 이용한다. 그러나 이에 한정되는 것은 아니다.
일 실시예에 있어서 연계 분석부(1440)는 이상 탐지 모델을 확률 분포 모델로 구성하여 데이터가 주어진 분포와 얼마나 일치하는지를 평가할 수 있다. 예를 들어, Gaussian Mixture Model (GMM)을 사용하여 데이터를 정규 분포로 모델링하고, 이상치의 확률을 계산하여 이상 데이터를 탐지할 수 있다.
또한, 정상 데이터와의 잔차를 분석하여 이상 데이터를 식별할 수 있다. 모델을 통해 정상 데이터를 재구성하고, 원본 데이터와 재구성 사이의 잔차를 계산한다. 이때 이상 데이터는 보통 잔차가 크게 나타난다.
또한, 연계 분석부(1440)는 이상 탐지 모델의 출력과 통계적 분포를 비교하여 이상 데이터를 식별할 수 있다. 모델의 출력을 통계적인 방법으로 분석하고, 통계적 분포와의 차이를 계산하여 이상 데이터를 탐지할 수 있다.
조절부(1450)는 연계 분석부(1440)에서의 분석 결과에 따라 이상 패턴 타입별 개선을 위한 통계적 분포 조절 방향을 파악하여 조절한다.
조절부(1450)는 통계적 분포를 어떻게 달리하는 데이터를 생성하는 것이 실제 데이터 이상 패턴을 생성했을 때와 유사하게 움직이는지를 파악하고, 이상 패턴의 타입별로 통계적인 어떤 분포의 흐름으로 변화를 주며 데이터를 생성하는 것이 가장 좋을지 통합 분석을 하여 이를 기반으로 정상이 아닌 데이터를 다각도로 고려하여 생성하도록 통계적 분포 조절 방향을 결정할 수 있다. 그리고 통계적 분포 조절 방향에 따라 통계적 분포의 조절을 수행한다.
조절부(1450)는 연계 분석 결과에 따라 이상 패턴 타입별 개선을 위한 통계적 분포 변화를 파악하고, 파악 결과에 기반하여 이상 패턴 타입별 개선을 위한 통계적 분포의 보정안을 결정하며, 상기 결정된 분포 보정안에 따라 통계적 분포의 보정을 수행한다.
일 실시예에 있어서 조절부(1450)는 파라미터 조절, 데이터 필터링, 추가 데이터 수집 등의 방법으로 통계적 분포에 대한 제어를 수행할 수 있다.
이때 조절부(1450)는 이상 패턴별로 통계적 분포의 조절 방향을 다르게 수행한다. 이상 패턴은 원본 데이터셋과 다른 통계적 특성을 가지며 이를 반영하기 위해 조절 방향을 다르게 설정해야 한다.
일 실시예에 있어서 조절부(1450)는 이미지 데이터에서 노이즈 패턴을 조절하거나, 텍스트 데이터에서 문장 패턴을 조절하거나, 오디오 데이터에서 음성 패턴을 조절하는 것으로 통계적 분포를 조절할 수 있다.
이미지 데이터의 노이즈 패턴을 조절할 때 통계적 분포를 얼마나 더 넓게 할 것인지 또는 얼마나 강한 노이즈를 추가할 것인지에 따라 방향이 달라질 수 있다. 노이즈 분포를 더 넓게 조절하면 더 다양한 종류의 노이즈가 포함된 데이터가 생성되지만, 강한 노이즈를 추가하면 분포의 중심이 크게 변화할 수 있다.
또한, 텍스트 데이터에서 문장 패턴을 조절할 경우에 어떤 종류의 문법적인 오류나 의미상의 이상한 패턴을 추가할 것인지에 따라 방향이 달라질 수 있다. 예를 들어, 문법적인 오류를 추가할 경우, 해당 오류의 발생 빈도를 어떻게 조절할 것인지에 따라 통계적 분포가 달라질 수 있다.
그리고 오디오 데이터에서 음성 패턴을 조절할 때는 어떤 종류의 음성 변화를 추가할 것인지에 따라 방향이 달라질 수 있다. 예를 들어, 음성 속도 조절을 사용할 경우, 음성을 얼마나 빠르게 또는 느리게 할 것인지에 따라 통계적 분포가 달라질 수도 있다.
일 실시예에 있어서 프로세서(140)는 조절부(1450)에서의 통계적 분포 조절 이후에 다시 원본 데이터 셋에서 이상 패턴을 분석하여 어떤 특징을 가지는지 파악한다. 예를들어 이미지 데이터의 경우 이상한 모습이나 오류가 발생하는 특정 클래스의 이미지를 식별하고 분석할 수 있다.
그리고 데이터 증식을 수행한 후 생성된 데이터와 원본 데이터간 통계적 분포 및 이상 패턴을 비교한다. 이때 시각화 기법이나 통계적 분석을 활용할 수 있다. 그리고 이상 패턴이 통계적 분포와 일치하는지 확인하고, 얼마나 잘 반영되었는지를 평가할 수 있다.
그리고 비교 결과를 기반으로 데이터 증식 과정을 개선하기 위한 조치를 취한다. 이상 패턴이 충분히 반영되지 않았다면, 추가적인 데이터 증식 기법을 도입하거나 파라미터 조정을 통해 이상 패턴을 개선할 수 있다.
프로세서(140)는 개선된 데이터 증식 방법을 사용하여 모델을 훈련하고 평가한다. 이상 패턴을 포함한 테스트 데이터에서 모델의 성능을 평가하여 개선 여부를 확인할 수 있다. 이상 패턴을 잘 탐지하거나 예측하는 모델이 개선되었다면, 데이터 증식 과정의 효과를 확인할 수 있다.
이 과정을 반복수행하여 계속해서 데이터 증식 과정을 개선할 수 있다. 또한 이상 패턴의 효과적인 반영을 위해 추가 데이터 수집, 다양한 증식 기법의 조합, 파라미터 조정 등 다양한 시도를 통해 모델의 성능을 향상시킬 수 있다.
즉 본 발명의 추가적인 양상에 있어서 프로세서(140)는 조절부(1450)에서 통계적 분포 조절에 대한 응답을 피드백으로 수신한다. 그리고 조절부(1450)는 수신한 피드백 정보에 기반하여 통계 분포를 조절하여 그 정확도를 더 향상시킬 수 있다.
도 2 는 본 발명의 일 실시예에 따른 데이터 증식 및 분석 방법을 설명하기 위한 흐름도이다.
일 실시예에 따른 데이터 증식 및 분석 방법은, 하나의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 딥러닝 모델 학습을 위한 원본 데이터를 수신한다(S200).
원본 데이터는 일반적으로 사람이 생성하거나 수집한 데이터로 딥러닝 모델은 이 원본 데이터를 사용하여 가중치와 편향을 조정하고 패턴을 학습하여 작업을 수행한다.
원본 데이터는 주어진 작업에 따라 다양한 형태일 수 있다. 예를 들어, 이미지 분류 작업의 경우, 원본 데이터는 이미지 파일로 구성되고, 음성 인식 작업의 경우, 원본 데이터는 오디오 파일로 구성되며, 자연어 처리 작업의 경우, 원본 데이터는 텍스트 문서나 문장의 형태일 수 있다.
본 발명의 일 양상에 있어서, 수신된 원본 데이터 형태에 따라 데이터 증식 기법을 결정한다(S205).
이때 증식 기법을 결정하는 단계는, 수신된 원본 데이터의 분포를 분석하고 분석 결과를 반영하여 증식 기법을 결정한다.
증식 기법을 결정하는 단계는 원본 데이터가 이미지 데이터인지, 텍스트 데이터인지, 오디오 데이터인지, 비디오 데이터인지 또는 이외의 다른 형식의 데이터인지 데이터 형태에 따라 상이한 기법을 결정할 수 있다.
그리고 수신된 원본 데이터를 원본 데이터 형태에 따라 결정된 기법으로 데이터를 증식시킨다(S210).
이때 증식 시키는 단계는 증식 기법을 결정하는 단계에서 결정된 데이터 증식 기법을 이용하여 증식시킨다. 예를들어 회전 (Rotation), 이동 (Translation), 크기 조정 (Scaling), 반전 (Flip), 노이즈 추가 (Noise Injection), 자르기 (Cropping), 색상 변환 (Color Transformation), 합성 데이터 (Synthetic Data) 등의 데이터 증식 기법에 의해 데이터를 증식시킬 수 있다. 데이터의 도메인과 특성에 따라 원본 데이터 형태에 따라 다양한 방법의 증식을 수행할 수 있다.
그리고 원본 데이터의 데이터 셋 특성을 반영한 통계 분포를 파악한다(S220).
통계적 분포는 데이터의 특성과 패턴을 설명하는 확률분포이다. 이 분포는 원래 데이터셋의 특성을 반영한다. 데이터 증식 시 통계적 분포를 유지하는 것은 학습 모델이 실제 데이터와 일관성을 가지고 학습할 수 있도록 한다.
일 실시예에 있어서 주어진 원본 데이터셋을 분석하여 그 통계적 특성을 파악한다. 예를 들어, 이미지 데이터의 경우 픽셀 값의 분포, 색상 채널 간의 상관 관계, 텍스트 데이터의 경우 단어 빈도, 문장 구조 등을 분석할 수 있다. 이를 통해 데이터의 특성을 이해하고 통계적 분포를 파악할 수 있다.
통계적 분포를 구하는 과정은 데이터 증식에서 원본 데이터의 특성을 유지하고 다양성을 확보하는 데 중요한 역할을 한다. 일 실시예에 있어서, 데이터 분석, 변형 기법 선택, 변형 적용, 통계적 분포 검증 등의 단계를 수행하여 효과적인 데이터 증식을 할 수 있다.
본 발명의 일 양상에 있어서, 증식 데이터에 머신 러닝 기법을 적용하여 이상 데이터인지 여부를 파악한다(S230).
이상 데이터인지 여부를 파악하는 단계는 도메인 지식 활용, 시각화 및 시각적 분석, 통계적 분석, 머신 러닝 기반의 이상 탐지 기능, 전문가 지식 기반의 접근 방식을 통해 이상 데이터인지 여부를 파악할 수 있다.
이후에 파악된 통계 분포 결과와 상기 증식시키는 단계에서 증식된 증식 데이터에서 발생한 이상 패턴을 비교하여 연계 분석한다(S240).
일예로 연계 분석 단계는 머신 러닝 기법을 적용하여 상기 파악된 통계 분포 결과와 파악하는 단계에서 이상 데이터로 파악된 증식 데이터의 패턴을 비교하여 연계 분석할 수 있다. 즉 머신 러닝 기법을 사용하여 이상 데이터를 감지하는 모델을 구축할 수 있다. 정상 데이터로 모델을 학습한 후, 증식 데이터를 입력하여 모델의 출력을 분석하고 이상 데이터로 분류할 수 있다. 연계 분석단계는 예를 들어 이상 탐지 알고리즘인 One-Class SVM, Isolation Forest, Autoencoder 등을 활용할 수 있다. 그러나 이에 한정되는 것은 아니다.
이때 연계 분석하는 단계는 확률 분포 모델, 잔차 분석, 분포 비교 중 하나를 이용하여 연계분석을 수행한다.
또한 연계 분석하는 단계는 머신 러닝 기법을 적용하여 상기 파악된 통계 분포 결과와 상기 파악하는 단계에서 이상 데이터로 파악된 증식 데이터의 패턴을 비교하여 연계 분석할 수도 있다.
이후에 상기 연계 분석하는 단계에서의 분석 결과에 따라 통계 분포를 조절한다(S250).
일 양상에 있어서 통계 분포를 조절하는 단계는, 연계 분석 결과에 따라 이상 패턴 타입별 개선을 위한 통계적 분포 변화를 파악하는 단계, 상기 파악 결과에 기반하여 이상 패턴 타입별 개선을 위한 통계적 분포의 보정안을 결정하는 단계 및 상기 결정된 분포 보정안에 따라 통계적 분포의 보정을 수행하는 단계를 포함한다.
전술한 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
10 : 데이터 증식 및 분석 장치 110 : 통신 인터페이스
120 : 메모리 130 : 입출력 인터페이스
140 : 프로세서

Claims (7)

  1. 하나의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
    딥러닝 모델 학습을 위한 원본 데이터를 수신하는 단계;
    상기 수신된 원본 데이터를 증식시키는 단계;
    상기 원본 데이터의 데이터 셋 특성을 반영한 통계 분포를 파악하는 단계;
    상기 파악된 통계 분포 결과와 상기 증식시키는 단계에서 증식된 증식 데이터에서 발생한 이상 패턴을 비교하여 연계 분석하는 단계; 및
    상기 연계 분석하는 단계에서의 분석 결과에 따라 통계 분포를 조절하는 단계;를 포함하고,
    상기 증식시키는 단계는,
    상기 조절하는 단계에서 조절된 통계적 분포를 적용하여 데이터를 증식시키고,
    상기 통계 분포를 조절하는 단계는,
    연계 분석 결과에 따라 이상 패턴 타입별 개선을 위한 통계적 분포 변화를 파악하는 단계,
    상기 통계적 분포 변화를 파악하는 단계에서 파악된 통계적 분포 변화 결과에 기반하여 이상 패턴 타입별 개선을 위한 통계적 분포의 보정안을 결정하는 단계 및
    상기 결정된 분포 보정안에 따라 통계적 분포의 보정을 수행하는 단계를 포함하는, 데이터 증식 및 분석 방법.
  2. 제 1 항에 있어서,
    수신된 원본 데이터 형태에 따라 데이터 증식 기법을 결정하는 단계;를 더 포함하고,
    상기 증식시키는 단계는,
    상기 증식 기법을 결정하는 단계에서 결정된 데이터 증식 기법을 이용하여 증식시키는, 데이터 증식 및 분석 방법.
  3. 제 2 항에 있어서,
    상기 증식 기법을 결정하는 단계는,
    수신된 원본 데이터의 분포를 분석하고 분석 결과를 반영하여 증식 기법을 결정하는, 데이터 증식 및 분석 방법.
  4. 삭제
  5. 제 1 항에 있어서,
    상기 증식 데이터에 머신 러닝 기법을 적용하여 이상 데이터인지 여부를 파악하는 단계;를 더 포함하고,
    상기 연계 분석하는 단계는,
    머신 러닝 기법을 적용하여 상기 파악된 통계 분포 결과와 상기 파악하는 단계에서 이상 데이터로 파악된 증식 데이터의 패턴을 비교하여 연계 분석하는, 데이터 증식 및 분석 방법.
  6. 제 5 항에 있어서,
    상기 연계 분석하는 단계는,
    확률 분포 모델, 잔차 분석, 분포 비교 중 하나를 이용하는, 데이터 증식 및 분석 방법.
  7. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨터 장치로서,
    딥러닝 모델 학습을 위한 원본 데이터를 수신하는 데이터 수신부;
    상기 데이터 수신부에서 수신된 원본 데이터를 증식시키는 데이터 증식부;
    상기 데이터 수신부에서 수신된 원본 데이터의 데이터 셋 특성을 반영한 통계 분포를 파악하는 통계 분포 파악부;
    상기 통계 분포 파악부에서 파악된 통계 분포 결과와 상기 데이터 증식부에서 증식된 증식 데이터에서 발생한 이상 패턴을 비교하여 연계 분석하는 연계 분석부; 및
    상기 연계 분석부에서의 분석 결과에 따라 이상 패턴 타입별 개선을 위한 통계적 분포 조절 방향을 파악하여 조절하는 조절부;를 포함하고,
    상기 데이터 증식부는,
    상기 조절부에서 조절된 통계적 분포를 적용하여 데이터를 증식시키고,
    상기 조절부는,
    연계 분석 결과에 따라 이상 패턴 타입별 개선을 위한 통계적 분포 변화를 파악하고,
    파악된 통계적 분포 변화 결과에 기반하여 이상 패턴 타입별 개선을 위한 통계적 분포의 보정안을 결정하고,
    결정된 분포 보정안에 따라 통계적 분포의 보정을 수행하는 것인, 데이터 증식 및 분석 장치.
KR1020230096269A 2023-07-24 2023-07-24 데이터 증식 및 분석 장치 및 방법 KR102647337B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230096269A KR102647337B1 (ko) 2023-07-24 2023-07-24 데이터 증식 및 분석 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230096269A KR102647337B1 (ko) 2023-07-24 2023-07-24 데이터 증식 및 분석 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102647337B1 true KR102647337B1 (ko) 2024-03-13

Family

ID=90299128

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230096269A KR102647337B1 (ko) 2023-07-24 2023-07-24 데이터 증식 및 분석 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102647337B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200057823A (ko) 2018-11-13 2020-05-27 한국전자통신연구원 영상 데이터 증식 장치 및 방법
KR20210050168A (ko) * 2019-10-28 2021-05-07 주식회사 뷰온 딥러닝 모델에 적용하기 위한 학습 데이터 확장방법, 딥러닝을 이용한 이미지 분류장치 및 그 방법
KR20210107491A (ko) * 2020-02-24 2021-09-01 주식회사 마키나락스 어노말리 데이터 생성 방법
KR102518913B1 (ko) * 2022-12-14 2023-04-10 라온피플 주식회사 인공지능 모델의 성능 관리 장치 및 방법
KR20230096901A (ko) 2021-12-23 2023-06-30 주식회사케이티넥스알 자율 주행 차량의 학습을 위한 데이터 증식 방법 및 그를 위한 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200057823A (ko) 2018-11-13 2020-05-27 한국전자통신연구원 영상 데이터 증식 장치 및 방법
KR20210050168A (ko) * 2019-10-28 2021-05-07 주식회사 뷰온 딥러닝 모델에 적용하기 위한 학습 데이터 확장방법, 딥러닝을 이용한 이미지 분류장치 및 그 방법
KR20210107491A (ko) * 2020-02-24 2021-09-01 주식회사 마키나락스 어노말리 데이터 생성 방법
KR20230096901A (ko) 2021-12-23 2023-06-30 주식회사케이티넥스알 자율 주행 차량의 학습을 위한 데이터 증식 방법 및 그를 위한 장치
KR102518913B1 (ko) * 2022-12-14 2023-04-10 라온피플 주식회사 인공지능 모델의 성능 관리 장치 및 방법

Similar Documents

Publication Publication Date Title
US10922866B2 (en) Multi-dimensional puppet with photorealistic movement
CN109859736B (zh) 语音合成方法及系统
US20200104640A1 (en) Committed information rate variational autoencoders
Wu et al. Deep learning-driven wireless communication for edge-cloud computing: opportunities and challenges
US11830505B2 (en) Identification of fake audio content
JP7475423B2 (ja) ビデオからの同期した音声生成
US11270684B2 (en) Generation of speech with a prosodic characteristic
Wang et al. Deep joint source-channel coding for multi-task network
US20210075806A1 (en) Rapid Model Retraining for a New Attack Vector
KR20220094008A (ko) 인공지능을 이용한 디지털 휴먼 기반 콘텐츠 생성 장치 및 방법
WO2023022727A1 (en) Prompt tuning using one or more machine-learned models
Liu et al. Deep generative model and its applications in efficient wireless network management: A tutorial and case study
Cao et al. A survey of mix-based data augmentation: Taxonomy, methods, applications, and explainability
Knop et al. Generative models with kernel distance in data space
US20230306258A1 (en) Training video data generation neural networks using video frame embeddings
JP2023549048A (ja) 音声認識方法と装置並びにコンピュータデバイス及びコンピュータプログラム
KR102647337B1 (ko) 데이터 증식 및 분석 장치 및 방법
US20230297841A1 (en) Generating datasets for machine learning systems
Khovanov Stochastic approach for assessing the predictability of chaotic time series using reservoir computing
Vougioukas et al. Dino: A conditional energy-based gan for domain translation
CN116363560A (zh) 一种视频掩码自编码方法及系统
CN112115703B (zh) 文章评估方法及装置
Du et al. DBWE-Corbat: Background network traffic generation using dynamic word embedding and contrastive learning for cyber range
CN114970670A (zh) 模型公平性评估方法及装置
Wang et al. Online mobile teaching methods based on Android in the 5G environment

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant