KR101968449B1 - 데이터 생산성 향상을 위한 ai 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법 - Google Patents

데이터 생산성 향상을 위한 ai 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법 Download PDF

Info

Publication number
KR101968449B1
KR101968449B1 KR1020180153327A KR20180153327A KR101968449B1 KR 101968449 B1 KR101968449 B1 KR 101968449B1 KR 1020180153327 A KR1020180153327 A KR 1020180153327A KR 20180153327 A KR20180153327 A KR 20180153327A KR 101968449 B1 KR101968449 B1 KR 101968449B1
Authority
KR
South Korea
Prior art keywords
data
label
label type
labeled
learning
Prior art date
Application number
KR1020180153327A
Other languages
English (en)
Inventor
엄성민
Original Assignee
엄성민
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엄성민 filed Critical 엄성민
Priority to KR1020180153327A priority Critical patent/KR101968449B1/ko
Application granted granted Critical
Publication of KR101968449B1 publication Critical patent/KR101968449B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 데이터 생산성 향상을 위한 AI 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법에 관한 것이다. 본 발명은, 로우 데이터 DB(410)에 저장된 전체 언레이블 타입 데이터(Unlabeled raw data)의 전체 개수 A개 중 미리 설정된 할당량 X개 이상에 대한 제 1 언레이블 타입 데이터(1st Unlabeled raw data)에서 제 1 레이블 타입 데이터(1st labeled data)로의 생성이 완료되는지를 여부를 판단하여 X개 이상만큼 제 1 레이블 타입 데이터(1st labeled data)의 생성이 완료되고, 각 제 1 레이블 타입 데이터(1st labeled data)에 포함된 모든 제 1 타겟 정보에 대한 제 1 검수 데이터(1st inspection data)의 정확도가 미리 설정된 매칭율 이상이 되는지를 분석하여 분석 결과 매칭율 이상인 경우 언레이블 타입 데이터(Unlabeled raw data)의 전체 개수에서 미리 설정된 할당량을 뺀 나머지에 해당하는 잔여한 제 2 레이블 타입 데이터(2nd labeled data)로부터 제 2 레이블 타입 데이터(2nd labeled data)를 자동으로 생성하여 전체 제 2 레이블 타입 데이터로부터 제 2 레이블 타입 데이터가 모두 생성되도록 하는 AI 학습 데이터 생성 서버(300); 및 레이블 데이터 DB(420)에 저장된 각 제 1 레이블 타입 데이터(1st labeled data)에 대해서 크라우드 소싱(crowd sourcing) 방식을 통해 클라이언트 스마트 디바이스 그룹(100g)의 개수의 일부를 구성하는 n(n은 2 이상의 자연수)개의 클라이언트 스마트 디바이스(100)로 제 1 레이블 타입 데이터(1st labeled data)에 대한 검수 진행 요청을 네트워크(200)를 통해 전송한 뒤, 각 제 1 레이블 타입 데이터(1st labeled data)에 대한 각 n개로 구성된 제 1 검수 데이터(1st inspection data)를 검수 데이터 DB(430)에 제 1 로우 데이터 식별 번호(ID)를 메타데이터로 지정하여 각 클라이언트 스마트 디바이스(100)의 단말번호(IMEI 또는 MAC address)와 함께 저장하는 레이블 타입 데이터 검수 서버(500); 를 포함하는 것을 특징으로 한다.
이에 의해, AI 학습 시스템상에서 로우 데이터(raw data)인 언레이블 타입 데이터(Unlabeled raw data)에서 레이블 타입 데이터(labeled data) 생성시 생성되는 레이블 타입 데이터에 대해서 자동으로 검수를 통해 유효성을 검증할 수 있는 효과를 제공한다.

Description

데이터 생산성 향상을 위한 AI 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법{Automatic inspection system for label type data based on Artificial Intelligence Learning to improve data productivity, and method thereof}
본 발명은 데이터 생산성 향상을 위한 AI 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법에 관한 것으로, 보다 구체적으로는, 본 발명은 상기의 문제점을 해결하기 위한 것으로, AI 학습 시스템상에서 로우 데이터(raw data)인 언레이블 타입 데이터(1st Unlabeled raw data)에서 레이블 타입 데이터(labeled data) 생성에 대한 로드(load)를 감소시켜 전체적인 학습 데이터 생산성을 향상시키도록 하기 데이터 생산성 향상을 위한 AI 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법에 관한 것이다.
크라우드 소싱(crowd sourcing)은 크라우드(Crowd, 대중)와 아웃소싱(Out-sourcing)이 조합된 말로, 일반 대중을 이용해 기업 내부 고용인이 해야 할 일을 대신하게 함으로써 저렴한 비용으로 문제를 해결할 수 있다는 장점이 있다. 대중의 남는 힘을 경제적 가치로 전환한다는 데도 의미가 있다.
이러한 크라우드 소싱의 방식은 AI 학습 시스템에서도 활용되고 있다.
먼저, AI 학습 시스템에 대해서 먼저 살펴보면, AI 학습 시스템의 학습(learning), 특히 지도 학습(supervised learning) 방식에서는 신경망을 이용해 학습시키는 데 반드시 입력 x에 해당하는 로우 데이터(raw data)인 언레이블 타입 데이터(1st Unlabeled raw data)와, 원하는 목표치 d에 해당하는 레이블 타입 데이터(labeled data)로 이루어진 학습 패턴 페어(training pattern pair)가 필요로 한다. 이러한 지도 학습(supervised learning) 방식의 일반적인 학습 절차는 학습 패턴 페어(training pattern pair)를 입력하여 신경망의 출력값을 구하고, 신경망의 출력값의 차이에 근거하여 연결 강도를 △w만큼 변경한다. 변경된 연결 강도 (w+△w)를 다시 비교하여 더 이상 연결 강도가 변하지 않으면 학습을 종료한다.
이러한 과정에서 레이블 타입 데이터를 생산하는 일은 대부분 전문성을 필요로 하지 않기 때문에, 크라우드 소싱(crowd sourcing) 방식을 많이 사용한다.
그러나 크라우드 소싱의 가장 큰 단점으로는 교육된 정규 인력을 활용할 경우 보다 생산된 데이터의 질을 신뢰하기 어렵다는 단점이 있다.
이에 따라 해당 기술 분야에 있어서는 AI 학습 시스템에서 생성되는 레이블 타입 데이터에 대해서 자동으로 검수를 통해 유효성 검증을 통해 유효한 레이블 타입 데이터만을 추출하고 정확도가 떨어지는 레이블 타입 데이터를 제거하기 위한 기술 개발이 요구되고 있다.
대한민국 특허출원 출원번호 제10-2018-7010567호 "네트워크 상의 데이터 플랫폼들 사이에서 자산-관련된 정보를 공유하기 위한 컴퓨터 시스템들 및 방법들(COMPUTER SYSTEMS AND METHODS FOR SHARING ASSET-RELATED INFORMATION BETWEEN DATA PLATFORMS OVER A NETWORK)"
본 발명은 상기의 문제점을 해결하기 위한 것으로, AI 학습 시스템상에서 로우 데이터(raw data)인 언레이블 타입 데이터(Unlabeled raw data)에서 레이블 타입 데이터(labeled data) 생성시 생성되는 레이블 타입 데이터에 대해서 자동으로 검수를 통해 유효성을 검증하기 위한 데이터 생산성 향상을 위한 AI 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법을 제공하기 위한 것이다.
또한, 본 발명은 4차 산업혁명시대의 또 다른 기술로 인공지능을 기반으로 AI 학습 시스템상에서 레이블 타입 데이터에 대한 검증을 통해 로우 데이터(raw data)인 언레이블 타입 데이터(Unlabeled raw data)에서 레이블 타입 데이터(labeled data) 생성에 대한 로드(load)를 감소와 더불어 전체적인 학습 데이터 생산에 대한 검증을 강화하도록 하기 위한 데이터 생산성 향상을 위한 AI 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법을 제공하기 위한 것이다.
그러나 본 발명의 목적들은 상기에 언급된 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기의 목적을 달성하기 위해 본 발명의 실시예에 따른 데이터 생산성 향상을 위한 AI 학습 기반의 레이블 타입 데이터 자동 검수 시스템은, 로우 데이터 DB(410)에 저장된 전체 언레이블 타입 데이터(Unlabeled raw data)의 전체 개수 A개 중 미리 설정된 할당량 X개 이상에 대한 제 1 언레이블 타입 데이터(1st Unlabeled raw data)에서 제 1 레이블 타입 데이터(1st labeled data)로의 생성이 완료되는지를 여부를 판단하여 X개 이상만큼 제 1 레이블 타입 데이터(1st labeled data)의 생성이 완료되고, 각 제 1 레이블 타입 데이터(1st labeled data)에 포함된 모든 제 1 타겟 정보에 대한 제 1 검수 데이터(1st inspection data)의 정확도가 미리 설정된 매칭율 이상이 되는지를 분석하여 분석 결과 매칭율 이상인 경우 언레이블 타입 데이터(Unlabeled raw data)의 전체 개수에서 미리 설정된 할당량을 뺀 나머지에 해당하는 잔여한 제 2 레이블 타입 데이터(2nd labeled data)로부터 제 2 레이블 타입 데이터(2nd labeled data)를 자동으로 생성하여 전체 제 2 레이블 타입 데이터로부터 제 2 레이블 타입 데이터가 모두 생성되도록 하는 AI 학습 데이터 생성 서버(300); 및 레이블 데이터 DB(420)에 저장된 각 제 1 레이블 타입 데이터(1st labeled data)에 대해서 크라우드 소싱(crowd sourcing) 방식을 통해 클라이언트 스마트 디바이스 그룹(100g)의 개수의 일부를 구성하는 n(n은 2 이상의 자연수)개의 클라이언트 스마트 디바이스(100)로 제 1 레이블 타입 데이터(1st labeled data)에 대한 검수 진행 요청을 네트워크(200)를 통해 전송한 뒤, 각 제 1 레이블 타입 데이터(1st labeled data)에 대한 각 n개로 구성된 제 1 검수 데이터(1st inspection data)를 검수 데이터 DB(430)에 제 1 로우 데이터 식별 번호(ID)를 메타데이터로 지정하여 각 클라이언트 스마트 디바이스(100)의 단말번호(IMEI 또는 MAC address)와 함께 저장하는 레이블 타입 데이터 검수 서버(500); 를 포함하는 것을 특징으로 한다.
삭제
본 발명의 실시예에 따른 데이터 생산성 향상을 위한 AI 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법은, AI 학습 시스템상에서 로우 데이터(raw data)인 언레이블 타입 데이터(Unlabeled raw data)에서 레이블 타입 데이터(labeled data) 생성시 생성되는 레이블 타입 데이터에 대해서 자동으로 검수를 통해 유효성을 검증할 수 있는 효과를 제공한다.
뿐만 아니라, 본 발명의 다른 실시예에 따른 데이터 생산성 향상을 위한 AI 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법은, 4차 산업혁명시대의 또 다른 기술로 인공지능을 기반으로 AI 학습 시스템상에서 레이블 타입 데이터에 대한 검증을 통해 로우 데이터(raw data)인 언레이블 타입 데이터(Unlabeled raw data)에서 레이블 타입 데이터(labeled data) 생성에 대한 로드(load)를 감소와 더불어 전체적인 학습 데이터 생산에 대한 검증을 강화할 수 있는 효과를 제공한다.
도 1은 본 발명의 실시예에 따른 데이터 생산성 향상을 위한 AI 학습 기반의 레이블 타입 데이터 자동 검수 시스템(1)을 나타내는 도면이다.
도 2는 본 발명의 실시예에 따른 데이터 생산성 향상을 위한 AI 학습 기반의 레이블 타입 데이터 자동 검수 시스템(1) 중 레이블 타입 데이터 검수 서버(500)의 구성요소를 나타내는 블록도이다.
도 3은 본 발명의 실시예에 따른 데이터 생산성 향상을 위한 AI 학습 기반의 레이블 타입 데이터 자동 검수 시스템(1) 중 AI 기반 레이블 생산성 향상 제공 서버(300)의 구성요소를 나타내는 블록도이다.
이하, 본 발명의 바람직한 실시예의 상세한 설명은 첨부된 도면들을 참조하여 설명할 것이다. 하기에서 본 발명을 설명함에 있어서, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터 또는 신호를 '전송'하는 경우에는 구성요소는 다른 구성요소로 직접 상기 데이터 또는 신호를 전송할 수 있고, 적어도 하나의 또 다른 구성요소를 통하여 데이터 또는 신호를 다른 구성요소로 전송할 수 있음을 의미한다.
도 1은 본 발명의 실시예에 따른 데이터 생산성 향상을 위한 AI 학습 기반의 레이블 타입 데이터 자동 검수 시스템(1)을 나타내는 도면이다.
도 1을 참조하면, AI 학습 기반의 레이블 타입 데이터 자동 검수 시스템(1)은 복수의 클라이언트 스마트 디바이스(100)로 이루어지는 클라이언트 스마트 디바이스 그룹(100g)이 네트워크(200)를 통해 AI 기반 레이블 생산성 향상 제공 서버(300), 빅데이터 서버(400), 레이블 타입 데이터 검수 서버(500)와 연결된 구조를 갖는다.
여기서, 네트워크(200)는 대용량, 장거리 음성 및 데이터 서비스가 가능한 대형 통신망의 고속 기간 망인 통신망이며, 인터넷(Internet) 또는 고속의 멀티미디어 서비스를 제공하기 위한 차세대 유선 및 무선 망일 수 있다. 네트워크(200)가 이동통신망일 경우 동기식 이동 통신망일 수도 있고, 비동기식 이동 통신망일 수도 있다. 비동기식 이동 통신망의 일 실시 예로서, WCDMA(Wideband Code Division Multiple Access) 방식의 통신망을 들 수 있다. 이 경우 도면에 도시되진 않았지만, 네트워크(200)는 RNC(Radio Network Controller)을 포함할 수 있다. 한편, WCDMA망을 일 예로 들었지만, 3G LTE망, 4G망 그 밖의 5G 등 차세대 통신망, 그 밖의 IP를 기반으로 한 IP망일 수 있다. 네트워크(200)는 복수의 클라이언트 스마트 디바이스(100)로 이루어지는 클라이언트 스마트 디바이스 그룹(100g), AI 기반 레이블 생산성 향상 제공 서버(300), 빅데이터 서버(400), 레이블 타입 데이터 검수 서버(500), 그 밖의 시스템 상호 간의 신호 및 데이터를 상호 전달하는 역할을 한다.
여기서, 빅데이터 서버(400)는 로우 데이터 DB(410), 레이블 데이터 DB(420) 및 검수 데이터 DB(430)를 포함할 수 있다.
한편, AI 기반 레이블 생산성 향상 제공 서버(300)는 빅데이터 서버(400)의 로우 데이터 DB(410)에 순차적으로 저장된 복수의 언레이블 타입 데이터(Unlabeled raw data) 중 최우선 순위에 해당하는 데이터 스트림 타입의 제 1 언레이블 타입 데이터(1st Unlabeled raw data)와, 제 1 언레이블 타입 데이터(1st Unlabeled raw data)에 대한 제 1 로우 데이터 식별 번호(ID), 그리고 미리 설정된 타겟 기준 정보를 추출한다.
이후, AI 기반 레이블 생산성 향상 제공 서버(300)는 제 1 언레이블 타입 데이터(1st Unlabeled raw data), 타겟 기준 정보를 복수의 클라이언트 스마트 디바이스(100) 중 지정된 하나로 전송하여, 클라이언트 스마트 디바이스(100) 상에서 클라이언트에 의해 데이터 스트림 중 자체적으로 타겟 기준 정보와 매칭되는 것으로 판단한 적어도 하나 이상의 제 1 타겟 정보와, 그리고 제 1 타겟 정보를 식별하기 위한 제 1 레이블 정보를 포함하는 제 1 레이블 타입 데이터(1st labeled data)의 생성에 따라 제 1 레이블 타입 데이터(1st labeled data)를 반환받아, 반환받은 제 1 레이블 타입 데이터(1st labeled data)를 빅데이터 서버(400)의 레이블 데이터 DB(420)에 제 1 로우 데이터 식별 번호(ID)를 메타데이터로 하여 저장한다.
그리고, 레이블 타입 데이터 검수 서버(500)에 대해서는 하기의 도 2에서 구체적으로 설명하도록 한다.
도 2는 본 발명의 실시예에 따른 AI 학습 기반의 레이블 타입 데이터 자동 검수 시스템(1) 중 레이블 타입 데이터 검수 서버(500)의 구성요소를 나타내는 블록도이다. 도 2를 참조하면, 레이블 타입 데이터 검수 서버(500)는 송수신부(510) 및 제어부(520)를 포함하며, 제어부(520)는 크라우드 소싱 검수 모듈(Crowd sourcing module)(521) , AFA 생성 모듈(Arbitrary Funcion Approximator Module)(522), 데이터 유효성 검사 모듈(Data Integrity Validation Module)(523) 및 통계적 추출 모듈(Statistical extraction Module)(524)을 구비할 수 있다.
이하에서는 제어부(520)의 구성요소를 중심으로 AI 학습 기반의 레이블 타입 데이터 자동 검수 시스템(1) 및 레이블 타입 데이터 검수 서버(500)에 대해서 구체적으로 살펴보도록 한다.
그리고 본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본 발명의 기술분야의 평균적 전문가에게는 용이하게 추론될 수 있다.
크라우드 소싱 검수 모듈(521)은 레이블 데이터 DB(420)에 저장된 각 제 1 레이블 타입 데이터(1st labeled data)에 대해서 크라우드 소싱(crowd sourcing) 방식을 통해 클라이언트 스마트 디바이스 그룹(100g)의 개수의 일부를 구성하는 n(n은 2 이상의 자연수)개의 클라이언트 스마트 디바이스(100)로 제 1 레이블 타입 데이터(1st labeled data)에 대한 검수 진행 요청을 네트워크(200)를 통해 전송하도록 송수신부(510)를 제어할 수 있다.
이후, 크라우드 소싱 검수 모듈(521)은 각 제 1 레이블 타입 데이터(1st labeled data)에 대한 각 n개로 구성된 제 1 검수 데이터(1st inspection data)를 검수 데이터 DB(430)에 제 1 로우 데이터 식별 번호(ID)를 메타데이터로 지정하여 각 클라이언트 스마트 디바이스(100)의 단말번호(IMEI 또는 MAC address)와 함께 저장할 수 있다.
이와 같이, AI 기반 레이블 생산성 향상 제공 서버(300)에 의해 생성된 제 1 레이블 타입 데이터(1st labeled data)에 대한 크라우드 소싱 검수 모듈(521)에 의한 자동 검수는 제 1 레이블 타입 데이터(1st labeled data)를 생산하는 일은 대부분 전문성을 필요로 하지 않기 때문에, 크라우드 소싱 방식(crowd sourcing method)을 많이 사용한다. 그러나 크라우드 소싱 방식은 정규 인력을 사용할 때보다 생산된 데이터의 질을 신뢰하기 어렵다는 단점이 있다.
이에 따라 AFA 생성 모듈(522)은 제 1 레이블 타입 데이터(1st labeled data) 생성을 위한 label data generation task에 n명(n은 1 이상의 정수)의 데이터 생산자가 균등한 업무량을 가지고 참여했다고 가정하며, 인공신경망(Artificial Neural Network) 등 임의 함수 근사(arbitrary function approximation)가 가능한 Arbitrary Function Approximator를 생성함으로써, k개의 randomly labeled data를 포함 하여(k는 0 이상의 정수) 데이터 유효성 검사 모듈(Data Integrity Validation Module)(523)에 의한 m번(m은 1 이상의 정수)의 데이터 유효성 검사를 수행하도록 할 수 있다. 이때, 데이터 유효성 검사의 수단으로 (n+k)-fold 교차 유효성 검사(cross validation) 혹은 Information Theory와 Learning Theory에 기반한 각종 generalization capability measure를 사용할 수 있다. 데이터 생산자간 작업량의 비대칭성이 존재할 경우, random sampling을 통해 매 차례 교차 유효성 검사시 측정에 쓰일 작업 량을 동일한 수량으로 조정한다. 단, 교차 유효성 검사를 데이터 유효성 검사의 수단으로 실행할 때에는 validation set을 기존 교차 유효성 검사와 같게 구성할 수도 있고, 데이터마다 적합한 다른 형태로 구성할수도 있다. 일례로 validation set을 각 n+k개의 labeled dataset에서 p퍼센트(p는 0 보다 크고 100보다 작은 실수)만큼의 데이터를 randomly sample한 데이터들의 union으로 고정하여 사용할 수 있다.
보다 구체적으로, AFA 생성 모듈(522)은 검수 대상인 labeled data의 검수가 가능하도록 적절한 Arbitrary Function Approximator를 먼저 생성한다. AFA가 인공신경망일 경우, 입력과 출력 dimension이 적합하게 매칭되는 FNN(Feedforward Neural Network) 혹은 RNN(Recurrent Nerual Network) 혹은 이들의 조합으로 검수에 적합한 AFA를 생성한다.
각 제 1 검수 데이터(1st inspection data)를 구성하는 각 제 1 타겟 정보에 대해서 매칭 여부 정보{정(正), 부(不)}로 각 클라이언트 스마트 디바이스(100)에 의해 지정되므로, 각 제 1 검수 데이터(1st inspection data)를 구성하는 각 제 1 타겟 정보에 대해서 n개의 클라이언트 스마트 디바이스(100)으로부터 개별적으로 수신한 각 제 1 타겟 정보의 매칭 여부 정보{정(正) 및 부(不)}에 대해서 생성된 AFA로 m번의 데이터 유효성 검사를 진행한다.
데이터 유효성 검사 방법으로 교차 유효성 검사를 사용하는 한가지 방법으로, 클라이언트 스마트 디바이스 그룹(100g)에서 제 1 레이블 타입 데이터(1st labeled data)를 생성한 클라이언트 스마트 디바이스(100)를 1차적으로 제외하고, 다시 클라이언트 스마트 디바이스 그룹(100g)에서 n개의 클라이언트 스마트 디바이스(100)가 아닌 다른 m개의 클라이언트 스마트 디바이스(100)를 2차로 추출하여 형성할 수 있다.
이후, AFA 생성 모듈(522)은 추출된 m개의 클라이언트 스마트 디바이스(100)에 대해서 제 1 검수 데이터(1st inspection data)의 각 제 1 타겟 정보에 대한검수 진행 요청을 네트워크(200)를 통해 전송하도록 송수신부(510)를 제어할 수 있다.
데이터 유효성 검사 모듈(523)은 제 1 검수 데이터(1st inspection data)의 각 제 1 타겟 정보에 대한 제 2 검수 데이터(2nd inspection data)로 m개의 매칭 여부 정보{정(正), 부(不)}를 수신하여 정(正)에 대해서 미리 설정된 제 1 정량적 수치(예, 1), 부(不)에 대한 미리 설정된 제 2 정량적 수치(예, 0)를 합산하여 평균값을 연산한 뒤, 연산된 평균값과 제 1 검수 데이터(1st inspection data)의 각 제 1 타겟 정보에 대한 매칭 여부 정보{정(正), 부(不)}가 정(正) 또는 부(不)에 따라 미리 설정된 정량적 수치를 분석할 수 있다.
이러한 데이터 유효성 검사 모듈(523)에 의한 평균값 연산과 수치 분석은 n개의 클라이언트 스마트 디바이스(100) 별로, 그리고 n개의 클라이언트 스마트 디바이스(100)에 의해 생성된 각 제 1 검수 데이터(1st inspection data) 별로, 그리고 각 제 1 검수 데이터(1st inspection data)를 구성하는 각 제 1 타겟 정보별로 개별적으로 수행될 수 있다.
통계적 추출 모듈(524)은 하나의 제 1 타겟 정보에 대해서 데이터 유효성 검사 모듈(523)에 의해 연산된 평균값과 분석된 정량적 수치간의 비교를 통해서 편차가 미리 설정된 임계치 이상으로 벌어지거나 randomly label한 데이터의 generalization error와 비교한 뒤, 수치적으로 데이터 유효성이 떨어진다고 판별되는 추출된 제 1 타겟 정보에 대한 제 1 검수 데이터(1st inspection data)를 제공한 n개의 클라이언트 스마트 디바이스(100) 중 하나 이상의 클라이언트 스마트 디바이스(100)의 제 1 검수 데이터(1st inspection data)를 제거할 수 있다.
본 발명에서 예시한 n-fold cross validation외에도 KL-divergence , Fisher information, Cramer-Rao bound(which is basically an inverse of fisher information) 등의 measure나 이들의 조합(possibly convex combination, but not limited to)으로 각 데이터 생산자들이 생산한 데이터의 질을 수치로 나타낼 수 있다.
이렇게 생산된 데이터를 자동으로 검수할 수 있으면 훨씬 저렴한 비용으로 데이터 거래소 플랫폼 운영이 가능한 장점을 제공할 수 있다.
도 3은 본 발명의 실시예에 따른 데이터 생산성 향상을 위한 AI 학습 기반의 레이블 타입 데이터 자동 검수 시스템(1) 중 AI 기반 레이블 생산성 향상 제공 서버(300)의 구성요소를 나타내는 블록도이다.
도 3을 참조하면, AI 기반 레이블 생산성 향상 제공 서버(300)는 네트워크(200)를 통해 클라이언트 스마트 디바이스 그룹(100g) 및 빅데이터 서버(400)와 신호 및 데이터 송수신을 수행하는 통신부(310), 그리고 제어모듈(320)을 포함하며, 제어모듈(320)은 강화 학습 모듈(Reinforcing learning Module)(321), 차별적 지도 학습 모듈(Discriminative supervised learning Module)(322)을 포함할 수 있다.
그리고 본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본 발명의 기술분야의 평균적 전문가에게는 용이하게 추론될 수 있다.
강화 학습 모듈(Reinforcing learning Module)(321)은 기준 레이블 데이터 생성 수단(321a), 기준 레이블 검수 수단(321b), 유틸리티 함수 작동 수단(321c)을 구비할 수 있다.
기준 레이블 데이터 생성 수단(321a)은 빅데이터 서버(400)의 로우 데이터 DB(410)에 순차적으로 저장된 복수의 언레이블 타입 데이터(Unlabeled raw data) 중 최우선 순위에 해당하는 데이터 스트림 타입의 제 1 언레이블 타입 데이터(1st Unlabeled raw data)와, 제 1 언레이블 타입 데이터(1st Unlabeled raw data)에 대한 제 1 로우 데이터 식별 번호(ID), 그리고 미리 설정된 타겟 기준 정보를 추출한다.
이후, 기준 레이블 데이터 생성 수단(321a)은 클라이언트 스마트 디바이스(100) 상에서 클라이언트에 의해 데이터 스트림 중 자체적으로 타겟 기준 정보와 매칭되는 것으로 판단한 적어도 하나 이상의 제 1 타겟 정보와, 그리고 제 1 타겟 정보를 식별하기 위한 제 1 레이블 정보를 포함하는 제 1 레이블 타입 데이터(1st labeled data)의 생성에 따라 제 1 레이블 타입 데이터(1st labeled data)를 반환받아, 반환받은 제 1 레이블 타입 데이터(1st labeled data)를 빅데이터 서버(400)의 레이블 데이터 DB(420)에 제 1 로우 데이터 식별 번호(ID)를 메타데이터로 하여 저장한다.
기준 레이블 검수 수단(321b)은 크라우드 소싱(crowd sourcing) 방식을 통해 클라이언트 스마트 디바이스 그룹(100g)을 구성하는 n(n은 2 이상의 자연수)개의 클라이언트 스마트 디바이스(100)로부터 제 1 레이블 타입 데이터(1st labeled data)에 대한 검수를 진행하여, 각 제 1 레이블 타입 데이터(1st labeled data)에 대한 제 1 검수 데이터(1st inspection data)를 검수 데이터 DB(430)에 제 1 로우 데이터 식별 번호(ID)를 메타데이터로 지정하여 저장할 수 있다.
여기서 제 1 검수 데이터(1st inspection data)는 각 제 1 타겟 정보에 대한 매칭 여부 정보{정(正), 부(不)}로 지정될 수 있으며, n 개의 클라이언트 스마트 디바이스(100)에 대해서 개별적으로 매칭 여부 정보를 수신하여 정(正) 및 부(不) 중 상대적으로 많은 것에 해당하는 것을 매칭 여부 정보로 지정되어 검수 데이터 DB(430)에 강화 학습 모듈(Reinforcing learning Module)(321)에 의해 저장될 수 있다.
유틸리티 함수 작동 수단(321c)은 로우 데이터 DB(410)에 저장된 전체 언레이블 타입 데이터(Unlabeled raw data)의 전체 개수 중 미리 설정된 할당량 이상에 대한 제 1 레이블 타입 데이터(1st labeled data)에 대한 생성이 완료되고, 각 제 1 레이블 타입 데이터(1st labeled data)에 포함된 모든 제 1 타겟 정보에 대한 제 1 검수 데이터(1st inspection data)의 정확도가 미리 설정된 매칭율 이상이 되는 경우, 차별적 지도 학습 모듈(Discriminative supervised learning Module)(322)로 언레이블 타입 데이터(Unlabeled raw data)의 전체 개수 중 미리 설정된 할당량을 뺀 나머지에 해당하는 잔여한 제 2 레이블 타입 데이터(2nd labeled data)에 대한 생성을 요청할 수 있다.
본 발명에서 미리 설정된 할당량 및 미리 설정된 매칭율은 강화 학습 모듈(Reinforcing learning Module)(321)에 의한 제 1 차 AI 학습과 차별적 지도 학습 모듈(Discriminative supervised learning Module)(322)에 의한 제 2 차 AI 학습으로의 전환을 위한 기준이 되는데 전체 언레이블 타입 데이터(Unlabeled raw data)의 개수와 하나의 언레이블 타입 데이터(Unlabeled raw data)에서 레이블 타입 데이터(labeled data)의 생성에 소요되는 시간인 사이클 타임(Cycle time)과, 각 사이클 타임(Cycle time)의 최대 시간인 택트 타임(Tact time)의 감소를 최소화하는 방식으로 optimization 알고리즘인 딥러닝 알고리즘을 통해서 설정될 수 있다.
본 발명의 보다 실제적인 실시예로, 강화 학습 모듈(Reinforcing learning Module)(321)에 의해 제 1 언레이블 타입 데이터(1st Unlabeled raw data)에서 제 1 레이블 타입 데이터(1st labeled data) 생성 과정을 살펴보면, 타겟 기준 정보로 "문장에서 주어 추출"에 해당하는 데이터 스트림 타입의 제 1 언레이블 타입 데이터(1st Unlabeled raw data)가 "I ate rice, and mother enters the room."인 경우, 하나의 클라이언트 스마트 디바이스(100)에 의해 제 1 레이블 타입 데이터(1st labeled data)에 해당하는 "I(제 1 타겟 정보) enter(제 1 레이블 정보) m o t h e r(제 1 타겟 정보) enter(제 1 레이블 정보)"에는 최소한의 9번의 입력을 필요로 한다.
이런식으로 어느 정도 문장에서 주어를 추출하는 데이터가 쌓였다는 가정하에, AI 학습을 통해 제 1 타겟 정보인 "I", "mohter"를 포함하여 로우 데이터 DB(410)에 저장된 미리 설정된 개수의 제 1 언레이블 타입 데이터(1st Unlabeled raw data) 중 미리 설정된 개수에 대해서 제 1 레이블 타입 데이터(1st labeled data)가 생성되고, 제 1 레이블 타입 데이터(1st labeled data)를 구성하는 모든 제 1 타겟 정보에 대한 제 1 검수 데이터(1st inspection data)인 매칭 여부 정보{정(正), 부(不)}의 "정(正)인 개수/(정(正)인 개수+부(不)인 개수)"의 비율에 해당하는 매칭율이 미리 설정된 임계치 이상인 경우, 차별적 지도 학습 모듈(Discriminative supervised learning Module)(322)에 의한 로우 데이터 DB(410)에 저장된 전체의 언레이블 타입 데이터( Unlabeled raw data)의 개수에서 상술한 미리 설정된 개수에 해당하는 제 1 언레이블 타입 데이터(1st Unlabeled raw data)를 제외한 잔여 제 2 언레이블 타입 데이터(2nd Unlabeled raw data)에 대한 자동적인 제 2 레이블 타입 데이터(2nd labeled data)가 생성될 수 있으며 제 2 레이블 타입 데이터(2nd labeled data) 생성 과정에 대해서 이하 후술하도록 한다.
차별적 지도 학습 모듈(Discriminative supervised learning Module)(322)은 추가 정보 AI 학습 수단(322a), 잔여 정보 AI 학습 수단(322b), AI 기반 빅데이터 생성 수단(322c)을 포함할 수 있다.
추가 정보 AI 학습 수단(322a)은 잔여 할당량에 해당하는 각 데이터 스트림 타입의 제 2 언레이블 타입 데이터(2nd Unlabeled raw data)와, 제 2 언레이블 타입 데이터(2nd Unlabeled raw data)의 제 2 로우 데이터 식별 번호(ID)를 로우 데이터 DB(410)에서 추출한 뒤, 제 2 언레이블 타입 데이터(2nd Unlabeled raw data)를 기준으로 레이블 데이터 DB(420)에 저장된 모든 제 1 레이블 타입 데이터(1st labeled data) 중 제 1 타겟 정보에 대한 비교를 통해 매칭되는 것이 있는 경우 제 2-1 타겟 정보로 추출하고, 제 2-1 타겟 정보를 식별하기 위한 제 2-1 레이블 정보를 포함하는 제 2-1 레이블 타입 데이터(2nd-1 labeled data)를 생성한다.
잔여 정보 AI 학습 수단(322b)은 제 2 언레이블 타입 데이터(2nd Unlabeled raw data) 중에서 제 1 타겟 정보와 매칭되지 않는 잔여 정보를 추출하고, 추출된 잔여 정보를 식별하기 위한 제 2-2 레이블 정보를 생성한 뒤, 잔여 정보와 제 2-2 레이블 정보를 포함하는 적어도 하나 이상의 제 2-2 레이블 타입 데이터(2nd-2 labeled data)를 생성한다.
AI 기반 빅데이터 생성 수단(322c)은 제 2-1 레이블 타입 데이터(labeled data) 및 제 2-2 레이블 타입 데이터(2nd-2 labeled data)에 대해서 제 2 레이블 타입 데이터(2nd labeled data)로 하여 제 2 로우 데이터 식별 번호(ID)를 메타데이터로 하여 레이블 데이터 DB(420)에 저장할 수 있다.
이러한 차별적 지도 학습 모듈(Discriminative supervised learning Module)(322)에 의한 나머지 제 2 언레이블 타입 데이터(2nd Unlabeled raw data)에 대한 동일한 과정을 반복할 수 있다.
본 발명의 보다 실제적인 실시예로, 차별적 지도 학습 모듈(Discriminative supervised learning Module)(322)에 의해 제 2 언레이블 타입 데이터(2nd Unlabeled raw data)에서 제 2 레이블 타입 데이터(2nd labeled data) 생성 과정을 살펴보면, 데이터 스트림 타입의 제 2 언레이블 타입 데이터(2nd Unlabeled raw data)가 제 1 언레이블 타입 데이터(1st Unlabeled raw data)와 동일한 "I ate rice, and mother enters the room."인 경우, "I(제 2-1 타겟 정보) enter(제 2-1 레이블 정보) m o t h e r(제 2-1 타겟 정보) enter(제 2-1 레이블 정보)"에 해당하는 제 2-1 레이블 타입 데이터(2nd-1 labeled data)를 생성할 뿐만 아니라, "a t e(제 2-2 타겟 정보) space(제 2-2 레이블 정보) r i c e(제 2-2 타겟 정보) space(제 2-2 레이블 정보) e n t e r s(제 2-2 타겟 정보) space(제 2-2 레이블 정보) t h e(제 2-2 타겟 정보) space(제 2-2 레이블 정보) r o o m(제 2-2 타겟 정보) space(제 2-2 레이블 정보)"에 해당하는 제 2-2 레이블 타입 데이터(2nd-2 labeled data)를 생성할 수 있다. 여기서, 상술한 제 1 레이블 정보와 제 2-1 레이블 정보는 같은 "enter"로 표기하였지만 상호 다르게 설정할 수 있다.
이와 같이, 강화 학습 모듈(Reinforcing learning Module)(321)에 의한 제 1 언레이블 타입 데이터(1st Unlabeled raw data)강화 학습을 미리 설정된 수준까지 진행 후, 차별적 지도 학습 모듈(Discriminative supervised learning Module)(322)에 의한 차별적 지도 학습을 진행함으로써, 레이블 정보에 대한 생성 속도가 비약적으로 향상될 수 있으며, 차별적 지도 학습 모듈(Discriminative supervised learning Module)(322)에 의한 차별적 지도 학습이 반복됨에 따라 추가되는 데이터 스트림 타입의 언레이블 타입 데이터(Unlabeled raw data)에 대한 검수 데이터(inspection data)의 정확도가 향상될 수 있다.
이상과 같이, 본 명세서와 도면에는 본 발명의 바람직한 실시예에 대하여 개시하였으며, 비록 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시예 외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.
1 : AI 기반의 데이터 생산성 향상 시스템
100 : 클라이언트 스마트 디바이스
100g : 클라이언트 스마트 디바이스 그룹
200 : 네트워크
300 : AI 학습 데이터 생성 서버
400 : 빅데이터 서버
500 : 레이블 타입 데이터 검수 서버
521 : 크라우드 소싱 검수 모듈(Crowd sourcing module)
522 : AFA 생성 모듈(Arbitrary Funcion Approximator Module)
523 : 데이터 유효성 검사 모듈(Data Integrity Validation Module)
524 : 통계적 추출 모듈(Statistical extraction module)

Claims (2)

  1. 로우 데이터 DB(410)에 저장된 전체 언레이블 타입 데이터(Unlabeled raw data)의 전체 개수 A개 중 미리 설정된 할당량 X개 이상에 대한 제 1 언레이블 타입 데이터(1st Unlabeled raw data)에서 제 1 레이블 타입 데이터(1st labeled data)로의 생성이 완료되는지를 여부를 판단하여 X개 이상만큼 제 1 레이블 타입 데이터(1st labeled data)의 생성이 완료되고, 각 제 1 레이블 타입 데이터(1st labeled data)에 포함된 모든 제 1 타겟 정보에 대한 제 1 검수 데이터(1st inspection data)의 정확도가 미리 설정된 매칭율 이상이 되는지를 분석하여 분석 결과 매칭율 이상인 경우 언레이블 타입 데이터(Unlabeled raw data)의 전체 개수에서 미리 설정된 할당량을 뺀 나머지에 해당하는 잔여한 제 2 레이블 타입 데이터(2nd labeled data)로부터 제 2 레이블 타입 데이터(2nd labeled data)를 자동으로 생성하여 전체 제 2 레이블 타입 데이터로부터 제 2 레이블 타입 데이터가 모두 생성되도록 하는 AI 학습 데이터 생성 서버(300); 및
    레이블 데이터 DB(420)에 저장된 각 제 1 레이블 타입 데이터(1st labeled data)에 대해서 크라우드 소싱(crowd sourcing) 방식을 통해 클라이언트 스마트 디바이스 그룹(100g)의 개수의 일부를 구성하는 n(n은 2 이상의 자연수)개의 클라이언트 스마트 디바이스(100)로 제 1 레이블 타입 데이터(1st labeled data)에 대한 검수 진행 요청을 네트워크(200)를 통해 전송한 뒤, 각 제 1 레이블 타입 데이터(1st labeled data)에 대한 각 n개로 구성된 제 1 검수 데이터(1st inspection data)를 검수 데이터 DB(430)에 제 1 로우 데이터 식별 번호(ID)를 메타데이터로 지정하여 각 클라이언트 스마트 디바이스(100)의 단말번호(IMEI 또는 MAC address)와 함께 저장하는 레이블 타입 데이터 검수 서버(500); 를 포함하는 것을 특징으로 하는 데이터 생산성 향상을 위한 AI 학습 기반의 레이블 타입 데이터 자동 검수 시스템.
  2. 삭제
KR1020180153327A 2018-12-03 2018-12-03 데이터 생산성 향상을 위한 ai 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법 KR101968449B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180153327A KR101968449B1 (ko) 2018-12-03 2018-12-03 데이터 생산성 향상을 위한 ai 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180153327A KR101968449B1 (ko) 2018-12-03 2018-12-03 데이터 생산성 향상을 위한 ai 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR101968449B1 true KR101968449B1 (ko) 2019-04-11

Family

ID=66167196

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180153327A KR101968449B1 (ko) 2018-12-03 2018-12-03 데이터 생산성 향상을 위한 ai 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR101968449B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102113180B1 (ko) * 2019-12-24 2020-05-20 셀렉트스타 주식회사 딥러닝 모델을 이용하여 음성 전사 레이블링을 검수하는 방법 및 그를 이용한 장치
KR102113172B1 (ko) * 2019-12-20 2020-05-20 셀렉트스타 주식회사 딥러닝 모델을 이용하여 Bounding Box에 대한 레이블링을 검수하는 방법 및 그를 이용한 장치
KR102155791B1 (ko) * 2020-03-17 2020-09-15 주식회사 크라우드웍스 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 부정 검수 추정 건에 대한 2차 검수 방법
KR102169321B1 (ko) * 2020-06-02 2020-10-26 주식회사 크라우드웍스 인공지능 학습 데이터 생성을 위한 크라우드소싱 기반 프로젝트의 검증용 작업 결과를 이용한 프로젝트 검수단가 조절 방법
KR20220094796A (ko) * 2020-12-29 2022-07-06 케이웨어 (주) 머신러닝 성능 향상을 위한 객체 관리 서버 및 그 제어방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120005131A1 (en) * 2010-06-30 2012-01-05 Microsoft Corporation Combining Human and Machine Intelligence to Solve Tasks With Crowd Sourcing
US20150356488A1 (en) * 2014-06-09 2015-12-10 Microsoft Corporation Evaluating Workers in a Crowdsourcing Environment
US20170300563A1 (en) * 2016-04-14 2017-10-19 Linkedin Corporation Generating text snippets using supervised machine learning algorithm
KR101887415B1 (ko) * 2017-11-21 2018-08-10 주식회사 크라우드웍스 데이터 라벨링 작업 검수방법 및 프로그램
KR20180106158A (ko) * 2017-03-17 2018-10-01 에이치피프린팅코리아 주식회사 자동 분류를 통한 출력을 제공하는 화상 형성 장치 및 그 동작 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120005131A1 (en) * 2010-06-30 2012-01-05 Microsoft Corporation Combining Human and Machine Intelligence to Solve Tasks With Crowd Sourcing
US20150356488A1 (en) * 2014-06-09 2015-12-10 Microsoft Corporation Evaluating Workers in a Crowdsourcing Environment
US20170300563A1 (en) * 2016-04-14 2017-10-19 Linkedin Corporation Generating text snippets using supervised machine learning algorithm
KR20180106158A (ko) * 2017-03-17 2018-10-01 에이치피프린팅코리아 주식회사 자동 분류를 통한 출력을 제공하는 화상 형성 장치 및 그 동작 방법
KR101887415B1 (ko) * 2017-11-21 2018-08-10 주식회사 크라우드웍스 데이터 라벨링 작업 검수방법 및 프로그램

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
대한민국 특허출원 출원번호 제10-2018-7010567호 "네트워크 상의 데이터 플랫폼들 사이에서 자산-관련된 정보를 공유하기 위한 컴퓨터 시스템들 및 방법들(COMPUTER SYSTEMS AND METHODS FOR SHARING ASSET-RELATED INFORMATION BETWEEN DATA PLATFORMS OVER A NETWORK)"

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102113172B1 (ko) * 2019-12-20 2020-05-20 셀렉트스타 주식회사 딥러닝 모델을 이용하여 Bounding Box에 대한 레이블링을 검수하는 방법 및 그를 이용한 장치
WO2021125619A1 (ko) * 2019-12-20 2021-06-24 셀렉트스타 주식회사 딥러닝 모델을 이용하여 바운딩 박스에 대한 레이블링을 검수하는 방법 및 그를 이용한 장치
KR102113180B1 (ko) * 2019-12-24 2020-05-20 셀렉트스타 주식회사 딥러닝 모델을 이용하여 음성 전사 레이블링을 검수하는 방법 및 그를 이용한 장치
KR102155791B1 (ko) * 2020-03-17 2020-09-15 주식회사 크라우드웍스 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 부정 검수 추정 건에 대한 2차 검수 방법
KR102169321B1 (ko) * 2020-06-02 2020-10-26 주식회사 크라우드웍스 인공지능 학습 데이터 생성을 위한 크라우드소싱 기반 프로젝트의 검증용 작업 결과를 이용한 프로젝트 검수단가 조절 방법
KR20220094796A (ko) * 2020-12-29 2022-07-06 케이웨어 (주) 머신러닝 성능 향상을 위한 객체 관리 서버 및 그 제어방법
KR102555733B1 (ko) * 2020-12-29 2023-07-14 케이웨어 (주) 머신러닝 성능 향상을 위한 객체 관리 서버 및 그 제어방법

Similar Documents

Publication Publication Date Title
KR101968449B1 (ko) 데이터 생산성 향상을 위한 ai 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법
KR102107911B1 (ko) Ai 학습 기반의 레이블 타입 데이터 자동 검수 시스템 및 그 방법
CN110348622B (zh) 一种基于机器学习的温度预测方法、系统及电子设备
EP2988230A1 (en) Data processing method and computer system
CN110458601B (zh) 资源数据的处理方法、装置、计算机设备和存储介质
CN111709244A (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN106446506A (zh) 一种多方法组合的小卫星状态自主智能预测方法
CN111950622A (zh) 基于人工智能的行为预测方法、装置、终端及存储介质
CN114970926A (zh) 一种模型训练方法、企业经营风险预测方法和装置
CN110545284A (zh) 一种对抗性网络的域名检测方法及系统
CN114925238B (zh) 一种基于联邦学习的视频片段检索方法及系统
CN110011990A (zh) 内网安全威胁智能分析方法
CN104965846A (zh) MapReduce平台上的虚拟人建立方法
CN110581856A (zh) 一种恶意代码的检测方法及系统
CN111079175B (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
CN104834816A (zh) 一种短期风速预测方法
CN117580046A (zh) 一种基于深度学习的5g网络动态安全能力调度方法
CN112395272B (zh) 通信算法数据库构建方法、分布式机器装置和存储介质
CN113469377B (zh) 联邦学习审计方法和装置
CN107562943A (zh) 一种数据计算的方法及系统
KR20230109935A (ko) 전염병 분석을 위한 데이터의 증강을 지원하는 서비스 제공 장치 및 방법
CN115239066A (zh) 一种通信信息化数据管控平台
Zong-you et al. The application of cloud matter—Element in information security risk assessment
Li et al. An empirical study on gan-based traffic congestion attack analysis: A visualized method
KR101979161B1 (ko) 블록체인을 이용한 레이블 타입 데이터 관리 기반의 ai 학습 데이터 생산성 향상 시스템 및 그 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant