KR20210058127A - 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법 및 해당 데이터를 생산 및 검수하는 시스템 - Google Patents

인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법 및 해당 데이터를 생산 및 검수하는 시스템 Download PDF

Info

Publication number
KR20210058127A
KR20210058127A KR1020190145192A KR20190145192A KR20210058127A KR 20210058127 A KR20210058127 A KR 20210058127A KR 1020190145192 A KR1020190145192 A KR 1020190145192A KR 20190145192 A KR20190145192 A KR 20190145192A KR 20210058127 A KR20210058127 A KR 20210058127A
Authority
KR
South Korea
Prior art keywords
data
inspection
producers
producer
reliability
Prior art date
Application number
KR1020190145192A
Other languages
English (en)
Inventor
김은수
김광호
최현서
Original Assignee
김은수
최현서
김광호
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김은수, 최현서, 김광호 filed Critical 김은수
Priority to KR1020190145192A priority Critical patent/KR20210058127A/ko
Publication of KR20210058127A publication Critical patent/KR20210058127A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

데이터 생산 및 검수를 관리하는 플랫폼에 의해 수행되는 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법으로서, 데이터 요청자에 의한 조건에 따라 등록된 프로젝트에 참여하는 데이터 생산자로부터 제1 데이터를 입력 받고, 입력 받은 제1 데이터 각각에 대해 신뢰도를 계산하고, 계산된 신뢰도에 따라 입력 받은 데이터에 대해 1차 검수 및 2차 검수를 수행하고, 검수 결과를 반영하여 데이터 생산자에게 적절하게 리워드 또는 패널티를 부여하며, 적합한 데이터를 데이터 요청자에게 제공하는 방법을 제공한다. 신뢰도 계산에 있어서는 인공지능 어시스턴트가 사용된다.

Description

인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법 및 해당 데이터를 생산 및 검수하는 시스템{METHOD FOR CROWD SOURSING GENERATION OF TRANINING DATA FOR ARTIFICIAL INTELLIGENCE AND SYSTEM FOR GENERATING AND VERIFYING TRANINING DATA FOR ARTIFICIAL INTELLIGENCE}
실시예들은 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법 및 해당 데이터를 생산 및 검수하는 시스템(플랫폼)에 관한 것으로, 특히, 인공지능 훈련용 데이터의 생산을 크라우드 소싱하여 검수함으로써 데이터 생산자에게 리워드 또는 패널티를 부여하고, 데이터 생산자 및 데이터 요청자에게 적절한 정보를 제공할 수 있도록 하는 방법 및 플랫폼과 관련된다.
인공지능 기술이 빠르게 발전하면서, 인공지능 기술은 자율주행 자동차, 정밀 의료 서비스, 보안 관제 등의 다양한 분야에서 활용되고 있다. 이러한 인공지능 기술을 통해서는 사람이 쉽게 발견하지 못하는 패턴을 파악하여 학습할 수 있다. 활용성이 높은 인공지능 기술을 구현하기 위해서는 충분히 많은 케이스의 학습용(훈련용) 데이터가 요구된다. 이러한 학습용(훈련용) 데이터는 비영리 공유 사이트나 데이터 마켓을 통해서 획득될 수 있다.
그러나, 특정한 인공지능 기술의 목적에 맞는 훈련용 데이터를 획득하기 위해서는 이러한 데이터를 직접 생산할 필요가 있다. 훈련용 데이터를 기술자들이 직접 생산하는 것은 인력과 비용의 낭비를 초래할 수 있으며, 생산된 데이터가 편향될 우려 역시 존재한다.
따라서, 객관적이고 충분한 양의 훈련용 데이터를 확보하기 위해서는 데이터의 생산에 있어서 대중의 참여가 요구된다. 한편, 이러한 대중의 참여에 의해 생산된 데이터는 적절하게 검수될 필요가 있으며, 데이터의 생산에 참여한 데이터 생산자에 대해서는 보상을 제공하는 것을 통해 데이터 생산에 대한 참여를 독려할 필요가 있다.
한국공개특허 제10-2019-0074508호(공개일 2019년 06월 28일)는 챗봇의 대화 모델에 관한 것으로서, 발화 데이터 수집과 이러한 수집된 발화 데이터에 기초하여 학습 상황으로 유도함으로써 착화 데이터가 확장되어 대화 모델이 확장되는 챗봇을 위한 대화 모델의 데이터 크라우드소싱 방법에 관해 기재하고 있다.
상기에서 설명된 정보는 단지 이해를 돕기 위한 것이며, 종래 기술의 일부를 형성하지 않는 내용을 포함할 수 있으며, 종래 기술이 통상의 기술자에게 제시할 수 있는 것을 포함하지 않을 수 있다.
일 실시예는, 데이터 요청자에 의한 조건에 따라 등록된 프로젝트에 참여하는 데이터 생산자로부터 제1 데이터를 입력 받고, 입력 받은 제1 데이터 각각에 대해 신뢰도를 계산하고, 계산된 신뢰도에 따라 입력 받은 데이터에 대해 1차 검수 및 2차 검수를 수행하고, 검수 결과를 반영하여 데이터 생산자에게 적절하게 리워드 또는 패널티를 부여하며, 적합한 데이터를 데이터 요청자에게 제공하는 방법을 제공할 수 있다.
일 측면에 있어서, 데이터 생산 및 검수를 관리하는 플랫폼에 의해 수행되는, 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법에 있어서, 데이터 요청자에 의한 조건에 해당하는 프로젝트를 등록하는 단계, 상기 등록된 프로젝트에 참여하는 복수의 데이터 생산자들의 각각으로부터 제1 데이터를 입력 받는 단계, 상기 복수의 데이터 생산자들 각각의 생산자 신뢰도 및 상기 복수의 제1 데이터 각각의 데이터 정합도에 기반하여, 상기 복수의 데이터 생산자들로부터 입력 받은 복수의 제1 데이터 각각에 대해 신뢰도를 계산하는 단계, 상기 복수의 제1 데이터 중 상기 계산된 신뢰도가 소정의 제1 값 미만이고 소정의 임계값 이상인 제2 데이터에 대해, 상기 복수의 데이터 생산자들 중 적어도 일부의 데이터 생산자들에게 1차 검수를 요청하고, 상기 복수의 제1 데이터 중 상기 계산된 신뢰도가 소정의 임계값 미만인 데이터에 대해, 상기 복수의 데이터 생산자들 중 상기 소정의 임계값 미만인 데이터를 생산한 데이터 생산자에게 수정을 요청하는 단계, 상기 1차 검수의 결과로서 상기 제2 데이터 각각에 대한 상기 1차 검수에 따른 스코어를 계산하는 단계, 상기 제2 데이터 중 상기 1차 검수에 따른 스코어가 소정의 제2 값 미만인 제3 데이터에 대해 2차 검수를 수행하는 단계, 상기 제3 데이터 중 상기 2차 검수를 통과하지 못한 데이터를 결정하는 단계, 상기 계산된 신뢰도, 상기 1차 검수의 결과 및 상기 2차 검수의 결과에 기반하여, 상기 복수의 데이터 생산자들 중에서, 상기 복수의 제1 데이터 중 적합한 데이터를 생산한 데이터 생산자에게 상기 조건에 따른 리워드를 제공하고, 상기 2차 검수를 통과하지 못한 데이터를 생산한 데이터 생산자 또는 상기 1차 검수에서 오판을 한 것으로 판단된 데이터 생산자에게 패널티를 부여하는 단계, 상기 복수의 제1 데이터 중 적합한 것으로 판단된 데이터 및 상기 제2 검수를 통과하지 못한 데이터를 수정한 데이터를 데이터베이스에 저장하는 단계 및 상기 프로젝트를 완료하고, 상기 저장된 데이터를 데이터 요청자에게 제공하는 단계를 포함하는, 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법이 제공된다.
상기 복수의 데이터 생산자들의 각각으로부터 제1 데이터를 입력 받는 단계는, 상기 복수의 데이터 생산자들 중 제1 데이터 생산자로부터 데이터를 수신하는 단계, 인공지능(Artificial Inteligence; AI) 어시스턴트를 사용하여, 상기 수신된 데이터로부터 어노테이션을 수행하는 단계, 상기 어노테이션된 데이터를 디스플레이하고, 상기 디스플레이된 어노테이션된 데이터를 상기 제1 데이터 생산자가 수정할 수 있도록 하는 사용자 인터페이스를 제공하는 단계 및 상기 사용자 인터페이스를 통한 제1 데이터 생산자로부터의 수정에 기반하여, 상기 수정된 데이터를 상기 제1 데이터 생산자로부터의 제1 데이터로서 결정하는 단계를 포함하고, 상기 신뢰도를 계산하는 단계는, 상기 AI 어시스턴트가, 상기 복수의 데이터 생산자들 각각의 SNS 사용 이력에 관한 정보, 상기 복수의 데이터 생산자들 각각이 제1 데이터를 작성함에 있어서 생성되는 메타데이터, 상기 복수의 데이터 생산자들 각각의 프로파일 정보 중 적어도 하나에 기반하여 상기 생산자 신뢰도를 계산하는 단계 및 상기 계산된 생산자 신뢰도를 상기 데이터 정합도에 대한 가중치로서 사용하여 신뢰도를 계산하는 단계를 포함하고, 상기 복수의 제1 데이터들 중 상기 계산된 신뢰도가 더 높은 제1 데이터는 상기 계산된 신뢰도가 더 낮은 제1 데이터에 비해 상기 적어도 일부의 데이터 생산자들에게 상기 제1 차 검수를 위해 더 먼저 할당될 수 있다.
상기 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법은, 상기 복수의 데이터 생산자들 각각이 제1 데이터를 작성함에 있어서 생성되는 메타데이터에 기반하여, 상기 복수의 데이터 생산자 각각에 대한 생산성을 계산하는 단계 및 상기 복수의 데이터 생산자들 중 상기 계산된 생산성이 기준 생산성 미만인 데이터 생산자에 대해 피드백 정보를 제공하는 단계를 더 포함할 수 있다.
상기 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법은, 상기 복수의 데이터 생산자들의 각각으로부터 제1 데이터의 입력, 상기 제1 검수 및 상기 제2 검수에 관한 분석 정보를 상기 데이터 요청자에게 제공하는 단계를 더 포함하고, 상기 분석 정보는 소정의 시간 동안 입력된 제1 데이터의 양에 대한 정보, 상기 프로젝트에 참여한 데이터 생산자들의 수에 관한 정보와 상기 제1 검수 및 상기 제2 검수의 현황에 관한 정보를 포함할 수 있다.
인공지능(Artificial Inteligence; AI) 어시스턴트를 사용하여, 상기 복수의 제1 데이터 각각이 어노테이션되고, 상기 1차 검수에 의해, 상기 1차 검수가 요청된 상기 적어도 일부의 데이터 생산자들에 의해 상기 제2 데이터 각각에 대한 어노테이션의 적합성이 판정되고, 상기 1차 검수의 결과로서 상기 어노테이션의 적합성의 판정의 결과를 수신하고, 상기 2차 검수에 의해, 상기 제3 데이터 각각에 대한 어노테이션의 적합성이 판정되고, 상기 1차 검수가 요청된 상기 적어도 일부의 데이터 생산자들의 검수 판단의 적절성이 검증되고, 상기 1차 검수 및 상기 2차 검수의 결과는 상기 AI 어시트턴트의 이후의 제1 데이터에 대한 어노테이션을 위한 학습용 데이터로서 사용될 수 있다.
기존에는 확보하기가 어려웠던 인공지능 훈련용 데이터를 생산함에 있어서, 대중이 참여할 수 있도록 하는 데이터 생산 크라우드소싱 플랫폼을 제공할 수 있고, 데이터의 생산에 관여한 대중에게 정당한 보상을 제공할 수 있다.
인공지능 기술의 전문 인력이 훈련용 데이터의 생산에 직접 관여하지 않을 수 있음으로써, 인공지능 기술 개발에 있어서 비용 효율성을 극대화할 수 있다.
데이터의 생산 및 검수에 있어서 인공지능(Artificial Inteligence; AI) 어시스턴트를 사용함으로써 데이터 생산 및 검수 작업의 효율성을 극대화할 수 있다.
데이터의 검수와 검수를 통과하지 못한 데이터를 결정함에 있어서 신뢰도를 높일 수 있고, 따라서, 데이터 요청자가 신뢰할 수 있는 데이터를 적절하게 제공할 수 있다.
도 1은 일 실시예에 따른, 데이터 생산 및 검수를 관리하는 플랫폼을 사용하여, 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법을 나타낸다.
도 2는 일 실시예에 따른, 데이터 생산 및 검수를 관리하는 플랫폼을 사용하여, 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법을 나타내는 흐름도이다.
도 3은 일 예에 따른, 데이터 생산자에 의해 데이터가 생산되는 방법을 나타내는 흐름도이다.
도 4는 일 예에 따른, 데이터 생산자에 의해 생산된 데이터에 대해 신뢰도를 계산하는 방법을 나타내는 흐름도이다.
도 5는 일 예에 따른, 데이터 생산자의 생산성을 분석하여, 데이터 생산자에게 피드백 정보를 제공하는 방법을 나타내는 흐름도이다.
도 6은 일 예에 따른, 프로젝트의 생성 및 종료에 걸쳐 데이터의 생산 및 검수가 이루어지는 방법을 나타내는 흐름도이다.
도 7은 일 예에 따른, 데이터 생산자에 의해 데이터가 생산되는 방법을 나타낸다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일 실시예에 따른, 데이터 생산 및 검수를 관리하는 플랫폼을 사용하여, 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법을 나타낸다.
도 1에서는, 복수의 데이터 생산자들(150)에게 인공지능 훈련용 데이터의 생산을 크라우드 소싱하여, 이러한 데이터의 생산 및 검수를 관리하는 플랫폼(100)이 도시되었다.
플랫폼(100)은 도시된 것처럼, 데이터 생산자들(150)로부터 입력되는 데이터를 수집 및 관리하고, 이를 검수하며, 데이터 생산자들(150) 각각에게 리워드 또는 패널티를 부가하는 장치일 수 있다. 또한, 플랫폼(100)은 수집/검수된 데이터로 데이터베이스(140)를 업데이트하고, 데이터 요청자(160)에 의해 설정된 조건에 부합하는 데이터를 데이터 요청자(160)에게 제공할 수 있다.
플랫폼(100)은 상기의 작업을 수행하기 위한 서버, 또는 기타 컴퓨팅 장치일 수 있다. 플랫폼(100)은 도시되지는 않았으나 통신부 및 프로세서를 포함할 수 있다.
통신부는 플랫폼(100)이 다른 장치(데이터 요청자(160) 및/또는 데이터베이스(140)나 데이터 생산자들(150)(즉, 데이터 생산자의 사용자 단말)과 통신하기 위한 장치일 수 있다. 말하자면, 통신부는 다른 장치나 데이터 생산자들(150)에 대해 데이터 및/또는 정보를 전송/수신하는, 플랫폼(100)의 네트워크 인터페이스 카드, 네트워크 인터페이스 칩 및 네트워킹 인터페이스 포트 등과 같은 하드웨어 모듈 또는 네트워크 디바이스 드라이버(driver) 또는 네트워킹 프로그램과 같은 소프트웨어 모듈일 수 있다.
프로세서는 플랫폼(100)의 구성 요소들을 관리할 수 있고, 플랫폼(100)이 사용하는 프로그램 또는 어플리케이션을 실행할 수 있다. 예컨대, 프로세서는, 통신부를 통해 수신되는 데이터 생산자들(150)로부터의 데이터를 분석 및 검수하고, 그 결과에 따라 데이터 생산자들(150) 각각에게 리워드 또는 패널티를 제공하기 위해 사용되는 프로그램 또는 어플리케이션을 실행할 수 있고, 상기 프로그램 또는 어플리케이션의 실행 및 데이터의 처리 등에 필요한 연산을 처리할 수 있다. 프로세서는 플랫폼(100)의 적어도 하나의 프로세서 또는 프로세서 내의 적어도 하나의 코어(core)일 수 있다.
플랫폼(100)은 도시된 것처럼, 데이터 요청자(160)에 의해 요청된 조건에 해당하는 프로젝트를 생성 및 등록하는 프로젝트 관리 시스템(110), 데이터 생산자들(150)로부터의 데이터를 수집 및 분석하는 데이터 생산/분석 시스템(120) 및 수집된 데이터를 검수하는 데이터 검수 시스템(130)을 포함할 수 있다.
시스템들(110 내지 130) 중 적어도 하나는 플랫폼(100)과는 별개의 장치 또는 서버로서 구현될 수 있다. 이 때, 플랫폼(100)은 데이터의 생산 및 검수를 관제하는 관제 플랫폼으로서 역할할 수 있다. 시스템들(110 내지 130) 각각에는 전술한 통신부 및 프로세서가 포함될 수 있다.
또는, 시스템들(110 내지 130)은 플랫폼(100)의 프로세서의 구성들로서 하나 이상의 소프트웨어 모듈 및/또는 하드웨어 모듈로 구현될 수도 있다.
후술될 상세한 설명에서는, 설명의 편의상 시스템들(110 내지 130) 각각에 의해 수행되는 동작을 플랫폼(100)에 의해 수행되는 것으로 설명할 수 있다.
데이터 요청자(160)는 데이터를 요청하는 주체로서, 예컨대, 인공지능 기술에 있어서의 훈련용 데이터를 요청하는 주체일 수 있다. 데이터 요청자(160)는 이러한 데이터를 요청하는 주체가 운영하는 서버, 컴퓨팅 장치 또는 기타 단말일 수 있다. 데이터 요청자(160)는 요청하고자 하는 데이터의 종류, 지불 가능한 비용, 기한 및 기타 데이터의 요건을 조건으로서 지정하여 플랫폼(100)에 데이터의 생산을 요청할 수 있다.
플랫폼(100)(프로젝트 관리 시스템(110))은 이러한 데이터 요청자에 의한 조건에 해당하는 프로젝트를 생성할 수 있고, 생성된 프로젝트를 등록할 수 있다.
데이터 생산자들(150)의 각각은 등록된 프로젝트에 참여하는 데이터 생산자의 사용자 단말을 나타낼 수 있다. 데이터 생산자들(150)의 각각은 자신이 참여하는 프로젝트에 따라 데이터를 생산하고, 데이터 생산에 따른 리워드(또는 패널티)를 수신할 수 있다. 데이터 생산자들(150) 각각은, 예컨대, 스마트 폰, PC(personal computer), 노트북 컴퓨터(laptop computer), 랩탑 컴퓨터(laptop computer), 태블릿(tablet), 사물 인터넷(Internet Of Things) 기기, 또는 웨어러블 컴퓨터(wearable computer) 등의 사용자가 사용하는 단말일 수 있다.
일례로, 프로젝트가 특정 분야의 이미지(영수증 이미지, 간판 이미지, 번호판 이미지 등)에서 텍스트 정보를 추출하는 것일 경우, 해당 프로젝트에 참여하는 데이터 생산자들(150)의 각각은 관련된 이미지 데이터를 플랫폼(100)으로 업로드할 수 있고, 업로드된 이미지 데이터로부터 텍스트 정보를 추출하여 플랫폼(100)으로 입력할 수 있다.
플랫폼(100)(데이터 생산/분석 시스템(120))은 입력된 데이터를 수집 및 분석하여 적합한 것으로 판정된 데이터로 데이터베이스(140)를 업데이트할 수 있다.
또한, 플랫폼(100)(데이터 검수 시스템(130))은 입력된 데이터를 검수할 수 있고, 검수 결과에 따라 데이터를 수정할 수 있고, 적합한 데이터를 생산한 데이터 생산자에게는 리워드를 제공할 수 있다. 한편, 플랫폼(100)은 부적합한 데이터를 생산한 데이터 생산자나, 데이터 생산자에 의한 검수에 있어서 오판을 한 데이터 생산자에게는 패널티를 부과할 수 있다.
플랫폼(100)은 검수가 완료되어 최종적으로 적합한 것으로 판정된 데이터를 데이터 요청자(160)에게 제공할 수 있다. 데이터 요청자(160)에게 제공되는 데이터는 데이터 요청자(160)에 의해 지정된 조건에 따라 적절하게 가공된 것일 수 있다.
데이터베이스(140)는 데이터 생산자들(150)에 의해 생산된 데이터 및 데이터의 분석 및 검수에 따라 적합한 것으로 판정된 데이터를 저장하는 장치일 수 있다. 데이터베이스(140)에는 부적합한 것으로 판정된 데이터 및 플랫폼(100)에 의한 검수의 결과와 관련된 정보 또한 저장될 수 있다. 도시된 것과는 달리 데이터베이스(140)는 플랫폼(100) 내에 마련될 수도 있다.
전술한 바와 같은, 플랫폼(100)의 구현에 따라 데이터(및 기타 컨텐츠)를 거래할 수 있게 될 수 있다. 후술될 플랫폼(100)에 의해 수행되는 방법은 예컨대, 웹 기반 소프트웨어로 구현될 수 있다. 또한, 플랫폼(100)이 관여하는 데이터 생산 및 검수에는 이를 자동화하기 위해 인공지능(Artificial Inteligence; AI) 어시스턴트가 사용될 수 있다. 또한, 플랫폼(100)에 의해서는 데이터 생산자들(150)에 의해 생산된 데이터의 신뢰도가 예측될 수 있고, 이에 따라, 데이터가 검수될 수 있다. 또한, 플랫폼(100)에 의해서는 데이터의 생산 및 검수 과정에서 발생하는 이벤트 및 메타데이터가 분석될 수 있고, 이를 데이터 생산자들(150)에 대한 피드백 정보로서 활용할 수 있다.
후술될 도 2 내지 도 7을 참조하여, 플랫폼(100)의 동작과 이에 따라 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법에 대해 더 자세하게 설명한다.
도 2는 일 실시예에 따른, 데이터 생산 및 검수를 관리하는 플랫폼을 사용하여, 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법을 나타내는 흐름도이다.
도 2를 참조하여, 플랫폼(100)을 사용하여 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법에 대해 더 구체적으로 설명한다.
단계(210)에서, 플랫폼(100)은 데이터 요청자(160)에 의한 조건에 해당하는 프로젝트를 생성 및 등록할 수 있다. 데이터 요청자(160)는 요청하고자 하는 데이터의 종류(주제), (데이터 생산자들(150)에게 리워드로서) 지불 가능한 비용, 기한 및 기타 데이터의 요건(데이터의 양, 스펙, 사양 등)을 조건으로서 지정하여 플랫폼(100)에 데이터의 생산을 요청할 수 있다. 플랫폼(100)은 이러한 데이터 요청자(160)로부터의 요청에 따라 데이터 요청자(160)의 조건에 부합하는 프로젝트를 생성하여, 생성된 프로젝트를 등록할 수 있다. 프로젝트의 등록에 따라 해당 프로젝트의 등록은 데이터 생산자들(150)에게 통지될 수 있다.
단계(220)에서, 플랫폼(100)은 등록된 프로젝트에 참여하는 복수의 데이터 생산자들(150)의 각각으로부터 제1 데이터를 입력 받을 수 있다. 즉, 플랫폼(100)은 데이터 생산자들(150)의 각각으로부터 프로젝트에 따라 각 데이터 생산자가 생산한 데이터를 수신할 수 있다. 데이터 생산자에 의해 데이터가 생산되는 방법에 대해서는 후술될 도 3을 참조하여 더 자세하게 설명한다.
입력된 복수의 제1 데이터 각각은 AI 어시스턴트를 사용하여 각각 라벨링될 수 있다. 예컨대, 프로젝트가 특정 분야의 이미지(영수증 이미지, 간판 이미지, 번호판 이미지 등)에서 텍스트 정보를 추출하는 것일 경우, 제1 데이터 각각은 이미지에서 텍스트에 해당하는 영역(ROI)과 이에 대해 추출된 텍스트 정보가 라벨링될 수 있다.
단계(230)에서, 플랫폼(100)은 데이터 생산자들(150)의 각각으로부터 입력된 제1 데이터에 대한 신뢰도를 계산할 수 있다. 예컨대, 플랫폼(100)은 복수의 데이터 생산자들(150) 각각의 생산자 신뢰도 및 복수의 제1 데이터 각각의 데이터 정합도에 기반하여, 데이터 생산자들(150)로부터 입력 받은 복수의 제1 데이터 각각에 대해 신뢰도를 계산할 수 있다. 제1 데이터에 대한 신뢰도를 계산하는 방법에 대해서는 후술될 도 4를 참조하여 더 자세하게 설명한다.
단계(240)에서, 플랫폼(100)은 단계(230)에서 계산된 신뢰도에 기반하여, 신뢰도가 소정의 제1 값 미만인 제2 데이터에 대해 1차 검수를 수행할 수 있다. 플랫폼(100)은 데이터 생산자들(150)로부터의 복수의 제1 데이터 중 계산된 신뢰도가 소정의 제1 값 미만인 제2 데이터에 대해, 데이터 생산자들(150) 중 적어도 일부의 데이터 생산자들에게 1차 검수를 요청할 수 있다.
또는, 플랫폼(100)은 단계(230)에서 계산된 신뢰도에 기반하여, 복수의 제1 데이터 중 계산된 신뢰도가 소정의 제1 값 미만이고 소정의 임계값 이상인 제2 데이터에 대해서는, 복수의 데이터 생산자들 중 적어도 일부의 데이터 생산자들에게 1차 검수를 요청할 수 있고, 복수의 제1 데이터 중 계산된 신뢰도가 소정의 임계값 미만인 데이터에 대해서는, 복수의 데이터 생산자들 중 상기 소정의 임계값 미만인 데이터를 생산한 데이터 생산자에게 수정을 요청할 수 있다. 즉, 신뢰도가 소정의 임계값 미만인 데이터는 1차 검수에 앞서 적합하지 않은 데이터로 분류될 수 있고, 해당 데이터를 생산한 데이터 생산자에게 수정이 요청될 수 있다. 말하자면, 신뢰도가 소정의 임계값 미만인 데이터는 플랫폼(100) 측에서의 처리 과정으로 들어가지 않고 다시 데이터 생산자 측에서의 수정이 요청될 수 있다. 수정된 데이터에 대해서는 다시 신뢰도가 계산될 수 있다.
1차 검수는 데이터 생산자들(150)(또는, 데이터 생산자들(150) 중 적어도 일부)에 의해 수행될 수 있다. 1차 검수에 의해서는, 1차 검수가 요청된 적어도 일부의 데이터 생산자들(예컨대, N명)에 의해 제2 데이터 각각에 대한 라벨링과 연관된 ROI의 적합성이 판정될 수 있다. 일례로, 각 검수자(데이터 생산자)에 의해 데이터 생산자가 생산한 이미지 데이터의 주제 적합성이 먼저 판단될 수 있고, 이미지 데이터에 포함된 ROI(텍스트 영역-라벨링 쌍)의 적합성이 판단될 수 있다. 말하자면, (어노테이션/라벨링의 적합성 판정에 의해) 이미지 데이터의 텍스트 영역이 제대로 설정되었는지와, 해당 텍스트 영역에서 텍스트 정보가 제대로 추출되었는지가 검수될 수 있다. 플랫폼(100)은 1차 검수의 결과로서 라벨링과 연관된 ROI의 적합성의 판정의 결과를 수신할 수 있다. 한편, 1차 검수 작업의 적어도 일부는 데이터 생산자가 아니라 AI 어시스턴트에 의해 수행될 수도 있다.
1차 검수를 수행하는 데이터 생산자의 수는 데이터의 신뢰도에 기반하여 결정될 수 있다. 예컨대, 신뢰도가 낮은 제1 데이터를 검수하는 경우 더 많은 데이터 생산자들이 검수자로서 결정될 수 있다.
한편, 복수의 제1 데이터들 중 계산된 신뢰도가 더 높은 제1 데이터는 상기 계산된 신뢰도가 더 낮은 제1 데이터에 비해 1차 검수를 수행하는 데이터 생산자(들)에게 제1 차 검수를 위해 더 먼저 할당될 수 있다. 말하자면, 신뢰도가 높은 제1 데이터일 수록 1차 검수를 위한 검수 대기 큐에 있어서 우선 순위가 부여될 수 있고, 1차 검수에 있어서 검수자에게 우선적으로 할당될 수 있다.
따라서, 신뢰도가 높은 제1 데이터일수록 검수에 소요되는 시간(및 검수 대기 시간)이 짧아지게 되고, 신뢰도가 낮은 제1 데이터일수록 검수에 소요되는 시간(및 검수 대기 시간)이 길어지게 될 수 있다. 결과적으로, 신뢰도가 높은 제1 데이터를 생산한 데이터 생산자에게는 그렇지 않은 데이터를 생산한 데이터 생산자에 비해 리워드가 더 신속하게 제공될 수 있다.
1차 검수를 수행함에 있어서, 검수자(검수자의 단말)는 (검수 대상인) 각 제1 데이터에 대한 신뢰도 및/또는 데이터 적합성을 확인할 수 있다. 검수자는 이를 참고하여 검수 작업을 효율화할 수 있다.
플랫폼(100)은 1차 검수의 결과로서 제2 데이터 각각에 대한 상기 1차 검수에 따른 스코어를 계산할 수 있다.
단계(250)에서, 플랫폼(100)은 1차 검수의 결과에 따라 2차 검수를 수행할 수 있다. 예컨대, 플랫폼(100)은 제2 데이터 중 1차 검수에 따른 스코어가 소정의 제2 값 미만인 제3 데이터에 대해 2차 검수를 수행할 수 있다. 2차 검수에 의해서는, 제3 데이터 각각에 대한 라벨링과 연관된 ROI의 적합성이 판정될 수 있다. 또한, 2차 검수에 의해서는, 1차 검수가 요청된 데이터 생산자(들)의 검수 판단의 적절성이 검증될 수 있다. 2차 검수는 플랫폼(100)의 관리 또는 운영자에 의해 수행될 수 있다. 한편, 2차 검수 작업의 적어도 일부는 데이터 생산자가 아니라 AI 어시스턴트에 의해 수행될 수도 있다.
일 프로세스의 예시를 설명하면, 플랫폼(100)은 1차 검수가 완료되면 각 검수자(데이터 생산자)의 생산자 신뢰도에 기반하여 1차 검수의 결과를 종합하여 백분율을 계산할 수 있고, 그 결과가 소정의 임계값 보다 낮은 데이터에 대해서는 AI 어시스턴트가 2차 검수를 진행하도록 하며, 임계값 이상의 데이터는 데이터베이스(140)에 저장하도록 할 수 있다. 2차 검수 과정에서 각 검수자(예컨대, 플랫폼(100)의 관리 또는 운영자)는 데이터에 포함된 라벨링의 적합성(즉, 라벨링과 연관된 ROI의 적합성)과 검수자들의 검수 판단의 적절성을 검증할 수 있다. 플랫폼(100)은 2차 검수가 완료되면 부적합한 데이터를 생산한 데이터 생산자 또는 1차 검수에서 잘못된 판단을 내린 검수자들에게 패널티를 부과할 수 있고, 부적합한 데이터는 수정된 뒤 데이터베이스(140)에 저장될 수 있다.
전술된 데이터 각각에 대한 라벨링은 데이터 각각에 대한 어노테이션일 수 있다. 또한, 데이터 각각에 대한 라벨링과 연관된 ROI의 적합성의 판정은 어노테이션의 적합성 판정에 대응할 수 있다.
말하자면, 실시예에서는, 인공지능(Artificial Inteligence; AI) 어시스턴트를 사용하여, 복수의 제1 데이터 각각이 어노테이션될 수 있고, 1차 검수에 의해, 1차 검수가 요청된 상기 적어도 일부의 데이터 생산자들에 의해 제2 데이터 각각에 대한 어노테이션의 적합성이 판정될 수 있다. 플랫폼(100)은 1차 검수의 결과로서 어노테이션의 적합성의 판정의 결과를 수신할 수 있다. 2차 검수에 의해, 제3 데이터 각각에 대한 어노테이션의 적합성이 판정될 수 있고, 1차 검수가 요청된 적어도 일부의 데이터 생산자들의 검수 판단의 적절성이 검증될 수 있다. 1차 검수 및 상기 2차 검수의 결과는 AI 어시트턴트의 이후의 제1 데이터에 대한 어노테이션을 위한 학습용 데이터로서 사용될 수 있다.
단계(260)에서, 플랫폼(100)은 데이터 생산자들(150)로부터 입력 받은 데이터 중 부적합한 데이터를 결정할 수 있다. 예컨대, 플랫폼(100)은 제3 데이터 중 2차 검수를 통과하지 못한 데이터를 부적합한 데이터로서 결정할 수 있다. 부적합한 것으로 결정된 데이터는 플랫폼(100)의 관리 또는 운영자나 AI 어시스턴트에 의해 수정될 수 있다.
단계(270)에서, 플랫폼(100)은 데이터 생산자들(150)로부터 입력 받은 데이터에 기반하여 데이터베이스(140)를 업데이트할 수 있다. 예컨대, 플랫폼(100)은 데이터 생산자들(150)로부터 입력된 제1 데이터 중 적합한 것으로 판단된 데이터(예컨대, 단계(230)에서의 신뢰도가 상기 제1 값 이상인 데이터와 제1 검수 및 제2 검수를 통과한 데이터) 및 제2 검수를 통과하지 못한 데이터를 수정한 데이터를 데이터베이스에 저장할 수 있다.
부적합한 데이터(반려되는 데이터)의 반려 사유는 데이터베이스(140)에 저장될 수 있다. 또는, 이러한 반려 사유는 해당 데이터를 생성한 데이터 생산자에게도 통지될 수 있다.
전술한 1차 검수 및 2차 검수의 결과는 AI 어시트턴트의 이후의 제1 데이터의 라벨링을 위한 학습용 데이터로서 사용될 수 있다. 말하자면, (복수의 프로젝트들에 대해) 1차 검수 및 2차 검수가 반복적으로 수행됨으로써, 학습을 통해 AI 어시트턴트의 이미지 데이터에 대한 ROI 추출 및 텍스트 라벨링의 정확도가 높아지게 될 수 있다.
단계(280)에서, 플랫폼(100)은 데이터 생산자들(150) 각각에게 리워드 또는 패널티를 부여할 수 있다. 예컨대, 플랫폼(100)은 단계(230)에서 계산된 신뢰도, 1차 검수의 결과 및 2차 검수의 결과에 기반하여, 데이터 생산자들(150) 중에서, 적합한 데이터를 생산한 데이터 생산자에게 데이터 요청자(160)에 의한 조건에 따른 리워드를 제공할 수 있고, 2차 검수를 통과하지 못한 데이터를 생산한 데이터 생산자 또는 1차 검수에서 오판을 한 것으로 판단된 데이터 생산자에게는 패널티를 부여할 수 있다. 리워드는 예컨대, 금전이나 포인트의 지급일 수 있다. 패널티는 지급되어야 할 금전 또는 포인트를 지급하지 않는 것이거나 삭감된 금전 또는 포인트를 지급하는 것일 수 있다. 또는, 패널티는 해당하는 데이터 생산자에게 경고를 보내는 것이거나, 데이터 생산자가 추후에 해당 데이터 요청자(160)와 관련된 프로젝트에는 참여가 배제되도록 하는 것일 수 있다.
단계(280)에서, 플랫폼(100)은 프로젝트를 종료(완료)하고, 데이터 요청자(150)에게 데이터(및 분석 정보)를 제공할 수 있다. 플랫폼(100)은 프로젝트가 완료되면 데이터베이스(140)에 저장된 데이터를 데이터 요청자(160)에게 결과물로서 제공할 수 있다. 데이터 요청자(160)에게 제공되는 데이터는 데이터 요청자(160)에 의해 지정된 조건에 따라 적절하게 가공될 수 있다.
한편, 프로젝트가 완료된 후 또는 프로젝트가 진행되고 있는 도중에, 플랫폼(100)은 데이터 생산자들(150)의 각각으로부터 제1 데이터의 입력, 제1 검수 및 제2 검수에 관한 분석 정보를 데이터 요청자(160)에게 제공할 수 있다. 이러한 분석 정보는 소정의 시간(예컨대, 데이터 요청자(160)가 조건으로서 지정한 기간 또는 하루 혹은 일주일 등의 기타 지정된 기간) 동안 입력된 제1 데이터의 양에 대한 정보, 프로젝트에 참여한 데이터 생산자들(150)의 수에 관한 정보와 제1 검수 및 상기 제2 검수의 현황에 관한 정보를 포함할 수 있다. 이에 따라, 데이터 요청자(160)는 데이터의 수집 현황이나 검수 현황을 용이하게 파악할 수 있다.
분석 정보는 데이터 요청자(160)가 직관적으로 알 수 있도록, 웹 시각화 라이브러리를 사용하여 제공될 수 있다. 예컨대, 분석 정보는 데이터 요청자(160)의 '마이페이지 기능'에서 차트와 같은 형태로 제공될 수 있다.
이상, 도 1을 참조하여 전술된 기술적 특징에 대한 설명은, 도 2에 대해서도 그대로 적용될 수 있으므로 중복되는 설명은 생략한다.
도 3은 일 예에 따른, 데이터 생산자에 의해 데이터가 생산되는 방법을 나타내는 흐름도이다.
도 3을 참조하여, 프로젝트가 특정 분야(주제 또는 종류)의 이미지(영수증 이미지, 간판 이미지, 번호판 이미지 등)에서 텍스트 정보를 추출하는 것일 경우에 있어서, 데이터 생산자에 의해 데이터가 생산되는 방법을 설명한다.
단계(310)에서, 플랫폼(100)은 복수의 데이터 생산자들(150) 중 제1 데이터 생산자로부터 이미지 데이터를 수신할 수 있다. 즉, 플랫폼(100)은 복수의 데이터 생산자들(150)의 각각으로부터 이미지 데이터를 수신할 수 있다. 이미지 데이터는 프로젝트의 주제에 부합하는 이미지 데이터일 수 있다. 제1 데이터 생산자는 이러한 주제에 부합하는 이미지 데이터를 촬영 등을 통해 획득하여 플랫폼(100)으로 업로드할 수 있다.
단계(320)에서, 플랫폼(100)은 AI 어시스턴트를 사용하여, 수신된 이미지 데이터로부터 텍스트 정보를 추출할 수 있다. 즉, AI 어시스턴트는 사전에 학습된 정보에 기반하여 수신된 이미지 데이터에 대한 텍스트 정보의 라벨링 작업을 수행할 수 있다.
단계(330)에서 설명하고 있는 바와 같이, 플랫폼(100)은 추출된 텍스트 정보를 디스플레이하고, 디스플레이된 텍스트 정보를 제1 데이터 생산자가 수정할 수 있도록 하는 사용자 인터페이스를 제공할 수 있다. 예컨대, 플랫폼(100)은 제1 데이터 생산자가 업로드한 이미지를 디스플레이할 수 있다. 이미지에는 텍스트가 인식되는 ROI가 구분되어 표시될 수 있다. 또한, 플랫폼(100)은 ROI에서 인식된 텍스트를 출력할 수 있다. 제1 데이터 생산자는 인식된 텍스트 정보를 확인하고, 잘못 인식된 부분이 있는 경우 이를 바로 수정할 수 있다. 제1 데이터 생산자는 수정된 텍스트 정보를 플랫폼(100)으로 제출할 수 있다.
단계(340)에서, 플랫폼(100)은 사용자 인터페이스를 통한 제1 데이터 생산자로부터의 수정에 기반하여, 수정된 텍스트 정보 및 입력된 이미지 데이터를 제1 데이터 생산자로부터의 제1 데이터로서 결정할 수 있다. 결정된 제1 데이터는 신뢰도 계산을 위해 사용될 수 있고, 또한, 제1 검수 및 제2 검수의 대상이 될 수 있다.
도 7은 일 예에 따른, 데이터 생산자에 의해 데이터가 생산되는 방법을 나타낸다.
도시된 것처럼, 제1 데이터 생산자에 의해 플랫폼(100)으로 업로드된 이미지 데이터(710)로부터, AI 어시스턴트에 의해 텍스트가 인식되는 ROI가 식별될 수 있고, 이로부터 텍스트 정보(720)가 추출될 수 있다. 텍스트 정보(720)는 AI 어시스턴트에 의해 인식된 텍스트 정보를 나타낼 수 있다. 도시된 예시에서와 같이, ROI의 'DESIGNER'가 'DESIGMER'로 잘못 인식된 경우, 제1 데이터 생산자는 사용자 인터페이스를 통해 이를 'DESIGNER'로 올바르게 수정할 수 있고 수정된 텍스트 정보를 플랫폼(100)으로 제출할 수 있다.
즉, 단계들(310 내지 340)과 도 7을 참조하여 설명한 것처럼, 데이터의 생산 과정에서 AI 어시스턴트와 데이터 생산자인 사용자들이 협력할 수 있게 되며, 데이터 생산자가 데이터 생산 작업을 수행하기 전에 AI 어시스턴트가 선행 작업을 수행하고, 추가 작업을 생산자들이 수행할 수 있게 된다.
한편, 플랫폼(100)은 업로드된 이미지 데이터를 데이터 생산자가 크롭할 수 있거나, 텍스트를 인식하는 영역으로서 인식된 ROI를 (드래그 입력 등을 통해) 변경할 수 있도록 하는 사용자 인터페이스를 제공할 수 있다. 인식된 ROI가 변경되면, 이에 따라, AI 어시스턴트는 변경된 ROI에 대해 텍스트 정보를 인식할 수 있다.
또한, 플랫폼(100)은 업로드된 이미지 데이터에서 텍스트 정보의 인식을 위한 ROI를 추가 또는 삭제하기 위한 사용자 인터페이스를 제공할 수 있다. ROI가 추가되면, 이에 따라, AI 어시스턴트는 추가된 ROI에 대해 텍스트 정보를 인식할 수 있다.
전술된 이미지 데이터는 데이터 생산자로부터 수신된 데이터의 일 예일 수 있고, 이미지 데이터로부터의 텍스트 정보의 추출은 데이터로부터의 어노테이션 수행의 일 예일 수 있다. 예컨대, 전술된 단계(320)는 플랫폼(100)이 인공지능(Artificial Inteligence; AI) 어시스턴트를 사용하여, 수신된 데이터로부터 어노테이션을 수행하는 단계일 수 있다. 또한, 전술된 단계(330)는 플랫폼(100)이 어노테이션된 데이터를 디스플레이하고, 디스플레이된 어노테이션된 데이터를 제1 데이터 생산자가 수정할 수 있도록 하는 사용자 인터페이스를 제공하는 단계일 수 있다. 또한, 전술된 단계(340)는 플랫폼(100)이 사용자 인터페이스를 통한 제1 데이터 생산자로부터의 수정에 기반하여, 수정된 데이터를 제1 데이터 생산자로부터의 제1 데이터로서 결정하는 단계일 수 있다.
어노테이션은 데이터로부터 훈련에 필요한 정보를 얻어내고, 이에 대한 라벨링을 하는 작업일 수 있다. 데이터 생산자가 생산하는 데이터는 일례로, 이미지 데이터, 텍스트 데이터, 음성 데이터, 시간 데이터, 3D 모델링 데이터 등일 수 있다.
이상, 도 1 및 도 2를 참조하여 전술된 기술적 특징에 대한 설명은, 도 3 및 도 7에 대해서도 그대로 적용될 수 있으므로 중복되는 설명은 생략한다.
도 4는 일 예에 따른, 데이터 생산자에 의해 생산된 데이터에 대해 신뢰도를 계산하는 방법을 나타내는 흐름도이다.
데이터의 신뢰도는 데이터 생산자의 신뢰도, 데이터의 특성, 데이터의 생산 과정에서 발생한 이벤트 등의 정보를 바탕으로 학습된 AI 어시스턴트가 측정한 확률을 의미할 수 있다.
단계(410)에서, 플랫폼(100)은, AI 어시스턴트에 의해 데이터 생산자들(150) 각각의 SNS 사용 이력에 관한 정보, 데이터 생산자들(150) 각각이 제1 데이터를 작성함에 있어서 생성되는 메타데이터, 데이터 생산자들(150) 각각의 프로파일 정보 중 적어도 하나에 기반하여 생산자 신뢰도를 계산할 수 있다.
SNS 사용 이력에 관한 정보는 예컨대, 데이터 생산자들(150) 각각이 자신의 SNS 계정을 통해 작성한 게시물 중 부정적인 게시물의 빈도, 수 또는 비율을 포함할 수 있다. 또는, 데이터 생산자들(150) 각각이 자신의 SNS 계정을 통해 작성한 게시물에 포함된 오타 및 오기의 빈도, 수 또는 비율을 포함할 수 있다. 상기 빈도, 수 또는 비율가 높을 수록 데이터 생산자의 신뢰도는 낮게 계산될 수 있다.
제1 데이터를 작성함에 있어서 생성되는 메타데이터는 데이터 생산자가 데이터를 생산하는 동안 발생하는 이벤트 정보 및 시간 정보를 포함할 수 있다. 예컨대, 메타데이터 데이터 생산 시의 소요 시간, 수정 횟수 및 수정 시간 중 적어도 하나를 포함할 수 있다. 일례로, 메타데이터 데이터 생산 시의 소요 시간이 길거나 수정 횟수가 많거나, 수정 시간이 길수록(또는, 그것이 소정의 범위 내에 있을 때) 데이터 생산자의 신뢰도는 높게 계산될 수 있다.
프로파일 정보는 데이터 생산자가 입력 또는 자신의 SNS를 통해 업로드한 프로파일에 관한 정보일 수 있다. 프로젝트와 관련된 경력 사항이 포함되어 있는 경우 혹은 해당 경력이 길수록 데이터 생산자의 신뢰도는 높게 계산될 수 있다.
데이터 신뢰도는 디폴트 값으로부터 + 또는 -되어 계산될 수 있다.
단계(420)에서, 플랫폼(100)은 계산된 생산자 신뢰도를 데이터 정합도에 대한 가중치로서 사용하여 신뢰도를 계산할 수 있다. 데이터 정합도는 예컨대, 입력된 데이터가 정답과 일치하는 정도를 수치화한 것일 수 있다.
일례로, 신뢰도는 아래의 수학식 1에 따라 계산될 수 있다.
[수학식 1]
신뢰도 = a * 데이터정합도 (0≤a≤1, a: 생산자 신뢰도)
상기와 같이, 생산자 신뢰도는 0 이상 1 이하의 값일 수 있다.
즉, 단계들(410 및 420)을 참조하여 설명한 것처럼, 데이터의 검수 과정에서도 AI 어시스턴트가 협력적으로 사용될 수 있다.
제1 데이터 중 계산된 신뢰도의 값이 소정의 제1 값 미만인 제2 데이터는 전술된 1차 검수의 대상이 될 수 있다. 신뢰도가 소정의 제1 값 이상인 데이터는 바로 적합한 데이터로서 판정될 수 있다.
이상, 도 1 내지 도 3 및 도 7을 참조하여 전술된 기술적 특징에 대한 설명은, 도 4에 대해서도 그대로 적용될 수 있으므로 중복되는 설명은 생략한다.
도 5는 일 예에 따른, 데이터 생산자의 생산성을 분석하여, 데이터 생산자에게 피드백 정보를 제공하는 방법을 나타내는 흐름도이다.
단계(510)에서, 플랫폼(100)은 데이터 생산자들(150) 각각이 제1 데이터를 작성함에 있어서 생성되는 메타데이터에 기반하여, 데이터 생산자(150) 각각에 대한 생산성을 계산할 수 있다.
제1 데이터를 작성함에 있어서 생성되는 메타데이터는 데이터 생산자가 데이터를 생산하는 동안 발생하는 이벤트 정보 및 시간 정보를 포함할 수 있다. 예컨대, 메타데이터 데이터 생산 시의 소요 시간, 수정 횟수 및 수정 시간 중 적어도 하나를 포함할 수 있다. 예컨대, 플랫폼(100)은 데이터 생산 시의 소요 시간, 수정 횟수 및/또는 수정 시간이 낮을수록 데이터 생산자의 생산성을 높게 계산할 수 있다.
단계(520)에서, 플랫폼(100)은 데이터 생산자들(150) 중 계산된 생산성이 기준 생산성 미만인 데이터 생산자에 대해 피드백 정보를 제공할 수 있다.
예컨대, 플랫폼(100)은 데이터 생산자가 데이터를 생산하는 동안 발생하는 메타데이터(이벤트 정보, 시간 정보 등)를 분석하고, 분석한 결과를 바탕으로 데이터 생산자의 생산성 P를 계산할 수 있으며, 계산된 생산성 P가 정상 범주의 생산성(기준 생산성)인 a 미만인 경우, 이를 개선하도록 해당 데이터 생산자에게 피드백 정보를 제공할 수 있다.
생산성과 관련된 분석의 결과는 데이터 요청자(160)에게도 제공될 수 있다.
실시예에서는, 데이터 생산 및 검수 과정에서 발생하는 데이터가 분석됨으로써, 데이터의 생산 과정의 병목을 진단할 수 있고, 데이터 요청자(160)에게 유의미한 인사이트가 제공될 수 있다. 말하자면, 데이터 생산 및 검수 현황, 참여자 수, 통계적 추론, 샘플링 등의 정보를 포함하는 유의미한 정보가 데이터 요청자(160)에게 제공될 수 있다.
이상, 도 1 내지 도 4 및 도 7을 참조하여 전술된 기술적 특징에 대한 설명은, 도 5에 대해서도 그대로 적용될 수 있으므로 중복되는 설명은 생략한다.
도 6은 일 예에 따른, 프로젝트의 생성 및 종료에 걸쳐 데이터의 생산 및 검수가 이루어지는 방법을 나타내는 흐름도이다.
도시된 예시와 같이, 1. 데이터 요청자(160)로부터 프로젝트의 생성이 요청되면, 2. 플랫폼(100)의 관리자(610)에 의해 프로젝트가 심의/등록될 수 있다. 3. 플랫폼(100)은 프로젝트 DB를 갱신할 수 있고, 4. 데이터 생산자들(150)에게 프로젝트의 등록을 통지할 수 있다. 5. 데이터 생산자들(150)은 등록된 프로젝트에 참여할 수 있고, 6, 7. 프로젝트의 등록 결과는 관리자(610)를 통해 데이터 요청자(160)에게 통지될 수 있다. 8. 데이터 요청자(160)에 의해 프로젝트 정보의 변경 요청이 있는 경우, 9. 플랫폼(100)은 프로젝트 DB를 다시 갱신할 수 있고, 10. 데이터 생산자들(150)에게 프로젝트의 변경을 통지할 수 있다. 11. 프로젝트 DB의 수정 결과는 데이터 요청자(160)에게 통지될 수 있다. 12. 데이터 생산자들(150)로부터 데이터 생산이 수행될 수 있고, 이에 따라, 1차 검수 및 오류 데이터에 대한 2차 검수가 수행될 수 있다. 13. 플랫폼(100) 또는 관리자(610)는 부적합한 데이터를 수정할 수 있다. 14. 플랫폼(100)은 적합한 데이터를 생성한 데이터 생산자에게 리워드를 지급할 수 있다. 데이터 생산-검수-리워드 지급의 프로세스는 프로젝트가 완료될 때까지 반복적으로 수행될 수 있다. 15. 플랫폼(100)은 프로젝트의 완료를 점검할 수 있고, 16. 데이터 요청자(160)에게 데이터 생산 완료를 통지할 수 있다. 17. 데이터 요청자(160)는 플랫폼(100)으로 데이터의 다운로드를 요청할 수 있고, 18. 플랫폼(100)은 프로젝트 DB를 갱신하고, 19. 데이터를 데이터 요청자(160)에게 전달할 수 있다.
이상, 도 1 내지 도 5 및 도 7을 참조하여 전술된 기술적 특징에 대한 설명은, 도 6에 대해서도 그대로 적용될 수 있으므로 중복되는 설명은 생략한다.
아래에서, 실시예의 AI 어시스턴트에 대해 더 자세하게 설명한다.
전술한 것처럼, 실시예의 AI 어시스턴트는 데이터 생산자들의 데이터 생산 과정에서 이미지 속 텍스트 영역을 검출 및 인식하는 작업을 도와줄 수 있다. AI 어시스턴트는 예컨대, Meter Reading(미터기 인식), Voucher Scanning(쿠폰 인식), Parking Validation(번호판 인식), Car Rentals(번호판 인식), Multi Ticket Validation(다중 티켓 인식), Access Control(ID 카드 또는 여권 인식), Banking(수표 처리), Legal(진술서, 판결문, 유언장 등 인쇄물 디지털 화), Healthcare(질병 및 치료 기록, 진단서 등 디지털 화), Receipts(영수증 인식), Invoice(청구서 인식), Lease Records(임대 기록 디지털 화), Buseniss Card(명함 인식), Restaurant Menus(식당 메뉴 또는 간판 인식 등)과 같은 종류의 데이터 생산에 있어서 사용될 수 있다. AI 어시스턴트는 일례로 CRAFT 모델을 사용할 수 있다.
AI 어시스턴트는 이미지 데이터로부터 ROI를 추출하기 위해 이미지 크롭(Image Crop)을 수행할 수 있다. AI 어시스턴트는 이미지 데이터 중 인식되는 텍스트를 포함하는 영역인 ROI를 추출할 수 있다. AI 어시스턴트는 ROI 내의 텍스트를 인식할 수 있다.
AI 어시스턴트는 데이터의 검수에도 관여할 수 있다. AI 어시스턴트는 데이터 생산자들이 생산한 이미지 데이터가 주제와 적합한지, ROI의 영역과 라벨링 내용은 일치하는지 등을 확인하기 위한 데이터의 검수 절차의 적어도 일부를 수행할 수 있다. 예컨대, AI 어시스턴트에 의한 검수 이후 데이터 생산자에 의한 1차 검수 또는 관리자에 의한 2차 검수가 수행될 수 있다.
AI 어시스턴트는 데이터 생산자로부터 입력된 데이터 및 데이터 생산 과정에 있어서의 메타데이터(이벤트 정보 및 시간 정보 등)를 분석할 수 있다. 분석된 결과는 데이터 생산자 또는 데이터 요청자(160)에게 제공될 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims (5)

  1. 데이터 생산 및 검수를 관리하는 플랫폼에 의해 수행되는, 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법에 있어서,
    데이터 요청자에 의한 조건에 해당하는 프로젝트를 등록하는 단계;
    상기 등록된 프로젝트에 참여하는 복수의 데이터 생산자들의 각각으로부터 제1 데이터를 입력 받는 단계;
    상기 복수의 데이터 생산자들 각각의 생산자 신뢰도 및 상기 복수의 제1 데이터 각각의 데이터 정합도에 기반하여, 상기 복수의 데이터 생산자들로부터 입력 받은 복수의 제1 데이터 각각에 대해 신뢰도를 계산하는 단계;
    상기 복수의 제1 데이터 중 상기 계산된 신뢰도가 소정의 제1 값 미만이고 소정의 임계값 이상인 제2 데이터에 대해, 상기 복수의 데이터 생산자들 중 적어도 일부의 데이터 생산자들에게 1차 검수를 요청하고, 상기 복수의 제1 데이터 중 상기 계산된 신뢰도가 소정의 임계값 미만인 데이터에 대해, 상기 복수의 데이터 생산자들 중 상기 소정의 임계값 미만인 데이터를 생산한 데이터 생산자에게 수정을 요청하는 단계;
    상기 1차 검수의 결과로서 상기 제2 데이터 각각에 대한 상기 1차 검수에 따른 스코어를 계산하는 단계;
    상기 제2 데이터 중 상기 1차 검수에 따른 스코어가 소정의 제2 값 미만인 제3 데이터에 대해 2차 검수를 수행하는 단계;
    상기 제3 데이터 중 상기 2차 검수를 통과하지 못한 데이터를 결정하는 단계;
    상기 계산된 신뢰도, 상기 1차 검수의 결과 및 상기 2차 검수의 결과에 기반하여, 상기 복수의 데이터 생산자들 중에서, 상기 복수의 제1 데이터 중 적합한 데이터를 생산한 데이터 생산자에게 상기 조건에 따른 리워드를 제공하고, 상기 2차 검수를 통과하지 못한 데이터를 생산한 데이터 생산자 또는 상기 1차 검수에서 오판을 한 것으로 판단된 데이터 생산자에게 패널티를 부여하는 단계;
    상기 복수의 제1 데이터 중 적합한 것으로 판단된 데이터 및 상기 제2 검수를 통과하지 못한 데이터를 수정한 데이터를 데이터베이스에 저장하는 단계; 및
    상기 프로젝트를 완료하고, 상기 저장된 데이터를 데이터 요청자에게 제공하는 단계
    를 포함하는, 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법.
  2. 제1항에 있어서,
    상기 복수의 데이터 생산자들의 각각으로부터 제1 데이터를 입력 받는 단계는,
    상기 복수의 데이터 생산자들 중 제1 데이터 생산자로부터 데이터를 수신하는 단계;
    인공지능(Artificial Inteligence; AI) 어시스턴트를 사용하여, 상기 수신된 데이터로부터 어노테이션을 수행하는 단계;
    상기 어노테이션된 데이터를 디스플레이하고, 상기 디스플레이된 어노테이션된 데이터를 상기 제1 데이터 생산자가 수정할 수 있도록 하는 사용자 인터페이스를 제공하는 단계; 및
    상기 사용자 인터페이스를 통한 제1 데이터 생산자로부터의 수정에 기반하여, 상기 수정된 데이터를 상기 제1 데이터 생산자로부터의 제1 데이터로서 결정하는 단계
    를 포함하고,
    상기 신뢰도를 계산하는 단계는,
    상기 AI 어시스턴트가, 상기 복수의 데이터 생산자들 각각의 SNS 사용 이력에 관한 정보, 상기 복수의 데이터 생산자들 각각이 제1 데이터를 작성함에 있어서 생성되는 메타데이터, 상기 복수의 데이터 생산자들 각각의 프로파일 정보 중 적어도 하나에 기반하여 상기 생산자 신뢰도를 계산하는 단계; 및
    상기 계산된 생산자 신뢰도를 상기 데이터 정합도에 대한 가중치로서 사용하여 신뢰도를 계산하는 단계
    를 포함하고,
    상기 복수의 제1 데이터들 중 상기 계산된 신뢰도가 더 높은 제1 데이터는 상기 계산된 신뢰도가 더 낮은 제1 데이터에 비해 상기 적어도 일부의 데이터 생산자들에게 상기 제1 차 검수를 위해 더 먼저 할당되는, 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법.
  3. 제1항에 있어서,
    상기 복수의 데이터 생산자들 각각이 제1 데이터를 작성함에 있어서 생성되는 메타데이터에 기반하여, 상기 복수의 데이터 생산자 각각에 대한 생산성을 계산하는 단계; 및
    상기 복수의 데이터 생산자들 중 상기 계산된 생산성이 기준 생산성 미만인 데이터 생산자에 대해 피드백 정보를 제공하는 단계
    를 더 포함하는, 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법.
  4. 제1항에 있어서,
    상기 복수의 데이터 생산자들의 각각으로부터 제1 데이터의 입력, 상기 제1 검수 및 상기 제2 검수에 관한 분석 정보를 상기 데이터 요청자에게 제공하는 단계
    를 더 포함하고,
    상기 분석 정보는 소정의 시간 동안 입력된 제1 데이터의 양에 대한 정보, 상기 프로젝트에 참여한 데이터 생산자들의 수에 관한 정보와 상기 제1 검수 및 상기 제2 검수의 현황에 관한 정보를 포함하는, 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법.
  5. 제1항에 있어서,
    인공지능(Artificial Inteligence; AI) 어시스턴트를 사용하여, 상기 복수의 제1 데이터 각각이 어노테이션되고,
    상기 1차 검수에 의해, 상기 1차 검수가 요청된 상기 적어도 일부의 데이터 생산자들에 의해 상기 제2 데이터 각각에 대한 어노테이션의 적합성이 판정되고, 상기 1차 검수의 결과로서 상기 어노테이션의 적합성의 판정의 결과를 수신하고,
    상기 2차 검수에 의해, 상기 제3 데이터 각각에 대한 어노테이션의 적합성이 판정되고, 상기 1차 검수가 요청된 상기 적어도 일부의 데이터 생산자들의 검수 판단의 적절성이 검증되고,
    상기 1차 검수 및 상기 2차 검수의 결과는 상기 AI 어시트턴트의 이후의 제1 데이터에 대한 어노테이션을 위한 학습용 데이터로서 사용되는, 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법.
KR1020190145192A 2019-11-13 2019-11-13 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법 및 해당 데이터를 생산 및 검수하는 시스템 KR20210058127A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190145192A KR20210058127A (ko) 2019-11-13 2019-11-13 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법 및 해당 데이터를 생산 및 검수하는 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190145192A KR20210058127A (ko) 2019-11-13 2019-11-13 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법 및 해당 데이터를 생산 및 검수하는 시스템

Publications (1)

Publication Number Publication Date
KR20210058127A true KR20210058127A (ko) 2021-05-24

Family

ID=76152736

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190145192A KR20210058127A (ko) 2019-11-13 2019-11-13 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법 및 해당 데이터를 생산 및 검수하는 시스템

Country Status (1)

Country Link
KR (1) KR20210058127A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825212A (zh) * 2023-08-29 2023-09-29 山东大学 一种基于生物医学众包平台的数据收集标注方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825212A (zh) * 2023-08-29 2023-09-29 山东大学 一种基于生物医学众包平台的数据收集标注方法及系统
CN116825212B (zh) * 2023-08-29 2023-11-28 山东大学 一种基于生物医学众包平台的数据收集标注方法及系统

Similar Documents

Publication Publication Date Title
US10839161B2 (en) Tree kernel learning for text classification into classes of intent
US9141924B2 (en) Generating recommendations for staffing a project team
TW202034262A (zh) 借貸配對系統和方法
Hambling et al. Software testing: an ISTQB-ISEB foundation guide
KR102232880B1 (ko) 인공지능 학습데이터 생성을 위한 이미지 또는 동영상 수집을 위한 크라우드소싱 기반 프로젝트의 검수자 평가 방법
US10489728B1 (en) Generating and publishing a problem ticket
CN108694588B (zh) 虚拟资源请求方法及终端设备
KR20210058127A (ko) 인공지능 훈련용 데이터의 생산을 크라우드 소싱하는 방법 및 해당 데이터를 생산 및 검수하는 시스템
KR102155793B1 (ko) 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 작업단가 관리 방법 및 장치
US11605012B2 (en) Framework for processing machine learning model metrics
KR102155748B1 (ko) 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 작업 시간 대비 검수 시간을 이용한 검수 단가 자동 업데이트 방법
CN111861757A (zh) 一种融资匹配方法、系统、设备和存储介质
KR102155879B1 (ko) 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 작업자의 피드백을 활용한 검수 품질 관리 방법
KR102159574B1 (ko) 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 작업 결과의 정확도 추정 및 관리 방법
KR102155747B1 (ko) 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 반려된 오브젝트 수에 기반하여 최소 재작업 및 재검수 시간을 설정하는 방법
KR102244705B1 (ko) 학습데이터 생성을 위한 크라우드소싱 기반 유사 프로젝트의 작업 단가 역전 조정을 통한 작업자 유입 조절 방법
KR102156586B1 (ko) 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 작업 및 검수의 순차적인 배정 방법
KR102183812B1 (ko) 인공지능 학습 데이터 생성을 위한 크라우드소싱 기반 프로젝트의 검증용 작업 결과를 이용한 검수자별 시급제 기반 검수 비용 지급 방법
CN113987351A (zh) 基于人工智能的智能推荐方法、装置、电子设备及介质
US20200311741A1 (en) Methods and systems for validating order request
KR102244699B1 (ko) 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 문장 유사도를 이용한 감정 라벨링 방법
CN115063913B (zh) 基于光学字符识别的身份信息录入方法、装置及相关设备
US20240062568A1 (en) Machine learning based information extraction
KR102155750B1 (ko) 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 반려된 작업 결과를 이용한 검수 품질 관리 방법
CN116756215B (zh) 一种交易在途状态查询方法和系统

Legal Events

Date Code Title Description
E601 Decision to refuse application