KR102489448B1 - 데이터 라벨링 서비스를 제공하기 위한 시스템 - Google Patents

데이터 라벨링 서비스를 제공하기 위한 시스템 Download PDF

Info

Publication number
KR102489448B1
KR102489448B1 KR1020220082189A KR20220082189A KR102489448B1 KR 102489448 B1 KR102489448 B1 KR 102489448B1 KR 1020220082189 A KR1020220082189 A KR 1020220082189A KR 20220082189 A KR20220082189 A KR 20220082189A KR 102489448 B1 KR102489448 B1 KR 102489448B1
Authority
KR
South Korea
Prior art keywords
user
verification
content
data
labeling
Prior art date
Application number
KR1020220082189A
Other languages
English (en)
Inventor
정은준
Original Assignee
주식회사 뷰이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 뷰이 filed Critical 주식회사 뷰이
Priority to KR1020220082189A priority Critical patent/KR102489448B1/ko
Priority to KR1020230004639A priority patent/KR20240005567A/ko
Application granted granted Critical
Publication of KR102489448B1 publication Critical patent/KR102489448B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)

Abstract

전술한 바와 같은 과제를 실현하기 위한 본 발명의 다양한 실시예에 따른 데이터 라벨링 서비스를 제공하기 위한 시스템이 개시된다. 상기 시스템은, 복수의 온라인 콘텐츠 제공 서버와 복수의 사용자 단말을 연결시키며, 상기 사용자 단말의 입력에 기초하여 상기 사용자 단말로 제공되는 온라인 콘텐츠에 관련한 라벨링 데이터를 획득하는 확장 플랫폼, 미리 정해진 규칙에 기초하여 상기 라벨링 데이터에 대한 1차 검증을 수행하는 룰 기반 검증 서버, 상기 1차 검증된 라벨링 데이터에 대한 2차 검증을 수행하는 교차 검증 서버 및 상기 복수의 사용자 단말에 관련한 사용자 정보, 복수의 온라인 콘텐츠 각각에 관련한 콘텐츠 메타 데이터 및 복수의 라벨링 데이터를 저장하는 데이터베이스를 포함할 수 있다.

Description

데이터 라벨링 서비스를 제공하기 위한 시스템{A SYSTEM FOR PROVIDING DATA LABELING SERVICES}
본 발명의 다양한 실시예는 인공지능의 지도학습을 위한 학습 데이터를 생성하도록 하는 시스템에 관한 것으로, 보다 구체적으로, 콘텐츠 소비 과정에서 다수의 사용자들로부터 지도학습을 위한 라벨링 데이터를 획득하는 시스템에 관한 것이다.
오늘날, 콘텐츠의 생산 방법과 주체는 다수로 확장되어 왔지만, 콘텐츠 소비의 주요 형태는 단순 소비에 그치고 있다. 예를 들어, 웹툰, 웹 소설, 동영상 플랫폼들의 웹 콘텐츠는 대다수의 소비자들에 의해 단순 소비될 뿐, 소비 과정에서 새로운 콘텐츠를 생산하지는 못하고 있다. 일부 커뮤니티 사이트나 커뮤니티 기능 등을 통해 콘텐츠에 관련한 제한적 참여가 이루어지고 있으나, 이는 의견 개진과 이차적 의견 공유 수준에 그칠 뿐, 콘텐츠를 소비하는 과정에서 부가가치 창출하는 것과는 거리가 멀다.
소비자들은 2차 창작자로서 새로운 콘텐츠 생상자로 나설 수 있으나, 그것은 독립적 2차생산 행위로 새로운 생산자가 되는 것이며, 이 마저도 소수일 뿐, 수동적인 콘텐츠 시청에 그치는 경우가 대부분이다.
한편, 인간의 신경을 모방한 인공 신경망에 대하여 다양한 알고리즘이 개발되고 지속적인 성능의 향상을 통해, 인공 신경망 기반의 영상, 이미지, 텍스트, 음성 등의 데이터에 포함된 의미를 해석하고 이를 분류하는 인식 기술과 이미지 관련 지도학습 기술들이 다양한 산업분야에 적용되고 있다. 이러한 기술들의 정확도 향상을 위해서는 학습 데이터 세트를 통해 신경망의 반복적인 학습 과정이 필연적으로 요구된다. 즉, 인공지능 기술과 산업이 발달함에 따라 반드시 선행되어야 하는 작업은 다양한 분야의 인공지능을 학습시키기 위한 지도학습용 라벨링 데이터의 생산과 관리이다. 산업 복잡도가 높아지면서 이 데이터 작업의 가치는 지속적으로 강조되고 있으며, 인간 활동을 모방하기 위한 것으로 인간의 인지활동에 의한 작업이 주를 이루다 보니 인간 노동의 효율적 활용을 위한 선행 연구가 행해지고 있다.
데이터의 규모가 방대해지고, 동시에 인건비의 지속적 상승에 의해 이 과정의 효율화는 매우 높은 부가가치를 갖게 되었다. 이에 따라, 지도학습을 위한 라벨링 데이터의 생성 과정을 보다 효율적으로 발전시키기 위한 다양한 방법들이 제시되고 있다. 대한민국 공개특허 10-2021-0067442호는, 객체 인식을 위한 자동 레이블링 장치 및 방법을 개시하고 있다.
다만, 종래의 기술들은 동일 노동의 효과를 개선하기 위한 노력에 그치며, 인간의 인지적 활동이 개입되어야 하는 부분에서는 지속적으로 그 중요성이 대두되고 있다.
따라서, 웹 콘텐츠 소비자들의 콘텐츠 소비 과정에서 자연스럽게 행하는 인지 활동, 콘텐츠에 대한 인식과 특정 정보에 대한 인지 활동을 인공지능 학습데이터를 위한 데이터 라벨링에 효율적으로 활용하여 고부가가치를 창출하기 위한 서비스에 대한 기술 개발이 요구될 수 있다.
본 발명이 해결하고자 하는 과제는 전술한 배경기술에 대응하여 안출된 것으로, 콘텐츠 소비 과정에서 다수의 사용자들로부터 지도학습을 위한 라벨링 데이터를 획득하는 시스템을 제공하기 위함이다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 과제를 해결하기 위한 본 발명의 다양한 실시예에 따른 데이터 라벨링 서비스를 제공하기 위한 시스템이 개시된다. 상기 시스템은, 복수의 온라인 콘텐츠 제공 서버와 복수의 사용자 단말을 연결시키며, 상기 사용자 단말의 입력에 기초하여 상기 사용자 단말로 제공되는 온라인 콘텐츠에 관련한 라벨링 데이터를 획득하는 확장 플랫폼, 미리 정해진 규칙에 기초하여 상기 라벨링 데이터에 대한 1차 검증을 수행하는 룰 기반 검증 서버, 상기 1차 검증된 라벨링 데이터에 대한 2차 검증을 수행하는 교차 검증 서버 및 상기 복수의 사용자 단말에 관련한 사용자 정보, 복수의 온라인 콘텐츠 각각에 관련한 콘텐츠 메타 데이터 및 복수의 라벨링 데이터를 저장하는 데이터베이스를 포함할 수 있다.
대안적인 실시예에서, 상기 확장 플랫폼은, 상기 복수의 온라인 콘텐츠 제공 서버와 상기 복수의 사용자 단말을 연결시키는 브라우저 및 상기 온라인 콘텐츠가 제공되는 상기 브라우저의 페이지에 확장된 기능을 제공하는 브라우저 익스텐션을 포함할 수 있다.
대안적인 실시예에서, 상기 사용자 정보는, 사용자의 개인 정보 및 라벨링 데이터 생성에 관련한 신뢰도 정보를 포함하며, 상기 콘텐츠 메타 데이터는, 상기 복수의 사용자 단말에 제공되는 온라인 콘텐츠에 관련한 정보로, 콘텐츠 식별 정보 및 콘텐츠 생성 정보 중 적어도 하나를 포함하며, 상기 라벨링 데이터는, 상기 온라인 콘텐츠에 포함된 콘텐츠 객체 정보 및 상기 콘텐츠 객체 정보에 관련하여 사용자가 입력한 정답 정보를 포함할 수 있다.
대안적인 실시예에서, 상기 확장 플랫폼은, 제1개입 방식 및 제2개입 방식 중 적어도 하나의 개입 방식을 통해 상기 라벨링 데이터를 획득하는 것을 특징으로 할 수 있다.
대안적인 실시예에서, 상기 제1개입 방식은, 상기 확장 플랫폼을 활용하여 사용자 단말이 온라인 콘텐츠를 제공받는 과정에서, 상기 온라인 콘텐츠의 콘텐츠 메타 데이터가 상기 데이터베이스에 기 저장되어 있는 경우, 상기 라벨링 데이터를 획득하기 위한 제1입력창이 상기 사용자 단말로 제공되는 개입 방식이며, 상기 제2개입 방식은, 상기 확장 플랫폼을 활용하여 사용자 단말이 온라인 콘텐츠를 제공받는 과정에서, 상기 사용자 단말의 사용자가 상기 브라우저 익스텐션을 활용하여 상기 온라인 콘텐츠에 관련한 입력을 수신하기 위한 제2입력창을 생성하는 개입 방식일 수 있다.
대안적인 실시예에서, 상기 제2입력창은, 상기 사용자 단말의 사용자가 상기 브라우저 익스텐션을 활용하여 상기 온라인 콘텐츠가 제공되는 페이지의 일부 영역에 객체 바운딩 박스를 설정하는 경우, 상기 객체 바운딩 박스에 관련하여 생성되는 바운딩 박스 입력창을 포함할 수 있다.
대안적인 실시예에서, 상기 제2입력창은, 상기 온라인 콘텐츠에 관련한 의견 내용 입력창, 상기 온라인 콘텐츠의 재생 시점에 관련한 내용 축약 입력창 및 상기 온라인 콘텐츠의 챕터를 구분하기 위한 챕터 구분 입력창 중 적어도 하나의 입력창을 더 포함하는 것을 특징으로 할 수 있다.
대안적인 실시예에서, 상기 룰 기반 검증 서버는, 상기 라벨링 데이터에 포함된 자연어 입력에 대한 사전적 적정성, 맞춤법에 관한 적정성, 문법에 관한 적정성, 최소 단어 수에 관한 적정성 및 제외 단어에 관한 적정성에 관련한 규칙을 활용하여 상기 라벨링 데이터에 대한 상기 1차 검증을 수행할 수 있다.
대안적인 실시예에서, 상기 교차 검증 서버는, 제1사용자 단말의 사용자의 입력으로 통해 획득된 제1라벨링 데이터를 포함하는 검증 정보를 생성하여 추천 리스트에 포함된 하나 이상의 다른 사용자 단말로 전송하고, 상기 하나 이상의 다른 사용자 단말들로부터 상기 검증 정보에 대한 검증 응답을 수신하는 경우, 수신된 상기 검증 응답에 기초하여 상기 라벨링 데이터의 적정성을 검증하는 것을 특징으로 할 수 있다.
대안적인 실시예에서, 상기 교차 검증 서버는, 상기 제1사용자 단말의 사용자 정보에 기초하여 상기 추천 리스트를 생성하는 것을 특징으로 할 수 있다.
대안적인 실시예에서, 상기 교차 검증 서버는, 상기 하나 이상의 다른 사용자 단말들 각각에 대응하는 신뢰도 정보에 기초하여 각 다른 사용자 단말에 대응하는 검증 응답 각각에 가중치를 부여하고, 상기 가중치가 부여된 검증 응답에 기초하여 상기 라벨링 데이터의 적정성을 검증하는 것을 특징으로 할 수 있다.
대안적인 실시예에서, 상기 확장 플랫폼은, 상기 복수의 온라인 콘텐츠 제공 서버로부터 제공되는 복수의 온라인 콘텐츠 각각에 상기 복수의 사용자 단말이 동시에 접근하는지 여부에 관한 정보를 획득하는 것을 특징으로 하고, 상기 교차 검증 서버는, 상기 확장 플랫폼으로부터 상기 제1라벨링 데이터에 대응하는 제1콘텐츠 데이터에 동시에 접근한 다른 사용자 단말들에 관한 정보를 수신하고, 상기 수신한 다른 사용자 단말들에 관한 정보에 기초하여 상기 추천 리스트를 생성하는 것을 특징으로 할 수 있다.
대안적인 실시예에서, 상기 시스템은, 상기 2차 검증 결과에 기초하여 상기 라벨링 데이터의 생성에 관련한 사용자 단말에 리워드를 제공하는 보상 처리 서버를 더 포함할 수 있다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 다양한 실시예에 따르면, 콘텐츠 소비 과정에서 다수의 사용자들로부터 지도학습을 위한 라벨링 데이터를 획득하는 시스템을 제공할 수 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예와 관련된 데이터 라벨링 서비스를 제공하기 위한 시스템을 개략적으로 도시한 예시도이다.
도 2는 본 발명의 일 실시예와 관련된 복수의 사용자 단말과 복수의 온라인 콘텐츠 제공 서버를 연결하는 확장 플랫폼에 관련한 예시도이다.
도 3은 본 발명의 일 실시예와 관련된 데이터 라벨링 서비스를 제공하기 위한 방법을 예시적으로 나타낸 순서도를 도시한다.
도 4는 본 발명의 일 실시예와 관련된 라벨링 서비스를 제공하기 위한 시스템의 라벨링 데이터 획득, 검증 및 저장 과정을 예시적으로 나타낸 예시도이다.
도 5는 본 발명의 일 실시예와 관련된 제1개입 방식을 설명하기 위한 예시도이다.
도 6은 본 발명의 일 실시예와 관련된 제2개입 방식을 설명하기 위한 예시도이다.
도 7은 본 발명의 일 실시예와 관련된 라벨링 데이터의 획득, 검증 및 검증이 완료됨에 따라 리워드를 제공하는 과정을 설명하기 위한 예시적인 순서도를 도시한다.
도 8은 본 발명의 일 실시예와 관련된 제1개입 방식 및 제2개입 방식 각각이 가능한 상황을 설명하기 위한 예시도이다.
다양한 실시예들이 이제 도면을 참조하여 설명된다. 본 명세서에서, 다양한 설명들이 본 발명의 이해를 제공하기 위해서 제시된다. 그러나, 이러한 실시예들은 이러한 구체적인 설명 없이도 실행될 수 있음이 명백하다.
본 명세서에서 사용되는 용어 "컴포넌트", "모듈", "시스템" 등은 컴퓨터-관련 엔티티, 하드웨어, 펌웨어, 소프트웨어, 소프트웨어 및 하드웨어의 조합, 또는 소프트웨어의 실행을 지칭한다. 예를 들어, 컴포넌트는 프로세서상에서 실행되는 처리과정(procedure), 프로세서, 객체, 실행 스레드, 프로그램, 및/또는 컴퓨터일 수 있지만, 이들로 제한되는 것은 아니다. 예를 들어, 컴퓨팅 장치에서 실행되는 애플리케이션 및 컴퓨팅 장치 모두 컴포넌트일 수 있다. 하나 이상의 컴포넌트는 프로세서 및/또는 실행 스레드 내에 상주할 수 있다. 일 컴포넌트는 하나의 컴퓨터 내에 로컬화 될 수 있다. 일 컴포넌트는 2개 이상의 컴퓨터들 사이에 분배될 수 있다. 또한, 이러한 컴포넌트들은 그 내부에 저장된 다양한 데이터 구조들을 갖는 다양한 컴퓨터 판독가능한 매체로부터 실행할 수 있다. 컴포넌트들은 예를 들어 하나 이상의 데이터 패킷들을 갖는 신호(예를 들면, 로컬 시스템, 분산 시스템에서 다른 컴포넌트와 상호작용하는 하나의 컴포넌트로부터의 데이터 및/또는 신호를 통해 다른 시스템과 인터넷과 같은 네트워크를 통해 전송되는 데이터)에 따라 로컬 및/또는 원격 처리들을 통해 통신할 수 있다.
더불어, 용어 "또는"은 배타적 "또는"이 아니라 내포적 "또는"을 의미하는 것으로 의도된다. 즉, 달리 특정되지 않거나 문맥상 명확하지 않은 경우에, "X는 A 또는 B를 이용한다"는 자연적인 내포적 치환 중 하나를 의미하는 것으로 의도된다. 즉, X가 A를 이용하거나; X가 B를 이용하거나; 또는 X가 A 및 B 모두를 이용하는 경우, "X는 A 또는 B를 이용한다"가 이들 경우들 어느 것으로도 적용될 수 있다. 또한, 본 명세서에 사용된 "및/또는"이라는 용어는 열거된 관련 아이템들 중 하나 이상의 아이템의 가능한 모든 조합을 지칭하고 포함하는 것으로 이해되어야 한다.
또한, "포함한다" 및/또는 "포함하는"이라는 용어는, 해당 특징 및/또는 구성요소가 존재함을 의미하는 것으로 이해되어야 한다. 다만, "포함한다" 및/또는 "포함하는"이라는 용어는, 하나 이상의 다른 특징, 구성요소 및/또는 이들의 그룹의 존재 또는 추가를 배제하지 않는 것으로 이해되어야 한다. 또한, 달리 특정되지 않거나 단수 형태를 지시하는 것으로 문맥상 명확하지 않은 경우에, 본 명세서와 청구범위에서 단수는 일반적으로 "하나 또는 그 이상"을 의미하는 것으로 해석되어야 한다.
당업자들은 추가적으로 여기서 개시된 실시예들과 관련되어 설명된 다양한 예시적 논리적 블록들, 구성들, 모듈들, 회로들, 수단들, 로직들, 및 알고리즘 단계들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양쪽 모두의 조합들로 구현될 수 있음을 인식해야 한다. 하드웨어 및 소프트웨어의 상호교환성을 명백하게 예시하기 위해, 다양한 예시 적 컴포넌트들, 블록들, 구성들, 수단들, 로직들, 모듈들, 회로들, 및 단계들은 그들의 기능성 측면에서 일반적으로 위에서 설명되었다. 그러한 기능성이 하드웨어로 또는 소프트웨어로서 구현되는지 여부는 전반적인 시스템에 부과된 특정 어플리케이션(application) 및 설계 제한들에 달려 있다. 숙련된 기술자들은 각각의 특정 어플리케이션들을 위해 다양한 방법들로 설명된 기능성을 구현할 수 있다. 다만, 그러한 구현의 결정들이 본 발명내용의 영역을 벗어나게 하는 것으로 해석되어서는 안된다.
제시된 실시예들에 대한 설명은 본 발명의 기술 분야에서 통상의 지식을 가진 자가 본 발명을 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이다. 여기에 정의된 일반적인 원리들은 본 발명의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 발명은 여기에 제시된 실시예들로 한정되는 것이 아니다. 본 발명은 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.
본 명세서에서, 컴퓨터는 적어도 하나의 프로세서를 포함하는 모든 종류의 하드웨어 장치를 의미하는 것이고, 실시 예에 따라 해당 하드웨어 장치에서 동작하는 소프트웨어적 구성도 포괄하는 의미로서 이해될 수 있다. 예를 들어, 컴퓨터는 스마트폰, 태블릿 PC, 데스크톱, 노트북 및 각 장치에서 구동되는 사용자 클라이언트 및 애플리케이션을 모두 포함하는 의미로서 이해될 수 있으며, 또한 이에 제한되는 것은 아니다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
본 명세서에서 설명되는 각 단계들은 컴퓨터에 의하여 수행되는 것으로 설명되나, 각 단계의 주체는 이에 제한되는 것은 아니며, 실시 예에 따라 각 단계들의 적어도 일부가 서로 다른 장치에서 수행될 수도 있다.
도 1은 본 발명의 일 실시예와 관련된 데이터 라벨링 서비스를 제공하기 위한 시스템을 개략적으로 도시한 예시도이다.
도 1에 도시된 바와 같이, 데이터 라벨링 서비스를 제공하기 위한 시스템은, 확장 플랫폼(100), 데이터베이스(200), 룰 기반 검증 서버(300), 교차 검증 서버(400), 보상 처리 서버(500) 및 네트워크를 포함할 수 있다. 도 1에서 도시되는 컴포넌트들은 예시적인 것으로서, 추가적인 컴포넌트들이 존재하거나 또는 도 1에서 도시되는 컴포넌트들 중 일부는 생략될 수 있다. 본 발명의 실시예들에 따른 확장 플랫폼(100), 데이터베이스(200), 룰 기반 검증 서버(300), 교차 검증 서버(400) 및 보상 처리 서버(500)는 네트워크를 통해 본 발명의 일 실시예들에 따른 시스템을 위한 데이터를 상호 송수신할 수 있다.
본 발명의 실시예들에 따른 네트워크는 공중전화 교환망(PSTN: Public Switched Telephone Network), xDSL(x Digital Subscriber Line), RADSL(Rate Adaptive DSL), MDSL(Multi Rate DSL), VDSL(Very High Speed DSL), UADSL(Universal Asymmetric DSL), HDSL(High Bit Rate DSL) 및 근거리 통신망(LAN) 등과 같은 다양한 유선 통신 시스템들을 사용할 수 있다.
또한, 여기서 제시되는 네트워크는 CDMA(Code Division Multi Access), TDMA(Time Division Multi Access), FDMA(Frequency Division Multi Access), OFDMA(Orthogonal Frequency Division Multi Access), SC-FDMA(Single Carrier-FDMA) 및 다른 시스템들과 같은 다양한 무선 통신 시스템들을 사용할 수 있다.
본 발명의 실시예들에 따른 네트워크는 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 단거리 통신망(PAN: Personal Area Network), 근거리 통신망(WAN: Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. 또한, 네트워크는 공지의 월드와이드웹(WWW: World Wide Web)일 수 있으며, 적외선(IrDA: Infrared Data Association) 또는 블루투스(Bluetooth)와 같이 단거리 통신에 이용되는 무선 전송 기술을 이용할 수도 있다. 본 명세서에서 설명된 기술들은 위에서 언급된 네트워크들뿐만 아니라, 다른 네트워크들에서도 사용될 수 있다.
본 발명의 실시예에 따르면, 데이터 라벨링 서비스를 제공하기 위한 시스템은 복수의 온라인 콘텐츠 제공 서버와 복수의 사용자 단말을 연결시키는 확장 플랫폼(100)을 포함할 수 있다.
확장 플랫폼(100)은 복수의 온라인 콘텐츠 제공 서버와 복수의 사용자 단말을 연결시킬 수 있다. 즉, 사용자 단말은 확장 플랫폼을 통해 온라인 콘텐츠 제공 서버에 접속하여 콘텐츠를 제공받을 수 있다. 또한, 확장 플랫폼(100)은 사용자 단말의 입력에 기초하여 사용자 단말로 제공되는 온라인 콘텐츠에 관련한 라벨링 데이터를 획득할 수 있다.
본 발명에서 라벨링 데이터는, 인공 신경망을 지도 학습시키기 위한 학습 데이터를 의미하는 것으로, 신경망의 학습 시, 입력에 관련한 데이터 및 해당 입력 데이터에 관련한 정답 데이터가 매칭되어 라벨링된 데이터 쌍을 의미할 수 있다. 예컨대, 복수의 라벨링 데이터는, 인공 신경망을 학습시키기 위한 학습 데이터 셋일 수 있다. 실시예에 따르면, 본 발명의 라벨링 데이터는, 다양한 온라인 컨텐츠의 소비 과정에서 획득되는 것으로, 다양한 형태의 데이터(이미지, 영상, 음향 또는 텍스트 등) 및 각 데이터에 대응하여 사용자가 입력한 정답에 관련한 데이터를 포함할 수 있다.
보다 구체적으로 도 2를 참조하면, 확장 플랫폼(100)은, 복수의 온라인 콘텐츠 제공 서버(20)와 복수의 사용자 단말(10)을 연결시키는 브라우저(110) 및 온라인 콘텐츠가 제공되는 브라우저(110)의 페이지에 확장된 기능을 제공하는 브라우저 익스텐션(120)을 포함할 수 있다. 여기서 온라인 콘텐츠 제공 서버(20)는 소비자가 요청한 콘텐츠를 제공하는 플랫폼 서버를 의미하는 것으로, 예를 들어, 유튜브, 네이버TV 또는 아프리카 TV 등을 포함할 수 있으나, 이에 제한되는 것은 아니다. 실시예에 따르면, 사용자들은 브라우저(110)를 통해 온라인 콘텐츠 제공 서버(20)에 접속할 수 있으며, 온라인 콘텐츠 제공 서버(20)로부터 다양한 콘텐츠를 제공받아 소비할 수 있다.
사용자 단말(10)은 복수의 온라인 콘텐츠 제공 서버(20)와 통신을 위한 메커니즘을 갖는 시스템에서의 임의의 형태의 노드(들)를 의미할 수 있다. 사용자 단말(10)은 온라인 콘텐츠 제공 서버(20)와의 정보 교환을 통해 다양한 온라인 콘텐츠를 제공받을 수 있는 단말로, 사용자가 소지한 단말을 의미할 수 있다. 사용자 단말(10)은 온라인 콘텐츠 제공 서버(20)와 통신을 위한 메커니즘을 갖는 시스템에서의 임의의 형태의 엔티티(들)를 의미할 수 있다. 예를 들어, 이러한 사용자 단말(10)은 PC(personal computer), 노트북(note book), 모바일 단말기(mobile terminal), 스마트 폰(smart phone), 태블릿 PC(tablet pc) 및 웨어러블 디바이스(wearable device) 등을 포함할 수 있으며, 유/무선 네트워크에 접속할 수 있는 모든 종류의 단말을 포함할 수 있다. 또한, 사용자 단말(10)은 에이전트, API(Application Programming Interface) 및 플러그-인(Plug-in) 중 적어도 하나에 의해 구현되는 임의의 서버를 포함할 수도 있다. 또한, 사용자 단말(10)은 애플리케이션 소스 및/또는 클라이언트 애플리케이션을 포함할 수 있다.
브라우저(110)는 인터넷 상에서 웹을 연결시켜주는 소프트웨어로 HTML(Hypertext Markup Language), CSS(Cascading Style Sheets), JS(JavaScript) 등의 언어를 사용한 사용자 인터페이스에 기반한 응용 소프트웨어를 의미할 수 있다. 예컨대, 브라우저(110)는 크롬(chrome), 파이어폭스(firefox), 오페라(opera), 사파리(safari) 등을 포함할 수 있다.
브라우저 익스텐션(120)은 브라우저(110)를 사용함에 있어서, 기존에 제공된 소스코드에 변형을 가하여 확장된 정보를 제공하거나 기능을 수행할 수 있는 응용프로그램을 의미할 수 있다. 일 실시예에 따르면, 브라우저 익스텐션(120)은 소비자가 사용하는 브라우저(110)에 애드온 하는 형식의 어플리케이션일 수 있으며, 브라우저(110)에서 제공하는 소스코드에 변형을 가하여 실제 콘텐츠 소비자에게 보여지는 페이지를 가공할 수 있다. 예컨대, 브라우저 익스텐션(120)은, 사용자 단말(10)의 접근에 따라 콘텐츠 페이지에 관련한 변환을 허용할 수 있다. 구체적인 예를 들어, 브라우저(110)가 크롬인 경우, 브라우저 익스텐션은 크롬 익스텐션(또는 크롬 확장프로그램)일 수 있다. 전술한 브라우저 및 브라우저 익스텐션에 관련한 구체적인 기재는, 예시일 뿐, 본 발명은 이에 제한되지 않는다.
일 실시예에 따르면, 확장 플랫폼(100)은 사용자 단말(10)이 온라인 콘텐츠를 소비하는 과정에서 브라우저(110) 상의 개입(예컨대, 시청 개입)을 통해 해당 온라인 콘텐츠에 관련한 라벨링 데이터를 획득할 수 있다. 확장 플랫폼(100)은 제1개입 방식 및 제2개입 방식 중 적어도 하나의 개입 방식을 통해 사용자 단말의 사용자로부터 특정 객체에 관련한 입력을 수신하고, 수신된 입력을 통해 라벨링 데이터를 획득할 수 있다. 구체적인 예를 들어, 사용자 단말(10)은 온라인 콘텐츠를 시청하는 과정에서, 일정 시점의 관련한 콘텐츠 객체에 대한 정답 정보를 입력할 수 있다. 예컨대, 사용자는 콘텐츠 객체 이미지가 어떠한 객체에 관련한 것인지 또는, 콘텐츠 객체 이미지에 분위기 또는 감정이 어떠한지 등에 관한 정답 정보를 입력할 수 있다. 또한, 예를 들어, 영상 콘텐츠 전체에 대한 요약 정보, 영상 콘텐츠에 대한 사용자의 의견, 영상 콘텐츠의 챕터 구분에 관련한 챕터 구분 정보 등 콘텐츠에 대한 전반적인 상황에 대한 정답 정보를 입력할 수도 있다. 이에 따라, 콘텐츠와 그에 대응하는 사용자의 입력에 관련한 정답 정보를 포함하는 라벨링 데이터가 획득될 수 있다.
여기서, 제1개입 방식은, 콘텐츠에 대응하여 미리 정해진 시점에 따라 정답을 입력하는 창을 제공받아 사용자가 수동적으로 콘텐츠에 관련한 정답을 입력하는 방식일 수 있다. 또한, 제2개입 방식은, 사용자가 콘텐츠를 소비하는(또는 시청하는) 과정에서 사용자가 원하는 특정 시점에 대응하여 능동적인 참여를 통해 콘텐츠에서 특정 객체에 대응하는 정답 입력을 입력하는 방식일 수 있다. 전술한 바와 같이 확장 플랫폼(100)은 사용자 단말과 온라인 콘텐츠 제공 서버(20)를 연결시켜 사용자 단말(10)이 온라인 콘텐츠를 제공받도록 할 수 있으며, 사용자 단말(10)이 콘텐츠를 소비하는 과정에서, 능동적 및 수동적 개입을 통해 사용자로부터 콘텐츠에 관련한 정답 정보를 수신함으로써, 라벨링 데이터를 획득할 수 있다.
즉, 본 발명의 시스템은, 특정 응용프로그램(예컨대, 특정 온라인 콘텐츠 제공 서버)에 직접 접속하여 한정된 데이터베이스 안에서 라벨링 작업을 수행하도록 하는 것이 아닌, 확장 플랫폼(100)을 활용함으로써 전체 웹 콘텐츠를 라벨링 작업의 대상으로 확장할 수 있다. 이에 따라, 사용자들은 한정적인 데이터 셋에 대한 한정된 작업의 틀에서 벗어나, 광범위한 온라인 콘텐츠 소비 활동 중 인지적 활동을 데이터화할 수 있게 된다. 확장 플랫폼(100)을 통해 라벨링 데이터를 획득하는 방법에 대한 구체적인 설명은 도 3 내지 도 7을 참조하여 후술하도록 한다.
일 실시예에 따르면, 확장 플랫폼(100)은 콘텐츠 시청(또는 소비) 과정에서 사용자 단말로부터 콘텐츠에 관련한 라벨링 데이터를 획득할 수 있으며, 획득된 라벨링 데이터를 검증 서버(예컨대, 룰 기반 검증 서버 및 교차 검증 서버)로 전송하여 라벨링 데이터의 검증이 수행되도록 할 수 있다. 여기서 라벨링 데이터에 대한 검증은, 사용자가 특정 콘텐츠 객체 정보에 대응하여 입력한 정답 정보가 적합한 입력인지를 판별하기 위한 것일 수 있다.
본 발명의 일 실시예에 따르면, 확장 플랫폼(100)은 클라우드 컴퓨팅 서비스를 제공하는 서버일 수 있다. 보다 구체적으로, 확장 플랫폼(100)은 인터넷 기반 컴퓨팅의 일종으로 정보를 사용자의 컴퓨터가 아닌 인터넷에 연결된 다른 컴퓨터로 처리하는 클라우드 컴퓨팅 서비스를 제공하는 서버일 수 있다. 상기 클라우드 컴퓨팅 서비스는 인터넷 상에 자료를 저장해 두고, 사용자가 필요한 자료나 프로그램을 자신의 컴퓨터에 설치하지 않고도 인터넷 접속을 통해 언제 어디서나 이용할 수 있는 서비스일 수 있으며, 인터넷 상에 저장된 자료들을 간단한 조작 및 클릭으로 쉽게 공유하고 전달할 수 있다. 또한, 클라우드 컴퓨팅 서비스는 인터넷 상의 서버에 단순히 자료를 저장하는 것뿐만 아니라, 별도로 프로그램을 설치하지 않아도 웹에서 제공하는 응용프로그램의 기능을 이용하여 원하는 작업을 수행할 수 있으며, 여러 사람이 동시에 문서를 공유하면서 작업을 진행할 수 있는 서비스일 수 있다. 또한, 클라우드 컴퓨팅 서비스는 IaaS(Infrastructure as a Service), PaaS(Platform as a Service), SaaS(Software as a Service), 가상 머신 기반 클라우드 서버 및 컨테이너 기반 클라우드 서버 중 적어도 하나의 형태로 구현될 수 있다. 즉, 본 발명의 확장 플랫폼(100)은 상술한 클라우드 컴퓨팅 서비스 중 적어도 하나의 형태로 구현될 수 있다. 전술한 클라우드 컴퓨팅 서비스의 구체적인 기재는 예시일 뿐, 본 발명의 클라우드 컴퓨팅 환경을 구축하는 임의의 플랫폼을 포함할 수도 있다.
본 발명의 일 실시예에 따르면, 데이터 라벨링 서비스를 제공하기 위한 시스템은 복수의 사용자 단말(10)에 관련한 사용자 정보, 복수의 온라인 콘텐츠에 관련한 콘텐츠 메타 데이터 및 복수의 라벨링 데이터를 저장하는 데이터베이스(200)를 포함할 수 있다.
데이터베이스(200)는 예를 들어, 마이크로프로세서, 메인프레임 컴퓨터, 디지털 싱글 프로세서, 휴대용 디바이스 및 디바이스 제어기 등과 같은 임의의 타입의 컴퓨터 시스템 또는 컴퓨터 디바이스를 포함할 수 있다. 이러한 데이터베이스(200)는 도 1에 도시되진 않았지만, DBMS(Database Management System)을 포함할 수 있다. 또한, 데이터베이스(200)는 쿼리를 실행하기 위한 장치와 상호 교환 가능하게 사용될 수도 있다. 데이터베이스(200)는 쿼리에 대한 파싱, 필요한 데이터를 검색, 삽입, 수정 및/또는 삭제 등과 같은 동작들을 수행하는 것을 허용하기 위한 프로그램일 수 있다.
일 실시예에 따르면, 데이터베이스(200)는 네트워크부, 저장부 및 프로세서를 포함할 수 있다. 네트워크부는 데이터베이스와 서버 및 사용자 단말 간의 통신 기능을 제공할 수 있다. 예를 들어, 네트워크부는 사용자 단말로부터 데이터 저장, 변경 및 조회와 관련된 요청을 수신할 수 있다.
데이터베이스(200)에 포함된 저장부는 영구 저장 매체 및 메모리를 포함할 수 있다. 영구 저장 매체는, 예를 들어 자기(magnetic) 디스크, 광학(optical) 디스크 및 광자기(magneto-optical) 저장 디바이스뿐만 아니라 플래시 메모리 및/또는 배터리-백업 메모리에 기초한 저장 디바이스와 같은, 임의의 데이터를 지속적으로 저장할 수 있는 비-휘발성(non-volatile) 저장 매체를 의미할 수 있다. 이러한 영구 저장 매체는 다양한 통신 수단을 통하여 데이터베이스(200)의 프로세서 및 메모리와 통신할 수 있다. 추가적인 실시예에서, 이러한 영구 저장 매체는 데이터베이스(200) 외부에 위치하여 데이터베이스(200)와 통신 가능할 수도 있다.
메모리는, 예를 들어 동적 램(DRAM, dynamic random access memory), 정적 램(SRAM, static random access memory) 등의 랜덤 액세스 메모리(RAM)와 같은, 프로세서가 직접 접근하는 주된 저장 장치로서 전원이 꺼지면 저장된 정보가 순간적으로 지워지는 휘발성(volatile) 저장 장치를 의미할 수 있지만, 이들로 한정되는 것은 아니다. 이러한 메모리는 프로세서에 의하여 동작 될 수 있다. 메모리는 데이터 값을 포함하는 데이터 테이블(data table)을 임시로 저장할 수 있다. 상기 데이터 테이블은 데이터 값을 포함할 수 있으며, 본 발명의 일 실시예에서 상기 데이터 테이블의 데이터 값은 메모리로부터 영구 저장 매체에 기록될 수 있다. 추가적인 양상에서, 메모리는 버퍼 캐시를 포함하며, 상기 버퍼 캐시의 데이터 블록에는 데이터가 저장될 수 있다. 버퍼 캐시에 저장된 데이터는 백그라운드 프로세스에 의하여 영구 저장 매체에 기록될 수 있다.
일 실시예에 따르면, 데이터베이스(200)에 저장된 복수의 사용자 단말(10) 각각에 관련한 사용자 정보는, 사용자의 개인 정보 및 라벨링 데이터 생성에 관련한 신뢰도 정보를 포함할 수 있다. 사용자의 개인 정보는, 예컨대, 사용자의 나이, 성별, 선호 콘텐츠, 지역 등에 관한 정보를 포함할 수 있다. 신뢰도 정보는, 사용자의 입력을 통해 라벨링 데이터가 생성된 경우, 해당 생성된 라벨링 데이터의 신뢰 정도를 산정하기 위한 정보로, 예컨대, 신뢰 정보에 따른 수치화 정보일 수 있다. 예를 들어, 신뢰도가 높은 사용자일수록 큰 신뢰도 정보를 가질 수 있으며, 신뢰도가 낮은 사용자일수록 낮은 신뢰도 정보를 가질 수 있다. 일 실시예에서, 신뢰도 정보를 통해 사용자가 생성한 라벨링 데이터의 교차 검증을 수행할 다른 사용자 단말의 수가 결정될 수 있다.
또한, 실시예에서, 콘텐츠 메타 데이터는, 콘텐츠 각각을 식별하기 위한 정보일 수 있다. 일 실시예에 따르면, 확장 플랫폼(100)은 사용자 단말(10)이 시청하는(또는 소비하는) 콘텐츠에 관련한 콘텐츠 메타 데이터를 콘텐츠 제공 서버로부터 수신할 수 있으며, 수신한 콘텐츠 메타 데이터를 데이터베이스(200)에 전송할 수 있다. 콘텐츠 메타 데이터는 온라인 콘텐츠에 관련한 정보로, 콘텐츠 식별 정보 및 콘텐츠 생성 정보 중 적어도 하나를 포함할 수 있다. 콘텐츠 식별 정보는, 콘텐츠 각각을 식별 또는 구분하기 위한 정보로, 예를 들어, 콘텐츠의 채널 정보 또는 영상 ID에 관련한 정보를 포함할 수 있다. 콘텐츠 생성 정보는, 콘텐츠를 생성에 관련한 정보로, 콘텐츠를 생성한 크리에이터(또는 스트리머)의 채널 정보 및 크리에이터의 ID 정보를 포함할 수 있다.
일 실시예에서, 사용자가 현재 시청하고 있는 콘텐츠에 관련한 콘텐츠 메타 데이터가 데이터베이스(200)에 사전 저장되어 있는지 여부에 따라 제1개입 방식의 활용이 가능해질 수 있다. 콘텐츠 메타 데이터는 라벨링 데이터를 획득하는 과정에서, 제1개입 방식을 결정하는데 중요한 요소일 수 있다. 예컨대, 콘텐츠 메타 데이터가 데이터베이스(200)에 사전 저장되어 있지 않는 경우, 제1개입 방식을 활용한 라벨링 데이터의 획득은 불가능할 수 있다. 즉, 콘텐츠 메타 데이터의 식별에 기반하여 라벨링 데이터를 획득하는 과정에서 능동적 및 수동적 개입이 결정될 수 있다. 또한 실시예에 따르면, 특정 콘텐츠의 시청 과정에서 제2개입 방식을 통해 라벨링 데이터가 생성된 경우, 해당 콘텐츠의 콘텐츠 메타 데이터는 데이터베이스(200)에 저장될 수 있으며, 추후, 제1개입 방식의 활성화를 위해 활용될 수 있다.
일 실시예에서, 데이터베이스(200)는 복수의 라벨링 데이터를 저장할 수 있다. 라벨링 데이터는, 온라인 콘텐츠에 포함된 콘텐츠 객체 정보 및 해당 콘텐츠 객체 정보에 관련하여 사용자 각각이 입력한 정답 정보를 포함할 수 있다. 실시예에 따르면, 데이터베이스(200)에 저장된 복수의 라벨링 데이터는, 검증되지 않은(즉, 미검증) 라벨링 데이터, 1차 검증된 라벨링 데이터, 2차 검증된 라벨링 데이터(즉, 최종 검증된 라벨링 데이터)를 포함할 수 있다. 실시예에서, 검증을 통과하지 못한 라벨링 데이터는, 신경망의 학습에 활용될 수 없으며, 최종 검증된 라벨링 데이터는, 신경망의 학습에 활용될 수 있다.
본 발명의 일 실시예에 따르면, 데이터 라벨링 서비스를 제공하기 위한 시스템은, 미리 정해진 규칙에 기초하여 라벨링 데이터에 대한 1차 검증을 수행하는 룰 기반 검증 서버(300)를 포함할 수 있다. 룰 기반 검증 서버(300)는 라벨링 데이터에 대한 1차 검증을 수행할 수 있다. 1차 검증은, 라벨링 데이터에 포함된 정답 정보(즉, 사용자가 입력한 정보)가 미리 정해진 규칙을 충족하는지 여부에 관한 검증일 수 있다.
실시예에서, 룰 기반 검증 서버(300)는 라벨링 데이터의 정답 정보에 포함된 하나 이상의 단어들의 사전적 적정성, 맞춤법에 관한 적정성, 문법에 관한 적정성, 최소 단어 수에 관한 적정성 및 미리 정의된 단어 포함 여부에 관한 적정성에 관련한 규칙을 활용하여 라벨링 데이터에 대한 1차 검증을 수행할 수 있다.
구체적으로, 룰 기반 검증 서버(300)는 언어 모델을 활용한 자연어 처리를 통해 정답 정보에 대한 분석을 수행할 수 있으며, 분석 결과, 미리 정의된 규칙을 충족하는지 여부에 기초하여 라벨링 데이터에 대한 1차 검증을 수행할 수 있다.
실시예에 따르면, 언어 모델은, 하나 이상의 단어를 포함하는 문장을 입력으로 하는 경우, 문장의 구조 분석을 통해 각 단어 단위로 분할할 수 있으며, 각 단어의 의미를 분석하는 모델일 수 있다. 또한, 언어 모델은, 문장의 확률을 계산하거나 또는 이전 단어들이 입력된 경우, 다음 단어가 나올 확률에 대한 계산이 가능한 모델일 수 있으며, 단어들의 조합이 얼마나 적절한지 또는 해당 문장이 얼마나 적합한지를 판정할 수 있다.
룰 기반 검증 서버(300)는 정답 정보에 포함된 하나 이상의 단어들의 사전적 적정성에 관련한 규칙에 기초하여 라벨링 데이터에 대한 검증을 수행할 수 있다. 구체적으로, 룰 기반 검증 서버(300)는 정답 정보에 포함된 하나 이상의 단어 각각이 사전(dictionary)에 정의된 단어들에 대응하는지 여부에 따라 각 단어들의 사전적 적정성을 판별할 수 있다. 사용자의 입력에 관련한 정답 정보에, 사전에 정의되지 않은 단어가 포함되어 있는 경우, 룰 기반 검증 서버(300)는 해당 정답 정보에 대응하는 라벨링 데이터를 검증되지 못한 데이터로 간주할 수 있다.
또한, 룰 기반 검증 서버(300)는 정답 정보의 맞춤법에 관한 적정성에 관련한 규칙에 기초하여 라벨링 데이터에 대한 검증을 수행할 수 있다. 룰 기반 검증 서버(300)는 정답 정보를 구성하는 단어들의 맞춤법에 맞추어 작성되었는지 여부를 판별할 수 있다. 룰 기반 검증 서버(300)는 정답 정보에 포함된 단어들에 맞춤법이 어긋날 경우, 해당 정답 정보에 대응하는 라벨링 데이터를 검증되지 못한 데이터로 간주할 수 있다.
또한, 룰 기반 검증 서버(300)는 정답 정보의 문법에 관한 적정성에 관련한 규칙에 기초하여 라벨링 데이터에 대한 검증을 수행할 수 있다. 룰 기반 검증 서버(300)는 정답 정보의 문장 구성이 문법에 맞추어 구성되었는지 여부를 판별할 수 있다. 룰 기반 검증 서버(300)는 정답 정보의 문장 구성이 문법에 어긋날 경우, 해당 정답 정보에 대응하는 라벨링 데이터를 검증되지 못한 데이터로 간주할 수 있다.
또한, 룰 기반 검증 서버(300)는 정답 정보의 최소 단어 수에 관한 적정성에 관련한 규칙에 기초하여 라벨링 데이터에 대한 검증을 수행할 수 있다. 룰 기반 검증 서버(300)는 정답 정보가, 문장을 구성하는 최소한의 단어 개수 이상으로 구성되었는지 여부를 판별할 수 있다. 예를 들어, 문장을 구성하는 최소한의 단어 수가 2개이나, 사용자의 입력에 관련한 정답 정보가 한 개의 단어를 통해 구성된 경우, 룰 기반 검증 서버(300)는 해당 정답 정보가 최소 단어 수에 관한 적정성 규칙을 위반한 것으로 판별할 수 있다. 룰 기반 검증 서버(300)는 문장 구성에 필요한 최소 단어 수 이상으로 작성된 정답 정보에 해당하는 라벨링 데이터만을 검증된 데이터로 간주할 수 있다.
또한, 룰 기반 검증 서버(300)는 제외 단어에 관한 적정성에 관련한 규칙에 기초하여 라벨링 데이터에 대한 검증을 수행할 수 있다. 여기서, 제외 단어란, 욕설 및 혐오에 관련한 단어를 의미할 수 있으며, 사전에 정의된 데이터일 수 있다. 룰 기반 검증 서버(300)는 정답 정보에 포함된 단어들을 식별하고, 식별된 단어들 중 제외 단어가 포함되어 있는지 여부를 확인하고, 이에 기초하여 라벨링 데이터에 대한 검증을 수행할 수 있다. 룰 기반 검증 서버(300)는 사용자의 입력에 관련한 정답 정보에 욕설 또는 혐오에 관련한 제외 단어가 존재하는 경우, 해당 정답 정보에 대응하는 라벨링 데이터를 검증되지 못한 데이터로 간주할 수 있다.
추가적인 실시예에서, 룰 기반 검증 서버(300)는 하나 이상의 유사도 검사에 기반하여 라벨링 데이터에 대한 검증을 수행할 수 있다. 하나 이상의 유사도 검사는, 텍스트 유사도 검사, 구간 유사도 검사 및 챕터 유사도 검사를 포함할 수 있다.
보다 자세히 설명하면, 룰 기반 검증 서버(300)는 텍스트 유사도 검사에 기초하여 라벨링 데이터에 대한 검증을 수행할 수 있다. 룰 기반 검증 서버(300)는 특정 사용자의 입력에 관련하여 정답 정보를 포함하는 라벨링 데이터를 획득하는 경우, 해당 사용자가 기존에 입력한 텍스트들을 식별할 수 있으며, 기존 입력에 관련한 텍스트들과 정답 정보에 포함된 텍스트들을 비교하여 라벨링 데이터에 대한 검증을 수행할 수 있다. 예를 들어, 제1사용자의 입력에 의해 제1정답 정보를 포함하는 제1라벨링 데이터가 생성된 경우, 제1사용자의 기존 입력(즉, 기존 정답 정보 입력)들에 관련한 텍스트들을 식별할 수 있으며, 제1정답 정보에 포함된 텍스트와 기존 입력에 관련한 텍스트들에 대한 유사도 비교가 수행될 수 있다. 제1정답 정보에 포함된 텍스트와 기존 입력에 관련한 텍스트들에 대한 유사도가 기 설정된 임계 유사도 이상인 경우, 룰 기반 검증 서버(300)는 제1정답 정보에 대응하는 제1라벨링 정보를 검증되지 못한 데이터로 간주할 수 있다. 즉, 사용자의 기존 입력과 동일(또는 유사)한 형태의 정답 정보가 지속해서 입력되는 경우, 룰 기반 검증 서버(300)는 해당 라벨링 데이터를 검증되지 못한 데이터로 판별할 수 있다. 이는, 중복 입력을 방지하기 위한 구성일 수 있다. 이러한 구성을 통해, 동일 사용자로부터 일정 이상의 유사도를 가진 텍스트의 반복을 통해 라벨링 데이터가 획득되지 않도록 함으로써, 중복이 방지됨과 동시에, 획득되는 라벨링 데이터의 다양성을 담보할 수 있다는 장점을 가진다.
또한, 룰 기반 검증 서버(300)는 구간 유사도 검사에 기초하여 라벨링 데이터에 대한 검증을 수행할 수 있다. 룰 기반 검증 서버(300)는 특정 사용자의 입력에 관련한 정답 정보가 획득되는 구간의 크기가 해당 사용자의 기존 입력에 관련한 정답 정보의 획득 구간 크기와 동일한지 여부를 식별할 수 있다. 구체적으로, 제1사용자가 콘텐츠 시청 과정에서 9~15초에 해당하는 구간에 관련하여 정답 정보를 입력한 경우, 9~15초에 대응하는 콘텐츠와 정답 정보를 포함하는 제1라벨링 데이터가 생성될 수 있으며, 룰 기반 검증 서버(300)는 해당 제1라벨링 데이터를 수신할 수 있다. 룰 기반 검증 서버(300)는 해당 제1사용자로부터 획득된 최근 라벨링 데이터를 식별할 수 있으며, 최근 라벨링 데이터가 해당 6초 구간 크기에 관련한 경우(즉, 제1라벨링 데이터의 구간 크기와 동일한 경우), 제1라벨링 데이터를 검증되지 않은 데이터로 판별할 수 있다. 즉, 룰 기반 검증 서버(300)는 같은 크기 구간에 대응하는 라벨링 데이터가 연속적으로 획득되거나 또는 최근 입력 크기와 같은 라벨링 데이터가 획득되는 경우, 해당 라벨링 데이터를 검증이 실패된 데이터로 간주할 수 있다. 이는, 같은 크기의 구간에 대한 연속적인 중복 입력을 방지하기 위한 구성일 수 있다. 이에 따라, 동일 사용자로부터 동일한 크기 구간에 대응하여 라벨링 데이터가 획득되지 않으므로, 중복이 방지됨과 동시에, 획득되는 라벨링 데이터의 다양성을 담보할 수 있다는 장점을 가진다.
또한, 룰 기반 검증 서버(300)는 챕터 유사도 검사에 기초하여 라벨링 데이터에 대한 검증을 수행할 수 있다. 룰 기반 검증 서버(300)는 특정 사용자의 입력에 관련한 정답 정보가 획득하는 구간의 시작 및 종료 시점이 해당 사용자가 기존에 입력에 관련한 정답 정보의 획득 구간의 시작 및 종료 시점과 유사한지 여부를 식별할 수 있다. 구체적인 예를 들어, 제2사용자가 콘텐츠 시청 과정에서 10~15초 구간을 챕터 1로 설정하고 챕터 1에 대응하는 정답 정보를 입력하여 제1라벨링 데이터를 생성할 수 있다. 또한, 제2사용자는 콘텐츠의 9~16초 구간을 챕터 2로 설정하여 챕터 2에 대응하는 정답 정보를 입력하여 제2라벨링 데이터를 생성할 수 있다. 이 경우, 룰 기반 검증 서버(300)는 각 챕터의 시작 지점과 끝 지점이 1정도 매우 미미한 것을 식별하여(즉, 각 챕터의 시작 및 종료 시점이 유사한 것을 식별하여) 제2라벨링 데이터를 검증이 실패한 데이터로 간주할 수 있다. 이러한 구성을 통해, 시작 및 종료 시점을 조금씩만 변경하고, 동일한 정답 정보를 반복적으로 입력하는 등 부정적 방법을 통해 복수의 라벨링 데이터를 생성하여 리워드를 보상받는 악의적인 활용을 예방할 수 있다. 이에 따라, 획득되는 라벨링 데이터의 신뢰도가 향상되며, 나아가 해당 라벨링 데이터를 통해 학습되는 신경망 모델에 출력 정확도 향상을 담보할 수 있다.
전술한 바와 같이, 룰 기반 검증 서버(300)는 미리 정해진 규칙들을 통해 사용자의 입력에 관한 정답 정보에 대한 적정성을 판별하고, 이에 기초하여 라벨링 데이터에 대한 검증을 수행할 수 있다. 다시 말해, 룰 기반 검증 서버(300)는 정답 정보에 포함된 단어가 사전에 정의된 단어로 구성되는지, 정답 정보에 포함된 단어의 맞춤법은 적정한지, 정답 정보가 문법에 맞추어 구성되어 있는지, 정답 정보가 문장을 구성하는 최소 단어 개수 이상을 통해 구성되는지, 정답 정보가 제외 단어가 포함되어 있는지, 그리고 텍스트 유사도, 구간 유사도, 챕터 유사도 검사 결과가 적정한지 여부를 판별하는 1차 검증을 수행할 수 있다.
본 발명의 일 실시예에 따르면, 데이터 라벨링 서비스를 제공하기 위한 시스템은 1차 검증된 라벨링 데이터에 대한 2차 검증을 수행하는 교차 검증 서버(400)를 포함할 수 있다. 교차 검증 서버(400)는 1차 검증된 라벨링 데이터에 기초하여 검증 정보를 생성할 수 있다. 또한, 교차 검증 서버(400)는 추천 리스트에 포함된 하나 이상의 다른 사용자 단말로 검증 정보를 전송할 수 있다. 여기서, 하나 이상의 다른 사용자 단말은, 라벨링 데이터 생성에 관여하지 않은 타 사용자 단말을 의미하는 것일 수 있다. 추천 리스트는, 라벨링 데이터를 검증하는데 적정한 다른 사용자 단말들에 관한 리스트 정보일 수 있다. 실시예에서, 교차 검증 서버(400)는 사용자가 생성한 라벨링 데이터에 대한 검증을, 한 사용자가 아닌 복수의 사용자에게 요청함으로써, 사용자들 간의 답변 비교를 통해 검수를 진행할 수 있다.
검증 정보는, 사용자의 입력에 기반하여 생성된 라벨링 데이터가 적정한지 여부를 판별하기 위하여 다른 사용자 단말들에 전송되는 것일 수 있다. 검증 정보는, 제1사용자의 입력에 기초하여 생성된 제1라벨링 데이터가 적정한지 또는 적정하지 않은지에 관련한 사용자(즉, 다른 사용자)의 평가를 입력받기 위한 입력창을 포함할 수 있다. 예를 들어, 콘텐츠 객체 정보가 고양이에 관한 이미지이나, 제1사용자는 해당 이미지에 대한 정답으로 강아지를 입력할 수 있으며, 이에 기초하여 고양이 이미지에 '강아지'라는 정답 정보가 매칭된 제1라벨링 데이터가 생성될 수 있다. 교차 검증 서버(400)는 고양이 이미지에 '강아지'라는 정답 정보가 매칭된 제1라벨링 데이터를 포함하는 검증 정보를 생성할 수 있으며, 생성된 검증 정보를 추천 리스트에 포함된 다른 사용자 단말들에게 전송할 수 있다. 이 경우, 검증 정보는, 제1라벨링 데이터의 매칭이 적정한지 또는 적정하지 않은지(예컨대, yes or no)에 관련하여 사용자의 선택 입력을 수신할 수 있는 입력 수신 창을 포함할 수 있다. 일 실시예에서, 검증 정보는 단순히 '네', '아니오'에 관련한 수신 입력창 이외에, 별도의 내용에 입력을 요하는 입력창을 포함할 수도 있다. 예컨대, 검증 정보는, 라벨링 데이터가 적정하지 않은 이유에 관한 정보를 입력하는 별도의 입력창을 더 포함할 수도 있다. 실시예에서, 검증 정보는, 자연어의 경우에도 제1사용자가 입력한 챕터 나눔, 영상 요약, 영상 클립 요약 등이 적정한지 아닌지에 관련한 제2사용자(예컨대, 다른 사용자 단말)의 선택 입력을 요하는 수신 창을 포함할 수 있다.
제1라벨링 데이터의 경우, 이미지와 매칭하는 정답이 상이함에 따라 다른 사용자들로부터 no에 관련한 응답이 다수 수신될 수 있으며, 이에 따라 교차 검증 서버(400)는 해당 제1라벨링 데이터를 검증이 실패한 데이터로 판별할 수 있다. 즉, 교차 검증 서버(400)는 하나 이상의 다른 사용자 단말 각각으로부터 수신한 검증 응답에 기초하여 라벨링 데이터의 적정성을 판별할 수 있다. 예를 들어, 제2사용자 단말 내지 제10사용자 단말로부터 9개의 검증 응답을 수신할 수 있으며, 9개의 검증 응답 중, 제1라벨링 데이터가 적정하다(즉, yes)에 관련한 응답이 8개이고, 제1라벨링 데이터가 적정하지 않다는(즉, no)에 관련한 응답이 1개일 수 있다. 이 경우, 교차 검증 서버(400)는 제1라벨링 데이터가 적정하다는 다른 사용자들의 검증 결과가 다수인 것에 기초하여 제1라벨링 데이터를 검증된 데이터로 판별할 수 있다. 또한, 실시예에서, 교차 검증 서버(400)는 제1라벨링 데이터가 적정하지 않다는 다른 사용자들의 검증 결과가 기 설정된 비율(예컨대, 15%)을 초과하지 않는 다는 것을 식별하여 제1라벨링 데이터를 검증된 데이터로 판별할 수도 있다.
일 실시예에서, 교차 검증 서버(400)는 하나 이상의 다른 사용자 단말들 각각에 대응하는 신뢰도 정보에 기초하여 각 다른 사용자 단말에 대응하는 검증 응답 각각에 가중치를 부여하고, 가중치가 부여된 검증 응답에 기초하여 라벨링 데이터의 적정성을 검증할 수 있다. 구체적으로, 교차 검증 서버(400)는 추천 리스트에 포함된 하나 이상의 다른 사용자 단말 각각에 검증 정보를 전송할 수 있으며, 각 다른 사용자 단말로부터 검증 응답을 수신할 수 있다. 이 경우, 교차 검증 서버(400)는 각 다른 사용자 단말에 대응하는 사용자 정보를 통해 각 사용자의 신뢰도 정보를 식별할 수 있다. 신뢰도 정보는 사용자의 입력을 통해 라벨링 데이터가 생성된 경우, 해당 생성된 라벨링 데이터의 신뢰 정도를 산정하기 위한 정보로, 각 사용자가 생성한 라벨링 데이터가 검증을 통과하는지 여부에 따라 상승되거나 또는 떨어질 수 있다. 예컨대, 제1사용자가 생성한 제1라벨링 데이터가 룰 기반 검증 서버(300) 및 교차 검증 서버(400)를 통해 1차 검증 및 2차 검증을 통과한 경우, 제1사용자의 신뢰도 정보는 상승될 수 있다.
구체적인 예를 들어, 교차 검증 서버(400)는 제2사용자 단말 내지 제5사용자 단말로 제1라벨링 데이터의 검증을 위한 검증 정보를 전송할 수 있으며, 각 사용자 단말로부터 검증 정보에 대한 4개의 검증 응답을 수신할 수 있다. 이 경우, 제2사용자 단말 및 제3사용자 단말의 검증 응답은 제1라벨링 데이터가 적정하다(즉, yes)에 관련할 수 있으며, 제4사용자 단말 및 제5사용자 단말의 검증 응답은 제1라벨링 데이터가 적정하지 않다(즉, no)에 관련할 수 있다. 교차 검증 서버(400)는 검증 응답을 전송한 각 사용자 단말(즉, 제2 내지 제5사용자 단말)의 신뢰도 정보에 기초하여 각 검증 응답에 가중치를 부여하고, 가중치가 부여된 검증 응답에 기초하여 라벨링 데이터의 적정성을 판별할 수 있다. 예컨대, 제2사용자 단말 내지 제5사용자 단말 각각의 신뢰도 정보 각각이, 5, 7, 9, 10에 관련한 경우, 교차 검증 서버(400)는 제4사용자 단말 및 제5사용자 단말의 신뢰도 정보가 제2사용자 단말 및 제3사용자 단말의 신뢰도 보다 높은 것을 식별하여 제1라벨링 데이터가 적정하지 않다는(즉, no)에 관련한 검증 응답에 더 큰 가중치를 부여할 수 있으며, 이에 따라, 제1라벨링 데이터가 검증에 실패한 것으로 판별할 수 있다. 검증 정보에 대한 평가는, 2 대 2로 동률일 수 있으나, 각 평가에 관련한 각 사용자 단말의 신뢰도 정보에 따라 가중치가 부여될 수 있다. 즉, 교차 검증 서버(400)는 신뢰도 정보가 높은 사용자 단말들의 검증 응답을 더 높은 가중치를 통해 반영하여 2차 검증에 대한 평가를 수행할 수 있다.
일 실시예에 따르면, 교차 검증 서버(400)는 일정 이상의 신뢰도를 가진 사용자 단말들을 검증을 위한 다른 사용자 단말로 결정할 수 있다. 교차 검증 서버(400)는 하나 이상의 다른 사용자들의 신뢰도 정보를 통해 기 설정된 신뢰도 미만에 해당하는 다른 사용자 단말들은 추천 리스트에 포함되지 않도록 할 수 있다. 교차 검증 서버(400)는 우수한 신뢰도를 가진 다른 사용자들에게 교차 검증의 기회를 먼저 제공함에 따라, 검증의 질을 향상시키는 선순환 시스템을 형성할 수 있다.
추가적인 실시예에서, 콘텐츠의 종류 및 정답 정보에 기초하여 검증에 참여를 위한 최소 신뢰도가 결정될 수 있다. 교차 검증 서버(400)는 라벨링 데이터에 관련한 콘텐츠의 종류를 식별하고, 해당 콘텐츠의 종류와 사용자가 입력한 정답 정보에 기초하여 최소 신뢰도를 결정할 수 있다. 예를 들어, 콘텐츠의 종류 또는 정답 정보에 포함된 단어들이 전문적인 지식을 관련한 워딩을 포함하는 경우, 교차 검증 서버(400)는 최소 신뢰도를 높게 결정할 수 있다. 또한, 예를 들어, 콘텐츠의 종류 또는 정답 정보에 포함된 단어들이 비전문적인 단어들에 해당하는 경우, 교차 검증 서버(400)는 최소 신뢰도를 비교적 낮게 결정할 수 있다. 다시 말해, 교차 검증 서버(400)는 콘텐츠의 종류 및 정답 정보에 따라 검증에 참여할 수 있는 다른 사용자 단말들의 최소 신뢰도를 결정할 수 있다. 이는, 어려운 문제에 해당하는 라벨링 데이터를 보다 높은 신뢰도를 가진 다른 사용자 단말에게 평가되도록 함으로써, 검증의 효율을 향상시킨다는 장점이 있다.
일 실시예에 따르면, 교차 검증 서버(400)는 라벨링 데이터에 생성에 관련한 제1사용자 단말의 사용자 정보에 기초하여 추천 리스트를 생성하는 것을 특징으로 할 수 있다. 사용자 정보는, 사용자의 개인 정보 및 라벨링 데이터 생성에 관련한 신뢰도 정보를 포함할 수 있다. 사용자의 개인 정보는, 예컨대, 사용자의 나이, 성별, 선호 콘텐츠, 지역 등에 관한 정보를 포함할 수 있다. 신뢰도 정보는, 사용자의 입력을 통해 라벨링 데이터가 생성된 경우, 해당 생성된 라벨링 데이터의 신뢰 정도를 산정하기 위한 정보로, 예컨대, 신뢰 정보에 따른 수치화 정보일 수 있다. 교차 검증 서버(400)는 제1사용자 단말(11)의 사용자 정보에 기초하여 추천 리스트를 생성할 수 있다.
구체적으로, 교차 검증 서버(400)는 제1사용자 단말(11)의 사용자의 개인 정보에 기초하여 추천 리스트를 생성할 수 있다. 예를 들어, 교차 검증 서버(400)는 제1사용자 단말(11)의 사용자 개인 정보를 통해, 제1사용자의 나이가 10대의 여성이며, 서울에 거주하고, 미용 콘텐츠를 선호한다는 정보를 식별할 수 있다. 이 경우, 교차 검증 서버(400)는 식별된 정보와 유사한 사용자의 개인 정보를 가진 다른 사용자 단말들을 식별하여 추천 리스트를 생성할 수 있다. 일 실시예에 따르면, 유사한 성향에 관련한 사용자들일수록 유사한 콘텐츠에 접근하는 경우가 많으며, 특정 콘텐츠에 대한 이해도가 높기 때문에 제1사용자가 생성한 라벨링 데이터에 대하여 보다 적정한 검증을 수행할 수 있다. 즉, 교차 검증 서버(400)는 사용자의 개인 정보를 통해 나이, 취향, 거주지역 등이 유사한 다른 사용자들을 식별하여 제1사용자 단말(11)의 제1사용자가 생성한 라벨링 데이터에 대한 검증이 수행되도록 할 수 있다.
본 발명의 다른 실시예에 따르면, 교차 검증 서버(400)는 확장 플랫폼(100)으로부터 라벨링 데이터에 대응하는 콘텐츠 데이터에 동시에 접근한 다른 사용자 단말들에 관한 정보를 수신하고, 수신한 다른 사용자 단말들에 관한 정보에 기초하여 추천 리스트를 생성할 수 있다. 실시예에 따르면, 확장 플랫폼(100)은 복수의 온라인 콘텐츠 제공 서버로부터 제공되는 복수의 온라인 콘텐츠 각각에 복수의 사용자 단말이 동시에 접근하는지 여부에 관한 정보를 획득할 수 있다. 다시 말해, 확장 플랫폼(100)은 어떠한 사용자가 어떠한 온라인 콘텐츠 제공 서버로부터 콘텐츠를 제공받고 있는지, 또한, 몇 명의 사용자들이 특정 콘텐츠 제공 서버가 제공하는 콘텐츠를 동시에 시청하는지 등에 관련한 정보를 획득할 수 있다.
구체적인 예를 들어, 제1사용자는 제1온라인 콘텐츠 제공 서버로부터 제공된 제1콘텐츠를 시청하는 과정에서, 정답 정보를 입력을 통해 라벨링 데이터를 생성할 수 있다. 확장 플랫폼(100)은 제1사용자가 생성한 라벨링 데이터를 룰 기반 검증 서버(300)로 전송하여 1차 검증이 수행되도록 할 수 있다. 룰 기반 검증 서버(300)는 라벨링 데이터에 대한 1차 검증을 수행하고, 1차 검증을 통화한 경우, 1차 검증된 라벨링 데이터는 교차 검증 서버(400)에 전송할 수 있다. 교차 검증 서버(400)는 룰 기반 검증 서버(300)로부터 수신한 라벨링 데이터(즉, 1차 검증된 라벨링 데이터)에 대한 교차 검증을 수행할 복수의 다른 사용자 단말들에 관련한 추천 리스트를 생성할 수 있다. 교차 검증 서버(400)는 라벨링 데이터 생성에 관련한 제1콘텐츠를 동시에 시청하고 있는 다른 사용자 단말들에 관한 정보를 획득하고, 해당 다른 사용자 단말들을 통해 추천 리스트를 식별할 수 있다. 다시 말해, 제1사용자가 제1콘텐츠를 시청 과정에서 라벨링 데이터를 생성하는 경우, 해당 제1사용자와 동일한 콘텐츠(즉, 제1콘텐츠)를 시청하는 다른 사용자 단말들을 통해, 해당 제1사용자가 생성한 라벨링 데이터에 대한 교차 검증이 수행되도록, 교차 검증 서버(400)는 제1콘텐츠를 시청하는 다른 사용자 단말들을 통해 추천 리스트를 생성할 수 있다. 즉, 교차 검증 서버(400)는 동시 시청하는 다른 사용자들에게 교차 검증을 위한 검증 정보를 전송할 수 있다. 이는, 답변의 실시간성을 확보함과 동시에 검증 정보에 대한 빠른 응답을 수신할 수 있다는 장점을 가진다. 또한, 교차 검증을 수행하는 다른 사용자들은 해당 콘텐츠를 이미 시청하고 있는 것이므로, 해당 콘텐츠에 대한 관심 및 이해도가 매우 높기 때문에, 해당 다른 사용자들로부터 획득된 검증 정보에 대응하는 응답은 높은 신뢰도를 가질 수 있다.
또한, 실시예에서, 교차 검증 서버(400)는 라벨링 데이터 생성에 관련한 제1사용자 단말의 사용자 정보에 기초하여 추천 리스트를 생성하는 것을 특징으로 할 수 있다. 구체적으로, 교차 검증 서버(400)는 라벨링 데이터를 생성한 제1사용자의 사용자 정보에 포함된 신뢰도 점수를 식별하고, 해당 신뢰도 점수에 기초하여 제1사용자가 생성한 라벨링 데이터를 평가(또는 검증)할 하나 이상의 다른 사용자 단말의 수를 결정할 수 있다.
예를 들어, 신뢰도 점수가 낮은 사용자가 정답 정보를 입력함에 따라 라벨링 데이터가 생성된 경우, 교차 검증 서버(400)는 검증을 위한 다른 사용자를 10명으로 결정하여 추천 리스트를 구성할 수 있다. 반대로, 신뢰도가 높은 사용자가 정답 정보를 입력함에 따라 라벨링 데이터가 생성된 경우, 교차 검증 서버(400)는 검증을 위한 다른 사용자를 3명으로 결정하여 추천 리스트를 구성할 수 있다. 전술한 추천 리스트에 포함된 다른 사용자의 수에 대한 구체적인 수치적 기재는 예시일 뿐, 본 발명은 이에 제한되지 않는다.
즉, 교차 검증 서버(400)는 라벨링 데이터 획득에 기여한 사용자 단말의 신뢰도 정보에 따라, 라벨링 데이터를 평가(또는 검증)할 다른 사용자 단말의 수를 차등적으로 결정할 수 있다. 이에 따라, 신뢰도가 높은 사용자의 정답 정보는 적은 교차 검증 과정을 통해 빠르게 진행될 수 있으며, 신뢰도가 낮은 사용자의 정답 정보는 더 많은 교차 검증 과정을 통해 꼼꼼하게 검증될 수 있다.
본 발명의 일 실시예에 따르면, 데이터 라벨링 서비스를 제공하기 위한 시스템은 라벨링 데이터에 대한 검증 결과에 기초하여 사용자 단말에 리워드를 제공하는 보상 처리 서버(500)를 포함할 수 있다. 룰 기반 검증 서버(300) 및 교차 검증 서버(400) 각각을 통해 라벨링 데이터에 대한 1차 검증 및 2차 검증이 완료된 경우, 보상 처리 서버(500)는 라벨링 데이터 생성에 관여한 사용자 단말(예컨대, 제1사용자 단말) 및 교차 검증에 참여한 다른 사용자 단말들에 리워드를 제공할 수 있다. 여기서 리워드는, 라벨링 데이터 생성에 기여한 사용자 단말들에게 보상을 제공하는 것을 의미할 수 있으며, 신뢰도 정보의 상승 및 변화에 대한 리워드를 포함할 수 있다. 예컨대, 제1사용자의 입력에 기초하여 생성된 제1라벨링 데이터의 검증이 완료되는 경우, 보상 처리 서버(500)는 제1사용자의 제1사용자 단말에 리워드를 제공함과 동시에, 제1사용자 단말의 신뢰도 정보를 상승시킬 수 있다.
일 실시예에 따르면, 보상 처리 서버(500)는 사용자 단말의 신뢰도 정보에 따라 리워드를 차등 지급하는 것을 특징으로 할 수 있다. 예컨대, 보상 처리 서버(500)는 신뢰도 정보가 높은 사용자일수록 더 큰 리워드를 제공할 수 있다. 이 경우, 사용자는 높은 신뢰도 정보를 확보하여 더 큰 리워드를 획득하기 위해 콘텐츠 소비 과정에서 라벨링 데이터 생성에 지속적으로 참여할 수 있다. 즉, 신뢰도 정보 상승을 목표로 다수의 사용자들의 참여를 이끌어내어 다양한 분야에 관련한 라벨링 데이터를 확보하는 선순환 시스템을 형성할 수 있다.
도 3은 본 발명의 일 실시예와 관련된 데이터 라벨링 서비스를 제공하기 위한 방법을 예시적으로 나타낸 순서도를 도시한다. 도 3에 도시된 단계들은 필요에 의해 순서가 변경될 수 있으며, 적어도 하나 이상의 단계가 생략 또는 추가될 수 있다. 즉, 이하의 단계들은 본 발명의 일 실시예에 불과할 뿐, 본 발명의 권리 범위는 이에 제한되지 않는다.
본 발명의 일 실시예에 따르면, 라벨링 서비스를 제공하기 위한 방법은, 브라우저(110)를 통해 사용자 단말과 온라인 콘텐츠 제공 서버를 연결시키는 단계(S10)를 포함할 수 있다. 여기서 온라인 콘텐츠 제공 서버(20)는 소비자가 요청한 콘텐츠를 제공하는 플랫폼 서버를 의미하는 것으로, 예를 들어, 유튜브, 네이버TV 또는 아프리카 TV 등을 포함할 수 있으나, 이에 제한되는 것은 아니다. 브라우저(110)는 인터넷 상에서 웹을 연결시켜주는 소프트웨어로 HTML(Hypertext Markup Language), CSS(Cascading Style Sheets), JS(JavaScript) 등의 언어를 사용한 사용자 인터페이스에 기반한 응용 소프트웨어를 의미할 수 있다. 예컨대, 브라우저(110)는 크롬(chrome), 파이어폭스(firefox), 오페라(opera), 사파리(safari) 등을 포함할 수 있다. 실시예에 따르면, 사용자들은 브라우저(110)를 통해 온라인 콘텐츠 제공 서버(20)에 접속할 수 있으며, 온라인 콘텐츠 제공 서버(20)로부터 다양한 콘텐츠를 제공받아 소비할 수 있다.
본 발명의 일 실시예에 따르면, 라벨링 서비스를 제공하기 위한 방법은, 사용자 입력에 기초하여 라벨링 데이터를 생성하는 단계(S20)를 포함할 수 있다. 사용자 단말(10)이 온라인 콘텐츠를 소비하는 과정에서 브라우저(110) 상의 개입(예컨대, 시청 개입)을 통해 해당 온라인 콘텐츠에 관련한 라벨링 데이터를 획득할 수 있다. 확장 플랫폼(100)은 제1개입 방식 및 제2개입 방식 중 적어도 하나의 개입 방식을 통해 사용자 단말의 사용자로부터 특정 객체에 관련한 입력을 수신하고, 수신된 입력을 통해 라벨링 데이터를 획득할 수 있다. 구체적인 예를 들어, 사용자 단말(10)은 온라인 콘텐츠를 시청하는 과정에서, 일정 시점의 콘텐츠에 관련한 콘텐츠 객체 이미지에 대한 정답 정보를 입력할 수 있다. 예컨대, 사용자는 콘텐츠 객체 이미지가 어떠한 객체에 관련한 것인지 또는, 콘텐츠 객체 이미지에 분위기 또는 감정이 어떠한지 등에 관한 정답 정보를 입력할 수 있다. 이에 따라, 콘텐츠 객체 이미지와 그에 대응하는 사용자의 입력에 관련한 정답 정보를 포함하는 라벨링 데이터가 획득될 수 있다.
본 발명의 일 실시예에 따르면, 라벨링 서비스를 제공하기 위한 방법은, 룰 기반 검증 서버를 통해 라벨링 데이터에 대한 1차 검증을 수행하는 단계(S30)를 포함할 수 있다.
실시예에서, 룰 기반 검증 서버(300)는 라벨링 데이터의 정답 정보에 포함된 하나 이상의 단어들의 사전적 적정성, 맞춤법에 관한 적정성, 문법에 관한 적정성, 최소 단어 수에 관한 적정성 및 미리 정의된 단어 포함 여부에 관한 적정성에 관련한 규칙을 활용하여 라벨링 데이터에 대한 1차 검증을 수행할 수 있다.
구체적으로, 룰 기반 검증 서버(300)는 언어 모델을 활용한 자연어 처리를 통해 정답 정보에 대한 분석을 수행할 수 있으며, 분석 결과, 미리 정의된 규칙을 충족하는지 여부에 기초하여 라벨링 데이터에 대한 1차 검증을 수행할 수 있다.
또한, 실시예에서, 룰 기반 검증 서버(300)는 하나 이상의 유사도 검사에 기반하여 라벨링 데이터에 대한 검증을 수행할 수 있다. 하나 이상의 유사도 검사는, 텍스트 유사도 검사, 구간 유사도 검사 및 챕터 유사도 검사를 포함할 수 있다.
즉, 룰 기반 검증 서버(300)는 정답 정보에 포함된 단어가 사전에 정의된 단어로 구성되는지, 정답 정보에 포함된 단어의 맞춤법은 적정한지, 정답 정보가 문법에 맞추어 구성되어 있는지, 정답 정보가 문장을 구성하는 최소 단어 개수 이상을 통해 구성되는지, 정답 정보가 제외 단어가 포함되어 있는지, 그리고 텍스트 유사도, 구간 유사도, 챕터 유사도 검사 결과가 적정한지 여부를 판별하는 1차 검증을 수행할 수 있다.
본 발명의 일 실시예에 따르면, 라벨링 서비스를 제공하기 위한 방법은, 1차 검증된 라벨링 데이터에 대한 2차 검증을 수행하는 단계(S40)를 포함할 수 있다.
교차 검증 서버(400)는 1차 검증된 라벨링 데이터에 기초하여 검증 정보를 생성할 수 있다. 또한, 교차 검증 서버(400)는 추천 리스트에 포함된 하나 이상의 다른 사용자 단말로 검증 정보를 전송할 수 있다. 여기서, 하나 이상의 다른 사용자 단말은, 라벨링 데이터 생성에 관여하지 않은 타 사용자 단말을 의미하는 것일 수 있다. 추천 리스트는, 라벨링 데이터를 검증하는데 적정한 다른 사용자 단말들에 관한 리스트 정보일 수 있다. 실시예에서, 교차 검증 서버(400)는 사용자가 생성한 라벨링 데이터에 대한 검증을, 한 사용자가 아닌 복수의 사용자에게 요청함으로써, 사용자들 간의 답변 비교를 통해 검수를 진행할 수 있다. 실시예에 따르면, 교차 검증 서버(400)는 라벨링 데이터에 포함된 정답 정보, 신뢰도 정보, 컨텐츠 특성, 동시 시청자 등 여러 요소를 종합적으로 판단하여 추천 리스트를 생성하고, 추천 리스트에 포함된 다른 사용자 단말들에게 제2개입 방식을 통해 검증 응답을 획득할 수 있다.
본 발명의 일 실시예에 따르면, 라벨링 서비스를 제공하기 위한 방법은, 2차 검증 결과에 기초하여 사용자 단말에 리워드를 제공하는 단계(S50)를 포함할 수 있다. 보상 처리 서버(500)는 룰 기반 검증 서버(300) 및 교차 검증 서버(400) 각각을 통해 라벨링 데이터에 대한 1차 검증 및 2차 검증이 완료된 경우, 라벨링 데이터 생성에 관여한 사용자 단말(예컨대, 제1사용자 단말) 및 교차 검증에 참여한 다른 사용자 단말들에 리워드를 제공할 수 있다. 여기서 리워드는, 라벨링 데이터 생성에 기여한 사용자 단말들에게 보상을 제공하는 것을 의미할 수 있으며, 신뢰도 정보의 상승 및 변화에 대한 리워드를 포함할 수 있다. 예컨대, 제1사용자의 입력에 기초하여 생성된 제1라벨링 데이터의 검증이 완료되는 경우, 보상 처리 서버(500)는 제1사용자의 제1사용자 단말에 리워드를 제공함과 동시에, 제1사용자 단말의 신뢰도 정보를 상승시킬 수 있다.
따라서, 본 발명의 라벨링 데이터를 생성하기 위한 시스템은, 콘텐츠를 단순 소비에서 그치는 것이 아니라, 웹 콘텐츠 신청에 개입하여 데이터 라벨링에 관한 정답 정보를 획득하거나, 사용자가 직접 콘텐츠 내에서 데이터 워크에 참여하도록 하고, 라벨링된 데이터를 검수 및 정제하여 지도학습을 위한 라벨링 데이터를 생산하도록 할 수 있다. 이에 따라, 사용자들은 단순히 소비하는 형태의 컨텐츠 경험에서 벗어나 생산 가치를 가진 콘텐츠 활동을 수행할 수 있다.
도 4는 본 발명의 일 실시예와 관련된 라벨링 서비스를 제공하기 위한 시스템의 라벨링 데이터 획득, 검증 및 저장 과정을 예시적으로 나타낸 예시도이다.
도 4에 도시된 바와 같이, 콘텐츠 소비자에 관련한 사용자들은 확장 플랫폼(100)을 통해 온라인 콘텐츠 제공 서버(20)와 연결될 수 있으며, 제1개입 방식 및 제2개입 방식을 통해 라벨링 데이터 생성에 관련한 정답 정보를 입력할 수 있다.
여기서, 제1개입 방식은, 사용자가 콘텐츠를 시청하는 중에, 확장 플랫폼(100)이 특정 시점에 특정 객체에 대해 사용자에게 데이터 라벨링을 요청하는 시청 개입의 형태일 수 있다. 즉, 사용자는 수동적으로 답변을 입력하여 라벨링 데이터 생성에 기여할 수 있다.
보다 구체적으로, 확장 플랫폼(100)은 사용자 단말과 온라인 콘텐츠 제공 서버(20)를 연결시킬 수 있으며, 온라인 콘텐츠 제공 서버(20)로부터 콘텐츠 메타 데이터를 수신할 수 있다. 확장 플랫폼(100)은 콘텐츠 메타 데이터가 데이터베이스(200)에 저장되어 있는지 여부를 식별할 수 있다. 온라인 콘텐츠 제공 서버(20)로부터 수신한 콘텐츠 메타 데이터에 대응하는 정보가 데이터베이스(200)에 저장되어 있는 경우, 콘텐츠의 미리 정해진 시점에 대응하여 제1입력창이 사용자 단말에 제공될 수 있다. 예를 들어, 콘텐츠를 시청하는 과정에서 특정 시점에 콘텐츠 화면에 고양이가 노출될 수 있으며, 해당 시점에 대응하여 제1입력창이 사용자 단말에 표시될 수 있다. 제1입력창은, "지금 화면에 보이는 객체는 무엇인가요?"라는 설명 정보를 포함할 수 있으며, 이 경우, 사용자는 제1입력창에 '고양이'라는 정답 정보를 입력할 수 있다. 이에 따라, 해당 화면(즉, 콘텐츠 객체 정보)와 정답 정보가 매칭됨에 따라 라벨링 데이터가 생성될 수 있다.
보다 구체적인 예를 들어, 도 5에 도시된 바와 같이, 콘텐츠의 시청 도중, 해당 콘텐츠에 관련하여 미리 설정된 시점에 객체 식별 바운딩 박스(710) 및 제1입력창(720)이 제공될 수 있다. 제1입력창(720)은 콘텐츠 재생 화면의 일 영역에 출력될 수 있다. 제1입력창(720)은 현재 콘텐츠 재생 화면에 관한 정답 정보를 획득하기 위한 것으로, 식별된 객체의 종류를 입력하는 객체 종류 입력 창(721) 및 식별된 객체의 특징을 입력하는 객체 특징 입력 창(722)을 포함할 수 있다. 일 실시예에서, 사용자는, 객체 식별 바운딩 박스(710)에 포함된 객체가 '강아지'인 것을 식별하여 객체 종류 입력 창(721)에 '강아지(또는 dog)'를 입력할 수 있으며, 이에 따라, 객체 식별 바운딩 박스(710)에 대응하는 이미지(즉 콘텐츠 객체 정보)와 '강아지'에 관련한 정답 정보가 매칭되어 라벨링 데이터가 생성될 수 있다.
즉, 사용자가 시청중인 콘텐츠에 관련한 콘텐츠 메타 데이터가, 데이터베이스(200)에 미리 저장되어 있는 경우, 제1개입 방식을 통해 미리 정해진 시점에 객체 식별 바운딩 박스 및 제1입력창을 표시하고, 제1입력창에 대한 입력을 통해 라벨링 데이터가 획득될 수 있다.
또한, 제2개입 방식은, 콘텐츠를 시청하는 도중 사용자가 특정 시점에 대응하여 확장 플랫폼(100)의 브라우저 익스텐션(120)을 활용하여 라벨링 데이터를 생성하는 방식일 수 있다. 즉, 콘텐츠 시청 과정에서 사용자가 능동적으로 참여하여 콘텐츠에 관련한 라벨링 데이터를 생성할 수 있다.
구체적으로, 사용자는 콘텐츠를 시청하는 과정에서 임의의 시점에 대응하여 브라우저 익스텐션(120)을 활용하여 온라인 콘텐츠에 관련한 입력을 수신하기 위한 제2입력창이 생성되도록 야기시킬 수 있다. 실시예에서, 제2입력창은, 온라인 콘텐츠에서 사용자가 지정한 영역에 관련한 입력을 수신하기 위한 입력창일 수 있다. 또한, 실시예에서, 제2입력창은, 온라인 콘텐츠에 대한 사용자의 의견 내용에 관한 입력을 수신하거나, 온라인 콘텐츠의 재생 시점에 관련하여 축약된 내용에 관한 입력을 수신하거나 또는 온라인 콘텐츠의 챕터를 구분하기 위한 입력을 수신하기 위한 입력창일 수 있다. 다만 제2입력창을 통해 입력할 수 있는 정보는, 이에 제한되지 않으며, 온라인 콘텐츠에서 대화에 관련한 내용을 텍스트로 변환(예컨대, STT(Speech To Text))하는 입력, 온라인 콘텐츠에서 텍스트에 관련한 내용을 음성으로 변환(예컨대, TTS(Text To Speech))하는 입력, 자막 번역에 관련한 입력 등이 입력될 수도 있다. 즉, 제2입력창을 통해 온라인 콘텐츠에서 STT, TTS 및 자막 번역에 사용자 입력을 수신할 수도 있다.
일 실시예에 따르면, 제2입력 창은 사용자 단말의 사용자가 브라우저 익스텐션을 활용하여 온라인 콘텐츠가 제공되는 페이지의 일부 영역에 객체 바운딩 박스를 설정하는 경우, 객체 바운딩 박스에 관련하여 생성되는 바운딩 박스 입력창을 포함할 수 있다.
구체적으로, 온라인 콘텐츠가 제공되는 페이지의 일부 영역에 객체 바운딩 박스를 설정할 수 있다. 또한, 객체 바운딩 박스에 관련한 제2입력창을 생성할 수 있다.
구체적인 예를 들어, 도 6을 참조하면, 사용자는 특정 콘텐츠를 시청하는 도중, 임의의 시점에 표시되는 화면에 대응하여 객체 바운딩 박스(610)를 설정할 수 있다. 사용자는 임의의 시점에 표시되는 화면에서 특정 객체에 관련한 객체 바운딩 박스(610)를 설정하고, 해당 객체 바운딩 박스(610)에 관련한 제2입력창(620)을 생성할 수 있다. 예컨대, 제2입력창(620)은, 추천 입력 창(621), 제1감정 표현 입력창(622) 및 제2감정 표현 입력창(623)을 포함할 수 있다. 추천 입력 창(621)은 현재 시청하는 콘텐츠를 타 사용자에게 추천할지에 관련한 사용자의 입력을 허용할 수 있다. 또한, 제1감정 표현 입력창(622)은 다양한 감정에 관한 워딩을 객관식의 형태로 여러 단어를 표시할 수 있으며, 표시된 단어 중 적어도 하나에 관련한 사용자의 선택 입력을 수신할 수 있다. 사용자는 현재 콘텐츠 재생 화면에 표시된 객체의 감정 상태를 식별하고 이에 정적한 워딩을 선택하여 제1감정 표현 입력창(622)에 입력할 수 있다. 또한, 제2감정 표현 입력창(623)은, 현재 콘텐츠 재생 화면에 관련한 객체의 감정 상태를 사용자가 생각하는 문장의 형태로 입력받기 위한 창일 수 있다. 사용자는 제2감정 표현 입력창(623)을 통해 자신의 생각을 문장을 형태로 자유롭게 입력할 수 있다. 사용자는 제2입력창(620)에 포함된 다양한 입력창에 관련한 정답 정보를 입력하고, 제출 그래픽 객체(624)를 눌러 라벨링 데이터가 생성되도록 한다.
또한, 실시예에서, 제2입력창은, 온라인 콘텐츠에 관련한 의견 내용 입력창, 온라인 콘텐츠의 재생 시점에 관련한 내용 축약 입력창 및 온라인 콘텐츠의 챕터를 구분하기 위한 챕터 구분 입력창 중 적어도 하나의 입력창을 더 포함할 수 있다. 구체적인 예를 들어, 사용자는 의견 내용 입력창을 통해 온라인 콘텐츠에 대한 사용자의 의견 내용을 입력할 수 있다. 또한, 내용 축약 입력창을 통해 현재까지 재생된 콘텐츠 내용의 요약에 관련한 사용자 입력을 수신할 수 있다. 또한, 챕터 구분 입력창을 통해 콘텐츠의 챕터를 구분하기 위한 사용자의 입력을 수신할 수 있다.
일 예로, 콘텐츠 시청 도중 해당 콘텐츠에 관련한 상황, 지금까지의 상황이 어떻게 요약될 수 있을지, 또는, 콘텐츠의 챕터가 어떻게 나뉠 수 있는지에 대한 사용자의 입력이 제2입력창을 통해 입력될 수 있다. 제2입력창은 특정 장면에 대한 감정 선택, 구간 나누기, 요약에 관련한 사용자의 입력을 수신할 수 있으며, 이에 기초하여 라벨링 데이터가 생성될 수 있다.
즉, 사용자는 브라우저를 통해 콘텐츠를 시청하는 도중, 사용자가 능동적으로 참여하여, 사용자가 원하는 임의의 시점에 관련한 라벨링 데이터를 생성할 수 있다.
확장 플랫폼(100)은 획득한 라벨링 데이터를 룰 기반 검증 서버(300)로 전달할 수 있다. 룰 기반 검증 서버(300)는 미리 정해진 규칙을 통해 라벨링 데이터의 1차 검증을 수행하고, 1차 검증이 완료된 라벨링 데이터를 교차 검증 서버(400)로 전달할 수 있다. 교차 검증 서버(400)는 1차 검증이 완료된 라벨링 데이터에 대한 2차 검증을 수행할 수 있다. 교차 검증 서버(400)는 확장 플랫폼(100)으로부터 라벨링 데이터에 대응하는 콘텐츠를 동시에 시청한 다른 사용자 단말들의 정보를 획득하고, 해당 정보에 기초하여 추천 리스트를 생성할 수 있다. 일 실시예에서, 교차 검증 서버(400)는 데이터베이스(200)에 저장된 정보를 활용하여 미리 정해진 신뢰도 이상을 가진 사용자들만을 라벨링 데이터의 검증을 위한 사용자 단말들로 결정할 수 있다. 교차 검증 서버(400)는 추천 리스트에 해당하는 다른 사용자 단말들로 검증 정보를 전송할 수 있으며, 이에 대한 응답으로 각 사용자 단말로부터 검증 응답을 수신할 수 있다. 교차 검증 서버(400)는 다른 사용자 단말들의 검증 응답을 통해 라벨링 데이터의 2차 검증을 수행할 수 있다. 즉, 교차 검증 서버(400)는 사용자가 생성한 라벨링 데이터에 대한 검증을, 한 사용자가 아닌 복수의 사용자에게 요청함으로써, 사용자들 간의 답변 비교를 통해 검수를 진행할 수 있다.
교차 검증 서버(400)를 통해 라벨링 데이터에 대한 2차 검증이 완료된 경우, 보상 처리 서버(500)는 라벨링 데이터 생성에 관여한 사용자 단말(예컨대, 제1사용자 단말) 및 교차 검증에 참여한 다른 사용자 단말들에 리워드를 제공할 수 있다.
도 7은 본 발명의 일 실시예와 관련된 라벨링 데이터의 획득, 검증 및 검증이 완료됨에 따라 리워드를 제공하는 과정을 설명하기 위한 예시적인 순서도를 도시한다.
일 실시예에 따르면, 제1사용자 단말(11)은 제1개입 방식을 통해 제공된 제1입력창을 통해 정답을 입력할 수 있다(S101). 확장 플랫폼(100)은 사용자의 입력에 기초하여 라벨링 데이터를 생성할 수 있다(S103). 또한, 확장 플랫폼(100)은 룰 기반 검증 서버(300)에 획득된 라벨링 데이터에 대한 1차 검증을 요청할 수 있다(S105). 룰 기반 검증 서버(300)는 미리 정해진 규칙을 통해 라벨링 데이터에 대한 검증을 수행할 수 있다. 예컨대, 라벨링 데이터가 미리 정해진 규칙을 충족하지 않는 경우, 검증이 실패되었다고 판별할 수 있다. 즉, 룰 기반 검증 서버(300)는 미리 정해진 규칙을 충족하는 라벨링 데이터를 룰 기반 검증을 통과한 것으로 간주할 수 있다(S107). 룰 기반 검증 서버(300)는 교차 검증 서버(400)에 1차 검증된 라벨링 데이터에 대한 2차 검증을 요청할 수 있다(S109). 교차 검증 서버(400)는 검증 정보 및 추천 리스트를 생성할 수 있다(S111). 일 실시예에서, 추천 리스트는, 제1사용자 단말(11)과 동일한 콘텐츠를 소비하는 다른 사용자 단말들로 구성될 수 있다. 또한, 교차 검증 서버(400)는 추천 리스트에 포함된 제2사용자 단말(12)에게 검증 정보를 전송할 수 있다(S113).
제2사용자 단말(12)은 교차 검증 서버(400)로 검증 정보에 대응하는 검증 응답을 전송할 수 있다(S115). 교차 검증 서버(400)는 제2사용자 단말(12)로부터 수신한 검증 응답을 통해 라벨링 데이터에 적정성을 검증할 수 있다(S117). 예컨대, 제2사용자 단말(12)로부터 라벨링 데이터(즉, 1차 검증된 라벨링 데이터)가 적정하다는 검증 응답 정보를 수신하는 경우, 교차 검증 서버(400)는 라벨링 데이터에 대한 2차 검증이 통과한 것으로 판별할 수 있다(S119). 교차 검증 서버(400)는 보상 처리 서버(500)로 최종 라벨링 데이터를 데이터베이스(200)에 저장하고, 라벨링 데이터 최종 검증에 관한 정보를 보상 처리 서버(500)에 전송할 수 있다(S121). 보상 처리 서버(500)는 라벨링 데이터 생성에 관여한 사용자 단말(예컨대, 제1사용자 단말) 및 교차 검증에 참여한 다른 사용자 단말들(예컨대, 제2사용자 단말)에 리워드를 제공할 수 있다.
도 8은 본 발명의 일 실시예와 관련된 제1개입 방식 및 제2개입 방식 각각이 가능한 상황을 설명하기 위한 예시도이다.
본 발명의 일 실시예에 따르면, 브라우저(110)를 활용하여 사용자가 콘텐츠 사이트에 접속할 수 있다(S210). 다시 말해, 사용자는 브라우저(110)를 통해 온라인 콘텐츠 제공 서버(20)에 접속하여 콘텐츠를 제공받을 수 있다.
또한, 일 실시예에 따르면, 브라우저 익스텐션(120)을 활용하여 접속한 콘텐츠 메타 데이터를 획득할 수 있다(S220). 콘텐츠 메타 데이터는, 콘텐츠 각각을 식별하기 위한 정보일 수 있다. 일 실시예에 따르면, 확장 플랫폼(100)은 사용자 단말(10)이 시청하는(또는 소비하는) 콘텐츠에 관련한 콘텐츠 메타 데이터를 콘텐츠 제공 서버로부터 수신할 수 있으며, 수신한 콘텐츠 메타 데이터를 데이터베이스(200)에 전송할 수 있다. 콘텐츠 메타 데이터는 온라인 콘텐츠에 관련한 정보로, 콘텐츠 식별 정보 및 콘텐츠 생성 정보 중 적어도 하나를 포함할 수 있다. 콘텐츠 식별 정보는, 콘텐츠 각각을 식별 또는 구분하기 위한 정보로, 예를 들어, 콘텐츠의 채널 정보 또는 영상 ID에 관련한 정보를 포함할 수 있다. 콘텐츠 생성 정보는, 콘텐츠를 생성에 관련한 정보로, 콘텐츠를 생성한 크리에이터(또는 스트리머)의 채널 정보 및 크리에이터의 ID 정보를 포함할 수 있다.
또한, 일 실시예에 따르면, 확장 플랫폼(100)은 데이터베이스 내에 해당 콘텐츠 메타 데이터가 존재하는지 여부를 식별할 수 있다(S230).
실시예에서, 데이터베이스 내에 콘텐츠 메타 데이터가 존재하는 경우, 확장 플랫폼(100)은 제1개입 방식 및 제2개입 방식을 제공하여 라벨링 데이터가 획득되도록 할 수 있다(S240).
또한, 실시예에서, 데이터베이스 내에 콘텐츠 메타 데이터가 존재하지 않는 경우, 확장 플랫폼(100)은 제2개입 방식을 제공하여 라벨링 데이터가 획득되도록 할 수 있다(S250).
즉, 콘텐츠 메타 데이터가 데이터베이스(200)에 사전 저장되어 있지 않는 경우, 제1개입 방식을 활용한 라벨링 데이터의 획득은 불가능할 수 있다. 즉, 콘텐츠 메타 데이터의 식별에 기반하여 라벨링 데이터를 획득하는 과정에서 능동적 개입 및 수동적 개입이 결정될 수 있다. 또한 실시예에 따르면, 특정 콘텐츠의 시청 과정에서 제2개입 방식을 통해 라벨링 데이터가 생성된 경우, 해당 콘텐츠의 콘텐츠 메타 데이터는 데이터베이스(200)에 저장될 수 있으며, 추후, 제1개입 방식의 활성화를 위해 활용될 수 있다.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.
본 발명의 구성 요소들은 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 애플리케이션)으로 구현되어 매체에 저장될 수 있다. 본 발명의 구성 요소들은 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있으며, 이와 유사하게, 실시 예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다.
본 발명의 기술 분야에서 통상의 지식을 가진 자는 여기에 개시된 실시예들과 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 프로세서들, 수단들, 회로들 및 알고리즘 단계들이 전자 하드웨어, (편의를 위해, 여기에서 "소프트웨어"로 지칭되는) 다양한 형태들의 프로그램 또는 설계 코드 또는 이들 모두의 결합에 의해 구현될 수 있다는 것을 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호 호환성을 명확하게 설명하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들 및 단계들이 이들의 기능과 관련하여 위에서 일반적으로 설명되었다. 이러한 기능이 하드웨어 또는 소프트웨어로서 구현되는지 여부는 특정한 애플리케이션 및 전체 시스템에 대하여 부과되는 설계 제약들에 따라 좌우된다. 본 발명의 기술 분야에서 통상의 지식을 가진 자는 각각의 특정한 애플리케이션에 대하여 다양한 방식들로 설명된 기능을 구현할 수 있으나, 이러한 구현 결정들은 본 발명의 범위를 벗어나는 것으로 해석되어서는 안 될 것이다.
여기서 제시된 다양한 실시예들은 방법, 장치, 또는 표준 프로그래밍 및/또는 엔지니어링 기술을 사용한 제조 물품(article)으로 구현될 수 있다. 용어 "제조 물품"은 임의의 컴퓨터-판독가능 장치로부터 액세스 가능한 컴퓨터 프로그램, 캐리어, 또는 매체(media)를 포함한다. 예를 들어, 컴퓨터-판독가능 매체는 자기 저장 장치(예를 들면, 하드 디스크, 플로피 디스크, 자기 스트립, 등), 광학 디스크(예를 들면, CD, DVD, 등), 스마트 카드, 및 플래쉬 메모리 장치(예를 들면, EEPROM, 카드, 스틱, 키 드라이브, 등)를 포함하지만, 이들로 제한되는 것은 아니다. 또한, 여기서 제시되는 다양한 저장 매체는 정보를 저장하기 위한 하나 이상의 장치 및/또는 다른 기계-판독가능한 매체를 포함한다. 용어 "기계-판독가능 매체"는 명령(들) 및/또는 데이터를 저장, 보유, 및/또는 전달할 수 있는 무선 채널 및 다양한 다른 매체를 포함하지만, 이들로 제한되는 것은 아니다.
제시된 프로세스들에 있는 단계들의 특정한 순서 또는 계층 구조는 예시적인 접근들의 일례임을 이해하도록 한다. 설계 우선순위들에 기반하여, 본 발명의 범위 내에서 프로세스들에 있는 단계들의 특정한 순서 또는 계층 구조가 재배열될 수 있다는 것을 이해하도록 한다. 첨부된 방법 청구항들은 샘플 순서로 다양한 단계들의 엘리먼트들을 제공하지만 제시된 특정한 순서 또는 계층 구조에 한정되는 것을 의미하지는 않는다.
제시된 실시예들에 대한 설명은 임의의 본 발명의 기술 분야에서 통상의 지식을 가진 자가 본 발명을 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 발명의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 발명은 여기에 제시된 실시예들로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.

Claims (13)

  1. 복수의 온라인 콘텐츠 제공 서버와 복수의 사용자 단말을 연결시키며, 상기 사용자 단말의 입력에 기초하여 상기 사용자 단말로 제공되는 온라인 콘텐츠에 관련한 라벨링 데이터를 획득하는 확장 플랫폼;
    미리 정해진 규칙에 기초하여 상기 라벨링 데이터에 대한 1차 검증을 수행하는 룰 기반 검증 서버;
    상기 1차 검증된 라벨링 데이터에 대한 2차 검증을 수행하는 교차 검증 서버; 및
    상기 복수의 사용자 단말에 관련한 사용자 정보, 복수의 온라인 콘텐츠 각각에 관련한 콘텐츠 메타 데이터 및 복수의 라벨링 데이터를 저장하는 데이터베이스;
    를 포함하며,
    상기 확장 플랫폼은,
    상기 복수의 온라인 콘텐츠 제공 서버와 상기 복수의 사용자 단말을 연결시키는 브라우저; 및
    상기 온라인 콘텐츠가 제공되는 상기 브라우저의 페이지에 확장된 기능을 제공하는 브라우저 익스텐션;
    을 포함하며,
    상기 확장 플랫폼은,
    제1개입 방식 및 제2개입 방식 중 적어도 하나의 개입 방식을 통해 상기 라벨링 데이터를 획득하는 것을 특징으로 하는,
    데이터 라벨링 서비스를 제공하기 위한 시스템.
  2. 삭제
  3. 제1항에 있어서,
    상기 사용자 정보는,
    사용자의 개인 정보 및 라벨링 데이터 생성에 관련한 신뢰도 정보를 포함하며,
    상기 콘텐츠 메타 데이터는,
    상기 복수의 사용자 단말에 제공되는 온라인 콘텐츠에 관련한 정보로, 콘텐츠 식별 정보 및 콘텐츠 생성 정보 중 적어도 하나를 포함하며,
    상기 라벨링 데이터는,
    상기 온라인 콘텐츠에 포함된 콘텐츠 객체 정보 및 상기 콘텐츠 객체 정보에 관련하여 사용자가 입력한 정답 정보를 포함하는,
    데이터 라벨링 서비스를 제공하기 위한 시스템.
  4. 삭제
  5. 제1항에 있어서,
    상기 제1개입 방식은,
    상기 확장 플랫폼을 활용하여 사용자 단말이 온라인 콘텐츠를 제공받는 과정에서, 상기 온라인 콘텐츠의 콘텐츠 메타 데이터가 상기 데이터베이스에 기 저장되어 있는 경우, 상기 라벨링 데이터를 획득하기 위한 제1입력창이 상기 사용자 단말로 제공되는 개입 방식이며,
    상기 제2개입 방식은,
    상기 확장 플랫폼을 활용하여 사용자 단말이 온라인 콘텐츠를 제공받는 과정에서, 상기 사용자 단말의 사용자가 상기 브라우저 익스텐션을 활용하여 상기 온라인 콘텐츠에 관련한 입력을 수신하기 위한 제2입력창을 생성하는 개입 방식인,
    데이터 라벨링 서비스를 제공하기 위한 시스템.
  6. 제5항에 있어서,
    상기 제2입력창은,
    상기 사용자 단말의 사용자가 상기 브라우저 익스텐션을 활용하여 상기 온라인 콘텐츠가 제공되는 페이지의 일부 영역에 객체 바운딩 박스를 설정하는 경우, 상기 객체 바운딩 박스에 관련하여 생성되는 바운딩 박스 입력창을 포함하는,
    데이터 라벨링 서비스를 제공하기 위한 시스템.
  7. 제5항에 있어서,
    상기 제2입력창은,
    상기 온라인 콘텐츠에 관련한 의견 내용 입력창, 상기 온라인 콘텐츠의 재생 시점에 관련한 내용 축약 입력창 및 상기 온라인 콘텐츠의 챕터를 구분하기 위한 챕터 구분 입력창 중 적어도 하나의 입력창을 더 포함하는 것을 특징으로 하는,
    데이터 라벨링 서비스를 제공하기 위한 시스템.
  8. 삭제
  9. 복수의 온라인 콘텐츠 제공 서버와 복수의 사용자 단말을 연결시키며, 상기 사용자 단말의 입력에 기초하여 상기 사용자 단말로 제공되는 온라인 콘텐츠에 관련한 라벨링 데이터를 획득하는 확장 플랫폼;
    미리 정해진 규칙에 기초하여 상기 라벨링 데이터에 대한 1차 검증을 수행하는 룰 기반 검증 서버;
    상기 1차 검증된 라벨링 데이터에 대한 2차 검증을 수행하는 교차 검증 서버; 및
    상기 복수의 사용자 단말에 관련한 사용자 정보, 복수의 온라인 콘텐츠 각각에 관련한 콘텐츠 메타 데이터 및 복수의 라벨링 데이터를 저장하는 데이터베이스;
    를 포함하며,
    상기 교차 검증 서버는,
    제1사용자 단말의 사용자의 입력으로 통해 획득된 제1라벨링 데이터를 포함하는 검증 정보를 생성하여 추천 리스트에 포함된 하나 이상의 다른 사용자 단말로 전송하고, 상기 하나 이상의 다른 사용자 단말들로부터 상기 검증 정보에 대한 검증 응답을 수신하는 경우, 수신된 상기 검증 응답에 기초하여 상기 라벨링 데이터의 적정성을 검증하고,
    상기 하나 이상의 다른 사용자 단말들 각각에 대응하는 신뢰도 정보에 기초하여 각 다른 사용자 단말에 대응하는 검증 응답 각각에 가중치를 부여하고, 상기 가중치가 부여된 검증 응답에 기초하여 상기 라벨링 데이터의 적정성을 검증하는 것을 특징으로 하는,
    데이터 라벨링 서비스를 제공하기 위한 시스템.
  10. 복수의 온라인 콘텐츠 제공 서버와 복수의 사용자 단말을 연결시키며, 상기 사용자 단말의 입력에 기초하여 상기 사용자 단말로 제공되는 온라인 콘텐츠에 관련한 라벨링 데이터를 획득하는 확장 플랫폼;
    미리 정해진 규칙에 기초하여 상기 라벨링 데이터에 대한 1차 검증을 수행하는 룰 기반 검증 서버;
    상기 1차 검증된 라벨링 데이터에 대한 2차 검증을 수행하는 교차 검증 서버; 및
    상기 복수의 사용자 단말에 관련한 사용자 정보, 복수의 온라인 콘텐츠 각각에 관련한 콘텐츠 메타 데이터 및 복수의 라벨링 데이터를 저장하는 데이터베이스;
    를 포함하며,
    상기 교차 검증 서버는,
    제1사용자 단말의 사용자의 입력으로 통해 획득된 제1라벨링 데이터를 포함하는 검증 정보를 생성하여 추천 리스트에 포함된 하나 이상의 다른 사용자 단말로 전송하고, 상기 하나 이상의 다른 사용자 단말들로부터 상기 검증 정보에 대한 검증 응답을 수신하는 경우, 수신된 상기 검증 응답에 기초하여 상기 라벨링 데이터의 적정성을 검증하고,
    상기 확장 플랫폼은,
    상기 복수의 온라인 콘텐츠 제공 서버로부터 제공되는 복수의 온라인 콘텐츠 각각에 상기 복수의 사용자 단말이 동시에 접근하는지 여부에 관한 정보를 획득하는 것을 특징으로 하고,
    상기 교차 검증 서버는,
    상기 확장 플랫폼으로부터 상기 제1라벨링 데이터에 대응하는 제1콘텐츠 데이터에 동시에 접근한 다른 사용자 단말들에 관한 정보를 수신하고, 상기 수신한 다른 사용자 단말들에 관한 정보에 기초하여 상기 추천 리스트를 생성하는 것을 특징으로 하는,
    데이터 라벨링 서비스를 제공하기 위한 시스템.
  11. 제9항 또는 제10항에 있어서,
    상기 교차 검증 서버는,
    상기 제1사용자 단말의 사용자 정보에 기초하여 상기 추천 리스트를 생성하는 것을 특징으로 하는,
    데이터 라벨링 서비스를 제공하기 위한 시스템.
  12. 제1항, 제9항 또는 제10항에 있어서,
    상기 룰 기반 검증 서버는,
    상기 라벨링 데이터에 포함된 자연어 입력에 대한 사전적 적정성, 맞춤법에 관한 적정성, 문법에 관한 적정성, 최소 단어 수에 관한 적정성 및 제외 단어에 관한 적정성에 관련한 규칙을 활용하여 상기 라벨링 데이터에 대한 상기 1차 검증을 수행하는,
    데이터 라벨링 서비스를 제공하기 위한 시스템.
  13. 제1항, 제9항 또는 제10항에 있어서,
    상기 시스템은,
    상기 2차 검증 결과에 기초하여 상기 라벨링 데이터의 생성에 관련한 사용자 단말에 리워드를 제공하는 보상 처리 서버;
    를 더 포함하는,
    데이터 라벨링 서비스를 제공하기 위한 시스템.
KR1020220082189A 2022-07-05 2022-07-05 데이터 라벨링 서비스를 제공하기 위한 시스템 KR102489448B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220082189A KR102489448B1 (ko) 2022-07-05 2022-07-05 데이터 라벨링 서비스를 제공하기 위한 시스템
KR1020230004639A KR20240005567A (ko) 2022-07-05 2023-01-12 데이터 라벨링 서비스를 제공하기 위한 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220082189A KR102489448B1 (ko) 2022-07-05 2022-07-05 데이터 라벨링 서비스를 제공하기 위한 시스템

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020230004639A Division KR20240005567A (ko) 2022-07-05 2023-01-12 데이터 라벨링 서비스를 제공하기 위한 시스템

Publications (1)

Publication Number Publication Date
KR102489448B1 true KR102489448B1 (ko) 2023-01-18

Family

ID=85106602

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020220082189A KR102489448B1 (ko) 2022-07-05 2022-07-05 데이터 라벨링 서비스를 제공하기 위한 시스템
KR1020230004639A KR20240005567A (ko) 2022-07-05 2023-01-12 데이터 라벨링 서비스를 제공하기 위한 시스템

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020230004639A KR20240005567A (ko) 2022-07-05 2023-01-12 데이터 라벨링 서비스를 제공하기 위한 시스템

Country Status (1)

Country Link
KR (2) KR102489448B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160113741A (ko) * 2011-06-13 2016-09-30 페이스북, 인크. 소셜 네트워크 데이터에 기반한 검색 결과의 클라이언트-측 변경
KR20190124559A (ko) * 2018-04-26 2019-11-05 주식회사 슈퍼브에이아이 컴퓨팅 장치 및 이를 이용한 인공 지능 기반 영상 처리 서비스 시스템
KR20200068050A (ko) * 2018-11-26 2020-06-15 국민대학교산학협력단 인공지능 수행을 위한 학습 데이터 생성장치 및 방법
KR20210086849A (ko) * 2019-12-31 2021-07-09 주식회사 리걸인사이트 문서를 생성하기 위한 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160113741A (ko) * 2011-06-13 2016-09-30 페이스북, 인크. 소셜 네트워크 데이터에 기반한 검색 결과의 클라이언트-측 변경
KR20190124559A (ko) * 2018-04-26 2019-11-05 주식회사 슈퍼브에이아이 컴퓨팅 장치 및 이를 이용한 인공 지능 기반 영상 처리 서비스 시스템
KR20200068050A (ko) * 2018-11-26 2020-06-15 국민대학교산학협력단 인공지능 수행을 위한 학습 데이터 생성장치 및 방법
KR20210086849A (ko) * 2019-12-31 2021-07-09 주식회사 리걸인사이트 문서를 생성하기 위한 방법

Also Published As

Publication number Publication date
KR20240005567A (ko) 2024-01-12

Similar Documents

Publication Publication Date Title
US11537793B2 (en) System for providing intelligent part of speech processing of complex natural language
US11348476B2 (en) Personalized learning system and method for the automated generation of structured learning assets based on user data
CN107832433B (zh) 基于对话交互的信息推荐方法、装置、服务器和存储介质
US11645314B2 (en) Interactive information retrieval using knowledge graphs
JP6793975B2 (ja) 動画基盤求人求職マッチングサーバーおよび方法ならびにその方法を遂行するためのプログラムが記録されたコンピュータ読み取り可能記録媒体
RU2607416C2 (ru) Крауд-сорсные системы обучения лексике
US20220237222A1 (en) Information determining method and apparatus, computer device, and storage medium
US20140074648A1 (en) Portion recommendation for electronic books
US11928985B2 (en) Content pre-personalization using biometric data
CN116702737B (zh) 文案生成方法、装置、设备、存储介质及产品
JP2019514120A (ja) ユーザ中心の文書要約のための技術
CN111897934A (zh) 问答对生成方法及装置
CN113343108B (zh) 推荐信息处理方法、装置、设备及存储介质
US10762438B1 (en) Extracting questions and answers
CN115803734A (zh) 使用动作解释的自然语言丰富
Abou-Zahra et al. Standards, guidelines, and trends
US20210192136A1 (en) Machine learning models with improved semantic awareness
Bhavya et al. Exploring collaborative caption editing to augment video-based learning
US11733823B2 (en) Synthetic media detection and management of trust notifications thereof
Robbemond et al. Understanding the Role of Explanation Modality in AI-assisted Decision-making
EP3374879A1 (en) Provide interactive content generation for document
US11062387B2 (en) Systems and methods for an intelligent interrogative learning platform
KR102489448B1 (ko) 데이터 라벨링 서비스를 제공하기 위한 시스템
US11113081B2 (en) Generating a video for an interactive session on a user interface
US20200261018A1 (en) Secure Platform for Point-to-Point Brain Sensing

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant