KR102143780B1 - 딥러닝 모델을 이용하여 텍스트 개체에 대한 레이블링을 검수하는 방법 및 그를 이용한 장치 - Google Patents

딥러닝 모델을 이용하여 텍스트 개체에 대한 레이블링을 검수하는 방법 및 그를 이용한 장치 Download PDF

Info

Publication number
KR102143780B1
KR102143780B1 KR1020190173406A KR20190173406A KR102143780B1 KR 102143780 B1 KR102143780 B1 KR 102143780B1 KR 1020190173406 A KR1020190173406 A KR 1020190173406A KR 20190173406 A KR20190173406 A KR 20190173406A KR 102143780 B1 KR102143780 B1 KR 102143780B1
Authority
KR
South Korea
Prior art keywords
text
value
work
learning model
labeling
Prior art date
Application number
KR1020190173406A
Other languages
English (en)
Inventor
김세엽
Original Assignee
셀렉트스타 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 셀렉트스타 주식회사 filed Critical 셀렉트스타 주식회사
Priority to KR1020190173406A priority Critical patent/KR102143780B1/ko
Application granted granted Critical
Publication of KR102143780B1 publication Critical patent/KR102143780B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06316Sequencing of tasks or work
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따르면, 레이블링 작업을 검수하는 방법에 있어서, 텍스트에 포함된 entity에 대한 레이블링 작업을 검수하는 딥러닝 모델이 존재하고, 상기 딥러닝 모델을 컴퓨팅 장치가 이용한다고 할 때, 상기 컴퓨팅 장치가, 학습용 텍스트를 기초로 상기 딥러닝 모델에 대해 제1 트레이닝을 수행하는 단계; 상기 컴퓨팅 장치가, 작업용 텍스트 및 이에 대한 entity 레이블링 값을 획득하는 단계; 상기 컴퓨팅 장치가, 상기 작업용 텍스트 및 상기 entity 레이블링 값을 상기 딥러닝 모델에 통과시키면서 연산을 수행하여 검수용 점수를 산출하는 단계; 및 상기 컴퓨팅 장치가, 상기 검수용 점수를 기초로 상기 작업용 텍스트에 대한 상기 entity 레이블링 값이 정확한지를 판단하고, pass 처리, fail 처리, 재검수 처리 중 어느 하나를 수행하는 단계를 포함하는 방법을 제시한다.

Description

딥러닝 모델을 이용하여 텍스트 개체에 대한 레이블링을 검수하는 방법 및 그를 이용한 장치{METHOD FOR INSPECTING A LABELING FOR A TEXT ENTITY USING DEEP LEARNING MODEL AND APPARATUS USING THE SAME}
본 발명은 딥러닝 모델을 이용하여 텍스트 개체에 대한 레이블링을 검수하는 방법에 있어서, 텍스트에 포함된 entity에 대한 레이블링 작업을 검수하는 딥러닝 모델이 존재하고, 상기 딥러닝 모델을 컴퓨팅 장치가 이용한다고 할 때, 상기 컴퓨팅 장치가, 학습용 텍스트를 기초로 상기 딥러닝 모델에 대해 제1 트레이닝을 수행하는 단계; 상기 컴퓨팅 장치가, 작업용 텍스트 및 이에 대한 entity 레이블링 값을 획득하는 단계; 상기 컴퓨팅 장치가, 상기 작업용 텍스트 및 상기 entity 레이블링 값을 상기 딥러닝 모델에 통과시키면서 연산을 수행하여 검수용 점수를 산출하는 단계; 및 상기 컴퓨팅 장치가, 상기 검수용 점수를 기초로 상기 작업용 텍스트에 대한 상기 entity 레이블링 값이 정확한지를 판단하고, pass 처리, fail 처리, 재검수 처리 중 어느 하나를 수행하는 단계를 포함하는 방법에 관한 것이다.
인공지능이 발달함에 따라 영상, 이미지, 텍스트 문장, 음성 등에 포함된 객체를 보다 정확하게 인지하는 인식 기술이 발달하게 되었다. 이때, 인식 기술은 딥러닝 모델에서 다양한 데이터를 수집하고 이를 기초로 반복적인 학습 과정이 필요하다. 상기 학습 과정에 있어서는 비교 대상이 되는 정답 데이터가 필요하며, 정답 데이터는 대개 작업자의 레이블링 작업들로부터 수집할 수 있다.
이때, 딥러닝 모델은 데이터를 통해 학습하기 때문에 레이블링의 정확도는 매우 중요하다. 따라서, 레이블링에 대한 검수는 필수적이고 일반적으로는 작업자가 직접 수작업으로 검수를 수행하였다. 그러나, 이 경우 많은 시간 및 노력이 필요하여 비효율적인 측면이 있었다.
이에 본 발명자는 딥러닝 모델을 이용하여 텍스트 개체에 대한 레이블링을 검수하는 방법 및 그를 이용한 장치를 제안하고자 한다.
본 발명은 상술한 문제점을 모두 해결하는 것을 목적으로 한다.
본 발명은 레이블링 작업이 완료된 데이터들에 대해 자동 또는 반자동적으로 검수를 수행하여 효율을 높이는 것을 다른 목적으로 한다.
또한, 본 발명은 데이터들을 검수 결과에 따라 분류하고, 이를 이용하여 딥러닝 모델을 재학습하여 딥러닝 모델의 정확도를 향상시키는 것을 또 다른 목적으로 한다.
상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.
본 발명의 일 태양에 따르면, 레이블링 작업을 검수하는 방법에 있어서, 텍스트에 포함된 entity에 대한 레이블링 작업을 검수하는 딥러닝 모델이 존재하고, 상기 딥러닝 모델을 컴퓨팅 장치가 이용한다고 할 때, 상기 컴퓨팅 장치가, 학습용 텍스트를 기초로 상기 딥러닝 모델에 대해 제1 트레이닝을 수행하는 단계; 상기 컴퓨팅 장치가, 작업용 텍스트 및 이에 대한 entity 레이블링 값을 획득하는 단계; 상기 컴퓨팅 장치가, 상기 작업용 텍스트 및 상기 entity 레이블링 값을 상기 딥러닝 모델에 통과시키면서 연산을 수행하여 검수용 점수를 산출하는 단계; 및 상기 컴퓨팅 장치가, 상기 검수용 점수를 기초로 상기 작업용 텍스트에 대한 상기 entity 레이블링 값이 정확한지를 판단하고, pass 처리, fail 처리, 재검수 처리 중 어느 하나를 수행하는 단계를 포함하는 방법이 제공된다.
또한, 본 발명의 다른 태양에 따르면, 레이블링 작업을 검수하는 장치에 있어서, 텍스트에 포함된 entity에 대한 레이블링 작업을 검수하는 딥러닝 모델이 존재하고, 상기 딥러닝 모델을 컴퓨팅 장치가 이용한다고 할 때, 작업용 단말과 정보를 송수신하는 통신부; 및 학습용 텍스트를 기초로 상기 딥러닝 모델에 대해 제1 트레이닝을 수행하고, 작업용 텍스트 및 이에 대한 entity 레이블링 값을 획득하며, 상기 작업용 텍스트 및 상기 entity 레이블링 값을 상기 딥러닝 모델에 통과시키면서 연산을 수행하여 검수용 점수를 산출하고, 상기 검수용 점수를 기초로 상기 작업용 텍스트에 대한 상기 entity 레이블링 값이 정확한지를 판단하고, pass 처리, fail 처리, 재검수 처리 중 어느 하나를 수행하는 프로세서를 포함하는 컴퓨팅 장치가 제공된다.
본 발명에 의하면, 다음과 같은 효과가 있다.
본 발명은 레이블링 작업이 완료된 데이터들에 대해 자동 또는 반자동적으로 검수를 수행하여 효율을 높이는 효과가 있다.
또한, 본 발명은 데이터들을 검수 결과에 따라 분류하고, 이를 이용하여 딥러닝 모델을 재학습하여 딥러닝 모델의 정확도를 향상시키는 효과가 있다.
도 1은 본 발명의 일 실시예에 따라 레이블링된 데이터를 검수하는 과정의 컨셉을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따라 컴퓨팅 장치의 개략적인 구성을 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따라 레이블링된 데이터를 검수하는 과정을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따라 검수용 점수와 관련 임계값의 크기를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따라 산출된 검수용 점수를 기초로 처리 과정을 나타낸 도면이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따라 레이블링된 데이터를 검수하는 과정의 컨셉을 나타내는 도면이다.
본 발명에서는 텍스트 문장 내 포함된 개체(entity)에 대한 레이블링 작업 이후 이를 검수하는 장치(딥러닝 모델 포함)에 대해서 서술하고 있다.
도 1에서 볼 수 있듯이, 텍스트 문장 내 포함된 entity에 대해 작업자들이 레이블링 작업을 수행하고, 상기 레이블링 작업이 수행된 결과를 딥러닝 모델에 통과시키면서 검수용 점수(score)를 획득할 수 있다.
참고로, 상기 entity에 대한 레이블링 작업은 텍스트 문장 내 포함된 개체(문장 속 낱개 단어)에 대한 카테고리화하고 이에 대한 값을 산출하는 과정을 포함할 수 있다.
예를 들어, 텍스트(ex 활빈당은 2018년에 홍길동을 대표로 설립되었다) 내 entity('활빈당' '은' '2018년' '설립되었다' 등)가 존재한다면, 해당 entity에 대해 카테고리화할 수 있다. 즉, 활빈당은 조직, 2018년은 시간, 홍길동은 사람 등으로 구분할 수 있는 것이다. 또한, '활빈당' '홍길동'은 명사, '설립되었다'는 동사로 구분할 수도 있다. 상기 카테고리를 구분하는 방법은 설정에 따라 달라질 수 있을 것이다. 위 작업들이 텍스트 문장 내 포함된 entity에 대한 레이블링 작업에 해당할 수 있을 것이다.
도 2는 본 발명의 일 실시예에 따라 컴퓨팅 장치의 개략적인 구성을 나타낸 도면이다.
딥러닝 모델 등을 컨트롤하는 본 발명의 컴퓨팅 장치(100)는 통신부(110), 프로세서(120)를 포함하고, 경우에 따라 도 2와는 달리 데이터베이스(130)를 포함하지 않을 수도 있다.
우선, 컴퓨팅 장치(100)의 통신부(110)는 다양한 통신 기술로 구현될 수 있다. 즉, 와이파이(WIFI), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), HSPA(High Speed Packet Access), 모바일 와이맥스(Mobile WiMAX), 와이브로(WiBro), LTE(Long Term Evolution), 5G, 블루투스(bluetooth), 적외선 통신(IrDA, infrared data association), NFC(Near Field Communication), 지그비(Zigbee), 무선랜 기술 등이 적용될 수 있다. 또한, 인터넷과 연결되어 서비스를 제공하는 경우 인터넷에서 정보전송을 위한 표준 프로토콜인 TCP/IP를 따를 수 있다.
다음으로, 본원 발명의 데이터베이스(130)는 획득한 데이터(ex 작업자에 의해 레이블링된 데이터 등)를 저장할 수 있다. 참고로, 외부 데이터베이스를 이용하는 경우, 컴퓨팅 장치(100)는 통신부(110)를 통해 상기 외부 데이터베이스에 접근할 수 있을 것이다.
또한, 컴퓨팅 장치(100)는 통신부(110)를 통해 작업자의 단말(200)과 통신을 수행할 수 있다. 여기서, 데스크탑 컴퓨터, 노트북 컴퓨터, 워크스테이션, PDA, 웹 패드, 이동 전화기, 스마트 리모컨, 각종 IOT 메인기기 등과 같이 통신을 수행하면서 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 작업자의 단말(200)에 해당할 수 있다.
한편, 상기 프로세서(120)는 딥러닝 모델에서의 연산 등을 수행하며, 이에 대해서는 뒤에서 상세한 설명을 통하여 자세히 알아보기로 한다.
참고로, 본 발명의 딥러닝 모델은 콘볼루션 레이어(convolution layer) 및 FC layer(fully connected layer)를 포함할 수 있다. 여기서, 콘볼루션 레이어에서 연산된 결과 값을 이용하여 상기 FC layer에서 연산을 수행할 수 있을 것이다.
도 3은 본 발명의 일 실시예에 따라 레이블링된 데이터를 검수하는 과정을 나타낸 도면이다.
우선, 딥러닝 모델에서 검수 과정이 수행되기 위해서는 딥러닝 모델에 대한 제1 트레이닝이 선행(S310)되어야 한다. 즉, 검수 능력을 갖추기 위해 상기 딥러닝 모델을 학습시켜야 하며, 구체적으로는 딥러닝 모델에 존재하는 적어도 하나의 파라미터에 대한 조절이 필요할 것이다.
우선, 컴퓨팅 장치(100)의 프로세서(120)가 학습용 텍스트 및 정답용 entity 레이블링 값을 딥러닝 모델에 통과시키면서 연산을 수행하고, 연산 수행결과가 1이 되도록 상기 적어도 하나의 파라미터를 조절할 수 있다.
상기 정답용 entity 레이블링 값은 상기 학습용 텍스트 내 포함된 entity를 정확히 표현하는 값에 해당할 것이다. 참고로, 상기 정답용 entity 레이블링 값은 신뢰할 수 있는 작업자 등으로부터 획득할 수 있을 것이다.
또한, 상기 정답용 entity 레이블링 값은 정확도가 100%임을 가정하고 있으므로, 프로세서(120)는 딥러닝 모델에서의 연산 수행 결과는 확률값으로서 1을 가지도록 파라미터를 조절할 수 있다.
또한, 컴퓨팅 장치(100)의 프로세서(120)는 학습용 텍스트 및 비정답용 entity 레이블링 값을 딥러닝 모델에 통과시키면서 연산을 수행하고, 연산 수행 결과가 0이 되도록 상기 적어도 하나의 파라미터를 조절할 수 있다.
상기 비정답용 entity 레이블링 값은 학습용 텍스트 내 포함된 entity를 표현하고 있지 못하므로, 프로세서(120)는 딥러닝 모델에서의 연산 수행 결과가 확률값 0을 가지도록 파라미터를 조절할 수 있다.
위와 같은 학습 과정(제1 트레이닝)을 수행한 상태에서, 프로세서(120)는 작업용 텍스트 및 이에 대한 entity 레이블링 값을 획득(S320)할 수 있다.
여기서, 상기 entity 레이블링 값은 작업용 텍스트 내 포함된 entity에 대해 레이블링 작업을 수행하고, 이를 통해 획득하는 결과로서 주로 작업자 등에 의해 수행될 수 있다. 결국, 본 발명에서의 딥러닝 모델은 작업자 등이 레이블링 작업한 결과물을 검수하는 프로세스를 수행하고 있다.
위와 같이, 프로세서(120)는 작업용 텍스트 및 이에 대한 entity 레이블링 값을 획득하고, 이를 input값으로 하여 상기 제1 트레이닝이 수행된 딥러닝 모델에 통과시키면서 연산을 수행하여 output값으로서 검수용 점수를 산출(S330)할 수 있다.
여기서, 검수용 점수는 확률 값(a)에 해당하고, 상기 확률값(a)은 0보다 크거나 같고, 1보다 작거나 같을 수 있다(즉, 0<=a<=1).
참고로, 상기 검수용 점수(확률값)가 1에 가까울수록 레이블링이 정확한 것이고, 0에 가까울수록 레이블링은 정확하지 않은 것으로 판단될 수 있다.
프로세서(120)는 상기 검수용 점수를 기초로 하여 작업용 텍스트에 대한 entity 레이블링 값이 정확한지를 판단하고, pass 처리, fail 처리, 재검수 처리 중 어느 하나를 수행(S340)할 수 있다.
상기 pass 처리, fail 처리, 재검수 처리 중 어느 하나를 수행하는 프로세스에 대해서는 아래 도 4 및 도 5와 함께 살펴보도록 하겠다.
도 4는 본 발명의 일 실시예에 따라 검수용 점수와 관련 임계값의 크기를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따라 산출된 검수용 점수를 기초로 처리 과정을 나타낸 도면이다.
우선, 본 발명에서는 entity 레이블링 값이 정확한지를 판단하기 위해 검수용 점수와 관련하여 제1 임계값, 제2 임계값을 고려할 수 있다. 이때, 상기 제1 임계값은 제2 임계값보다 크다고 상정할 수 있다.
프로세서(120)는 산출된 검수용 점수가 제1 임계값(도 5에서는 pass threshold)보다 크거나 같다면 상기 작업용 텍스트에 대한 entity 레이블링 값에 대해 pass 처리를 수행할 수 있다.
또한, 프로세서(120)는 산출된 검수용 점수가 제2 임계값(도 5에서는 fail threshold)보다 작다면 상기 작업용 텍스트에 대한 entity 레이블링 값에 대해 fail 처리를 수행할 수 있다.
즉, 딥러닝 모델에서 산출된 검수용 점수가 pass threshold보다 높거나 같다면, 프로세서(120)는 해당 레이블링 작업은 정확한 것으로 보고 자동적으로 pass 처리를 수행하게 되는 것이다.
반대로, 검수용 점수가 fail threshold보다 낮다면, 프로세서(120)는 해당 레이블링 작업이 잘못된 것으로 보고 자동적으로 fail 처리를 수행하게 되는 것이다.
예를 들어, pass threshold가 0.8이고, fail threshold가 0.2인 상태에서, 검수용 점수가 0.9인 경우에는 pass 처리, 검수용 점수가 0.05인 경우에는 fail 처리가 될 것이다.
다만, 프로세서(120)는 검수용 점수가 제1 임계값보다 작고 제2 임계값보다 크거나 같다면, 상기 작업용 텍스트에 대한 entity 레이블링 값에 대해 재검수 처리를 수행할 수 있다.
구체적으로, 프로세서(120)는 재검수 처리된 작업용 텍스트 및 entity 레이블링 값을 작업자 단말(200)에 전송하여, 상기 작업자 단말(200)에서 재검수가 수행되도록 지원할 수 있다.
이때, 상기 작업자 단말(200)에서 처리되는 재검수 과정은 정확한 것으로 간주할 수 있으며, 상기 작업자 단말(200) 내 별도의 프로그램 또는 신뢰할 수 있는 작업자에 의해 상기 재검수 과정이 처리될 수 있을 것이다.
또한, 프로세서(120)는 상기 재검수 결과를 기초로 딥러닝 모델에 대해 제2 트레이닝(재학습)을 수행할 수 있다.
구체적으로, 상기 작업자 단말(200)에서 처리된 재검수 결과가 pass인 경우, 프로세서(120)는 해당 작업용 텍스트 및 entity 레이블링 값을 input으로 하였을 때 output이 1이 되도록 딥러닝 모델의 파라미터를 조절할 수 있다.
또한, 재검수 결과가 fail인 경우, 프로세서(120)는 해당 작업용 텍스트 및 entity 레이블링 값을 input으로 하였을 때 output이 0이 되도록 딥러닝 모델의 파라미터를 조절할 수 있다.
다른 실시 예로서, 프로세서(120)는 상기 재검수 결과를 기초로 제1 임계값 및 제2 임계값을 조절할 수도 있다.
예를 들어, pass threshold가 0.9인 상태에서, 검수용 점수가 0.8이라 재검수 처리되었고 작업자 단말(200)에서 재검수 결과 pass 처리가 된 상황을 가정할 수 있다.
이때, 프로세서(120)는 처음 pass threshold는 0.9이지만, 0.8인 경우에도 pass 처리가 되는 것으로 판단하고, pass threshold를 0.8로 조절할 수 있을 것이다.
또한, fail threshold가 0.2인 상태에서, 검수용 점수가 0.3이라 재검수 처리되었고 작업자 단말(200)에서 재검수 결과 fail 처리가 된 상황을 가정할 수도 있다.
이경우, 프로세서(120)는 처음 fail threshold는 0.2이지만, 0.3인 경우에도 fail 처리가 되는 것으로 판단하고, fail threshold를 0.3으로 조절할 수 있을 것이다.
또 하나의 실시 예로서, 프로세서(120)는 일정 개수(ex 5개) 이상의 작업용 텍스트 및 entity 레이블링 값의 딥러닝 모델의 연산 결과가 0.8이고 재검수 결과 pass 처리가 되었을 때, pass threshold를 0.8로 조절할 수도 있다.
설명을 돕고자 예를 들면, 5개의 작업용 텍스트 문장 및 이에 대한 entity 레이블링 값을 딥러닝 모델에 통과시켰고, 연산 결과 5개 모두 0.8이 나왔다고 가정할 수 있다. 또한, 초기 pass threshold(0.9)에 의한 경우 재검수 처리되고, 재검수 결과가 5개 모두 pass 처리가 되었다고 가정할 수 있다.
위와 같이, 일정 개수(ex 5개) 이상의 데이터에 대해 재검수 프로세스를 수행한 결과 pass 처리가 되었다면, pass threshold를 조절할 수 있을 것이다. 마찬가지로, 일정 개수(ex 5개) 이상의 데이터에 대해 재검수 프로세스를 수행한 결과 fail 처리가 되었다면, fail threshold를 조절할 수도 있을 것이다.
위와 달리, 3개의 데이터에 대해 재검수 프로세스를 수행한 결과 pass/fail 처리가 되었다면, pass/fail threshold를 조절하지 않았을 것이다.
한편, 복수의 작업자가 존재하고 작업수행치에 기초하여 복수의 작업자의 등급이 구분된다고 상정할 수 있다. 여기서, 작업수행치는 데이터베이스에 저장된 레이블링 작업을 수행한 횟수, 경력 등을 기초로 설정될 수 있다.
또한, 도 4에서 확인할 수 있듯이, 제1 임계값보다 작고 상기 제2 임계값보다 큰 제p 임계값, 제q 임계값이 적어도 존재하고, 상기 제p 임계값은 상기 제q 임계값보다 크다고 상정할 수 있다.
이때, 프로세서(120)는 검수용 점수가 제1 임계값보다 작고 제p 임계값보다 크거나 같은 경우 또는 제q 임계값보다 작고 제2 임계값보다 크거나 같은 경우에는 낮은 등급의 작업자의 단말(200)에서 재검수가 수행되도록 지원할 수 있다.
또한, 프로세서(120)는 검수용 점수가 제p 임계값보다 작고 제q 임계값보다 크거나 같은 경우에는 높은 등급의 작업자의 단말(200)에서 재검수가 수행되도록 지원할 수 있다.
이는, 검수용 점수가 pass threshold(제1 임계값)에 가까울수록 pass로 처리될 확률이 높고 이를 확인하기에도 용이하므로, 낮은 등급의 작업자도 수행할 수 있기 때문이다.
또한, 검수용 점수가 fail threshold(제2 임계값)에 가까울수록 fail로 처리될 확률이 높고 이를 확인하기에도 용이하므로, 낮은 등급의 작업자도 수행할 수 있을 것이다.
반면, 제1 임계값 및 제2 임계값과는 차이가 있는 경우(즉, 제q 임계값과 제p 임계값 사이)에는 pass 처리를 해야할지, fail 처리를 해야할지 판단이 어려울 수 있다. 따라서, 위와 같은 경우에는 프로세서(120)가 높은 등급의 작업자 단말(200)에서 재검수가 수행되도록 지원할 수 있을 것이다.
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
100: 컴퓨팅 장치
110: 통신부
120: 프로세서
130: 데이터베이스
200: 작업자 단말

Claims (8)

  1. 레이블링 작업을 검수하는 방법에 있어서,
    텍스트에 포함된 entity에 대한 레이블링 작업을 검수하는 딥러닝 모델이 존재하고, 상기 딥러닝 모델을 컴퓨팅 장치가 이용한다고 할 때,
    (a) 상기 컴퓨팅 장치가, 학습용 텍스트를 기초로 상기 딥러닝 모델에 대해 제1 트레이닝을 수행하는 단계;
    (b) 상기 컴퓨팅 장치가, 작업용 텍스트 및 이에 대한 entity 레이블링 값을 획득하는 단계;
    (c) 상기 컴퓨팅 장치가, 상기 작업용 텍스트 및 상기 entity 레이블링 값을 상기 딥러닝 모델에 통과시키면서 연산을 수행하여 검수용 점수를 산출하는 단계; 및
    (d) 상기 컴퓨팅 장치가, 상기 검수용 점수를 기초로 상기 작업용 텍스트에 대한 상기 entity 레이블링 값이 정확한지를 판단하고, pass 처리, fail 처리, 재검수 처리 중 어느 하나를 수행하는 단계;
    를 포함하고,
    상기 (d) 단계에서,
    제1 임계값, 제2 임계값이 존재하고 상기 제1 임계값이 상기 제2 임계값보다 크다고 할 때,
    상기 컴퓨팅 장치는, i) 상기 검수용 점수가 상기 제1 임계값보다 크거나 같다면 상기 작업용 텍스트 및 상기 entity 레이블링 값에 대해 pass 처리를 수행하고, ii) 상기 검수용 점수가 상기 제1 임계값보다 작고 상기 제2 임계값보다 크거나 같다면 상기 작업용 텍스트 및 상기 entity 레이블링 값에 대해 재검수 처리를 수행하며, iii) 상기 검수용 점수가 상기 제2 임계값보다 작다면 상기 작업용 텍스트 및 상기 entity 레이블링 값에 대해 fail 처리를 수행하며,
    상기 컴퓨팅 장치가, 상기 재검수 처리된 작업용 텍스트 및 entity 레이블링 값을 작업자 단말에 전송하여 상기 작업자 단말에서 재검수가 수행되도록 지원하고, 상기 재검수 결과를 기초로 상기 딥러닝 모델에 대해 제2 트레이닝을 수행하고,
    상기 컴퓨팅 장치는, 상기 재검수가 수행된 결과 제1 소정 개수 이상의 작업용 텍스트 및 entity 레이블링 값이 pass로 재처리된 경우 상기 제1 임계값을 조절하고, 제2 소정 개수 이상의 작업용 텍스트 및 entity 레이블링 값이 fail로 재처리된 경우 상기 제2 임계값을 조절하는 것을 특징으로 하는 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    복수의 작업자가 존재하고, 작업수행치에 기초하여 상기 복수의 작업자의 등급이 구분되는 상태에서,
    상기 제1 임계값보다 작고 상기 제2 임계값보다 큰 제p 임계값, 제q 임계값이 적어도 존재하고, 상기 제p 임계값이 상기 제q 임계값보다 크다고 할 때,
    상기 컴퓨팅 장치는,
    i) 상기 검수용 점수가 상기 제1 임계값보다 작고 상기 제p 임계값보다 크거나 같은 경우 또는 상기 제q 임계값보다 작고 상기 제2 임계값보다 크거나 같은 경우에는 낮은 등급의 작업자의 단말에서 재검수가 수행되도록 지원하고, ii) 상기 검수용 점수가 상기 제p 임계값보다 작고 상기 제q 임계값보다 크거나 같은 경우에는 높은 등급의 작업자의 단말에서 재검수가 수행되도록 지원하는 것을 특징으로 하는 방법.
  6. 제1항에 있어서,
    상기 검수용 점수는 확률 값으로서 a에 해당하며, 0 <= a <= 1을 만족하는 것을 특징으로 하는 방법.
  7. 제1항에 있어서,
    상기 (a) 단계에서,
    상기 딥러닝 모델의 연산을 수행하기 위해 적어도 하나의 파라미터가 존재하는 상태에서,
    상기 컴퓨팅 장치는, i) 상기 학습용 텍스트 및 정답용 entity 레이블링 값을 상기 딥러닝 모델에 통과시키면서 연산을 수행한 결과가 1이 되도록 상기 적어도 하나의 파라미터를 조절하고, ii) 상기 학습용 텍스트 및 비정답용 entity 레이블링 값을 상기 딥러닝 모델에 통과시키면서 연산을 수행한 결과가 0이 되도록 상기 적어도 하나의 파라미터를 조절하는 것을 특징으로 하는 방법.
  8. 레이블링 작업을 검수하는 장치에 있어서,
    텍스트에 포함된 entity에 대한 레이블링 작업을 검수하는 딥러닝 모델이 존재하고, 상기 딥러닝 모델을 컴퓨팅 장치가 이용한다고 할 때,
    작업용 단말과 정보를 송수신하는 통신부; 및
    학습용 텍스트를 기초로 상기 딥러닝 모델에 대해 제1 트레이닝을 수행하고, 작업용 텍스트 및 이에 대한 entity 레이블링 값을 획득하며, 상기 작업용 텍스트 및 상기 entity 레이블링 값을 상기 딥러닝 모델에 통과시키면서 연산을 수행하여 검수용 점수를 산출하고, 상기 검수용 점수를 기초로 상기 작업용 텍스트에 대한 상기 entity 레이블링 값이 정확한지를 판단하고, pass 처리, fail 처리, 재검수 처리 중 어느 하나를 수행하는 프로세서;
    를 포함하고,
    제1 임계값, 제2 임계값이 존재하고 상기 제1 임계값이 상기 제2 임계값보다 크다고 할 때,
    상기 프로세서는, i) 상기 검수용 점수가 상기 제1 임계값보다 크거나 같다면 상기 작업용 텍스트 및 상기 entity 레이블링 값에 대해 pass 처리를 수행하고, ii) 상기 검수용 점수가 상기 제1 임계값보다 작고 상기 제2 임계값보다 크거나 같다면 상기 작업용 텍스트 및 상기 entity 레이블링 값에 대해 재검수 처리를 수행하며, iii) 상기 검수용 점수가 상기 제2 임계값보다 작다면 상기 작업용 텍스트 및 상기 entity 레이블링 값에 대해 fail 처리를 수행하며,
    상기 프로세서가, 상기 재검수 처리된 작업용 텍스트 및 entity 레이블링 값을 작업자 단말에 전송하여 상기 작업자 단말에서 재검수가 수행되도록 지원하고, 상기 재검수 결과를 기초로 상기 딥러닝 모델에 대해 제2 트레이닝을 수행하고,
    상기 프로세서는, 상기 재검수가 수행된 결과 제1 소정 개수 이상의 작업용 텍스트 및 entity 레이블링 값이 pass로 재처리된 경우 상기 제1 임계값을 조절하고, 제2 소정 개수 이상의 작업용 텍스트 및 entity 레이블링 값이 fail로 재처리된 경우 상기 제2 임계값을 조절하는 것을 특징으로 하는 컴퓨팅 장치.
KR1020190173406A 2019-12-23 2019-12-23 딥러닝 모델을 이용하여 텍스트 개체에 대한 레이블링을 검수하는 방법 및 그를 이용한 장치 KR102143780B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190173406A KR102143780B1 (ko) 2019-12-23 2019-12-23 딥러닝 모델을 이용하여 텍스트 개체에 대한 레이블링을 검수하는 방법 및 그를 이용한 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190173406A KR102143780B1 (ko) 2019-12-23 2019-12-23 딥러닝 모델을 이용하여 텍스트 개체에 대한 레이블링을 검수하는 방법 및 그를 이용한 장치

Publications (1)

Publication Number Publication Date
KR102143780B1 true KR102143780B1 (ko) 2020-08-12

Family

ID=72039100

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190173406A KR102143780B1 (ko) 2019-12-23 2019-12-23 딥러닝 모델을 이용하여 텍스트 개체에 대한 레이블링을 검수하는 방법 및 그를 이용한 장치

Country Status (1)

Country Link
KR (1) KR102143780B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360641A (zh) * 2021-05-07 2021-09-07 内蒙古电力(集团)有限责任公司乌兰察布电业局 一种基于深度学习的电网故障处置预案语义建模系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016181036A (ja) * 2015-03-23 2016-10-13 株式会社富士通エフサス 作業配分支援装置、作業配分支援プログラムおよび作業配分支援方法
KR101887415B1 (ko) * 2017-11-21 2018-08-10 주식회사 크라우드웍스 데이터 라벨링 작업 검수방법 및 프로그램

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016181036A (ja) * 2015-03-23 2016-10-13 株式会社富士通エフサス 作業配分支援装置、作業配分支援プログラムおよび作業配分支援方法
KR101887415B1 (ko) * 2017-11-21 2018-08-10 주식회사 크라우드웍스 데이터 라벨링 작업 검수방법 및 프로그램

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360641A (zh) * 2021-05-07 2021-09-07 内蒙古电力(集团)有限责任公司乌兰察布电业局 一种基于深度学习的电网故障处置预案语义建模系统及方法
CN113360641B (zh) * 2021-05-07 2023-05-30 内蒙古电力(集团)有限责任公司乌兰察布电业局 一种基于深度学习的电网故障处置预案语义建模系统及方法

Similar Documents

Publication Publication Date Title
US20220366677A1 (en) Method for inspecting labeling on bounding box by using deep learning model and apparatus using same
US10884893B2 (en) Detecting software build errors using machine learning
US10467114B2 (en) Hierarchical data processor tester
US11017006B2 (en) Method and system for generating review summaries
US20210201205A1 (en) Method and system for determining correctness of predictions performed by deep learning model
EP3908977A1 (en) Improving image classification modeling while mantaining data privacy compliance
US20190347188A1 (en) Identifying potential errors in code using machine learning
US20140122069A1 (en) Automatic Speech Recognition Accuracy Improvement Through Utilization of Context Analysis
KR102249818B1 (ko) 학습 데이터의 분포 특성에 기초하여 학습 데이터를 생성하는 방법 및 장치
US20170344617A1 (en) Methods and Systems for Transforming Training Data to Improve Data Classification
US20210374043A1 (en) Zero coding automation with natural language processing, such as for use in testing telecommunications software and resources
US20150089296A1 (en) Derivation of generalized test cases
KR102496030B1 (ko) 데이터 분류를 위한 강화 학습 장치 및 방법
KR102143780B1 (ko) 딥러닝 모델을 이용하여 텍스트 개체에 대한 레이블링을 검수하는 방법 및 그를 이용한 장치
KR102114267B1 (ko) 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치
CN104778412A (zh) 一种脚本检查方法及系统
US10896252B2 (en) Composite challenge task generation and deployment
KR102113180B1 (ko) 딥러닝 모델을 이용하여 음성 전사 레이블링을 검수하는 방법 및 그를 이용한 장치
US20170132557A1 (en) Methods and systems for evaluating an incident ticket
US10650844B2 (en) Method and response recommendation system for recommending a response for a voice-based user input
US11537883B2 (en) Method and system for minimizing impact of faulty nodes associated with an artificial neural network
US11349856B2 (en) Exploit kit detection
US10885019B2 (en) Inter-reviewer conflict resolution
CN114846543A (zh) 语音识别结果检测方法及装置、存储介质
US11734569B2 (en) Method and system for improving performance of an artificial neural network (ANN) model

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant