KR20100062801A - Method and apparatus of training data verication using machine learning - Google Patents

Method and apparatus of training data verication using machine learning Download PDF

Info

Publication number
KR20100062801A
KR20100062801A KR1020090023605A KR20090023605A KR20100062801A KR 20100062801 A KR20100062801 A KR 20100062801A KR 1020090023605 A KR1020090023605 A KR 1020090023605A KR 20090023605 A KR20090023605 A KR 20090023605A KR 20100062801 A KR20100062801 A KR 20100062801A
Authority
KR
South Korea
Prior art keywords
data
learning
verification
separated
machine learning
Prior art date
Application number
KR1020090023605A
Other languages
Korean (ko)
Inventor
이창기
김현기
황이규
임수종
오효정
이충희
허정
최미란
윤여찬
장명길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US12/624,161 priority Critical patent/US8458520B2/en
Publication of KR20100062801A publication Critical patent/KR20100062801A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Educational Technology (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

PURPOSE: A learning data verification method using machine learning and a method thereof are provided to verify error of initial learning data efficiently by distinguishing the error of learning data by comparing with verified data and automatic tagging result. CONSTITUTION: A learning data separating unit(110) separates learning data and verified data of N about given initial learning data. A machine learning unit(120) performs the machine learning from the separated learning data and produces a learning model. Using the learning model, an automatic tagging unit(130) provides the auto tagging result by tagging the original of the verified data automatically. An error decider(140) compares the verified data and the automatically tagging result, and provides an error candidate of the learning data.

Description

기계 학습을 이용한 학습 데이터 검증 장치 및 방법{METHOD AND APPARATUS OF TRAINING DATA VERICATION USING MACHINE LEARNING}Apparatus and method for verifying learning data using machine learning {METHOD AND APPARATUS OF TRAINING DATA VERICATION USING MACHINE LEARNING}

본 발명은 기계 학습을 이용한 학습 데이터 검증 장치 및 방법에 관한 것으로서, 더욱 상세하게는 주어진 초기 학습 데이터를 학습 데이터와 검증 데이터를 분리한 후 기계 학습과 자동 태깅을 수행하여 학습 데이터의 오류 후보를 제공하는 기계 학습을 이용한 학습 데이터 검증 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for verifying learning data using machine learning. More particularly, the present invention provides an error candidate for learning data by performing machine learning and automatic tagging after separating learning data and verification data from a given initial learning data. An apparatus and method for verifying learning data using machine learning are provided.

본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발 사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호 : 2008-S-020-01, 과제명 : 웹 QA 기술개발].The present invention is derived from a study conducted as part of the IT growth engine technology development project of the Ministry of Knowledge Economy and the Ministry of Information and Communication Research and Development. [Task management number: 2008-S-020-01, Task name: Web QA technology development].

종래 기술에 따라 학습 데이터의 오류를 찾아내는 기술은, 초기 학습 데이터로부터 자질 생성 후 기계 학습을 이용하여 학습 모델을 생성하고, 학습 모델을 이용하여 원시 코퍼스에 자동으로 태그를 부착하여 학습 데이터 후보를 생성하며, 학 습 데이터 후보들의 신뢰 점수를 계산하여 학습 데이터 후보를 생성하고, 이렇게 생성한 학습 데이터 후보를 사용자에게 제시하고, 이를 사용자가 그래픽 유저 인터페이스를 이용하여 오류 수정하여 이를 학습 데이터에 추가하면 새로 생성한 학습 데이터로부터 새로운 학습 모델을 생성하여 기존의 학습 모델과 함께 보팅(voting)을 이용하여 정답 추측에 쓰이게 되며, 이러한 과정을 반복하여 점진적으로 자동 태깅의 정확성을 높이고 학습 데이터를 증강시킨다.According to the prior art, the technique of finding an error of training data generates a training model using machine learning after generating a feature from initial training data, and automatically generates a training data candidate by tagging a raw corpus using the training model. The training data candidates are generated by calculating the confidence scores of the training data candidates, and the generated training data candidates are presented to the user. A new learning model is generated from the generated training data and used for voting for correct answers using voting along with the existing training model. This process is repeated to gradually increase the accuracy of automatic tagging and to enhance the training data.

전술한 바와 같이 종래 기술에 따라 학습 데이터의 오류를 찾아내는 기술은, 초기 학습 데이터를 이용하여 학습 데이터를 추가 구축하는 방안을 제시한 것이나, 초기 학습 데이터의 오류를 판별할 수 없는 문제점이 있었다.As described above, the technique of finding the error of the training data according to the prior art suggests a method of additionally constructing the training data using the initial training data, but there is a problem in that the error of the initial training data cannot be discriminated.

본 발명은 이와 같은 종래 기술의 문제점을 해결하기 위해 제안한 것으로서, 주어진 초기 학습 데이터를 학습 데이터와 검증 데이터를 분리한 후 기계 학습과 자동 태깅을 수행하여 학습 데이터의 오류 후보를 제공하는 기계 학습을 이용한 학습 데이터 검증 장치 및 방법을 제공한다.The present invention has been proposed to solve such a problem of the prior art, and using machine learning to provide an error candidate of learning data by performing machine learning and automatic tagging after separating the learning data and the verification data from the given initial learning data. An apparatus and method for verifying learning data are provided.

나아가 본 발명은 검증 입력에 의거하여 오류 후보를 검증 또는 수정한 결과인 검증된 학습 데이터와 오류 후보에서 제외된 학습 데이터를 합쳐서 최종 검증된 학습 데이터를 생성 및 제공한다.Furthermore, the present invention generates and provides the finally verified learning data by combining the verified learning data which is a result of verifying or correcting the error candidate and the learning data excluded from the error candidate based on the verification input.

본 발명의 일 관점에 따른 기계 학습을 이용한 학습 데이터 검증 장치는, 주어진 초기 학습 데이터에 대해서 N(단, N은 자연수)개의 학습 데이터와 검증 데이터를 분리하는 학습 데이터 분리부와, 분리한 상기 학습 데이터로부터 기계 학습을 수행하여 학습 모델을 생성하는 기계 학습부와, 생성한 상기 학습 모델을 이용하여 상기 검증 데이터의 원문을 자동 태깅하여 자동 태깅 결과를 제공하는 자동 태깅부와, 상기 검증 데이터와 상기 자동 태깅 결과를 비교하여 판별한 상기 학습 데이터의 오류 후보를 제공하는 오류 판별부를 포함한다.The learning data verification apparatus using machine learning according to an aspect of the present invention includes a learning data separating unit that separates N (where N is a natural number) learning data and verification data for a given initial learning data, and separates the learning. A machine learning unit which generates a learning model by performing machine learning from data, an automatic tagging unit which automatically tags the original text of the verification data using the generated learning model, and provides an automatic tagging result, the verification data and the And an error determination unit for providing an error candidate of the training data determined by comparing the automatic tagging results.

여기서, 상기 오류 판별부는, 검증 입력에 의거하여 상기 오류 후보를 검증 또는 수정한 결과인 검증된 학습 데이터와 상기 오류 후보에서 제외된 학습 데이터를 합쳐서 최종 검증된 학습 데이터를 생성 및 제공한다.Here, the error determining unit generates and provides final verified learning data by combining verified learning data that is a result of verifying or correcting the error candidate and learning data excluded from the error candidate based on a verification input.

상기 오류 판별부는, 상기 검증 데이터의 초기 태깅 결과와 상기 자동 태깅 결과를 비교하여 상기 오류 후보를 판별한다.The error determination unit determines the error candidate by comparing the initial tagging result of the verification data with the automatic tagging result.

상기 학습 데이터 분리부는, 상기 초기 학습 데이터를 N개의 분리 데이터로 분리하고, 이 분리한 N개의 분리 데이터로부터 N개의 학습 데이터-검증 데이터 쌍을 만든다.The training data separating unit separates the initial training data into N pieces of separated data, and generates N pieces of learning data-verification data pairs from the separated pieces of N pieces of separated data.

상기 학습 데이터 분리부는, 상기 N개의 분리 데이터에서 첫번째 분리 데이터부터 K-1(단, K는 N보다 작은 자연수)번째 분리 데이터와 K+1번째 분리 데이터부터 N번째 분리 데이터까지의 총 N-1개의 분리 데이터를 상기 학습 데이터로 생성하 고, 나머지 K번째 분리 데이터를 상기 검증 데이터로 생성하며, N-1개의 상기 학습 데이터와 K번째의 상기 검증 데이터를 총 N개의 쌍으로 만든다.The training data separator may include a total of N-1 from the first divided data to K-1 (where K is a natural number smaller than N) and the K + 1th separated data to the Nth separated data in the N pieces of separated data. Separate pieces of data are generated as the learning data, and the remaining K-th pieces of separation data are generated as the verification data, and N-1 pieces of the learning data and the K-th verification data are generated as a total of N pairs.

본 발명의 다른 관점으로서 기계 학습을 이용한 학습 데이터 검증 방법은, 주어진 초기 학습 데이터에 대해서 N(단, N은 자연수)개의 학습 데이터와 검증 데이터를 분리하는 단계와, 분리한 상기 학습 데이터로부터 기계 학습을 수행하여 학습 모델을 생성하는 단계와, 생성한 상기 학습 모델을 이용하여 상기 검증 데이터의 원문을 자동 태깅하여 자동 태깅 결과를 제공하는 단계와, 상기 검증 데이터와 상기 자동 태깅 결과를 비교하여 판별한 상기 학습 데이터의 오류 후보를 제공하는 단계를 포함한다.According to another aspect of the present invention, a learning data verification method using machine learning includes separating N (where N is a natural number) learning data and verification data for a given initial learning data, and machine learning from the separated learning data. Generating a learning model, automatically tagging the original text of the verification data using the generated learning model to provide an automatic tagging result, and comparing and verifying the verification data with the automatic tagging result. Providing an error candidate for the training data.

여기서, 상기 오류 후보를 제공하는 단계는, 검증 입력에 의거하여 상기 오류 후보를 검증 또는 수정한 결과인 검증된 학습 데이터와 상기 오류 후보에서 제외된 학습 데이터를 합쳐서 최종 검증된 학습 데이터를 생성 및 제공한다.The providing of the error candidate may include generating and providing the finally verified learning data by combining the verified learning data that is a result of verifying or correcting the error candidate and the learning data excluded from the error candidate based on a verification input. do.

상기 오류 후보를 제공하는 단계는, 상기 검증 데이터의 초기 태깅 결과와 상기 자동 태깅 결과를 비교하여 상기 오류 후보를 판별한다.In the providing of the error candidate, the error candidate is determined by comparing the initial tagging result of the verification data with the automatic tagging result.

상기 분리하는 단계는, 상기 초기 학습 데이터를 N개의 분리 데이터로 분리하고, 이 분리한 N개의 분리 데이터로부터 N개의 학습 데이터-검증 데이터 쌍을 만든다.In the separating step, the initial training data is separated into N pieces of separated data, and N pieces of learning data-verification data pairs are generated from the separated pieces of N pieces of separated data.

상기 분리하는 단계는, 상기 N개의 분리 데이터에서 첫번째 분리 데이터부터 K-1(단, K는 N보다 작은 자연수)번째 분리 데이터와 K+1번째 분리 데이터부터 N번 째 분리 데이터까지의 총 N-1개의 분리 데이터를 상기 학습 데이터로 생성하고, 나머지 K번째 분리 데이터를 상기 검증 데이터로 생성하며, N-1개의 상기 학습 데이터와 K번째의 상기 검증 데이터를 총 N개의 쌍으로 만든다.In the separating step, the first separation data from the N pieces of separation data, K-1 (where K is a natural number smaller than N) and the total N− from the K + 1st separation data to the Nth separation data One piece of separated data is generated as the learning data, the remaining K-th pieces of separation data are generated as the verification data, and N-1 pieces of the learning data and the Kth pieces of verification data are made into a total of N pairs.

본 발명에 의하면 주어진 초기 학습 데이터에 대해서 학습 데이터와 검증 데이터를 분리하고, 분리한 학습 데이터로부터 기계 학습을 수행하여 학습 모델을 생성하며, 생성한 학습 모델을 이용하여 검증 데이터의 원문을 자동 태깅하고, 검증 데이터와 자동 태깅 결과를 비교하여 학습 데이터의 오류를 판별함으로써, 초기 학습 데이터의 오류를 효율적으로 검증할 수 있다.According to the present invention, the training data and the validation data are separated for the given initial training data, machine learning is performed from the separated training data to generate a training model, and the original text of the validation data is automatically tagged using the generated training model. The error of the training data can be efficiently verified by comparing the validation data with the automatic tagging result.

아울러, 사용자의 검증 입력에 의거하여 오류 후보를 검증 또는 수정한 결과인 검증된 학습 데이터와 오류 후보에서 제외된 학습 데이터를 합쳐서 최종 검증된 학습 데이터를 생성 및 제공할 수 있다.In addition, the final verified learning data may be generated and provided by combining the verified learning data that is a result of verifying or correcting the error candidate and the learning data excluded from the error candidate based on the verification input of the user.

이하, 본 발명의 일부 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 아울러 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.Hereinafter, some embodiments of the present invention will be described in detail with reference to the accompanying drawings. In addition, in describing the present invention, when it is determined that the detailed description of the related known configuration or function may obscure the gist of the present invention, the detailed description thereof will be omitted.

도 1은 본 발명의 실시예에 따른 기계 학습을 이용한 학습 데이터 검증 장치의 블록 구성도이다.1 is a block diagram of an apparatus for verifying training data using machine learning according to an exemplary embodiment of the present invention.

이에 나타낸 바와 같이 본 발명의 학습 데이터 검증 장치는, 학습 데이터 분리부(110), 기계 학습부(120), 자동 태깅부(130), 오류 판별부(140) 등을 포함하여 구성된다.As described above, the apparatus for verifying learning data of the present invention includes a learning data separating unit 110, a machine learning unit 120, an automatic tagging unit 130, an error determining unit 140, and the like.

학습 데이터 분리부(110)는 주어진 초기 학습 데이터에 대해서 N(단, N은 자연수)개의 학습 데이터와 검증 데이터를 분리하여 기계 학습부(120)에게 전달한다. 여기서, 학습 데이터 분리부(110)는 초기 학습 데이터를 N개의 분리 데이터로 분리하고, 이 분리한 N개의 분리 데이터로부터 N개의 학습 데이터-검증 데이터 쌍을 만든다. 예컨대, N개의 분리 데이터에서 첫번째 분리 데이터부터 K-1(단, K는 N보다 작은 자연수)번째 분리 데이터와 K+1번째 분리 데이터부터 N번째 분리 데이터까지의 총 N-1개의 분리 데이터를 학습 데이터로 생성하고, 나머지 K번째 분리 데이터를 검증 데이터로 생성하며, N-1개의 학습 데이터와 K번째의 검증 데이터를 총 N개의 쌍으로 만든다. 이러한 학습 데이터 분리 과정에 대해서는 도 3을 참조하여 아래에서 상세히 설명하기로 한다.The training data separating unit 110 separates N (where N is a natural number) training data and verification data with respect to the given initial training data and transmits the training data to the machine learning unit 120. Here, the training data separating unit 110 separates the initial training data into N pieces of separated data, and generates N pieces of learning data-verification data pairs from the separated pieces of N pieces of separated data. For example, a total of N-1 pieces of data from the first piece of data to K-1 (where K is a natural number less than N) and K + 1th pieces of data to the Nth piece of data are learned from the N pieces of separated data. The data is generated, and the remaining K-th separation data is generated as verification data, and N-1 training data and K-th verification data are generated as a total of N pairs. This learning data separation process will be described in detail below with reference to FIG. 3.

기계 학습부(120)는 학습 데이터 분리부(110)가 분리한 학습 데이터로부터 기계 학습을 수행하여 생성한 학습 모델을 자동 태깅부(130)에게 제공한다.The machine learning unit 120 provides the automatic tagging unit 130 with a learning model generated by performing machine learning from the training data separated by the training data separating unit 110.

자동 태깅부(130)는 기계 학습부(120)에서 생성한 학습 모델을 이용하여 학습 데이터 분리부(110)에서 분리한 검증 데이터의 원문을 자동 태깅하며, 자동 태깅 결과를 오류 판별부(140)에게 제공한다.The automatic tagging unit 130 automatically tags the original text of the verification data separated by the training data separating unit 110 using the learning model generated by the machine learning unit 120, and determines the automatic tagging result by the error determining unit 140. To provide.

오류 판별부(140)는 학습 데이터 분리부(110)에서 분리한 검증 데이터와 오류 판별부(140)에 의한 자동 태깅 결과를 비교, 즉 검증 데이터의 초기 태깅 결과와 자동 태깅부(130)에 의한 자동 태깅 결과를 비교하여 학습 데이터의 오류 후보를 판별하며, 그래픽 유저 인터페이스 등과 같은 입출력장치를 통해 제공한다. 아울러 오류 판별부(140)는 입출력장치를 통한 사용자의 검증 입력에 의거하여 오류 후보를 검증 또는 수정한 결과인 검증된 학습 데이터와 오류 후보에서 제외된 학습 데이터를 합쳐서 최종 검증된 학습 데이터를 생성 및 제공한다.The error determining unit 140 compares the verification data separated by the training data separating unit 110 and the automatic tagging result by the error determining unit 140, that is, the initial tagging result of the verification data and the automatic tagging unit 130. By comparing the results of automatic tagging, error candidates of the training data are determined and provided through an input / output device such as a graphic user interface. In addition, the error determination unit 140 generates the finally verified learning data by combining the verified learning data that is the result of verifying or correcting the error candidate and the learning data excluded from the error candidate based on the user's verification input through the input / output device. to provide.

도 2는 본 발명의 실시예에 따른 기계 학습을 이용한 학습 데이터 검증 방법을 설명하기 위한 흐름도이다.2 is a flowchart illustrating a method of verifying training data using machine learning according to an exemplary embodiment of the present invention.

이에 나타낸 바와 같이 본 발명의 학습 데이터 검증 방법은, 주어진 초기 학습 데이터에 대해서 N(단, N은 자연수)개의 학습 데이터와 검증 데이터를 분리하는 단계(S210)와, 분리한 학습 데이터로부터 기계 학습을 수행하여 학습 모델을 생성하는 단계(S220)와, 생성한 학습 모델을 이용하여 검증 데이터의 원문을 자동 태깅하여 자동 태깅 결과를 제공하는 단계(S230)와, 검증 데이터와 자동 태깅 결과를 비교하여 판별한 학습 데이터의 오류 후보를 제공한 후에 검증 입력에 의거하여 오류 후보를 검증 또는 수정한 결과인 검증된 학습 데이터와 오류 후보에서 제외된 학습 데이터를 합쳐서 최종 검증된 학습 데이터를 생성 및 제공하는 단계(S240) 등을 포함하여 이루어진다.As shown therein, the training data verification method of the present invention comprises the steps of separating the training data and the verification data from N (where N is a natural number) for the given initial training data (S210), and performing machine learning from the separated training data. A step of generating a training model by performing (S220), the step of automatically tagging the original text of the verification data using the generated training model to provide an automatic tagging results (S230), and compares the verification data and the automatic tagging results to determine After providing an error candidate of one training data, generating and providing final validated training data by combining the verified training data that is the result of verifying or correcting the error candidate based on the validation input and the training data excluded from the error candidate ( S240) and the like.

도 1 내지 도 3을 참조하여 본 발명의 실시예에 따른 기계 학습을 이용한 학습 데이터 검증 장치에 의한 초기 학습 데이터의 검증 과정을 자세히 살펴보면 다음과 같다.1 to 3, the process of verifying initial learning data by the apparatus for verifying learning data using machine learning according to an embodiment of the present invention will be described in detail as follows.

먼저, 학습 데이터 분리부(110)는 주어진 초기 학습 데이터(10)에 대해서 N개의 학습 데이터(20)와 검증 데이터(30)를 분리한다(S210).First, the training data separating unit 110 separates the N training data 20 and the verification data 30 with respect to the given initial training data 10 (S210).

이러한 학습 데이터(20) 및 검증 데이터(30)의 분리 과정을 도 3을 참조하여 살펴보면, 학습 데이터 분리부(110)는 초기 학습 데이터(10)를 N개의 분리 데이터(21, …, 23, 31, 25, …, 27)로 분리하고, 이 분리한 N개의 분리 데이터(21, …, 23, 31, 25, …, 27)로부터 N개의 학습 데이터-검증 데이터 쌍을 만든다. K번째 학습 데이터-검증 데이터 쌍을 예를 들어 설명하면, N개의 분리 데이터(21, …, 23, 31, 25, …, 27)에서 첫번째 분리 데이터(21)부터 K-1(단, K는 N보다 작은 자연수)번째 분리 데이터(23)와 K+1번째 분리 데이터(25)부터 N번째 분리 데이터(27)까지의 총 N-1개의 분리 데이터(21, …, 23, 25, …, 27)를 학습 데이터(20a)로 생성하고, 나머지 K번째 분리 데이터(31)를 검증 데이터(30a)로 생성하며, N-1개의 학습 데이터(20a)와 K번째의 검증 데이터(30a)를 총 N개의 쌍으로 만든다.Looking at the separation process of the learning data 20 and the verification data 30 with reference to FIG. 3, the learning data separating unit 110 is the initial learning data 10 to the N pieces of separated data (21, ..., 23, 31, 31). , 25, ..., 27, and N learning data-verification data pairs are generated from the separated N pieces of separated data 21, ..., 23, 31, 25, ..., 27. Referring to the K th training data-verification data pair as an example, in the N pieces of separation data 21,..., 23, 31, 25,..., 27, the first separation data 21 to K-1 (where K is N-th separation data 21, ..., 23, 25, ..., 27 from the K-th separation data 25 and the N + th separation data 27 from the K-th separation data 25 and the Nth separation data 27. ) Is generated as the training data 20a, the remaining K-th separation data 31 is generated as the verification data 30a, and the N-1 training data 20a and the K-th verification data 30a are total N. Pairs of dogs.

그리고, 기계 학습부(120)는 학습 데이터 분리부(110)가 분리한 학습 데이터(20)로부터 기계 학습을 수행하여 학습 모델을 생성하여 자동 태깅부(130)에게 제공한다(S220).In addition, the machine learning unit 120 generates a learning model by performing machine learning from the learning data 20 separated by the learning data separating unit 110 and provides the learning model to the automatic tagging unit 130 (S220).

자동 태깅부(130)는 기계 학습부(120)가 생성한 학습 모델을 이용하여 검증 데이터(30)의 원문을 자동 태깅하여 자동 태깅 결과를 오류 판별부(140)에게 제공 한다(S230).The automatic tagging unit 130 automatically tags the original text of the verification data 30 using the learning model generated by the machine learning unit 120 and provides the automatic tagging result to the error determination unit 140 (S230).

다음으로, 오류 판별부(140)는 학습 데이터 분리부(110)에서 분리한 검증 데이터(30)와 오류 판별부(140)에 의한 자동 태깅 결과를 비교, 즉 검증 데이터(30)의 초기 태깅 결과와 자동 태깅부(130)에 의한 자동 태깅 결과를 비교하여 학습 데이터(20)의 오류 후보를 판별하며, 오류 후보를 그래픽 유저 인터페이스 등과 같은 입출력장치를 통해 제공한다.Next, the error determination unit 140 compares the verification data 30 separated by the training data separation unit 110 and the automatic tagging result by the error determination unit 140, that is, the initial tagging result of the verification data 30. And an automatic tagging result by the automatic tagging unit 130 to determine an error candidate of the training data 20, and provide the error candidate through an input / output device such as a graphic user interface.

이러한 오류 판별을 위한 비교 과정을 일예를 통해 살펴보면 아래와 같다.Looking at the comparison process for determining such an error through an example as follows.

학습 데이터의 구성은 다음과 같이 원문과 자동 태깅 결과로 이루어진다(개체명 인식의 예). 또한 검증 데이터도 학습 데이터와 같은 형식으로 구성되어 있다.The structure of the training data consists of the original text and the result of automatic tagging (example of object name recognition). The verification data is also organized in the same format as the training data.

『원문: 한국·일본·만주·우수리강 등지에 분포한다.『Original text: It is distributed in Korea, Japan, Manchuria, and Usuri River.

개체명인식태깅: <한국: Location>·<일본: Location >·<만주: Location >·<우수리강: Location > 등지에 분포한다.』Individual name tagging: <Korea: Location> · <Japan: Location> · <Manchurian: Location> · <Usuri River: Location>

자동 태깅 과정에서는 위의 학습 모델을 이용하여 검증 데이터의 원문 부분을 자동 태깅하고, 오류 판별 과정에서는 자동 태깅 결과와 검증 데이터의 원래 태깅 결과를 비교하게 된다.In the automatic tagging process, the original text portion of the verification data is automatically tagged using the above learning model. In the error determination process, the automatic tagging result is compared with the original tagging result of the verification data.

끝으로, 오류 판별부(140)는 입출력장치를 통하여 사용자의 검증을 입력받으며, 입출력장치를 통해 제공한 오류 후보를 사용자의 검증 입력에 의거하여 검증하거나 수정하여 그 결과인 검증된 학습 데이터를 도출한다. 그리고, 이렇게 도출한 검증된 학습 데이터와 오류 후보에서 제외된 학습 데이터를 합쳐서 최종 검증된 학 습 데이터(40)를 생성 및 제공한다.Finally, the error determination unit 140 receives the user's verification through the input / output device, and verifies or corrects the error candidate provided through the input / output device based on the user's verification input to derive the verified learning data as a result. do. In addition, the finally verified learning data 40 is generated and provided by combining the derived learning data and the learning data excluded from the error candidate.

본 발명에 의한 기계 학습을 이용한 학습 데이터 검증 방법은 컴퓨터 프로그램으로 작성 가능하다. 이 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 해당 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 기계 학습을 이용한 학습 데이터 검증 방법을 구현한다. 정보저장매체는 자기 기록매체, 광 기록매체 및 캐리어 웨이브 매체를 포함한다.Learning data verification method using the machine learning according to the present invention can be created by a computer program. The code and code segments that make up this computer program can be easily deduced by a computer programmer in the field. In addition, the computer program is stored in a computer readable media, and read and executed by a computer, thereby implementing a learning data verification method using machine learning. The information storage medium includes a magnetic recording medium, an optical recording medium and a carrier wave medium.

지금까지 본 발명에 대하여 그 일부 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.So far, the present invention has been described with reference to some embodiments thereof. Those skilled in the art will appreciate that the present invention can be implemented in a modified form without departing from the essential features of the present invention. Therefore, the disclosed embodiments should be considered in descriptive sense only and not for purposes of limitation. The scope of the present invention is shown in the claims rather than the foregoing description, and all differences within the scope will be construed as being included in the present invention.

도 1은 본 발명의 실시예에 따른 기계 학습을 이용한 학습 데이터 검증 장치의 블록 구성도,1 is a block diagram of a learning data verification apparatus using machine learning according to an embodiment of the present invention;

도 2는 본 발명의 실시예에 따른 기계 학습을 이용한 학습 데이터 검증 방법을 설명하기 위한 흐름도,2 is a flowchart illustrating a method of verifying training data using machine learning according to an embodiment of the present invention;

도 3은 본 발명의 실시예에 따른 기계 학습을 이용한 학습 데이터 검증 방법에 의한 학습 데이터 분리 과정을 나타낸 개념도.3 is a conceptual diagram illustrating a process of separating learning data by the learning data verification method using machine learning according to an embodiment of the present invention.

<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>

110 : 학습 데이터 분리부110: learning data separation unit

120 : 기계 학습부120: machine learning unit

130 : 자동 태깅부130: automatic tagging unit

140 : 오류 판별부140: error determination unit

Claims (10)

주어진 초기 학습 데이터에 대해서 N(단, N은 자연수)개의 학습 데이터와 검증 데이터를 분리하는 학습 데이터 분리부와,A training data separation unit that separates N (where N is a natural number) training data and verification data for a given initial training data; 분리한 상기 학습 데이터로부터 기계 학습을 수행하여 학습 모델을 생성하는 기계 학습부와,A machine learning unit which generates a learning model by performing machine learning from the separated training data; 생성한 상기 학습 모델을 이용하여 상기 검증 데이터의 원문을 자동 태깅하여 자동 태깅 결과를 제공하는 자동 태깅부와,An automatic tagging unit which automatically tags the original text of the verification data using the generated learning model and provides an automatic tagging result; 상기 검증 데이터와 상기 자동 태깅 결과를 비교하여 판별한 상기 학습 데이터의 오류 후보를 제공하는 오류 판별부An error determination unit configured to provide an error candidate of the training data determined by comparing the verification data with the automatic tagging result 를 포함하는 기계 학습을 이용한 학습 데이터 검증 장치.Learning data verification apparatus using a machine learning comprising a. 제 1 항에 있어서,The method of claim 1, 상기 오류 판별부는, 검증 입력에 의거하여 상기 오류 후보를 검증 또는 수정한 결과인 검증된 학습 데이터와 상기 오류 후보에서 제외된 학습 데이터를 합쳐서 최종 검증된 학습 데이터를 생성 및 제공하는The error determining unit generates and provides final verified learning data by combining the verified learning data that is a result of verifying or correcting the error candidate and the learning data excluded from the error candidate based on a verification input. 기계 학습을 이용한 학습 데이터 검증 장치.Learning data verification device using machine learning. 제 1 항 또는 제 2 항에 있어서,The method according to claim 1 or 2, 상기 오류 판별부는, 상기 검증 데이터의 초기 태깅 결과와 상기 자동 태깅 결과를 비교하여 상기 오류 후보를 판별하는The error determining unit may compare the initial tagging result of the verification data with the automatic tagging result to determine the error candidate. 기계 학습을 이용한 학습 데이터 검증 장치.Learning data verification device using machine learning. 제 1 항 또는 제 2 항에 있어서,The method according to claim 1 or 2, 상기 학습 데이터 분리부는, 상기 초기 학습 데이터를 N개의 분리 데이터로 분리하고, 이 분리한 N개의 분리 데이터로부터 N개의 학습 데이터-검증 데이터 쌍을 만드는The training data separating unit separates the initial training data into N pieces of separated data, and generates N pieces of learning data-verification data pairs from the separated pieces of N pieces of separated data. 기계 학습을 이용한 학습 데이터 검증 장치.Learning data verification device using machine learning. 제 4 항에 있어서,The method of claim 4, wherein 상기 학습 데이터 분리부는, 상기 N개의 분리 데이터에서 첫번째 분리 데이터부터 K-1(단, K는 N보다 작은 자연수)번째 분리 데이터와 K+1번째 분리 데이터부터 N번째 분리 데이터까지의 총 N-1개의 분리 데이터를 상기 학습 데이터로 생성하고, 나머지 K번째 분리 데이터를 상기 검증 데이터로 생성하며, N-1개의 상기 학습 데이터와 K번째의 상기 검증 데이터를 총 N개의 쌍으로 만드는The training data separator may include a total of N-1 from the first divided data to K-1 (where K is a natural number smaller than N) and the K + 1th separated data to the Nth separated data in the N pieces of separated data. Generating separate data as the learning data, generating the remaining Kth separated data as the verification data, and making N-1 the learning data and the Kth verification data into a total of N pairs. 기계 학습을 이용한 학습 데이터 검증 장치.Learning data verification device using machine learning. 주어진 초기 학습 데이터에 대해서 N(단, N은 자연수)개의 학습 데이터와 검증 데이터를 분리하는 단계와,Separating N (where N is a natural number) training data and verification data for a given initial training data, 분리한 상기 학습 데이터로부터 기계 학습을 수행하여 학습 모델을 생성하는 단계와,Generating a learning model by performing machine learning from the separated training data; 생성한 상기 학습 모델을 이용하여 상기 검증 데이터의 원문을 자동 태깅하여 자동 태깅 결과를 제공하는 단계와,Providing an automatic tagging result by automatically tagging the original text of the verification data using the generated learning model; 상기 검증 데이터와 상기 자동 태깅 결과를 비교하여 판별한 상기 학습 데이터의 오류 후보를 제공하는 단계Providing an error candidate of the training data determined by comparing the verification data with the automatic tagging result. 를 포함하는 기계 학습을 이용한 학습 데이터 검증 방법.Learning data verification method using a machine learning comprising a. 제 6 항에 있어서,The method of claim 6, 상기 오류 후보를 제공하는 단계는, 검증 입력에 의거하여 상기 오류 후보를 검증 또는 수정한 결과인 검증된 학습 데이터와 상기 오류 후보에서 제외된 학습 데이터를 합쳐서 최종 검증된 학습 데이터를 생성 및 제공하는The providing of the error candidate may include generating and providing final verified learning data by combining the verified learning data that is a result of verifying or correcting the error candidate and the learning data excluded from the error candidate based on a verification input. 기계 학습을 이용한 학습 데이터 검증 방법.Method for verifying training data using machine learning. 제 6 항 또는 제 7 항에 있어서,8. The method according to claim 6 or 7, 상기 오류 후보를 제공하는 단계는, 상기 검증 데이터의 초기 태깅 결과와 상기 자동 태깅 결과를 비교하여 상기 오류 후보를 판별하는The providing of the error candidate may include comparing the initial tagging result of the verification data with the automatic tagging result to determine the error candidate. 기계 학습을 이용한 학습 데이터 검증 방법.Method for verifying training data using machine learning. 제 6 항 또는 제 7 항에 있어서,8. The method according to claim 6 or 7, 상기 분리하는 단계는, 상기 초기 학습 데이터를 N개의 분리 데이터로 분리 하고, 이 분리한 N개의 분리 데이터로부터 N개의 학습 데이터-검증 데이터 쌍을 만드는The separating may include separating the initial training data into N separated data and generating N training data-verification data pairs from the separated N separated data. 기계 학습을 이용한 학습 데이터 검증 방법.Method for verifying training data using machine learning. 제 9 항에 있어서,The method of claim 9, 상기 분리하는 단계는, 상기 N개의 분리 데이터에서 첫번째 분리 데이터부터 K-1(단, K는 N보다 작은 자연수)번째 분리 데이터와 K+1번째 분리 데이터부터 N번째 분리 데이터까지의 총 N-1개의 분리 데이터를 상기 학습 데이터로 생성하고, 나머지 K번째 분리 데이터를 상기 검증 데이터로 생성하며, N-1개의 상기 학습 데이터와 K번째의 상기 검증 데이터를 총 N개의 쌍으로 만드는The dividing may include a total of N-1 from the first divided data to K-1 (where K is a natural number less than N) and the K + 1th separated data to the Nth separated data in the N pieces of separated data. Generating separate data as the learning data, generating the remaining Kth separated data as the verification data, and making N-1 the learning data and the Kth verification data into a total of N pairs. 기계 학습을 이용한 학습 데이터 검증 방법.Method for verifying training data using machine learning.
KR1020090023605A 2008-12-01 2009-03-19 Method and apparatus of training data verication using machine learning KR20100062801A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US12/624,161 US8458520B2 (en) 2008-12-01 2009-11-23 Apparatus and method for verifying training data using machine learning

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020080120789 2008-12-01
KR20080120789 2008-12-01

Publications (1)

Publication Number Publication Date
KR20100062801A true KR20100062801A (en) 2010-06-10

Family

ID=42363008

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090023605A KR20100062801A (en) 2008-12-01 2009-03-19 Method and apparatus of training data verication using machine learning

Country Status (1)

Country Link
KR (1) KR20100062801A (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160059845A (en) * 2014-11-19 2016-05-27 주식회사 스토리안트 Inventory management method and apparatus
KR102096737B1 (en) * 2019-03-28 2020-04-02 한국과학기술원 Distributed machine learning method with fault tolerance using LDPC codes and apparatus therefore
KR20200055814A (en) * 2018-11-08 2020-05-22 한국항공대학교산학협력단 Device and method for high quality data discrimination for machine learning using block chain
KR20210083726A (en) * 2019-12-27 2021-07-07 재단법인대구경북과학기술원 Method and apparatus for determining training data for updating algorithm
KR20210157302A (en) * 2020-06-19 2021-12-28 (주)브릭 Method and Apparatus for Automatic Predictive Modeling Based on Workflow
KR20220065640A (en) * 2020-11-13 2022-05-20 홍채은 A method of learning data characteristics and method of identifying fake information through self-supervised learning
KR20220089308A (en) 2020-12-21 2022-06-28 한국전자통신연구원 Method and system for tagging learning corpus automatically based on transfer learning
KR20230051006A (en) 2021-10-08 2023-04-17 주식회사 케이티 Server, method and computer program for establishing learning data for neural network model

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160059845A (en) * 2014-11-19 2016-05-27 주식회사 스토리안트 Inventory management method and apparatus
KR20200055814A (en) * 2018-11-08 2020-05-22 한국항공대학교산학협력단 Device and method for high quality data discrimination for machine learning using block chain
KR102096737B1 (en) * 2019-03-28 2020-04-02 한국과학기술원 Distributed machine learning method with fault tolerance using LDPC codes and apparatus therefore
KR20210083726A (en) * 2019-12-27 2021-07-07 재단법인대구경북과학기술원 Method and apparatus for determining training data for updating algorithm
KR20210157302A (en) * 2020-06-19 2021-12-28 (주)브릭 Method and Apparatus for Automatic Predictive Modeling Based on Workflow
KR20210157303A (en) * 2020-06-19 2021-12-28 (주)브릭 Method and Apparatus for Automatic Predictive Modeling Based on Workflow Implemented in Heterogeneous Languages
KR20220065640A (en) * 2020-11-13 2022-05-20 홍채은 A method of learning data characteristics and method of identifying fake information through self-supervised learning
KR20220089308A (en) 2020-12-21 2022-06-28 한국전자통신연구원 Method and system for tagging learning corpus automatically based on transfer learning
KR20230051006A (en) 2021-10-08 2023-04-17 주식회사 케이티 Server, method and computer program for establishing learning data for neural network model

Similar Documents

Publication Publication Date Title
KR20100062801A (en) Method and apparatus of training data verication using machine learning
CN106534548B (en) Voice error correction method and device
US8458520B2 (en) Apparatus and method for verifying training data using machine learning
CN112287670A (en) Text error correction method, system, computer device and readable storage medium
CN110750993A (en) Word segmentation method, word segmentation device, named entity identification method and system
US8204738B2 (en) Removing bias from features containing overlapping embedded grammars in a natural language understanding system
CN109800414A (en) Faulty wording corrects recommended method and system
CN103678271B (en) A kind of text correction method and subscriber equipment
CN110674396B (en) Text information processing method and device, electronic equipment and readable storage medium
CN104573099A (en) Topic searching method and device
Ljubešić et al. Standardizing tweets with character-level machine translation
CN112069818B (en) Triplet prediction model generation method, relation triplet extraction method and relation triplet extraction device
US20030061030A1 (en) Natural language processing apparatus, its control method, and program
CN111325031B (en) Resume analysis method and device
KR101374900B1 (en) Apparatus for grammatical error correction and method for grammatical error correction using the same
JP5812534B2 (en) Question answering apparatus, method, and program
JP5152918B2 (en) Named expression extraction apparatus, method and program thereof
CN110852082B (en) Synonym determination method and device
CN112329466A (en) Method, device and equipment for constructing named entity recognition model and storage medium
KR20120045906A (en) Apparatus and method for correcting error of corpus
KR101705228B1 (en) Electronic document producing apparatus, and control method thereof
CN114491209A (en) Method and system for mining enterprise business label based on internet information capture
CN117643036A (en) Cognitive test script generation based on artificial intelligence
CN114547391A (en) Message auditing method and device
CN113673255B (en) Text function area splitting method and device, computer equipment and storage medium

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application