KR20100062801A - Method and apparatus of training data verication using machine learning - Google Patents
Method and apparatus of training data verication using machine learning Download PDFInfo
- Publication number
- KR20100062801A KR20100062801A KR1020090023605A KR20090023605A KR20100062801A KR 20100062801 A KR20100062801 A KR 20100062801A KR 1020090023605 A KR1020090023605 A KR 1020090023605A KR 20090023605 A KR20090023605 A KR 20090023605A KR 20100062801 A KR20100062801 A KR 20100062801A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- learning
- verification
- separated
- machine learning
- Prior art date
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 title claims description 81
- 238000013524 data verification Methods 0.000 claims abstract description 21
- 238000012795 verification Methods 0.000 claims description 54
- 238000000926 separation method Methods 0.000 claims description 20
- 238000010200 validation analysis Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Educational Technology (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
Description
본 발명은 기계 학습을 이용한 학습 데이터 검증 장치 및 방법에 관한 것으로서, 더욱 상세하게는 주어진 초기 학습 데이터를 학습 데이터와 검증 데이터를 분리한 후 기계 학습과 자동 태깅을 수행하여 학습 데이터의 오류 후보를 제공하는 기계 학습을 이용한 학습 데이터 검증 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for verifying learning data using machine learning. More particularly, the present invention provides an error candidate for learning data by performing machine learning and automatic tagging after separating learning data and verification data from a given initial learning data. An apparatus and method for verifying learning data using machine learning are provided.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발 사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호 : 2008-S-020-01, 과제명 : 웹 QA 기술개발].The present invention is derived from a study conducted as part of the IT growth engine technology development project of the Ministry of Knowledge Economy and the Ministry of Information and Communication Research and Development. [Task management number: 2008-S-020-01, Task name: Web QA technology development].
종래 기술에 따라 학습 데이터의 오류를 찾아내는 기술은, 초기 학습 데이터로부터 자질 생성 후 기계 학습을 이용하여 학습 모델을 생성하고, 학습 모델을 이용하여 원시 코퍼스에 자동으로 태그를 부착하여 학습 데이터 후보를 생성하며, 학 습 데이터 후보들의 신뢰 점수를 계산하여 학습 데이터 후보를 생성하고, 이렇게 생성한 학습 데이터 후보를 사용자에게 제시하고, 이를 사용자가 그래픽 유저 인터페이스를 이용하여 오류 수정하여 이를 학습 데이터에 추가하면 새로 생성한 학습 데이터로부터 새로운 학습 모델을 생성하여 기존의 학습 모델과 함께 보팅(voting)을 이용하여 정답 추측에 쓰이게 되며, 이러한 과정을 반복하여 점진적으로 자동 태깅의 정확성을 높이고 학습 데이터를 증강시킨다.According to the prior art, the technique of finding an error of training data generates a training model using machine learning after generating a feature from initial training data, and automatically generates a training data candidate by tagging a raw corpus using the training model. The training data candidates are generated by calculating the confidence scores of the training data candidates, and the generated training data candidates are presented to the user. A new learning model is generated from the generated training data and used for voting for correct answers using voting along with the existing training model. This process is repeated to gradually increase the accuracy of automatic tagging and to enhance the training data.
전술한 바와 같이 종래 기술에 따라 학습 데이터의 오류를 찾아내는 기술은, 초기 학습 데이터를 이용하여 학습 데이터를 추가 구축하는 방안을 제시한 것이나, 초기 학습 데이터의 오류를 판별할 수 없는 문제점이 있었다.As described above, the technique of finding the error of the training data according to the prior art suggests a method of additionally constructing the training data using the initial training data, but there is a problem in that the error of the initial training data cannot be discriminated.
본 발명은 이와 같은 종래 기술의 문제점을 해결하기 위해 제안한 것으로서, 주어진 초기 학습 데이터를 학습 데이터와 검증 데이터를 분리한 후 기계 학습과 자동 태깅을 수행하여 학습 데이터의 오류 후보를 제공하는 기계 학습을 이용한 학습 데이터 검증 장치 및 방법을 제공한다.The present invention has been proposed to solve such a problem of the prior art, and using machine learning to provide an error candidate of learning data by performing machine learning and automatic tagging after separating the learning data and the verification data from the given initial learning data. An apparatus and method for verifying learning data are provided.
나아가 본 발명은 검증 입력에 의거하여 오류 후보를 검증 또는 수정한 결과인 검증된 학습 데이터와 오류 후보에서 제외된 학습 데이터를 합쳐서 최종 검증된 학습 데이터를 생성 및 제공한다.Furthermore, the present invention generates and provides the finally verified learning data by combining the verified learning data which is a result of verifying or correcting the error candidate and the learning data excluded from the error candidate based on the verification input.
본 발명의 일 관점에 따른 기계 학습을 이용한 학습 데이터 검증 장치는, 주어진 초기 학습 데이터에 대해서 N(단, N은 자연수)개의 학습 데이터와 검증 데이터를 분리하는 학습 데이터 분리부와, 분리한 상기 학습 데이터로부터 기계 학습을 수행하여 학습 모델을 생성하는 기계 학습부와, 생성한 상기 학습 모델을 이용하여 상기 검증 데이터의 원문을 자동 태깅하여 자동 태깅 결과를 제공하는 자동 태깅부와, 상기 검증 데이터와 상기 자동 태깅 결과를 비교하여 판별한 상기 학습 데이터의 오류 후보를 제공하는 오류 판별부를 포함한다.The learning data verification apparatus using machine learning according to an aspect of the present invention includes a learning data separating unit that separates N (where N is a natural number) learning data and verification data for a given initial learning data, and separates the learning. A machine learning unit which generates a learning model by performing machine learning from data, an automatic tagging unit which automatically tags the original text of the verification data using the generated learning model, and provides an automatic tagging result, the verification data and the And an error determination unit for providing an error candidate of the training data determined by comparing the automatic tagging results.
여기서, 상기 오류 판별부는, 검증 입력에 의거하여 상기 오류 후보를 검증 또는 수정한 결과인 검증된 학습 데이터와 상기 오류 후보에서 제외된 학습 데이터를 합쳐서 최종 검증된 학습 데이터를 생성 및 제공한다.Here, the error determining unit generates and provides final verified learning data by combining verified learning data that is a result of verifying or correcting the error candidate and learning data excluded from the error candidate based on a verification input.
상기 오류 판별부는, 상기 검증 데이터의 초기 태깅 결과와 상기 자동 태깅 결과를 비교하여 상기 오류 후보를 판별한다.The error determination unit determines the error candidate by comparing the initial tagging result of the verification data with the automatic tagging result.
상기 학습 데이터 분리부는, 상기 초기 학습 데이터를 N개의 분리 데이터로 분리하고, 이 분리한 N개의 분리 데이터로부터 N개의 학습 데이터-검증 데이터 쌍을 만든다.The training data separating unit separates the initial training data into N pieces of separated data, and generates N pieces of learning data-verification data pairs from the separated pieces of N pieces of separated data.
상기 학습 데이터 분리부는, 상기 N개의 분리 데이터에서 첫번째 분리 데이터부터 K-1(단, K는 N보다 작은 자연수)번째 분리 데이터와 K+1번째 분리 데이터부터 N번째 분리 데이터까지의 총 N-1개의 분리 데이터를 상기 학습 데이터로 생성하 고, 나머지 K번째 분리 데이터를 상기 검증 데이터로 생성하며, N-1개의 상기 학습 데이터와 K번째의 상기 검증 데이터를 총 N개의 쌍으로 만든다.The training data separator may include a total of N-1 from the first divided data to K-1 (where K is a natural number smaller than N) and the K + 1th separated data to the Nth separated data in the N pieces of separated data. Separate pieces of data are generated as the learning data, and the remaining K-th pieces of separation data are generated as the verification data, and N-1 pieces of the learning data and the K-th verification data are generated as a total of N pairs.
본 발명의 다른 관점으로서 기계 학습을 이용한 학습 데이터 검증 방법은, 주어진 초기 학습 데이터에 대해서 N(단, N은 자연수)개의 학습 데이터와 검증 데이터를 분리하는 단계와, 분리한 상기 학습 데이터로부터 기계 학습을 수행하여 학습 모델을 생성하는 단계와, 생성한 상기 학습 모델을 이용하여 상기 검증 데이터의 원문을 자동 태깅하여 자동 태깅 결과를 제공하는 단계와, 상기 검증 데이터와 상기 자동 태깅 결과를 비교하여 판별한 상기 학습 데이터의 오류 후보를 제공하는 단계를 포함한다.According to another aspect of the present invention, a learning data verification method using machine learning includes separating N (where N is a natural number) learning data and verification data for a given initial learning data, and machine learning from the separated learning data. Generating a learning model, automatically tagging the original text of the verification data using the generated learning model to provide an automatic tagging result, and comparing and verifying the verification data with the automatic tagging result. Providing an error candidate for the training data.
여기서, 상기 오류 후보를 제공하는 단계는, 검증 입력에 의거하여 상기 오류 후보를 검증 또는 수정한 결과인 검증된 학습 데이터와 상기 오류 후보에서 제외된 학습 데이터를 합쳐서 최종 검증된 학습 데이터를 생성 및 제공한다.The providing of the error candidate may include generating and providing the finally verified learning data by combining the verified learning data that is a result of verifying or correcting the error candidate and the learning data excluded from the error candidate based on a verification input. do.
상기 오류 후보를 제공하는 단계는, 상기 검증 데이터의 초기 태깅 결과와 상기 자동 태깅 결과를 비교하여 상기 오류 후보를 판별한다.In the providing of the error candidate, the error candidate is determined by comparing the initial tagging result of the verification data with the automatic tagging result.
상기 분리하는 단계는, 상기 초기 학습 데이터를 N개의 분리 데이터로 분리하고, 이 분리한 N개의 분리 데이터로부터 N개의 학습 데이터-검증 데이터 쌍을 만든다.In the separating step, the initial training data is separated into N pieces of separated data, and N pieces of learning data-verification data pairs are generated from the separated pieces of N pieces of separated data.
상기 분리하는 단계는, 상기 N개의 분리 데이터에서 첫번째 분리 데이터부터 K-1(단, K는 N보다 작은 자연수)번째 분리 데이터와 K+1번째 분리 데이터부터 N번 째 분리 데이터까지의 총 N-1개의 분리 데이터를 상기 학습 데이터로 생성하고, 나머지 K번째 분리 데이터를 상기 검증 데이터로 생성하며, N-1개의 상기 학습 데이터와 K번째의 상기 검증 데이터를 총 N개의 쌍으로 만든다.In the separating step, the first separation data from the N pieces of separation data, K-1 (where K is a natural number smaller than N) and the total N− from the K + 1st separation data to the Nth separation data One piece of separated data is generated as the learning data, the remaining K-th pieces of separation data are generated as the verification data, and N-1 pieces of the learning data and the Kth pieces of verification data are made into a total of N pairs.
본 발명에 의하면 주어진 초기 학습 데이터에 대해서 학습 데이터와 검증 데이터를 분리하고, 분리한 학습 데이터로부터 기계 학습을 수행하여 학습 모델을 생성하며, 생성한 학습 모델을 이용하여 검증 데이터의 원문을 자동 태깅하고, 검증 데이터와 자동 태깅 결과를 비교하여 학습 데이터의 오류를 판별함으로써, 초기 학습 데이터의 오류를 효율적으로 검증할 수 있다.According to the present invention, the training data and the validation data are separated for the given initial training data, machine learning is performed from the separated training data to generate a training model, and the original text of the validation data is automatically tagged using the generated training model. The error of the training data can be efficiently verified by comparing the validation data with the automatic tagging result.
아울러, 사용자의 검증 입력에 의거하여 오류 후보를 검증 또는 수정한 결과인 검증된 학습 데이터와 오류 후보에서 제외된 학습 데이터를 합쳐서 최종 검증된 학습 데이터를 생성 및 제공할 수 있다.In addition, the final verified learning data may be generated and provided by combining the verified learning data that is a result of verifying or correcting the error candidate and the learning data excluded from the error candidate based on the verification input of the user.
이하, 본 발명의 일부 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 아울러 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.Hereinafter, some embodiments of the present invention will be described in detail with reference to the accompanying drawings. In addition, in describing the present invention, when it is determined that the detailed description of the related known configuration or function may obscure the gist of the present invention, the detailed description thereof will be omitted.
도 1은 본 발명의 실시예에 따른 기계 학습을 이용한 학습 데이터 검증 장치의 블록 구성도이다.1 is a block diagram of an apparatus for verifying training data using machine learning according to an exemplary embodiment of the present invention.
이에 나타낸 바와 같이 본 발명의 학습 데이터 검증 장치는, 학습 데이터 분리부(110), 기계 학습부(120), 자동 태깅부(130), 오류 판별부(140) 등을 포함하여 구성된다.As described above, the apparatus for verifying learning data of the present invention includes a learning
학습 데이터 분리부(110)는 주어진 초기 학습 데이터에 대해서 N(단, N은 자연수)개의 학습 데이터와 검증 데이터를 분리하여 기계 학습부(120)에게 전달한다. 여기서, 학습 데이터 분리부(110)는 초기 학습 데이터를 N개의 분리 데이터로 분리하고, 이 분리한 N개의 분리 데이터로부터 N개의 학습 데이터-검증 데이터 쌍을 만든다. 예컨대, N개의 분리 데이터에서 첫번째 분리 데이터부터 K-1(단, K는 N보다 작은 자연수)번째 분리 데이터와 K+1번째 분리 데이터부터 N번째 분리 데이터까지의 총 N-1개의 분리 데이터를 학습 데이터로 생성하고, 나머지 K번째 분리 데이터를 검증 데이터로 생성하며, N-1개의 학습 데이터와 K번째의 검증 데이터를 총 N개의 쌍으로 만든다. 이러한 학습 데이터 분리 과정에 대해서는 도 3을 참조하여 아래에서 상세히 설명하기로 한다.The training
기계 학습부(120)는 학습 데이터 분리부(110)가 분리한 학습 데이터로부터 기계 학습을 수행하여 생성한 학습 모델을 자동 태깅부(130)에게 제공한다.The
자동 태깅부(130)는 기계 학습부(120)에서 생성한 학습 모델을 이용하여 학습 데이터 분리부(110)에서 분리한 검증 데이터의 원문을 자동 태깅하며, 자동 태깅 결과를 오류 판별부(140)에게 제공한다.The
오류 판별부(140)는 학습 데이터 분리부(110)에서 분리한 검증 데이터와 오류 판별부(140)에 의한 자동 태깅 결과를 비교, 즉 검증 데이터의 초기 태깅 결과와 자동 태깅부(130)에 의한 자동 태깅 결과를 비교하여 학습 데이터의 오류 후보를 판별하며, 그래픽 유저 인터페이스 등과 같은 입출력장치를 통해 제공한다. 아울러 오류 판별부(140)는 입출력장치를 통한 사용자의 검증 입력에 의거하여 오류 후보를 검증 또는 수정한 결과인 검증된 학습 데이터와 오류 후보에서 제외된 학습 데이터를 합쳐서 최종 검증된 학습 데이터를 생성 및 제공한다.The
도 2는 본 발명의 실시예에 따른 기계 학습을 이용한 학습 데이터 검증 방법을 설명하기 위한 흐름도이다.2 is a flowchart illustrating a method of verifying training data using machine learning according to an exemplary embodiment of the present invention.
이에 나타낸 바와 같이 본 발명의 학습 데이터 검증 방법은, 주어진 초기 학습 데이터에 대해서 N(단, N은 자연수)개의 학습 데이터와 검증 데이터를 분리하는 단계(S210)와, 분리한 학습 데이터로부터 기계 학습을 수행하여 학습 모델을 생성하는 단계(S220)와, 생성한 학습 모델을 이용하여 검증 데이터의 원문을 자동 태깅하여 자동 태깅 결과를 제공하는 단계(S230)와, 검증 데이터와 자동 태깅 결과를 비교하여 판별한 학습 데이터의 오류 후보를 제공한 후에 검증 입력에 의거하여 오류 후보를 검증 또는 수정한 결과인 검증된 학습 데이터와 오류 후보에서 제외된 학습 데이터를 합쳐서 최종 검증된 학습 데이터를 생성 및 제공하는 단계(S240) 등을 포함하여 이루어진다.As shown therein, the training data verification method of the present invention comprises the steps of separating the training data and the verification data from N (where N is a natural number) for the given initial training data (S210), and performing machine learning from the separated training data. A step of generating a training model by performing (S220), the step of automatically tagging the original text of the verification data using the generated training model to provide an automatic tagging results (S230), and compares the verification data and the automatic tagging results to determine After providing an error candidate of one training data, generating and providing final validated training data by combining the verified training data that is the result of verifying or correcting the error candidate based on the validation input and the training data excluded from the error candidate ( S240) and the like.
도 1 내지 도 3을 참조하여 본 발명의 실시예에 따른 기계 학습을 이용한 학습 데이터 검증 장치에 의한 초기 학습 데이터의 검증 과정을 자세히 살펴보면 다음과 같다.1 to 3, the process of verifying initial learning data by the apparatus for verifying learning data using machine learning according to an embodiment of the present invention will be described in detail as follows.
먼저, 학습 데이터 분리부(110)는 주어진 초기 학습 데이터(10)에 대해서 N개의 학습 데이터(20)와 검증 데이터(30)를 분리한다(S210).First, the training
이러한 학습 데이터(20) 및 검증 데이터(30)의 분리 과정을 도 3을 참조하여 살펴보면, 학습 데이터 분리부(110)는 초기 학습 데이터(10)를 N개의 분리 데이터(21, …, 23, 31, 25, …, 27)로 분리하고, 이 분리한 N개의 분리 데이터(21, …, 23, 31, 25, …, 27)로부터 N개의 학습 데이터-검증 데이터 쌍을 만든다. K번째 학습 데이터-검증 데이터 쌍을 예를 들어 설명하면, N개의 분리 데이터(21, …, 23, 31, 25, …, 27)에서 첫번째 분리 데이터(21)부터 K-1(단, K는 N보다 작은 자연수)번째 분리 데이터(23)와 K+1번째 분리 데이터(25)부터 N번째 분리 데이터(27)까지의 총 N-1개의 분리 데이터(21, …, 23, 25, …, 27)를 학습 데이터(20a)로 생성하고, 나머지 K번째 분리 데이터(31)를 검증 데이터(30a)로 생성하며, N-1개의 학습 데이터(20a)와 K번째의 검증 데이터(30a)를 총 N개의 쌍으로 만든다.Looking at the separation process of the learning
그리고, 기계 학습부(120)는 학습 데이터 분리부(110)가 분리한 학습 데이터(20)로부터 기계 학습을 수행하여 학습 모델을 생성하여 자동 태깅부(130)에게 제공한다(S220).In addition, the
자동 태깅부(130)는 기계 학습부(120)가 생성한 학습 모델을 이용하여 검증 데이터(30)의 원문을 자동 태깅하여 자동 태깅 결과를 오류 판별부(140)에게 제공 한다(S230).The
다음으로, 오류 판별부(140)는 학습 데이터 분리부(110)에서 분리한 검증 데이터(30)와 오류 판별부(140)에 의한 자동 태깅 결과를 비교, 즉 검증 데이터(30)의 초기 태깅 결과와 자동 태깅부(130)에 의한 자동 태깅 결과를 비교하여 학습 데이터(20)의 오류 후보를 판별하며, 오류 후보를 그래픽 유저 인터페이스 등과 같은 입출력장치를 통해 제공한다.Next, the
이러한 오류 판별을 위한 비교 과정을 일예를 통해 살펴보면 아래와 같다.Looking at the comparison process for determining such an error through an example as follows.
학습 데이터의 구성은 다음과 같이 원문과 자동 태깅 결과로 이루어진다(개체명 인식의 예). 또한 검증 데이터도 학습 데이터와 같은 형식으로 구성되어 있다.The structure of the training data consists of the original text and the result of automatic tagging (example of object name recognition). The verification data is also organized in the same format as the training data.
『원문: 한국·일본·만주·우수리강 등지에 분포한다.『Original text: It is distributed in Korea, Japan, Manchuria, and Usuri River.
개체명인식태깅: <한국: Location>·<일본: Location >·<만주: Location >·<우수리강: Location > 등지에 분포한다.』Individual name tagging: <Korea: Location> · <Japan: Location> · <Manchurian: Location> · <Usuri River: Location>
자동 태깅 과정에서는 위의 학습 모델을 이용하여 검증 데이터의 원문 부분을 자동 태깅하고, 오류 판별 과정에서는 자동 태깅 결과와 검증 데이터의 원래 태깅 결과를 비교하게 된다.In the automatic tagging process, the original text portion of the verification data is automatically tagged using the above learning model. In the error determination process, the automatic tagging result is compared with the original tagging result of the verification data.
끝으로, 오류 판별부(140)는 입출력장치를 통하여 사용자의 검증을 입력받으며, 입출력장치를 통해 제공한 오류 후보를 사용자의 검증 입력에 의거하여 검증하거나 수정하여 그 결과인 검증된 학습 데이터를 도출한다. 그리고, 이렇게 도출한 검증된 학습 데이터와 오류 후보에서 제외된 학습 데이터를 합쳐서 최종 검증된 학 습 데이터(40)를 생성 및 제공한다.Finally, the
본 발명에 의한 기계 학습을 이용한 학습 데이터 검증 방법은 컴퓨터 프로그램으로 작성 가능하다. 이 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 해당 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 기계 학습을 이용한 학습 데이터 검증 방법을 구현한다. 정보저장매체는 자기 기록매체, 광 기록매체 및 캐리어 웨이브 매체를 포함한다.Learning data verification method using the machine learning according to the present invention can be created by a computer program. The code and code segments that make up this computer program can be easily deduced by a computer programmer in the field. In addition, the computer program is stored in a computer readable media, and read and executed by a computer, thereby implementing a learning data verification method using machine learning. The information storage medium includes a magnetic recording medium, an optical recording medium and a carrier wave medium.
지금까지 본 발명에 대하여 그 일부 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.So far, the present invention has been described with reference to some embodiments thereof. Those skilled in the art will appreciate that the present invention can be implemented in a modified form without departing from the essential features of the present invention. Therefore, the disclosed embodiments should be considered in descriptive sense only and not for purposes of limitation. The scope of the present invention is shown in the claims rather than the foregoing description, and all differences within the scope will be construed as being included in the present invention.
도 1은 본 발명의 실시예에 따른 기계 학습을 이용한 학습 데이터 검증 장치의 블록 구성도,1 is a block diagram of a learning data verification apparatus using machine learning according to an embodiment of the present invention;
도 2는 본 발명의 실시예에 따른 기계 학습을 이용한 학습 데이터 검증 방법을 설명하기 위한 흐름도,2 is a flowchart illustrating a method of verifying training data using machine learning according to an embodiment of the present invention;
도 3은 본 발명의 실시예에 따른 기계 학습을 이용한 학습 데이터 검증 방법에 의한 학습 데이터 분리 과정을 나타낸 개념도.3 is a conceptual diagram illustrating a process of separating learning data by the learning data verification method using machine learning according to an embodiment of the present invention.
<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>
110 : 학습 데이터 분리부110: learning data separation unit
120 : 기계 학습부120: machine learning unit
130 : 자동 태깅부130: automatic tagging unit
140 : 오류 판별부140: error determination unit
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/624,161 US8458520B2 (en) | 2008-12-01 | 2009-11-23 | Apparatus and method for verifying training data using machine learning |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080120789 | 2008-12-01 | ||
KR20080120789 | 2008-12-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20100062801A true KR20100062801A (en) | 2010-06-10 |
Family
ID=42363008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090023605A KR20100062801A (en) | 2008-12-01 | 2009-03-19 | Method and apparatus of training data verication using machine learning |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20100062801A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160059845A (en) * | 2014-11-19 | 2016-05-27 | 주식회사 스토리안트 | Inventory management method and apparatus |
KR102096737B1 (en) * | 2019-03-28 | 2020-04-02 | 한국과학기술원 | Distributed machine learning method with fault tolerance using LDPC codes and apparatus therefore |
KR20200055814A (en) * | 2018-11-08 | 2020-05-22 | 한국항공대학교산학협력단 | Device and method for high quality data discrimination for machine learning using block chain |
KR20210083726A (en) * | 2019-12-27 | 2021-07-07 | 재단법인대구경북과학기술원 | Method and apparatus for determining training data for updating algorithm |
KR20210157302A (en) * | 2020-06-19 | 2021-12-28 | (주)브릭 | Method and Apparatus for Automatic Predictive Modeling Based on Workflow |
KR20220065640A (en) * | 2020-11-13 | 2022-05-20 | 홍채은 | A method of learning data characteristics and method of identifying fake information through self-supervised learning |
KR20220089308A (en) | 2020-12-21 | 2022-06-28 | 한국전자통신연구원 | Method and system for tagging learning corpus automatically based on transfer learning |
KR20230051006A (en) | 2021-10-08 | 2023-04-17 | 주식회사 케이티 | Server, method and computer program for establishing learning data for neural network model |
-
2009
- 2009-03-19 KR KR1020090023605A patent/KR20100062801A/en not_active Application Discontinuation
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160059845A (en) * | 2014-11-19 | 2016-05-27 | 주식회사 스토리안트 | Inventory management method and apparatus |
KR20200055814A (en) * | 2018-11-08 | 2020-05-22 | 한국항공대학교산학협력단 | Device and method for high quality data discrimination for machine learning using block chain |
KR102096737B1 (en) * | 2019-03-28 | 2020-04-02 | 한국과학기술원 | Distributed machine learning method with fault tolerance using LDPC codes and apparatus therefore |
KR20210083726A (en) * | 2019-12-27 | 2021-07-07 | 재단법인대구경북과학기술원 | Method and apparatus for determining training data for updating algorithm |
KR20210157302A (en) * | 2020-06-19 | 2021-12-28 | (주)브릭 | Method and Apparatus for Automatic Predictive Modeling Based on Workflow |
KR20210157303A (en) * | 2020-06-19 | 2021-12-28 | (주)브릭 | Method and Apparatus for Automatic Predictive Modeling Based on Workflow Implemented in Heterogeneous Languages |
KR20220065640A (en) * | 2020-11-13 | 2022-05-20 | 홍채은 | A method of learning data characteristics and method of identifying fake information through self-supervised learning |
KR20220089308A (en) | 2020-12-21 | 2022-06-28 | 한국전자통신연구원 | Method and system for tagging learning corpus automatically based on transfer learning |
KR20230051006A (en) | 2021-10-08 | 2023-04-17 | 주식회사 케이티 | Server, method and computer program for establishing learning data for neural network model |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20100062801A (en) | Method and apparatus of training data verication using machine learning | |
CN106534548B (en) | Voice error correction method and device | |
US8458520B2 (en) | Apparatus and method for verifying training data using machine learning | |
CN112287670A (en) | Text error correction method, system, computer device and readable storage medium | |
CN110750993A (en) | Word segmentation method, word segmentation device, named entity identification method and system | |
US8204738B2 (en) | Removing bias from features containing overlapping embedded grammars in a natural language understanding system | |
CN109800414A (en) | Faulty wording corrects recommended method and system | |
CN103678271B (en) | A kind of text correction method and subscriber equipment | |
CN110674396B (en) | Text information processing method and device, electronic equipment and readable storage medium | |
CN104573099A (en) | Topic searching method and device | |
Ljubešić et al. | Standardizing tweets with character-level machine translation | |
CN112069818B (en) | Triplet prediction model generation method, relation triplet extraction method and relation triplet extraction device | |
US20030061030A1 (en) | Natural language processing apparatus, its control method, and program | |
CN111325031B (en) | Resume analysis method and device | |
KR101374900B1 (en) | Apparatus for grammatical error correction and method for grammatical error correction using the same | |
JP5812534B2 (en) | Question answering apparatus, method, and program | |
JP5152918B2 (en) | Named expression extraction apparatus, method and program thereof | |
CN110852082B (en) | Synonym determination method and device | |
CN112329466A (en) | Method, device and equipment for constructing named entity recognition model and storage medium | |
KR20120045906A (en) | Apparatus and method for correcting error of corpus | |
KR101705228B1 (en) | Electronic document producing apparatus, and control method thereof | |
CN114491209A (en) | Method and system for mining enterprise business label based on internet information capture | |
CN117643036A (en) | Cognitive test script generation based on artificial intelligence | |
CN114547391A (en) | Message auditing method and device | |
CN113673255B (en) | Text function area splitting method and device, computer equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |