KR102403617B1 - 학습 데이터 생성 장치 및 방법 - Google Patents
학습 데이터 생성 장치 및 방법 Download PDFInfo
- Publication number
- KR102403617B1 KR102403617B1 KR1020210140287A KR20210140287A KR102403617B1 KR 102403617 B1 KR102403617 B1 KR 102403617B1 KR 1020210140287 A KR1020210140287 A KR 1020210140287A KR 20210140287 A KR20210140287 A KR 20210140287A KR 102403617 B1 KR102403617 B1 KR 102403617B1
- Authority
- KR
- South Korea
- Prior art keywords
- data
- annotation
- learning
- temporary
- training data
- Prior art date
Links
- 238000012549 training Methods 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000013145 classification model Methods 0.000 claims abstract description 70
- 238000013523 data management Methods 0.000 claims description 25
- 238000012795 verification Methods 0.000 claims description 21
- 238000012937 correction Methods 0.000 claims description 10
- 238000013500 data storage Methods 0.000 claims description 6
- 238000010200 validation analysis Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도2는 본 발명의 일 실시 예에 따른 학습 데이터 생성 장치를 설명하기 위해 나타낸 블록도.
도3은 도2의 실시 예에 따른 학습 데이터 생성 장치의 데이터 생성부 구성을 나타낸 블록도.
도4는 본 발명의 일 실시 예에 따른 학습 데이터 생성 방법을 설명하기 위해 나타낸 흐름도.
도5는 본 발명의 일 실시 예에 따른 학습 데이터 생성 방법의 학습 데이터를 나타낸 예시도.
110 : 학습 데이터 생성부
120 : 학습 데이터 관리부
130 : 학습 데이터 저장부
200 : 어노테이션 작업부
300 : 모델 학습부
400 : 학습 데이터
410 : 태깅영역
420 : 예측 결과 표시부
Claims (11)
- 비정형 학습 데이터를 기반으로 하나 이상의 어노테이션 작업부(200)에서 어노테이션(Annotation)된 학습 데이터를 생성하는 학습 데이터 생성부(110);
상기 어노테이션된 학습 데이터 중에서 일정 개수의 임시 학습 데이터를 기반으로 모델 학습부(300)의 분류 모델이 학습을 수행하도록 관리하되, 상기 모델 학습부(300)의 분류 모델이 임시 학습 데이터를 이용한 모델 학습을 완료하면, 어노테이션 되지 않은 데이터의 예측을 수행하여 상기 어노테이션 되지 않은 데이터의 예측 결과와 예측 결과에 대한 판단 이유의 확률 값을 상기 어노테이션 작업부(200)로 전달하고, 예측 결과 중에서 상기 예측 결과가 일정 기준 이하인 어노테이션 되지 않은 데이터는 새로운 어노테이션 후보 데이터로 선택해 분류 모델의 학습 데이터로 생성하는 학습 데이터 관리부(120); 및
상기 분류 모델의 학습 데이터를 저장하는 학습 데이터 저장부(130);를 포함하고,
상기 학습 데이터 관리부(120)는 임시 학습 데이터에서 추출한 임시 검증 데이터의 예측 결과가 틀린 경우, 상기 예측 결과가 틀린 임시 검증 데이터의 토큰에 대한 어텐션 스코어(Attention Score)를 확인 후 해당 토큰의 어노테이션 스코어가 변경되도록 어노테이션 요건을 관리하는 것을 특징으로 하는 학습 데이터 생성 장치. - 제 1 항에 있어서,
상기 학습 데이터는 STT(Speach to text) 데이터 및 텍스트 데이터 중 어느 하나의 비정형 데이터인 것을 특징으로 하는 학습 데이터 생성 장치. - 삭제
- 제 1 항에 있어서,
상기 학습 데이터 관리부(120)는 임시 학습 데이터의 어노테이션시 데이터의 정합성을 위해 복수의 어노테이션 작업부(200)에 동일한 학습 데이터가 전송되도록 관리하는 것을 특징으로 하는 학습 데이터 생성 장치. - 제 1 항에 있어서,
상기 학습 데이터 관리부(120)는 임시 학습 데이터에서 추출한 임시 검증 데이터의 어텐션 스코어(Attention Score)를 분석하여 현재 설정된 어노테이션 요건의 수정이 필요한지 여부를 판단하고, 수정이 필요하면, 어노테이션 요건의 수정 정보를 상기 어노테이션 작업부로 전송하는 것을 특징으로 하는 학습 데이터 생성 장치. - 삭제
- a) 데이터 생성부(100)가 임의의 데이터에 대해 하나 이상의 어노테이션 작업부(200)에서 어노테이션(Annotation)을 수행하여 임시 학습 데이터를 생성하고, 일정 개수의 임시 학습 데이터를 기반으로 모델 학습부(300)의 분류 모델이 학습되도록 관리하는 단계;
b) 상기 데이터 생성부(100)가 a) 단계에서 학습이 완료된 분류 모델을 통해 어노테이션 되지 않은 데이터의 예측을 수행하여 상기 어노테이션 되지 않은 데이터의 예측 결과와 예측 결과에 대한 판단 이유의 확률 값을 상기 어노테이션 작업부(200)로 전달하는 단계; 및
c) 상기 데이터 생성부(100)가 예측 결과 중에서 상기 예측 결과가 일정 기준 이하인 어노테이션 되지 않은 데이터를 새로운 어노테이션 후보 데이터로 선택해 분류 모델의 학습 데이터로 생성하는 단계;를 포함하고,
상기 c) 단계에서 상기 데이터 생성부(100)는 임시 학습 데이터에서 추출한 임시 검증 데이터의 예측 결과가 틀린 경우, 상기 예측 결과가 틀린 임시 검증 데이터의 토큰에 대한 어텐션 스코어(Attention Score)를 확인 후 해당 토큰의 어노테이션 스코어가 변경되도록 어노테이션 요건을 관리하는 단계를 더 포함하는 것을 특징으로 하는 학습 데이터 생성 방법. - 제 7 항에 있어서,
상기 학습 데이터는 STT(Speach to text) 데이터 및 텍스트 데이터 중 어느 하나의 비정형 데이터인 것을 특징으로 하는 학습 데이터 생성 방법. - 제 7 항에 있어서,
상기 a) 단계는 상기 데이터 생성부(100)가 임시 학습 데이터의 어노테이션시 복수의 어노테이션 작업부(200)에 동일한 학습 데이터가 전송되도록 관리하는 것을 특징으로 하는 학습 데이터 생성 방법. - 제 7 항에 있어서,
b) 단계는 상기 데이터 생성부(100)가 임시 학습 데이터에서 추출한 임시 검증 데이터의 어텐션 스코어(Attention Score)를 분석하여 현재 설정된 어노테이션 요건의 수정이 필요한지 여부를 판단하고, 수정이 필요하면, 어노테이션 요건의 수정 정보를 상기 어노테이션 작업부(200)로 전송하는 단계;를 더 포함하는 것을 특징으로 하는 학습 데이터 생성 방법. - 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210140287A KR102403617B1 (ko) | 2021-10-20 | 2021-10-20 | 학습 데이터 생성 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210140287A KR102403617B1 (ko) | 2021-10-20 | 2021-10-20 | 학습 데이터 생성 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102403617B1 true KR102403617B1 (ko) | 2022-05-30 |
Family
ID=81796720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210140287A KR102403617B1 (ko) | 2021-10-20 | 2021-10-20 | 학습 데이터 생성 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102403617B1 (ko) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200054138A (ko) * | 2020-01-28 | 2020-05-19 | 주식회사 루닛 | 어노테이션 작업 관리 방법, 이를 지원하는 장치 및 시스템 |
KR102246266B1 (ko) * | 2020-06-08 | 2021-04-29 | 주식회사 루닛 | 레이블 정보에 대한 피드백을 제공하는 방법 및 시스템 |
JP2021089491A (ja) * | 2019-12-02 | 2021-06-10 | 株式会社日立ソリューションズ・クリエイト | アノテーション装置および方法 |
KR102310589B1 (ko) | 2021-03-19 | 2021-10-13 | 주식회사 인피닉 | 스크립트를 이용한 어노테이션 결과물의 검증 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
-
2021
- 2021-10-20 KR KR1020210140287A patent/KR102403617B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021089491A (ja) * | 2019-12-02 | 2021-06-10 | 株式会社日立ソリューションズ・クリエイト | アノテーション装置および方法 |
KR20200054138A (ko) * | 2020-01-28 | 2020-05-19 | 주식회사 루닛 | 어노테이션 작업 관리 방법, 이를 지원하는 장치 및 시스템 |
KR102246266B1 (ko) * | 2020-06-08 | 2021-04-29 | 주식회사 루닛 | 레이블 정보에 대한 피드백을 제공하는 방법 및 시스템 |
KR102310589B1 (ko) | 2021-03-19 | 2021-10-13 | 주식회사 인피닉 | 스크립트를 이용한 어노테이션 결과물의 검증 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377632B (zh) | 诉讼结果预测方法、装置、计算机设备和存储介质 | |
WO2021128679A1 (zh) | 基于数据决策的测试数据生成方法、装置、计算机设备 | |
CN106250385A (zh) | 用于文档的自动化信息抽象处理的系统和方法 | |
CN110569356B (zh) | 基于智能面试交互系统的面试方法、装置和计算机设备 | |
CN108228705A (zh) | 直播视频反馈中的自动对象和活动跟踪设备、方法及介质 | |
CN110858176B (zh) | 代码质量评估方法、装置、系统及存储介质 | |
CN104246656A (zh) | 建议的视频编辑的自动检测 | |
WO2021179445A1 (zh) | 基于对话状态预测的多轮对话方法、装置和计算机设备 | |
CN110234018A (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
US10747956B2 (en) | Artificial intelligence process automation for enterprise business communication | |
US20190087828A1 (en) | Method, apparatus, and computer-readable media for customer interaction semantic annotation and analytics | |
CN110637321A (zh) | 动态申索提交系统 | |
US11935315B2 (en) | Document lineage management system | |
CN118114653B (zh) | 一种个性化演讲稿的生成方法及系统 | |
CN112732949A (zh) | 一种业务数据的标注方法、装置、计算机设备和存储介质 | |
US20200202068A1 (en) | Computing apparatus and information input method of the computing apparatus | |
KR102707314B1 (ko) | 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약사항 키워드 추출 기술 | |
US20240242108A1 (en) | Training of machine learning models for predicting document metadata | |
KR102403617B1 (ko) | 학습 데이터 생성 장치 및 방법 | |
US20210216287A1 (en) | Methods and systems for automated screen display generation and configuration | |
KR102681147B1 (ko) | 검색 증강 생성을 통한 인공지능 챗봇 사용자 의도에 적합한 답변 생성을 구현하기 위한 방법 및 장치 | |
CN117992434A (zh) | 一种企业数据内部安全管控的方法及系统 | |
Moreno et al. | CTLR@ WiC-TSV: Target Sense Verification using Marked Inputs andPre-trained Models | |
CN116975447B (zh) | 一种便携式学习机及其资源检索方法 | |
KR102715898B1 (ko) | 데이터 분석을 위한 테이블 분석 처리 방법 및 그를 위한 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20211020 |
|
PA0201 | Request for examination | ||
PA0302 | Request for accelerated examination |
Patent event date: 20211028 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination Patent event date: 20211020 Patent event code: PA03021R01I Comment text: Patent Application |
|
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20220120 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20220525 |
|
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20220525 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20220525 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |