KR20230133056A - 지식정제를 통한 액티브 인공지능 학습 장치 및 방법 - Google Patents
지식정제를 통한 액티브 인공지능 학습 장치 및 방법 Download PDFInfo
- Publication number
- KR20230133056A KR20230133056A KR1020220030105A KR20220030105A KR20230133056A KR 20230133056 A KR20230133056 A KR 20230133056A KR 1020220030105 A KR1020220030105 A KR 1020220030105A KR 20220030105 A KR20220030105 A KR 20220030105A KR 20230133056 A KR20230133056 A KR 20230133056A
- Authority
- KR
- South Korea
- Prior art keywords
- learning
- data
- label
- model
- artificial intelligence
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims description 12
- 230000007717 exclusion Effects 0.000 claims description 6
- 230000007547 defect Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000000746 purification Methods 0.000 claims 5
- 238000013480 data collection Methods 0.000 description 26
- 238000012549 training Methods 0.000 description 20
- 238000002372 labelling Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000013459 approach Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000003121 nonmonotonic effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000006641 stabilisation Effects 0.000 description 3
- 238000011105 stabilization Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000116 mitigating effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003400 hallucinatory effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000013432 robust analysis Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 지식정제를 통한 액티브 인공지능 학습 장치 및 방법에 관한 것으로, 상기 장치는 제1 레이블 데이터로 구성된 학습 데이터 집합으로 훈련된 학습 모델을 생성하는 학습 모델 생성부, 언레이블 데이터를 상기 학습 모델에 입력하여 상기 언레이블 데이터에 레이블을 추가한 제2 레이블 데이터를 생성하는 데이터 레이블 처리부, 상기 제1 및 제2 레이블 데이터를 기초로 상기 학습 모델에 대한 액티브 학습을 진행하는 모델 학습부, 및 상기 제1 및 제2 레이블 데이터로 상기 학습 데이터 집합을 구축하는 데이터 획득부를 포함한다.
Description
본 발명은 액티브 학습 프레임워크에 관한 것으로, 보다 상세하게는 선택적 지식정제를 통해 학습 모델에 대한 액티브 학습을 진행하여 보다 효율적이고 믿을 수 있는 프레임워크를 제안할 수 있는 지식정제를 통한 액티브 인공지능 학습 장치 및 방법에 관한 것이다.
데이터 레이블링이란 인공지능(AI) 학습 데이터를 만들기 위해 원천 데이터값(레이블)을 붙이는 작업이라 할 수 있다. 이 데이터 레이블링(Data Labeling)이란 작업이 인공지능(AI) 전체에 있어서는 그 어떤 단계보다 중요한 단계라 할 수 있다.
인공지능을 학습하는 데이터를 인공지능 스스로가 선호하는 데이터를 보고 선별하여 학습하지는 못하기에 사람이 사용목적에 맞는 인공지능을 학습시키기 위해 데이터를 잘 만들어 주어야 한다. 인공지능(AI) 학습을 위한 데이터를 만드는 단계는 원천 데이터 수집, 데이터 수집/정제, 데이터 레이블링(Data Labeling), 데이터 검증 및 DB(Data Base) 구축의 5단계로 진행된다고 할 수 있다.
액티브 학습(Active Learning; AL)은 주로 데이터 셋의 양이 너무 방대하여 레이블링 작업이 어려워 레이블링 작업에서 발생하는 병목현상을 해결하기 위해 사용된다. 액티브 학습은 모델이 레이블링 되어 있지 않은 데이터 중 학습에 보다 효율적인 데이터를 골라 전문가에게 요청을 날리고 전문가는 그 요청에 따라 데이터를 레이블링하면 모델은 레이블 된 데이터를 받아 학습을 진행하는 형식이다. 액티브 학습은 충분한 레이블이 획득될 때까지 데이터 레이블 지정, 모델 훈련 및 데이터 획득의 반복으로 정의할 수 있다. 액티브 학습 단계 중 불일치(일관성의 역현상)로 인해 다음과 같은 문제가 발생할 수 있다.
● 레이블링에서 모델 훈련까지: 성공적인 데이터 획득에도 불구하고 나중에 학습된 지식을 잊어버리면 후속 레이블링 노력이 무효화될 수 있으며, 이는 어노테이션(annotation) 비용을 낭비하게 된다.
● 모델 훈련에서 데이터 수집까지: 일관되지 않은 데이터 수집 모델은 현재 데이터 분포에 대한 좋은 참조 역할을 할 수 없으므로 다음 데이터 수집 단계를 오염시키게 된다.
● 데이터 수집에서 레이블링까지: 전문가(oracle) 역할을 하는 인간 어노테이터는 일반적으로 기존 액티브 학습 방법을 저하시키는 우발적인 잘못된 레이블링의 대상이 될 수 있다.
본 발명의 일 실시예는 선택적 지식정제를 통해 학습 모델에 대한 액티브 학습을 진행하여 보다 효율적이고 믿을 수 있는 프레임워크를 제안할 수 있는 지식정제를 통한 액티브 인공지능 학습 장치 및 방법을 제공하고자 한다.
실시예들 중에서, 지식정제를 통한 액티브 인공지능 학습 장치는 제1 레이블 데이터로 구성된 학습 데이터 집합으로 훈련된 학습 모델을 생성하는 학습 모델 생성부, 언레이블 데이터를 상기 학습 모델에 입력하여 상기 언레이블 데이터에 레이블을 추가한 제2 레이블 데이터를 생성하는 데이터 레이블 처리부, 상기 제1 및 제2 레이블 데이터를 기초로 상기 학습 모델에 대한 액티브 학습을 진행하는 모델 학습부, 및 상기 제1 및 제2 레이블 데이터로 상기 학습 데이터 집합을 구축하는 데이터 획득부를 포함한다.
상기 학습 모델 생성부는 상기 학습 데이터 집합의 일관성(consistency)을 반복적으로 체크하여 상기 학습 데이터 집합을 갱신할 수 있다.
상기 학습 모델 생성부는 상기 일관성에 흠결이 검출된 경우에는 상기 학습 데이터 집합에서 해당 레이블 데이터를 모두 삭제하고 상기 삭제를 통한 학습 데이터 집합으로 상기 액티브 학습을 갱신할 수 있다.
상기 데이터 레이블 처리부는 학습용 데이터를 특정 주제로 분류된 전문 컨텐츠에서 발췌하고 메타데이터의 규격으로 전처리를 수행하여 상기 언레이블 데이터를 생성할 수 있다.
상기 데이터 레이블 처리부는 상기 특정 주제를 기초로 상기 메타데이터의 규격을 결정하고 상기 메타데이터의 규격은 이미지 및 가장 높은 빈도수의 키워드를 순서대로 배치한 텍스트로 구성될 수 있다.
상기 모델 학습부는 상기 학습 데이터 집합에 있는 제1 레이블 데이터와의 유사도를 기초로 상기 제2 레이블 데이터의 배제 여부를 결정할 수 있다.
상기 모델 학습부는 상기 제1 및 제2 레이블 데이터가 특정 범위 내에서 유사한 경우에는 상기 배제를 결정하고 메타데이터의 규격에 있는 다음 순서의 키워드로 상기 제2 레이블 데이터를 변경하여 상기 유사도를 재결정할 수 있다.
상기 모델 학습부는 상기 배제가 결정되지 않을 때까지 상기 재결정의 과정을 반복하고 상기 다음 순서의 키워드가 존재하지 않은 경우에는 상기 가장 높은 빈도수의 키워드를 상기 제2 레이블 데이터로 결정할 수 있다.
상기 데이터 획득부는 상기 학습 데이터 집합에 상기 제1 및 제2 레이블 데이터 각각을 포함시킬지 여부를 결정하여 상기 학습 데이터 집합을 갱신할 수 있다.
실시예들 중에서, 지식정제를 통한 액티브 인공지능 학습 방법은 제1 레이블 데이터로 구성된 학습 데이터 집합으로 훈련된 학습 모델을 생성하는 학습 모델 생성단계, 언레이블 데이터를 상기 학습 모델에 입력하여 상기 언레이블 데이터에 레이블을 추가한 제2 레이블 데이터를 생성하는 데이터 레이블 처리단계, 상기 제1 및 제2 레이블 데이터를 기초로 상기 학습 모델에 대한 액티브 학습을 진행하는 모델 학습단계, 및 상기 제1 및 제2 레이블 데이터로 상기 학습 데이터 집합을 구축하는 데이터 획득단계를 포함한다.
상기 학습 모델 생성단계는 상기 학습 데이터 집합의 일관성(consistency)을 반복적으로 체크하여 상기 학습 데이터 집합을 갱신할 수 있다.
상기 데이터 레이블 처리단계는 학습용 데이터를 특정 주제로 분류된 전문 컨텐츠에서 발췌하고 메타데이터의 규격으로 전처리를 수행하여 상기 언레이블 데이터를 생성할 수 있다.
상기 모델 학습단계는 상기 학습 데이터 집합에 있는 제1 레이블 데이터와의 유사도를 기초로 상기 제2 레이블 데이터의 배제 여부를 결정할 수 있다.
상기 데이터 획득단계는 상기 학습 데이터 집합에 있는 상기 제1 및 제2 레이블 데이터 각각을 포함시킬지 여부를 결정하여 상기 학습 데이터 집합을 갱신할 수 있다.
개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명의 일 실시예에 따른 지식정제를 통한 액티브 인공지능 학습 장치 및 방법은 선택적 지식정제를 통해 학습 모델에 대한 액티브 학습을 진행하여 보다 효율적이고 믿을 수 있는 프레임워크를 제안할 수 있다.
본 발명의 일 실시예에 따른 지식정제를 통한 액티브 인공지능 학습 장치 및 방법은 액티브 학습의 반복 프로세스에서 일관성(consistency)에 따라 레이블을 잊어버리지 않고 레이블이 지정된 데이터의 불확실성 및 다양성을 모두 향상시키고 애노테이터가 생성한 결함 있는 레이블을 대체함으로써 신뢰할 수 있는 액티브 학습을 제공할 수 있다.
도 1은 본 발명에 따른 액티브 인공지능 학습 시스템을 설명하는 도면이다.
도 2는 도 1의 액티브 인공지능 학습 장치의 시스템 구성을 설명하는 도면이다.
도 3은 도 1의 액티브 인공지능 학습 장치의 기능적 구성을 설명하는 도면이다.
도 4는 본 발명에 따른 지식정제를 통한 액티브 인공지능 학습 방법을 설명하는 순서도이다.
도 5는 기존 액티브 학습(AL) 절차를 설명하는 알고리즘이다.
도 6은 액티브 학습(AL) 절차를 통해 훈련된 학습 모델의 정확도와 일관성을 보여주는 도면이다.
도 7은 본 발명에 따른 액티브 학습(TrustAL) 절차를 설명하는 알고리즘이다.
도 8은 비단조 일관성(TrustAL-NC)을 도식화한 도면이다.
도 9는 정확도(a-c)와 MCI(d-f) 대 레이블링된 샘플의 비율을 보여주는 도면이다.
도 10은 5개의 랜덤시드가 있는 3개의 데이터셋에서 BADGE를 사용하는 TrustAL-NC의 모델 선택 빈도를 보여주는 히트맵이다.
도 11은 TREC의 안정적인 단계에서 데이터 수집 분석을 나타내는 도면이다.
도 12는 노이즈 비율을 변경하는 견고성 분석을 나타내는 도면이다.
도 2는 도 1의 액티브 인공지능 학습 장치의 시스템 구성을 설명하는 도면이다.
도 3은 도 1의 액티브 인공지능 학습 장치의 기능적 구성을 설명하는 도면이다.
도 4는 본 발명에 따른 지식정제를 통한 액티브 인공지능 학습 방법을 설명하는 순서도이다.
도 5는 기존 액티브 학습(AL) 절차를 설명하는 알고리즘이다.
도 6은 액티브 학습(AL) 절차를 통해 훈련된 학습 모델의 정확도와 일관성을 보여주는 도면이다.
도 7은 본 발명에 따른 액티브 학습(TrustAL) 절차를 설명하는 알고리즘이다.
도 8은 비단조 일관성(TrustAL-NC)을 도식화한 도면이다.
도 9는 정확도(a-c)와 MCI(d-f) 대 레이블링된 샘플의 비율을 보여주는 도면이다.
도 10은 5개의 랜덤시드가 있는 3개의 데이터셋에서 BADGE를 사용하는 TrustAL-NC의 모델 선택 빈도를 보여주는 히트맵이다.
도 11은 TREC의 안정적인 단계에서 데이터 수집 분석을 나타내는 도면이다.
도 12는 노이즈 비율을 변경하는 견고성 분석을 나타내는 도면이다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
액티브 학습은 충분한 레이블이 획득될 때까지 데이터 레이블 지정, 모델 훈련 및 데이터 획득의 반복으로 정의할 수 있다. 데이터 수집에 대한 전통적인 관점은 반복을 통해 인간 레이블 및 모델의 지식을 암시적으로 정제하여 정확성과 레이블 일관성을 단조롭게 증가시킨다는 것이다. 이 가정 하에서 가장 최근에 훈련된 모델은 현재 레이블이 지정된 데이터에 대한 좋은 대리이며 불확실성/다양성을 기반으로 데이터 수집이 요청된다. 본 발명은 반복을 통해 배운 지식의 손실을 나타내는 망각의 예를 찾았고 이러한 이유로 마지막 모델은 더 이상 최고의 교사가 아니며, 이러한 잊혀진 지식을 완화하기 위해 제안된 “일관성” 개념에 따라 이전 모델 중 하나를 교사로 선택한다. 여기에서, 일관성은 첫째, 레이블을 잊어버리지 않도록 하며 둘째, 레이블이 지정된 데이터의 불확실성/다양성을 모두 향상시킬 수 있도록 하고 셋째, 인간 애노테이터가 생성한 결함 있는 레이블을 대체하도록 한다.
도 1은 본 발명에 따른 액티브 인공지능 학습 시스템을 설명하는 도면이다.
도 1을 참조하면, 액티브 인공지능 학습 시스템(100)은 사용자 단말(110), 액티브 인공지능 학습 장치(130) 및 데이터베이스(150)를 포함할 수 있다.
사용자 단말(110)은 액티브 학습 서비스를 이용할 수 있는 컴퓨팅 장치에 해당할 수 있고, 스마트폰, 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 태블릿 PC 등 다양한 디바이스로도 구현될 수 있다. 사용자 단말(110)은 액티브 인공지능 학습 장치(130)와 네트워크를 통해 연결될 수 있고, 복수의 사용자 단말(110)들은 액티브 인공지능 학습 장치(130)와 동시에 연결될 수 있다. 또한, 사용자 단말(110)은 액티브 학습 서비스 이용을 위한 전용 프로그램 또는 애플리케이션을 설치하여 실행시킬 수 있다.
액티브 인공지능 학습 장치(130)는 지식정제를 통한 액티브 인공지능 학습을 수행하는 시스템, 또는 이에 해당하는 서버로 구현될 수 있다. 액티브 인공지능 학습 장치(130)는 사용자 단말(110)과 네트워크를 통해 연결될 수 있고 관련 데이터를 주고받을 수 있다.
또한, 액티브 인공지능 학습 장치(130)는 적어도 하나의 외부 시스템과 연동하여 동작할 수 있다. 예를 들어, 외부 시스템은 액티브 학습을 위한 인공지능 서버, 사용자 인증을 위한 인증 서버 등을 포함할 수 있다.
일 실시예에서, 액티브 인공지능 학습 장치(130)는 데이터베이스(150)와 연동하여 학습 모델을 생성하고 언레이블 데이터에 대해 레이블 처리하며 이를 기초로 학습 모델에 대한 액티브 학습을 진행하는 과정에서 필요한 데이터를 저장할 수 있다. 또한, 액티브 인공지능 학습 장치(130)는 프로세서, 메모리, 사용자 입출력부 및 네트워크 입출력부를 포함하여 구현될 수 있으며, 이에 대해서는 도 2에서 보다 자세히 설명한다.
데이터베이스(150)는 액티브 인공지능 학습 장치(130)의 동작 과정에서 필요한 다양한 정보들을 저장하는 저장장치에 해당할 수 있다. 데이터베이스(150)는 레이블 데이터로 구성된 학습 데이터 집합 및 언레이블 데이터에 관한 정보를 저장할 수 있고, 학습용 데이터 주제에 관한 정보와 학습 데이터 집합 갱신에 관한 정보를 저장할 수 있으며, 반드시 이에 한정되지 않고, 지식정제를 통한 액티브 인공지능 학습 과정에서 다양한 형태로 수집 또는 가공된 정보들을 저장할 수 있다.
도 2는 도 1의 액티브 인공지능 학습 장치의 시스템 구성을 설명하는 도면이다.
도 2를 참조하면, 액티브 인공지능 학습 장치(130)는 프로세서(210), 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)를 포함하여 구현될 수 있다.
프로세서(210)는 액티브 인공지능 학습 장치(130)가 동작하는 과정에서의 각 단계들을 처리하는 프로시저를 실행할 수 있고, 그 과정 전반에서 읽혀지거나 작성되는 메모리(230)를 관리할 수 있으며, 메모리(230)에 있는 휘발성 메모리와 비휘발성 메모리 간의 동기화 시간을 스케줄할 수 있다. 프로세서(210)는 액티브 인공지능 학습 장치(130)의 동작 전반을 제어할 수 있고, 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)와 전기적으로 연결되어 이들 간의 데이터 흐름을 제어할 수 있다. 프로세서(210)는 액티브 인공지능 학습 장치(130)의 CPU(Central Processing Unit)로 구현될 수 있다.
메모리(230)는 SSD(Solid State Drive) 또는 HDD(Hard Disk Drive)와 같은 비휘발성 메모리로 구현되어 액티브 인공지능 학습 장치(130)에 필요한 데이터 전반을 저장하는데 사용되는 보조기억장치를 포함할 수 있고, RAM(Random Access Memory)과 같은 휘발성 메모리로 구현된 주기억장치를 포함할 수 있다.
사용자 입출력부(250)는 사용자 입력을 수신하기 위한 환경 및 사용자에게 특정 정보를 출력하기 위한 환경을 포함할 수 있다. 예를 들어, 사용자 입출력부(250)는 터치 패드, 터치 스크린, 화상 키보드 또는 포인팅 장치와 같은 어댑터를 포함하는 입력장치 및 모니터 또는 터치스크린과 같은 어댑터를 포함하는 출력장치를 포함할 수 있다. 일 실시예에서, 사용자 입출력부(250)는 원격 접속을 통해 접속되는 컴퓨팅 장치에 해당할 수 있고, 그러한 경우, 액티브 인공지능 학습 장치(130)는 서버로서 수행될 수 있다.
네트워크 입출력부(270)은 네트워크를 통해 외부 장치 또는 시스템과 연결하기 위한 환경을 포함하고, 예를 들어, LAN(Local Area Network), MAN(Metropolitan Area Network), WAN(Wide Area Network) 및 VAN(Value Added Network) 등의 통신을 위한 어댑터를 포함할 수 있다.
도 3은 도 1의 액티브 인공지능 학습 장치의 기능적 구성을 설명하는 도면이다.
도 3을 참조하면, 액티브 인공지능 학습 장치(130)는 학습 모델 생성부(310), 데이터 레이블 처리부(330), 모델 학습부(350), 데이터 획득부(370) 및 제어부(390)를 포함할 수 있다.
학습 모델 생성부(310)는 제1 레이블 데이터로 구성된 학습 데이터 집합으로 훈련된 학습 모델을 생성할 수 있다. 학습 모델 생성부(310)는 학습 데이터 집합의 일관성(consistency)을 반복적으로 체크하여 학습 데이터 집합을 갱신할 수 있다. 학습 모델 생성부(310)는 일관성에 흠결이 검출된 경우에는 학습 데이터 집합에서 해당 레이블 데이터를 모두 삭제하고 삭제를 통한 학습 데이터 집합으로 액티브 학습을 갱신할 수 있다.
데이터 레이블 처리부(330)는 언레이블 데이터를 학습 모델에 입력하여 언레이블 데이터에 레이블을 추가한 제2 레이블 데이터를 생성할 수 있다. 여기에서, 언레이블 데이터는 학습용 데이터를 특정 주체로 분류된 전문 컨텐츠에서 발췌하고 메타데이터의 규격으로 전처리를 수행하여 생성할 수 있다. 메타데이터의 규격은 특정 주제를 기초로 결정할 수 있으며, 이미지 및 가장 높은 빈도수의 키워드를 순서대로 배치한 텍스트로 구성될 수 있다.
모델 학습부(350)는 제1 및 제2 레이블 데이터를 기초로 학습 모델에 대한 액티브 학습을 진행할 수 있다. 모델 학습부(350)는 학습 데이터 집합에 있는 제1 레이블 데이터와의 유사도를 기초로 제2 레이블 데이터의 배제 여부를 결정할 수 있다. 모델 학습부(350)는 제1 및 제2 레이블 데이터가 특정 범이 내에서 유사한 경우에는 배제를 결정하고 메타데이타의 규격에 있는 다음 순서의 키워드로 제2 레이블 데이터를 변경하여 유사도를 재결정할 수 있다. 모델 학습부(350)는 배제가 결정되지 않을 때까지 재결정의 과정을 반복하고 다음 순서의 키워드가 존재하지 않은 경우에는 가장 높은 빈도수의 키워드를 제2 레이블 데이터로 결정할 수 있다.
데이터 획득부(370)는 제1 및 제2 레이블 데이터로 학습 데이터 집합을 구축할 수 있다. 데이터 획득부(370)는 학습 데이터 집합에 있는 제1 및 제2 레이블 데이터 각각을 포함시킬지 여부를 결정하여 학습 데이터 집합을 갱신할 수 있다.
제어부(390)는 액티브 인공지능 학습 장치(130)의 전체적인 동작을 제어하고, 학습 모델 생성부(310), 데이터 레이블 처리부(330), 모델 학습부(350) 및 데이터 획득부(370) 간의 제어 흐름 또는 데이터 흐름을 관리할 수 있다.
도 4는 본 발명에 따른 지식정제를 통한 액티브 인공지능 학습 방법을 설명하는 순서도이다.
도 4를 참조하면, 액티브 인공지능 학습 장치(130)는 학습 모델 생성부(310)를 통해 제1 레이블 데이터로 구성된 학습 데이터 집합으로 훈련된 학습 모델을 생성할 수 있다(단계 S410). 액티브 인공지능 학습 장치(130)는 데이터 레이블 처리부(330)를 통해 언레이블 데이터를 학습 모델에 입력하여 언레이블 데이터에 레이블을 추가한 제2 레이블 데이터를 생성할 수 있다(단계 S430).
또한, 액티브 인공지능 학습 장치(130)는 모델 학습부(350)를 통해 제1 및 제2 레이블 데이터를 기초로 학습 모델에 대한 액티브 학습을 진행할 수 있다(단계 S450).
또한, 액티브 인공지능 학습 장치(130)는 데이터 획득부(370)를 통해 제1 및 제2 레이블 데이터로 학습 데이터 집합을 구축할 수 있다(단계 S470).
이하, 도 5 내지 도 12를 참조하여 본 발명에 따른 액티브 인공지능 학습 방법에 관한 실험 내용을 보다 자세히 설명한다.
도 5는 기존 액티브 학습(AL) 절차를 설명하는 알고리즘이다.
임의의 분류 작업이 주어지면 개의 데이터 샘플 중 큰 언레이블된 데이터셋 = 이 있다고 가정한다. 기존 액티브 학습(이하, 'AL'이라 함)의 목표는 분류기 (; )에 대한 심층 신경망 매개변수 를 새로 훈련하여 테스트 정확도를 향상시키도록 효율적으로 레이블을 지정하기 위해 부분 집합 를 샘플링하는 것이다.
도 5의 알고리즘을 보면, 각 반복 에서 학습자는 전략 (예: 불확실성 또는 다양성)를 사용하여 데이터셋 에서 샘플 를 수집한다. 일반적으로 데이터 수집 모델 는 에 따라서 언레이블 샘플을 평가하는 데 사용된다. 그런 다음 샘플 에 대해 학습자는 오라클 레이블 1, ..., 를 쿼리한다. 여기서 는 클래스 수입니다. 에 대한 훈련된 모델 의 예측 레이블을 = (|;)로 표시한다.
대부분 액티브 학습(AL) 접근 방식에서 시간 의 데이터 수집 모델은 시간 -1의 훈련된 분류 모델 즉, = 에 해당한다. 마지막으로 훈련된 모델 t1이 레이블이 지정된 전체 데이터 에 대한 좋은 표현을 제공할 뿐만 아니라 레이블이 지정되지 않은 나머지 데이터 에 대한 획득 인수(예: 신뢰도)를 추정하기에 충분히 효과적이기 때문에 이것을 단조 획득이라고 부를 수 있다.
액티브 학습(AL)의 궁극적인 목표는 고정된 주석 예산으로 분류 정확도를 향상시키는 것이다. 풀 기반 액티브 학습에 대한 기존 연구 노력은 쿼리 전략 및 데이터 전략을 기반으로 하는 데이터 수집에 중점을 두어 이 목표를 달성한다. 쿼리 전략으로 불확실성 샘플링 및 다양성 샘플링은 단조 획득으로 가장 적절한 샘플을 인식하는 두 가지 일반적인 접근 방식이다.
불확실성 샘플링은 레이블을 지정하기 어려운 예를 찾아 가설 공간을 효율적으로 검색하는 반면, 다양성 샘플링은 특징 공간의 이질성을 이용한다. 최근에는 하이브리드 접근 방식이 제안된다. 특히 BADGE는 모노톤 획득 방식을 기반으로 환각 기울기 벡터를 클러스터링하여 두 측면을 성공적으로 통합한다.
쿼리 전략의 놀라운 성공에도 불구하고 최근 연구는 액티브 학습(AL)의 몇 가지 제한 사항에 대해 우려하고 있다. 예를 들면, 주석이 충분하지 않으면 학습 모델이 불안정해질 수 있기 때문에 액티브 학습(AL) 반복에서 좋은 표현을 학습하는 것이 어렵다는 지적이 있다. 이것은 단조 획득이 데이터 획득을 위한 유익한 샘플을 식별하기 위해 현재 레이블이 지정된 데이터의 좋은 대리인으로 마지막 훈련된 모델을 보장하지 않는다는 것을 나타낸다. 그 결과 획득한 샘플이 샘플링 편향에 취약하며 특히 액티브 학습(AL) 방법에서 선호하는 유해한 이상치를 시각화하는 액티브 학습(AL)의 데이터셋 맵(Dataset Maps)를 발표했다. 이러한 사실에도 불구하고 Lowell, Lipton, and Wallace(2018)는 데이터 수집을 위해 외부 모델(예: AL 반복 중 SVM)을 사용하여 단조 획득이 AL의 정확도를 극도로 저해하는 또 다른 해결책으로 여전히 유망하다고 제안하였다.
이 연구 라인에 동기를 부여하여 본 발명에서는 AL 반복의 불안정성을 완화하기 위한 솔루션으로 일관성을 고려하여 단조 획득의 한계를 해결할 수 있는 방법을 연구하였다. NLP 분야에서 신뢰할 수 없는 AL 성능을 보고한 Lowell, Lipton, and Wallace 2018과 유사하게 텍스트 분류 작업을 테스트베드로 선택하였다.
이 섹션에서는 정확도와 일관성 측면에서 액티브 학습(AL)의 훈련 역학을 분석하고 액티브 학습(AL) 반복에서 망각 사례를 관찰한다. 최적화 프로세스의 어떤 시간 에서 배운 즉, 올바르게 분류된 예가 시간 + > 에서 이후 오분류되거나 다른 용어로 "잊힌" 것이다.
정의 1(망각 및 학습 이벤트): 레이블 , = 를 예가 에 의해 올바르게 분류되었는지 여부를 나타내는 이진 변수라고 가정한다. 샘플 는 가 두 개의 다른 반복 사이에서 감소할 때 망각 이벤트를 겪는다. 즉, > , 여기서 > 0(잘못 분류됨). 반대로 > 이면 학습 이벤트가 발생한 것이다. 새로운 지식을 배우는 것도 일반화 능력의 중요한 요소 중 하나이지만, 여기에서 초점은 액티브 학습(AL)의 모델이 학습된 지식을 얼마나 잘 보존하는지 측정하는 것이다. 추가 분석을 위해 대상 모델이 샘플에 대한 이전 모델과 얼마나 일관성이 없는지 측정하기 위해 모델의 올바른 불일치를 소개한다. 즉, 올바른 불일치는 모델과 각 이전 모델 간의 잊어버린 이벤트를 계산한다.
정의 2(정확한 불일치): 표본 에 대한 의 정확한 불일치 정도는 이전 모델의 표본 에 대한 망각 이벤트의 발생 횟수로 측정된다. 여기서 0 < < :
이전 모델의 수가 액티브 학습(AL) 반복마다 다르기 때문에 불일치 정도를 공정하게 나타내기 위해 개발 분할의 모든 샘플에 대해 정확한 불일치의 평균을 사용한다. 예: MCI = .
도 6은 액티브 학습(AL) 절차를 통해 훈련된 학습 모델의 정확도와 일관성을 보여주는 도면으로, 두개의 텍스트 분류 테스트 데이터셋(TREC(a-d) 및 SST-s(e-h)에 대한 세가지 획득 전략 하에서 Bi-LSTM의 정확성 및 일관성(MCI)을 모두 보여준다.
도 6에서, x-축은 레이블된 샘플들의 비율을 나타내고, y-축은 대응하는 매트릭을 나타낸다. 무작위 전략과 함께 불확실성-다양성 이분법(Yuan, Lin, and Boyd-Graber 2020)을 고려하여 신중하게 선택한 세 가지 데이터 수집 전략을 분석한다. CONF, CORESET 및 BADGE는 불확실성, 다양성 및 그 하이브리드라는 AL의 세 가지 획득 전략 라인을 나타낸다. 모든 데이터셋 및 수집 전략에서 정확도와 MCI는 반상관 관계를 따른다. 분석의 편의를 위해 정확도 측면에서 경향의 전환에 따라 훈련 진행을 안정 및 포화 단계의 두 단계로 나눈다.
안정적인 단계에서는 더 많은 데이터가 더 정확한 모델로 이어진다. 검증 정확도는 TREC의 0-50% 및 SST-2의 0-40%에서 증가하는 반면 MCI는 감소하며 새로 레이블이 지정된 샘플은 훈련된 모델의 일반화를 향상시킨다. 이 단계에서 AL 전략은 레이블 효율성을 달성하기 위해 노력하며, 주어진 양의 레이블이 붙은 샘플로 더 높은 정확도에 도달하거나 역으로 더 적은 양의 레이블링된 샘플로 동일한 정확도를 달성한다. 여기서 주목할만한 것은 정확도의 극적인 향상은 대부분 MCI의 급격한 하락을 수반한다는 것이다. 이러한 분석 결과는 기존 지식을 보존하는 동시에 새로운 지식을 학습하는 AL 방법의 이상주의적 속성에 대한 지침을 제공할 수 있다. 따라서 본 발명에서는 망각 사건을 완화하는 것이 AL의 더 빠르고 더 나은 즉, 더 높은 정확도 수렴에 기여할 수 있다고 가정한다.
포화 단계에서는 안정 단계에서 관찰되는 단조로운 경향이 유지되지 않는다. 검증 정확도는 MCI의 급격한 증가에 따라 수렴하거나 감소하며, 더 많은 레이블이 지정된 샘플이 훈련된 모델에 공급됨에 따라 모델의 일반화 성능이 저하됨을 시사한다.
즉, 더 많은 데이터가 항상 더 정확한 모델로 이어지는 것은 아니며, 이는 이 단계에서 레이블 지정 노력이 무효화될 수 있음을 나타낸다. AL에서 이러한 극도로 바람직하지 않은 상황은 이전 작업에서 AL 반복을 중지하여 간신히 해결되지만, 이상적인 AL 프레임워크는 이 단계를 피하여 모델을 보다 레이블 효율적인 방식으로 학습할 수 있다.
AL 절차의 훈련 역학에 대한 이전 결과를 기반으로 레이블이 지정된 데이터 세트에 대한 좋은 대리 역할을 하는 더 나은 획득 모델을 훈련하기 위해 잊혀진 지식을 완화하는 것을 목표로 한다. 보다 일반화된 모델을 얻는 순진한 방법은 레이블이 지정된 데이터를 충분히 사용하는 것이다. 그러나 이 접근 방식은 AL에서 예산이 제한되어 있기 때문에 항상 적용할 수 있는 것은 아니다. 또 다른 작업 라인은 서로 다른 세대에 걸쳐 보완적인 특성을 기반으로 하는 여러 등가 모델(예: 앙상블)을 사용하는 것이다. 그러나 이 접근 방식은 여러 모델을 사용하여 레이블이 지정되지 않은 방대한 데이터 풀에 대해 쿼리하는 것이 계산적으로 너무 비싸기 때문에 항상 저렴한 것은 아니다.
이제 레이블이 지정된 데이터 세트에 대한 좋은 참조 역할을 하는 일관된 획득 모델의 교육을 스마트하고 자원 효율적인 방식으로 가능하게 하는 신뢰할 수 있는 액티브 학습(이하, 'TrustAL' 라 함)을 제시한다. TrustAL은 잊혀진 지식을 완화하기 위해 추가 기계 생성 레이블을 사용한다. 특히, 선행 모델 중에서 TrustAL은 잊어버린 샘플을 완화하는 데 효율적으로 기여할 수 있는 적절한 전문가 모델을 식별한다. 이는 AL 절차 중 발생할 수 있는 지식 손실을 해결하는 새로운 방법이다.
지식정제는 원래 모델의 크기를 압축하기 위해 한 모델(교사 모델)에서 다른 모델(학생 모델)로 지식을 전달하기 위해 제안되었다. 등가 모델 간에 지식을 전달하는 최근 접근 방식에서 영감을 받아, 학생 모델(예: 마지막 훈련, 우수한 모델) 의사 레이블에서 학습한다. 이 정제 방법은 잊어버린 지식을 완화하기 위한 일종의 일관성 규칙화 장치로 해석할 수 있다.
도 8은 본 발명에 따른 액티브 학습(TrustAL) 프레임워크의 전체 절차를 설명하는 알고리즘이다.
도 8에서, t번째 반복에서 레이블이 지정된 데이터 풀 가 주어지면 LCE를 전문가(Oracle) 레이블이 지정된 예제의 일반적인 교차 엔트로피 손실, 즉 , LKL을 t-th에서 이전 모델의 의사 레이블을 사용하는 지식 정제 손실, 즉 , 임의의 데이터 수집 방법(예: CORESET 및 BADGE) 위에 TrustAL이 생성한 모델 매개변수 θt는 다음 식(1)의 최적화를 통해 얻을 수 있다.
여기에서, α는 선호도 가중치이다.
이 프레임워크는 지식정제를 위해 보다 정교한 기술을 활용하도록 동기를 부여할 수 있다. 식 (1)을 사용하는 것이 본 실험에서 여러 AL 방법에 매우 잘 작동할 수 있다. 모든 이전 모델이 교사가 될 수 있으므로 이 프레임워크를 교사 선택에 대한 추가 탐색으로 확장할 수 있다.
TrustAL 프레임워크의 핵심 요소는 전임 모델을 망각 지식에 대한 전문 모델로 고려하는 것이다. 도 6에 보고된 것처럼, 여러 세대에 걸친 데이터 증분과 관련하여 이전 모델은 학습된 지식과 잊어버린 지식의 상태가 다르다. 따라서 교사 모델을 선택하는 방법에 따른 정제 효과가 다르다. 여기서는 TrustAL을 사용하여 단조 및 비단조 일관성이라는 두가지 전략을 소개한다.
단조 일관성(TrustAL-MC)은 기본적으로 데이터 수집뿐만 아니라 교사 선택에 대해서도 단조 접근 방식을 상속할 수 있다. 즉, 항상 ==를 동기화한다. 이를 통해 학습된 지식을 세대별로 반복적으로 전달할 수 있다.
비단조 일관성(TrustAL-NC)은 정확한 불일치(정의2)는 현재 수집 모델에 대해 잊어버릴 수 있는 샘플을 나타내는 강력한 신호일 수 있다. 이러한 샘플 수준이 불일치를 사용하여 특히 잊어버리기 쉬운 샘플에 대해 학습된 지식이 있는 선행모델을 선택하는 것을 목표로 한다. 이렇게 하면 도 8에 설명된 것처럼 항상 ==가 아니라 이전 모델 중 하나에서 쉽게 잊어버릴 수 있는 지식을 전송할 수 있다. 구체적으로, m개이 샘플이 있는 개발 데이터셋 가 주어지면 를 모든 개의 샘플에 대한 번째 반복에서 (=)의 정확한 불일치 값의 벡터, 즉 이 벡터를 샘플에 대한 중요도 가중치로 사용하기 위해 소프트맥스(softmax) 함수에 의해 를 로 정규화한다. 여기서 = 1이다. 중요도 가중치 가 높은 샘플 는 에 대해 쉽게 잊어버릴 수 있는 샘플을 의미한다. 이러한 일관성 인식 샘플 중요도를 기반으로 이전 모델 가 얼마나 신뢰할 수 있는지 측정하는 함수 (, )를 정의한다. 다음 식(2)와 같은 가중 정확도로 의 데이터 수집과 함께 시너지 교사가 될 수 있다.
높은 (, )는 교사 모델 가 현재 데이터 수집 모델 에 대해 잊어버릴 수 있는 예에 대한 지식을 갖고 있는 경향이 있고 그 반대도 마찬가지임을 의미한다. 이를 기반으로 새로운 모델 를 가르치는 교사 모델로 최대값을 갖는 선행자를 선택할 수 있다.
위의 추정은 추가 계산 없이 검증 프로세스의 부산물이며, 이는 TrustAL이 앙상블 기반 접근 방식을 사용하는 것에 비해 매우 효율적임을 시사한다.
데이터셋 TrustAL의 효과를 검증하기 위해 AL에서 널리 사용되는 TREC, Movie review 및 SST-2의 세가지 텍스트 분류 데이터셋을 사용한다. TrustAL은 모든 데이터 수집 전략에 직각으로 적용할 수 있으므로 더 나은 분석을 위해 다음 세가지 수집 방법을 기준선으로 사용한다.
CONF: 최소 신뢰도로 샘플을 선택하는 불확실성 기반 방법
CORESET: 나머지 샘플의 코어세트를 선택하는 다양성 기반 방법
BADGE: 불확실성과 다양성을 모두 고려하여 샘플을 선택하는 하이브리드 방법
세가지 데이터셋 모두에 대해 텍스트 분류를 위해 AL에서 일반적으로 사용되는 기본 설정을 따른다. AL의 각 반복에서 분류 모델을 처음부터 수집된 레이블이 지정된 전체 샘플로 훈련하여 웜 스타트와 관련된 훈련 문제를 방지한다.
전체 성능(RQ1) 먼저 TrustAL을 사용하거나 사용하지 않는 AL 반복에서 AL 방법의 성능을 비교한다. 도 9는 TREC에서 AL 방법의 정확도와 MCI를 보여준다. 전반적으로 TrustAL-NC/MC와 결합된 AL전략은 모든 데이터셋에서 독립 실행형 기준에 비해 향상된 레이블 효율성과 완화된 MCI를 보여준다. TrustAL 프레임워크로 훈련된 모델은 기준선보다 동일한 수준의 정확도를 달성하기 위해 훨씬 적은 수의 레이블이 지정된 샘플이 필요하다. TrustAL의 레이블 효율성과 기준선의 비교를 용이하게 하기 위해 도 9의 (c)에서 기준선이 수렴을 보이기 시작하는 수평 기준선을 그린다. 결과적으로, 본 발명은 TrustAL-MC와 TrustAL-NC가 각각 훈련 데이터 풀의 40%와 30%만 필요로 하는 반면 기준선은 동일한 수준의 정확도에 도달하기 위해 총 훈련 데이터의 50%가 필요하다는 것을 발견하였다. 이 결과는 AL에서 모델의 일관성을 유지하는 것이 필수 기준이며 TrustAL은 AL의 궁극적인 목표인 레이블 효율성 향상을 성공적으로 충족함을 시사한다. 또한, TrustAL-NC는 앙상블1과 비슷한 성능을 보인다.
도 10은 TrustAL에 의한 교사 선택의 동작을 시각화한 것으로, TrustAL-MC가 가장 최근의 모델을 정의로 선택하고 TrustAL-NC가 일관성 지침에 따라 교사 모델을 선택하는 것을 보여준다. 여기서, x축과 y축은 각각 선택된 교사 모델과 훈련 모델의 빈을 나타낸다. 각 라운드에서 레이블이 지정된 샘플의 크기는 2%씩 증가한다. 각 빈은 5개의 라운드로 구성된다. 더 밝은 셀은 더 자주 선택되는 빈을 나타낸다. TrustAl-NC는 초기 단계보다 안정적인 학습 단계의 끝에서 보다 일반화된 교사 모델을 선호하는 반면, TrustAL-N는 잊혀진 지식 측면에서 열등하지만 전문적일 수 있는 이전 세대를 선택한다. 즉, TrustAL-NC는 잊혀진 지식에 대한 보완 모델을 자동으로 선택할 수 있다.
데이터 수집 품질(RQ2)은 TrustAL의 전체 정확도와 MCI를 테스트한 후 TrustAL을 사용할 때 데이터 수집 결과의 품질을 평가한다. TrustAL이 데이터 수집에 미치는 영향을 논의하기 위해 실험에서는 데이터 수집에 대한 두가지 독특한 전략인 불확실성과 다양성을 기반으로 TrustAL-NC를 분석한다. 포화 단계의 레이블 효율성이 AL의 기존 데이터 수집 전략에 대해 음수이기 때문에 안정적인 단계의 수집 품질만 비교하도록 선택한다.
불확실성의 경우 먼저, 대상 작업의 전체 교육 데이터에 대해 교육된 참조 모델을 얻은 다음 각 반복에서 선택한 샘플의 불확실성을 측정한다. 특히, 섀년 엔트로피(Shannon Entropy)를 사용하여 개별 샘플의 예측 확률 분포의 엔트로피를 계산하고 도 11의 (a)의 각 AL 반복에 대한 평균 값을 보고한다. 여기서, 더 높은 값은 각 반복이 불확실한 샘플을 성공적으로 획득함을 의미한다.
도 11은 TREC의 안정적인 단계에서 데이터 수집 분석을 나타내는 도면으로, x축은 레이블이 지정된 샘플의 비율을 나타내고, y축은 해당 매트릭을 나타낸다.
다양성을 위해 참조 모델을 재사용하여 전체 훈련 데이터를 특징 공간으로 인코딩한 다음 k를 AL 반복당 획득한 샘플 수로 설정하는 K-평균 알고리즘에 의해 모든 훈련 데이터의 개의 분리된 셋을 얻는다. 그런 다음, 이 그룹을 기반으로 선택한 샘플의 클러스터 분포의 엔트로피를 계산하여 각 반복에서 선택된 샘플 셋의 다양성을 측정한다(도 11의 (b) 참조). 이 측정은 다양하게 수집된 샘플이 서로 다른 클러스터에 속하기 때문에 클러스터 간에 샘플이 균일하게 선택되는지 여부를 보여준다.
도 11에서 볼 수 있듯이, 더 많은 레이블이 지정된 데이터를 제공하면 기준선과 TrustAL 모두에 대한 불확실성과 다양성이 향상된다. 이는 더 나은 모델 훈련이 더 나은 획득으로 이어져 더 유익한 샘플을 식별하는 모델의 능력을 강화함을 시사한다. 불확실성과 다양성 기반 전략을 각각 나타내는 CONF 및 CORESET의 경우 TrustAL이 AL 절차 전반에 걸쳐 획득 품질을 크게 향상시키는 것으로 나타났다. TrustAL은 레이블이 지정된 데이터셋을 대리하는 모델의 기능을 향상시키는 것을 목표로 하기 때문에 TrustAL은 시너지 효과가 있는 모든 획득 전략에 직교하고 효과적으로 적용할 수 있다.
모델 일관성 및 견고성은 올바른 일관성 즉, 1==는 다음과 같다.
세대와 세대 두 모델 간의 올바른 일관성을 측정함으로써 본 발명의 프레임워크가 레이블 효율성뿐만 아니라 모델 생성의 전반적인 일관성에도 기여한다는 것을 보여준다. 하기 표 1에 도시한 바와 같이, TrustAL-NC는 기준선보다 정확한 일관성을 보여준다. 이것은 AL 반복의 모델이 올바르게 분류된 샘플에 대해 서로 일치한다는 것을 보여주며, 이는 시스템에 대한 사용자의 신뢰와도 관련이 있다.
[표 1]
사람의 레이블링에서 부주의한 전환에 대한 TrustAL의 견고성을 입증하기 위해 특정 비율의 레이블을 무작위로 뒤집어 획득한 샘플을 의도적으로 손상시킨다. 구체적으로 말하면, 안정 단계 이후에는 레이블의 7%와 15%를 손상시킨다. 도 12에는 BADGE와 TrustAL(BADGE)의 결과가 나와 있다. 다른 전략들도 유사한 행동을 보이기 때문에 BADGE의 결과만 제시한다. 안정 단계가 끝나면 시끄러운 레이블로 인해 잊혀진 지식이 급격히 증가한다. 이 관찰을 바탕으로 포화 단계에서 성능 저하의 가능한 용의자 중 하나가 노이즈가 있는 예일 수 있다고 믿는다. 이러한 저하에도 불구하고 TrustAL은 기준선과 대조적으로 더 강력하게 수행한다. 노이즈가 7%인 TrustAL은 노이즈 없이 훈련된 것과 비슷한 결과를 보여준다. 이 결과는 TrustAL이 훈련의 추가 목표로 일관성을 추구함으로써 그러한 레이블의 부정적인 영향을 정규화하기 때문에 TrustAL이 인간 애노테이터에 의해 생성된 레이블의 우발적 노이즈에 강하다는 것을 보여준다.
결론적으로, 본 실험에서는 망각의 사례를 실증적으로 관찰하여 기존의 AL 방법에서 일반적으로 믿고 있는 단조성 가정을 폭로한다. 이를 위해 본 발명은 데이터와 모델 간의 지식 손실을 보상하기 위해 지식정제를 위한 전문가 모델로 선행 모델을 사용하는 효과적이고 강력한 프레임워크인 TrustAL을 제시한다. 특히, 본 발명의 TrustAL 프레임워크는 기존 데이터 수집에 매우 효율적이고 직교적으로 적용할 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 액티브 인공지능 학습 시스템
110: 사용자 단말 130: 액티브 인공지능 학습 장치
150: 데이터베이스
210: 프로세서 230: 메모리
250: 사용자 입출력부 270: 네트워크 입출력부
310: 학습 모델 생성부 330: 데이터 레이블 처리부
350: 모델 학습부 370: 데이터 획득부
390: 제어부
110: 사용자 단말 130: 액티브 인공지능 학습 장치
150: 데이터베이스
210: 프로세서 230: 메모리
250: 사용자 입출력부 270: 네트워크 입출력부
310: 학습 모델 생성부 330: 데이터 레이블 처리부
350: 모델 학습부 370: 데이터 획득부
390: 제어부
Claims (14)
- 제1 레이블 데이터로 구성된 학습 데이터 집합으로 훈련된 학습 모델을 생성하는 학습 모델 생성부;
언레이블 데이터를 상기 학습 모델에 입력하여 상기 언레이블 데이터에 레이블을 추가한 제2 레이블 데이터를 생성하는 데이터 레이블 처리부;
상기 제1 및 제2 레이블 데이터를 기초로 상기 학습 모델에 대한 액티브 학습을 진행하는 모델 학습부; 및
상기 제1 및 제2 레이블 데이터로 상기 학습 데이터 집합을 구축하는 데이터 획득부를 포함하는 지식정제를 통한 액티브 인공지능 학습 장치.
- 제1항에 있어서, 상기 학습 모델 생성부는
상기 학습 데이터 집합의 일관성(consistency)을 반복적으로 체크하여 상기 학습 데이터 집합을 갱신하는 것을 특징으로 하는 지식정제를 통한 액티브 인공지능 학습 장치.
- 제2항에 있어서, 상기 학습 모델 생성부는
상기 일관성에 흠결이 검출된 경우에는 상기 학습 데이터 집합에서 해당 레이블 데이터를 모두 삭제하고 상기 삭제를 통한 학습 데이터 집합으로 상기 액티브 학습을 갱신하는 것을 특징으로 하는 지식정제를 통한 액티브 인공지능 학습 장치.
- 제1항에 있어서, 상기 데이터 레이블 처리부는
학습용 데이터를 특정 주제로 분류된 전문 컨텐츠에서 발췌하고 메타데이터의 규격으로 전처리를 수행하여 상기 언레이블 데이터를 생성하는 것을 특징으로 하는 지식정제를 통한 액티브 인공지능 학습 장치.
- 제1항에 있어서, 상기 데이터 레이블 처리부는
상기 특정 주제를 기초로 상기 메타데이터의 규격을 결정하고 상기 메타데이터의 규격은 이미지 및 가장 높은 빈도수의 키워드를 순서대로 배치한 텍스트로 구성된 것을 특징으로 하는 지식정제를 통한 액티브 인공지능 학습 장치.
- 제1항에 있어서, 상기 모델 학습부는
상기 학습 데이터 집합에 있는 제1 레이블 데이터와의 유사도를 기초로 상기 제2 레이블 데이터의 배제 여부를 결정하는 것을 특징으로 하는 지식정제를 통한 액티브 인공지능 학습 장치.
- 제6항에 있어서, 상기 모델 학습부는
상기 제1 및 제2 레이블 데이터가 특정 범위 내에서 유사한 경우에는 상기 배제를 결정하고 메타데이터의 규격에 있는 다음 순서의 키워드로 상기 제2 레이블 데이터를 변경하여 상기 유사도를 재결정하는 것을 특징으로 하는 지식정제를 통한 액티브 인공지능 학습 장치.
- 제7항에 있어서, 상기 모델 학습부는
상기 배제가 결정되지 않을 때까지 상기 재결정의 과정을 반복하고 상기 다음 순서의 키워드가 존재하지 않은 경우에는 상기 가장 높은 빈도수의 키워드를 상기 제2 레이블 데이터로 결정하는 것을 특징으로 하는 지식정제를 통한 액티브 인공지능 학습 장치.
- 제1항에 있어서, 상기 데이터 획득부는
상기 학습 데이터 집합에 상기 제1 및 제2 레이블 데이터 각각을 포함시킬지 여부를 결정하여 상기 학습 데이터 집합을 갱신하는 것을 특징으로 하는 지식정제를 통한 액티브 인공지능 학습 장치.
- 제1 레이블 데이터로 구성된 학습 데이터 집합으로 훈련된 학습 모델을 생성하는 학습 모델 생성단계;
언레이블 데이터를 상기 학습 모델에 입력하여 상기 언레이블 데이터에 레이블을 추가한 제2 레이블 데이터를 생성하는 데이터 레이블 처리단계;
상기 제1 및 제2 레이블 데이터를 기초로 상기 학습 모델에 대한 액티브 학습을 진행하는 모델 학습단계; 및
상기 제1 및 제2 레이블 데이터로 상기 학습 데이터 집합을 구축하는 데이터 획득단계를 포함하는 지식정제를 통한 액티브 인공지능 학습 방법.
- 제10항에 있어서, 상기 학습 모델 생성단계는
상기 학습 데이터 집합의 일관성(consistency)을 반복적으로 체크하여 상기 학습 데이터 집합을 갱신하는 것을 특징으로 하는 지식정제를 통한 액티브 인공지능 학습 방법.
- 제10항에 있어서, 상기 데이터 레이블 처리단계는
학습용 데이터를 특정 주제로 분류된 전문 컨텐츠에서 발췌하고 메타데이터의 규격으로 전처리를 수행하여 상기 언레이블 데이터를 생성하는 것을 특징으로 하는 지식정제를 통한 액티브 인공지능 학습 방법.
- 제10항에 있어서, 상기 모델 학습단계는
상기 학습 데이터 집합에 있는 제1 레이블 데이터와의 유사도를 기초로 상기 제2 레이블 데이터의 배제 여부를 결정하는 것을 특징으로 하는 지식정제를 통한 액티브 인공지능 학습 방법.
- 제10항에 있어서, 상기 데이터 획득단계는
상기 학습 데이터 집합에 상기 제1 및 제2 레이블 데이터 각각을 포함시킬지 여부를 결정하여 상기 학습 데이터 집합을 갱신하는 것을 특징으로 하는 지식정제를 통한 액티브 인공지능 학습 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220030105A KR20230133056A (ko) | 2022-03-10 | 2022-03-10 | 지식정제를 통한 액티브 인공지능 학습 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220030105A KR20230133056A (ko) | 2022-03-10 | 2022-03-10 | 지식정제를 통한 액티브 인공지능 학습 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230133056A true KR20230133056A (ko) | 2023-09-19 |
Family
ID=88196502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220030105A KR20230133056A (ko) | 2022-03-10 | 2022-03-10 | 지식정제를 통한 액티브 인공지능 학습 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20230133056A (ko) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102168558B1 (ko) | 2019-10-24 | 2020-10-21 | 서울대학교산학협력단 | 액티브 러닝을 위한 학습용 데이터 선정 방법, 액티브 러닝을 위한 학습용 데이터 선정 장치 및 액티브 러닝을 이용한 영상 분석 방법 |
-
2022
- 2022-03-10 KR KR1020220030105A patent/KR20230133056A/ko unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102168558B1 (ko) | 2019-10-24 | 2020-10-21 | 서울대학교산학협력단 | 액티브 러닝을 위한 학습용 데이터 선정 방법, 액티브 러닝을 위한 학습용 데이터 선정 장치 및 액티브 러닝을 이용한 영상 분석 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ma et al. | Decomposed meta-learning for few-shot named entity recognition | |
Sun et al. | A benchmarking study of embedding-based entity alignment for knowledge graphs | |
Yu et al. | Active learning from imbalanced data: A solution of online weighted extreme learning machine | |
Yang et al. | Simple and effective few-shot named entity recognition with structured nearest neighbor learning | |
Xiao et al. | SSP: semantic space projection for knowledge graph embedding with text descriptions | |
US11727243B2 (en) | Knowledge-graph-embedding-based question answering | |
Ostendorff et al. | Neighborhood contrastive learning for scientific document representations with citation embeddings | |
Sculley | Online active learning methods for fast label-efficient spam filtering. | |
Druck et al. | Active learning by labeling features | |
Beretta et al. | Learning the structure of Bayesian Networks: A quantitative assessment of the effect of different algorithmic schemes | |
US20160307113A1 (en) | Large-scale batch active learning using locality sensitive hashing | |
Frank et al. | Role mining with probabilistic models | |
Xiao et al. | Uprec: User-aware pre-training for recommender systems | |
Yang et al. | Margin optimization based pruning for random forest | |
Liu et al. | Reciprocal hash tables for nearest neighbor search | |
JP7473389B2 (ja) | 学習モデル生成システム、及び学習モデル生成方法 | |
Dawson et al. | Opinionrank: Extracting ground truth labels from unreliable expert opinions with graph-based spectral ranking | |
Tsai et al. | Contrast-enhanced semi-supervised text classification with few labels | |
Chen et al. | Embedding edge-attributed relational hierarchies | |
Wang et al. | Uncertainty-aware self-training for low-resource neural sequence labeling | |
Feng et al. | Learning from noisy correspondence with tri-partition for cross-modal matching | |
US11824888B1 (en) | Apparatus and method for assessing security risk for digital resources | |
KR20230133056A (ko) | 지식정제를 통한 액티브 인공지능 학습 장치 및 방법 | |
Li | Robust rule-based prediction | |
Pulastya et al. | Assessing the quality of the datasets by identifying mislabeled samples |