KR20210152395A - 정보 처리장치, 정보 처리방법 및 컴퓨터 판독가능한 기록매체 - Google Patents

정보 처리장치, 정보 처리방법 및 컴퓨터 판독가능한 기록매체 Download PDF

Info

Publication number
KR20210152395A
KR20210152395A KR1020210072061A KR20210072061A KR20210152395A KR 20210152395 A KR20210152395 A KR 20210152395A KR 1020210072061 A KR1020210072061 A KR 1020210072061A KR 20210072061 A KR20210072061 A KR 20210072061A KR 20210152395 A KR20210152395 A KR 20210152395A
Authority
KR
South Korea
Prior art keywords
data
machine learning
learning model
evaluation result
learning
Prior art date
Application number
KR1020210072061A
Other languages
English (en)
Inventor
다카후미 세이마사
Original Assignee
가부시키가이샤 프론테오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시키가이샤 프론테오 filed Critical 가부시키가이샤 프론테오
Publication of KR20210152395A publication Critical patent/KR20210152395A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Abstract

정보 처리방법은 제 1 학습 데이터를 이용하여 학습시킨 제 1 기계 학습모델의 성능을 나타내는 제 1 평가결과로서, 또 제 1 학습 데이터와 다른 제 1 검증 데이터를 이용하여 산출된 제 1 평가결과를 얻는 단계와; 제 1 학습 데이터와 다른 제 2 학습 데이터를 이용하여 학습시킨, 제 1 기계 학습모델과 다른 제 2 기계 학습모델의 성능을 나타내는 제 2 평가결과로서, 또 제 1 검증 데이터와 다른 제 2 검증 데이터를 이용하여 산출된 제 2 평가결과를 얻는 단계와; 제 1 평가결과와 제 2 평가결과에 기반하여, 소정의 이벤트에 관해 평가하지 않은 미지 데이터에 적용했을 때에 예측되는, 제 1 기계 학습모델 및 제 2 기계 학습모델을 포함한 하나의 기계 학습모델의 성능을 나타내는 종합 평가결과를 산출하는 단계를 포함한다.

Description

정보 처리장치, 정보 처리방법 및 컴퓨터 판독가능한 기록매체{Information Processing Apparatus, Information Processing Method and Computer-Readable Recording Medium}
본 발명은 정보 처리장치, 정보 처리방법 및 컴퓨터 판독가능한 기록매체에 관한 것이다.
기계 학습에 있어서, 학습모델의 성능을 예측하는 방법으로서 교차 검증이 널리 알려져 있다.
일례로서, "Control Sets: Introducing Precision, Recall, and F1into Relatively Assisted Review", [online] An EDRM White Paper-part of the EDRM White Paper Series(/7596), 2020년 3월 11일 검색], 인터넷<URL: https://www.edrm.net/papers/control-setsintroducing-precision-recall-and-f1-into-relativity-assisted-review/>를 참조한다.
본 발명의 일 양태는, 기계 학습모델의 신뢰성을 향상시킬 수 있는 정보 처리장치, 정보 처리방법 및 컴퓨터 판독가능한 기록매체를 제공하는 것을 목적으로 한다.
본 발명의 일 양태의 정보 처리방법은, 제 1 학습 데이터를 이용하여 학습시킨 제 1 기계 학습모델의 성능을 나타내는 제 1 평가결과로서, 또 제 1 학습 데이터와 다른 제 1 검증 데이터를 이용하여 산출된 제 1 평가결과를 얻는 단계와; 제 1 학습 데이터와 다른 제 2 학습 데이터를 이용하여 학습시킨, 제 1 기계 학습모델과 다른 제 2 기계 학습모델의 성능을 나타내는 제 2 평가결과로서, 또 제 1 검증 데이터와 다른 제 2 검증 데이터를 이용하여 산출된 제 2 평가결과를 얻는 단계와; 제 1 평가결과와 제 2 평가결과에 기반하여, 소정의 이벤트에 관해 평가하지 않은 미지 데이터(unknown data)에 적용했을 때에 예측되는, 상기 제 1 기계 학습모델 및 상기 제 2 기계 학습모델을 포함한 하나의 기계 학습모델의 성능을 나타내는 종합 평가결과를 산출하는 단계를 포함한다. 제 1 학습 데이터, 제 2 학습 데이터, 제 1 검증 데이터, 및 제 2 검증 데이터는, 상기 소정의 이벤트에 관해 평가된 데이터이다.
도 1은 제 1 실시예에 따른 정보 처리장치의 일례를 나타내는 블록도이다.
도 2a는 제 1 실시예에 따른 문서 검색모델의 개념도이다.
도 2b는 제 1 실시예에 따른 제 1 평가 데이터의 개념도이다.
도 3은 제 1 실시예에 따른 프로세서의 기능 블록도이다.
도 4는 제 1 실시예에 따른 정보 처리방법의 플로우차트이다.
도 5a는 제 1 실시예에 따른 문서 데이터의 개념도이다.
도 5b는 제 1 실시예에 따른 문서 데이터의 개념도이다.
도 5c는 제 1 실시예에 따른 제 1 평가 데이터의 개념도이다.
도 5d는 제 1 실시예에 따른 제 1 평가 데이터의 개념도이다.
도 5e는 제 1 실시예에 따른 제 2 평가 데이터를 얻기 위한 처리를 나타내는 개념도이다.
도 5f는 제 1 실시예에 따른 제 2 평가 데이터를 얻기 위한 처리를 나타내는 개념도이다.
도 5g는 제 1 실시예에 따른 제 2 평가 데이터를 얻기 위한 처리를 나타내는 개념도이다.
도 5h는 제 1 실시예에 따른 제 2 평가 데이터의 개념도이다.
도 6a는 제 1 실시예에 따른 신경망의 개념도이다.
도 6b는 제 1 실시예에 따른 신경망으로의 입력 데이터를 나타내는 개념도이다.
도 7a는 제 1 실시예에 따른 신경망의 개념도이다.
도 7b는 제 1 실시예에 따른 신경망의 출력을 나타내는 개념도이다.
도 7c는 제 1 실시예에 따른 신경망의 출력 평가방법을 나타내는 개념도이다.
도 8은 제 2 실시예에 따른 정보 처리장치의 일례를 나타내는 블록도이다.
도 9는 제 2 실시예에 따른 프로세서의 기능 블록도이다.
도 10은 제 2 실시예에 따른 정보 처리방법의 플로우차트이다.
도 11a는 제 2 실시예에 따른 TF-IDF 행렬 생성방법의 개념도이다.
도 11b는 제 2 실시예에 따른 TF-IDF 행렬 생성방법의 개념도이다.
도 11c는 제 2 실시예에 따른 TF-IDF 행렬 생성방법의 개념도이다.
도 11d는 제 2 실시예에 따른 TF-IDF 행렬 생성방법의 개념도이다.
도 11e는 제 2 실시예에 따른 TF-IDF 행렬 생성방법의 개념도이다.
도 12는 제 2 실시예에 따른 랜덤 포레스트 모델의 개념도이다.
도 13a는 제 2 실시예에 따른 데이터 세트 생성방법의 개념도이다.
도 13b는 제 2 실시예에 따른 데이터 세트 생성방법의 개념도이다.
도 14a는 제 2 실시예에 따른 유닛 생성방법의 개념도이다.
도 14b는 제 2 실시예에 따른 유닛 평가방법의 개념도이다.
도 15는 제 2 실시예에 따른 문서 검색모델의 개념도이다.
이하, 본 발명의 실시예에 대해 도면을 참조하면서 설명한다. 또한, 도면에 대해서는, 동일 또는 동등한 요소에는 동일한 부호를 붙이고 중복되는 설명은 생략한다.
본 명세서에서 설명하는 정보 처리장치는, 대량의 문서 중, 어떤 이벤트에 연관된 문서를 추출하고, 또 관련도에 따라서 문서의 순위를 부여하는 것이다. 또, 이 순위 부여를 기계 학습된 모델에 의해서 실시함과 아울러, 해당 모델의 성능을 높은 정확도로 판단하는 것이다. 각 문서는, 일부에 문자, 숫자, 기호 등을 포함한 임의 형식의 전자 데이터일 수 있으며, 예를 들어 문서 데이터 (가령, 전자메일, 의사록, 사양서, 취급 설명서, 각종 기술 문서, 각종 보고서, 계약서, 영업 자료, 사업 계획서, 전자 카르테, 웹 페이지 등), 프리젠테이션 자료, 표 계산용 데이터, 문자가 캡쳐된 화상 및 영상 등이다. 또, 이벤트는 사용자(리뷰어)가 각 문서의 관련성을 판단하는 임의의 대상일 수 있으며, 예를 들면 소송, 정보 누설, 컴플라이언스 위반, 괴롭힘, 기타 부정, 이직, 사고, 질병 등이다.
이하에서는, 상기 이벤트가 미국 소송이며, 리뷰어가 정보 처리장치를 이용하여 문서를 리뷰하는 경우를 예로 들어서 설명한다. 미국에서 소송이 제기된 경우, 소송 당사자는 디스커버리 (증거 개시)의 절차를 요구받는 경우가 있다. 즉 당사자는, 소송에 연관된 문서를 법정에 제출하고, 심리를 위해 해당 문서를 개시해야 한다. 이 때, 소송에 연관된 문서와 관련이 없는 문서로 분류하고, 연관된 문서만 제출할 필요가 있다.
그 때문에, 리뷰어는 소송에 관련될 가능성이 있는 문서(이하 "모집단"이라 칭한다)을 리뷰하고, 각 문서에 대해서, 예를 들어 "소송에 관련된다" 또는 "소송과 관련이 없다" 등의 판단을 내려야 한다. 모집단은 크기 (가령, 수만~수백만의 문서를 포함하는 경우가 있다) 때문에, 상기 리뷰에 관한 일련의 작업을 효율화하는 것이 요구된다.
본 명세서에 있어서의 정보 처리장치는, 예를 들어 문서가 소송에 관련될 가능성을 기계 학습시킨 모델에 의해서 판단하고, 추가로 가능성이 높은 순서로 문서를 리뷰어에게 제시한다. 또, 정보 처리장치, 예를 들어 기계 학습시킨 모델의 신뢰성을 높은 정확도로 리뷰어에게 제시한다.
(제 1 실시예)
본 발명의 제 1 실시예에 따른 정보 처리장치, 정보 처리방법 및 컴퓨터 판독가능한 기록매체에 대해서 설명한다. 또한, 제 1 실시예에서는, 상기 디스커버리에 관한 경우를 예로서 설명하지만, 이에 한정되는 것은 아니다.
<구성에 대해서>
도 1은 본 실시예에 따른 정보 처리장치(100)의 블록도이다. 정보 처리장치(100)는, 기계 학습가능한 프로세서를 지니고 있으면 되며, 예를 들어 퍼스널 컴퓨터이다.
전술한 바와 같이 정보 처리장치(100)는, 예를 들어 문서가 소송에 관련될 가능성을 판단하고, 추가로 가능성이 높은 순서로 문서를 리뷰어에게 제시한다. 이를 위해서, 복수의 기계 학습모델을 조합함으로써, 문서가 소송에 관련될 확률을 산출하는 문서 검색모델(139)을 생성한다. 이 문서 검색모델(139)의 일례에 대해서, 도 2a를 이용하여 간단하게 설명한다. 도 2a는 본 실시예에 따른 문서 검색모델(139)의 일례를 나타내는 개념도이다. 또한, 도 2a는 일례에 지나지 않으며, 본 실시예는 이것에 한정되는 것은 아니다.
도시한 바와 같이 문서 검색모델(139)은, 제 1 학습모델(135) (제 1 공정 학습모델)과 제 2 학습모델(NN) (제 2 공정 학습모델)을 포함한다. 제 1 학습모델(135)은, 예를 들어 복수의 랜덤 포레스트 모델을 포함한다. 도 2a의 예일 때, 제 1 학습모델(135)은, 랜덤 포레스트 모델(135-1) (제 1 기계 학습모델), 랜덤 포레스트 모델(135-2) (제 2 기계 학습모델), 랜덤 포레스트 모델(135-3) (제 3 기계 학습모델), ... 랜덤 포레스트 모델(135-50)을 포함한다. 랜덤 포레스트 모델(135-1~135-50)은 서로 분기 노드수와 잎 노드수 등의 설정이 다르다. 또, 랜덤 포레스트 모델(135-1)은, 소송에 관련되는지의 여부가 이미 알려진 제 1 학습 데이터와 제 1 검증 데이터를 이용하여 학습되었으며, 랜덤 포레스트 모델(135-2)은, 소송에 관련되는지의 여부가 이미 알려진 제 2 학습 데이터와 제 2 검증 데이터를 이용하여 학습되었으며, 랜덤 포레스트 모델(135-3)은, 소송에 관련되는지의 여부가 이미 알려진 제 3 학습 데이터와 제 3 검증 데이터를 이용하여 학습되었으며, 기타 랜덤 포레스트 모델(135-4~135-50)에 대해서도 마찬가지이다. 랜덤 포레스트 모델(135-1~135-50)의 자세한 내용에 대해서는 제 2 실시예에서 설명한다. 또, 제 2 학습모델(NN)은 신경망이다. 본 예에 있어서의 신경망(NN)은 입력층과 출력층을 포함하며, 중간층을 갖지 않으나, 중간층을 갖도록 구성해도 된다.
상기 구성에 있어서, 소송에 관련되는지의 여부가 알려져 있지 않은 미지 문서의 가령 주성분 (이것에 대해서도 자세한 내용은 제 2 실시예에서 설명한다)이, 랜덤 포레스트 모델(135-1~135-50)에 입력된다. 그리고, 랜덤 포레스트 모델(135-1~135-50)은 각각, 미지 문서가 소송에 관련될 확률(P1~P50)를 출력하고, 이것을 신경망(NN)에 입력한다. 신경망(NN)은 입력된 확률(P1~P50)에 기반하여, 최종적인 소송에 관련될 확률(P100)과, 관련되지 않을 확률(P200)을 출력한다.
본 실시예에서는, 정보 처리장치(100)가 제 1 학습모델(135)과, 제 1 학습모델을 학습시키기 위한 학습 데이터를 이미 지니고 있다. 그리고, 이들 정보에 기반하여 정보 처리장치가 도 2a에 도시된 문서 검색모델(139)을 생성하는 방법과, 문서 검색모델(139)의 성능(종합 평가)을 예측하는 방법에 대해서 설명한다.
도 1로 되돌아가서, 정보 처리장치(100)의 구성에 대해서 설명한다. 도시한 바와 같이, 정보 처리장치(100)는, 프로세서(110), ROM(120), RAM(130) 입력부(140), 표시부(150) 및 통신부(160)를 구비하고 있다.
ROM(120)은 프로세서(110)에 의해 실행되는 프로그램이나 필요한 데이터를 지니고 있다.
RAM(130)은 프로세서(110)의 작업 영역으로서 기능한다. 또, RAM(130)은 제 1 평가 프로그램(131), 제 1 학습 프로그램(132), 문서 데이터(133), 제 1 평가 데이터(134), 및 제 1 학습모델(135)을 지니고 있다. 제 1 평가 프로그램(131)은, 문서가 이벤트에 관련되는지의 여부를 판단하는 기계 학습모델을 평가한다. 제 1 학습 프로그램(132)은, 컴퓨터에 기계 학습모델을 학습시킨다. 제 1 평가 프로그램(131)과 제 1 학습 프로그램(132)은, 별개의 프로그램이어도 되고, 하나의 프로그램에 통합되어 있어도 된다. 프로그램(131 및 132)에 대한 자세한 내용은 후술한다. 문서 데이터(133)는, 이벤트에 관련될 가능성이 있는 문서에 대한 데이터이다. 문서 데이터(133)에는 라벨 부여 문서 및 라벨 없는 문서가 포함된다. 라벨 부여 문서란, 사전에 리뷰어가 리뷰해서 (이것을 사전 리뷰라고 부른다), 소송에 관련되는지의 여부가 판명되어 있는 문서, 즉 관련 문서이다. 한편, 라벨 없는 문서는, 사전에 리뷰가 이루어져 있지 않으며, 관련되는지의 여부가 미지인 문서이다. 제 1 학습모델(135)은, 문서 데이터(133)에 적용되는 기계 학습모델이며, 도 2a에서 설명한 가령 복수의 랜덤 포레스트 모델(135-1~135-50)을 포함한다. 제 1 평가 데이터(134)는, 문서 데이터(133) 중에서 라벨 부여 문서에 대해 제 1 학습모델(135)을 적용한 결과 얻어지는, 제 1 학습모델(135)의 성능을 나타내는 평가결과이다. 제 1 학습모델(135)은, 예를 들어 깊이와 잎 노드가 다른 복수의 랜덤 포레스트 모델이며, 제 1 평가 데이터(134)는, 복수의 랜덤 포레스트 모델에서 얻어진 평가결과이다. 제 1 평가 데이터는, 각 랜덤 포레스트 모델에 대해서 얻어진다. 즉, 랜덤 포레스트 모델(135-1)에 대한 평가결과 (제 1 평가결과), 랜덤 포레스트 모델(135-2)에 대한 평가결과 (제 2 평가결과), 및 랜덤 포레스트 모델(135-3)에 대한 평가결과 (제 3 평가결과)를 포함하며, 이하의 랜덤 포레스트 모델(135-4~135-50)에 대해서도 마찬가지이다. 또한, 제 1 학습모델(135)의 생성방법과 제 1 평가 데이터(134)을 얻는 방법에 대해서는 제 2 실시예에서 상세하게 설명한다.
도 2b는 문서 데이터(133)의 일부를 이용하여 어떤 랜덤 포레스트 모델에서 얻어진 제 1 평가 데이터(134)의 개념도이다. 도시한 바와 같이, 제 1 평가 데이터(134)는 재현률(Recall), 적합률(Precision) 및 회피율(Elusion)을 포함한다. 재현률은 어느 단계까지 리뷰했을 때에, 모든 관련 문서 중 얼마만큼의 비율을 발견할 수 있는지를 나타낸다. 또, 적합률은 어느 단계까지 리뷰했을 때에, 리뷰한 모든 문서 중 관련 문서가 얼마만큼의 비율로 포함되는지를 나타낸다. 그리고, Elusion은 어느 단계까지 리뷰했을 때에, 모든 관련 문서에 대한 나머지 미-리뷰 문서(unreviewed document)에 포함된 관련 문서의 비율을 나타낸다.
예를 들어, 문서 데이터(133)에 1120건의 문서가 포함되어 있고, 그 중에서 120건의 문서를 이용하여 랜덤 포레스트 모델을 학습시켜 검증한 경우를 가정한다. 그러면, 랜덤 포레스트 모델은, 각 문서가 소송에 연관된 문서일 확률을 산출하고, 후술하는 평가결과 취득부가 산출된 확률이 높은 순서로 순서를 붙이고, 도 2b에 도시한 바와 같은 그래프를 표시하기 위한 정보를 취득한다. 도 2b에서, 횡축은 문서의 상대 순위를 나타내고, 0.0이 상위이며, 1.0이 하위이다. 또, 종축은 재현률, 적합률 및 Elusion을 나타낸다.
도 2b의 예일 때, 상대 순위가 0.2인 경우의 재현률은 0.6이다. 이것은 상위 문서부터 리뷰한 경우, 상위 20%의 문서를 리뷰함으로써, 120건의 문서에 포함되는 관련 문서 중 60%를 발견할 수 있는 것을 의미한다. 또, 상대 순위가 0.4인 경우의 적합률은 0.9이다. 이것은 상위 40%의 문서를 리뷰했을 때에, 리뷰한 문서의 90%가 관련 문서인 것을 의미한다. 그리고, 상대 순위가 0.6인 경우의 Elusion은 0.1이다. 이것은 상위 60%의 문서를 리뷰했을 때에, 남은 미-리뷰 문서(전체의 40%) 중에서 10%가 관련 문서인 것을 의미한다. 그리고, 상대 순위가 상위일수록 적합률 및 Elusion 값은 높으며, 상대 순위가 하위일수록 재현률 값이 높아진다. 또, 상대 순위가 제로(최상위)인 경우의 Elusion 값과, 상대 순위가 1.0(최하위)인 경우의 적합률의 값은, 전체 문서에서 관련 문서가 차지하는 비율(richness)과 같다.
제 1 평가 데이터(134)는, 복수의 랜덤 포레스트 모델에 대해서 얻어진 도 2b에 나타낸 바와 같은 평가결과를 포함한다. 예를 들어, 랜덤 포레스트 모델이 50개 준비되었을 때에는, 50개의 평가결과를 포함한다. 이하에서는, 도 2b에 도시한 평가결과를 "성능 평가계열"이라고 부르는 경우가 있다. 구체적으로는, 예를 들어 성능 평가계열은, 상술한 개개의 랜덤 포레스트 모델의 재현률, 적합률, Elusion을 포함한다.
도 1로 되돌아가서 설명을 계속한다. 프로세서(110)는, 예를 들어 CPU 등의 연산기이다. 그리고, 프로세서(110)는 제 1 학습 프로그램(132)을 실행함으로써, 제 1 학습모델(135)의 결과와 신경망을 이용한 문서 검색모델을 구축함과 아울러, 미지 문서 (관련 유무가 미지인 문서)에 대한 문서 검색을 실행한다. 또, 프로세서(110)는 제 1 평가 프로그램(131)을 실행하고, 제 1 학습 프로그램(132)을 실행함으로써 얻어진 문서 검색모델의 성능을 예측한다.
도 3은 제 1 평가 프로그램(131) 및 제 1 학습 프로그램(132)의 실행시에 있어서의 프로세서(110)의 기능 블록도이다. 도시한 바와 같이, 프로세서(110)는, 평가결과 취득부(111), 문서 데이터 취득부(112), 종합 평가결과 산출부(113), 제 1 학습모델 취득부(114), 제 1 학습부(115), 제 2 학습부(116) 및 출력부(117)로서 기능한다.
평가결과 취득부(111)는 복수의 상이한 데이터 세트를 이용하여 학습 및 검증된, 설정이 상이한 복수의 학습모델의 성능을 나타내는 복수의 평가결과를 취득한다. 구체적으로는, 평가결과 취득부(111)는 RAM(130)에서 복수의 평가결과 (제 1 평가 데이터(134))를 판독한다. 이 평가결과의 예는, 도 2a에서 설명한 학습된 랜덤 포레스트 모델(135-1~135-50)의 각각에 관한, 도 2b에서 설명한 재현률, 적합률 및 Elusion, 즉 성능 평가계열이다. 랜덤 포레스트 모델(135-1~135-50)을 얻기 위해 이용하는 학습 데이터에 대해서 간단하게 설명한다. 여기에서, 학습 데이터로서의 데이터 세트는, 예를 들어 문서 데이터(133)에 포함되는 복수의 문서 중 선두부터 일부의 문서 (라벨 부여 문서이다)에 해당한다. 보다 구체적으로는, 1120개의 문서가 존재하는 경우, 순서대로 120개의 문서를 추출한 데이터에 해당한다. 또한, 복수의 상이한 데이터 세트는, 예를 들어 120개의 라벨 부여 문서를 분류하고, 그 중에서 예를 들어 선두의 2/3에 해당하는 80개의 학습 데이터와, 나머지 40건의 검증용 데이터를 포함한다. 이러한 데이터 세트가, 예를 들어 50개의 랜덤 포레스트 모델에 대해서 준비된다. 그리고, 준비된 데이터 세트의 각각에 있어서의 학습 데이터를 이용하여 50개의 랜덤 포레스트 모델을 학습시킴으로써, 학습된 랜덤 포레스트 모델(135-1~135-50)이 얻어진다. 또, 준비된 데이터 세트의 각각에 있어서의 검증용 데이터를 이용하여 검증함으로써, 학습된 랜덤 포레스트 모델(135-1~135-50)의 평가결과가 얻어진다. 또한, 앞에서 설명한 바와 같이, 설정이 상이한 복수의 학습모델이란, 랜덤 포레스트 모델을 전제로 한 경우, 깊이와 잎 등이 상이한 모델에 상당한다. 다시 말해서, 서로 다른 복수의 학습모델에서는, 동일한 알고리즘(가령, 랜덤 포레스트 모델)이 사용된다. 또한, 학습모델은 랜덤 포레스트 모델에 한정되지 않으며, 다른 학습모델이라도 된다. 또, 상기 데이터 세트의 구체적인 예에 대해서는 제 2 실시예에서 설명한다.
문서 데이터 취득부(112)는 RAM(130)에서 문서 데이터(133)를 판독한다. 종합 평가결과 산출부(113)는 복수의 평가결과에 기반하여, 설정이 상이한 복수의 학습모델의 성능을 산출한다. 구체적으로는, 예를 들어 도 2a에 있어서의 50개의 랜덤 포레스트 모델(135-1~135-50)에서 검증용 데이터를 이용하여 얻은 평가결과 (즉, 제 1 평가 데이터(134))를 이용하여, 도 2a에서 설명한 최종적인 문서 검색모델(139) (즉, 복수의 학습모델을 포함하여 형성되는 학습 모델)의 종합적인 평가결과, 결국, 복수의 학습모델을 포함하여 형성되는 학습모델 전체의 재현률이나 적합률 등을 산출한다. 본 명세서에서는, 이 종합적인 평가결과를 "성능 예측계열"이라고 부르는 경우가 있다.
제 1 학습모델 취득부(114)는 RAM(130)에서, 상기 설명한 제 1 학습모델(135)을 판독한다. 제 1 학습부(115)는, 제 1 학습모델(135)를 이용하여 문서 데이터(133)에 포함된 문서가 관련 문서일 확률을 산출한다. 제 2 학습부(116)는 전술한 문서 검색모델을 구축함과 아울러, 미지 문서에 대한 문서 검색을 실행한다. 출력부(117)는, 종합 평가결과 산출부(113)에서 얻어진 성능 예측계열과, 제 2 학습부(116)에서 얻어진 미지 문서에 대한 검색 결과를 출력한다.
이어서, 도 1로 되돌아가서 설명을 계속한다. 입력부(140)는, 예를 들어 키보드나 마우스 등이며, 정보 처리장치(100)의 사용자로부터 각종 데이터를 입력 받는다. 표시부(150)는, 예를 들어 디스플레이이며, 프로세서(110)의 처리 상태를 표시한다. 구체적으로는, 성능 평가계열, 성능 예측계열 및 미지 문서에 대한 검색 결과 등을 표시한다. 통신부(160)는, 예를 들어 유선 또는 무선 통신 회선을 개재하여 데이터를 수신한다. RAM(130) 내의 각종 프로그램(131, 132)과 데이터(133, 134, 135)는 통신부(160)에 의해서 수신해도 된다.
<동작에 대해서>
다음으로, 본 실시예에 따른 정보 처리장치(100)의 동작에 대해서, 도 4를 참조하여 설명한다. 도 4는 정보 처리장치(100)의 처리 흐름을 나타내는 플로우차트이다. 도시한 바와 같이, 처리는 대략적으로 성능 예측처리, 가중화의 가중 학습처리 및 미지 문서 검색처리를 포함한다.
먼저, 정보 처리장치(100)의 프로세서(110)가 제 1 평가 프로그램(131)을 실행하여, 성능 예측처리를 실시한다. 즉, 프로세서(110)의 평가결과 취득부(111)가 RAM(130)에서 제 1 평가 데이터(134)을 취득한다 (스텝 S10). 도 2a 및 도 2b에서 설명한 바와 같이, 50개의 랜덤 포레스트 모델이 준비되어 있는 경우, 50개의 성능 평가계열이 얻어진다. 다음으로 종합 평가결과 산출부(113)가 도 2b의 각 순위에 있어서의 성능 상위 10계열을 이용하여 평가값 (재현률, 적합률 및 Elusion)의 평균을 산출한다 (스텝 S11). 그리고, 스텝 S11에서 얻어진 결과에 기반하여, 다시 순위를 상대화한다 (스텝 S12). 스텝 S12에서 얻어진 결과는 제 2 평가 데이터(136)로서 RAM(130)에 저장된다. 이 제 2 평가 데이터(136)가 전술한 종합 평가결과이며, 또 성능 예측계열이다. 이 성능 예측계열은, 이후 가중화의 가중 학습 결과로 얻어진 문서 검색모델(139)에 대해 예측되는 성능을 나타낸다. 그리고, 성능 예측계열은, 예를 들어 출력부(117)에 의해서 표시부(150)에 출력되어, 리뷰어에게 제시한다 (스텝 S13).
다음으로, 정보 처리장치(100)의 프로세서(110)는 제 1 학습 프로그램(132)을 실행하여, 가중화의 가중 학습처리와 미지 문서 검색처리를 순차적으로 실시한다. 즉, 제 1 학습모델 취득부(114)가 RAM(130)에서 제 1 학습모델(135)을 취득한다. 또, 문서 데이터 취득부(112)가 RAM(130)에서 문서 데이터(133) 중에서 라벨 부여 문서를 검색한다. 그리고, 제 1 학습부(115)가 제 1 학습모델(135), 즉 예를 들어 50개의 학습된 랜덤 포레스트 모델을 이용하여 라벨 부여 문서가 소송에 관련될 확률을 예측한다 (스텝 S14). 이어서, 제 2 학습부(116)는 스텝 S14에서 얻어진 예측 결과를 입력으로 해서, 신경망(NN) 학습을 실시한다 (스텝 S15). 그 결과, 랜덤 포레스트 모델과 신경망을 포함한 하나의 기계 학습모델인 문서 검색모델(139)이 생성된다.
다음으로, 프로세서(110)는 미지 문서 검색처리를 실시한다. 즉, 문서 데이터 취득부(112)가 RAM(130)에서 문서 데이터(133) 중 라벨 없는 문서를 취득한다. 그리고, 제 1 학습부(115)가 제 1 학습모델(135), 즉 예를 들어 50개의 학습된 랜덤 포레스트 모델을 이용하여 라벨 없는 문서가 소송에 관련될 확률을 예측한다 (스텝 S16). 이어서, 제 2 학습부(116)는 신경망(NN)에 대해서, 스텝 S16에서 얻어진 예측 결과를 입력한다 (스텝 S17). 그 결과, 미지 문서 관련 문서일 확률이 신경망(NN)에서 출력된다.
상기 동작에 대해서 구체적인 예를 이용하여 추가로 설명한다. 먼저, 스텝 S10에서 취득되는 제 1 평가 데이터(성능 평가계열) (134)에 대해서 설명한다. 전술한 바와 같이, 제 1 평가 데이터(134)는 문서 데이터(133)와 제 1 학습모델(135)에 기반하여 얻어진다. 도 5a는 문서 데이터(133)의 개념도이다. 전술한 바와 같이, 문서 데이터(133)는 소송에 연관된 모든 전자 데이터이다. 본 예에서는 1120건의 문서가 포함된다. 그 중에서 120 건의 문서는 사전 리뷰에 의해 라벨이 부여된 라벨 부여 문서(133a)이다. 라벨 "1"은 소송에 관련되는 것을 나타내고, 라벨 "0"은 관련이 없는 것을 나타낸다. 이러한 라벨이 문서(133a)에 부여된다. 나머지 1000건의 문서는 사전에 리뷰가 실시되지 않은 라벨 없는 문서(133b)이다.
그리고, 라벨 부여 문서(133a)를 이용하여 50개의 데이터 세트가 생성되고, 이 데이터 세트와 제 1 학습모델(135) (가령, 서로 설정이 다른 50개의 랜덤 포레스트 모델)에 기반하여 제 1 평가 데이터(134)가 얻어진다. 도 5b는 50개의 데이터 세트(137) (137-1~137-50)의 개념도이다. 도시한 바와 같이, 각 데이터 세트(137)는, 예를 들어 전체 라벨 부여 문서(133a)의 2/3인 80건의 훈련용 문서와, 나머지 1/3인 40건의 검증용 문서를 포함한다. 또한, 데이터 세트(137-1~137-50)에 포함된 120 건의 문서는 같지만, 훈련용 문서를 구성하는 문서군은 서로 다르며, 또 검증용 문서를 구성하는 문서군도 서로 다르다. 데이터 세트(137)와 랜덤 포레스트 모델에 대해서는 제 2 실시예에서 상세하게 설명한다.
도 5c는 스텝 S10에서 취득되는 제 1 평가 데이터(134)의 개념도이다. 도시한 바와 같이, 데이터 세트(137-1~137-50)의 각각 40건의 검증용 문서에 대해, 순위와 함께 재현률(R1~R50), 적합률(P1~P50), 및 Elusion(E1~E50)이 얻어진다. 도 5d는 도 2b와 마찬가지로 재현률을 그래프로 나타낸 것이다. 이와 같이, 50개의 데이터 세트(137-1~137-50)에 기반하여, 50개의 성능 평가계열이 얻어진다.
다음으로, 스텝 S11과 S12에 대해서 설명한다. 도 5e는 재현률을 나타내고 있다. 도시한 바와 같이, 스텝 S11에서는, 각 순위에 있어서 50개의 재현률(R1~R50) 중 상위 10개의 재현률 값의 평균이 산출된다. 예를 들어, 상대 순위 0.125에서 성능 평가계열의 재현률(R1~R50)은 다음과 같다.
R1=0.1498
R2=0.0680
R50=0.1299
재현률은 값이 높을수록 성능이 좋다. 따라서, 이 R1~R50 중에서 값이 큰 상위 10개의 평균값이 산출된다. 그리고, 그 결과가 성능 예측계열에서의 상대 순위 0.125의 재현률(Rpre)이 된다. 본 예의 경우, 예를 들어 Rpre=0.1159이다. 이와 같은 계산이 각 순위에서 실시되어, 성능 예측계열에서의 재현률(Rpre)이 얻어진다.
도 5f 및 도 5g는 각각 적합률과 Elusion의 경우를 나타내고 있다. 도 5f에 도시한 바와 같이, 적합률도 재현률과 마찬가지로 값이 클수록 성능이 좋다. 따라서, 각 순위에서 값이 큰 10개의 적합률의 평균값이 산출된다. 그리고, 그 결과가 성능 예측계열에서의 적합률(Ppre)이 된다. 한편, 도 5g에 도시한 바와 같이, Elusion은 값이 작을수록 성능이 좋다. 따라서, 각 순위에서 값이 작은 10개의 Elusion의 평균값이 산출된다. 그리고, 그 결과가 성능 예측계열에서의 Elusion(Epre)이 된다.
상기와 같이 해서, 얻어진 성능 예측계열, 예를 들어 성능 평가계열과 함께 도 5h와 같은 그래프로 표시부(150)에 표시된다. 도 5h에서, 점선은 성능 평가계열을 나타내고, 실선은 성능 예측계열을 나타낸다. 즉, 재현률, 적합률 및 Elusion에 대해서, 각각 50개의 성능 평가계열과, 이들의 상위 10 계열의 평균값에 기반하여 얻어진 각각 1개의 성능 예측계열이 표시된다. 이 성능 예측계열이 문서 검색모델(139)에서 예측되는 성능을 나타내고 있다.
다음으로, 스텝 S14 및 S15에 대해서 설명한다. 먼저, 스텝 S14에서는 제 1 학습모델(135-1~135-50) (50개의 랜덤 포레스트 모델)의 각각에서, 120건의 라벨 부여 문서(133a)의 라벨이 "1"일 확률을 산출한다. 그 결과의 일례를 도 6a에 나타낸다. 도 6a에서, 문서 ID는 120건의 라벨 부여 문서에 할당된 ID 번호이며, 예를 들어 "1"~"120"이 할당되어 있다. 그리고, 도시한 바와 같이, 학습모델(135-1~135-50)을 이용하여 ID1의 문서가 라벨 "1"일 확률이 산출되고, 이하, ID2~ID120 문서에 대해서도 각각 라벨 "1"일 확률이 산출된다. 또한, 제 1 학습모델(135-1~135-50)에 대한 입력으로서는, 라벨 부여 문서(133a)에서의 문서 주성분 이어도 된다. 문서 주성분을 산출하는 방법에 대해서는 제 2 실시예에서 상세하게 설명한다.
다음으로, 스텝 S15에 대해서 도 6b를 이용하여 설명한다. 도시한 바와 같이, 스텝 S15에서는 도 6a에서 얻어진 확률을 입력으로 해서, 신경망(NN)의 학습이 실시된다. 신경망(NN)은, 예를 들어 입력층의 유닛수가 제 1 학습모델(135)의 수와 동일한 50개이며, 중간층은 없다. 그리고, 출력층은 유닛수가, 라벨 수("0" 또는 "1")와 같이 2개인 가령 Softmax 함수이다. 그리고, 각 문서 ID에 대해, 50개의 확률이 입력층 50개의 유닛에 입력된다. 예를 들어, 먼저 문서 ID1에 대해, 제 1 학습모델(135-1)에서 얻어진 확률 P1=0.7이 입력되고, 제 1 학습모델(135-50)에서 얻어진 확률 P50=0.5가 입력되며, 확률(P2~P49)에 대해서도 마찬가지이다. 확률(P1~P50)은 각각 무게(w11, w12, w13 ... w150)가 가중되어 출력층의 한쪽 유닛에 입력되며, 추가로 무게(w21, w22, w23 ... w250)가 가중되어 출력층의 다른 유닛에 입력된다. 그리고, 출력층에서는 라벨 "1"의 확률(P100) 및 라벨 "0"의 확률(P200)이 출력된다. 상기 처리가 문서(ID1~120)의 각각에 대해서 실시되어, 무게(w11, w12, w13 ... w150 및 w21, w22, w23 ... w250)가 최적인 값으로 된다. 그로 인해, 문서 검색모델(139)의 신경망(NN)이 완성된다.
다음으로, 스텝 S16 및 S17에 대해서 설명한다. 스텝 S16 및 S17에서는 스텝 S15에서 얻어진 문서 검색모델(139)을 이용하여 미지 문서의 검색이 실시된다. 즉, 스텝 S14와 마찬가지로, 제 1 학습모델(135-1~135-50) (50개의 랜덤 포레스트 모델)의 각각에서, 1000건의 라벨 없는 문서(133b)의 라벨이 "1"일 확률을 산출한다. 그 결과, 도 6a와 마찬가지로, 학습모델(135-1~135-50)을 이용하여 ID121의 문서가 라벨 "1"일 확률이 산출되고, 이하 ID121~ID1120의 문서에 대해서도 각각 라벨 "1"일 확률이 산출된다.
다음으로, 스텝 S17에 대해서 도 7a를 이용하여 설명한다. 도시한 바와 같이, 스텝 S17에서는 스텝 S16에서 얻어진 확률이 스텝 S15에서 학습된 신경망(NN)에 입력된다. 그 결과, 도 7b에 도시한 바와 같이, 라벨 없는 문서(133b)에 대한 라벨 "1"의 최종적인 확률이 얻어진다. 그리고, 확률이 높은 순서로 미지 문서에 순서가 붙여진다. 그 결과는, 예를 들어 표시부(150)에 표시된다. 스텝 S17에서 얻어진 결과에서, 각 문서의 중요도는 성능 예측계열에 기반하여 판단할 수 있다. 이 상태는 도 7c에 나타낸다.
도시한 바와 같이, 성능 예측계열에서 상대 순위 0.025의 재현률(Rpre)은 0.0290이다. 그러면, 상대 순위가 같은 경우, 라벨 없는 문서(133b)에서도 재현률은 같을 것으로 예상된다. 또, 사전 리뷰 결과, 50% (120건 중 60건)이 관련 문서이면, 라벨 없는 문서(133b)에서도 50%(1000건 중 500건)이 관련 문서라고 생각할 수 있다. 그러면, 도 7c에 도시한 바와 같이, 라벨 없는 문서(133b)에서 상대 순위가 0.025인 문서는 절대 순위가 25위이다. 즉, 절대 순위 1~25위까지의 25건을 리뷰했을 때, 그 중에는 500건의 관련 문서 중 2.9%(14.5건)이 포함될 것으로 예상된다. 적합률 및 Elusion에 대해서도 마찬가지로 생각할 수 있다. 따라서, 리뷰어는 몇 건의 문서를 리뷰하면 어느 정도의 재현률, 적합률, 및 Elusion이 얻어지는지에 대한 정보를 상대 순위에 기반하여 알 수 있다.
<본 실시예에 따른 효과>
상기와 같이, 본 실시예에 따른 정보 처리장치에 의하면, 기계 학습모델의 신뢰성을 향상시킬 수 있다. 본 효과에 대해서는 아래에서 설명한다.
학습모델의 성능을 예측하는 방법의 하나로서 교차 검증이 알려져 있다. 교차 검증에서는 라벨 부여 데이터를 훈련용과 검증용으로 나누어 취급한다. 그리고, 훈련용 데이터를 이용하여 모델을 학습시키고, 검증용 데이터에 대한 성능을, 미지 데이터에 해당 학습모델을 적용했을 때에 예측되는 성능으로 추정한다. 그리고, 미지 데이터에 대한 성능이 가장 높은 것으로 추정되는 학습모델을 미지 데이터의 분류에 이용한다.
그러나, 교차 검증을 거쳐 선발된 모델은 라벨 부여 데이터의 일부(훈련용 데이터)만을 학습하고 있다. 따라서, 라벨 부여 데이터의 건수가 적은 경우, 학습 데이터량의 부족으로 인해, 미지 데이터에 대한 정확도가 저하될 가능성이 있다. 특히 e-디스커버리 사업에서는, 1000~2000건 정도의 라벨 부여 문서를 바탕으로 수십만건의 문서의 라벨을 예측하는 상황이 많아, 정확도의 향상이 어려운 경우가 있다. 또, 소송의 경우에는 사건마다 사정이 특유하기 때문에, 다른 사건에서 이용한 라벨 부여 데이터를 유용하는 것도 곤란하다. 그 결과, 모델의 예측 가능성 및 정확도 향상이 곤란하다.
이와 관련하여, 본 실시예에 의하면, 설정을 바꾼 복수의 모델 (본 실시예에서는 랜덤 포레스트 모델)과, 훈련용 문서 및 검증용 문서를 포함한 복수의 데이터 세트가 준비된다. 그리고, 각 모델에서, 대응하는 데이터 세트를 이용하여 학습과 검증을 실시한다. 즉, 교차 검증을 실시한다. 추가로, 복수의 모델에서 얻어진 결과를 입력으로 이용해서 신경망을 학습시킨다. 그리고, 미지 데이터를 분류할 때에는, 복수의 모델로 미지 데이터를 검증하고, 그 검증 결과를 신경망에 입력함으로써, 문서의 라벨을 예측한다. 즉, 복수의 모델 중 성능이 가장 좋은 하나만을 사용하는 것이 아니라, 모든 모델을 사용한다. 즉, 앙상블 학습을 이용한다. 그로 인해, 모델의 정확도를 향상시킬 수 있다. 추가로, 복수의 모델에서의 교차 검증에 기반하여 모델의 성능을 예측하므로, 예측 정확도를 향상시킬 수 있다.
(제 2 실시예)
다음으로, 본 발명의 제 2 실시예에 따른 정보 처리장치, 정보 처리방법 및 컴퓨터 판독가능한 기록매체에 대해서 설명한다. 본 실시예는 상기 제 1 실시예에 있어서, 정보 처리장치(100)에서 제 1 평가 데이터(134), 제 1 학습모델(135), 및 데이터 세트(137)를 생성하는 방법에 관한 것이다. 이하에서는, 제 1 실시예와 다른 점에 대해서만 설명한다.
<구성에 대해서>
도 8은 본 실시예에 따른 정보 처리장치(100)의 블록도이다. 도시한 바와 같이, 본 실시예에 따른 정보 처리장치(100)는 제 1 실시예에서 설명한 도 1의 구성에 있어서, RAM(130)이 추가로 특징량 추출 프로그램(201), 제 1 생성 프로그램(202), 제 2 생성 프로그램(203), 제 2 학습 프로그램(204), 및 제 2 평가 프로그램(205)을 더 구비하고 있다. 이들 프로그램(201~205)은 그 전체 또는 일부가 하나의 프로그램에 통합되어 있어도 된다.
도 9는 프로그램(201~205)을 실행했을 때의 프로세서(110)의 기능 블록도이다. 도시한 바와 같이, 프로세서(110)는 제 1 실시예에서 설명한 도 3에 있어서, 특징량 추출부(210), 학습모델 생성부(211), 데이터 세트 생성부(212), 제 3 학습부(213), 및 성능 평가부(214)로서 기능한다.
특징량 추출부(210)는, 프로세서(110)가 특징량 추출 프로그램(201)을 실행함으로써 실현된다. 특징량 추출부(210)는 대상 문서군에서 특징량을 추출하여 문서 주성분 행렬을 생성한다.
학습모델 생성부(211)는, 프로세서(110)가 제 1 생성 프로그램(202)을 실행함으로써 실현된다. 학습모델 생성부(211)는 교차 검증을 위한 학습모델을 생성한다. 본 실시예에서 생성되는 모델은, 제 1 실시예에서 설명한 바와 같은 랜덤 포레스트 모델이다.
데이터 세트 생성부(212)는, 프로세서(110)가 제 2 생성 프로그램(203)을 실행함으로써 실현된다. 데이터 세트 생성부(212)는 라벨 부여 문서에 기반하여 복수의 데이터 세트(137)를 생성한다.
제 3 학습부(213)는, 프로세서(110)가 제 2 학습 프로그램(204)을 실행함으로써 실현된다. 제 3 학습부(213)는 학습모델 생성부(211)에서 생성된 랜덤 포레스트 모델 학습을 실시한다. 그 결과, 학습된 랜덤 포레스트 모델(135)이 얻어진다.
성능 평가부(214)는, 프로세서(110)가 제 2 평가 프로그램(205)을 실행함으로써 실현된다. 성능 평가부(214)는 학습모델 생성부(211)에서 생성되고 제 3 학습부에서 학습된 랜덤 포레스트 모델(135)의 성능 평가를 실시한다.
<동작에 대해서>
다음으로, 본 실시예에 따른 정보 처리장치(100)의 동작에 대해서, 도 10을 참조하여 설명한다. 도 10은 정보 처리장치(100)의 처리 흐름을 나타내는 플로우차트이다. 도시한 바와 같이, 처리는 대략적으로 특징량 추출 처리, 학습모델 생성 처리, 데이터 세트 생성 처리와, 모델의 학습 및 성능 예측처리를 포함한다.
먼저, 정보 처리장치(100)의 프로세서(110)가 특징량 추출 프로그램(201)을 실행하여 특징량 추출 처리를 실시한다. 즉, 프로세서(110)의 특징량 추출부(210)가 대상 문서군에 기반하여, TF-IDF 행렬을 생성한다 (스텝 S20). 대상 문서군은, 예를 들어 제 1 실시예에서 도 5a를 이용하여 설명한 라벨 부여 문서(133a) 이어도 되고, 라벨 부여 문서(133a) 이외에 라벨 없는 문서(133b)가 포함되어 있어도 된다. 이어서, 특징량 추출부(210)는 생성된 TF-IDF 행렬에 대해 주성분 분석을 실시하여, 문서 주성분 행렬을 생성한다 (스텝 S21).
다음으로, 프로세서(110)는 제 1 생성 프로그램(202)을 실행하여 학습모델 생성 처리를 실시한다. 즉, 학습모델 생성부(211)는 각각 설정이 다른 학습모델을 생성한다 (스텝 S22). 본 예에서는 제 1 실시예에서 설명한 바와 같이, 50개의 랜덤 포레스트 모델이 생성된다.
다음으로, 프로세서(110)는 제 2 생성 프로그램(203)을 실행하여 데이터 세트 생성 처리를 실시한다. 즉, 데이터 세트 생성부(212)는 라벨 부여 문서(133a)에 기반하여, 제 1 실시예에서 도 5b를 이용하여 설명한 가령 50개의 데이터 세트(137)를 생성한다 (스텝 S23).
다음으로, 프로세서(110)는 제 2 학습 프로그램(204) 및 제 2 평가 프로그램(205)을 실행하여 모델의 학습 및 성능 예측처리를 실시한다. 즉, 제 3 학습부(213)는 먼저, 스텝 S22에서 생성된 50개의 학습모델과, 스텝 S23에서 생성된 50개의 데이터 세트(137)를 각각 조합하여 50개의 유닛을 생성한다 (스텝 S24). 이어서, 제 3 학습부(213)는 50개의 유닛 각각에 있어서, 연관된 데이터 세트의 훈련용 문서를 이용하여 연관된 학습모델 교육을 실시한다 (스텝 S25). 그 결과, 학습된 50개의 랜덤 포레스트 모델, 즉 제 1 실시예에서 설명한 제 1 학습모델(135)이 얻어진다. 추가로, 성능 평가부(214)가 50개의 유닛 각각에 있어서, 연관된 데이터 세트의 검증용 문서를 이용하여 연관된 제 1 학습모델(135)의 검증을 실시한다. 그리고, 검증 결과에 기반하여, 50개의 제 1 학습모델(135)의 성능을 예측한다 (스텝 S26). 즉, 50개의 제 1 학습모델(135)의 재현률, 적합률 및 Elusion을 얻는다. 이것이 제 1 실시예의 도 5c 및 도 5d에서 설명한 성능 평가계열이며, 제 1 평가 데이터(134)이다.
상기와 같이 해서, 제 1 학습모델(135) 및 제 1 평가 데이터(134)가 얻어진 후, 제 1 실시예에서 설명한 스텝 S10 이후의 처리가 실시된다.
상기 동작에 대해 구체적인 예를 이용하여 추가로 설명한다. 먼저, 스텝 S20~S22의 특징량 추출 처리에 대해서 설명한다. 본 처리는, 예를 들어 LSI (Latent Semantic Indexing)을 이용하여 실시된다. 먼저, TF (Term Frequency) 행렬 계산이 실시된다. 도 11a는 TF 행렬의 개념도이다. 도시한 바와 같이, TF 행렬은, 각 문서에 출현하는 단어 T1~TM (M은 2 이상의 자연수)의 횟수를 나타낸다. 예를 들어, 도 11a의 예일 때, ID3의 문서에는 단어 T1이 3 회 출현하고, 단어 T2는 출현하지 않으며, 단어 T3은 1 회 출현한다. TF 행렬에서 사용되는 단어 T1~TM은 이벤트 (본 예에서는 소송)에 관한 단어이다. 또한, TF 행렬의 계산은 라벨 부여 문서(133a) 및 라벨 없는 문서(133b) 모두를 대상으로 해도 된다. 즉, TF 행렬 계산은 사전 리뷰와 독립적으로 실행할 수 있기 때문에, TF 행렬 계산이 완료된 시점에서는, 어떤 문서가 모델 학습에 사용되는지, 즉 라벨 부여 문서인지의 여부가 판명되어 있지 않기 때문이다. 물론, 판명되어 있을 때에는, 120건의 라벨 부여 문서를 대상으로 TF 행렬을 계산하면 된다. 그러나, 제 1 실시예에서 설명한 도 7a의 처리에서는 1000건의 라벨 없는 문서(133b)의 주성분을 랜덤 포레스트 모델에 입력하므로, 스텝 S20에서는 1120건 모두에 대해서 TF 행렬을 계산해도 된다.
다음으로, DF (Document Frequency) 계산이 실시된다. 도 11b는 DF의 개념도이다. DF는 각 단어가 1 회 이상 출현하는 문서의 수를 나타낸다. 도 11b의 예일 때, 단어 T1은 15개 문서에 1 회 이상 출현하고, 단어 T2는 4건의 문서에 1 회 이상 출현한다.
다음으로, TF-IDF 행렬 계산이 실시된다. 도 11c는 TF-IDF 행렬의 개념도이다. TF-IDF 행렬은 각 단어의 문서 내에 있어서의 중요도를 나타낸다. IDF (Inverse Document Frequency)는 단어의 희소도를 나타내며, 희소도가 높은 단어는 해당 문서의 특징을 판별하는데 유용하다고 생각된다. TF-IDF 행렬에서는 출현 빈도가 높을수록, 또 희소도가 높을수록 큰 값이 된다. 도 11c의 예일 때, ID3 문서의 단어 T1의 값은 0.3이다. 이 값은 ID3 문서에서 단어 T1의 중요도를 나타내며, ID3 문서의 TF 값과 DF에서 산출된다. 또, 도 11c의 예에서는 L2 정규화를 실시함으로써, 행렬 내의 값은 [0, 1] 범위의 값이 된다. 이와 같은 값으로 함으로써, TF-IDF 행렬은 기계 학습과 데이터 분석으로 취급하기 쉬워진다.
다음으로, 주성분 행렬 계산이 실시된다. 도 11d는 주성분 행렬의 개념도이다. 주성분 분석은, 상관 관계가 있는 다수의 변수 (본 예에서는 단어)를 "주성분"이 될 변수에 통합함으로써, 데이터의 차원을 줄일 수 있다. 도 11d에 도시한 바와 같이, 단어 T1~TM은 주성분 C1~CK (K는 2 이상의 자연수이고, 예를 들면 K<M이며, 일례로는 K=100)로 대체된다. 그리고, 어떤 문서에서, 예를 들어 주성분 C1의 값이 크면, 해당 문서에서는 주성분 C1과 결합된 단어군의 중요도가 전체 문서 내에서 상대적으로 높은 것을 나타낸다. 도 11e는 주성분 C1~CK와 단어 T1~TM과의 상관 관계의 강도를 나타내고 있다. 도 11e에서 값이 클수록 주성분에서의 단어의 중요도를 반영한다. 예를 들어, 주성분 C2는 단어 TM과의 상관 관계가 매우 강한 것을 알 수 있다. 또한, 제 1 실시예의 스텝 S14, S16 등에서 랜덤 포레스트 모델에 입력되는 문서 데이터는 도 11d에 나타낸 주성분 C1~CK이다.
다음으로, 학습모델 생성 처리에 대해서 설명한다. 즉 스텝 S22에서 학습모델 생성부(211)는 각각 설정이 다른 학습모델을 생성한다. 본 예에서는, 예를 들어 50개의 랜덤 포레스트 모델이 생성된다. 도 12는 하나의 랜덤 포레스트 모델의 개념도이다.
도시한 바와 같이, 랜덤 포레스트 모델은 L개 (L은 2 이상의 자연수)의 결정 나무(DT) (DT1~DT(L))를 포함한다. 결정 나무(DT)에서, 하얀 원 마크는 분기 노드를 나타내고, 사선을 붙인 원 마크는 잎 노드를 나타낸다. 분기 노드는, 예를 들어 "주어진 문서의 주성분 C17이 -1.385 이하이면, 좌측 하방의 분기로 진행한다" 등과 같이, 주성분의 값에 따른 데이터의 분류 규칙을 포함한다. 결정 나무(DT)를 구축할 때에는, "그 시점에서 나뉘어져 있는 훈련용 문서(133b)가 어떤 일정한 건수 미만인 경우, 다음 분기를 실시하지 않는다" 등과 같이, 분기의 최소 건수에 대한 제한을 고려할 수 있다. 도 12에서의 "깊이"는, 노드의 깊이 (높이라고도 칭함)를 나타내며, 몇 번의 분기를 거쳤는지에 대응한다. 본 예일 때, 결정 나무(DT1)의 깊이는 5, 결정 나무(DT2)의 깊이는 4, 그리고, 결정 나무(DT) (L)의 깊이는 5이다. 최대 깊이에 제한을 둠으로써, 랜덤 포레스트 모델이 훈련용 문서(133b)에 너무 특화되는 (즉, 일반화 성능을 저하시키는) 것을 억제한다.
분기의 말단에 있는 잎 노드는, 주어진 데이터(주성분)에 대한 최종적인 출력에 대응한다. 모든 훈련용 문서(133b)는 어느 하나의 잎 노드에 할당되어 있다. 그리고, 각 잎 노드는, 할당되어 있는 문서가 이벤트에 관련되는지의 여부에 대한 비율을 바탕으로 미지 문서의 라벨을 예측한다. 예를 들어, 미지 문서에 결정 나무를 적용하고, 라벨 "1"의 훈련용 문서가 9 건, 라벨 "0"의 훈련용 문서 1건 할당되어 있는 잎 노드에 도달한 경우, 미지 문서는 90%의 확률로 관련 문서라고 판정된다. 또, 깊이와 마찬가지로 잎 노드도, 그 수에 제한을 둠으로써, 훈련용 문서로 너무 특화되는 것을 억제한다.
랜덤 포레스트 모델에서는, 주어진 훈련용 문서에 대한 복수의 결정 나무를 포함한다. 랜덤 포레스트 모델의 주요 설정 항목은 다음과 같다. 즉,
· 결정 나무의 개수
· 분기를 실시하기 위해 필요한 최소 문서 건수
· 잎 노드의 최대 수
· 최대 깊이
본 실시예에서는, 예를 들어 50개의 랜덤 포레스트 모델이 생성된다. 그리고, 각 랜덤 포레스트 모델의 주요 구성은, 예를 들어 다음과 같다. 즉,
· 결정 나무의 수: 20개 (전체 랜덤 포레스트 모델에서 공통)
· 분기를 실행하기 위해 필요한 최소 데이터 건수: 50개의 랜덤 포레스트 모델(RF1~RF50) 대해 2~8을 주기적으로 설정
· 잎 노드의 최대 수: 50개의 랜덤 포레스트 모델(RF1~RF50)에 대해, 8~204를 주기적으로 설정
· 잎 노드의 최대 수: 랜덤 포레스트 모델(RF1~RF50) 대해 3~23을 주기적으로 설정
상기와 같이 해서, 50개의 랜덤 포레스트 모델(RF1~RF50)이 생성된다.
다음으로, 스텝 S23의 데이터 세트 생성 처리에 대해서, 도 13a 및 도 13b를 이용하여 설명한다. 도 13a 및 도 13b는 데이터 세트(137-1 및 137-2)의 생성방법을 모식적으로 나타내고 있다.
먼저, 도 13a에 도시한 바와 같이, 데이터 세트 생성부(212)는 120건의 라벨 부여 문서(133a)를 대상으로 하여, 문서 ID 리스트를 작성한다. 이어서, 데이터 세트 생성부(212)는 문서의 정렬 순서를 셔플(랜덤화)한다. 그리고, 셔플한 결과의 문서 리스트에서 제 1 부분 (가령, 선두의 2/3(=80건))을 훈련용 문서로 하고, 제 2 부분 (가령, 나머지 1/3(=40건))을 검증용 문서로 하여, 데이터 세트(137-1)를 생성한다.
이어서, 도 13b에 도시한 바와 같이, 데이터 세트 생성부(212)는 데이터 세트(137-1)의 문서 리스트 선두부터 1/50(본 예에서는 2건)을 리스트 말미로 이동시킨다. 본 예에서는 ID51 및 ID101 문서가 리스트 말미로 이동된다. 그리고, 데이터 세트(137-1)와 마찬가지로, 문서 리스트에서 제 3 부분 (가령, 선두의 2/3)을 훈련용 문서로 하고, 제 4 부분 (가령, 나머지 1/3)을 검증용 문서로 하여, 데이터 세트(137-2)를 생성한다. 이하, 도 13b와 같은 처리를 반복함으로써, 50개의 데이터 세트(137-1~137-50)가 생성된다. 그 결과, 데이터 세트(137-1~137-50)는 서로 같은 문서로 구성되는 한편, 훈련용 문서를 구성하는 문서의 조합은 서로 다르며, 또 검증용 문서를 구성하는 문서의 조합도 서로 다르다. 이와 같이, 서로 다른 훈련용 문서와 검증용 문서를 준비함으로써, 교차 검증이 가능해진다.
다음으로, 스텝 S24~S26에서의 모델 학습 및 성능 예측처리에 대해서 설명한다. 먼저, 제 3 학습부(213)가 50개의 랜덤 포레스트 모델(RF)과 50개의 데이터 세트(137)에 연관됨으로써, 50개의 유닛(UT1~UT50)을 생성한다. 이 상태를 도 14a에 나타낸다. 도시한 바와 같이, 유닛(UT1)은 랜덤 포레스트 모델(RF1)과 데이터 세트(137-1)를 포함한다. 유닛(UT2)은 랜덤 포레스트 모델(RF2) 및 데이터 세트(137-2)를 포함한다. 이하에서도 마찬가지이며, 유닛(UT50)은 랜덤 포레스트 모델(RF50)과 데이터 세트(137-50)를 포함한다.
이어서, 제 3 학습부(213)에 의해 랜덤 포레스트 모델(RF)의 학습과 검증이 실시되고, 검증 결과에 기반하여 성능 평가부(214)가 각 랜덤 포레스트 모델(RF)의 성능을 평가하여, 성능 평가계열을 얻는다. 이 상태를 도 14b에 나타낸다. 도시한 바와 같이, 제 3 학습부(213)는 유닛(UT1)에서, 데이터 세트(137-1)의 훈련용 문서(TD1)를 이용하여 랜덤 포레스트 모델(RF1)에 학습시킨다 (스텝 S30). 이때, 랜덤 포레스트 모델(RF1)로의 입력 데이터는, 훈련용 문서(TD1)의 문서 주성분 C1~CK (도 11d 참조)이며, 출력 데이터는 라벨 정보의 예측 결과 (가령, 문서가 라벨 "1"일 확률)이다. 랜덤 포레스트 모델(RF1)에서는, 각 결정 나무에서 예측 출력이 얻어지고, 랜덤 포레스트 모델(RF1) 내에서 이들 예측 출력이 통합되어 예측 결과가 출력된다. 이하, 유닛(UT2~UT50)에서도 같은 처리가 실행된다.
스텝 S30의 결과, 학습된 랜덤 포레스트 모델이 생성된다. 이것이 제 1 실시예에서 설명한 제 1 학습모델(135)에 상당한다. 이어서, 제 3 학습부(213)는 유닛(UT1)에서 데이터 세트(137-1)의 검증용 문서(VD1)을 이용하여 랜덤 포레스트 모델(RF1)를 검증한다 (스텝 S31). 이 때도, 랜덤 포레스트 모델(RF1)로의 입력 데이터는, 검증용 문서(VD1)의 문서 주성분 C1~CK이며, 출력 데이터는 라벨 정보의 예측 결과 (가령, 문서가 라벨 "1"일 확률)이다. 이하, 유닛(UT2~UT50)에서도 같은 처리가 실행된다.
스텝 S31의 결과, 유닛(UT1~UT50)의 각각에서, 순서가 부여된 검증 데이터(300-1~300-50)가 얻어진다. 이것은 검증 문서(VD1)에 대해, 라벨 "1"일 확률이 높은 순서로 문서 ID를 정렬한 것으로, 제 1 실시예에서 설명한 도 7b에서 "NN이 출력한 '관련성 있음'의 확률"을 "랜덤 포레스트 모델이 출력한 '관련성 있음'의 확률"로 대체한 것과 같다. 그후, 성능 평가부(214)가 검증 데이터(300-1~300-50)에 기반하여, 유닛(UT1~UT50)의 성능을 평가한다 (스텝 S32). 보다 구체적으로는, 제 1 실시예에서 설명한 재현률, 적합률 및 Elusion을 산출하고, 유닛(UT1~UT50)에 대한 성능 평가계열(134-1~134-50)을 얻는다. 이들 성능 평가계열(134-1~134-50)이 제 1 실시예에서 도 5c를 이용하여 설명한 제 1 평가 데이터(134)에 상당한다.
<본 실시예에 따른 효과>
도 15은 본 실시예에서 얻어지는 문서 검색모델(139)의 개념도이다. 본 실시예에 따른 구성에 의하면, 제 1 학습모델(135)로서, 랜덤 포레스트 모델을 이용할 수 있다. 그리고, 깊이나 잎 노드의 수 등의 설정값이 다른 복수의 랜덤 포레스트 모델의 결과를 이용함으로써, 문서 검색모델(139)의 정확도와, 성능 예측 가능성을 향상시킬 수 있다. 추가로, LSI를 이용하여 얻어진 문서 주성분을 랜덤 포레스트 모델로의 입력 데이터로서 사용하고 있다. 그로 인해, 입력 데이터의 차원을 줄이고, 프로세서(110)에서의 계산량을 줄일 수 있다.
또, 일반적인 데이터 그룹 (가령, 120건의 라벨 부여 문서(133a))에 기반하여, 복수의 데이터 세트 (가령, 50개의 데이터 세트(137-1~137-50))가 생성된다. 복수의 데이터 세트(137)의 각각은, 학습 데이터(훈련용 문서)와 검증 데이터(검증용 문서)를 포함한다. 복수의 데이터 세트(137)마다 학습 데이터를 구성하는 문서의 조합이 서로 다르며, 또 검증 데이터를 구성하는 문서의 조합이 서로 다르다. 그로 인해, 예를 들어 라벨 부여 문서(133a)의 수량이 부족한 경우에도 서로 다른 복수의 데이터 세트를 생성할 수 있다. 추가로, 복수의 데이터 세트를 서로 다른 랜덤 포레스트 모델에 적용함으로써, 문서 검색모델(139)의 정확도와 범용성을 향상시킬 수 있다.
(기타 변형예 등)
상기와 같이, 실시예에 따른 정보 처리방법은 제 1 학습 데이터 (가령, 데이터 세트(137-1)의 훈련용 문서(TD1))를 이용하여 학습시킨 제 1 기계 학습모델 (가령, 랜덤 포레스트 모델(135-1)의 성능을 나타내는 제 1 평가결과 (가령, 유닛(UT1)의 성능 평가계열)이며, 또 제 1 학습 데이터와 다른 제 1 검증 데이터 (가령, 데이터 세트(137-1)의 검증용 문서(VD1))를 이용하여 산출된 제 1 평가결과를 얻는 단계와; 제 1 학습 데이터와 다른 제 2 학습 데이터 (가령, 데이터 세트(137-2)의 훈련용 문서(TD2))를 이용하여 학습시킨, 제 1 기계 학습모델과 다른 제 2 기계 학습모델 (가령, 랜덤 포레스트 모델(135-2))의 성능을 나타내는 제 2 평가결과(유닛(UT2)의 성능 평가계열)이며, 또 제 1 검증 데이터와 다른 제 2 검증 데이터 (가령, 데이터 세트(137-2)의 검증용 문서(VD2))를 이용하여 산출된 제 2 평가결과를 얻는 단계와; 제 1 평가결과와 제 2 평가결과에 기반하여, 소정의 이벤트 (가령, 소송)에 관해서 평가하지 않은 미지 데이터에 적용했을 때에 예측되는, 제 1 기계 학습모델 및 제 2 기계 학습모델을 포함한 기계 학습모델 (복수의 랜덤 포레스트 모델(135) + 각 모델을 잇는 NN=문서 검색모델(139))의 성능을 나타내는 종합 평가결과 (문서 검색모델(139)에 대한 성능 예측계열)를 산출하는 것을 포함한다. 그리고, 제 1 학습 데이터, 제 2 학습 데이터, 제 1 검증 데이터, 및 제 2 검증 데이터는, 소정의 이벤트에 관해 평가된 데이터 (라벨 부여 데이터)이다.
또한, 상기 실시예는 일례에 지나지 않으며, 다양한 변형이 가능하다. 예를 들어, 상기 실시예에서는 문서 검색모델(139)로서, 랜덤 포레스트 모델과 신경망이 조합된 경우를 예로 설명했다. 그러나, 이들 학습모델에 한정되지 않으며, 예를 들어 신경망 대신에 서포트 벡터 머신이나 나이브 베이즈(naive Bayes) 등, 다양한 기계 학습모델을 이용할 수 있다.
추가로, 상기 실시예에서는, 도 4 및 도 10에 도시한 각종 처리를 프로세서(110)가 소프트웨어 (프로그램(131, 132, 201~205))를 이용하여 실행하는 경우를 예로 설명했다. 그리고, 각종 프로그램(131, 132, 201~205)이 RAM(130)에 저장되는 경우를 예로 설명했다. 그러나, 프로그램(131, 132, 201~205)은 RAM(130)에 한정되지 않으며, 컴퓨터 (즉, 프로세서(110))에 의해 판독가능한 기억장치 (기록매체)에 저장되어 있으면 되며, 이 기록매체로서는, "일시적이 아닌 유형의 매체", 예를 들면 테이프, 디스크, 카드, 반도체 메모리, 프로그램가능한 논리회로 등을 사용할 수 있다. 또, 본 프로그램은 전송 가능한 임의의 전송매체를 개재하여 컴퓨터에 공급해도 된다.
물론, 도 4 및 도 10에 나타낸 처리의 적어도 일부는 하드웨어에 의해 실현 해도 되고, 하드웨어와 소프트웨어의 조합에 의해 실현해도 된다. 추가로, 상기 실시예에서 설명한 플로우차트의 처리는 가능한 한 순서를 바꿀 수 있다.
상기에서는 본 발명의 몇 가지 실시예를 설명하였지만, 상술한 형태로 한정되는 것은 아니며, 적절하게 변형 가능하다. 그리고, 상기의 구성은 실질적으로 유사한 구성, 유사한 작용 효과가 있는 구성 또는 유사한 목적을 달성할 수 있는 구성으로 대체할 수 있다.
100...정보 처리장치, 110...프로세서, 111...평가결과 취득부, 112...문서 데이터 취득부, 113...종합 평가결과 산출부, 114...제 1 학습모델 취득부, 115...제 1 학습부, 116...제 2 학습부, 117...출력부, 120...ROM, 130...RAM, 131...제 1 평가 프로그램, 132...제 1 학습 프로그램, 133...문서 데이터, 133a...라벨 부여 문서, 133b...라벨 없는 문서, 134...제 1 평가 데이터, 135...학습모델, 136...제 2 평가 데이터, 137...데이터 세트, 139...문서 검색모델, 140...입력부, 150...표시부, 160...통신부, 201...특징량 추출 프로그램, 202...제 1 생성 프로그램, 203...제 2 생성 프로그램, 204...제 2 학습 프로그램, 205...제 2 평가 프로그램, 210...특징량 추출부, 211...학습모델 생성부, 212...데이터 세트 생성부, 213...제 3 학습부, 214...성능 평가부, 300...검증 데이터

Claims (18)

  1. 제 1 학습 데이터를 이용하여 학습시킨 제 1 기계 학습모델의 성능을 나타내는 제 1 평가결과로서, 또 상기 제 1 학습 데이터와 다른 제 1 검증 데이터를 이용하여 산출된 제 1 평가결과를 얻는 단계와;
    상기 제 1 학습 데이터와 다른 제 2 학습 데이터를 이용하여 학습시킨, 상기 제 1 기계 학습모델과 다른 제 2 기계 학습모델의 성능을 나타내는 제 2 평가결과로서, 또 상기 제 1 검증 데이터와 다른 제 2 검증 데이터를 이용하여 산출된 제 2 평가결과를 얻는 단계와;
    상기 제 1 평가결과와 상기 제 2 평가결과에 기반하여, 소정의 이벤트에 관해 평가하지 않은 미지 데이터(unknown data)에 적용했을 때에 예측되는, 상기 제 1 기계 학습모델 및 상기 제 2 기계 학습모델을 포함한 하나의 기계 학습모델의 성능을 나타내는 종합 평가결과를 산출하는 단계를 포함하고,
    상기 제 1 학습 데이터, 상기 제 2 학습 데이터, 상기 제 1 검증 데이터, 및 상기 제 2 검증 데이터는, 상기 소정의 이벤트에 관해 평가된 데이터인 것을 특징으로 하는 정보 처리방법.
  2. 제 1항에 있어서,
    상기 제 1 기계 학습모델 및 상기 제 2 기계 학습모델은 동일한 알고리즘을 이용하는 것을 특징으로 하는 정보 처리방법.
  3. 제 2항에 있어서,
    상기 제 1 기계 학습모델 및 상기 제 2 기계 학습모델은 모두 랜덤 포레스트 모델이며,
    상기 제 1 기계 학습모델 및 상기 제 2 기계 학습모델의 상기 랜덤 포레스트 모델에서 결정 나무의 깊이 또는 잎 노드의 수는 서로 다른 것을 특징으로 하는 정보 처리방법.
  4. 제 1항에 있어서,
    상기 제 1 학습 데이터 및 상기 제 2 학습 데이터와 다른 제 3 학습 데이터를 이용하여 학습시킨, 상기 제 1 기계 학습모델 및 상기 제 2 기계 학습모델과 다른 제 3 기계 학습모델의 성능을 나타내는 제 3 평가결과이며, 또 상기 제 1 검증 데이터 및 상기 제 2 검증 데이터와 다른 제 3 검증 데이터를 이용하여 산출된 제 3 평가결과를 얻는 단계를 더 포함하고,
    상기 종합 평가결과는, 상기 제 3 평가결과에 기반하지 않고 산출되며,
    상기 종합 평가결과는, 상기 미지 데이터에 적용했을 때에 예측되는 상기 제 1 내지 제 3 기계 학습모델을 포함한 상기 하나의 기계 학습모델의 성능을 나타내는 것을 특징으로 하는 정보 처리방법.
  5. 제 1항에 있어서,
    상기 종합 평가결과는, 복수의 평가결과 중 하위의 평가결과를 이용하지 않고, 상위의 복수의 평가결과에 기반하여 산출되며,
    상기 복수의 평가결과의 각각은, 각각이 서로 다른 복수의 학습 데이터를 이용하여 학습시킨, 복수의 기계 학습모델에 대해, 각각이 서로 다른 복수의 검증 데이터를 이용하여 산출된 상기 복수의 기계 학습모델의 성능을 나타내며,
    상기 복수의 학습 데이터는, 상기 제 1 학습 데이터 및 상기 제 2 학습 데이터를 포함하고,
    상기 복수의 검증 데이터는, 상기 제 1 검증 데이터 및 상기 제 2 검증 데이터를 포함하고,
    상기 복수의 기계 학습모델은, 상기 제 1 기계 학습모델 및 상기 제 2 기계 학습모델을 포함하며,
    상기 복수의 평가결과는, 상기 제 1 평가결과 및 상기 제 2 평가결과를 포함하는 것을 특징으로 하는 정보 처리방법.
  6. 제 1항 내지 제 5항 중 어느 한 항에 있어서,
    상기 하나의 기계 학습모델은,
    상기 소정의 이벤트에 관한 복수의 평가된 데이터가 각각 입력되고, 또 입력된 상기 평가된 데이터에 기반한 기계 학습이 각각 실행된 복수의 학습된 모델이며, 상기 제 1 기계 학습모델 및 상기 제 2 기계 학습모델을 포함한 복수의 제 1 공정 학습모델과,
    상기 복수의 제 1 공정 학습모델에서 각각 출력된 복수의 출력 데이터가 입력되고, 또 입력된 상기 복수의 출력 데이터에 기반한 기계 학습이 실행된 학습된 모델인 제 2 공정 학습모델을 포함하는 것을 특징으로 하는 정보 처리방법.
  7. 제 6항에 있어서,
    상기 제 2 공정 학습모델은 신경망인 것을 특징으로 하는 정보 처리방법.
  8. 제 6항에 있어서,
    상기 복수의 제 1 공정 학습모델은, 서로 다른 복수의 랜덤 포레스트 모델인 것을 특징으로 하는 정보 처리방법.
  9. 제 6항에 있어서,
    상기 복수의 제 1 공정 학습모델의 각각은, 상기 하나의 기계 학습모델에 입력된 상기 미지 데이터에 기반하여, 상기 미지 데이터와 상기 소정의 이벤트의 관련성 정도를 나타내는 제 1 평가 데이터를 생성하고, 생성된 상기 제 1 평가 데이터를 상기 제 2 공정 학습모델에 출력하고,
    상기 제 2 공정 학습모델은, 상기 복수의 제 1 공정 학습모델에서 각각 출력된 복수의 상기 제 1 평가 데이터에 기반하여, 상기 미지 데이터와 상기 소정의 이벤트의 관련성 정도를 나타내는 제 2 평가 데이터를 생성하여 출력하는 것을 특징으로 하는 정보 처리방법.
  10. 제 1항 내지 제 5항 중 어느 한 항에 있어서,
    상기 제 1 학습 데이터를 이용하여 상기 제 1 기계 학습모델을 학습시키는 단계와;
    상기 제 1 검증 데이터를 이용하여 상기 제 1 기계 학습모델에 대한 상기 제 1 평가결과를 산출하는 단계와;
    상기 제 2 학습 데이터를 이용하여 상기 제 2 기계 학습모델을 학습시키는 단계와;
    상기 제 2 검증 데이터를 이용하여 상기 제 2 기계 학습모델에 대한 상기 제 2 평가결과를 산출하는 단계를 더 포함하는 것을 특징으로 하는 정보 처리방법.
  11. 제 1항 내지 제 5항 중 어느 한 항에 있어서,
    상기 제 1 평가결과 및 상기 제 2 평가결과는 각각, 상기 제 1 기계 학습모델 및 상기 제 2 기계 학습모델의 재현률을 포함하고,
    상기 종합 평가결과는, 상기 재현률을 기반으로 얻어지는 것을 특징으로 하는 정보 처리방법.
  12. 제 1항 내지 제 5항 중 어느 한 항에 있어서,
    상기 제 1 학습 데이터는 제 1 데이터 세트 중 제 1 부분이고, 상기 제 1 검증 데이터는 상기 제 1 데이터 세트에서 상기 제 1 부분을 제외한 제 2 부분이며,
    상기 제 2 학습 데이터는 상기 제 1 데이터 세트 중 제 3 부분이고, 상기 제 2 검증 데이터는 상기 제 1 데이터 세트에서 상기 제 3 부분을 제외한 제 4 부분이며,
    상기 제 1 부분의 적어도 일부는 상기 제 3 부분과 다르고,
    상기 제 2 부분의 적어도 일부는 상기 제 4 부분과 다른 것을 특징으로 하는 정보 처리방법.
  13. 제 12항에 있어서,
    상기 제 1 학습 데이터와 상기 제 2 학습 데이터는, 서로의 일부가 중복되고,
    상기 제 1 검증 데이터와 상기 제 2 검증 데이터는, 서로의 일부가 중복되는 것을 특징으로 하는 정보 처리방법.
  14. 제 12항에 있어서,
    상기 제 1 학습 데이터와 상기 제 2 검증 데이터는, 서로의 일부가 중복되고,
    상기 제 1 검증 데이터와 상기 제 2 학습 데이터는, 서로의 일부가 중복되는 것을 특징으로 하는 정보 처리방법.
  15. 제 11항에 있어서,
    상기 제 1 검증 데이터는, 복수의 제 1 문서를 포함하고,
    상기 제 2 검증 데이터는, 복수의 제 2 문서를 포함하며,
    상기 복수의 제 1 문서 및 상기 복수의 제 2 문서는, 상기 소정의 이벤트에 대한 관련성 정도에 따라서 순서가 붙여지고,
    상기 순서와, 해당 순서에 대응하는 상기 복수의 제 1 문서에 관한 상기 제 1 기계 학습모델에서의 재현률과, 해당 순서에 대응하는 상기 복수의 제 2 문서에 관한 상기 제 2 기계 학습모델에서의 재현률을 표시하는 단계를 더 포함하는 것을 특징으로 하는 정보 처리방법.
  16. 제 15항에 있어서,
    상기 각각의 순서에 있어서, 상기 평가된 데이터를 이용한 검증 결과에서 상위인 복수의 기계 학습모델의 재현률의 평균값에 기반하여, 상기 종합 평가결과를 표시하는 단계를 더 포함하는 것을 특징으로 하는 정보 처리방법.
  17. 제 1 학습 데이터를 이용하여 학습시킨 제 1 기계 학습모델의 성능을 나타내는 제 1 평가결과로서, 또 상기 제 1 학습 데이터와 다른 제 1 검증 데이터를 이용하여 산출된 제 1 평가결과, 및 상기 제 1 학습 데이터와 다른 제 2 학습 데이터를 이용하여 학습시킨, 상기 제 1 기계 학습모델과 다른 제 2 기계 학습모델의 성능을 나타내는 제 2 평가결과로서, 또 상기 제 1 검증 데이터와 다른 제 2 검증 데이터를 이용하여 산출된 제 2 평가결과를 취득하는 평가결과 취득부와;
    상기 제 1 평가결과와 상기 제 2 평가결과에 기반하여, 소정의 이벤트에 관해 평가하지 않은 미지 데이터에 적용했을 때에 예측되는, 상기 제 1 기계 학습모델 및 상기 제 2 기계 학습모델을 포함한 하나의 기계 학습모델의 성능을 나타내는 종합 평가결과를 산출하는 종합 평가결과 산출부를 포함하고,
    상기 제 1 학습 데이터, 상기 제 2 학습 데이터, 상기 제 1 검증 데이터, 및 상기 제 2 검증 데이터는, 상기 소정의 이벤트에 관해 평가된 데이터인 것을 특징으로 하는 정보 처리장치.
  18. 정보 처리 프로그램을 저장한 컴퓨터 판독가능한 기록매체로서, 상기 정보 처리 프로그램이 프로세서에 의해 실행됨으로써 상기 프로세서에 대해서,
    제 1 학습 데이터를 이용하여 학습시킨 제 1 기계 학습모델의 성능을 나타내는 제 1 평가결과로서, 또 상기 제 1 학습 데이터와 다른 제 1 검증 데이터를 이용하여 산출된 제 1 평가결과를 취득시키고,
    상기 제 1 학습 데이터와 다른 제 2 학습 데이터를 이용하여 학습시킨, 상기 제 1 기계 학습모델과 다른 제 2 기계 학습모델의 성능을 나타내는 제 2 평가결과로서, 또 상기 제 1 검증 데이터와 다른 제 2 검증 데이터를 이용하여 산출된 상기 제 2 평가결과를 취득시키고,
    상기 제 1 평가결과와 상기 제 2 평가결과에 기반하여, 소정의 이벤트에 관해 평가하지 않은 미지 데이터에 적용했을 때에 예측되는, 상기 제 1 기계 학습모델 및 상기 제 2 기계 학습모델을 포함한 하나의 기계 학습모델의 성능을 나타내는 종합 평가결과를 산출시키며,
    상기 제 1 학습 데이터, 상기 제 2 학습 데이터, 상기 제 1 검증 데이터, 및 상기 제 2 검증 데이터는, 상기 소정의 이벤트에 관해 평가된 데이터인 것을 특징으로 하는 컴퓨터 판독가능한 기록매체.
KR1020210072061A 2020-06-08 2021-06-03 정보 처리장치, 정보 처리방법 및 컴퓨터 판독가능한 기록매체 KR20210152395A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020099521A JP6908250B1 (ja) 2020-06-08 2020-06-08 情報処理装置、情報処理方法、及び情報処理プログラム
JPJP-P-2020-099521 2020-06-08

Publications (1)

Publication Number Publication Date
KR20210152395A true KR20210152395A (ko) 2021-12-15

Family

ID=76919728

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210072061A KR20210152395A (ko) 2020-06-08 2021-06-03 정보 처리장치, 정보 처리방법 및 컴퓨터 판독가능한 기록매체

Country Status (4)

Country Link
US (1) US20210383281A1 (ko)
JP (1) JP6908250B1 (ko)
KR (1) KR20210152395A (ko)
TW (1) TWI772023B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220073432A (ko) * 2020-11-26 2022-06-03 주식회사 리걸인사이트 계약서 리스크 분석 방법 및 장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230326089A1 (en) * 2021-09-03 2023-10-12 Pabloarts Company Inc. Device for generating data for art-based psychoanalysis and method for augmentation and efficient management of data for art-based psychoanalysis using the same

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160358099A1 (en) * 2015-06-04 2016-12-08 The Boeing Company Advanced analytical infrastructure for machine learning
US10535017B2 (en) * 2015-10-27 2020-01-14 Legility Data Solutions, Llc Apparatus and method of implementing enhanced batch-mode active learning for technology-assisted review of documents
US10713783B2 (en) * 2017-06-01 2020-07-14 International Business Machines Corporation Neural network classification
CN110851591A (zh) * 2019-09-17 2020-02-28 河北省讯飞人工智能研究院 一种裁判文书的质量评估方法、装置、设备及存储介质
CN110751216A (zh) * 2019-10-21 2020-02-04 南京大学 一种基于改进卷积神经网络的裁判文书行业分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220073432A (ko) * 2020-11-26 2022-06-03 주식회사 리걸인사이트 계약서 리스크 분석 방법 및 장치

Also Published As

Publication number Publication date
JP6908250B1 (ja) 2021-07-21
US20210383281A1 (en) 2021-12-09
TWI772023B (zh) 2022-07-21
TW202211093A (zh) 2022-03-16
JP2021193509A (ja) 2021-12-23

Similar Documents

Publication Publication Date Title
Singh et al. Why reinvent the wheel: Let's build question answering systems together
Trabelsi et al. A new feature selection method for nominal classifier based on formal concept analysis
Sadhasivam et al. Sentiment analysis of Amazon products using ensemble machine learning algorithm
Hofmann Fast and reliable online learning to rank for information retrieval
US11481560B2 (en) Information processing device, information processing method, and program
Vainshtein et al. A hybrid approach for automatic model recommendation
Liu et al. Generative adversarial construction of parallel portfolios
KR20210152395A (ko) 정보 처리장치, 정보 처리방법 및 컴퓨터 판독가능한 기록매체
Maanijou et al. Introducing an expert system for prediction of soccer player ranking using ensemble learning
Demchuk et al. Commercial Content Distribution System Based on Neural Network and Machine Learning.
Huang et al. Leveraging the crowd to improve feature-sentiment analysis of user reviews
Gopalakrishnan et al. Can latent topics in source code predict missing architectural tactics?
US20170154294A1 (en) Performance evaluation device, control method for performance evaluation device, and control program for performance evaluation device
Naresh Recommender system for sentiment analysis using machine learning models
Charest et al. Ontology-guided intelligent data mining assistance: Combining declarative and procedural knowledge.
Dehghan et al. An improvement in the quality of expert finding in community question answering networks
US20200174776A1 (en) Methods and systems for automated screen display generation and configuration
Luukkonen et al. LSTM-based predictions for proactive information retrieval
Wafi et al. Automatic feature selection for modified k-nearest neighbor to predict student's academic performance
Agrawal et al. Learning from graph neighborhoods using LSTMs
Tallón-Ballesteros et al. Merging subsets of attributes to improve a hybrid consistency-based filter: a case of study in product unit neural networks
Singh et al. Folksonomy based trend analysis on community question answering sites: A perspective on software technologies
Zhou et al. Research on personalized e-learning based on decision tree and RETE algorithm
Kumar et al. Comparative analysis of ensemble classifiers for sentiment analysis and opinion mining
Choudhary et al. An ensemble approach to enhance performance of webpage classification

Legal Events

Date Code Title Description
E902 Notification of reason for refusal