KR102593054B1

KR102593054B1 - 임베딩 모델 성능 평가 방법 및 장치

Info

Publication number: KR102593054B1
Application number: KR1020220056543A
Authority: KR
Inventors: 하태현; 이민국; 윤빛나리; 고병열
Original assignee: 한국과학기술정보연구원
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2023-10-24

Abstract

임베딩 모델의 성능 평가 방법 및 장치가 제공된다. 본 개시의 몇몇 실시예에 따른 임베딩 모델의 성능 평가 방법 및 장치는, 기계 학습된 임베딩 모델을 이용하여 텍스트 데이터를 벡터화하는 단계, 상기 벡터화된 텍스트 데이터를 클러스터링하는 단계, 각 텍스트 데이터가 가지는 구조를 이용한 그룹핑의 결과로 구성된 텍스트 데이터 그룹 및 상기 클러스터링의 결과에 따른 텍스트 데이터 클러스터를 비교하는 단계 및 상기 비교의 결과를 이용하여 임베딩 모델의 성능을 평가하는 단계를 포함한다.

Description

임베딩 모델 성능 평가 방법 및 장치{METHOD AND APPARATUS FOR EVALUATION OF EMBEDDING MODEL PERFORMANCE}

본 개시는 텍스트 데이터를 이용하여 임베딩 모델의 성능을 평가하는 방법 및 그 장치와 임베딩 모델의 성능을 평가한 결과를 이용하여 임베딩 모델을 개선하는 방법 및 그 장치에 관한 것이다.

지도 학습(Supervised Learning)은 훈련 데이터(Training Data)로부터 하나의 함수를 유추해내기 위한 기계 학습(Machine Learning)의 한 방법이다. 훈련 데이터는 일반적으로 입력 객체에 대한 속성을 벡터 형태로 포함하고 있으며 각각의 벡터에 대해 원하는 결과가 무엇인지 표시되어 있다.

일반적으로 언어 모델을 학습하는 방법은 지도학습과 비지도학습(Unsupervised Learning) 방식으로 이뤄지게 되는데, 지도학습의 경우 학습의 중간 과정 및 종료 시점에서 성능의 평가가 용이한 반면, 비지도학습의 경우 학습의 중간 과정 및 종료 시점에서 성능의 평가가 어렵다. 즉, 비지도학습 방식의 경우, 데이터에 라벨링이 없으므로 결과의 예측 자체를 정의할 수 없고, 학습 결과를 실제 결과와 비교할 수 없는 문제점이 있었다.

나아가, 비지도학습 방식의 이러한 문제점 때문에, 기계 학습 모델의 학습 과정에서 모델의 성능을 평가하고, 이에 따른 의사결정을 내리는 것이 어렵다는 문제점도 있었다.

한국공개특허 제10-2017-0025454호 (2017.03.08 공개)

본 개시가 해결하고자 하는 기술적 과제는, 라벨링이 되지 않은 데이터를 이용하여 학습모델을 평가하는 방법 및 그 장치를 제공하는 데 있다.

본 개시가 해결하고자 하는 다른 기술적 과제는, 라벨링이 되지 않은 데이터를 이용하여 학습모델을 개선하고, 재학습시킴으로써 최적의 학습모델을 획득하는 방법 및 그 장치를 제공하는 데 있다.

본 개시의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 해결하기 위한, 본 개시의 일 실시예에 따른 임베딩 모델의 성능 평가 방법은, 기계 학습된 임베딩 모델을 이용하여 텍스트 데이터를 벡터화하는 단계, 상기 벡터화된 텍스트 데이터를 클러스터링하는 단계, 각 텍스트 데이터가 가지는 구조를 이용한 그룹핑의 결과로 구성된 텍스트 데이터 그룹 및 상기 클러스터링의 결과에 따른 텍스트 데이터 클러스터를 비교하는 단계 및 상기 비교의 결과를 이용하여 임베딩 모델의 성능을 평가하는 단계를 포함할 수 있다.

몇몇 실시예에서, 상기 텍스트 데이터는, 범주화된 구조를 가지며 기계 학습을 위한 라벨링이 되지 않은 것일 수 있다. 여기서, 상기 텍스트 데이터는, 특허분류코드 텍스트일 수 있다.

몇몇 실시예에서, 상기 텍스트 데이터 그룹은, 제1 분류 체계에 기반한 그룹핑의 결과로 구성된 것이고, 상기 클러스터링하는 단계는, 상기 제1 분류 체계에 대응되는 파라미터를 이용하여 상기 벡터화된 텍스트 데이터를 클러스터링 하는 단계를 포함할 수 있다.

몇몇 실시예에서, 상기 임베딩 모델을 학습시키는 단계는, 상기 기계 학습된 임베딩 모델은, 비지도학습(unsupervised learning) 형태로 기계 학습된 모델일 수 있다.

몇몇 실시예에서, 상기 성능 평가 결과를 이용하여 상기 학습된 임베딩 모델을 개선하는 단계를 더 포함하며, 상기 개선하는 단계는, 상기 임베딩 모델의 파라미터를 수정하거나 구조를 개선하는 단계를 포함할 수 있다. 여기서, 상기 임베딩 모델을 개선하는 단계는, 상기 텍스트 데이터를 사용하여 개선된 임베딩 모델을 비지도학습 형태로 학습시키는 단계를 포함할 수 있다. 여기서, 상기 임베딩 모델을 개선하는 단계는, 상기 텍스트 데이터 그룹 및 상기 텍스트 데이터 클러스터를 비교하여 유사도가 기준치를 초과하는 경우, 임베딩 모델 최종본을 획득하는 단계를 더 포함할 수 있다.

몇몇 실시예에서, 각 텍스트 데이터가 가지는 구조를 이용한 그룹핑의 결과로 구성된 텍스트 데이터 그룹 및 상기 클러스터링의 결과에 따른 텍스트 데이터 클러스터를 비교하는 단계는, NMI(Normalized Mutual information) 방법을 이용하여 상기 텍스트 데이터 그룹 및 상기 텍스트 데이터 클러스터를 비교하는 단계를 포함할 수 있다.

상술한 기술적 과제를 해결하기 위한 본 개시의 다른 실시예에 따른 임베딩 모델 성능 평가 장치는, 하나 이상의 프로세서, 상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되, 상기 컴퓨터 프로그램은, 기계 학습된 임베딩 모델을 이용하여 텍스트 데이터를 벡터화하는 동작, 상기 벡터화된 텍스트 데이터를 클러스터링하는 동작, 상기 벡터화된 텍스트 데이터를 군집화하는 동작, 각 텍스트 데이터가 가지는 구조를 이용한 그룹핑의 결과로 구성된 텍스트 데이터 그룹 및 상기 클러스터링의 결과에 따른 텍스트 데이터 클러스터를 비교하는 동작, 상기 비교의 결과를 이용하여 임베딩 모델의 성능을 평가하는 인스트럭션들을 포함할 수 있다. 여기서, 상기 성능 평가 결과를 이용하여 상기 학습된 임베딩 모델을 개선하는 인스트럭션을 더 포함할 수 있다.

도 1은 본 개시의 일 실시 예에 따른, 임베딩 모델의 성능 평가 방법을 도식적으로 설명하는 도면이다.
도 2는 본 개시의 다른 실시 예에 따른, 임베딩 모델의 성능 평가 방법의 순서도이다.
도 3은 본 개시의 또 다른 실시 예에 따른, 임베딩 모델의 성능 개선 및 임베딩 모델의 최종본을 획득하는 방법의 순서도이다.
도 4 및 도 5는 본 개시의 몇몇 실시예들에서 참조될 수 있는 그룹화된 텍스트 데이터 및 클러스터링된 텍스트 데이터의 일 예를 도시한 도면이다.
도 6은 본 개시의 몇몇 실시예들에 따른 컴퓨팅 장치의 하드웨어 구성도이다.

이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시예들을 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명의 기술적 사상을 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.

본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

이하, 도면들을 참조하여 본 개시의 몇몇 실시예들을 설명한다.

도 1은 본 개시의 일 실시 예에 따른, 임베딩 모델의 성능 평가 방법의 개념도이다.

도 1을 참조하면, 임베딩 모델(embedding model)의 성능 평가 방법의 학습 데이터로서, 텍스트 데이터(110)가 사용된다. 여기서, 텍스트 데이터(110)는, 범주화된 구조를 가지며 기계 학습을 위한 라벨링이 되지 않은 텍스트일 수 있다.

여기서, 범주화된 구조란, 예를 들어, 구직 통계 기관에서 구직자 직업 분류 통계 집계를 위하여 수집한 구직자 선호 직업 목록 텍스트가 갖는, 직업 카테고리로 분류될수 있는 특징적인 구조를 의미할 수 있다. 또는, 범주화된 구조란, 특정 목적을 위하여 수집된 특허 목록으로서, 선진특허분류(CPC) 코드에 의하여 분류될 수 있는 특징적인 구조를 의미할 수 있다.

범주화된 구조를 가지는 텍스트 데이터란, 예를 들어 선진특허분류 분류 대상 텍스트(이하, 특허분류코드 텍스트) 또는 직업분류체계 분류 대상 텍스트(이하, 직업 텍스트)일 수 있다.

일 실시예에 따르면, 텍스트 데이터(110)는 계층적 구조를 가지며 라벨링이 되지 않은 텍스트일 수 있다. 예를 들어, 텍스트 데이터(110)는, 제1 그룹 및 제2 그룹으로 그룹핑될 수 있다. 이때, 제1 그룹은 제A 그룹 및 제B 그룹으로 나뉘며, 제2 그룹은 제C 그룹 및 제D 그룹으로 나뉠 수 있으며, 따라서 텍스트 데이터(110)는 제A 그룹 내지 제D 그룹으로 그룹핑 될 수 있다. 여기서, 제1 그룹 및 제2 그룹으로 그룹핑된 텍스트 데이터(110)의 계층 구조는, 제A 그룹 내지 제D 그룹으로 그룹핑된 텍스트 데이터(110)의 계층 구조의 상위 계층 구조일 수 있다.

임베딩 모델(120)은, 텍스트 데이터(110)를 사용하여 비지도 방식으로 기계 학습될 수 있다. 임베딩이란, 자연어 처리에서 특징 추출을 통해 수치화를 하기 위하여 언어를 벡터화하는 것이다. 이때, 임베딩 방법은, One-hot Encoding을 사용한 밀집행렬(Dense Matrix) 등 다양한 임베딩 방법이 이용될 수 있으며, 어떠한 방법이 이용되더라도 무방하다. 여기서, 임베딩 모델(120)이란, 언어를 벡터화 하기 위한 기계 학습 모델이다.

일 실시예에 따르면, 기계 학습된 임베딩 모델(120)을 이용하여 텍스트 데이터(110)를 벡터화 할 수 있다.

클러스터링 모델(130)은, 임베딩 모델(120)에 의해 벡터화된 텍스트 데이터를 클러스터링하여, 텍스트 데이터 클러스터(140)를 생성한다.

일 실시예에 따르면, 클러스터링 모델(130)은 데이터를 순차적으로 군집화 하는 계층 군집 분석(hierarchical clustering) 알고리즘을 포함할 수 있다.

일 실시예에 따르면, 클러스터링 모델(130)은 데이터를 k개의 클러스터로 묽는 K-평균(K-means) 클러스터링 알고리즘을 포함할 수 있다.

일 실시예에 따르면, 클러스터링 모델(130)은 계층적 구조를 가지는 텍스트 데이터(110)의 특정 분류 체계에 대응되는 파라미터를 이용하여 벡터화된 텍스트 데이터를 클러스터링 할 수 있다.

임베딩 모델 성능 평가 및 개선 모델(160)은, 클러스터링 모델(130)에 의하여 생성된 텍스트 데이터 클러스터(140) 및 텍스트 데이터(110)를 그룹핑하여 생성된 텍스트 데이터 그룹(150)을 비교하여, 비교 결과를 이용하여 임베딩 모델(120)의 성능을 평가할 수 있다.

일 실시예에 따르면, 임베딩 모델 성능 평가 및 개선에 사용되는 텍스트 데이터 그룹(150)은, 텍스트 데이터(110)가 가지는 구조를 이용한 그룹핑의 결과로 생성된 것일 수 있다. 예를 들어, 텍스트 데이터 그룹(150)은 특허분류코드 텍스트를 CPC 분류 코드를 이용하여 그룹핑한 결과로 생성된 데이터 그룹일 수 있다.

일 실시예에 따르면, 텍스트 데이터 그룹(150)은, 계층적 구조를 가지는 텍스트 데이터(110)의 어느 하나의 분류 체계로 그룹핑된 데이터 그룹일 수 있다. 예를 들어, 텍스트 데이터 그룹(150)은, 제1 분류체계에 의하여 제1 그룹 및 제2 그룹으로 그룹핑된 데이터 그룹일 수 있다. 이때, 제1 그룹은 제A 그룹 및 제B 그룹으로 나뉘며, 제2 그룹은 제C 그룹 및 제D 그룹으로 나뉠 수 있다. 또는, 텍스트 데이터 그룹(150)은, 제2 분류체계에 의하여 제A 그룹 내지 제D 그룹으로 그룹핑된 데이터 그룹일 수 있다.

일 실시예에 따르면, 임베딩 모델 성능 평가 및 개선 모델(160)은, 임베딩 모델의 파라미터를 수정하거나 구조를 개선할 수 있다. 예를 들어, 임베딩 모델(120)이 딥 러닝 모델인 경우, 모델 구조, 인공 신경망의 층수, 한 층에 들어갈 인공 뉴런의 수, 최적화 기법 등을 수정하거나 개선할 수 있다.

일 실시예에 따르면, 임베딩 모델 성능 평가 및 개선 모델(160)은, NMI(Normalized Mutual Information) 방법을 이용하여 텍스트 데이터 그룹(150) 및 텍스트 데이터 클러스터(140)의 유사도를 비교하여 임베딩 모델(120)의 성능을 평가할 수 있다. 여기서, 텍스트 데이터 그룹(150) 및 텍스트 데이터 클러스터(140)의 유사도를 비교하는 방법은, 비지도 학습 결과를 평가하기 위한 다양한 방법이 이용될 수 있으며, 어떠한 방법이 이용되더라도 무방하다.

상술한 실시예들에 따르면, 범주화된 구조를 갖는 텍스트 데이터(110)를 사용함으로써, 임베딩 모델을 비지도 방식으로 학습한 결과의 정확한 성능 평가 및 개선이 가능해지는 효과가 제공된다.

여기서, 텍스트 데이터 그룹(150) 및 텍스트 데이터 클러스터(140)의 유사도를 비교하여 임베딩 모델(120)의 성능을 평가함으로써, 유사도가 높을 수록, 임베딩 모델(120)이 텍스트 데이터(110)가 본래 가지고 있는 구조의 특징을 잘 반영하고 있다고 볼 수 있으며, 비지도 학습 방식으로 임베딩 모델(120)을 학습한 결과가 상대적으로 좋다고 볼 수 있다.

일 실시예에 따르면, 임베딩 모델 성능 평가 및 개선 모델(160)에 의하여 개선된 임베딩 모델(120)을 비지도 학습 형태로 재 학습시킬 수 있다.

일 실시예에 따르면, 임베딩 모델 성능 평가 및 개선 모델(160)에 의하여 텍스트 데이터 그룹(150) 및 텍스트 데이터 클러스터(140)의 유사도를 비교하여 유사도가 기준치를 초과하는 경우, 임베딩 모델(120)의 성능 개선 과정을 중지하고, 임베딩 모델(120)의 최종본을 획득할 수 있다.

지금까지 상술한 임베딩 모델의 성능 평가 방법의 임베딩 모델(120), 클러스터링 모델(130) 또는 임베딩 모델 성능 평가 및 개선 알고리즘(160)은 프로세서를 구비한 하나 이상의 컴퓨팅 장치로 구현될 수 있다. 예를 들어, 임베딩 모델(120)과 같은 각각의 모델 또는 알고리즘이 하나의 컴퓨팅 장치로 구현될 수도 있고, 복수의 모델 또는 알고리즘이 하나의 컴퓨팅 장치로 구현될 수도 있다. 컴퓨팅 장치는 컴퓨팅 기능을 구비한 임의의 장치를 의미할 수 있으며, 이러한 장치의 일 예시에 관하여서는 도 6을 참조하도록 한다.

다음으로 ,본 개시의 다른 실시예에 따른 임베딩 모델의 성능 평가 방법에 대해 도 2 이하의 도면을 참조하여 설명한다. 본 실시예에 따른 임베딩 모델의 성능 평가 방법은 하나 이상의 컴퓨팅 장치에 의하여 수행될 수 있다. 예를 들어, 본 실시예에 따른 임베딩 모델의 성능 평가 방법은 하나의 컴퓨팅 장치에 의하여 모든 동작이 수행될 수도 있고, 일부의 동작이 다른 컴퓨팅 장치에 의하여 수행될 수도 있다.

도 2는 본 개시의 다른 실시 예에 따른, 임베딩 모델의 성능 평가 방법의 순서도이다.

S100 단계에서, 임베딩 모델(120)이 비지도 학습 형태로 학습될 수 있다. 임베딩 모델의 임베딩 알고리즘은, 예를 들어 앞서 제시한 One-hot Encoding을 사용한 밀집행렬(Dense Matrix) 알고리즘일 수 있다. 그러나, 본 개시의 범위가 이에 한정되는 것은 아니다.

S200 단계에서, 텍스트 데이터(110)가 학습된 임베딩 모델(120)에 의하여 벡터화될 수 있다.

S300 단계에서, 임베딩 모델(120)을 이용하여 벡터화된 텍스트 데이터가 클러스터링 된다. 여기서, 벡터화된 텍스트 데이터의 클러스터링 방법은, 예를 들어 앞서 제시한 계층 군집 분석 또는 K-평균 클러스터링 알고리즘일 수 있다. 그러나, 본 개시의 범위가 이에 한정되는 것은 아니다.

S400 단계에서, 텍스트 데이터 그룹 및 텍스트 데이터 클러스터의 유사도를 비교하고, 비교 결과를 이용하여 임베딩 모델의 성능을 평가할 수 있다.

도 3은 본 개시의 다른 실시 예에 따른, 임베딩 모델의 성능 개선 및 임베딩 모델의 최종본을 획득하는 방법의 순서도이다. 구체적으로는, 텍스트 데이터 그룹(150) 및 텍스트 데이터 클러스터(140)를 비교하여 임베딩 모델(120)의 성능 평가하는 모델로서 NMI 알고리즘이 사용된 예시적인 방법을 나타내는 도면이다.

S500 단계에서, NMI 값이 기준치 이하인 경우, 임베딩 모델이 개선될 수 있다(S600). 여기서, 임베딩 모델의 개선 방법으로, 임베딩 모델의 파라미터가 수정되거나 구조가 개선될 수 있다. 예를 들어, 임베딩 모델(120)이 딥 러닝 모델인 경우, 모델 구조 등이 개선될 수 있다. 그러나, 본 개시의 범위가 이에 한정되는 것은 아니다.

일 실시예에 따르면, S600 단계에서 개선된 임베딩 모델(120)이 텍스트 데이터(110)가 사용됨으로써 비지도학습 형태로 다시 학습될 수 있다. 이 경우, NMI 값이 기준치를 초과할 때까지 S100 단계 내지 S500 단계가 반복된다.

일 실시예에 따르면, S500 단계에서, NMI 값이 기준치를 초과하는 경우, 임베딩 모델(120)이 개선되는 과정이 중단되고, 임베딩 모델의 최종본이 획득될 수 있다(S700).

상술한 실시예들에 따르면, 텍스트 데이터(110)가 사용되어 텍스트 데이터 그룹(150) 및 텍스트 데이터 클러스터(140)의 유사도가 비교되고, 임베딩 모델(120)의 성능이 평가됨으로써 임베딩 모델(120)이 순환적으로 학습되는 프로세스를 통하여 최적의 임베딩 모델이 선정될 수 있는 효과가 제공된다.

도 4 및 도 5는 본 개시의 다른 실시예에 따른, 계층적 구조를 가지는 텍스트 데이터가 사용되어 생성된 텍스트 데이터 그룹 및 클러스터링된 텍스트 데이터 클러스터의 일 예를 도시한 도면이다.

이하 도 4를 참조하여, 제1 분류 체계에 기반하여 생성된 제1 텍스트 데이터 그룹과 제1 텍스트 데이터 클러스터의 파라미터가 대응되는 경우의 실시예를 설명한다.

일 실시예에 따르면, 계층적 구조를 가지는 제1 텍스트 데이터의 제1 분류 체계에 기반한 그룹핑의 결과로서, 그룹 1(210) 내지 그룹 3(230)으로 구성되는 그룹화된 텍스트 데이터 그룹(200)이 생성될 수 있다.

다음으로, 제1 분류 체계에 대응되는 파라미터를 이용하여 벡터화된 텍스트 데이터가 클러스터링되어 생성된 제1 텍스트 데이터 클러스터(300)가 생성될 수 있다.

이때, 제1 텍스트 데이터 클러스터(300)는 제1 텍스트 데이터 그룹(200)의 제1 분류 체계와 서로 대응되는 파라미터에 의해 생성된 것이다. 즉, 그룹 1(210)과 제1 클러스터(310)가 대응되며, 그룹 2(220)과 제2 클러스터(320)가 대응되며, 그룹 3(230)과 제3 클러스터(330)가 대응된다.

이 경우, 제1 텍스트 데이터 그룹(200) 및 제1 텍스트 데이터 클러스터(300)의 유사도가 비교되어, 유사도가 기준치 이하인 경우, 클러스터의 파라미터 또는 구조가 개선되고, 개선된 임베딩 모델에 대하여 다시 학습이 이뤄질 수 있으며, 유사도가 기준치 초과인 경우, 임베딩 모델의 최종본이 획득된다.

이하 도 5를 참조하여, 제2 분류 체계에 기반하여 생성된 제2 텍스트 데이터 그룹과 제1 텍스트 데이터 클러스터의 파라미터가 대응되지 않는 경우의 실시예를 설명한다.

일 실시예에 따르면, 계층적 구조를 가지는 제1 텍스트 데이터의 제2 분류 체계에 기반한 그룹핑의 결과로서, 그룹 1a(211a), 그룹 1b(212a), 그룹 2a(221a), 그룹 2b(222a), 그룹 3a(231a) 및 그룹 3b(232a)로 구성되는 그룹화된 제2 텍스트 데이터 그룹(200a)이 생성될 수 있다. 여기서, 제1 텍스트 데이터의 계층적 구조에 의해 제1 텍스트 데이터 그룹(200) 및 제2 텍스트 데이터 그룹(200a)을 대응해보면, 그룹 1a(211a) 및 그룹 1b(212a)의 합집합이 그룹 1(210)에 대응되며, 그룹 2a(221a) 및 그룹 2b(222a)의 합집합이 그룹 2(220)에 대응되며, 그룹 3a(231a) 및 그룹 3b(232a)의 합집합이 그룹 3(230)에 대응된다.

다음으로, 도4에서와 마찬가지로, 제1 분류 체계에 대응되는 파라미터가 이용되어 벡터화된 텍스트 데이터가 클러스터링되어 생성된 제1 텍스트 데이터 클러스터(300)가 생성될 수 있다.

이때, 제1 텍스트 데이터 클러스터(300)는 제2 텍스트 데이터 그룹(200a)의 제2 분류 체계와 서로 대응되지 않는 파라미터에 의해 생성된 것이다. 즉, 그룹 1a(211a) 및 그룹 1b(212a) 와 제1 클러스터(310)가 대응되지 않으며, 그룹 2a(221a) 및 그룹 2b(222a) 와 제2 클러스터(320)가 대응되지 않으며, 그룹 3a(231a) 및 그룹 3b(232a) 와 제3 클러스터(330)가 대응되지 않는다.

이 경우, 제1 텍스트 데이터 클러스터(300)는 제2 텍스트 데이터 그룹(200a)의 제2 분류 체계와 대응되지 않는 파라미터에 의해 생성된 클러스터이므로, 유사도가 기준치 이하로 도출되어 클러스터의 파라미터 또는 구조를 개선하여 개선된 임베딩 모델에 대하여 다시 학습이 이뤄진다.

도 6은 본 개시의 몇몇 실시예들에 따른 컴퓨팅 장치의 하드웨어 구성도이다. 도 6에 도시된 컴퓨팅 장치(1000)는, 예를 들어 도 1을 참조하여 3설명한 클러스터링 모델(120)을 포함하는 컴퓨팅 장치를 가리키는 것일 수 있다. 컴퓨팅 장치(1000)는 하나 이상의 프로세서(1100), 시스템 버스(1600), 통신 인터페이스(1200), 프로세서(1100)에 의하여 수행되는 컴퓨터 프로그램(1500)을 로드(load)하는 메모리(1400)와, 컴퓨터 프로그램(1500)을 저장하는 스토리지(1300)를 포함할 수 있다.

프로세서(1100)는 컴퓨팅 장치(1000)의 각 구성의 전반적인 동작을 제어한다. 프로세서(1100)는 본 개시의 다양한 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 메모리(1400)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(1400)는 본 개시의 다양한 실시예들에 따른 방법/동작들을 실행하기 위하여 스토리지(1300)로부터 하나 이상의 컴퓨터 프로그램(1500)을 로드(load) 할 수 있다. 버스(1600)는 컴퓨팅 장치(1000)의 구성 요소 간 통신 기능을 제공한다. 통신 인터페이스(1200)는 컴퓨팅 장치(1000)의 인터넷 통신을 지원한다. 스토리지(1300)는 하나 이상의 컴퓨터 프로그램(1500)을 비임시적으로 저장할 수 있다. 컴퓨터 프로그램(1500)은 본 개시의 다양한 실시예들에 따른 방법/동작들이 구현된 하나 이상의 인스트럭션들(instructions)을 포함할 수 있다. 컴퓨터 프로그램(1500)이 메모리(1400)에 로드 되면, 프로세서(1100)는 상기 하나 이상의 인스트럭션들을 실행시킴으로써 본 개시의 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다.

컴퓨터 프로그램(1500)은 예를 들어 기계 학습된 임베딩 모델을 이용하여 텍스트 데이터를 벡터화하는 동작, 상기 벡터화된 텍스트 데이터를 클러스터링하는 동작, 각 텍스트 데이터가 가지는 구조를 이용한 그룹핑의 결과로 구성된 텍스트 데이터 그룹 및 상기 클러스터링의 결과에 따른 텍스트 데이터 클러스터를 비교하는 동작, 상기 비교의 결과를 이용하여 임베딩 모델의 성능을 평가하는 동작 및 상기 성능 평가 결과를 이용하여 상기 학습된 임베딩 모델을 개선하는 동작을 수행하기 위한 인스트럭션들(instructions)을 포함할 수 있다.

지금까지 도 1 내지 도 6을 참조하여 본 개시의 다양한 실시예들 및 그 실시예들에 따른 효과들을 언급하였다. 본 개시의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

지금까지 설명된 본 개시의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.

도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 이상 첨부된 도면을 참조하여 본 개시의 실시예들을 설명하였지만, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 발명이 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

컴퓨팅 장치에 의해 각 단계가 수행되는 임베딩 모델(Embedding Model)의 성능 평가 방법에 있어서,
기계 학습된 임베딩 모델을 이용하여 텍스트 데이터를 벡터화하는 단계;
상기 벡터화된 텍스트 데이터를 클러스터링하는 단계;
각 텍스트 데이터가 가지는 계층적 구조를 이용한 그룹핑의 결과인 텍스트 데이터 그룹과 상기 클러스터링의 결과에 따른 텍스트 데이터 클러스터를 NMI(Normalized Mutual information) 방법을 이용하여 비교하는 단계; 및
상기 비교의 결과인 상기 텍스트 데이터 그룹과 상기 텍스트 데이터 클러스터의 유사도를 이용하여 임베딩 모델의 성능을 평가하는 단계
를 포함하는,
임베딩 모델 성능 평가 방법.
제1 항에 있어서,
상기 텍스트 데이터는,
범주화된 구조를 가지며 기계 학습을 위한 라벨링이 되지 않은 것인,
임베딩 모델 성능 평가 방법.
제2 항에 있어서,
상기 텍스트 데이터는, 특허분류코드 텍스트인,
임베딩 모델 성능 평가 방법.
제1 항에 있어서,
상기 텍스트 데이터 그룹은,
제1 분류 체계에 기반한 그룹핑의 결과로 구성된 것이고,
상기 클러스터링하는 단계는,
상기 제1 분류 체계에 대응되는 파라미터를 이용하여 상기 벡터화된 텍스트 데이터를 클러스터링 하는 단계를 포함하는,
임베딩 모델 성능 평가 방법.
제1 항에 있어서,
상기 임베딩 모델을 학습시키는 단계는,
상기 기계 학습된 임베딩 모델은, 비지도학습(unsupervised learning) 형태로 기계 학습된 모델인,
임베딩 모델 성능 평가 방법.
제1 항에 있어서,
상기 성능 평가 결과를 이용하여 상기 학습된 임베딩 모델을 개선하는 단계를 더 포함하며,
상기 개선하는 단계는,
상기 임베딩 모델의 파라미터를 수정하거나 구조를 개선하는 단계를 포함하는,
임베딩 모델 성능 평가 방법.
제6 항에 있어서,
상기 임베딩 모델을 개선하는 단계는,
상기 텍스트 데이터를 사용하여 개선된 임베딩 모델을 비지도학습 형태로 학습시키는 단계를 포함하는,
임베딩 모델 성능 평가 방법.
제7 항에 있어서,
상기 임베딩 모델을 개선하는 단계는,
상기 텍스트 데이터 그룹과 상기 텍스트 데이터 클러스터를 비교하여 유사도가 기준치를 초과하는 경우, 임베딩 모델 최종본을 획득하는 단계를 더 포함하는,
임베딩 모델 성능 평가 방법.
삭제
하나 이상의 프로세서;
상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리; 및
상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되,
상기 컴퓨터 프로그램은,
기계 학습된 임베딩 모델을 이용하여 텍스트 데이터를 벡터화하는 동작;
상기 벡터화된 텍스트 데이터를 클러스터링하는 동작;
각 텍스트 데이터가 가지는 계층적 구조를 이용한 그룹핑의 결과인 텍스트 데이터 그룹과 상기 클러스터링의 결과에 따른 텍스트 데이터 클러스터를 NMI(Normalized Mutual information) 방법을 이용하여 비교하는 동작; 및
상기 비교의 결과인 상기 텍스트 데이터 그룹과 상기 텍스트 데이터 클러스터의 유사도를 이용하여 임베딩 모델의 성능을 평가하는 동작을 수행하기 위한 인스트럭션들을 포함하는,
임베딩 모델 성능 평가 장치.
제10 항에 있어서,
상기 성능 평가 결과를 이용하여 상기 학습된 임베딩 모델을 개선하는 인스트럭션을 더 포함하는,
임베딩 모델 성능 평가 장치.