KR102593054B1 - 임베딩 모델 성능 평가 방법 및 장치 - Google Patents

임베딩 모델 성능 평가 방법 및 장치 Download PDF

Info

Publication number
KR102593054B1
KR102593054B1 KR1020220056543A KR20220056543A KR102593054B1 KR 102593054 B1 KR102593054 B1 KR 102593054B1 KR 1020220056543 A KR1020220056543 A KR 1020220056543A KR 20220056543 A KR20220056543 A KR 20220056543A KR 102593054 B1 KR102593054 B1 KR 102593054B1
Authority
KR
South Korea
Prior art keywords
text data
embedding model
performance evaluation
group
clustering
Prior art date
Application number
KR1020220056543A
Other languages
English (en)
Inventor
하태현
이민국
윤빛나리
고병열
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020220056543A priority Critical patent/KR102593054B1/ko
Application granted granted Critical
Publication of KR102593054B1 publication Critical patent/KR102593054B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3692Test management for test results analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3664Environments for testing or debugging software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3684Test management for test design, e.g. generating new test cases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

임베딩 모델의 성능 평가 방법 및 장치가 제공된다. 본 개시의 몇몇 실시예에 따른 임베딩 모델의 성능 평가 방법 및 장치는, 기계 학습된 임베딩 모델을 이용하여 텍스트 데이터를 벡터화하는 단계, 상기 벡터화된 텍스트 데이터를 클러스터링하는 단계, 각 텍스트 데이터가 가지는 구조를 이용한 그룹핑의 결과로 구성된 텍스트 데이터 그룹 및 상기 클러스터링의 결과에 따른 텍스트 데이터 클러스터를 비교하는 단계 및 상기 비교의 결과를 이용하여 임베딩 모델의 성능을 평가하는 단계를 포함한다.

Description

임베딩 모델 성능 평가 방법 및 장치{METHOD AND APPARATUS FOR EVALUATION OF EMBEDDING MODEL PERFORMANCE}
본 개시는 텍스트 데이터를 이용하여 임베딩 모델의 성능을 평가하는 방법 및 그 장치와 임베딩 모델의 성능을 평가한 결과를 이용하여 임베딩 모델을 개선하는 방법 및 그 장치에 관한 것이다.
지도 학습(Supervised Learning)은 훈련 데이터(Training Data)로부터 하나의 함수를 유추해내기 위한 기계 학습(Machine Learning)의 한 방법이다. 훈련 데이터는 일반적으로 입력 객체에 대한 속성을 벡터 형태로 포함하고 있으며 각각의 벡터에 대해 원하는 결과가 무엇인지 표시되어 있다.
일반적으로 언어 모델을 학습하는 방법은 지도학습과 비지도학습(Unsupervised Learning) 방식으로 이뤄지게 되는데, 지도학습의 경우 학습의 중간 과정 및 종료 시점에서 성능의 평가가 용이한 반면, 비지도학습의 경우 학습의 중간 과정 및 종료 시점에서 성능의 평가가 어렵다. 즉, 비지도학습 방식의 경우, 데이터에 라벨링이 없으므로 결과의 예측 자체를 정의할 수 없고, 학습 결과를 실제 결과와 비교할 수 없는 문제점이 있었다.
나아가, 비지도학습 방식의 이러한 문제점 때문에, 기계 학습 모델의 학습 과정에서 모델의 성능을 평가하고, 이에 따른 의사결정을 내리는 것이 어렵다는 문제점도 있었다.
한국공개특허 제10-2017-0025454호 (2017.03.08 공개)
본 개시가 해결하고자 하는 기술적 과제는, 라벨링이 되지 않은 데이터를 이용하여 학습모델을 평가하는 방법 및 그 장치를 제공하는 데 있다.
본 개시가 해결하고자 하는 다른 기술적 과제는, 라벨링이 되지 않은 데이터를 이용하여 학습모델을 개선하고, 재학습시킴으로써 최적의 학습모델을 획득하는 방법 및 그 장치를 제공하는 데 있다.
본 개시의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한, 본 개시의 일 실시예에 따른 임베딩 모델의 성능 평가 방법은, 기계 학습된 임베딩 모델을 이용하여 텍스트 데이터를 벡터화하는 단계, 상기 벡터화된 텍스트 데이터를 클러스터링하는 단계, 각 텍스트 데이터가 가지는 구조를 이용한 그룹핑의 결과로 구성된 텍스트 데이터 그룹 및 상기 클러스터링의 결과에 따른 텍스트 데이터 클러스터를 비교하는 단계 및 상기 비교의 결과를 이용하여 임베딩 모델의 성능을 평가하는 단계를 포함할 수 있다.
몇몇 실시예에서, 상기 텍스트 데이터는, 범주화된 구조를 가지며 기계 학습을 위한 라벨링이 되지 않은 것일 수 있다. 여기서, 상기 텍스트 데이터는, 특허분류코드 텍스트일 수 있다.
몇몇 실시예에서, 상기 텍스트 데이터 그룹은, 제1 분류 체계에 기반한 그룹핑의 결과로 구성된 것이고, 상기 클러스터링하는 단계는, 상기 제1 분류 체계에 대응되는 파라미터를 이용하여 상기 벡터화된 텍스트 데이터를 클러스터링 하는 단계를 포함할 수 있다.
몇몇 실시예에서, 상기 임베딩 모델을 학습시키는 단계는, 상기 기계 학습된 임베딩 모델은, 비지도학습(unsupervised learning) 형태로 기계 학습된 모델일 수 있다.
몇몇 실시예에서, 상기 성능 평가 결과를 이용하여 상기 학습된 임베딩 모델을 개선하는 단계를 더 포함하며, 상기 개선하는 단계는, 상기 임베딩 모델의 파라미터를 수정하거나 구조를 개선하는 단계를 포함할 수 있다. 여기서, 상기 임베딩 모델을 개선하는 단계는, 상기 텍스트 데이터를 사용하여 개선된 임베딩 모델을 비지도학습 형태로 학습시키는 단계를 포함할 수 있다. 여기서, 상기 임베딩 모델을 개선하는 단계는, 상기 텍스트 데이터 그룹 및 상기 텍스트 데이터 클러스터를 비교하여 유사도가 기준치를 초과하는 경우, 임베딩 모델 최종본을 획득하는 단계를 더 포함할 수 있다.
몇몇 실시예에서, 각 텍스트 데이터가 가지는 구조를 이용한 그룹핑의 결과로 구성된 텍스트 데이터 그룹 및 상기 클러스터링의 결과에 따른 텍스트 데이터 클러스터를 비교하는 단계는, NMI(Normalized Mutual information) 방법을 이용하여 상기 텍스트 데이터 그룹 및 상기 텍스트 데이터 클러스터를 비교하는 단계를 포함할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 개시의 다른 실시예에 따른 임베딩 모델 성능 평가 장치는, 하나 이상의 프로세서, 상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되, 상기 컴퓨터 프로그램은, 기계 학습된 임베딩 모델을 이용하여 텍스트 데이터를 벡터화하는 동작, 상기 벡터화된 텍스트 데이터를 클러스터링하는 동작, 상기 벡터화된 텍스트 데이터를 군집화하는 동작, 각 텍스트 데이터가 가지는 구조를 이용한 그룹핑의 결과로 구성된 텍스트 데이터 그룹 및 상기 클러스터링의 결과에 따른 텍스트 데이터 클러스터를 비교하는 동작, 상기 비교의 결과를 이용하여 임베딩 모델의 성능을 평가하는 인스트럭션들을 포함할 수 있다. 여기서, 상기 성능 평가 결과를 이용하여 상기 학습된 임베딩 모델을 개선하는 인스트럭션을 더 포함할 수 있다.
도 1은 본 개시의 일 실시 예에 따른, 임베딩 모델의 성능 평가 방법을 도식적으로 설명하는 도면이다.
도 2는 본 개시의 다른 실시 예에 따른, 임베딩 모델의 성능 평가 방법의 순서도이다.
도 3은 본 개시의 또 다른 실시 예에 따른, 임베딩 모델의 성능 개선 및 임베딩 모델의 최종본을 획득하는 방법의 순서도이다.
도 4 및 도 5는 본 개시의 몇몇 실시예들에서 참조될 수 있는 그룹화된 텍스트 데이터 및 클러스터링된 텍스트 데이터의 일 예를 도시한 도면이다.
도 6은 본 개시의 몇몇 실시예들에 따른 컴퓨팅 장치의 하드웨어 구성도이다.
이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시예들을 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명의 기술적 사상을 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.
본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
이하, 도면들을 참조하여 본 개시의 몇몇 실시예들을 설명한다.
도 1은 본 개시의 일 실시 예에 따른, 임베딩 모델의 성능 평가 방법의 개념도이다.
도 1을 참조하면, 임베딩 모델(embedding model)의 성능 평가 방법의 학습 데이터로서, 텍스트 데이터(110)가 사용된다. 여기서, 텍스트 데이터(110)는, 범주화된 구조를 가지며 기계 학습을 위한 라벨링이 되지 않은 텍스트일 수 있다.
여기서, 범주화된 구조란, 예를 들어, 구직 통계 기관에서 구직자 직업 분류 통계 집계를 위하여 수집한 구직자 선호 직업 목록 텍스트가 갖는, 직업 카테고리로 분류될수 있는 특징적인 구조를 의미할 수 있다. 또는, 범주화된 구조란, 특정 목적을 위하여 수집된 특허 목록으로서, 선진특허분류(CPC) 코드에 의하여 분류될 수 있는 특징적인 구조를 의미할 수 있다.
범주화된 구조를 가지는 텍스트 데이터란, 예를 들어 선진특허분류 분류 대상 텍스트(이하, 특허분류코드 텍스트) 또는 직업분류체계 분류 대상 텍스트(이하, 직업 텍스트)일 수 있다.
일 실시예에 따르면, 텍스트 데이터(110)는 계층적 구조를 가지며 라벨링이 되지 않은 텍스트일 수 있다. 예를 들어, 텍스트 데이터(110)는, 제1 그룹 및 제2 그룹으로 그룹핑될 수 있다. 이때, 제1 그룹은 제A 그룹 및 제B 그룹으로 나뉘며, 제2 그룹은 제C 그룹 및 제D 그룹으로 나뉠 수 있으며, 따라서 텍스트 데이터(110)는 제A 그룹 내지 제D 그룹으로 그룹핑 될 수 있다. 여기서, 제1 그룹 및 제2 그룹으로 그룹핑된 텍스트 데이터(110)의 계층 구조는, 제A 그룹 내지 제D 그룹으로 그룹핑된 텍스트 데이터(110)의 계층 구조의 상위 계층 구조일 수 있다.
임베딩 모델(120)은, 텍스트 데이터(110)를 사용하여 비지도 방식으로 기계 학습될 수 있다. 임베딩이란, 자연어 처리에서 특징 추출을 통해 수치화를 하기 위하여 언어를 벡터화하는 것이다. 이때, 임베딩 방법은, One-hot Encoding을 사용한 밀집행렬(Dense Matrix) 등 다양한 임베딩 방법이 이용될 수 있으며, 어떠한 방법이 이용되더라도 무방하다. 여기서, 임베딩 모델(120)이란, 언어를 벡터화 하기 위한 기계 학습 모델이다.
일 실시예에 따르면, 기계 학습된 임베딩 모델(120)을 이용하여 텍스트 데이터(110)를 벡터화 할 수 있다.
클러스터링 모델(130)은, 임베딩 모델(120)에 의해 벡터화된 텍스트 데이터를 클러스터링하여, 텍스트 데이터 클러스터(140)를 생성한다.
일 실시예에 따르면, 클러스터링 모델(130)은 데이터를 순차적으로 군집화 하는 계층 군집 분석(hierarchical clustering) 알고리즘을 포함할 수 있다.
일 실시예에 따르면, 클러스터링 모델(130)은 데이터를 k개의 클러스터로 묽는 K-평균(K-means) 클러스터링 알고리즘을 포함할 수 있다.
일 실시예에 따르면, 클러스터링 모델(130)은 계층적 구조를 가지는 텍스트 데이터(110)의 특정 분류 체계에 대응되는 파라미터를 이용하여 벡터화된 텍스트 데이터를 클러스터링 할 수 있다.
임베딩 모델 성능 평가 및 개선 모델(160)은, 클러스터링 모델(130)에 의하여 생성된 텍스트 데이터 클러스터(140) 및 텍스트 데이터(110)를 그룹핑하여 생성된 텍스트 데이터 그룹(150)을 비교하여, 비교 결과를 이용하여 임베딩 모델(120)의 성능을 평가할 수 있다.
일 실시예에 따르면, 임베딩 모델 성능 평가 및 개선에 사용되는 텍스트 데이터 그룹(150)은, 텍스트 데이터(110)가 가지는 구조를 이용한 그룹핑의 결과로 생성된 것일 수 있다. 예를 들어, 텍스트 데이터 그룹(150)은 특허분류코드 텍스트를 CPC 분류 코드를 이용하여 그룹핑한 결과로 생성된 데이터 그룹일 수 있다.
일 실시예에 따르면, 텍스트 데이터 그룹(150)은, 계층적 구조를 가지는 텍스트 데이터(110)의 어느 하나의 분류 체계로 그룹핑된 데이터 그룹일 수 있다. 예를 들어, 텍스트 데이터 그룹(150)은, 제1 분류체계에 의하여 제1 그룹 및 제2 그룹으로 그룹핑된 데이터 그룹일 수 있다. 이때, 제1 그룹은 제A 그룹 및 제B 그룹으로 나뉘며, 제2 그룹은 제C 그룹 및 제D 그룹으로 나뉠 수 있다. 또는, 텍스트 데이터 그룹(150)은, 제2 분류체계에 의하여 제A 그룹 내지 제D 그룹으로 그룹핑된 데이터 그룹일 수 있다.
일 실시예에 따르면, 임베딩 모델 성능 평가 및 개선 모델(160)은, 임베딩 모델의 파라미터를 수정하거나 구조를 개선할 수 있다. 예를 들어, 임베딩 모델(120)이 딥 러닝 모델인 경우, 모델 구조, 인공 신경망의 층수, 한 층에 들어갈 인공 뉴런의 수, 최적화 기법 등을 수정하거나 개선할 수 있다.
일 실시예에 따르면, 임베딩 모델 성능 평가 및 개선 모델(160)은, NMI(Normalized Mutual Information) 방법을 이용하여 텍스트 데이터 그룹(150) 및 텍스트 데이터 클러스터(140)의 유사도를 비교하여 임베딩 모델(120)의 성능을 평가할 수 있다. 여기서, 텍스트 데이터 그룹(150) 및 텍스트 데이터 클러스터(140)의 유사도를 비교하는 방법은, 비지도 학습 결과를 평가하기 위한 다양한 방법이 이용될 수 있으며, 어떠한 방법이 이용되더라도 무방하다.
상술한 실시예들에 따르면, 범주화된 구조를 갖는 텍스트 데이터(110)를 사용함으로써, 임베딩 모델을 비지도 방식으로 학습한 결과의 정확한 성능 평가 및 개선이 가능해지는 효과가 제공된다.
여기서, 텍스트 데이터 그룹(150) 및 텍스트 데이터 클러스터(140)의 유사도를 비교하여 임베딩 모델(120)의 성능을 평가함으로써, 유사도가 높을 수록, 임베딩 모델(120)이 텍스트 데이터(110)가 본래 가지고 있는 구조의 특징을 잘 반영하고 있다고 볼 수 있으며, 비지도 학습 방식으로 임베딩 모델(120)을 학습한 결과가 상대적으로 좋다고 볼 수 있다.
일 실시예에 따르면, 임베딩 모델 성능 평가 및 개선 모델(160)에 의하여 개선된 임베딩 모델(120)을 비지도 학습 형태로 재 학습시킬 수 있다.
일 실시예에 따르면, 임베딩 모델 성능 평가 및 개선 모델(160)에 의하여 텍스트 데이터 그룹(150) 및 텍스트 데이터 클러스터(140)의 유사도를 비교하여 유사도가 기준치를 초과하는 경우, 임베딩 모델(120)의 성능 개선 과정을 중지하고, 임베딩 모델(120)의 최종본을 획득할 수 있다.
지금까지 상술한 임베딩 모델의 성능 평가 방법의 임베딩 모델(120), 클러스터링 모델(130) 또는 임베딩 모델 성능 평가 및 개선 알고리즘(160)은 프로세서를 구비한 하나 이상의 컴퓨팅 장치로 구현될 수 있다. 예를 들어, 임베딩 모델(120)과 같은 각각의 모델 또는 알고리즘이 하나의 컴퓨팅 장치로 구현될 수도 있고, 복수의 모델 또는 알고리즘이 하나의 컴퓨팅 장치로 구현될 수도 있다. 컴퓨팅 장치는 컴퓨팅 기능을 구비한 임의의 장치를 의미할 수 있으며, 이러한 장치의 일 예시에 관하여서는 도 6을 참조하도록 한다.
다음으로 ,본 개시의 다른 실시예에 따른 임베딩 모델의 성능 평가 방법에 대해 도 2 이하의 도면을 참조하여 설명한다. 본 실시예에 따른 임베딩 모델의 성능 평가 방법은 하나 이상의 컴퓨팅 장치에 의하여 수행될 수 있다. 예를 들어, 본 실시예에 따른 임베딩 모델의 성능 평가 방법은 하나의 컴퓨팅 장치에 의하여 모든 동작이 수행될 수도 있고, 일부의 동작이 다른 컴퓨팅 장치에 의하여 수행될 수도 있다.
도 2는 본 개시의 다른 실시 예에 따른, 임베딩 모델의 성능 평가 방법의 순서도이다.
S100 단계에서, 임베딩 모델(120)이 비지도 학습 형태로 학습될 수 있다. 임베딩 모델의 임베딩 알고리즘은, 예를 들어 앞서 제시한 One-hot Encoding을 사용한 밀집행렬(Dense Matrix) 알고리즘일 수 있다. 그러나, 본 개시의 범위가 이에 한정되는 것은 아니다.
S200 단계에서, 텍스트 데이터(110)가 학습된 임베딩 모델(120)에 의하여 벡터화될 수 있다.
S300 단계에서, 임베딩 모델(120)을 이용하여 벡터화된 텍스트 데이터가 클러스터링 된다. 여기서, 벡터화된 텍스트 데이터의 클러스터링 방법은, 예를 들어 앞서 제시한 계층 군집 분석 또는 K-평균 클러스터링 알고리즘일 수 있다. 그러나, 본 개시의 범위가 이에 한정되는 것은 아니다.
S400 단계에서, 텍스트 데이터 그룹 및 텍스트 데이터 클러스터의 유사도를 비교하고, 비교 결과를 이용하여 임베딩 모델의 성능을 평가할 수 있다.
도 3은 본 개시의 다른 실시 예에 따른, 임베딩 모델의 성능 개선 및 임베딩 모델의 최종본을 획득하는 방법의 순서도이다. 구체적으로는, 텍스트 데이터 그룹(150) 및 텍스트 데이터 클러스터(140)를 비교하여 임베딩 모델(120)의 성능 평가하는 모델로서 NMI 알고리즘이 사용된 예시적인 방법을 나타내는 도면이다.
S500 단계에서, NMI 값이 기준치 이하인 경우, 임베딩 모델이 개선될 수 있다(S600). 여기서, 임베딩 모델의 개선 방법으로, 임베딩 모델의 파라미터가 수정되거나 구조가 개선될 수 있다. 예를 들어, 임베딩 모델(120)이 딥 러닝 모델인 경우, 모델 구조 등이 개선될 수 있다. 그러나, 본 개시의 범위가 이에 한정되는 것은 아니다.
일 실시예에 따르면, S600 단계에서 개선된 임베딩 모델(120)이 텍스트 데이터(110)가 사용됨으로써 비지도학습 형태로 다시 학습될 수 있다. 이 경우, NMI 값이 기준치를 초과할 때까지 S100 단계 내지 S500 단계가 반복된다.
일 실시예에 따르면, S500 단계에서, NMI 값이 기준치를 초과하는 경우, 임베딩 모델(120)이 개선되는 과정이 중단되고, 임베딩 모델의 최종본이 획득될 수 있다(S700).
상술한 실시예들에 따르면, 텍스트 데이터(110)가 사용되어 텍스트 데이터 그룹(150) 및 텍스트 데이터 클러스터(140)의 유사도가 비교되고, 임베딩 모델(120)의 성능이 평가됨으로써 임베딩 모델(120)이 순환적으로 학습되는 프로세스를 통하여 최적의 임베딩 모델이 선정될 수 있는 효과가 제공된다.
도 4 및 도 5는 본 개시의 다른 실시예에 따른, 계층적 구조를 가지는 텍스트 데이터가 사용되어 생성된 텍스트 데이터 그룹 및 클러스터링된 텍스트 데이터 클러스터의 일 예를 도시한 도면이다.
이하 도 4를 참조하여, 제1 분류 체계에 기반하여 생성된 제1 텍스트 데이터 그룹과 제1 텍스트 데이터 클러스터의 파라미터가 대응되는 경우의 실시예를 설명한다.
일 실시예에 따르면, 계층적 구조를 가지는 제1 텍스트 데이터의 제1 분류 체계에 기반한 그룹핑의 결과로서, 그룹 1(210) 내지 그룹 3(230)으로 구성되는 그룹화된 텍스트 데이터 그룹(200)이 생성될 수 있다.
다음으로, 제1 분류 체계에 대응되는 파라미터를 이용하여 벡터화된 텍스트 데이터가 클러스터링되어 생성된 제1 텍스트 데이터 클러스터(300)가 생성될 수 있다.
이때, 제1 텍스트 데이터 클러스터(300)는 제1 텍스트 데이터 그룹(200)의 제1 분류 체계와 서로 대응되는 파라미터에 의해 생성된 것이다. 즉, 그룹 1(210)과 제1 클러스터(310)가 대응되며, 그룹 2(220)과 제2 클러스터(320)가 대응되며, 그룹 3(230)과 제3 클러스터(330)가 대응된다.
이 경우, 제1 텍스트 데이터 그룹(200) 및 제1 텍스트 데이터 클러스터(300)의 유사도가 비교되어, 유사도가 기준치 이하인 경우, 클러스터의 파라미터 또는 구조가 개선되고, 개선된 임베딩 모델에 대하여 다시 학습이 이뤄질 수 있으며, 유사도가 기준치 초과인 경우, 임베딩 모델의 최종본이 획득된다.
이하 도 5를 참조하여, 제2 분류 체계에 기반하여 생성된 제2 텍스트 데이터 그룹과 제1 텍스트 데이터 클러스터의 파라미터가 대응되지 않는 경우의 실시예를 설명한다.
일 실시예에 따르면, 계층적 구조를 가지는 제1 텍스트 데이터의 제2 분류 체계에 기반한 그룹핑의 결과로서, 그룹 1a(211a), 그룹 1b(212a), 그룹 2a(221a), 그룹 2b(222a), 그룹 3a(231a) 및 그룹 3b(232a)로 구성되는 그룹화된 제2 텍스트 데이터 그룹(200a)이 생성될 수 있다. 여기서, 제1 텍스트 데이터의 계층적 구조에 의해 제1 텍스트 데이터 그룹(200) 및 제2 텍스트 데이터 그룹(200a)을 대응해보면, 그룹 1a(211a) 및 그룹 1b(212a)의 합집합이 그룹 1(210)에 대응되며, 그룹 2a(221a) 및 그룹 2b(222a)의 합집합이 그룹 2(220)에 대응되며, 그룹 3a(231a) 및 그룹 3b(232a)의 합집합이 그룹 3(230)에 대응된다.
다음으로, 도4에서와 마찬가지로, 제1 분류 체계에 대응되는 파라미터가 이용되어 벡터화된 텍스트 데이터가 클러스터링되어 생성된 제1 텍스트 데이터 클러스터(300)가 생성될 수 있다.
이때, 제1 텍스트 데이터 클러스터(300)는 제2 텍스트 데이터 그룹(200a)의 제2 분류 체계와 서로 대응되지 않는 파라미터에 의해 생성된 것이다. 즉, 그룹 1a(211a) 및 그룹 1b(212a) 와 제1 클러스터(310)가 대응되지 않으며, 그룹 2a(221a) 및 그룹 2b(222a) 와 제2 클러스터(320)가 대응되지 않으며, 그룹 3a(231a) 및 그룹 3b(232a) 와 제3 클러스터(330)가 대응되지 않는다.
이 경우, 제1 텍스트 데이터 클러스터(300)는 제2 텍스트 데이터 그룹(200a)의 제2 분류 체계와 대응되지 않는 파라미터에 의해 생성된 클러스터이므로, 유사도가 기준치 이하로 도출되어 클러스터의 파라미터 또는 구조를 개선하여 개선된 임베딩 모델에 대하여 다시 학습이 이뤄진다.
상술한 실시예들에 따르면, 범주화된 구조를 갖는 텍스트 데이터(110)를 사용함으로써, 임베딩 모델을 비지도 방식으로 학습한 결과의 정확한 성능 평가 및 개선이 가능해지는 효과가 제공된다.
도 6은 본 개시의 몇몇 실시예들에 따른 컴퓨팅 장치의 하드웨어 구성도이다. 도 6에 도시된 컴퓨팅 장치(1000)는, 예를 들어 도 1을 참조하여 3설명한 클러스터링 모델(120)을 포함하는 컴퓨팅 장치를 가리키는 것일 수 있다. 컴퓨팅 장치(1000)는 하나 이상의 프로세서(1100), 시스템 버스(1600), 통신 인터페이스(1200), 프로세서(1100)에 의하여 수행되는 컴퓨터 프로그램(1500)을 로드(load)하는 메모리(1400)와, 컴퓨터 프로그램(1500)을 저장하는 스토리지(1300)를 포함할 수 있다.
프로세서(1100)는 컴퓨팅 장치(1000)의 각 구성의 전반적인 동작을 제어한다. 프로세서(1100)는 본 개시의 다양한 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 메모리(1400)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(1400)는 본 개시의 다양한 실시예들에 따른 방법/동작들을 실행하기 위하여 스토리지(1300)로부터 하나 이상의 컴퓨터 프로그램(1500)을 로드(load) 할 수 있다. 버스(1600)는 컴퓨팅 장치(1000)의 구성 요소 간 통신 기능을 제공한다. 통신 인터페이스(1200)는 컴퓨팅 장치(1000)의 인터넷 통신을 지원한다. 스토리지(1300)는 하나 이상의 컴퓨터 프로그램(1500)을 비임시적으로 저장할 수 있다. 컴퓨터 프로그램(1500)은 본 개시의 다양한 실시예들에 따른 방법/동작들이 구현된 하나 이상의 인스트럭션들(instructions)을 포함할 수 있다. 컴퓨터 프로그램(1500)이 메모리(1400)에 로드 되면, 프로세서(1100)는 상기 하나 이상의 인스트럭션들을 실행시킴으로써 본 개시의 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다.
컴퓨터 프로그램(1500)은 예를 들어 기계 학습된 임베딩 모델을 이용하여 텍스트 데이터를 벡터화하는 동작, 상기 벡터화된 텍스트 데이터를 클러스터링하는 동작, 각 텍스트 데이터가 가지는 구조를 이용한 그룹핑의 결과로 구성된 텍스트 데이터 그룹 및 상기 클러스터링의 결과에 따른 텍스트 데이터 클러스터를 비교하는 동작, 상기 비교의 결과를 이용하여 임베딩 모델의 성능을 평가하는 동작 및 상기 성능 평가 결과를 이용하여 상기 학습된 임베딩 모델을 개선하는 동작을 수행하기 위한 인스트럭션들(instructions)을 포함할 수 있다.
지금까지 도 1 내지 도 6을 참조하여 본 개시의 다양한 실시예들 및 그 실시예들에 따른 효과들을 언급하였다. 본 개시의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
지금까지 설명된 본 개시의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 이상 첨부된 도면을 참조하여 본 개시의 실시예들을 설명하였지만, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 발명이 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (11)

  1. 컴퓨팅 장치에 의해 각 단계가 수행되는 임베딩 모델(Embedding Model)의 성능 평가 방법에 있어서,
    기계 학습된 임베딩 모델을 이용하여 텍스트 데이터를 벡터화하는 단계;
    상기 벡터화된 텍스트 데이터를 클러스터링하는 단계;
    각 텍스트 데이터가 가지는 계층적 구조를 이용한 그룹핑의 결과인 텍스트 데이터 그룹과 상기 클러스터링의 결과에 따른 텍스트 데이터 클러스터를 NMI(Normalized Mutual information) 방법을 이용하여 비교하는 단계; 및
    상기 비교의 결과인 상기 텍스트 데이터 그룹과 상기 텍스트 데이터 클러스터의 유사도를 이용하여 임베딩 모델의 성능을 평가하는 단계
    를 포함하는,
    임베딩 모델 성능 평가 방법.
  2. 제1 항에 있어서,
    상기 텍스트 데이터는,
    범주화된 구조를 가지며 기계 학습을 위한 라벨링이 되지 않은 것인,
    임베딩 모델 성능 평가 방법.
  3. 제2 항에 있어서,
    상기 텍스트 데이터는, 특허분류코드 텍스트인,
    임베딩 모델 성능 평가 방법.
  4. 제1 항에 있어서,
    상기 텍스트 데이터 그룹은,
    제1 분류 체계에 기반한 그룹핑의 결과로 구성된 것이고,
    상기 클러스터링하는 단계는,
    상기 제1 분류 체계에 대응되는 파라미터를 이용하여 상기 벡터화된 텍스트 데이터를 클러스터링 하는 단계를 포함하는,
    임베딩 모델 성능 평가 방법.
  5. 제1 항에 있어서,
    상기 임베딩 모델을 학습시키는 단계는,
    상기 기계 학습된 임베딩 모델은, 비지도학습(unsupervised learning) 형태로 기계 학습된 모델인,
    임베딩 모델 성능 평가 방법.
  6. 제1 항에 있어서,
    상기 성능 평가 결과를 이용하여 상기 학습된 임베딩 모델을 개선하는 단계를 더 포함하며,
    상기 개선하는 단계는,
    상기 임베딩 모델의 파라미터를 수정하거나 구조를 개선하는 단계를 포함하는,
    임베딩 모델 성능 평가 방법.
  7. 제6 항에 있어서,
    상기 임베딩 모델을 개선하는 단계는,
    상기 텍스트 데이터를 사용하여 개선된 임베딩 모델을 비지도학습 형태로 학습시키는 단계를 포함하는,
    임베딩 모델 성능 평가 방법.
  8. 제7 항에 있어서,
    상기 임베딩 모델을 개선하는 단계는,
    상기 텍스트 데이터 그룹과 상기 텍스트 데이터 클러스터를 비교하여 유사도가 기준치를 초과하는 경우, 임베딩 모델 최종본을 획득하는 단계를 더 포함하는,
    임베딩 모델 성능 평가 방법.
  9. 삭제
  10. 하나 이상의 프로세서;
    상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리; 및
    상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되,
    상기 컴퓨터 프로그램은,
    기계 학습된 임베딩 모델을 이용하여 텍스트 데이터를 벡터화하는 동작;
    상기 벡터화된 텍스트 데이터를 클러스터링하는 동작;
    각 텍스트 데이터가 가지는 계층적 구조를 이용한 그룹핑의 결과인 텍스트 데이터 그룹과 상기 클러스터링의 결과에 따른 텍스트 데이터 클러스터를 NMI(Normalized Mutual information) 방법을 이용하여 비교하는 동작; 및
    상기 비교의 결과인 상기 텍스트 데이터 그룹과 상기 텍스트 데이터 클러스터의 유사도를 이용하여 임베딩 모델의 성능을 평가하는 동작을 수행하기 위한 인스트럭션들을 포함하는,
    임베딩 모델 성능 평가 장치.
  11. 제10 항에 있어서,
    상기 성능 평가 결과를 이용하여 상기 학습된 임베딩 모델을 개선하는 인스트럭션을 더 포함하는,
    임베딩 모델 성능 평가 장치.
KR1020220056543A 2022-05-09 2022-05-09 임베딩 모델 성능 평가 방법 및 장치 KR102593054B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220056543A KR102593054B1 (ko) 2022-05-09 2022-05-09 임베딩 모델 성능 평가 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220056543A KR102593054B1 (ko) 2022-05-09 2022-05-09 임베딩 모델 성능 평가 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102593054B1 true KR102593054B1 (ko) 2023-10-24

Family

ID=88515143

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220056543A KR102593054B1 (ko) 2022-05-09 2022-05-09 임베딩 모델 성능 평가 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102593054B1 (ko)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113677A (ja) * 2004-10-12 2006-04-27 Patolis Corp 文献分類認識装置、その方法、文献分類装置、それらのプログラム、および、それらのプログラムを記録した記録媒体
KR20120021789A (ko) * 2010-08-17 2012-03-09 한국과학기술정보연구원 특허정보에 기반한 기술구조 분석 시스템 및 방법
KR20170025454A (ko) 2015-08-28 2017-03-08 서울대학교산학협력단 소셜 미디어 데이터의 시공간 분석 시스템 및 방법
US20180365248A1 (en) * 2017-06-14 2018-12-20 Sap Se Document representation for machine-learning document classification
KR20190114166A (ko) * 2018-03-29 2019-10-10 (주)다음소프트 오토인코더를 이용한 산업분류 시스템 및 방법
KR20200017575A (ko) * 2018-07-24 2020-02-19 배재대학교 산학협력단 유사 특허 검색 서비스 시스템 및 방법
KR102391885B1 (ko) * 2020-11-13 2022-04-28 한국과학기술정보연구원 이종분류체계연계장치 및 그 동작 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113677A (ja) * 2004-10-12 2006-04-27 Patolis Corp 文献分類認識装置、その方法、文献分類装置、それらのプログラム、および、それらのプログラムを記録した記録媒体
KR20120021789A (ko) * 2010-08-17 2012-03-09 한국과학기술정보연구원 특허정보에 기반한 기술구조 분석 시스템 및 방법
KR20170025454A (ko) 2015-08-28 2017-03-08 서울대학교산학협력단 소셜 미디어 데이터의 시공간 분석 시스템 및 방법
US20180365248A1 (en) * 2017-06-14 2018-12-20 Sap Se Document representation for machine-learning document classification
KR20190114166A (ko) * 2018-03-29 2019-10-10 (주)다음소프트 오토인코더를 이용한 산업분류 시스템 및 방법
KR20200017575A (ko) * 2018-07-24 2020-02-19 배재대학교 산학협력단 유사 특허 검색 서비스 시스템 및 방법
KR102391885B1 (ko) * 2020-11-13 2022-04-28 한국과학기술정보연구원 이종분류체계연계장치 및 그 동작 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
장현철 외 4인, "계층적 주의 네트워크를 활용한 특허 문서 분류", 춘계학술발표대회 논문집 제25권 제1호, (2018.5.)* *

Similar Documents

Publication Publication Date Title
CN109408389B (zh) 一种基于深度学习的代码缺陷检测方法及装置
US10713597B2 (en) Systems and methods for preparing data for use by machine learning algorithms
JP6781415B2 (ja) ニューラルネットワーク学習装置、方法、プログラム、およびパターン認識装置
CN108805193B (zh) 一种基于混合策略的电力缺失数据填充方法
KR102313626B1 (ko) 신경망을 학습시키는 방법
CN112835570A (zh) 一种基于机器学习的可视化数学建模方法和系统
CN111260073A (zh) 数据处理方法、装置和计算机可读存储介质
Lima et al. Artificial intelligence applied to software testing: A literature review
CN117437494B (zh) 一种图像分类方法、系统、电子设备及存储介质
CN111767216B (zh) 一种可缓解类重叠问题的跨版本深度缺陷预测方法
CN114969755A (zh) 一种跨语言的未知可执行程序二进制漏洞分析方法
Alcaraz et al. Building representative and balanced datasets of openmp parallel regions
Abdelkarim et al. Tcp-net: Test case prioritization using end-to-end deep neural networks
Yang et al. Unsupervised feature selection based on reconstruction error minimization
US20210319269A1 (en) Apparatus for determining a classifier for identifying objects in an image, an apparatus for identifying objects in an image and corresponding methods
JP5017941B2 (ja) モデル作成装置および識別装置
Hasanpour et al. Improving rule-based classification using Harmony Search
KR102593054B1 (ko) 임베딩 모델 성능 평가 방법 및 장치
Grishma et al. Software root cause prediction using clustering techniques: A review
CN111858343A (zh) 一种基于攻击能力的对抗样本生成方法
CN116739100A (zh) 量子神经网络的漏洞检测方法及自动驾驶漏洞检测方法
CN116257601A (zh) 一种基于深度学习的违法词库构建方法及系统
CN116361788A (zh) 一种基于机器学习的二进制软件漏洞预测方法
CN115238645A (zh) 资产数据识别方法、装置、电子设备和计算机存储介质
CN114428720A (zh) 基于p-k的软件缺陷预测方法、装置、电子设备及介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant