KR20230007775A - 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법 및 장치 - Google Patents

신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법 및 장치 Download PDF

Info

Publication number
KR20230007775A
KR20230007775A KR1020210088514A KR20210088514A KR20230007775A KR 20230007775 A KR20230007775 A KR 20230007775A KR 1020210088514 A KR1020210088514 A KR 1020210088514A KR 20210088514 A KR20210088514 A KR 20210088514A KR 20230007775 A KR20230007775 A KR 20230007775A
Authority
KR
South Korea
Prior art keywords
learning
word
meaning
data
new
Prior art date
Application number
KR1020210088514A
Other languages
English (en)
Inventor
김남규
남건민
Original Assignee
국민대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국민대학교산학협력단 filed Critical 국민대학교산학협력단
Priority to KR1020210088514A priority Critical patent/KR20230007775A/ko
Publication of KR20230007775A publication Critical patent/KR20230007775A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Abstract

본 발명은 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법 및 장치에 관한 것으로, 상기 방법은 사전학습(pre-training)을 위한 학습 데이터들로 구성된 학습 데이터 모집단을 생성하는 단계; 신조어들로 구성된 신조어 집합을 생성하는 단계; 및 상기 사전학습 동안 상기 학습 데이터에 포함된 상기 신조어의 의미를 추론하는 추가 사전학습(further pre-training)을 수행하는 단계;를 포함한다. 따라서, 본 발명은 신조어가 포함된 문장에서 신조어를 제외한 의미가 부여된 나머지 단어들을 활용하여 딥러닝 기술을 적용해 신조어에 의미를 부여할 수 있다.

Description

신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법 및 장치{DEEP LEARNING-BASED TARGET MASKING METHOD AND DEVICE FOR UNDERSTANDING MEANING OF NEWLY COINED WORDS}
본 발명은 딥러닝 기반 표적 마스킹 기술에 관한 것으로, 보다 상세하게는 신조어가 포함된 문장에서 신조어를 제외한 의미가 부여된 나머지 단어들을 활용하여 딥러닝 기술을 적용해 신조어에 의미를 부여하는 기술에 관한 것이다.
최근 스마트 기기의 사용 증가로 인하여 페이스북, 트위터, 그리고 인스타그램 등 다양한 SNS가 활발하게 사용되고 있다. 이로 인해, 사람들의 소통이 급증하고 있는 추세이며 SNS를 통해 생산되는 방대한 텍스트 데이터를 분석하고자 하는 수요가 꾸준히 증가하고 있다.
최근에는 딥 러닝(Deep Learning)에 텍스트 데이터를 적용하여 분석하는 연구가 활발하게 이루어지고 있으며, 특히 사전 학습 언어 모델인 BERT(Bidirectional Encoder Representations from Transformers)를 활용한 임베딩 방법이 주로 연구되고 있다.
BERT는 방대한 양의 텍스트 데이터가 학습된 모델의 가중치를 활용해 다른 도메인의 특정 과제(Task)에 맞춰 미세 조정(Fine Tuning)하여 적용하는 전이학습(Transfer Learning)을 적용하였으며, 기존의 사전 학습 언어 모델의 단점인 단방향의 한계를 양방향 구조로 보완한 모델이다. BERT는 자연어 처리 분야에서 우수한 성능을 갖추었으며 최근에는 BERT의 사전 학습 방식 중의 하나인 MLM(Masked Language Model)을 활용한 다양한 연구도 진행되고 있다.
특히, 최근에는 MLM을 활용하여 사전학습 이후에 추가적인 학습을 진행하여 단어가 특정 도메인 또는 특정 과제에서 갖는 특수한 의미를 학습하기 위한 연구가 이루어지고 있다. 이때, 마스크(Mask) 되지 않은 단어들의 의미로부터 마스크 된 단어의 의미를 추론하는 형태로 학습이 이루어질 수 있다.
하지만, 기존의 MLM 방식은 무작위로 단어들에 마스킹을 적용하므로, 의미가 담겨 있지 않은 신조어 이외의 단어들이 마스크 되는 경우, 나머지 단어들로 마스크 된 단어를 추론하게 되는데 이 과정에서 의미가 담겨 있지 않은 신조어로 인해 마스크 된 단어의 의미 학습이 제대로 이루어지지 않는 문제가 발생할 수 있다.
한국등록특허 제10-0766169호 (2007.10.04)
본 발명의 일 실시예는 신조어가 포함된 문장에서 신조어를 제외한 의미가 부여된 나머지 단어들을 활용하여 딥러닝 기술을 적용해 신조어에 의미를 부여하는 표적 마스킹 방법 및 장치를 제공하고자 한다.
본 발명의 일 실시예는 추가 사전학습 과정에서 무작위 마스킹을 개선하여 텍스트 요약, 분류 및 질의응답 등 텍스트 응용을 포함한 다양한 응용 분야에서 각 과제의 성능을 향상시킬 수 있는 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법 및 장치를 제공하고자 한다.
실시예들 중에서, 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법은 사전학습(pre-training)을 위한 학습 데이터들로 구성된 학습 데이터 모집단을 생성하는 단계; 신조어들로 구성된 신조어 집합을 생성하는 단계; 및 상기 사전학습 동안 상기 학습 데이터에 포함된 상기 신조어의 의미를 추론하는 추가 사전학습(further pre-training)을 수행하는 단계;를 포함한다.
상기 학습 데이터 모집단을 생성하는 단계는 상기 학습 데이터들을 포함하는 데이터 모집단을 기초로 샘플링(sampling)을 통해 상기 학습 데이터 모집단을 생성하는 단계를 포함할 수 있다.
상기 학습 데이터 모집단을 생성하는 단계는 상기 학습 데이터 모집단에 대해 이모지, 특수문자 및 소정의 자/모음을 제거하는 전처리 동작을 수행하는 단계를 포함할 수 있다.
상기 신조어 집합을 생성하는 단계는 사전학습 된 단어들로 구성된 기준 단어 집합을 생성하는 단계; 의미가 알려지지 않은 단어들을 포함하는 후보 신조어 집합을 생성하는 단계; 및 상기 후보 신조어 집합에서 상기 기준 단어 집합의 단어들을 제거하여 상기 신조어 집합을 생성하는 단계를 포함할 수 있다.
상기 신조어 집합을 생성하는 단계는 적어도 하나의 특정 도메인(domain)에 속하는 전문어들로 상기 신조어 집합을 생성하는 단계를 포함할 수 있다.
상기 추가 사전학습을 수행하는 단계는 마스킹된 언어 모델(masked language model)을 이용하여 상기 사전학습을 수행하는 단계를 포함할 수 있다.
상기 추가 사전학습을 수행하는 단계는 상기 마스킹된 언어 모델에 상기 신조어를 포함하지 않는 학습 데이터를 우선 적용하여 상기 사전학습을 수행하는 단계를 포함할 수 있다.
상기 추가 사전학습을 수행하는 단계는 상기 신조어를 포함하는 학습 데이터의 경우 상기 신조어만을 마스크(mask) 하여 상기 추가 사전학습을 수행하는 단계를 포함할 수 있다.
상기 표적 마스킹 방법은 상기 사전학습 및 상기 추가 사전학습을 통해 구축된 학습 모델을 미세 조정(fine tuning) 하는 단계;를 더 포함할 수 있다.
실시예들 중에서, 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 장치는 사전학습(pre-training)을 위한 학습 데이터들로 구성된 학습 데이터 모집단을 생성하는 데이터 구축부; 신조어들로 구성된 신조어 집합을 생성하는 신조어 수집부; 및 상기 사전학습 동안 상기 학습 데이터에 포함된 상기 신조어의 의미를 추론하는 추가 사전학습(further pre-training)을 수행하는 학습 수행부;를 포함한다.
상기 데이터 구축부는 상기 학습 데이터들에 관한 샘플링(sampling) 동작 및 전처리 동작 중 적어도 하나를 수행할 수 있다.
상기 신조어 수집부는 의미가 알려지지 않은 단어들을 포함하는 후보 신조어 집합에서 사전학습 된 단어들을 제거하여 상기 신조어 집합을 생성할 수 있다.
상기 신조어 수집부는 적어도 하나의 특정 도메인(domain)에 속하는 전문어들로 상기 신조어 집합을 생성할 수 있다.
상기 학습 수행부는 마스킹된 언어 모델(masked language model)을 이용하여 상기 사전학습을 수행하는 과정에서 상기 신조어를 포함하지 않는 학습 데이터를 우선 적용할 수 있다.
상기 학습 수행부는 상기 신조어를 포함하는 학습 데이터의 경우 상기 신조어만을 마스크(mask) 하는 신조어 표적 마스킹(NTM, Newly Coined Words Target Masking)을 통해 상기 추가 사전학습을 수행할 수 있다.
상기 표적 마스킹 장치는 상기 사전학습 및 상기 추가 사전학습을 통해 구축된 학습 모델을 다른 도메인의 특정 과제(task)에 맞춰 미세 조정(fine tuning) 하여 전이학습(transfer learning)을 수행하는 전이학습 수행부;를 더 포함할 수 있다.
개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명의 일 실시예에 따른 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법 및 장치는 신조어가 포함된 문장에서 신조어를 제외한 의미가 부여된 나머지 단어들을 활용하여 딥러닝 기술을 적용해 신조어에 의미를 부여할 수 있다.
본 발명의 일 실시예에 따른 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법 및 장치는 추가 사전학습 과정에서 무작위 마스킹을 개선하여 텍스트 요약, 분류 및 질의응답 등 텍스트 응용을 포함한 다양한 응용 분야에서 각 과제의 성능을 향상시킬 수 있다.
도 1은 본 발명에 따른 표적 마스킹 시스템을 설명하는 도면이다.
도 2는 도 1의 표적 마스킹 장치의 시스템 구성을 설명하는 도면이다.
도 3은 도 1의 표적 마스킹 장치의 기능적 구성을 설명하는 도면이다.
도 4는 본 발명에 따른 표적 마스킹 과정의 일 실시예를 설명하는 순서도이다.
도 5는 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법을 설명하는 도면이다.
도 6은 랜덤 마스킹과 표적 마스킹을 비교 설명하는 도면이다.
도 7은 본 발명에 따른 표적 마스킹 방법에 관한 실험 결과를 설명하는 도면이다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
최근 다양한 매체를 통해 생성 및 유통되는 텍스트 데이터의 양이 급증함에 따라, 딥러닝(Deep Learning)을 활용한 자연어 처리(Natural Language Processing)를 통해 텍스트로 표현된 단어나 문장의 의미를 파악하기 위한 다양한 연구가 활발하게 수행되고 있다. 하지만, 딥러닝을 통해 특정 도메인에서 사용되는 언어를 이해하기 위해서는 해당 도메인의 충분한 데이터에 대해 오랜 시간 학습이 수행되어야 한다는 어려움이 있다. 전이학습(Transfer Learning)은 방대한 양의 데이터에 대해 미리 학습을 수행하고, 그 결과로 도출된 사전 학습 언어 모델(Pre-trained Language Model)을 다른 도메인의 특정 과제(Task)에 맞춰 미세 조정(Fine Tuning)하여 적용되고 있다.
BERT(Bidirectional Encoder Representations from Transformers)는 다양한 사전 학습 언어 모델 중 가장 대표적인 모델로 활발하게 사용되고 있다. BERT는 기존의 사전 학습 언어 모델의 단점인 단방향의 한계를 양방향 구조로 보완한 모델로, BERT의 MLM(Masked Language Model)은 입력 문장 내의 단어를 임의로 선정하여 마스킹(Masking) 한 후, 주변 단어들로부터 해당 단어를 예측하는 비지도 학습(Unsupervised Learning)을 통해 텍스트 표현을 효과적으로 학습한다.
특히, BERT는 트랜스포머(Transformer)의 인코더(encoder) 구조와 MLM 및 NSP 방식의 비지도 학습을 통해 양방향 모델을 구축함으로써 단어의 풍부한 표현을 학습할 수 있다는 장점을 가질 수 있다. BERT의 학습 방식 중, MLM은 문장 내의 전체 토큰의 15%만 마스킹을 적용하여 해당 단어를 예측하는 과정을 통해 학습이 이루어지며, 또 다른 학습 방식인 NSP(Next Sentence Prediction)는 첫 문장 이후 다음 문장을 예측하는 방식으로 학습이 진행될 수 있다.
또한, BERT는 특정 도메인 또는 과제에 특화된 단어의 표현을 추가로 학습하는 추가 사전학습에 사용될 수 있다. 추가 사전학습은 사전학습에 사용되는 MLM을 다시 적용하여, 특정 도메인 데이터를 추가로 학습하는 방법에 해당할 수 있다. 대부분의 사전학습된 BERT 모델들은 뉴스 기사 또는 위키백과와 같은 문서를 통해 단어의 일반적인 표현을 학습하기 때문에, 도메인 전문어 또는 신조어를 포함하는 문서의 경우 OOV(Out of Vocabulary)와 같은 문제로 텍스트 표현을 온전히 학습하지 못하는 경우가 발생할 수 있다.
이하 도 1 내지 도 7을 통해 본 발명에 따른 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법에 대해 구체적으로 설명한다.
도 1은 본 발명에 따른 표적 마스킹 시스템을 설명하는 도면이다.
도 1을 참조하면, 표적 마스킹 시스템(100)은 사용자 단말(110), 표적 마스킹 장치(130) 및 데이터베이스(150)를 포함할 수 있다.
사용자 단말(110)은 표적 마스킹 장치(130)와 연결되어 정보를 제공하거나 또는 정보를 이용할 수 있는 컴퓨팅 장치에 해당할 수 있다. 즉, 사용자 단말(110)은 표적 마스킹 장치(130)에게 학습에 필요한 학습 데이터를 제공할 수 있으며, 표적 마스킹 장치(130)에 의해 수집된 학습 데이터를 이용하거나 또는 표적 마스킹 장치(130)에 의해 구축된 학습 모델을 이용할 수 있다. 또한, 사용자 단말(110)은 스마트폰, 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 태블릿 PC 등 다양한 디바이스로도 구현될 수 있다. 사용자 단말(110)은 표적 마스킹 장치(130)와 네트워크를 통해 연결될 수 있고, 복수의 사용자 단말(110)들이 표적 마스킹 장치(130)와 동시에 연결될 수도 있다.
표적 마스킹 장치(130)는 본 발명에 따른 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법을 수행하는 컴퓨터 또는 프로그램에 해당하는 서버로 구현될 수 있다. 표적 마스킹 장치(130)는 사용자 단말(110)과 유선 또는 무선 네트워크를 통해 연결될 수 있고 상호 간에 데이터를 주고받을 수 있다.
일 실시예에서, 표적 마스킹 장치(130)는 본 발명에 따른 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법을 수행하는 과정에서 다양한 외부 시스템(또는 서버)과 연동하여 동작할 수 있다. 예를 들어, 표적 마스킹 장치(130)는 포털사이트, 위키피디아(Wikipedia), 블로그 등을 통해 관련 컨텐츠에 접근할 수 있으며, 학습 데이터의 수집과 학습 모델의 구축 등에 필요한 데이터를 제공받을 수 있다.
데이터베이스(150)는 표적 마스킹 장치(130)의 동작 과정에서 필요한 다양한 정보들을 저장하는 저장장치에 해당할 수 있다. 예를 들어, 데이터베이스(150)는 다양한 출처로부터 수집된 학습 데이터를 저장할 수 있고, 학습 모델 구축을 위한 학습 알고리즘 및 모델 정보를 저장할 수 있으며, 반드시 이에 한정되지 않고, 표적 마스킹 장치(130)가 본 발명에 따른 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법을 수행하는 과정에서 다양한 형태로 수집 또는 가공된 정보들을 저장할 수 있다.
도 2는 도 1의 표적 마스킹 장치의 시스템 구성을 설명하는 도면이다.
도 2를 참조하면, 표적 마스킹 장치(130)는 프로세서(210), 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)를 포함할 수 있다.
프로세서(210)는 표적 마스킹 장치(130)가 동작하는 과정에서의 각 단계들을 처리하는 프로시저를 실행할 수 있고, 그 과정 전반에서 읽혀지거나 작성되는 메모리(230)를 관리할 수 있으며, 메모리(230)에 있는 휘발성 메모리와 비휘발성 메모리 간의 동기화 시간을 스케줄할 수 있다. 프로세서(210)는 표적 마스킹 장치(130)의 동작 전반을 제어할 수 있고, 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)와 전기적으로 연결되어 이들 간의 데이터 흐름을 제어할 수 있다. 프로세서(210)는 표적 마스킹 장치(130)의 CPU(Central Processing Unit)로 구현될 수 있다.
메모리(230)는 SSD(Solid State Drive) 또는 HDD(Hard Disk Drive)와 같은 비휘발성 메모리로 구현되어 표적 마스킹 장치(130)에 필요한 데이터 전반을 저장하는데 사용되는 보조기억장치를 포함할 수 있고, RAM(Random Access Memory)과 같은 휘발성 메모리로 구현된 주기억장치를 포함할 수 있다.
사용자 입출력부(250)는 사용자 입력을 수신하기 위한 환경 및 사용자에게 특정 정보를 출력하기 위한 환경을 포함할 수 있다. 예를 들어, 사용자 입출력부(250)는 터치 패드, 터치 스크린, 화상 키보드 또는 포인팅 장치와 같은 어댑터를 포함하는 입력장치 및 모니터 또는 터치스크린과 같은 어댑터를 포함하는 출력장치를 포함할 수 있다. 일 실시예에서, 사용자 입출력부(250)는 원격 접속을 통해 접속되는 컴퓨팅 장치에 해당할 수 있고, 그러한 경우, 표적 마스킹 장치(130)는 독립적인 서버로서 수행될 수 있다.
네트워크 입출력부(270)은 네트워크를 통해 외부 장치 또는 시스템과 연결하기 위한 환경을 포함하고, 예를 들어, LAN(Local Area Network), MAN(Metropolitan Area Network), WAN(Wide Area Network) 및 VAN(Value Added Network) 등의 통신을 위한 어댑터를 포함할 수 있다.
도 3은 도 1의 표적 마스킹 장치의 기능적 구성을 설명하는 도면이다.
도 3을 참조하면, 표적 마스킹 장치(130)는 데이터 구축부(310), 신조어 수집부(330), 학습 수행부(350), 전이학습 수행부(370) 및 제어부(390)를 포함할 수 있다.
데이터 구축부(310)는 사전학습(pre-training)을 위한 학습 데이터들로 구성된 학습 데이터 모집단을 생성할 수 있다. 즉, 학습 데이터 모집단은 사전학습에 사용되는 학습 데이터들의 집합에 해당할 수 있다. 데이터 구축부(310)는 다양한 출처로부터 학습에 사용되는 학습 데이터를 수집할 수 있다. 예를 들어, 데이터 구축부(310)는 데이터베이스(150)로부터 사전에 수집되어 저장된 학습 데이터를 획득할 수 있고, 사용자 단말(110)을 통해 학습 데이터를 직접 입력받을 수도 있다. 또한, 데이터 구축부(310)는 포털사이트, 블로그, 위키피디아 등의 외부 시스템을 통해 학습 데이터를 수집할 수 있다.
한편, 학습 데이터는 학습 알고리즘이나 학습 모델 및 활용 목적에 따라 다양한 유형으로 분류될 수 있으며, 여기에서는 복수의 단어들로 구성되는 어구 또는 문장을 학습 데이터로 사용하는 경우를 예로 들어 설명한다. 예를 들어, 데이터 구축부(310)는 특정 사이트에서 소정의 기간 동안 작성된 영화 관련 덧글 데이터를 학습 데이터의 일 유형으로서 수집할 수 있다.
일 실시예에서, 데이터 구축부(310)는 학습 데이터들을 포함하는 데이터 모집단을 기초로 샘플링(sampling)을 통해 학습 데이터 모집단을 생성할 수 있다. 즉, 학습 데이터 모집단은 원래의 출처로부터 수집된 학습 데이터들을 그대로 포함하여 구성될 수도 있으나, 필요에 따라 소정의 샘플링을 통해 선별된 데이터들로만 구성될 수 있다. 여기에서, 데이터 모집단은 학습 데이터 모집단을 생성하기 위해 사전에 구축된 원시 데이터들의 집합에 해당할 수 있다.
예를 들어, 데이터 구축부(310)는 데이터 모집단에서 소정의 개수만큼의 학습 데이터들을 샘플링하여 학습 데이터 모집단을 생성할 수 있다. 데이터 구축부(310)는 데이터 모집단에서 소정의 유형에 해당하는 학습 데이터들 또는 소정의 조건을 충족하는 학습 데이터들을 샘플링하여 학습 데이터 모집단을 생성할 수도 있다.
또한, 데이터 구축부(310)는 학습 데이터 모집단을 복수개로 생성할 수 있다. 이때, 복수개로 구축된 학습 데이터 모집단들은 서로 다른 용도로 사용될 수 있다. 예를 들어, 제1 학습 데이터 모집단의 경우 학습 모델 구축을 위한 사전학습 모델을 위해 사용될 수 있고, 제2 학습 데이터 모집단의 경우 추가 사전학습 모델을 위해 사용될 수 있으며, 제3 학습 데이터 모집단의 경우 구축된 학습 모델의 성능을 평가하기 위해 사용될 수 있다.
또한, 데이터 구축부(310)는 본 발명에 따른 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법을 위해 신조어가 포함된 학습 데이터와 신조어가 포함되지 않은 학습 데이터를 각각 독립적인 학습 데이터 모집단으로 생성할 수 있다. 또한, 데이터 구축부(310)는 학습 데이터의 감정을 긍정 또는 부정으로 분류하여 학습 데이터 모집단을 생성할 수 있다. 이에 따라, 학습 데이터 모집단에는 신조어 유무에 따른 학습 데이터들과 긍정 및 부정의 학습 데이터들이 각각 소정의 비율만큼 포함될 수 있다.
일 실시예에서, 데이터 구축부(310)는 학습 데이터 모집단에 대해 이모지(emoji), 특수문자 및 소정의 자/모음(예를 들어, 'ㄱ', 'ㄴ', 'ㅏ', 'ㅣ' 등)을 제거하는 전처리 동작을 수행할 수 있다. 데이터 구축부(310)는 전처리 동작을 통해 학습 데이터에서 학습 성능에 악영향을 줄 수 있는 노이즈를 제거할 수 있고, 결과적으로 학습 데이터의 퀄리티를 높일 수 있다. 또한, 데이터 구축부(310)는 필요에 따라 학습 데이터에 신조어를 추가하거나 또는 학습 데이터에서 신조어를 제거할 수 있다. 예를 들어, 특정 학습 데이터가 신조어를 다수 포함하고 있는 경우 데이터 구축부(310)는 해당 학습 데이터가 하나의 신조어만을 포함하도록 나머지 신조어들을 제거할 수 있다.
신조어 수집부(330)는 신조어들로 구성된 신조어 집합을 생성할 수 있다. 여기에서, 신조어는 새로 만들거나 생겨난 말 또는 새로 귀화한 외래어를 포함할 수 있다. 즉, 신조어는 상대적으로 최근의 시간 동안 사람들에 의해 만들어지고 사용된 결과 의미를 명확히 추론하기 어려울 수 있으며, 표준어 사전에 등재되지 않아 의미가 명확히 특정되지 않을 수 있다. 신조어 수집부(330)는 데이터베이스(150)에서 사전에 수집된 신조어 집합을 획득하여 사용할 수 있으며, 외부 시스템을 통해 신조어들을 직접 수집하여 신조어 집합을 생성할 수 있다.
예를 들어, 신조어 수집부(330)는 포털사이트, 위키피디아(Wikipedia), 블로그, SNS(Social Network Service) 등을 통해 수집된 단어들을 기초로 신조어 집합을 생성할 수 있다. 신조어 수집부(330)는 신조어 집합을 리스트 형태로 구축할 수 있으며, 신조어 집합은 데이터베이스(150)에 저장되어 관리될 수 있다.
일 실시예에서, 신조어 수집부(330)는 사전학습 된 단어들로 구성된 기준 단어 집합을 생성하고, 의미가 알려지지 않은 단어들을 포함하는 후보 신조어 집합을 생성하며, 후보 신조어 집합에서 기준 단어 집합의 단어들을 제거하여 신조어 집합을 생성할 수 있다. 보다 구체적으로, 신조어 수집부(330)는 사전학습에 의해 의미가 명확히 특정되는 단어들을 기준 단어 집합으로 생성할 수 있다. 즉, 기준 단어 집합은 신조어 집합을 생성하기 위해 비교 대상이 되는 단어들의 집합에 해당할 수 있다.
이후, 신조어 수집부(330)는 다양한 출처들로부터 신조어들을 수집하여 후보 신조어 집합을 생성할 수 있다. 여기에서, 후보 신조어 집합은 신조어 집합에 포함될 가능성이 있는 단어들의 집합에 해당할 수 있으며, 의미가 명확하지 않거나 또는 사전에 등재되지 않거나 또는 다수의 의미들로 사용되는 단어들을 포함할 수 있다. 신조어 수집부(330)는 후보 신조어 집합이 생성되면 기준 단어 집합과의 비교를 통해 신조어 집합을 최종 생성할 수 있다. 즉, 후보 신조어 집합에 포함된 단어들 중에서 기준 단어 집합에 중복 포함되는 단어의 경우 신조어 집합에서 제거될 수 있다.
일 실시예에서, 신조어 수집부(330)는 적어도 하나의 특정 도메인(domain)에 속하는 전문어들로 신조어 집합을 생성할 수 있다. 표적 마스킹 장치(130)는 사전학습 과정에서 추가 사전학습을 수행할 수 있으며, 어휘 표현에 대한 학습의 경우에는 마스크(mask) 되지 않은 단어들의 의미로부터 마스크 된 단어의 의미를 추론하는 형태로 수행될 수 있다. 이때, 마스크 되는 단어를 신조어 집합의 신조어로만 제한할 수 있다면, 텍스트 표현을 보다 효과적으로 학습할 수 있게 된다.
즉, 신조어 수집부(330)는 기본적으로 의미가 명확하지 않은 신조어들로 신조어 집합을 구성할 수 있으나, 필요에 따라 특정 도메인의 전문어들로 신조어 집합을 생성하여 어휘 표현에 대한 학습에 적용되도록 할 수 있다. 이때, 신조어 수집부(330)는 단일 도메인의 전문어들을 기초로 신조어 집합을 생성할 수 있으며, 복수의 도메인들의 전문어들로 구성된 신조어 집합을 생성할 수도 있다.
학습 수행부(350)는 사전학습 동안 학습 데이터에 포함된 신조어의 의미를 추론하는 추가 사전학습(further pre-training)을 수행할 수 있다. 학습 수행부(350)는 수집된 학습 데이터 모집단을 기초로 소정의 학습 알고리즘을 수행하여 다양한 목적으로 활용되는 사전학습 모델을 구축할 수 있다. 특히, 학습 수행부(350)는 사전학습 알고리즘을 적용하여 사전학습을 수행할 수 있으며, 이후 필요에 따라 추가 사전학습을 수행할 수 있다. 이때, 학습 수행부(350)는 사전학습과 추가 사전학습의 과정에서 서로 다른 학습 알고리즘 또는 서로 다른 학습 데이터를 각각 적용할 수 있다.
일 실시예에서, 학습 수행부(350)는 마스킹된 언어 모델(masked language model)을 이용하여 사전학습을 수행할 수 있다. 즉, 마스킹된 언어 모델을 기초로 사전학습이 수행되는 경우 본 발명에 따른 표적 마스킹 기법이 적용될 수 있다. 예를 들어, 학습 수행부(350)는 BERT의 사전학습 방식 중 하나인 MLM(Masked Language Model)을 기초로 사전학습을 수행할 수 있다.
여기에서, MLM(Masked Language Model)은 입력(input) 데이터에서 무작위하게 소정의 토큰(token)을 마스크 하고, 트랜스포머(Transformer) 구조에 입력하여 주변 단어의 컨텍스트(context)를 기초로 마스크 된 단어를 예측하는 모델에 해당할 수 있다. 보다 구체적으로, MLM의 경우 입력 전체와 마스크 된 토큰을 한번에 트랜스포머 인코더(Transformer encoder)에 입력한 후 마스크 된 토큰 값을 예측할 수 있으므로 깊은 양방향(deep bidirectional)의 특징을 가질 수 있다.
또한, MLM은 입력 데이터에 포함된 단어들 중 소정의 비율만큼 마스크 할 수 있다. 예를 들어, MLM은 입력 데이터의 15%를 마스크 시킬 수 있다. MLM은 15%의 마스크 된 토큰을 생성하는 과정에서 추가적인 동작을 수행할 수 있다. 즉, MLM은 80%의 경우 토큰을 마스크 하고, 10%의 경우 토큰을 임의의 단어(random word)로 변경하며, 10%의 경우 토큰을 원래의 단어 그대로 유지할 수 있다. 한편, 입력 데이터가 문장인 경우 해당 문장을 복수의 토큰들로 분할하는 동작(tokenization)이 사전에 수행될 수 있다. 이후, MLM은 마스크된 토큰만을 예측하는 과제(task)를 수행함으로써 사전학습 동작을 진행할 수 있다.
일 실시예에서, 학습 수행부(350)는 마스킹된 언어 모델에 신조어를 포함하지 않는 학습 데이터를 우선 적용하여 사전학습을 수행할 수 있다. 즉, 학습 수행부(350)는 신조어에 기반한 추가 사전학습을 위해 신조어를 제외한 사전학습을 통해 신조어가 아닌 기존 단어들의 의미를 획득할 수 있다. 이에 따라, 학습 수행부(350)는 의미가 파악된 나머지 단어들을 이용하여 표적화되어 마크스 된 신조어의 의미를 추론하는 추가 사전학습을 수행할 수 있다.
일 실시예에서, 학습 수행부(350)는 신조어를 포함하는 학습 데이터의 경우 신조어만을 마스크(mask) 하여 추가 사전학습을 수행할 수 있다. 학습 수행부(350)는 신조어를 포함하는 학습 데이터에 대해서는 무작위 마스킹 대신 표적 마스킹을 적용할 수 있다. 즉, 학습 수행부(350)는 마스크 되는 단어를 신조어 집합의 신조어로 제한하여 신조어가 아닌 나머지 단어들로 신조어의 의미를 추론하는 추가 사전학습을 수행할 수 있다. 특히, 신조어가 아닌 나머지 단어들의 경우 사전학습을 통해 이미 단어의 의미가 파악된 상태이므로 이에 기반하는 신조어의 의미 학습은 보다 정확한 결과를 달성할 수 있게 된다.
한편, 학습 수행부(350)는 BERT의 MLM을 이용하여 추가 사전학습을 수행하는 경우 랜덤 마스킹을 적용한 결과 학습 데이터에서 소정의 비율로 랜덤하게 선택된 단어들을 마스크 할 수 있다. 이에 대해서는 도 6에서 보다 자세히 설명한다.
전이학습 수행부(370)는 사전학습 및 추가 사전학습을 통해 구축된 학습 모델을 미세 조정(fine tuning) 할 수 있다. 여기에서, 미세 조정(fine tuning)은 기존의 사전학습된 모델을 기반으로 새로운 모델을 학습하는 과정에 해당할 수 있다. 보다 구체적으로, 미세 조정은 사전학습된 모델을 새로운 목적에 따라 재정의하기 위해 원래의 모델에 존재하는 분류기(classifier)를 제거하고 새로운 목적에 맞는 분류기를 추가하는 동작을 포함할 수 있다. 이후, 미세 조정은 수정된 모델에 대해 다양한 방법의 학습 전략을 적용하여 수행될 수 있다.
예를 들어, 미세 조정 과정은 수정된 모델의 전체를 전부 학습하는 방식으로 진행될 수 있고, 컨볼루션 베이스(Convolutional base)의 일부분은 고정시킨 상태에서 나머지 계층(layer)과 분류기만을 학습하는 방식으로 진행될 수 있으며, 컨볼루션 베이스는 고정시킨 상태에서 분류기만을 학습하는 방식으로 진행될 수 있다. 전이학습 수행부(370)는 하이퍼 파라미터(hyperparameter)를 통해 미세 조정을 위한 학습률(learning rate)을 조정할 수 있으며, 사용하고자 하는 목적에 따라 학습률을 가변적으로 적용하여 미세 조정을 수행할 수 있다.
제어부(390)는 표적 마스킹 장치(130)의 전체적인 동작을 제어하고, 데이터 구축부(310), 신조어 수집부(330), 학습 수행부(350) 및 전이학습 수행부(370) 간의 제어 흐름 또는 데이터 흐름을 관리할 수 있다.
도 4는 본 발명에 따른 표적 마스킹 과정의 일 실시예를 설명하는 순서도이다.
도 4를 참조하면, 표적 마스킹 장치(130)는 데이터 구축부(310)를 통해 사전학습(pre-training)을 위한 학습 데이터들로 구성된 학습 데이터 모집단을 생성할 수 있다(단계 S410). 표적 마스킹 장치(130)는 신조어 수집부(330)를 통해 신조어들로 구성된 신조어 집합을 생성할 수 있다(단계 S430).
또한, 표적 마스킹 장치(130)는 학습 수행부(350)를 통해 사전학습 동안 학습 데이터에 포함된 신조어의 의미를 추론하는 추가 사전학습(further pre-training)을 수행할 수 있다(단계 S470). 이를 위해, 학습 수행부(350)는 신조어를 포함하지 않는 학습 데이터를 기초로 사전학습을 수행하여 신조어가 아닌 단어들의 의미를 결정할 수 있다(단계 S450).
도 5는 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법을 설명하는 도면이다.
도 5를 참조하면, 표적 마스킹 장치(130)는 우선 포털 사이트, 위키피디아(Wikipedia), 블로그 등에서 신조어(Newly Coined Words) 리스트를 수집한 후, 수집된 신조어 중 사전학습된 BERT의 말뭉치(BERT's Vocabulary)에 없는 단어들을 마스킹 타겟 후보(MTC: Masking Target Candidates)로 결정할 수 있다. 다음으로, 표적 마스킹 장치(130)는 사전학습된 BERT를 활용하여 MLM 방식의 추가 사전학습을 진행할 수 있다. 이때, 표적 마스킹 장치(130)는 마스크 단어 선정 시 무작위 마스킹(또는 랜덤 마스킹)이 아닌 표적 마스킹, 즉 앞에서 선정된 MTC에 포함된 단어 중에서만 마스크 단어를 선정하는 방식으로 학습을 수행할 수 있다. 표적 마스킹 장치(130)는 이러한 과정을 거쳐 최종적으로 신조어에 대한 이해가 포함된 사전학습 언어 모델을 구축할 수 있다.
도 6은 랜덤 마스킹과 표적 마스킹을 비교 설명하는 도면이다.
도 6을 참조하면, 표적 마스킹 장치(130)는 BERT의 MLM을 활용하여 사전학습을 수행할 수 있다. 표적 마스킹 장치(130)는 사전학습 이후 또는 사전학습 동안 추가 사전학습을 수행할 수 있으며, 추가 사전학습에도 BERT의 MLM이 동일하게 적용될 수 있다. 이때, 가중치의 초기값으로 BERT 사전학습 모델의 최종 가중치가 사용될 수 있다.
MLM에서 어휘 표현의 학습은 마스크(Mask) 되지 않은 단어들의 의미로부터 마스크 된 단어의 의미를 추론하는 형태로 이루어질 수 있으며, 사전학습을 통해 의미가 파악되어 있는 단어들이 마스크 되지 않고, 도메인 특화 단어, 또는 신조어와 같이 의미가 알려져 있지 않은 단어들이 마스크 되는 비율이 높을수록 단어 의미의 학습이 정확하게 이루어질 수 있다.
하지만, 기존의 MLM은 무작위(Random) 방식으로 마스크 대상 단어를 선정하므로, 사전학습을 통해 의미가 파악된 단어와 사전학습에 포함되지 않아 의미 파악이 이루어 지지 않은 도메인 특화 단어, 또는 신조어가 별도의 구분 없이 마스크에 포함될 수 있다. 이러한 방식의 한계는 신조어인 '극혐'이 마스크 되지 않은 경우의 부작용을 나타내는 도 6a에서 확인할 수 있다.
보다 구체적으로, 도 6a에서, 입력 문장에 대해 무작위 마스킹을 진행하는 경우, '재미없는', '공포영화', '너무나도', 그리고 '극혐'의 모든 토큰(Token)들이 마스킹 될 기회를 얻게 되어 Case(A)와 Case(B)의 경우가 모두 발생할 수 있다. 이때, Case(A)의 경우 의미가 알려진 '재미없는'으로부터 [MASK]를 예측하기 때문에 [MASK] 단어는 부정의 의미를 포함하는 형태로 학습될 수 있다.
하지만, Case(B)의 경우 의미가 알려지지 않은 신조어(610)인 '극혐'으로부터 [MASK]를 예측하기 때문에, [MASK] 단어의 의미 학습이 제대로 이루어지지 않을 수 있다. 물론 방대한 양의 데이터에 대한 충분한 학습이 이루어지는 사전학습에서는 학습 과정에서 이러한 의미의 모호성이 제거될 수 있지만, 소량의 특정 도메인 데이터에 대해 학습이 수행되는 추가 사전학습의 경우에는 이러한 무작위 마스킹의 특성이 큰 부작용을 야기할 수 있다.
본 발명에 따른 표적 마스킹 장치(130)는 표적 마스킹을 통해 상기와 같은 한계를 개선시킬 수 있다. 즉, 표적 마스킹 장치(130)는 사전학습에서 의미가 파악되지 않은 어휘, 즉 신조어에 대해서만 집중적으로 마스킹을 수행하는 신조어 표적 마스킹(NTM: Newly Coined Words Target Masking)을 통해 추가 사전학습을 수행할 수 있다.
도 6b에서, 입력 문장에 대해 무작위 마스킹을 진행하는 경우, '전편보다', '진중하고', '쫄깃해서', '좋음' 그리고 '꿀잼'의 모든 토큰(Token)들이 마스킹 될 기회를 얻게 될 수 있다. 이때, 표적 마스킹 장치(130)는 신조어(610)만 마스킹을 진행할 수 있으며, 의미가 알려진 '좋음'으로부터 [Mask]를 예측하기 때문에 [Mask] 단어는 긍정의 의미를 포함하는 형태로 학습될 수 있다.
도 7은 본 발명에 따른 표적 마스킹 방법에 관한 실험 결과를 설명하는 도면이다.
도 7a를 참조하면, 본 발명에 따른 신조어 표적 마스킹 기법을 실제 데이터에 적용하여 실험을 수행하기 위한 실험 데이터 및 환경, 그리고 학습 모델 및 파라미터에 대한 설명을 확인할 수 있다.
우선 신조어 사전 구축을 위해 N사 오픈 사전, 블로그, 그리고 Wikipedia에서 신조어 목록을 수집한 후, 이들을 취합하고 중복을 제거하여 338개 어휘로 구성된 신조어 사전을 구축할 수 있다. 다음으로 감성 분석(Sentiment Analysis)을 위해 N사에서 제공하는 영화 리뷰 약 70만 건을 수집한 후, 이 가운데 신조어를 포함한 문장 8만 건을 추출하여 이에 대해 추가 사전 학습을 진행할 수 있다. 또한, 상기의 실험에서는 감성 분석의 정확도를 측정하는 방법으로 본 발명에 따른 신조어 표적 마스킹 기법의 성능을 평가할 수 있다.
본 발명에 따른 신조어 표적 마스킹 기법의 성능을 타 기법과 비교하기 위해 별도의 추가 사전학습을 수행하지 않고 순수 사전학습만 사용한 모델(A), 추가 사전학습을 수행하되 기존의 무작위 마스킹을 적용한 모델(B), 그리고 본 발명에 따른 신조어 표적 마스킹을 적용하여 추가 사전학습을 수행한 모델(C)의 감성 분석 정확도를 각각 측정할 수 있다. 감성 분석에는 Kim CNN 모델이 사용될 수 있으며, 평가 지표로는 분류 정확도가 사용될 수 있다. 구체적으로, 각 모델마다 손실 값(Loss Value)이 가장 낮을 때의 에폭(Epoch)을 채택할 수 있고, 해당 반복 단계에서의 정확도를 측정할 수 있으며, 본 발명에 따른 모델과 비교 모델 간의 분류 정확도는 도 7b와 같이 도시될 수 있다.
실험 결과, 본 발명에 따른 신조어 표적 마스킹을 적용한 (C) 모델의 감성 분석 정확도가 가장 높은 것을 확인할 수 있다. 동일한 환경에서 세 가지 모델의 감성 분석을 수행한 것을 감안할 때, 이러한 성능의 향상은 신조어 표적 마스킹을 적용한 추가 사전학습을 통해 분석 도메인의 텍스트 표현을 더욱 정확하게 이해할 수 있었기 때문에 나타난 것으로 해석될 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 표적 마스킹 시스템
110: 사용자 단말 130: 표적 마스킹 장치
150: 데이터베이스
210: 프로세서 230: 메모리
250: 사용자 입출력부 270: 네트워크 입출력부
310: 데이터 구축부 330: 신조어 수집부
350: 학습 수행부 370: 전이학습 수행부
390: 제어부

Claims (16)

  1. 사전학습(pre-training)을 위한 학습 데이터들로 구성된 학습 데이터 모집단을 생성하는 단계;
    신조어들로 구성된 신조어 집합을 생성하는 단계; 및
    상기 사전학습 동안 상기 학습 데이터에 포함된 상기 신조어의 의미를 추론하는 추가 사전학습(further pre-training)을 수행하는 단계;를 포함하는 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법.
  2. 제1항에 있어서, 상기 학습 데이터 모집단을 생성하는 단계는
    상기 학습 데이터들을 포함하는 데이터 모집단을 기초로 샘플링(sampling)을 통해 상기 학습 데이터 모집단을 생성하는 단계를 포함하는 것을 특징으로 하는 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법.
  3. 제2항에 있어서, 상기 학습 데이터 모집단을 생성하는 단계는
    상기 학습 데이터 모집단에 대해 이모지, 특수문자 및 소정의 자/모음을 제거하는 전처리 동작을 수행하는 단계를 포함하는 것을 특징으로 하는 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법.
  4. 제1항에 있어서, 상기 신조어 집합을 생성하는 단계는
    사전학습 된 단어들로 구성된 기준 단어 집합을 생성하는 단계;
    의미가 알려지지 않은 단어들을 포함하는 후보 신조어 집합을 생성하는 단계; 및
    상기 후보 신조어 집합에서 상기 기준 단어 집합의 단어들을 제거하여 상기 신조어 집합을 생성하는 단계를 포함하는 것을 특징으로 하는 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법.
  5. 제1항에 있어서, 상기 신조어 집합을 생성하는 단계는
    적어도 하나의 특정 도메인(domain)에 속하는 전문어들로 상기 신조어 집합을 생성하는 단계를 포함하는 것을 특징으로 하는 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법.
  6. 제1항에 있어서, 상기 추가 사전학습을 수행하는 단계는
    마스킹된 언어 모델(masked language model)을 이용하여 상기 사전학습을 수행하는 단계를 포함하는 것을 특징으로 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법.
  7. 제6항에 있어서, 상기 추가 사전학습을 수행하는 단계는
    상기 마스킹된 언어 모델에 상기 신조어를 포함하지 않는 학습 데이터를 우선 적용하여 상기 사전학습을 수행하는 단계를 포함하는 것을 특징으로 하는 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법.
  8. 제7항에 있어서, 상기 추가 사전학습을 수행하는 단계는
    상기 신조어를 포함하는 학습 데이터의 경우 상기 신조어만을 마스크(mask) 하여 상기 추가 사전학습을 수행하는 단계를 포함하는 것을 특징으로 하는 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법.
  9. 제1항에 있어서,
    상기 사전학습 및 상기 추가 사전학습을 통해 구축된 학습 모델을 미세 조정(fine tuning) 하는 단계;를 더 포함하는 것을 특징으로 하는 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법.
  10. 사전학습(pre-training)을 위한 학습 데이터들로 구성된 학습 데이터 모집단을 생성하는 데이터 구축부;
    신조어들로 구성된 신조어 집합을 생성하는 신조어 수집부; 및
    상기 사전학습 동안 상기 학습 데이터에 포함된 상기 신조어의 의미를 추론하는 추가 사전학습(further pre-training)을 수행하는 학습 수행부;를 포함하는 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 장치.
  11. 제10항에 있어서, 상기 데이터 구축부는
    상기 학습 데이터들에 관한 샘플링(sampling) 동작 및 전처리 동작 중 적어도 하나를 수행하는 것을 특징으로 하는 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 장치.
  12. 제10항에 있어서, 상기 신조어 수집부는
    의미가 알려지지 않은 단어들을 포함하는 후보 신조어 집합에서 사전학습 된 단어들을 제거하여 상기 신조어 집합을 생성하는 것을 특징으로 하는 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 장치.
  13. 제10항에 있어서, 상기 신조어 수집부는
    적어도 하나의 특정 도메인(domain)에 속하는 전문어들로 상기 신조어 집합을 생성하는 것을 특징으로 하는 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 장치.
  14. 제10항에 있어서, 상기 학습 수행부는
    마스킹된 언어 모델(masked language model)을 이용하여 상기 사전학습을 수행하는 과정에서 상기 신조어를 포함하지 않는 학습 데이터를 우선 적용하는 것을 특징으로 하는 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 장치.
  15. 제14항에 있어서, 상기 학습 수행부는
    상기 신조어를 포함하는 학습 데이터의 경우 상기 신조어만을 마스크(mask) 하는 신조어 표적 마스킹(NTM, Newly Coined Words Target Masking)을 통해 상기 추가 사전학습을 수행하는 것을 특징으로 하는 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 장치.
  16. 제10항에 있어서,
    상기 사전학습 및 상기 추가 사전학습을 통해 구축된 학습 모델을 다른 도메인의 특정 과제(task)에 맞춰 미세 조정(fine tuning) 하여 전이학습(transfer learning)을 수행하는 전이학습 수행부;를 더 포함하는 것을 특징으로 하는 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 장치.
KR1020210088514A 2021-07-06 2021-07-06 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법 및 장치 KR20230007775A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210088514A KR20230007775A (ko) 2021-07-06 2021-07-06 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210088514A KR20230007775A (ko) 2021-07-06 2021-07-06 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20230007775A true KR20230007775A (ko) 2023-01-13

Family

ID=84900304

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210088514A KR20230007775A (ko) 2021-07-06 2021-07-06 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20230007775A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100766169B1 (ko) 2005-01-31 2007-10-10 엔이씨 (차이나) 씨오., 엘티디. 컴퓨터-구현 사전 학습 방법 및 상기 방법을 사용하는 장치, 입력 방법 및 상기 입력 방법을 사용하는 사용자 단말기 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100766169B1 (ko) 2005-01-31 2007-10-10 엔이씨 (차이나) 씨오., 엘티디. 컴퓨터-구현 사전 학습 방법 및 상기 방법을 사용하는 장치, 입력 방법 및 상기 입력 방법을 사용하는 사용자 단말기 장치

Similar Documents

Publication Publication Date Title
Badjatiya et al. Attention-based neural text segmentation
Cohan et al. A discourse-aware attention model for abstractive summarization of long documents
Logeswaran et al. Sentence ordering and coherence modeling using recurrent neural networks
Lai et al. Recurrent convolutional neural networks for text classification
Passos et al. Lexicon infused phrase embeddings for named entity resolution
Terechshenko et al. A comparison of methods in political science text classification: Transfer learning language models for politics
Ju et al. Transformer-based label set generation for multi-modal multi-label emotion detection
Vougiouklis et al. A neural network approach for knowledge-driven response generation
Lou et al. Emoji-based sentiment analysis using attention networks
Yan et al. A semantic and emotion‐based dual latent variable generation model for a dialogue system
Wang et al. Learning distributed word representations for bidirectional lstm recurrent neural network
Guo et al. Who is answering whom? Finding “Reply-To” relations in group chats with deep bidirectional LSTM networks
Luo et al. EmotionX-DLC: self-attentive BiLSTM for detecting sequential emotions in dialogue
Gu et al. Pre-trained and attention-based neural networks for building noetic task-oriented dialogue systems
Tang et al. Bayesian estimation‐based sentiment word embedding model for sentiment analysis
Zhuang et al. An ensemble approach to conversation generation
Skenduli et al. User-emotion detection through sentence-based classification using deep learning: a case-study with microblogs in Albanian
Zdebskyi et al. Investigation of Transitivity Relation in Natural Language Inference.
Louis NetBERT: a pre-trained language representation model for computer networking
Lv et al. Extract, attend, predict: Aspect-based sentiment analysis with deep self-attention network
KR20230007775A (ko) 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법 및 장치
Yingjie et al. Tt-net: Topic transfer-based neural network for conversational reading comprehension
Ping et al. A benchmark for hierarchical emotion cause extraction in spoken dialogues
Li et al. A document driven dialogue generation model
Soam et al. Sentiment Analysis Using Deep Learning: A Comparative Study

Legal Events

Date Code Title Description
E902 Notification of reason for refusal