WO2024091088A1

WO2024091088A1 - 약한 라벨 데이터 기반의 wsd와 연관된 모델 학습 방법 및 장치

Info

Publication number: WO2024091088A1
Application number: PCT/KR2023/016945
Authority: WO
Inventors: 이수열; 최영민
Original assignee: (주)이팝소프트; 주식회사 퓨리오사에이아이
Priority date: 2022-10-27
Filing date: 2023-10-27
Publication date: 2024-05-02
Also published as: KR20240059099A

Abstract

본 발명은 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법에 관한 것이다. 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법은, 문장을 구성하는 복수의 토큰이 모두 라벨링된 완전 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제1 모델을 생성하는 단계, 생성된 제1 모델에 문장을 구성하는 복수의 토큰 중 일부가 라벨링된 약한 라벨 데이터를 제공하여 의사 라벨 데이터를 추출하는 단계 및 약한 라벨 데이터 및 의사 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계를 포함한다.

Description

약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법 및 장치

본 발명은 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법 및 장치에 관한 것으로, 기존의 WSD 알고리즘의 문제점들을 해결하기 위한 WSD와 연관된 모델 학습 방법 및 장치에 관한 것이다.

WSD(Word Sense Disambiguation)는 특정 맥락에서 단어의 사용에 의해 단어의 어떤 의미가 활성화되는지를 결정하는 것 또는 이를 위한 기계학습 모델 등을 지칭할 수 있다. 즉, WSD는 문장의 전체 맥락을 판단하고, 이를 기초로 각 단어의 명확한 의미를 결정하기 위해 사용될 수 있다.

일반적으로, WSD 모델은 입력된 문장 뿐만이 아니라 다른 부가적인 수많은 정보를 추가적으로 고려하여 추론을 진행하기 때문에 추론 시간 및 비용이 증가하는 문제가 있다. 또한, WSD 모델을 학습시키기 위한 충분히 많은 라벨링 데이터를 확보하는데 어려움이 있어, 한정적인 데이터로 학습을 진행함에 따라 모델의 성능이 저하되는 단점이 있다. 추가적으로, 숙어, 구동사 등에 대한 의미를 고려하지 못하는 한계가 있다.

본 발명은 상기와 같은 문제점을 해결하기 위한 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법, 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램, 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체 및 장치(시스템)를 제공한다.

본 발명은 방법, 장치(시스템), 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체를 포함한 다양한 방식으로 구현될 수 있다.

본 발명의 일 실시예에 따르면, 적어도 하나의 프로세서에 의해 수행되는 WSD와 연관된 모델 학습 방법은, 단어의 제1 의미와 연관된 제1 세트의 학습 데이터 및 단어의 제2 의미와 연관된 제2 세트의 학습 데이터를 포함하는 배치를 생성하는 단계 및 생성된 배치를 기초로 본 발명은 방법, 장치(시스템), 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체를 포함한 다양한 방식으로 구현될 수 있다.

본 발명의 일 실시예에 따르면, 적어도 하나의 프로세서에 의해 수행되는 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법은, 문장을 구성하는 복수의 토큰이 모두 라벨링된 완전 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제1 모델을 생성하는 단계, 생성된 제1 모델에 문장을 구성하는 복수의 토큰 중 일부가 라벨링된 약한 라벨 데이터를 제공하여 의사 라벨 데이터를 추출하는 단계 및 약한 라벨 데이터 및 의사 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계를 포함한다.

본 발명의 일 실시예에 따르면, 의사 라벨 데이터는 약한 라벨 데이터에 포함된 라벨링되지 않은 토큰에 대한 추정 라벨링 정보를 포함한다.

본 발명의 일 실시예에 따르면, 약한 라벨 데이터 및 의사 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는, 마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 사전 훈련된 언어 모델에 대한 파인 튜닝을 수행하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계를 포함한다.

본 발명의 일 실시예에 따르면, 마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는, 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합을 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계를 포함한다.

본 발명의 일 실시예에 따르면, 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합을 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는, 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합의 총 손실 값이 작아지도록 역전파를 수행하는 단계를 포함한다.

본 발명의 일 실시예에 따르면, 언어 모델은 DeBERTa(Decoding-enhanced BERT with Disentangled Attention) 모델이다.

본 발명의 일 실시예에 따르면, 마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는, 의사 라벨 데이터에 대한 페널티를 부여하기 위한 변수를 포함하는 마진 기반의 손실, 및 마스크 언어 모델링 손실을 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계를 포함한다.

본 발명의 일 실시예에 따르면, 의사 라벨 데이터에 대한 페널티를 부여하기 위한 변수를 포함하는 마진 기반의 손실, 및 마스크 언어 모델링 손실을 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는, 마진 기반의 손실에 입력된 제1 데이터 및 제2 데이터 중 적어도 하나가 의사 라벨 데이터인 경우, 변수의 값을 1 이하의 값으로 결정하는 단계를 포함한다.

본 발명의 일 실시예에 따른 상술된 방법을 컴퓨터에서 실행하기 위해 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램이 제공된다.

본 발명의 일 실시예에 따른 컴퓨팅 장치는, 통신 모듈, 메모리 및 메모리와 연결되고, 메모리에 포함된 컴퓨터 판독 가능한 적어도 하나의 프로그램을 실행하도록 구성된 적어도 하나의 프로세서를 포함한다. 적어도 하나의 프로그램은, 문장을 구성하는 복수의 토큰이 모두 라벨링된 완전 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제1 모델을 생성하고, 생성된 제1 모델에 문장을 구성하는 복수의 토큰 중 일부가 라벨링된 약한 라벨 데이터를 제공하여 의사 라벨 데이터를 추출하고, 약한 라벨 데이터 및 의사 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하기 위한 명령어들을 포함한다.

본 발명의 다양한 실시예에서 각 단어에 대응하는 배치를 생성하는 WSD 모델의 학습을 수행하는 경우, 모든 의미에 대응하는 모든 데이터를 효과적으로 추출되어 각 단어에 대한 독립적인 멀티 태스크 학습이 수행될 수 있다. 또한, 이와 같이 멀티 태스크 학습이 수행되는 경우, 생성된 WSD 모델은 입력된 하나의 문장만을 이용하여 특정 문맥에서의 WSD를 수행할 수 있다.

본 발명의 다양한 실시예에서 WSD 모델은 서포트 셋과 쿼리 셋의 구분 없이 계산을 수행하여 학습 데이터를 모두 활용한 학습을 수행할 수 있으며, 이에 따라 정보의 손실 없이 학습을 수행할 수 있다. 또한, 마진을 만족하는 경우, 데이터 사이의 거리가 더 멀어지거나 가까워지도록 학습을 수행하지 않을 수 있으므로 학습 효율이 증가할 수 있다.

본 발명의 다양한 실시예에서 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합을 이용하여 WSD 모델을 학습하는 경우, 마스크 언어 모델링 손실을 추가적인 코퍼스에 적용함으로써 추가적인 사전 훈련 효과가 발생하는 이점이 있다. 또한, 사전 훈련 태스크를 지속적으로 같이 학습하여 마스킹된 입력을 복원하는 기능을 WSD 모델이 유지할 수 있으며, 학습이 진행되는 배치를 구성하는 단어에 대해 오버 피팅이 발생하는 현상을 방지할 수 있다.

본 발명의 다양한 실시예에서 SWA 알고리즘 및 GreedySoup 알고리즘을 모두 이용하여 가중치를 최적화하는 경우, 최종적인 WSD 모델의 일반화 성능이 현저히 향상될 수 있다.

본 발명의 다양한 실시예에서 숙어를 구성하는 토큰들에 대한 라벨링을 수행하여 WSD 모델을 학습시킴으로써 시간 복잡도가 현저히 줄어들 수 있으며, 이에 따라 시스템 과부하가 발생할 가능성을 효과적으로 차단할 수 있다.

본 발명의 다양한 실시예에서 약한 라벨 데이터 및 의사 라벨 데이터를 모두 이용하여 학습을 진행함으로써, 약한 라벨 데이터를 이용하는 경우에도 정확도 하락이 발생하지 않도록 제2 모델이 생성될 수 있다. 또한, 제1 모델을 이용하여 약한 라벨 데이터만을 이용하는 경우에도 효과적으로 라벨링 데이터가 수집될 수 있다.

본 발명의 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급되지 않은 다른 효과들은 청구범위의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자("통상의 기술자"라 함)에게 명확하게 이해될 수 있을 것이다.

본 발명의 실시예들은, 이하 설명하는 첨부 도면들을 참조하여 설명될 것이며, 여기서 유사한 참조 번호는 유사한 요소들을 나타내지만, 이에 한정되지는 않는다.

도 1은 본 발명의 일 실시예에 따른 WSD를 수행하는 모델을 생성하기 위한 배치가 생성되는 예시를 나타내는 도면이다.

도 2는 본 발명의 일 실시예에 따른 WSD 모델을 학습시키기 위한 손실 함수의 예시를 나타내는 도면이다.

도 3은 본 발명의 일 실시예에 따른 일반화가 수행되는 예시를 나타내는 도면이다.

도 4는 본 발명의 일 실시예에 따른 숙어에 대한 효과적인 처리가 가능한 라벨링이 수행되는 예시를 나타내는 도면이다.

도 5는 본 발명의 일 실시예에 따른 WSD 모델 생성을 위한 데이터를 생성하는 예시를 나타내는 도면이다.

도 6은 본 발명의 일 실시예에 따른 WSD와 연관된 모델 학습 방법의 예시를 나타내는 도면이다.

도 7은 본 발명의 일 실시예에 따른 숙어 처리를 위한 WSD와 연관된 모델 학습 방법의 예시를 나타내는 도면이다.

도 8은 본 발명의 일 실시예에 따른 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법의 예시를 나타내는 도면이다.

도 9는 본 발명의 일 실시예에 따른 컴퓨팅 장치의 내부 구성을 나타내는 블록도이다.

이하, 본 발명의 실시를 위한 구체적인 내용을 첨부된 도면을 참조하여 상세히 설명한다. 다만, 이하의 설명에서는 본 발명의 요지를 불필요하게 흐릴 우려가 있는 경우, 널리 알려진 기능이나 구성에 관한 구체적 설명은 생략하기로 한다.

첨부된 도면에서, 동일하거나 대응하는 구성요소에는 동일한 참조부호가 부여되어 있다. 또한, 이하의 실시예들의 설명에 있어서, 동일하거나 대응되는 구성요소를 중복하여 기술하는 것이 생략될 수 있다. 그러나, 구성요소에 관한 기술이 생략되어도, 그러한 구성요소가 어떤 실시예에 포함되지 않는 것으로 의도되지는 않는다.

개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명이 완전하도록 하고, 본 발명이 통상의 기술자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다. 본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한, 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다. 명세서 전체에서 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.

본 발명에서, "포함하다", "포함하는" 등의 용어는 특징들, 단계들, 동작들, 요소들 및/또는 구성 요소들이 존재하는 것을 나타낼 수 있으나, 이러한 용어가 하나 이상의 다른 기능들, 단계들, 동작들, 요소들, 구성 요소들 및/또는 이들의 조합이 추가되는 것을 배제하지는 않는다.

본 발명에서, 특정 구성 요소가 임의의 다른 구성 요소에 "결합", "조합", "연결" 되거나, "반응" 하는 것으로 언급된 경우, 특정 구성 요소는 다른 구성 요소에 직접 결합, 조합 및/또는 연결되거나, 반응할 수 있으나, 이에 한정되지 않는다. 예를 들어, 특정 구성 요소와 다른 구성 요소 사이에 하나 이상의 중간 구성 요소가 존재할 수 있다. 또한, 본 발명에서 "및/또는"은 열거된 하나 이상의 항목의 각각 또는 하나 이상의 항목의 적어도 일부의 조합을 포함할 수 있다.

본 발명에서, "제1", "제2" 등의 용어는 특정 구성 요소를 다른 구성 요소와 구별하기 위해 사용되는 것으로, 이러한 용어에 의해 상술된 구성 요소가 제한되진 않는다. 예를 들어, "제1" 구성 요소는 "제2" 구성 요소와 동일하거나 유사한 형태의 요소일 수 있다.

본 발명에서, "WSD(Word Sense Disambiguation)"는 특정 맥락에서 단어의 사용에 의해 단어의 어떤 의미가 활성화되는지를 결정하는 것을 지칭할 수 있으며, WSD 모델은 WSD를 수행하는 기계학습 모델을 지칭할 수 있다.

본 발명에서, "모델"은 기계학습 모델 및/또는 인공신경망 모델을 지칭하는 것으로서, 주어진 입력에 대한 답을 추론하는 데 사용하는 임의의 모델을 포함할 수 있다. 일 실시예에 따르면, 모델은 입력 레이어(층), 복수 개의 은닉 레이어 및 출력 레이어를 포함한 딥 뉴럴 네트워크를 포함할 수 있다. 여기서, 각 레이어는 하나 이상의 노드를 포함할 수 있다. 또한, 모델은 모델에 포함된 복수의 노드와 연관된 가중치를 포함할 수 있다. 여기서, 가중치는 인공신경망 모델과 연관된 임의의 파라미터를 포함할 수 있다.

본 발명에서, "퓨샷 러닝(few-shot learning)"은 소량의 데이터만으로도 좋은 성능을 갖는 인공신경망 모델을 학습시키는 방법을 지칭할 수 있다.

본 발명에서, "언어 모델(language model)"은 단어 시퀀스에 대한 확률을 할당하거나 계산하기 위한 인공신경망 모델일 수 있으며, 사전 훈련된 모델로서 예를 들어, BERT(Bidirectional Encoder Representations from Transformers) 기반의 모델을 포함할 수 있다.

도 1은 본 발명의 일 실시예에 따른 WSD를 수행하는 모델을 생성하기 위한 배치(120)가 생성되는 예시를 나타내는 도면이다. 도시된 것과 같이, 학습 데이터(110)는 각 단어(word) 및 의미(sense)에 대응하는 데이터(data)들을 포함할 수 있다. 예를 들어, 데이터는 문장(sentence) 데이터일 수 있으며, 문장 데이터는 문장에 포함된 각각의 단어에 대응하는 복수의 토큰(token)으로 구성될 수 있다. 즉, 학습 데이터(110)는 특정 문맥에서의 단어의 의미로 구분되는 복수의 문장 데이터를 포함할 수 있다.

일 실시예에 따르면, 단어의 제1 의미와 연관된 제1 세트의 학습 데이터 및 단어의 제2 의미와 연관된 제2 세트의 학습 데이터를 포함하는 배치(120)가 생성될 수 있다. 즉, 사전 학습된 언어 모델(130)에 대한 파인 튜닝(fine tuning)을 수행하기 위해 배치(120)가 생성될 수 있다. 여기서, 배치(120)는 학습 데이터(110)의 적어도 일부의 집합으로써, 각 단어(word) 마다 대응되는 배치(120) 및/또는 배치 셋이 생성될 수 있다. 이에 따라, 언어 모델(130)은 각 단어에 대응하는 배치 셋(batch set)을 기초로 각각의 단어에 대해 독립적인 멀티 태스크 학습(multi-task learning) 방식으로 학습될 수 있다. 여기서, 언어 모델(130)은 BERT(Bidirectional Encoder Representations from Transformers) 기반의 모델일 수 있으며, 예를 들어, DeBERTa(Decoding-enhanced BERT with Disentangled Attention) 모델을 포함할 수 있다.

일 실시예에 따르면, 하나의 배치(120)에 다양한 조합의 의미를 갖는 데이터를 포함시키기 위해 의미 인덱스(sense index)를 랜덤하게 선택하여 배치(120)에 포함되는 데이터를 추출할 수 있다. 예를 들어, 배치(120)가 K개의 의미에 대응하는 데이터를 포함할 수 있는 경우, K+a 개의 의미 중 K개의 의미가 랜덤하게 선택되어 선택된 의미에 대응하는 데이터들이 배치(120)에 포함될 수 있다. 이 경우, a 값은 의미 인덱스가 랜덤하게 선택되는 정도와 데이터가 중복되는 정도 사이를 조정하기 위한 값일 수 있다. 이와 같은 구성에 의해, 각 단어에 대응하는 배치(120)를 생성하는 WSD 모델의 학습을 수행하는 경우, 모든 의미에 대응하는 모든 데이터를 효과적으로 추출되어 각 단어에 대한 독립적인 멀티 태스크 학습이 수행될 수 있다. 또한, 이와 같이 멀티 태스크 학습이 수행되는 경우, 생성된 WSD 모델은 입력된 하나의 문장만을 이용하여 특정 문맥에서의 WSD를 수행할 수 있다.

도 2는 본 발명의 일 실시예에 따른 WSD 모델(210)을 학습시키기 위한 손실 함수의 예시를 나타내는 도면이다. 일반적으로, 기존의 WSD 모델은 데이터 개수가 작은 단어의 의미(sense)에 대해서도 충분한 성능을 발휘하기 위해 퓨샷 러닝(few-shot learning)의 학습 방식으로 학습될 수 있다. 그러나, 일반적인 퓨샷 러닝 학습 방식은 배치 셋을 서포트 셋(support set)과 쿼리 셋(query set)으로 나누어서 학습하는 방식이어서 서포트 셋과 쿼리 셋 사이의 거리(distance)만을 학습하기 때문에 모든 정보를 활용하여 학습하지 않는 문제가 있다.

일 실시예에 따르면, 상술된 문제를 해결하기 위해 본 발명에 따른 WSD 모델(210)은 메트릭 기반의 퓨샷 러닝(metric-based few-shot learning)으로 학습될 수 있다. 예를 들어, WSD 모델(210)은 다음의 수학식 1과 같은 마진 기반의 손실(또는 손실 함수)(212)을 이용하여 학습될 수 있다.

일반적으로, 방대한 양의 데이터 셋으로 사전 훈련된 언어 모델에 대한 파인 튜닝이 수행되는 경우, 사전 훈련된 언어 모델의 파라미터가 가지고 있는 정보가 사라지거나 오버 피팅(overfitting)이 발생하는 문제가 있다.

이와 같은 문제를 해결하기 위해, 본 발명에 따른 WSD 모델(210)은 마진 기반의 손실(212) 및 마스크 언어 모델링 손실(214)의 선형 결합을 이용하여 학습될 수 있다. 예를 들어, WSD 모델(210)은 다음의 수학식 2와 같은 마진 기반의 손실(212) 및 마스크 언어 모델링 손실(214)의 선형 결합을 이용하여 학습될 수 있다.

일 실시예에 따르면, 마스크 언어 모델링 손실(214)은 언어 모델을 사전 훈련할 때 사용되는 함수에서 ri가 추가된 형태일 수 있다. 여기서, ri는 1인 경우에만 마스크 언어 모델링 손실(214)의 손실 값이 계산될 수 있으며, 이에 따라 데이터 샘플링을 수행할 수 있다. 이와 같이, 데이터 샘플링을 수행하는 경우, GPU VRAM의 사용량을 줄일 수 있으며, 이에 따라, 더 큰 배치 사이즈가 학습에 이용될 수 있다. 또한, WSD 모델(210)은 이러한 마스크 언어 모델링 손실(214)을 통해 더 많은 경우의 거리 쌍(distance pair)을 관찰함으로써 성능이 향상될 수 있다.

일 실시예에 따르면, 마진 기반의 손실(212) 및 마스크 언어 모델링 손실(214)의 선형 결합의 총 손실 값(220)이 작아지도록 역전파(back-propagation)가 수행될 수 있다. 이와 같은 구성에 의해, 마진 기반의 손실(212) 및 마스크 언어 모델링 손실(214)의 선형 결합을 이용하여 WSD 모델(210)을 학습하는 경우, 마스크 언어 모델링 손실(214)을 추가적인 코퍼스(corpus)에 적용함으로써 추가적인 사전 훈련 효과가 발생하는 이점이 있다. 또한, 사전 훈련 태스크를 지속적으로 같이 학습하여 마스킹된 입력을 복원하는 기능을 WSD 모델(210)이 유지할 수 있으며, 학습이 진행되는 배치를 구성하는 단어에 대해 오버 피팅이 발생하는 현상을 방지할 수 있다.

도 3은 본 발명의 일 실시예에 따른 일반화가 수행되는 예시를 나타내는 도면이다. 일 실시예에 따르면, 일반화(generalization)는 학습 데이터에 없는 새로운 샘플에 대한 오류를 최소화하는 모델의 학습 방법을 지칭할 수 있다. 도시된 것과 같이, 복수의 모델(310)을 생성하고, 각 모델에 SWA(Stochastic Weight Averaging) 알고리즘(320) 및 GreedySoup 알고리즘(330)을 적용하여 최종 모델의 일반화 성능을 향상시킬 수 있다. 여기서, SWA 알고리즘(320)은 각 모델의 가중치(weight)를 평균화하기 위한 알고리즘을 지칭할 수 있으며, GreedySoup 알고리즘(330)은 복수의 모델의 가중치를 조합하여 평균화하기 위한 알고리즘을 지칭할 수 있다.

일 실시예에 따르면, SWA 알고리즘(320)은 모델의 학습이 사전 결정된 기준 이상 진행된 후, 사전 결정된 기준 이하의 학습률(learning rate)로 모델 학습을 계속 진행하면서 가중치를 평균화하는 알고리즘을 지칭할 수 있다. 예를 들어, SWA 알고리즘(320)이 사용되는 경우, 제1 모델(310_1)의 가중치가 평균화되고, 제2 모델(310_2)의 가중치가 평균화되고, 제n 모델(310_n)의 가중치가 평균화될 수 있다. 이와 같이 가중치가 평균화되는 경우, 각 모델의 성능이 향상될 수 있다.

일 실시예에 따르면, 학습된 복수의 모델(310)을 이용하여 하나의 WSD 모델을 생성할 수 있다. 예를 들어, GreedySoup 알고리즘(330)을 기초로 각 모델의 가중치를 평균화하여 최종적인 WSD 모델의 가중치를 결정할 수 있다. 이 경우, 학습된 복수의 모델(310)의 가중치들 중 일부의 가중치가 선택되어 평균화될 수 있다. 예를 들어, 가중치를 조합하고 평균화한 후 WSD 모델의 성능을 측정하고, WSD 모델의 성능이 향상된 경우에만 조합된 가중치가 선택되어 평균화될 수 있다. 이와 같은 구성에 의해, SWA 알고리즘(320) 및 GreedySoup 알고리즘(330)을 모두 이용하여 가중치를 최적화하는 경우, 최종적인 WSD 모델의 일반화 성능이 현저히 향상될 수 있다.

도 3에는 WSD 모델의 일반화를 위해, SWA 알고리즘(320) 및 GreedySoup 알고리즘(330)이 모두 이용된 것으로 상술되었으나, 이에 한정되지 않는다. SWA 알고리즘(320) 및 GreedySoup 알고리즘(330)은 선택적으로 이용될 수 있다.

도 4는 본 발명의 일 실시예에 따른 숙어에 대한 효과적인 처리가 가능한 라벨링이 수행되는 예시를 나타내는 도면이다. 일 실시예에 따르면, 숙어는 2개 이상의 단어가 결합하여 구문상 1개의 단어와 같은 작용을 하는 단어를 지칭할 수 있다. 예를 들어, 숙어 k(410)는 숙어 k(410)를 구성하는 각각의 단어를 나타내는 제1 토큰(420_1), 제2 토큰(420_2), 제n 토큰(420_n) 등으로 구성될 수 있다.

일반적으로, 종래의 WSD 모델은 숙어를 구성하는 토큰들이 서로 인접한 것을 가정하고, 인접한 토큰들의 임베딩을 이용하여 숙어에 대한 WSD를 수행한다. 그러나, 이와 같은 방법을 이용하는 경우 서로 인접하지 않은 토큰들이 숙어를 구성하는 것을 고려하지 못하고, 숙어의 임베딩을 계산하기 위한 시간 복잡도(time complexity)가 증가하는 문제가 있다.

이와 같이 시간 복잡도가 증가하는 문제를 해결하기 위해, 숙어에 포함된 각각의 토큰들은 해당 숙어의 의미로 라벨링될 수 있다. 예를 들어, 숙어 k(410)가 숙어를 구성하는 각각의 단어를 나타내는 제1 토큰(420_1), 제2 토큰(420_2), 제n 토큰(420_n) 등으로 구성되는 경우, 해당 토큰들(420)은 숙어 k로 라벨링될 수 있다(430).

다시 말해, 제1 토큰 및 제2 토큰을 포함하는 복수의 토큰으로 구성된 숙어 데이터가 추출되는 경우, 제1 토큰에 대응하는 제1 단어에 숙어의 의미(sense)를 라벨링(labeling)하고, 제2 토큰에 대응하는 제2 단어에 숙어의 의미를 라벨링할 수 있다. 그리고 나서, 제1 단어에 대응하도록 생성된 제1 배치 및 제2 단어에 대응하도록 생성된 제2 배치를 기초로 사전 훈련된 언어 모델에 대한 파인 튜닝을 수행하여 제1 단어 및 제2 단어에 대한 WSD를 수행하는 모델이 생성될 수 있다. 이와 같이 라벨링을 수행하는 경우, 임의의 문장 x에 대해 숙어의 임베딩을 계산하기 위한 조합의 개수는 다음의 수학식 5와 같이 구성될 수 있다.

이와 같은 구성에 의해, 숙어를 구성하는 토큰들에 대한 라벨링을 수행하여 WSD 모델을 학습시킴으로써 시간 복잡도가 현저히 줄어들 수 있으며, 이에 따라 시스템 과부하가 발생할 가능성을 효과적으로 차단할 수 있다.

도 5는 본 발명의 일 실시예에 따른 WSD 모델 생성을 위한 데이터를 생성하는 예시를 나타내는 도면이다. 일반적으로, WSD 모델 학습을 위해 문장에 포함된 모든 토큰에 대해 라벨링을 수행하는 것은 상당한 비용이 소요되며 비효율적이다. 따라서, 문장을 구성하는 토큰 중 일부만 라벨링된 약한 라벨 데이터(weakly labeled data)를 이용하여 학습을 수행하는 것이 중요하다. 그러나, 약한 라벨 데이터를 이용하는 경우, 라벨링되지 않은 토큰에 대해 잘못된 임베딩이 생성되어 정확도 하락(accuracy drop)이 발생할 수 있는 문제가 있다.

이러한 문제를 해결하기 위해, 총 3 단계의 WSD 모델 학습 과정이 수행될 수 있다. 먼저, 제1 단계(stage 1)는 완전 라벨 데이터(fully labeled data)(512)를 이용하여 WSD를 수행하는 제1 모델(510)을 생성하는 과정일 수 있다. 즉, 문장을 구성하는 복수의 토큰이 모두 라벨링된 완전 라벨 데이터(512)를 이용하여 단어에 대한 WSD를 수행하는 제1 모델(510)이 생성될 수 있다. 상술한 바와 같이, 제1 모델(510)은 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합을 이용하여 학습될 수 있으며, SWA 알고리즘 및/또는 Greedy Soup 알고리즘이 적용된 모델일 수 있다.

제2 단계(stage 2)는 생성된 제1 모델(510)에 문장을 구성하는 복수의 토큰 중 일부가 라벨링된 약한 라벨 데이터(514)를 제공하여 의사 라벨 데이터(pseudo labeled data)(516)를 추출하는 과정일 수 있다. 즉, 제1 모델(510)에 의해 약한 라벨 데이터(514)에 포함된 토큰 중 라벨링이 되지 않은 토큰들에 대한 라벨이 생성되어 의사 라벨 데이터(516)가 추출될 수 있다. 여기서, 의사 라벨 데이터(516)는 약한 라벨 데이터(514)에 포함된 라벨링(labeling)되지 않은 토큰에 대한 추정 라벨링 정보를 포함할 수 있다.

제3 단계(stage 3)는 약한 라벨 데이터(514) 및 의사 라벨 데이터(516)를 이용하여 단어에 대한 WSD를 수행하는 제2 모델(520)을 생성하는 과정일 수 있다. 상술한 바와 같이, 제2 모델(520)은 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합을 이용하여 학습될 수 있으며, SWA 알고리즘 및 Greedy Soup 알고리즘이 적용된 모델일 수 있다.

일 실시예에 따르면, 제2 모델(520)을 생성하기 위해 사용되는 마진 기반의 손실은 의사 라벨 데이터(516)에 대한 페널티를 부여하기 위한 변수를 포함할 수 있다. 예를 들어, 제2 모델(520)을 생성하기 위한 손실 함수는 다음의 수학식 6과 같이 구성될 수 있다.

예를 들어, 마진 기반의 손실에 입력된 제1 데이터 및 제2 데이터 중 적어도 하나가 의사 라벨 데이터(516)인 경우, 변수(ri,j)의 값은 1 이하의 값으로 결정될 수 있다. 즉, 의사 라벨 데이터(516)는 노이즈(noise)를 포함할 수 밖에 없으며, 의사 라벨 데이터(516)가 입력되는 경우, 의사 라벨 데이터(516)에 페널티를 부여함으로써 노이즈의 영향을 감소시킬 수 있다.

이와 같은 구성에 의해, 약한 라벨 데이터(514) 및 의사 라벨 데이터(516)를 모두 이용하여 학습을 진행함으로써, 약한 라벨 데이터(514)를 이용하는 경우에도 정확도 하락이 발생하지 않도록 제2 모델(520)이 생성될 수 있다. 또한, 제1 모델(510)을 이용하여 약한 라벨 데이터(514)만을 이용하는 경우에도 효과적으로 라벨링 데이터가 수집될 수 있다.

도 6은 본 발명의 일 실시예에 따른 WSD와 연관된 모델 학습 방법(600)의 예시를 나타내는 도면이다. WSD와 연관된 모델 학습 방법(600)은 적어도 하나의 프로세서(예: 컴퓨팅 장치의 적어도 하나의 프로세서)에 의해 수행될 수 있다. WSD와 연관된 모델 학습 방법(600)은 프로세서가 단어의 제1 의미와 연관된 제1 세트의 학습 데이터 및 단어의 제2 의미와 연관된 제2 세트의 학습 데이터를 포함하는 배치를 생성함으로써 개시될 수 있다(S610).

프로세서는 생성된 배치를 기초로 사전 훈련된 언어 모델에 대한 파인 튜닝을 수행하여 단어에 대한 WSD를 수행하는 모델을 생성할 수 있다(S620). 예를 들어, 프로세서는 마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 사전 훈련된 언어 모델에 대한 파인 튜닝을 수행하여 단어에 대한 WSD를 수행하는 모델을 생성할 수 있다. 이 경우, 프로세서는 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합을 이용하여 단어에 대한 WSD를 수행하는 모델을 생성할 수 있다. 또한, 프로세서는 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합의 총 손실 값이 작아지도록 역전파를 수행할 수 있다.

도 7은 본 발명의 일 실시예에 따른 숙어 처리를 위한 WSD와 연관된 모델 학습 방법(700)의 예시를 나타내는 도면이다. 숙어 처리를 위한 WSD와 연관된 모델 학습 방법(700)은 적어도 하나의 프로세서(예: 컴퓨팅 장치의 적어도 하나의 프로세서)에 의해 수행될 수 있다. 숙어 처리를 위한 WSD와 연관된 모델 학습 방법(700)은 프로세서가 제1 토큰 및 제2 토큰을 포함하는 복수의 토큰으로 구성된 숙어 데이터를 추출함으로써 개시될 수 있다(S710).

일 실시예에 따르면, 프로세서는 제1 토큰에 대응하는 제1 단어에 숙어의 의미를 라벨링하고, 제2 토큰에 대응하는 제2 단어에 숙어의 의미를 라벨링할 수 있다(S720). 그리고 나서, 프로세서는 제1 단어에 대응하도록 생성된 제1 배치 및 제2 단어에 대응하도록 생성된 제2 배치를 기초로 사전 훈련된 언어 모델에 대한 파인 튜닝을 수행하여 제1 단어 및 제2 단어에 대한 WSD를 수행하는 모델을 생성할 수 있다(S730).

프로세서는 마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 사전 훈련된 언어 모델에 대한 파인 튜닝을 수행하여 제1 단어 및 제2 단어에 대한 WSD를 수행하는 모델을 생성할 수 있다. 예를 들어, 프로세서는 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합을 이용하여 제1 단어 및 제2 단어에 대한 WSD를 수행하는 모델을 생성할 수 있다. 또한, 프로세서는 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합의 총 손실 값이 작아지도록 역전파를 수행할 수 있다.

도 8은 본 발명의 일 실시예에 따른 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법(800)의 예시를 나타내는 도면이다. 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법(800)은 적어도 하나의 프로세서(예: 컴퓨팅 장치의 적어도 하나의 프로세서)에 의해 수행될 수 있다. 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법(800)은 프로세서가 문장을 구성하는 복수의 토큰이 모두 라벨링된 완전 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제1 모델을 생성함으로써 개시될 수 있다(S810).

프로세서는 생성된 제1 모델에 문장을 구성하는 복수의 토큰 중 일부가 라벨링된 약한 라벨 데이터를 제공하여 의사 라벨 데이터를 추출할 수 있다(S820). 여기서, 의사 라벨 데이터는 약한 라벨 데이터에 포함된 라벨링되지 않은 토큰에 대한 추정 라벨링 정보를 포함할 수 있다. 그리고 나서, 프로세서는 약한 라벨 데이터 및 의사 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성할 수 있다(S830).

일 실시예에 따르면, 프로세서는 마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 사전 훈련된 언어 모델에 대한 파인 튜닝을 수행하여 단어에 대한 WSD를 수행하는 제2 모델을 생성할 수 있다. 예를 들어, 프로세서는 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합을 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성할 수 있다.

일 실시예에 따르면, 프로세서는 의사 라벨 데이터에 대한 페널티를 부여하기 위한 변수를 포함하는 마진 기반의 손실, 및 마스크 언어 모델링 손실을 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성할 수 있다. 예를 들어, 프로세서는 마진 기반의 손실에 입력된 제1 데이터 및 제2 데이터 중 적어도 하나가 의사 라벨 데이터인 경우, 변수의 값을 1 이하의 값으로 결정할 수 있다.

도 9는 본 발명의 일 실시예에 따른 컴퓨팅 장치(900)의 내부 구성을 나타내는 블록도이다. 일 실시예에 따르면, 컴퓨팅 장치(900)는 메모리(910), 프로세서(920), 통신 모듈(930) 및 입출력 인터페이스(940)를 포함할 수 있다. 도 9에 도시된 바와 같이, 컴퓨팅 장치(900)는 통신 모듈(930)을 이용하여 네트워크를 통해 정보 및/또는 데이터를 통신할 수 있도록 구성될 수 있다.

메모리(910)는 비-일시적인 임의의 컴퓨터 판독 가능한 기록매체를 포함할 수 있다. 일 실시예에 따르면, 메모리(910)는 RAM(random access memory), ROM(read only memory), 디스크 드라이브, SSD(solid state drive), 플래시 메모리(flash memory) 등과 같은 비소멸성 대용량 저장 장치(permanent mass storage device)를 포함할 수 있다. 다른 예로서, ROM, SSD, 플래시 메모리, 디스크 드라이브 등과 같은 비소멸성 대용량 저장 장치는 메모리와는 구분되는 별도의 영구 저장 장치로서 컴퓨팅 장치(900)에 포함될 수 있다. 또한, 메모리(910)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다.

이러한 소프트웨어 구성요소들은 메모리(910)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 이러한 컴퓨팅 장치(900)에 직접 연결가능한 기록 매체를 포함할 수 있는데, 예를 들어, 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 예로서, 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 모듈(930)을 통해 메모리(910)에 로딩될 수도 있다. 예를 들어, 적어도 하나의 프로그램은 개발자들 또는 어플리케이션의 설치 파일을 배포하는 파일 배포 시스템이 통신 모듈(930)을 통해 제공하는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 메모리(910)에 로딩될 수 있다.

프로세서(920)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(910) 또는 통신 모듈(930)에 의해 사용자 단말(미도시) 또는 다른 외부 시스템으로 제공될 수 있다.

통신 모듈(930)은 네트워크를 통해 사용자 단말(미도시)과 컴퓨팅 장치(900)가 서로 통신하기 위한 구성 또는 기능을 제공할 수 있으며, 컴퓨팅 장치(900)가 외부 시스템(일례로 별도의 클라우드 시스템 등)과 통신하기 위한 구성 또는 기능을 제공할 수 있다. 일례로, 컴퓨팅 장치(900)의 프로세서(920)의 제어에 따라 제공되는 제어 신호, 명령, 데이터 등이 통신 모듈(930)과 네트워크를 거쳐 사용자 단말 및/또는 외부 시스템의 통신 모듈을 통해 사용자 단말 및/또는 외부 시스템으로 전송될 수 있다.

또한, 컴퓨팅 장치(900)의 입출력 인터페이스(940)는 컴퓨팅 장치(900)와 연결되거나 컴퓨팅 장치(900)가 포함할 수 있는 입력 또는 출력을 위한 장치(미도시)와의 인터페이스를 위한 수단일 수 있다. 도 9에서는 입출력 인터페이스(940)가 프로세서(920)와 별도로 구성된 요소로서 도시되었으나, 이에 한정되지 않으며, 입출력 인터페이스(940)가 프로세서(920)에 포함되도록 구성될 수 있다. 컴퓨팅 장치(900)는 도 9의 구성요소들보다 더 많은 구성요소들을 포함할 수 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다.

컴퓨팅 장치(900)의 프로세서(920)는 복수의 사용자 단말 및/또는 복수의 외부 시스템으로부터 수신된 정보 및/또는 데이터를 관리, 처리 및/또는 저장하도록 구성될 수 있다.

상술된 방법 및/또는 다양한 실시예들은, 디지털 전자 회로, 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 실현될 수 있다. 본 발명의 다양한 실시예들은 데이터 처리 장치, 예를 들어, 프로그래밍 가능한 하나 이상의 프로세서 및/또는 하나 이상의 컴퓨팅 장치에 의해 실행되거나, 컴퓨터 판독 가능한 기록 매체 및/또는 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 상술된 컴퓨터 프로그램은 컴파일된 언어 또는 해석된 언어를 포함하여 임의의 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램, 모듈, 서브 루틴 등의 임의의 형태로 배포될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨팅 장치, 동일한 네트워크를 통해 연결된 복수의 컴퓨팅 장치 및/또는 복수의 상이한 네트워크를 통해 연결되도록 분산된 복수의 컴퓨팅 장치를 통해 배포될 수 있다.

상술된 방법 및/또는 다양한 실시예들은, 입력 데이터를 기초로 동작하거나 출력 데이터를 생성함으로써, 임의의 기능, 함수 등을 처리, 저장 및/또는 관리하는 하나 이상의 컴퓨터 프로그램을 실행하도록 구성된 하나 이상의 프로세서에 의해 수행될 수 있다. 예를 들어, 본 발명의 방법 및/또는 다양한 실시예는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)과 같은 특수 목적 논리 회로에 의해 수행될 수 있으며, 본 발명의 방법 및/또는 실시예들을 수행하기 위한 장치 및/또는 시스템은 FPGA 또는 ASIC와 같은 특수 목적 논리 회로로서 구현될 수 있다.

컴퓨터 프로그램을 실행하는 하나 이상의 프로세서는, 범용 목적 또는 특수 목적의 마이크로 프로세서 및/또는 임의의 종류의 디지털 컴퓨팅 장치의 하나 이상의 프로세서를 포함할 수 있다. 프로세서는 읽기 전용 메모리, 랜덤 액세스 메모리의 각각으로부터 명령 및/또는 데이터를 수신하거나, 읽기 전용 메모리와 랜덤 액세스 메모리로부터 명령 및/또는 데이터를 수신할 수 있다. 본 발명에서, 방법 및/또는 실시예들을 수행하는 컴퓨팅 장치의 구성 요소들은 명령어들을 실행하기 위한 하나 이상의 프로세서, 명령어들 및/또는 데이터를 저장하기 위한 하나 이상의 메모리 디바이스를 포함할 수 있다.

일 실시예에 따르면, 컴퓨팅 장치는 데이터를 저장하기 위한 하나 이상의 대용량 저장 장치와 데이터를 주고받을 수 있다. 예를 들어, 컴퓨팅 장치는 자기 디스크(magnetic disc) 또는 광 디스크(optical disc)로부터 데이터를 수신하거나/수신하고, 자기 디스크 또는 광 디스크로 데이터를 전송할 수 있다. 컴퓨터 프로그램과 연관된 명령어들 및/또는 데이터를 저장하기에 적합한 컴퓨터 판독 가능한 저장 매체는, EPROM(Erasable Programmable Read-Only Memory), EEPROM(Electrically Erasable PROM), 플래시 메모리 장치 등의 반도체 메모리 장치를 포함하는 임의의 형태의 비 휘발성 메모리를 포함할 수 있으나, 이에 한정되지 않는다. 예를 들어, 컴퓨터 판독 가능한 저장 매체는 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크, 광 자기 디스크, CD-ROM 및 DVD-ROM 디스크를 포함할 수 있다.

사용자와의 상호 작용을 제공하기 위해, 컴퓨팅 장치는 정보를 사용자에게 제공하거나 디스플레이하기 위한 디스플레이 장치(예를 들어, CRT (Cathode Ray Tube), LCD(Liquid Crystal Display) 등) 및 사용자가 컴퓨팅 장치 상에 입력 및/또는 명령 등을 제공할 수 있는 포인팅 장치(예를 들어, 키보드, 마우스, 트랙볼 등)를 포함할 수 있으나, 이에 한정되지 않는다. 즉, 컴퓨팅 장치는 사용자와의 상호 작용을 제공하기 위한 임의의 다른 종류의 장치들을 더 포함할 수 있다. 예를 들어, 컴퓨팅 장치는 사용자와의 상호 작용을 위해, 시각적 피드백, 청각 피드백 및/또는 촉각 피드백 등을 포함하는 임의의 형태의 감각 피드백을 사용자에게 제공할 수 있다. 이에 대해, 사용자는 시각, 음성, 동작 등의 다양한 제스처를 통해 컴퓨팅 장치로 입력을 제공할 수 있다.

본 발명에서, 다양한 실시예들은 백엔드 구성 요소(예: 데이터 서버), 미들웨어 구성 요소(예: 애플리케이션 서버) 및/또는 프론트 엔드 구성 요소를 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 이 경우, 구성 요소들은 통신 네트워크와 같은 디지털 데이터 통신의 임의의 형태 또는 매체에 의해 상호 연결될 수 있다. 예를 들어, 통신 네트워크는 LAN(Local Area Network), WAN(Wide Area Network) 등을 포함할 수 있다.

본 명세서에서 기술된 예시적인 실시예들에 기반한 컴퓨팅 장치는, 사용자 디바이스, 사용자 인터페이스(UI) 디바이스, 사용자 단말 또는 클라이언트 디바이스를 포함하여 사용자와 상호 작용하도록 구성된 하드웨어 및/또는 소프트웨어를 사용하여 구현될 수 있다. 예를 들어, 컴퓨팅 장치는 랩톱(laptop) 컴퓨터와 같은 휴대용 컴퓨팅 장치를 포함할 수 있다. 추가적으로 또는 대안적으로, 컴퓨팅 장치는, PDA(Personal Digital Assistants), 태블릿 PC, 게임 콘솔(game console), 웨어러블 디바이스(wearable device), IoT(internet of things) 디바이스, VR(virtual reality) 디바이스, AR(augmented reality) 디바이스 등을 포함할 수 있으나, 이에 한정되지 않는다. 컴퓨팅 장치는 사용자와 상호 작용하도록 구성된 다른 유형의 장치를 더 포함할 수 있다. 또한, 컴퓨팅 장치는 이동 통신 네트워크 등의 네트워크를 통한 무선 통신에 적합한 휴대용 통신 디바이스(예를 들어, 이동 전화, 스마트 전화, 무선 셀룰러 전화 등) 등을 포함할 수 있다. 컴퓨팅 장치는, 무선 주파수(RF; Radio Frequency), 마이크로파 주파수(MWF; Microwave Frequency) 및/또는 적외선 주파수(IRF; Infrared Ray Frequency)와 같은 무선 통신 기술들 및/또는 프로토콜들을 사용하여 네트워크 서버와 무선으로 통신하도록 구성될 수 있다.

본 발명에서 특정 구조적 및 기능적 세부 사항을 포함하는 다양한 실시예들은 예시적인 것이다. 따라서, 본 발명의 실시예들은 상술된 것으로 한정되지 않으며, 여러 가지 다른 형태로 구현될 수 있다. 또한, 본 발명에서 사용된 용어는 일부 실시예를 설명하기 위한 것이며 실시예를 제한하는 것으로 해석되지 않는다. 예를 들어, 단수형 단어 및 상기는 문맥상 달리 명확하게 나타내지 않는 한 복수형도 포함하는 것으로 해석될 수 있다.

본 발명에서, 달리 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함하여 본 명세서에서 사용되는 모든 용어는 이러한 개념이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 또한, 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 맥락에서의 의미와 일치하는 의미를 갖는 것으로 해석되어야 한다.

본 명세서에서는 본 발명이 일부 실시예들과 관련하여 설명되었지만, 본 발명의 발명이 속하는 기술분야의 통상의 기술자가 이해할 수 있는 본 발명의 범위를 벗어나지 않는 범위에서 다양한 변형 및 변경이 이루어질 수 있다. 또한, 그러한 변형 및 변경은 본 명세서에 첨부된 특허청구의 범위 내에 속하는 것으로 생각되어야 한다.

Claims

적어도 하나의 프로세서에 의해 수행되는 약한 라벨 데이터 기반의 WSD(Word Sense Disambiguation)와 연관된 모델 학습 방법으로서,

문장을 구성하는 복수의 토큰이 모두 라벨링된 완전 라벨 데이터(fully labeled data)를 이용하여 단어에 대한 WSD를 수행하는 제1 모델을 생성하는 단계;

상기 생성된 제1 모델에 문장을 구성하는 복수의 토큰 중 일부가 라벨링된 약한 라벨 데이터(weakly labeled data)를 제공하여 의사 라벨 데이터(pseudo labeled data)를 추출하는 단계; 및

상기 약한 라벨 데이터 및 의사 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계;

를 포함하는 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법.
제1항에 있어서,

상기 의사 라벨 데이터는 상기 약한 라벨 데이터에 포함된 라벨링(labeling)되지 않은 토큰에 대한 추정 라벨링 정보를 포함하는, 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법.
제1항에 있어서,

상기 약한 라벨 데이터 및 의사 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는,

마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 사전 훈련된 언어 모델에 대한 파인 튜닝(fine tuning)을 수행하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계;

를 포함하는 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법.
제3항에 있어서,

상기 마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는,

상기 마진 기반의 손실 및 상기 마스크 언어 모델링 손실의 선형 결합을 이용하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계;

를 포함하는 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법.
제4항에 있어서,

상기 마진 기반의 손실 및 상기 마스크 언어 모델링 손실의 선형 결합을 이용하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는,

상기 마진 기반의 손실 및 상기 마스크 언어 모델링 손실의 선형 결합의 총 손실 값이 작아지도록 역전파(back-propagation)를 수행하는 단계;

를 포함하는 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법.
제3항에 있어서,

상기 언어 모델은 DeBERTa(Decoding-enhanced BERT with Disentangled Attention) 모델인, 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법.
제3항에 있어서,

상기 마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는,

상기 의사 라벨 데이터에 대한 페널티를 부여하기 위한 변수를 포함하는 상기 마진 기반의 손실, 및 마스크 언어 모델링 손실을 이용하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계;

를 포함하는 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법.
제7항에 있어서,

상기 의사 라벨 데이터에 대한 페널티를 부여하기 위한 변수를 포함하는 상기 마진 기반의 손실, 및 마스크 언어 모델링 손실을 이용하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는,

상기 마진 기반의 손실에 입력된 제1 데이터 및 제2 데이터 중 적어도 하나가 상기 의사 라벨 데이터인 경우, 상기 변수의 값을 1 이하의 값으로 결정하는 단계;

를 포함하는 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법.
제1항 내지 제8항 중 어느 한 항에 따른 방법을 컴퓨터에서 실행하기 위해 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
컴퓨팅 장치로서,

통신 모듈;

메모리; 및

상기 메모리와 연결되고, 상기 메모리에 포함된 컴퓨터 판독 가능한 적어도 하나의 프로그램을 실행하도록 구성된 적어도 하나의 프로세서

를 포함하고,

상기 적어도 하나의 프로그램은,

문장을 구성하는 복수의 토큰이 모두 라벨링된 완전 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제1 모델을 생성하고,

상기 생성된 제1 모델에 문장을 구성하는 복수의 토큰 중 일부가 라벨링된 약한 라벨 데이터를 제공하여 의사 라벨 데이터를 추출하고,

상기 약한 라벨 데이터 및 의사 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하기 위한 명령어들을 포함하는 컴퓨팅 장치.
제10항에 있어서,

상기 의사 라벨 데이터는 상기 약한 라벨 데이터에 포함된 라벨링되지 않은 토큰에 대한 추정 라벨링 정보를 포함하는, 컴퓨팅 장치.
제10항에 있어서,

상기 적어도 하나의 프로그램은,

마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 사전 훈련된 언어 모델에 대한 파인 튜닝을 수행하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하기 위한 명령어들을 더 포함하는 컴퓨팅 장치.
제12항에 있어서,

상기 적어도 하나의 프로그램은,

상기 마진 기반의 손실 및 상기 마스크 언어 모델링 손실의 선형 결합을 이용하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하기 위한 명령어들을 더 포함하는 컴퓨팅 장치.
제13항에 있어서,

상기 적어도 하나의 프로그램은,

상기 마진 기반의 손실 및 상기 마스크 언어 모델링 손실의 선형 결합의 총 손실 값이 작아지도록 역전파를 수행하기 위한 명령어들을 더 포함하는 컴퓨팅 장치.
제12항에 있어서,

상기 언어 모델은 DeBERTa(Decoding-enhanced BERT with Disentangled Attention) 모델인, 컴퓨팅 장치.
제12항에 있어서,

상기 적어도 하나의 프로그램은,

상기 의사 라벨 데이터에 대한 페널티를 부여하기 위한 변수를 포함하는 상기 마진 기반의 손실, 및 마스크 언어 모델링 손실을 이용하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하기 위한 명령어들을 더 포함하는 컴퓨팅 장치.
제16항에 있어서,

상기 적어도 하나의 프로그램은,

상기 마진 기반의 손실에 입력된 제1 데이터 및 제2 데이터 중 적어도 하나가 상기 의사 라벨 데이터인 경우, 상기 변수의 값을 1 이하의 값으로 결정하기 위한 명령어들을 더 포함하는 컴퓨팅 장치.