KR102436900B1

KR102436900B1 - 양방향 언어 모델을 이용한 문장 평가 방법 및 장치

Info

Publication number: KR102436900B1
Application number: KR1020190165712A
Authority: KR
Inventors: 정교민; 신중보; 윤승현
Original assignee: 서울대학교산학협력단
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2022-08-26
Also published as: KR20210074713A

Abstract

SAN(self-attention network) 기반의 양방향 언어 모델을 이용한 문장 평가 방법은, 대상 문장의 시퀀스를 입력받는 단계, 상기 대상 문장에 포함된 각각의 단어의 문장 내 위치 정보를 이용하여, 각각의 단어와 그 외 다른 단어와의 연관 확률을 각각 산출하여 인코딩하는 단계, 및 상기 인코딩된 각각의 연관 확률을 연산하여 상기 대상 문장의 적합도를 평가하는 단계를 포함한다.

Description

양방향 언어 모델을 이용한 문장 평가 방법 및 장치{APPARATUS AND METHOD FOR EVALUATING SENTENSE BY USING BIDIRECTIONAL LANGUAGE MODEL}

본 발명은 양방향 언어 모델(bidirectional language model)을 이용한 문장 평가 방법 및 장치에 관한 것으로, 더욱 상세하게는 문장 속 각 단어들의 적절성을 확률 값으로 표현하여 문장의 자연스러움을 평가하는 양방향 언어 모델을 이용한 문장 평가 방법 및 장치에 관한 것이다.

언어 모델(language model, LM)은 주어진 문장의 자연스러움을 확률 값으로 표현한 모델이다. 즉, 주어진 문장 내의 각 단어 시퀀스의 확률을 예측하는 모델을 의미한다.

전통적으로 n-gram 언어 모델과 같은 통계 기반의 언어 모델이 주요하게 연구되어 왔다. 최근에는 RNN(Recurrent Neural Network), SAN(self-attention network) 등과 같은 인공 신경망을 이용한 언어 모델 학습 기법이 활발하게 연구되고 있다.

이러한 언어 모델은 기계 번역(machine translation), 음성 인식(speech recognition), 오타 교정(spell correction) 등 다양한 자연어처리 관련 분야에서 주어진 문장이 적절하게 생성되었는지 여부를 측정하는 지표로 널리 활용되고 있다.

현재까지 제안되어 온 단방향 언어 모델(unidirectional language model)은 문장의 앞 단어에서 뒤쪽 단어 방향으로 확률을 계산해 나가는 방식만 가능하여, 문장의 각 단어를 평가할 때 뒤에 나온 단어를 이용하지 못하는 문제가 있다. 이에 따라, 문장 평가 시 앞에 나온 단어에 대한 의존도가 높아 성능이 좋지 않을 수 있다.

또한, 대부분의 응용기술에서는 여전히 RNN 구조에 기반한 단방향 언어 모델을 이용하고 있는데, 이는 한 단어씩 순서대로 계산해야 하기 때문에 병렬로 계산할 수 없는 구조적 문제점이 존재한다.

본 발명은 전술한 필요성을 감안하여 안출된 것으로서, 자신 이외의 다른 단어들을 온전히 참조하면서 모델을 한번만 사용하여 문장의 적절성을 평가할 수 있는 양방향 언어 모델을 이용한 문장 평가 방법 및 장치를 제공함에 그 목적이 있다.

본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상기 목적을 달성하기 위하여, 본 발명의 일 측면에 따르면, SAN(self-attention network) 기반의 양방향 언어 모델을 이용한 문장 평가 방법으로서, 대상 문장의 시퀀스를 입력받는 단계, 상기 대상 문장에 포함된 각각의 단어의 문장 내 위치 정보를 이용하여, 각각의 단어와 그 외 다른 단어와의 연관 확률을 각각 산출하여 인코딩하는 단계, 및 상기 인코딩된 각각의 연관 확률을 연산하여 상기 대상 문장의 적합도를 평가하는 단계를 포함하는 것을 특징으로 하는, 문장 평가 방법이 제공된다.

본 발명의 일 실시 예에 따르면, 상기 연관 확률을 각각 산출하여 인코딩하는 단계는, 상기 대상 문장에 포함된 각각의 단어의 문장 내 위치 정보에 기반하여, 각각의 단어에 대해 해당 단어의 어텐션 가중치(attention weight)가 0이 되도록 구성된 행렬을 이용하여 각각의 단어와 그 외 다른 단어와의 연관 확률을 각각 산출하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따르면, 상기 연관 확률을 각각 산출하여 인코딩하는 단계는, K-V(key-value) 경로와 Q(query) 경로로 분리된 각각의 입력 경로로 상기 입력된 시퀀스에 기반한 임베딩 벡터를 각각 입력 받는 단계, 및 상기 각각 입력된 임베딩 벡터를 이용하여, 복수의 인코딩 레이어에서 대상 문장의 각각의 단어와 그 외 다른 단어와의 연관 확률을 각각 산출하여 인코딩하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따르면, 상기 K-V 경로로 입력되는 임베딩 벡터는, 상기 입력된 시퀀스를 이용한 입력 임베딩 벡터로 상기 복수의 인코딩 레이어 각각에서 동일하고, 상기 Q 경로로 입력되는 임베딩 벡터는, 첫 번째 레이어에 대해서는 상기 각각의 단어의 문장 내 위치 정보만 가지는 베이스 임베딩 벡터이고, 상기 복수의 인코딩 레이어 각각을 통과할수록 상기 입력 임베딩 벡터가 가중합되어 업데이트될 수 있다.

본 발명의 일 실시 예에 따르면, 상기 대상 문장의 적합도를 평가하는 단계는, 상기 복수의 인코딩 레이어에서 각각 인코딩된 연관 확률을 함께 연산하여 산출된 결과를 이용하여 상기 대상 문장의 적합도를 평가하는 단계를 포함할 수 있다.

본 발명의 다른 일 측면에 따르면, SAN 기반의 양방향 언어 모델을 이용한 문장 평가 장치로서, 하나 이상의 프로세서를 포함하고, 상기 하나 이상의 프로세서는, 대상 문장의 시퀀스를 입력받고, 상기 대상 문장에 포함된 각각의 단어의 문장 내 위치 정보를 이용하여, 각각의 단어와 그 외 다른 단어와의 연관 확률을 각각 산출하여 인코딩하고, 상기 인코딩된 각각의 연관 확률을 연산하여 상기 대상 문장의 적합도를 평가하는 것을 특징으로 하는, 문장 평가 장치가 제공된다.

본 발명의 일 실시 예에 따르면, 상기 하나 이상의 프로세서는, 상기 대상 문장에 포함된 각각의 단어의 문장 내 위치 정보에 기반하여, 각각의 단어에 대해 해당 단어의 어텐션 가중치가 0이 되도록 구성된 행렬을 이용하여 각각의 단어와 그 외 다른 단어와의 연관 확률을 각각 산출할 수 있다.

본 발명의 일 실시 예에 따르면, 상기 하나 이상의 프로세서는, K-V 경로와 Q 경로로 분리된 각각의 입력 경로로 상기 입력된 시퀀스에 기반한 임베딩 벡터를 각각 입력 받고, 상기 각각 입력된 임베딩 벡터를 이용하여, 복수의 인코딩 레이어에서 대상 문장의 각각의 단어와 그 외 다른 단어와의 연관 확률을 각각 산출하여 인코딩하는 포함할 수 있다.

본 발명의 일 실시 예에 따르면, 상기 하나 이상의 프로세서는, 상기 복수의 인코딩 레이어에서 각각 인코딩된 연관 확률을 함께 연산하여 산출된 결과를 이용하여 상기 대상 문장의 적합도를 평가할 수 있다.

본 발명의 다른 일 측면에 따르면, 비일시적인 컴퓨터 판독 가능한 저장매체로서, 상기 컴퓨터로 하여금 상술한 문장 평가 방법을 수행하도록 하는 컴퓨터 명령을 저장하는 저장 매체가 제공된다.

본 발명의 다양한 실시 예들에 따른 양방향 언어 모델을 이용한 문장 평가 방법 및 장치는, 각 단어의 양방향의 전체 문맥을 반영한 밀집 표현(dense representation, dense vector) 또는 워드 임베딩(word embedding)을 얻을 수 있고, 이것을 다양한 자연어 어플리케이션에 활용 가능하다. 본 발명에서 제안하는 양방향 언어 모델을 이용하여 주어진 문장의 자연스러움을 평가할 수 있다. 이를 통해, 문장을 생성하는 모델(예를 들어, 기계 자동 번역, 대화 모델 등)의 결과물의 자연스러움을 측정하여, 그 중 가장 좋은 결과물을 선택 및 사용할 수 있도록 한다. 뿐만 아니라, 제품 리뷰의 감성 분류 등과 같이 학습 데이터가 적은 상황에도 사전 학습된 본 발명의 모델을 활용하여 미세 조정(fine-tuning)하면 분류 정확도를 향상시킬 수 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1a 및 1b는 종래의 두 가지 양방향 언어 모델의 예의 개념도를 각각 도시한다.
도 2는 본 발명의 일 실시 예에 따른 SAN(self-attention network)의 단일 시퀀스 표현의 연산을 도식화한 개념도를 도시한다.
도 3은 본 발명의 일 실시 예에 따른 한 층의 SAN 모듈의 구성도를 도시한다.
도 4는 본 발명의 일 실시 예에 따른 SAN에서 Diagonal Mask가 적용된 셀프-마스킹된 어텐션(self-masked attention)의 구조도를 도시한다.
도 5는 본 발명의 일 실시 예에 따른 깊은 양방향 언어 모델(deep bidirectional language model, DBLM)의 아키텍쳐(architecture) 구조를 도시한다.
도 6은 본 발명의 일 실시 예에 따른 깊은 SAN 구조에 기반한 양방향 언어 모델을 이용한 문장 평가 방법의 흐름도를 도시한다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이며, 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다.

이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.

그리고 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명되는 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하며, 또한 그 블록들 또는 단계들이 필요에 따라 해당하는 기능의 역순으로 수행되는 것도 가능하다.

이하, 첨부 도면을 참조하여 본 발명의 실시 예를 상세하게 설명한다. 그러나 다음에 예시하는 본 발명의 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시 예에 한정되는 것은 아니다. 본 발명의 실시 예는 당업계에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공된다.

언어 모델은 주어진 문장의 자연스러움을 확률 값으로 표현하는 것으로, 주어진 문장 내의 각 단어 시퀀스의 확률을 예측하는 모델을 의미한다. 종래에는 통계 기반의 언어 모델이 주요하게 연구되어 왔고, 최근에는 인공 신경망을 이용한 언어 모델 학습 기법이 활발하게 연구되고 있다.

최근 좋은 성능을 보이고 있는 딥러닝(deep learning) 기반의 언어 모델은 크게 단방향 언어 모델과 양방향 언어 모델의 두 가지로 구분할 수 있다.

단방향 언어 모델은 주어진 문장 안에서 먼저 나온 단어들을 기반하여 그 다음에 나올 확률이 높은 단어를 예측하는 언어 모델이다. 단방향 언어 모델을 이용해 주어진 문장의 자연스러움에 대해 평가할 수 있지만, 문장을 고려할 때 단방향(앞 단어에서 다음 단어 방향) 정보만을 이용하므로, 앞에 나온 단어에 대한 의존도가 매우 높다. 이에 따라, 후술하는 양방향 언어 모델에 비해 성능이 낮다.

양방향 언어 모델은 문장 내 특정 단어의 자연스러움을 평가할 때, 그 단어의 앞 단어뿐만 아니라 뒤에 나온 단어를 포함한 모든 주변 단어를 고려하는 언어 모델이다. 전체 문맥(단어의 앞 및 뒤)을 고려하여 문장의 자연스러움을 평가할 수 있다. 즉, 문장의 자연스러움을 평가함에 있어서 단방향 언어 모델보다 더 많은 정보를 사용할 수 있다.

구체적으로, 단방향 언어 모델은 앞에 나온 단어들을 기반하여 다음 단어를 예측하는 언어 모델로서, 문장 생성에 적용이 가능한 모델(Generative Model)이며, 다양한 응용 분야가 존재한다. 일반적으로, 단방향 언어 모델에서는 RNN, LSTM(long short-term memory)와 같은 구조를 기반하여 언어 시퀀스를 학습한다. 단방향 언어 모델은 문장의 앞 단어에서 뒤쪽 단어 방향으로 확률을 계산해 나가는 방식만 가능하여, 문장의 각 단어를 평가할 때 뒤에 나온 단어를 이용하지 못한다. 따라서, 문장 평가 시 앞에 나온 단어에 대한 의존도가 높아 성능이 좋지 않을 수 있다. 대부분의 응용 기술에서는 여전히 RNN 구조에 기반한 단방향 언어 모델을 이용하고 있는데, 이것은 한 단어씩 순서대로 계산해야 하기 때문에 병렬로 계산할 수 없는 구조적 문제점이 존재한다.

양방향 언어 모델은 앞과·뒤에 나온 주변 단어를 기반하여 각각의 단어를 예측하는 언어 모델로서, 직관적으로 뒤에 따라오는 단어에 따라 먼저 나온 단어의 의미가 달라지는 것을 반영한다. 이론적으로, 단방향 언어 모델보다 더 많은 정보를 이용하는 더 효과적인 언어 모델이며, 크게 다음의 두 가지의 양방향 언어 모델이 존재한다.

첫 번째는, 다음 단어를 예측하는 언어 모델과 반대로 이전 단어를 예측하는 언어 모델을 함께 사용하는 방법이다. 양 방향을 독립적으로 사용하는 언어 모델에서 대표적인 방법은 ELMo(embeddings from language models)가 있으며, 도 1a에 도시된 바와 같이 개념도가 표현될 수 있다. 각 단어를 예측할 때, 양 방향의 representation을 결합하여 확률을 구하려는 시도가 몇 차례 있었다.

두 번째는, 단어의 일부를 가리고 가려진 위치의 원래 단어가 무엇인지 예측하는 언어 모델이다. 이것은, 도 1b에 도시된 바와 같은 Google 사에서 개발 및 공개한 BERT(Bidirectional Encoder Representations from Transformers)가 유일한 방법론이며, BERT는 각 단어를 예측할 때 자신 이외에 다른 단어를 완전히 참조하여 확률을 구할 수 있다.

상술한 종래의 양방향 언어 모델은 문장 평가(혹은 문장의 확률 계산) 측면에서 부족한 점이 있었다. 예를 들어, ELMo 계열의 양방향 언어 모델들의 경우에는 양방향이 독립적으로 계산한 후 최종 결과를 합쳐서 사용하는 형태이므로, 결합 확률 (joint probability)을 계산하는 방식에 비해 성능이 낮다는 문제가 있다.

BERT는 입력 문장의 일부 단어를 가리고, 가려진 위치의 원래 단어를 추측하는 방법을 통해 양방향 언어 모델뿐만 아니라 ELMo계열의 양방향 언어 모델들의 단점을 개선한 모델로, 현재 가장 좋은 성능을 보이고 있는 기술이다. BERT는 모델의 특성에 따라 문장에서 한 단어씩 가리고 그 단어의 확률을 계산한 후 이를 전부 합산한 확률을 이용하여 문장의 자연스러움을 측정할 수 있다. 그러나, BERT는 문장을 평가할 때 시간이 오래 걸리는 단점이 있다. 또한, 문장의 자연스러움을 측정할 때 문장에 포함된 단어 수만큼 모델을 반복해서 사용해야 하는 비효율이 발생하는 문제가 있다.

따라서, 본 발명에서는 BERT와 같이 자신 이외의 다른 단어를 온전히 참조하면서, 단방향 언어 모델처럼 모델을 한 번만 사용하여 문장의 적절성을 평가할 수 있는 깊은 양방향 언어 모델(Deep Bidirectional Language Model, DBLM)을 학습하기 위한 알고리즘을 제시한다.

상술한 바와 같이, 본 발명에서는 모델을 한번만 사용하여 문장의 적절성을 판단할 수 있는 깊은 양방향 언어 모델(DBLM) 알고리즘을 제안하고자 한다. 이를 위해, 깊은 양방향 언어 모델(DBLM)은 문장의 적절성을 한번에 판단할 수 있게 하는 새로운 학습목표(training objective) 위치 단어 예측(positional word prediction, PWP)을 제한하고, 이 학습목표 위치 단어 예측(PWP)을 적절하게 학습하기 위한 깊은 양방향 언어 모델(DBLM) 구조를 함께 제안한다.

최근에는, RNN 대신에 CNN(convolutional veural network)이나 SAN 등 다양한 인공 신경망 기반의 언어 모델들이 개발되어왔다. 특히, SAN에 기반한 언어 모델이 GPU 연산에서 병렬화가 가능하여 RNN에 기반한 언어 모델보다 빠른 연산이 가능한 장점이 있다. 본 발명에서 제안하는 깊은 양방향 언어 모델(DBLM) 또한 이러한 SAN 구조에 기반한 언어 모델이다.

셀프-어텐션(self-attention)은 모든 위치를 스스로 연관시킴으로써 단일 시퀀스의 표현을 계산하는 연산을 말한다. 셀프-어텐션의 주요 연산은 다음의 <수학식 1>과 같다.

여기서,

는 각각 query, key, value matrices인데, 이것은 모두 입력 시퀀스(단어 수 n개 이고 입력 차원 d인 입력 시퀀스

)로부터 만들어진다. SAN의 단일 시퀀스 표현의 연산인 상기 수학식을 도식화한 개념도가 도 2와 같이 도시된다.

일반적으로 모델의 수용능력(capacity)을 늘리기 위해 다음의 <수학식 2>와 같이 멀티-헤드 셀프-어텐션(multi-head self-attention)을 사용한다.

여기서,

와

는 모두 학습 파라미터 행렬(head의 수 h개이고,

인 파라미터 행렬)이다. 이러한 멀티-헤드 셀프-어텐션과 포지션-와이즈 피드-포워드 네트워크(position-wise feed-forward network), 레지듀얼 커넥션(residual connection), 레이어 정규화(layer normalization)을 함께 사용하여, 한 층의 SAN 모듈이 도 3에 도시된 바와 같이 구성된다.

SAN을 언어 모델로 사용하기 위해서는 도 2의 마스크 기능을 통해 나중에 나오는 단어를 참조할 수 없게 만들어야 한다. 또한, 학습된 모델이 Bag-of-word에 그치지 않기 위해서는, 단어의 순서 정보(position information)를 추가로 입력해 주어야 한다. 마지막 SAN층의 출력은 다음 단어를 예측하도록 학습하면 uniSANLM(unidirectional self-attention network language model)을 구성할 수 있다. 이렇게 만들어진 uniSANLM은 uniRNNLM보다 빠르게 문장의 적절성을 평가할 수 있다. 주목할 만큼은 아니지만, uniSANLM 과 uniRNNLM 은 성능과 속도간의 약간의 트레이드-오프가 있다.

BERT 또한 종래의 언어 모델들의 문제점을 해결한 깊은 양방향 언어 모델(DBLM)의 하나이다. 그러나, BERT 모델 특성에 의해 문장 평가를 위해서는 각 단어를 하나씩 마스킹하고 모델을 사용해 마스킹된 것의 원래 단어의 확률을 구하는 과정이 필요하며, 단어의 수 n 만큼 모델을 반복해서 사용해야 한다. 따라서 문장의 자연스러움을 평가하기에는 속도가 느린 단점이 있다.

본 발명에서는 문장 내 모든 위치에서 자신의 단어만을 제외한 나머지 단어들을 참조해서 각 위치의 단어를 예측하는 학습 목표를 제시하고 이를 위치 단어 예측(PWP)이라 명명한다. 주변의 단어들만으로 각 위치의 단어를 평가하는 것은 직관적이며, 깊은 양방향 언어 모델(DBLM)이 문장의 확률을 구하기 위한 최적의 학습 목표라 할 수 있다. 학습 시, 입력 시퀀스와 목표 시퀀스(target sequence)가 동일하여 간단 명료하다. 그러나, 직/간접적으로 자신의 단어를 단순히 복사하는 과적합(overfitting)을 피하기 위해서는 정교한 모델 구성이 필요하여, 본 발명에서는 후술하는 바와 같은 SAN을 활용한 깊은 양방향 언어 모델(DBLM)을 제안하여 기존 언어 모델들의 문제점을 해결하고자 한다.

본 발명에서 제안하는 위치 단어 예측(PWP) 태스크를 통해 학습이 가능한 깊은 양방향 언어 모델(DBLM)의 구조는 SAN의 구조에 기반하며, 1) 셀프-어텐션 메커니즘에서 diagonal mask 및 2)각 인코딩 레이어에 대한 입력 분리(input separation)를 특징으로 갖는다. 이하, 이와 같은 깊은 양방향 언어 모델(DBLM)의 특징이 도 4 및 5를 참조하여 설명된다.

Diagonal Mask

도 4는 본 발명의 일 실시 예에 따른 SAN에서 Diagonal Mask가 적용된 셀프-마스킹된 어텐션의 구조도를 도시한다.

Diagonal mask는 깊은 양방향 언어 모델(DBLM)이 예측하는 동안 자신의 단어를 참조하지 못하도록 어텐션 가중치(attention weights)를 계산할 때 V(value)에서 자신의 representation에는 어텐션 가중치가 0이 되도록 하는 것이며, 이를 셀프-마스킹된 어텐션이라 명명한다. 구체적으로, 셀프-어텐션 메커니즘(scaled dot-product attention) 내 Q(query)와 K(key)를 통해 만들어지는 행렬의 diagonal term에 마스킹을 부여한다. 도 4에 도시된 바와 같이, 이를 통과한 output representation은 각 위치의 출력 벡터는 해당 단어만을 제외한 다른 단어의 가중합(weighted sum)이 된다.

Input Separation

도 5는 본 발명의 일 실시 예에 따른 깊은 양방향 언어 모델(DBLM)의 아키텍쳐 구조를 도시한다.

앞서 제시한 diagonal mask와 함께, 깊은 양방향 언어 모델(DBLM) 내부적으로 자기 단어의 참조를 완전히 막기 위해 input representation 기술을 제시한다.

SAN 구조는 셀프-어텐션 메커니즘뿐만 아니라 레지듀얼 커넥션도 있는데, diagonal mask를 사용하더라도 셀프-마스킹된 어텐션의 input representation과 output representation을 그대로 더하면 자신의 단어를 그대로 가져가게 되어 마스킹하는 의미가 사라지게 된다. 뿐만 아니라, 레지듀얼 커넥션을 없앤다 하더라도, 멀티-레이어(multi-layer)로 구성된 인코더(encoder)를 사용할 경우 간접적으로 자신의 단어를 참조할 수 있게 되어 위치 단어 예측(PWP) 문제를 너무 쉽게 풀어버리는 현상을 발견할 수 있다. 이것은 언어를 이해하는 것이 아닌 단순히 단어를 그대로 복사해 내는 것에 그치게 되며, 학습을 무의미하게 한다. 가장 간단하게는 레지듀얼 커넥션을 없애고 단일 레이어 구조를 사용하면 되겠으나, 깊은 양방향 언어 모델을 학습하기 위해서는 반드시 필요한 구조이기 때문에 diagonal masking 기능과 함께 쓰이기 위한 조치가 필요하다.

이를 위해, 본 발명에서는 모델 내부적으로 K-V(key-value)와 Q(query) 두 갈래로 입력 경로를 분리하여 사용하는 input separation을 제시한다. 도 5에 도시된 바와 같이, K-V 경로로는 입력 임베딩(input embedding)이, Q경로로는 베이스 임베딩(base embedding)이 입력이 된다.

Q 경로는 레지듀얼 커넥션으로도 전달되기 때문에 자기 단어의 input representation을 가질 수 없어야 한다. 따라서, 베이스 임베딩은 첫 번째 레이어에서는 위치 정보만 가지도록 설계한다. Q는 레이어를 지남에 따라 입력 임베딩을 가중합하여 output representation을 업데이트한다. 여기서 주의해야 할 점은 입력 임베딩은 모든 레이어에 고정된 값이어야 한다는 것이다. 그렇지 않으면 간접적으로 자기 단어 참조를 할 수 있게 된다. 예를 들어, 첫 번째 레이어의 출력에서 단어 i-1 에 단어 i 의 값이 섞이게 되면, 두 번째 층에서는 i 위치의 단어를 예측할 때 단어 i 의 의미를 내포하고 있는 단어 i-1을 참조하기 때문이다.

따라서, 본 발명에서 제안하는 위치 단어 예측(PWP)으로 학습 가능한 깊은 양방향 언어 모델(DBLM)은, diagonal mask와 input separation을 함께 사용해야 하며, 이 때 입력 임베딩은 모든 층에 동일하게 입력되어야 한다. 도 5에 도시된 바와 같이, 마지막 인코더의 출력은 모두 softmax 레이어를 통해 각 단어에 대한 확률을 계산하여 위치 단어 예측(PWP) 태스크를 적절히 학습에 이용할 수 있다.

상술한 바와 같이, 본 발명에서 제안한 SAN 구조 기반의 깊은 양방향 언어 모델(DBLM) 알고리즘의 성능 평가를 위해, 학습된 언어 모델을 n-베스트 리스트 리랭킹(n-best list reranking) 태스크에 적용하였다. n-베스트 리스트 리랭킹 태스크란, 모델이 생성한 n개의 후부 문장 중 가장 좋은 문장을 선택하여 이를 모델이 생성한 최종 문장으로 선택하는 태스크이다. 이것은 확률 값을 언어 모델의 평가를 통해 보정하여 더 나은 가설(hypothesis)을 최종 선택하도록 돕는 태스크이다.

본 발명에서 제안한 알고리즘 성능 평가에 사용된 구체적인 태스크는 다음과 같다.

먼저, 음성인식에서 단어 오인식률(Word Error Rate, WER)을 측정하였다. 또한, 기계 자동 번역에서 BLEU(BiLingual Evaluation Understudy) 스코어(score)를 측정하였다. 음성인식 데이터는 LibriSpeech, 기계번역 데이터는 WMT를 사용하였고, 두 데이터 모두 연구용으로 공개된 데이터이다.

음성인식을 위한 언어 모델의 학습에는 Librispeech 에서 제공하는 LM corpus를 사용하였다. 또한, 기계번역을 위한 언어 모델의 학습에는 Wikipedia에서 텍스트만을 추출해 사용하였다. 리랭킹 실험 실시를 위해 종래의 음성인식, 기계번역 시스템을 이용해 사전에 50-best list를 출력해 두었다. 각 태스크의 baseline system의 성능은 50-best list 중 가장 상위 (1-best) 가설로 측정하였다.

본 발명에서 제안하는 깊은 양방향 언어 모델(DBLM)을 적용해 각 가설의 확률을 계산하고, 이를 이용해 문장의 50개의 가설의 등급(rank)을 다시 구한다.

리랭킹은 baseline system의 스코어와 깊은 양방향 언어 모델(DBLM)의 스코어를 선형 보간(linear interpolation)하고, dev 셋에서 가장 좋은 결과를 출력하는 비율을 test에 그대로 적용하였다. 예를 들어, 기계번역에서는 WMT13 데이터를 dev 셋으로, WMT14 데이터를 test 셋으로 간주한다.

비교를 위해, 유사한 구조의 단방향 언어 모델(UniLM)도 학습하여 깊은 양방향 언어 모델(DBLM)과 동일한 리랭킹 태스크를 실시하였다.

아래의 <표 1> 및 <표 2>는 두 데이터에서 실시한 실험 결과로, 본 발명에서 제안하는 깊은 양방향 언어 모델(DBLM)의 우수성을 잘 보여주고 있다.

알고리즘에서 사용하는 전체 어휘(Vocabulary, V) 의 개수를 변경한 다양한 실험에서도, 본 발명에서 제안하는 깊은 양방향 언어 모델(DBLM)을 이용한 경우가, 단방향 언어 모델(UniLM)보다 일관되게 뛰어난 성능을 보이고 있는 것을 확인할 수 있다. 즉, <표 1>은 LibriSpeech에서 각 방법의 결과를 비교한 것으로 결과 값이 작을수록 성능이 우수함을 나타내며, <표 2>는 WMT에서 각 방법에 따른 BLEU 스코어 결과를 비교한 것으로 결과 값이 클수록 성능이 우수함을 나타낸다. 이에 따라, <표 1> 및 <표 2>에서 본 발명에서 제안하는 깊은 양방향 언어 모델(DBLM)이 우수한 성능을 보이는 것을 확인할 수 있다.

도 6은 본 발명의 일 실시 예에 따른 깊은 SAN 구조에 기반한 양방향 언어 모델을 이용한 문장 평가 방법의 흐름도를 도시한다. 예를 들어, 생성한 문장이 자연스러운지 판단할 필요가 있는 인공지능 대화서비스 장치, 또는 번역 문장이 자연스러운지 판단할 필요가 있는 자동 기계 번역 장치, 각종 자동 생성된 문장 평가 장치 등 다양한 자연어 어플리케이션에서 하나 이상의 프로세서에 의해 깊은 양방향 언어 모델(DBLM)을 이용한 문장 평가 방법의 동작들이 수행될 수 있다. 후술하는 문장 평가 방법의 동작들은 프로그램을 기록한 컴퓨터 판독 가능한 저장 매체에 저장되어, 명령들이 적어도 하나의 프로세서에 의하여 실행될 때에 문장 평가 방법의 동작들 중 적어도 하나의 단계를 수행하도록 설정될 수 있다.

도 6을 참조하면, 깊은 양방향 언어 모델(DBLM)을 이용한 문장 평가 방법은 대상 문장의 시퀀스 입력 단계(S610), 각 단어의 문장 내 위치 정보를 이용하여 각 단어와 그 외 단어의 연관 확률 산출 단계(S620) 및 각 연관 확률을 연산하여 대상 문장의 적합도 평가 단계(S630)를 포함한다.

먼저, 대상 문장의 시퀀스를 입력 받는다(S610). 예를 들어, 대상 문장은 인공지능 대화서비스에 의해 생성된 문장, 자동 번역 문장 등 생성된 문장의 자연스러움을 평가 받아야 하는 문장을 대상으로 입력 받을 수 있다.

다음으로, 각 단어의 문장 내 위치 정보를 이용하여 각 단어와 그 외 단어의 연관 확률을 산출하여 인코딩한다(S620). 도 5에 도시된 바와 같이, 대상 문장에 포함된 각각의 단어의 문장 내 위치 정보를 이용하여, 각각의 단어와 그 외 다른 단어와의 연관 확률을 각각 산출하여 인코딩한다. 이 때, 대상 문장에 포함된 각각의 단어의 문장 내 위치 정보에 기반하여, 각각의 단어에 대해 해당 단어의 어텐션 가중치(attention weight)가 0이 되도록 구성된 행렬을 이용하여 각각의 단어와 그 외 다른 단어와의 연관 확률을 각각 산출한다. 또한, K-V와 Q 두 갈래로 입력 경로를 분리한다. 각각의 단어의 대상 문장 내 위치 정보를 이용하여, 복수의 인코딩 레이어에서 대상 문장의 각각의 단어와 그 외 다른 단어와의 연관 확률을 각각 산출한다. K-V 경로는 입력 임베딩 벡터가, Q 경로로는 베이스 임베딩 벡터가 입력될 수 있다. 베이스 임베딩 벡터는 첫 번째 레이어에서 위치 정보만 가지나, 레이어를 지남에 따라 입력 임베딩 벡터를 가중합하여 업데이트된다. 입력 임베딩 벡터는 모든 레이어에 고정된 값이다.

마지막으로, 각 연관 확률을 연산하여 대상 문장의 적합도를 평가한다(S630). 도 5에 도시된 바와 같이, 복수의 인코딩 레이어에서 각각 산출된 연관 확률을 함께 linear 연산하여 softmax 레이어를 통해 산출된 결과를 이용하여 상기 대상 문장의 적합도를 평가할 수 있다.

상술한 구체적인 실시예들에서, 발명에 포함되는 구성 요소는 제시된 구체적인 실시예에 따라 단수 또는 복수로 표현되었다. 그러나, 단수 또는 복수의 표현은 설명의 편의를 위해 제시한 상황에 적합하게 선택된 것으로서, 상술한 실시 예들이 단수 또는 복수의 구성 요소에 제한되는 것은 아니며, 복수로 표현된 구성 요소라 하더라도 단수로 구성되거나, 단수로 표현된 구성 요소라 하더라도 복수로 구성될 수 있다.

한편 발명의 설명에서는 구체적인 실시예에 관해 설명하였으나, 다양한 실시예들이 내포하는 기술적 사상의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며 후술하는 청구범위뿐만 아니라 이 청구범위와 균등한 것들에 의해 정해져야 한다.

Claims

SAN(self-attention network) 기반의 양방향 언어 모델을 이용한 문장 평가 방법으로서,
대상 문장의 시퀀스를 입력받는 단계;
상기 대상 문장에 포함된 각각의 단어의 문장 내 위치 정보를 이용하여, 각각의 단어와 그 외 다른 단어와의 연관 확률을 각각 산출하여 인코딩하는 단계; 및
상기 인코딩된 각각의 연관 확률을 연산하여 상기 대상 문장의 적합도를 평가하는 단계;를 포함하고,
상기 연관 확률을 각각 산출하여 인코딩하는 단계는,
상기 대상 문장에 포함된 각각의 단어의 문장 내 위치 정보에 기반하여, 각각의 단어에 대해 해당 단어의 어텐션 가중치(attention weight)가 0이 되도록 구성된 행렬을 이용하여 각각의 단어와 그 외 다른 단어와의 연관 확률을 각각 산출하는 단계를 포함하는, 문장 평가 방법.
삭제
제1항에 있어서,
상기 연관 확률을 각각 산출하여 인코딩하는 단계는,
K-V(key-value) 경로와 Q(query) 경로로 분리된 각각의 입력 경로로 상기 입력된 시퀀스에 기반한 임베딩 벡터를 각각 입력 받는 단계; 및
상기 각각 입력된 임베딩 벡터를 이용하여, 복수의 인코딩 레이어에서 대상 문장의 각각의 단어와 그 외 다른 단어와의 연관 확률을 각각 산출하여 인코딩하는 단계를 포함하는 것을 특징으로 하는, 문장 평가 방법.
제3항에 있어서,
상기 K-V 경로로 입력되는 임베딩 벡터는, 상기 입력된 시퀀스를 이용한 입력 임베딩 벡터로 상기 복수의 인코딩 레이어 각각에서 동일하고,
상기 Q 경로로 입력되는 임베딩 벡터는, 첫 번째 레이어에 대해서는 상기 각각의 단어의 문장 내 위치 정보만 가지는 베이스 임베딩 벡터이고, 상기 복수의 인코딩 레이어 각각을 통과할수록 상기 입력 임베딩 벡터가 가중합되어 업데이트되는 것을 특징으로 하는, 문장 평가 방법.
제3항에 있어서,
상기 대상 문장의 적합도를 평가하는 단계는,
상기 복수의 인코딩 레이어에서 각각 인코딩된 연관 확률을 함께 연산하여 산출된 결과를 이용하여 상기 대상 문장의 적합도를 평가하는 단계를 포함하는 것을 특징으로 하는, 문장 평가 방법.
SAN(self-attention network) 기반의 양방향 언어 모델을 이용한 문장 평가 장치로서,
하나 이상의 프로세서를 포함하고,
상기 하나 이상의 프로세서는, 대상 문장의 시퀀스를 입력받고, 상기 대상 문장에 포함된 각각의 단어의 문장 내 위치 정보를 이용하여, 각각의 단어와 그 외 다른 단어와의 연관 확률을 각각 산출하여 인코딩하고, 상기 인코딩된 각각의 연관 확률을 연산하여 상기 대상 문장의 적합도를 평가하고,
상기 하나 이상의 프로세서는, 상기 대상 문장에 포함된 각각의 단어의 문장 내 위치 정보에 기반하여, 각각의 단어에 대해 해당 단어의 어텐션 가중치(attention weight)가 0이 되도록 구성된 행렬을 이용하여 각각의 단어와 그 외 다른 단어와의 연관 확률을 각각 산출하는 것을 특징으로 하는, 문장 평가 장치.
삭제
제6항에 있어서,
상기 하나 이상의 프로세서는, K-V(key-value) 경로와 Q(query) 경로로 분리된 각각의 입력 경로로 상기 입력된 시퀀스에 기반한 임베딩 벡터를 각각 입력 받고, 상기 각각 입력된 임베딩 벡터를 이용하여, 복수의 인코딩 레이어에서 대상 문장의 각각의 단어와 그 외 다른 단어와의 연관 확률을 각각 산출하여 인코딩하는 포함하는 것을 특징으로 하는, 문장 평가 장치.
제8항에 있어서,
상기 K-V 경로로 입력되는 임베딩 벡터는, 상기 입력된 시퀀스를 이용한 입력 임베딩 벡터로 상기 복수의 인코딩 레이어 각각에서 동일하고,
상기 Q 경로로 입력되는 임베딩 벡터는, 첫 번째 레이어에 대해서는 상기 각각의 단어의 문장 내 위치 정보만 가지는 베이스 임베딩 벡터이고, 상기 복수의 인코딩 레이어 각각을 통과할수록 상기 입력 임베딩 벡터가 가중합되어 업데이트되는 것을 특징으로 하는, 문장 평가 장치.
제8항에 있어서,
상기 하나 이상의 프로세서는, 상기 복수의 인코딩 레이어에서 각각 인코딩된 연관 확률을 함께 연산하여 산출된 결과를 이용하여 상기 대상 문장의 적합도를 평가하는 것을 특징으로 하는, 문장 평가 장치.
비일시적인 컴퓨터 판독 가능한 저장매체로서,
상기 컴퓨터로 하여금 제1항 및 제3항 내지 제5항 중 어느 한 항에 따른 방법을 수행하도록 하는 컴퓨터 명령을 저장하는 저장 매체.