KR102592585B1

KR102592585B1 - 번역 모델 구축 방법 및 장치

Info

Publication number: KR102592585B1
Application number: KR1020190013591A
Authority: KR
Inventors: 이요한; 김영길
Original assignee: 한국전자통신연구원
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2023-10-23
Also published as: US11544479B2; US20200250384A1; KR20200095789A

Abstract

사전구축된 참조 모델에 기반하여 단말에 탑재가능한 소형 번역 모델을 구축하는 방법 및 장치를 제공한다. 구체적으로, 사전구축된 참조 모델을, 파라미터 모사 학습을 통해 소형화하고, 트리 탐색 구조 모사 학습을 통해 번역 성능 저하 없이 효율적으로 압축하는 번역 모델 구축 방법 및 장치를 제공한다. 소형 번역 모델은 연산성능이 제한적인 단말 환경에서 번역 정확도 및 속도를 제공한다.

Description

번역 모델 구축 방법 및 장치{METHOD AND APPARATUS FOR BUILDING A TRANSLATION MODEL}

본 발명은 번역 모델 구축 방법 및 장치에 관한 것으로, 보다 상세하게는 사전구축된 참조 모델에 기반하여 단말에 탑재가능한 소형 번역 모델을 구축하는 방법 및 장치에 관한 것이다.

최근 신경망 번역 모델이 기존의 규칙 기반 번역 모델, 통계 기반 번역 모델에 비해 높은 번역 성능을 보이면서 신경망 번역 모델을 기반으로 한 통번역 서비스가 활발하게 제공되고 있다. 그러나 신경망 번역 모델이 기존 번역 모델의 성능을 뛰어넘기 위해선 수 천 만개 이상의 파라미터와 이에 상응하는 대규모 행렬 연산이 필요하다. 이로 인하여 신경망 번역 모델은 높은 메모리 용량과 높은 수준의 연산 성능을 요구하며 임베디드 시스템 등의 단말 환경에서 신경망 기반 번역 서비스를 제공하기에 적합하지 않다.

또한, 기존의 대부분의 신경망 기반 서비스는 신경망 모델의 크기가 매우 크고 높은 연산 성능을 필요로 하기 때문에 클라이언트-서버 방식으로 서비스되고 있으며, 이를 이용하기 위해선 네트워크 연결이 강제된다. 하지만, 통번역 서비스는 외국 등 주로 네트워크 연결이 불안정한 환경에서 활용되기 때문에, 네트워크 연결이 없어도 사용 가능한 통번역 서비스가 요구된다.

한편, 단말 환경은 네트워크, 메모리 및 연산 성능이 데스크탑에 비하여 제한적이다. 이와 같은 단말 환경에서 GPU 기반 신경망 모델에 대응하는 번역 정확도 및 속도를 제공하는 소형 번역 모델이 필요하다.

전술한 문제를 해결하기 위하여, 본 발명은 단말에 적용가능한 소형 번역 모델을 구축하는 방법 및 장치를 제공한다.

본 발명은 네트워크, 메모리 및 연산 성능이 제한된 단말 환경에서 번역 정확도 및 속도를 제공하는 번역 모델을 구축하는 방법 및 장치를 제공한다.

본 발명에 따른 번역 모델 구축 방법은, 적어도 하나의 은닉 계층을 포함하는 번역 모델을 구축하는 방법으로서, 사전 구축된 참조 모델의 단어 확률 분포에 대한 파라미터 분포를 모사 학습하는 단계 및 참조 모델의 트리 탐색 구조를 모사 학습하는 단계를 포함한다.

파라미터 분포를 모사 학습하는 단계는, 번역 모델의 적어도 하나의 은닉 계층의 단어 확률 분포에 대하여 정의된 손실 함수를 이용하여 참조 모델의 단어 확률 분포를 결정하는 참조 모델 파라미터를 모사 학습한다.

손실 함수는, 번역 모델의 단어 확률 분포 및 정답 분포(ground truth)의 교차 엔트로피에 대응하는 제 1 손실 함수를 포함한다.

손실 함수는, 번역 모델의 단어 확률 분포 및 참조 모델의 단어 확률 분포의 교차 엔트로피에 대응하는 제 2 손실 함수를 포함한다.

파라미터 분포를 모사 학습하는 단계는, 손실 함수가 최소가 되도록 상기 적어도 하나의 은닉 계층의 단어 확률 분포를 결정하는 모델 파라미터를 조정한다.

은닉 계층은 일련의 은닉 상태 벡터를 포함하고, 트리 탐색 구조를 모사 학습하는 단계는, 일련의 은닉 상태 벡터 및 학습가능한 행렬에 대하여 정의된 제 3 손실 함수를 이용하여 번역 모델의 마지막 은닉 계층이 참조 모델의 마지막 은닉 계층을 모사 학습하도록 한다.

제 3 손실 함수는, 은닉 상태 벡터와 참조 모델의 마지막 은닉 계층의 은닉 상태 벡터 간의 거리의 함수이다.

트리 탐색 구조를 모사 학습하는 단계는, 제 3 손실 함수가 최소가 되도록 은닉 상태 벡터 및 학습가능한 행렬을 조정한다.

학습가능한 행렬의 크기는 은닉 상태 벡터와 참조 모델의 마지막 은닉 계층의 은닉 상태 벡터의 차원에 따라 결정된다.

번역 모델은 입력 계층 및 출력 계층을 더 포함하고, 번역 모델 구축 방법은 입력 계층, 적어도 하나의 은닉 계층 및 출력 계층의 각 파라미터를 중요도에 따라 전지하는 단계, 및 계층 별로 각 파라미터를 양자화하는 단계를 더 포함한다.

번역 모델 구축 방법은 전지 및 양자화된 파라미터에 기반하여 번역 모델의 재학습을 수행하는 단계를 더 포함한다.

각 은닉 계층은 일련의 은닉 상태 벡터로 표현되고, 번역 모델은 참조 모델 보다 적은 개수의 은닉 계층을 포함하고, 번역 모델의 은닉 상태 벡터는 참조 모델의 은닉 상태 벡터 보다 적은 차원의 벡터로 표현된다.

본 발명의 번역 모델 구축 방법은, 사전구축된 참조 모델에 기반하여 번역 모델을 구축하는 방법으로서, 번역 모델의 적어도 하나의 은닉 계층의 단어 확률 분포에 대하여 정의된 손실 함수를 이용하여 상기 참조 모델의 단어 확률 분포에 대한 파라미터 분포를 모사 학습하는 단계, 및 각 은닉 계층을 표현하는 일련의 은닉 상태 벡터 및 학습가능한 행렬에 대하여 정의된 제 3 손실 함수를 이용하여 상기 참조 모델의 트리 탐색 구조를 모사 학습하는 단계를 포함한다.

파라미터 분포를 모사 학습하는 단계 및 트리 탐색 구조를 모사 학습하는 단계는 동시에 수행가능하다.

본 발명의 번역 모델 구축 장치는, 사전구축된 참조 모델에 기반하여 번역 모델을 구축하는 장치로서, 참조 모델의 단어 확률 분포에 대한 파라미터 분포 및 트리 탐색 구조를 모사 학습하여 모사된 번역 모델을 생성하는 모사 학습부, 모사된 번역 모델의 각 단계의 파라미터를 중요도에 따라 전지하고 양자화하는 전지 및 양자화부, 및 모델 재학습을 진행하여 전지 및 양자화된 번역 모델을 최적화하는 재학습부를 포함한다.

연산성능이 제한적인 단말 환경에서 번역 정확도 및 속도를 제공하는 번역 모델을 구축하는 방법 및 장치를 제시한다.

사전구축된 참조 모델을, 파라미터 모사 학습을 통해 소형화하고, 트리 탐색 구조 모사 학습을 통해 번역 성능 저하 없이 효율적으로 압축하는 번역 모델 구축 방법 및 장치를 제공한다.

도 1은 본 발명의 실시예에 따른 번역 모델 구축 방법의 과정을 도시한 순서도이다.
도 2는 본 발명의 일 예에 따른 파라미터 분포의 모사 학습 과정을 도시한다.
도 3은 참조 모델의 트리 탐색 구조를 도시한다.
도 4는 본 발명의 일 예에 따른 트리 탐색 구조의 모사 학습 과정을 도시한다.

본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부된 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.

이하, 첨부 도면을 참조하며 바람직한 각 실시예를 통해 본 발명이 구현되는 양상에 대하여 상세히 살펴본다.

신경망 번역 모델은 입력 토큰(단어)을 추상화하는 임베딩 계층을 거친 후, 입력 문장을 추상화하는 순환 신경망(인코더)을 통해 문장 벡터를 만들고, 문장 벡터와 이전 스텝의 출력 단어 벡터 및 은닉 상태 벡터를 입력으로 받아 현재 스텝의 단어를 출력하는 순환 신경망(디코더)으로 구성된다.

신경망 번역 모델은 번역 성능을 높이기 위해 트리 탐색 구조(Beam Search)를 활용하여 매 스텝의 트리에서 트리 크기만큼의 단어를 출력한 후 가장 확률이 높은 단어를 선택한다.

본 발명의 실시예에 따른 번역 모델 구축 방법 및 장치는, 이전 단계의 출력 단어를 다음 단계의 입력 단어로 사용하는 순환 구조를 통해 번역 결과를 출력하는 신경망 번역 모델의 순환 구조를 변경하여 참조 모델을 압축함으로써 소형 번역 모델을 구축하는 방법 및 장치를 제공한다.

도 1은 본 발명의 실시예에 따른 번역 모델 구축 방법의 과정을 도시한 순서도이다.

신경망 모델은 미리 학습된 파라미터로부터 추가 학습된 신경망 모델이 랜덤하게 초기화된 파라미터로부터 학습된 신경망 모델에 비하여 좋은 성능을 보이는 특성이 있다. 본 발명은 이와 같은 특성을 활용하여 대형 번역 모델을 학습하고, 학습된 대형 번역 모델(교사 모델)을 참조 모델로 하여 소형 번역 모델(학생 모델)이 참조 모델을 모사 학습하도록 한다.

참조 모델 및 소형 번역 모델은 각각 적어도 하나의 은닉층을 포함하는 신경망 번역 모델이다. 예를 들어, 참조 모델 1000차원 상태 벡터를 갖는 은닉 계층 4개로 구성된 신경망 번역 모델이고, 이를 모사 학습하는 번역 모델은 300차원 상태 벡터를 갖는 은닉 계층 2개로 구성된 신경망 번역 모델일 수 있다.

본 발명의 번역 모델 구축 방법은 사전구축된 참조 모델의 크기 및 트리 탐색 구조를 소형화하여 번역 모델을 구축한다. 이를 위하여, 본 발명의 번역 모델 구축 방법은 사전구축된 참조 모델의 학습 지식을 번역모델로 전이하는 모사 학습 과정을 수행한다.

본 발명의 실시예에 따른 번역 모델 구축 방법은 사전구축된 참조 모델을 모사 학습하는 단계를 포함한다. 구체적으로, 본 발명의 실시예에 따른 번역 모델 구축 방법은 사전 구축된 참조 모델의 단어 확률 분포에 대한 파라미터 분포를 모사 학습하는 단계(110) 및 참조 모델의 트리 탐색 구조를 모사 학습하는 단계(110)를 포함한다. 파라미터 분포 모사 학습 단계(110) 및 트리 탐색 구조 모사 학습 단계(120)는 각각 손실 함수로 정의할 수 있으므로, 단계(110) 및 단계(120)은 동시에 수행 가능하다. 즉, 실시예에 따른 번역 모델 구축 방법에서 파라미터 분포 모사 학습(110)과 트리 탐색 구조 모사 학습(120)은 동시에 학습 가능하다.

추가적으로, 본 발명의 번역 모델 구축 방법은 불필요한 파라미터 제거를 위한 파라미터 전지 및 양자화 단계(130)및 번역 모델의 최적화를 위한 재학습 단계(140)을 포함한다.

이하에서, 도 1의 각 단계를 도 2 내지 도 4를 참조하여 구체적으로 살펴본다. 도 2는 본 발명의 일 예에 따른 파라미터 분포의 모사 학습 과정을 도시한다.

도 2는 번역 모델이 참조 모델의 파라미터 분포를 모사 학습하는 과정을 신경망 번역 모델의 디코더를 중심으로 보여준다. 이와 같은 과정은, 앞서 도 1에서 소개한대로, 파라미터 분포 모사 학습 단계(110)에 대응한다.

예를 들어, 번역 모델(a)의 디코더는 N 차원 노드를 갖는 은닉층 P 개(210)로 구성된다. 예를 들어, 참조 모델(b)의 디코더는 M 차원 노드를 갖는 은닉층 Q개(211)로 구성된다. 여기서 M은 N 이상(M=N)이고, Q는 P 이상(Q=P)이다. T는 현재 번역하고자 하는 입력 문장 내의 단어(토큰)의 개수이고, t는 스텝 인덱스(1≤t≤T)로서, 입력 문장의 단어(토큰)을 스텝별로 참조하기 위해 사용된다.

현재 스텝 t에 해당하는 입력 문장의 단어에 대한 확률 분포는 디코더의 마지막 은닉 계층으로부터 얻을 수 있다. 예를 들어, 참조 모델(b)의 입력 문장에 대한 확률 분포는 도시된Q 개의 은닉 계층(211) 중 최상위 은닉 계층으로부터 얻을 수 있다.

도 1을 참조하여 파라미터 분포를 모사 학습하는 단계(110)는 번역 모델(a)의 적어도 하나의 은닉 계층(210)의 단어 확률 분포에 대하여 정의된 손실 함수를 이용하여 참조 모델(b)의 단어 확률 분포를 결정하는 참조 모델 파라미터를 모사 학습한다. 신경망 번역 모델에서 학습은 손실 함수를 조정하는 과정에서 이루어진다. 즉, 신경망 번역 모델은 손실 함수가 최소화되도록 모델 파라미터를 조정함으로써 학습한다. 본 발명의 번역 모델 구축 방법은 파라미터 분포 모사 학습 단계(110)에서 이와 같은 손실 함수가 최소가 되도록 적어도 하나의 은닉 계층의 단어 확률 분포를 결정하는 모델 파라미터를 조정한다.

손실 함수는 번역 모델(a)의 단어 확률 분포 및 정답 분포(ground truth)의 간의 오차에 해당하는 함수이다. 예를 들어, 손실 함수는 교차 엔트로피 오차(cross entropy error) 또는 평균 제곱 오차(mean squared error)와 같은 함수이다.

일 예에서, 손실 함수는 단어 확률 분포 및 정답 분포(ground truth)의 간의 교차 엔트로피(cross entropy)에 대응하는 제 1 손실 함수를 포함한다. 즉, 제 1 손실 함수는 현재 스텝 t에서 번역 모델(a)의 단어 확률 분포(220)와 정답 분포(230)의 교차 엔트로피로 정의되며, 예를 들어, 다음의 수학식 1의 Loss₁로 표현될 수 있다.

위의 수식에서 t는 스텝 인덱스, T는 현재 번역하고자 하는 입력 문장 내의 단어의 개수, |V|는 번역 모델이 이해하는 단어들의 집합인 단어장(vocabulary)의 전체 단어 수이고, k는 단어 인덱스를 나타낸다. 1{y_t=k}는 스텝 t에서의 정답 분포(230)를 나타내고, x는 입력 문장, θ는 번역 모델(a)의 파라미터를 의미한다. p는 번역 모델(a)의 은닉 계층의 단어 확률 분포(220)로서, 스텝 t에서 입력 문장 x의 단어가 단어 인덱스 k에 대응되는 단어가 되는 경우(즉, y_t=k)의 확률의 함수를 의미한다. 일 예에서, 파라미터 모사 학습 단계(110)는 제 1 손실 함수(Loss₁)가 최소가 되도록 번역 모델(a)의 파라미터 θ를 조정한다. 즉, 파라미터 모사 학습 단계(110)는 제 1 손실 함수(Loss₁)가 최소가 되는 번역 모델(a)의 파라미터 θ를 최적의 가중치로 결정한다.

손실 함수는, 번역 모델(a)의 단어 확률 분포 및 참조 모델(b)의 단어 확률 분포의 교차 엔트로피에 대응하는 제 2 손실 함수를 포함한다. 다시 말하면, 제 2 손실 함수는 번역 모델(a)이 참조 모델(b)의 파라미터 분포를 모사 학습하도록 번역 모델(a)의 단어 확률 분포(220)와 참조 모델(b)의 단어 확률 분포(221)의 교차 엔트로피로 정의되며, 예를 들어 다음의 수학식 2의 Loss₂로 표현될 수 있다.

수학식 2에서 θ_R은 참조 모델(b)의 파라미터, q는 참조 모델(b)의 은닉 계층의 단어 확률 분포(221)를 의미한다. 참조 모델(b)의 단어 확률 분포(221)는 정답 분포(230)에 비하여 더 많은 정보를 내포하고 있으므로, 번역 모델(a)의 학습에 도움을 줄 수 있다. 일 예에서, 파라미터 모사 학습 단계(110)는 제 2 손실 함수(Loss₂)가 최소가 되도록 번역 모델(a)의 파라미터 θ를 조정한다. 즉, 파라미터 모사 학습 단계(110)는 제 2 손실 함수(Loss₂)가 최소가 되는 번역 모델(a)의 파라미터 θ를 최적의 가중치로 결정한다.

단계(110)는 번역 모델의 적어도 하나의 은닉 계층의 단어 확률 분포에 대하여 정의된 손실 함수를 이용하여 참조 모델의 단어 확률 분포에 대한 파라미터 분포를 모사 학습한다. 일 예에서, 파라미터 모사 학습 단계(110)는 제 1 손실 함수(Loss₁) 및 제 2 손실 함수(Loss₂)의 합이 최소가 되도록 번역 모델(a)의 파라미터 θ를 조정할 수 있다.

도 3은 참조 모델의 트리 탐색 구조를 도시한다.

참조 모델은 번역 성능을 높이기 위해 트리 탐색 구조를 활용하여 매 스텝의 트리에서 가장 확률이 높은 단어를 선택한다. 도 3의 트리 탐색 구조는 예시적으로 트리의 크기K가 3인 트리 구조를 도시한다.

트리 탐색 1단계(a)에서는 참조 모델의 디코더의 마지막 은닉 계층의 노드(310)으로부터 단어 확률 분포를 결정하고, 결정된 단어 확률 분포 중 가장 확률이 높은 단어 K개(예시적으로 K=3)를 선택한다. 여기서, 선택되는 단어의 개수는 사전에 지정한 트리의 크기 K(예시적으로 K=3)에 해당한다. 출력된 K 개의 단어는 각각 별개의 트리 경로를 형성한다. 예시적으로, 선택된 3 개의 단어는 트리 노드(320)에서 3 개의 굵은 선의 빔(beam)으로 각각 도시되었다.

이후, 선택된 K 개의 단어와 이전 은닉 상태 벡터를 입력으로 하는 순환 신경망에 의해 다음 스텝의 단어가 출력된다. 즉, 선택된 K 개의 단어와 이전 은닉 상태 벡터에 기반하여 선택된 K 개의 단어의 각각에 대하여 다음 스텝에서 가장 확률이 높은K 개의 단어를 선택하여 출력한다. 따라서, 다음 스텝에서의 출력 단어의 개수는 트리 크기의 제곱인 K²이 된다. 예를 들어, 도 3에 도시된 트리 탐색 1단계(a)에서는 이전 스텝에서 선택된 3 개의 단어에 대하여 다음 스텝에서 3²개의 단어를 출력하고 있다.

트리 탐색 2단계(b)에서는, 트리 탐색 1단계(a)에서 선택된 K 개의 단어에 대하여 출력된 K² 개의 단어 중 가장 확률이 높은 단어 K 개를 선택하고, 선택되지 않은 나머지 단어를 트리로부터 전지한다. 예를 들어, 도 3의 트리 탐색 2단계(b)를 살펴보면, 트리 탐색 1단계(a) 에서 출력된 3²개의 단어 중 가장 확률이 높은 단어 3개를 선택하고, 선택되지 않은 나머지 6개의 단어를 트리로부터 전지하고 있다. 일 예에서, 트리 탐색 2단계(b)는, 트리 탐색 1단계(a)에서 선택된 K 개의 단어의 각각에 대하여, 출력된 K² 개의 단어 중 가장 확률이 높은 단어를 1 개씩 선택함으로써, 전체 K 개의 단어를 남기고, 나머지인 K²-K개의 단어를 트리로부터 전지한다. 선택된 K 개의 단어는 각각 별개의 트리 경로를 형성한다. 즉, 전지에 의하여 트리 경로가 K 개로 유지될 수 있다.

이후, 트리 탐색 2단계(b)는 전지되지 않고 살아남은 K 개의 단어와 이전 은닉 상태 벡터에 기반하여, 살아남은 K 개의 단어의 각각에 대하여 다음 스텝에서 가장 확률이 높은K 개의 단어를 선택하여 출력한다. 즉, 전체 K² 개의 단어가 다시 출력된다.

K 개의 트리 경로에 대하여 종료 조건을 만족할 때까지 트리 탐색 1단계(a) 및 트리 탐색 2단계(b)를 반복한다. 예를 들어, 종료 조건은 문장 끝을 나타내는 심볼이 출력되는 경우 또는 경로의 길이가 사전에 지정한 길이를 넘는 경우로 정의된다.

트리 탐색 3단계(c)에서 K 개의 트리 경로가 종료 조건을 만족하여 모두 종료되면, 각 경로별로 모든 스텝의 단어 확률을 합산하여 가장 높은 확률을 갖는 경로 1개를 선택하고 선택된 1개의 경로를 최종 결과로 출력한다. 도 3의 단계(c)는 참조 모델에서 최종 결과로 선택된 1 개의 경로를 도시하고, 굵은 선으로 도시된 빔은 각각 선택된 단어를 결정하고, 결과적으로 최종 선택된 1 개의 경로는 번역 결과로 출력될 문장을 결정한다. 일 예에서, 도 3의 트리 탐색 3단계(c)의 노드(310)의 연결 리스트는 참조 모델의 은닉 계층에 대응한다.

도 4는 본 발명의 일 예에 따른 트리 탐색 구조의 모사 학습 과정을 도시한다. 도 4는 소형 번역 모델이 도 3을 참조하여 전술한 참조 모델의 트리 탐색 구조를 학습하는 방법을 나타낸다.

번역 모델은 적어도 하나의 은닉 계층을 포함하고, 각 은닉 계층은 일련의 은닉 상태 벡터로 표현된다. 번역 모델은 참조 모델 보다 적은 개수의 은닉 계층을 포함하고, 번역 모델의 은닉 상태 벡터는 참조 모델의 은닉 상태 벡터 보다 적은 차원의 벡터로 표현된다.

참조 모델의 트리 탐색 구조에 대한 정보는 참조 모델 디코더의 은닉 계층(310)에 담겨 있다. 따라서, 도 1을 참조하여 트리 탐색 구조 모사 학습 단계(120)는, 번역 모델 디코더의 은닉 계층(410)이 참조 모델 디코더의 은닉 계층(310)을 모사하도록 하여 참조 모델의 트리 탐색 구조를 학습한다.

트리 탐색 구조 모사 학습 단계(120)에서 참조 모델의 은닉 계층(310)과 번역 모델의 은닉 계층(410) 간의 모사 학습은 마지막 은닉 계층의 각 스텝별 은닉 상태 벡터 간의 거리(distance, 420)를 제 3 손실 함수로 정의하고 제 3 손실 함수를 최소화하는 방법으로 이루어진다. 여기서, 은닉 상태 벡터 간의 거리(420)를 비교하기 위해서는 참조 모델과 번역 모델의 은닉 상태 벡터의 차원이 동일해야 하므로, 우선, 학습가능한 행렬을 참조 모델의 은닉 상태 벡터에 곱하여 번역 모델의 은닉 상태 벡터 차원과 동일하게 만든다.

은닉 상태 벡터 차원이 동일해지면, 참조 모델과 번역 모델의 각 스텝 별 은닉 상태 벡터 간 거리를 다양한 분포 거리 측정법으로 계산할 수 있다. 예를 들어, 코사인 거리 측정법, 유클리디안 거리 측정법, 또는 KL Divergence(Kullback-Leibler Divergence) 측정법을 사용할 수 있다.

일 예에서, 참조 모델과 번역 모델의 은닉 상태 벡터 간 거리를 유클리디안 거리로 측정하는 경우, 트리 탐색 구조 모사 학습 단계(120)에 대한 제 3 손실 함수(Loss₃)는 다음과 같이 정의된다.

수학식 3에서 W는 은닉 상태 벡터 차원 일치를 위한 학습가능한 행렬, h_t ^R는 스텝 t에서의 참조 모델의 은닉 상태 벡터, h_t ^S는 스텝 t에서의 번역 모델의 은닉 상태 벡터를 의미한다.

일 예에서, 학습가능한 행렬 W의 크기는 번역 모델의 마지막 은닉 계층의 은닉 상태 벡터와 참조 모델의 마지막 은닉 계층의 은닉 상태 벡터의 차원에 따라 결정된다. 예를 들어, 참조 모델의 은닉 상태 벡터 차원이 1000이고, 번역 모델의 은닉 상태 벡터 차원이 500인 경우, 행렬 W의 크기는 (1000, 500)이 된다.

즉, 번역 모델의 은닉 계층은 일련의 은닉 상태 벡터를 포함하고, 트리 탐색 구조 모사 학습 단계(120)는, 번역 모델의 은닉 계층의 일련의 은닉 상태 벡터(h_t ^S)및 학습가능한 행렬(W)에 대하여 정의된 제 3 손실 함수(Loss₃)를 이용하여 번역 모델의 마지막 은닉 계층이 참조 모델의 마지막 은닉 계층을 모사 학습하도록 한다. 여기서 제 3 손실 함수(Loss₃)는, 번역 모델의 마지막 은닉 계층의 은닉 상태 벡터(h_t ^S)와 참조 모델의 마지막 은닉 계층의 은닉 상태 벡터(h_t ^R) 간의 거리에 대응한다.

트리 탐색 구조 모사 학습 단계(120)는 제 3 손실 함수(Loss₃)가 최소가 되도록 번역 모델의 마지막 은닉 계층의 은닉 상태 벡터(h_t ^S)및 학습가능한 행렬(W)을 조정한다. 단계(120)는 각 은닉 계층을 표현하는 일련의 은닉 상태 벡터 및 학습가능한 행렬에 대하여 정의된 제 3 손실 함수를 이용하여 참조 모델의 트리 탐색 구조를 모사 학습한다.

일 예에서, 번역 모델 구축 방법은 데이터 학습에 대한 제 1 손실 함수(Loss₁), 파라미터 분포의 모사 학습에 대한 제 2 손실 함수(Loss₂) 및 트리 탐색 구조에 대한 제 3 손실 함수(Loss₃)를 동시에 적용가능하며, 이 경우에, 전체 손실 함수(Loss)는 다음의 수학식 4와 같이 정의된다.

파라미터 분포 모사 학습 단계(110) 및 트리 탐색 구조 모사 학습 단계(120)를 통해 학습이 완료된 번역 모델은 참조 모델의 1차 소형 모델에 해당한다. 이와 같은 번역 모델은 번역 단계에서 트리 탐색 구조를 만들지 않고 탐욕적 탐색 방법(Greedy Search, 트리 크기=1)만으로 양질의 번역 결과를 출력할 수 있다. 또한, 본 발명에 따라 구축된 번역 모델은 매 스텝의 트리 크기만큼의 단어를 출력한 후 가장 확률이 높은 단어를 선택하는 트리 탐색을 수행할 필요가 없으므로, 번역에 소요되는 연산 시간이 크게 단축된다. 따라서, 본 발명의 번역 모델 구축 방법은 파라미터 분포 모사 학습(110)을 통해 참조 모델을 소형화하고, 트리 탐색 구조 모사 학습(120)을 통해 큰 번역 성능의 저하 없이 참조 모델의 트리 탐색 구조를 효율적으로 압축한다.

다시 도 1로 돌아와서, 본 발명의 번역 모델 구축 방법은 불필요한 파라미터 제거를 위한 파라미터 전지 및 양자화 단계(130)를 포함한다.

번역 모델은 적어도 하나의 은닉 계층, 입력 계층 및 출력 계층을 포함한다. 파라미터 전지 및 양자화 단계(130)는 입력 계층, 적어도 하나의 은닉 계층 및 출력 계층의 각 파라미터를 중요도에 따라 전지하는 단계 및 계층별로 전지되지 않고 남은 각 파라미터를 양자화하는 단계를 포함한다.

신경망 소형화 방법 중 하나인 계층별 파라미터 전지(프루닝) 방법은 계층별로 낮은 값을 가지는 파라미터 또는 노드를 제거하는 방법으로, 신경망 번역 모델의 크기를 줄일 수는 있지만, 탐색 트리의 크기를 줄일 수는 없기 때문에 이를 바로 신경망 번역 모델에 적용하는 경우 소형화 효과를 얻을 수 없다. 또한 신경망 번역 모델에서는 단어와 연관된 계층(임베딩 파라미터, Softmax 파라미터)이 번역 성능에 큰 영향을 주기 때문에, 모든 계층에서 일정 수의 파라미터를 전지하는 기술은 신경망 번역 모델에 적용하기에 적합하지 않다.

본 발명의 실시예에 따른 번역 모델 구축 방법에서 파라미터 전지 및 양자화 단계(130)는, 신경망 번역 모델의 입출력 단어와 맞닿아 있는 계층의 특성을 활용하여 계층 별 파라미터 전지 방법이 아닌 계층 구분 없는 파라미터 전지 방법을 수행한다. 이는 입출력 단어에 대한 정보 손실을 막아주고 매 번역 스텝마다 오류가 전달될 수 있는 신경망 번역 모델에서의 성능 저하를 줄여준다.

구체적으로 살펴보면, 파라미터 전지 및 양자화 단계(130)는 파라미터 분포 모사 학습 단계(110) 및 트리 탐색 구조 모사 학습 단계(120)를 통해 구축된 번역 모델(1차 소형 모델)의 적어도 하나의 은닉 계층의 은닉 노드 간의 연결에 부여되는 파라미터 중 일정 값 이하의 파라미터를 전지한다. 단계(110) 및 단계(120)의 모사 학습에 의하여 구축된1차 소형 모델은 참조 모델에 비해 은닉 노드의 차원은 감소하나, 여전히 은닉 노드 간의 불필요한 연결(즉, 파라미터)이 존재할 수 있다. 크기가 매우 작은 파라미터는 은닉 상태 벡터 값에 영향을 거의 주지 않으므로 일정 값(문턱치)이하의 파라미터는 전지하여도 무방하다.

파라미터 전지 및 양자화 단계(130)는 입력 계층(임베딩 계층) 및 출력 계층(Softmax 계층)의 파라미터를 전지할 수도 있다. 다만, 입출력 단어와 직접적으로 맞닿아 있는 입력 계층 및 출력 계층의 파라미터를 전지하는 경우 적어도 하나의 은닉 계층으로 구성되는 인코더 또는 디코더 계층에 비해 번역 성능 하락이 클 수 있다. 또한, 입력 계층 및 출력 계층의 파라미터의 크기는 인코더 계층 또는 디코더 계층의 파라미터의 크기에 비해 큰 경향이 있다. 따라서 본 발명의 실시예에 따른 번역 모델 구축 방법은, 파라미터 전지 및 양자화 단계(130)에서 각 계층의 구분 없이 모든 계층의 모든 파라미터를 크기 순으로 정렬한 후에 크기가 작은 하위 파라미터를 전지한다. 예를 들어, 하위 파라미터 중 일정 비율을 전지하거나 또는 일정 개수를 전지한다. 이로써 각 계층에 대하여 일정 수의 하위 파라미터를 전지함으로 인하여 인코더 계층 및 디코더 계층에 비해 파라미터 크기가 큰 입력 계층 또는 출력 계층의 파라미터가 전지되는 것을 방지할 수 있다.

파라미터 전지 및 양자화 단계(130)는 전지 완료한 번역 모델에 대하여 파라미터 양자화를 수행한다. 파라미터 전지 및 양자화 단계(130)는 각 계층의 파라미터의 최소값 및 최대값을 결정하고, 최소값 및 최대값 사이의 구간을 N-bit 양자화하고, 각 파라미터를 가장 가까운 양자 값에 매핑한다. 파라미터 양자화는 더 높은 모델 압축률과 연산 고속화를 유도한다.

또한, 본 발명의 번역 모델 구축 방법은 단계(130)에서 전지 및 양자화된 파라미터에 기반하여 번역 모델의 재학습(fine-tune)을 수행하는 단계(140)을 포함한다. 재학습 단계(140)는 전지 및 양자화된 파라미터에 기반하여 동일한 학습 데이터에 대해 모델 재학습을 수행함으로써 번역 모델을 최적화한다.

재학습 단계(140)에서, 학습은 GPU에서 이루어지므로 학습 속도를 위해 Sparse 행렬 연산을 하지 않고 단계(130)에서 전지된 파라미터를 0으로 고정한 후, 전지된 파라미터에 Gradient가 전달되지 않도록 하여 Dense 행렬 연산을 할 수 있다. 또한 Gradient의 크기는 매우 작기 때문에 양자화하는 경우 값이 소실될 수 있다. 따라서 재학습 단계(140)에서 Gradient 연산은 양자화 이전 모델과 동일한 bit를 가지는 실수형으로 연산할 수 있다. 또한, 계산된 Gradient에 따라 파라미터를 갱신한 후 다시 양자화를 수행할 수 있다.

본 발명의 실시예에 따른 번역 모델 구축 장치는 사전구축된 참조 모델에 기반하여 번역 모델을 구축한다. 번역 모델 구축 장치는 참조 모델의 단어 확률 분포에 대한 파라미터 분포 및 트리 탐색 구조를 모사 학습하여 모사된 번역 모델을 생성하는 모사 학습부, 모사된 번역 모델의 각 단계의 파라미터를 중요도에 따라 전지하고 양자화하는 전지 및 양자화부 및 모델 재학습을 진행하여 상기 전지 및 양자화된 번역 모델을 최적화하는 재학습부를 포함한다. 예를 들어, 모사 학습부, 전지 및 양자화부 및 재학습부는 각각 GPU 또는 CPU와 같은 마이크로 프로세서일 수 있다. 예를 들어, 모사 학습부, 전지 및 양자화부 및 재학습부는 각각 컴퓨터 시스템일 수 있다.

추가적으로 번역 모델 구축 장치는 학습 데이터 등을 저장하는 저장부를 포함할 수 있다. 예를 들어, 저장부는 메모리, 하드 디스크, 및 데이터베이스, 등을 비롯한 각종 물리적 저장 매체 또는 데이터 베이스 시스템일 수 있다.

모사 학습부는 도 1을 참조하여 단계(110) 및 단계(120)을 수행한다. 전지 및 양자화부는 단계(130)을 수행한다. 재학습부는 단계(140)을 수행한다.

한편, 본 발명의 실시예에 따른 번역 모델 구축 방법 및 장치는 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다. 컴퓨터 시스템은 적어도 하나 이상의 프로세서와, 메모리와, 사용자 입력 장치와, 데이터 통신 버스와, 사용자 출력 장치와, 저장소를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스를 통해 데이터 통신을 한다.

컴퓨터 시스템은 네트워크에 커플링된 네트워크 인터페이스를 더 포함할 수 있다. 프로세서는 중앙처리 장치(central processing unit (CPU))이거나, 혹은 메모리 및/또는 저장소에 저장된 명령어를 처리하는 반도체 장치일 수 있다.

메모리 및 저장소는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 메모리는 ROM 및 RAM을 포함할 수 있다.

본 발명의 실시예에 따른 번역 모델 구축 방법은 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 번역 모델 구축 방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 정보 제공 방법을 수행할 수 있다.

한편, 상술한 본 발명에 따른 번역 모델 구축 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

본 발명의 실시예에 따른 번역 모델 구축 방법 및 장치는 단말 탑재 가능한 소형 번역 모델을 구축할 수 있다. 이와 같은 소형 번역 모델은 최근 수요가 증가하고 있는 단말형 통역기, 웨어러블 통역기 등의 휴대용 통역기 및 스마트폰 등의 휴대용 기기에 탑재 가능하다. 특히 본 발명의 번역 모델 구축 방법 및 장치에 의해 구축된 번역 모델은 서버-클라이언트 통신이 제한되는 환경에서도 양질의 번역을 제공할 수 있다.

본 발명은 실시예들에 한정되는 것이 아니라 본 발명의 기술적 사상의 범주 내에서 그 외의 다른 다양한 형태로 구현될 수 있음은 자명하다. 본 명세서에서 사용된 용어 역시 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprise)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 요소가 하나 이상의 다른 구성요소, 단계, 동작 및/또는 요소의 존재 또는 추가됨을 배제하지 않는다.

이제까지 본 발명을 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양하게 변경 또는 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명을 위한 예시적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

110: 파라미터 분포 모사 학습 단계
120: 트리 탐색 구조 모사 학습 단계
130; 파라미터 전지 및 양자화 단계
140: 재학습 단계

Claims

적어도 하나의 은닉 계층을 포함하는 번역 모델을 구축하는 방법에 있어서,
사전 구축된 참조 모델의 단어 확률 분포에 대한 파라미터 분포를 모사 학습하는 단계; 및
상기 참조 모델의 트리 탐색 구조를 모사 학습하는 단계를 포함하고,
상기 트리 탐색 구조를 모사 학습하는 단계는,
상기 은닉 계층에 포함되는 일련의 은닉 상태 벡터 및 학습가능한 행렬에 대하여 정의된 제 3 손실 함수를 이용하여 상기 번역 모델의 마지막 은닉 계층이 상기 참조 모델의 마지막 은닉 계층을 모사 학습하도록 하고, 상기 제 3 손실 함수는 상기 은닉 상태 벡터와 상기 참조 모델의 마지막 은닉 계층의 은닉 상태 벡터 간의 거리의 함수이고, 상기 학습가능한 행렬을 상기 은닉 상태 벡터에 곱하여 상기 번역 모델의 은닉 상태 벡터 차원과 동일하게 만들고, 상기 제 3 손실 함수가 최소가 되도록 상기 은닉 상태 벡터 및 상기 학습가능한 행렬을 조정하는 것
인 번역 모델 구축 방법.
제 1 항에 있어서,
상기 파라미터 분포를 모사 학습하는 단계는,
상기 번역 모델의 상기 적어도 하나의 은닉 계층의 단어 확률 분포에 대하여 정의된 손실 함수를 이용하여 상기 참조 모델의 단어 확률 분포를 결정하는 참조 모델 파라미터를 모사 학습하는 것인, 번역 모델 구축 방법.
제 2 항에 있어서,
상기 손실 함수는,
상기 번역 모델의 단어 확률 분포 및 정답 분포(ground truth)의 교차 엔트로피에 대응하는 제 1 손실 함수를 포함하는, 번역 모델 구축 방법.
제 2 항에 있어서,
상기 손실 함수는,
상기 번역 모델의 단어 확률 분포 및 상기 참조 모델의 단어 확률 분포의 교차 엔트로피에 대응하는 제 2 손실 함수를 포함하는, 번역 모델 구축 방법.
제 2 항에 있어서,
상기 파라미터 분포를 모사 학습하는 단계는,
상기 손실 함수가 최소가 되도록 상기 적어도 하나의 은닉 계층의 단어 확률 분포를 결정하는 모델 파라미터를 조정하는 것인, 번역 모델 구축 방법.
삭제
삭제
삭제
제 1 항에 있어서,
상기 학습가능한 행렬의 크기는 상기 은닉 상태 벡터와 상기 참조 모델의 마지막 은닉 계층의 은닉 상태 벡터의 차원에 따라 결정되는, 번역 모델 구축 방법.
제 1 항에 있어서,
상기 번역 모델은 입력 계층 및 출력 계층을 더 포함하고,
상기 입력 계층, 상기 적어도 하나의 은닉 계층 및 상기 출력 계층의 각 파라미터를 중요도에 따라 전지하는 단계; 및
상기 계층 별로 각 파라미터를 양자화하는 단계;
를 더 포함하는 번역 모델 구축 방법.
제 10 항에 있어서,
상기 전지 및 양자화된 파라미터에 기반하여 상기 번역 모델의 재학습을 수행하는 단계
를 더 포함하는 번역 모델 구축 방법.
제 1 항에 있어서,
각 은닉 계층은 일련의 은닉 상태 벡터로 표현되고,
상기 번역 모델은 상기 참조 모델 보다 적은 개수의 은닉 계층을 포함하고, 상기 번역 모델의 은닉 상태 벡터는 상기 참조 모델의 은닉 상태 벡터 보다 적은 차원의 벡터로 표현되는, 번역 모델 구축 방법.
사전구축된 참조 모델에 기반하여 번역 모델을 구축하는 방법에 있어서,
번역 모델의 적어도 하나의 은닉 계층의 단어 확률 분포에 대하여 정의된 손실 함수를 이용하여 상기 참조 모델의 단어 확률 분포에 대한 파라미터 분포를 모사 학습하는 단계; 및
각 은닉 계층을 표현하는 일련의 은닉 상태 벡터 및 학습가능한 행렬에 대하여 정의된 제 3 손실 함수를 이용하여 상기 참조 모델의 트리 탐색 구조를 모사 학습하는 단계를 포함하고,
상기 트리 탐색 구조를 모사 학습하는 단계는,
상기 제 3 손실 함수를 이용하여 상기 번역 모델의 마지막 은닉 계층이 상기 참조 모델의 마지막 은닉 계층을 모사 학습하도록 하고, 상기 제 3 손실 함수는 상기 은닉 상태 벡터와 상기 참조 모델의 마지막 은닉 계층의 은닉 상태 벡터 간의 거리의 함수이고, 상기 학습가능한 행렬을 상기 은닉 상태 벡터에 곱하여 상기 번역 모델의 은닉 상태 벡터 차원과 동일하게 만들고, 상기 제 3 손실 함수가 최소가 되도록 상기 은닉 상태 벡터 및 상기 학습가능한 행렬을 조정하는 것
인 번역 모델 구축 방법.
제 13 항에 있어서,
상기 파라미터 분포를 모사 학습하는 단계 및 상기 트리 탐색 구조를 모사 학습하는 단계는 동시에 수행가능한, 번역 모델 구축 방법.
사전구축된 참조 모델에 기반하여 번역 모델을 구축하는 장치에 있어서,
상기 참조 모델의 단어 확률 분포에 대한 파라미터 분포 및 트리 탐색 구조를 모사 학습하여 모사된 번역 모델을 생성하는 모사 학습부;
상기 모사된 번역 모델의 각 단계의 파라미터를 중요도에 따라 전지하고 양자화하는 전지 및 양자화부; 및
모델 재학습을 진행하여 상기 전지 및 양자화된 번역 모델을 최적화하는 재학습부를 포함하고,
상기 모사 학습부는 은닉 계층에 포함되는 일련의 은닉 상태 벡터 및 학습가능한 행렬에 대하여 정의된 제 3 손실 함수를 이용하여 상기 번역 모델의 마지막 은닉 계층이 상기 참조 모델의 마지막 은닉 계층을 모사 학습하도록 하고, 상기 제 3 손실 함수는 상기 은닉 상태 벡터와 상기 참조 모델의 마지막 은닉 계층의 은닉 상태 벡터 간의 거리의 함수이고, 상기 학습가능한 행렬을 상기 은닉 상태 벡터에 곱하여 상기 번역 모델의 은닉 상태 벡터 차원과 동일하게 만들고, 상기 제 3 손실 함수가 최소가 되도록 상기 은닉 상태 벡터 및 상기 학습가능한 행렬을 조정하는 것
인 번역 모델 구축 장치.