KR20190046432A

KR20190046432A - 신경망 기계번역 방법 및 장치

Info

Publication number: KR20190046432A
Application number: KR1020170140232A
Authority: KR
Inventors: 신종훈
Original assignee: 한국전자통신연구원
Priority date: 2017-10-26
Filing date: 2017-10-26
Publication date: 2019-05-07
Also published as: US10635753B2; KR102069692B1; US20190129947A1

Abstract

본 발명은, 부분어휘 토큰을 훼손하지 않으면서 명시적인 어휘정렬 정보가 부가된 학습데이터 생성 방법 및 이를 포함하는 신경망 기계번역 방법 및 장치를 제안한다. 학습데이터 생성 방법은 (1) 학습에 사용될 이중언어 말뭉치의 문장으로부터 형태소 분석 또는 개체명 인식 단계를 통한 기본 어휘 경계를 분리하는 단계; (2) 학습에 사용될 이중언어 말뭉치의 문장으로부터 명시적 어휘정렬 정보를 추출하는 단계; (3) 단계 1에 의해 분리된 어휘 경계를 다시 부분어휘 토큰으로 분리하는 단계; (4) 단계 1에 의해 처리된 원문언어 결과물과, 단계 3에 의해 처리된 원문언어 결과물을 사용하여, 새로운 원문언어 학습데이터를 생성하는 단계; (5) 단계 2에서 생성된 명시적 어휘정렬 정보와, 단계 1 및 3에 의해 처리된 대역언어 결과물을 사용하여, 새로운 대역언어 학습데이터를 생성하는 단계를 포함한다.

Description

신경망 기계번역 방법 및 장치 {Neural machine translation method and apparatus}

본 발명은 신경망(neural network)과 RNN-LSTM(recurrent neural network with long short term memory)을 사용하는 신경망기반 자동번역(NMT: Neural Machine Translation)에 관한 것이다. 보다 구체적으로, 본 발명은 명시적 어휘정렬 정보(explicit word-alignment information)를 부가한 부분어휘 토큰 단위(sub-word token unit) 기반의 엔드투엔드 신경망 기계번역 방법 및 장치에 관한 것이다.

신경망 기계번역(Neural Machine Translation, NMT) 중에 인코더-디코더(Encoder-Decoder) 메커니즘에 기반한 방식이 있다. 이 방식은 RNN-LSTM(장단기 메모리기반 재귀적 인공신경망(Recurrent Neural Network with Long Short Term Memory)) 또는 합성곱 인공 신경망(Convolutional Neural Network)을 사용하여, 인코더에 의해 원문언어의 입력문을 단일 또는 다중의 N-차원의 벡터로 압축(또는 추상화)시키고, 압축된(추상화된) 표현으로부터 디코더를 써서 대역언어의 출력문(번역 결과)을 생성해내는 인공 신경망 학습 및 예측 메커니즘을 의미한다. 이 메커니즘을 구현하기 위한 신경망 네트워크 구조 및 학습 방법 등에 대해서 많은 연구들이 진행되어 왔고, 현재는 구글, 네이버 등의 기업에서 제공하는 서비스의 핵심 기술로 알려져 있다.

이러한 방식의 기계번역에서는, 자주 나타나지 않는 어휘, 또는 학습시 사용한 문장쌍 집합(이중언어 말뭉치(corpus))에서 한 번도 출현하지 않은 어휘가 나타나면, 이를 일괄적으로 예약된 미등록어 토큰으로 간주하고, 미등록어를 위한 단일 임베딩 벡터로 치환하게 된다. 즉, 임베딩 벡터를 일종의 사전(dictionary)으로 본다면, 사전에 없는 어휘 토큰이 나타날 때마다 미리 정의한 특정한 임베딩 벡터를 반환하게 된다. 이는 원문을 추상화하는 인코더에서뿐만 아니라 대역문을 생성하는 디코더에서, 학습되지 않은 어휘열(word sequence)을 생성해야 할 때 미등록어 토큰을 출력하는 경우에도 일어난다.

인간이 사용하는 자연 언어(Natural language)는 시간의 흐름, 위치의 차이 등으로 인해 새로운 어휘가 생겨나고 사라지거나, 동일한 의미를 표현하는 어휘가 다양한 의미로 사용될 수 있다. 이에 반해 상술한 신경망 기계번역 기술에서는 학습 단계에서 사용된 이중언어 말뭉치에서만 존재하는 고유 어휘 토큰이 제한된 수로 한정될 수밖에 없다.

한편, 통계기반 기계번역과 인공신경망 기계번역은 딥러닝을 활용한다. 사람은 학습데이터를 수집하고 가공해서 컴퓨터에 던져주고, 컴퓨터는 입력된 학습데이터를 바탕으로 스스로 공부한다. 학습이 끝나면 번역기가 스스로 공부한 바를 바탕으로 새로운 문장을 보더라도 번역할 수 있는 능력을 키울 수 있다.

본 발명은, 종래의 신경망 기계번역(NMT) 시스템의 문제점을 해결하기 위하여, 적은 수의 이중언어 말뭉치로 학습되는 시스템의 번역 성능을 향상시키고자 한다. 본 발명의 목적은 부분어휘 토큰을 훼손하지 않으면서 명시적인 어휘정렬 정보가 부가된 학습데이터 생성 방법 및 이를 포함하는 신경망 기계번역 방법을 제안하는 것이고, 다른 목적은 생성된 학습데이터를 이용하여 학습 및 번역을 수행하는 개선된 구조의 신경망 기계번역 장치를 제안하는 것이다.

상기 과제를 해결하기 위하여, 본 발명의 일측면에 따르면, 원문 및 이 원문에 대한 번역문을 포함한 신경망 기계번역을 위한 학습데이터를 생성하는 방법이 제공된다. 이 방법은 (1) 학습에 사용될 이중언어 말뭉치의 문장으로부터 형태소 분석 또는 개체명 인식 단계를 통한 기본 어휘 경계를 분리하는 단계; (2) 학습에 사용될 이중언어 말뭉치의 문장으로부터 명시적 어휘정렬 정보를 추출하는 단계; (3) 단계 1에 의해 분리된 어휘 경계를 다시 부분어휘 토큰으로 분리하는 단계; (4) 단계 1에 의해 처리된 원문언어 결과물과, 단계 3에 의해 처리된 원문언어 결과물을 사용하여, 새로운 원문언어 학습데이터를 생성하는 단계; (5) 단계 2에서 생성된 명시적 어휘정렬 정보와, 단계 1 및 3에 의해 처리된 대역언어 결과물을 사용하여, 새로운 대역언어 학습데이터를 생성하는 단계를 포함한다.

본 발명의 다른 측면에 따르면, 상기 학습데이터 생성 방법에 의해 생성된 학습데이터를 기초로 신경망을 학습시키고 대역문과 원문의 연결 관계 생성을 수행하는 신경망을 이용한 신경망 기계번역 방법이 제공된다.

본 발명의 또다른 측면에 따르면, 상기 학습데이터 생성 방법으로 학습데이터를 생성하는 학습데이터 처리부와; 상기 학습데이터 처리부로부터 생성된 학습데이터를 기초로 신경망을 학습시켜, 대역문과 원문의 연결 관계 생성을 수행하는 데 이용되는 자동 번역 모델을 생성하는 모델 생성부를 포함하는 신경망을 이용하는 신경망 기계번역 장치가 제공된다.

상기 모델 생성부에서 학습데이터를 학습시키는 신경망은 장단기 메모리기반 재귀적 인공신경망(RNN-LSTM) 구조를 기반으로 구현할 수 있다.

이상에서 소개한 본 발명의 구성 및 작용은 차후에 도면과 함께 설명하는 구체적인 실시예를 통하여 더욱 명확해질 것이다.

본 발명은 기본적으로, 미등록어에 강건한 자동 번역 기술로서, 다음과 같은 효과를 얻을 수 있다.

1. 신경망 기계번역의 번역 품질 향상

- 학습 단계에서 부분어휘의 손실없이 명시적인 어휘정렬 정보를 부가하여, 기본적인 부분어휘 단위의 신경망 기계번역의 장점과, 어휘정렬 정보에 의한 보정 기능의 장점을 모두 가질 수 있게 된다.

- 학습시 부여한 명시적 어휘정렬 정보에 의해, 주의집중 모델(Attention Model)의 학습에 필요한 피드백을 추가로 전달 가능하다(주의집중 모델: 간접적으로 신경망 학습 단계에서 원문 입력에 사용된 어휘 토큰과, 대역 부 생성에 출현된 대역어휘 토큰의 연관 관계를 학습하는 모델).

2. 사용자 정의 사전을 신경망 기계번역에 적용 가능

- 예측된 어휘정렬 정보에 의해, 특정 원문어휘를 다른 대역어휘로 바꾸고자 하는 경우 대역어휘의 정렬 위치를 추정하여 이를 치환할 수 있는 기능을 제공할 수 있다.

도 1은 인코더-디코더 메커니즘에 기반한 신경망 기계번역 시스템의 개념도
도 2는 본 발명의 명시적인 어휘정렬 정보가 부가된 학습데이터 생성 방법 흐름도
도 3은 도 2에 의해 생성된 학습데이터를 학습하는 신경망 구조도

본 발명의 구체적인 내용을 설명하기에 앞서 인코더-디코더(Encoder-Decoder) 메커니즘에 기반한 신경망 기계번역 시스템의 특성에 관해 간략히 소개한다. 도 1을 참조하면, 이 방식은 원문 입력문으로부터 인코더를 통해 압축된 N-차원의 단일 벡터를 생성한 뒤, 디코더를 통해 인코더의 출력과, 현재 생성된 대역 어휘 정보를 토대로 다음 어휘를 예측하는 방법을 재귀적으로 수행한다.

인코더는 입력된 원문언어의 문맥적 요소를 압축/추상화하는데, 이는 원문언어의 의미적, 통사적 특성을 모두 포함하는 일련의 문장 벡터로 생성한다는 의미이다.

또한 디코더는 현재 상태와 이전 예측 결과 어휘를 토대로 다음 어휘를 에측하는 것으로, 대역 어휘로 구성된 임의의 문장을 생성하는 일종의 언어 모델(Language Model)의 역할을 수행한다. 즉, 디코더는 인코더의 출력으로 나타난 원문언어의 추상 정보를 조건 변수로 받아, 디코더가 학습한 대역언어의 생성 방법에 기초하여 대역 어휘들을 예측한다. 디코더의 예측은 대역 문장의 완료를 알리는 문장 종료 예약어가 나타날 때까지 반복적으로 수행되며, 그 과정에서 생성된 후보들 중에서 가장 자연스럽다고 판단되는 대역문을 선택적으로 출력하게 된다.

이러한 메커니즘의 절차상, 대역 문장을 구성하는 어휘 토큰이 입력 문장 내 어휘 토큰에 의해 생성되었는지 알 수 없기 때문에, 입력에 사용된 원문을 구성하는 어휘와 생성된 대역문을 구성하는 어휘 사이에 직접적인 연관관계가 명시적으로 존재하지 않는다는 특징이 있다.

이러한 특성을 갖는 신경망 기반 기계번역 시스템을 구성하기 위해, 원문언어의 문장과 대역언어로 구성된 문장 쌍의 집합(이중언어 말뭉치)을 받아 이를 학습하는 신경망 학습 단계가 존재하며, 학습 단계에 의해 생성된 신경망 모델을 토대로 기계번역을 수행하는 예측 단계가 존재한다.

신경망 학습을 위해, 원문 어휘로 된 어휘를 특정한 기준으로 잘라 이를 각각의 1차원의 벡터로 변환하여 2차원의 임베딩 벡터로 표현하게 된다. 이 과정에서, 학습 단계에 사용되는 원문의 어휘와 대역문을 구성하는 어휘 토큰이 고정된다. 즉, 학습에 사용되는 원문언어의 말뭉치를 구성하는 각각의 고유한 어휘가 1000개가 존재하고, 1개의 어휘를 500개의 부동 소수점으로 표현된 1차원 벡터로 표현하는 경우, 1000×500의 2차원 벡터로 바꾸게 되는데, 이 2차원 벡터가 바로 임베딩 벡터가 된다. 대역언어의 말뭉치를 구성하는 고유 어휘 토큰의 개수가 500개가 되는 경우, 역시 동일한 길이의 1차원 벡터로 표현하게 되면, 500×500의 2차원 벡터로 변환될 수 있다. 신경망 학습은 이렇게 입력된 원문 어휘와 대역문 어휘를 각각의 고유 어휘 토큰에 맞는 임베딩 벡터로 변환된 것을 입력 정보로 처리를 하게 된다.

이 방법에는 대표적으로 두 가지 방법을 통한 접근 방법이 연구되어 왔다. <방법 1>은, 학습 단계에서 표현되지 않은 어휘를 대치할 수 있도록 고유 명사나 숫자와 같은 저빈도 어휘를 특정 예약어로 미리 직접 대체하는 전처리 과정을 수행한 뒤, 이를 학습하여 알려지지 않은 어휘가 예측 단계에 들어왔을 때, 이를 동일한 예약어로 치환하여 인코더의 입력으로 전달하고, 디코더에 의해 만들어진 대역 문장에서 그 예약어가 나타나는 경우 원문에서 복제하거나 혹은 사전을 참조하여 치환하는 후처리 단계를 통해 처리하는 방법(Luong et al., “Addressing the Rare Word Problem in Neural Machine Translation”, eprint arXiv:1410.8206, 2014),

또 다른 <방법 2>는 인간이 사용하는 어휘의 길이보다 더 짧은 길이를 갖는 부분어휘(sub-word)로 쪼개고, 쪼개진 부분어휘로 출력된 대역 문장을 후처리로 합쳐 원래의 어휘 꼴로 만들어내는 방법(Sennrich et al., “Neural Machine Translation of Rare Words with Subword Units”, in Proceedings of ACL'16, 2016.)이다.

방법 1은, 형태소 분석(Morphological analysis) 또는 개체명 인식(NER; Named entity recognition) 기술을 통해 치환되어야 할 어휘 토큰의 경계를 정규화하고, 원문에 나타난 어휘 토큰이 대역문장 내 어떤 어휘로 치환되었는지 관계를 추정하기 위해 단어정렬(word alignment) 과정을 거쳐야 한다는 단점이 존재하며, 이런 과정에 필요한 세부 요소기술의 성능이 신경망 기계번역 시스템에 그대로 반영되게 된다. 즉, 상기에 언급한 각각의 세부 요소 기술의 결과물이 좋지 않을 경우, 이를 사용하여 학습한 신경망 기계번역의 성능 역시 낮아진다는 문제가 존재한다.

한편, <방법 2>는, <방법 1>과 같은 단어정렬이 필요 없이, 잘게 쪼개진 부분어휘 토큰 열을 그대로 학습하기 때문에 별도의 단어정렬이 필요없어, 세부 요소 기술을 사용하지 않기 때문에 이러한 문제점이 없다. <방법 2>는 신경망 기계번역에서 사용될 경우 학습 말뭉치에 존재하지 않던 어휘라도, 그것을 잘게 쪼갬으로 부분어휘를 최대한 반영할 수 있기 때문에 열린 사전(Open Vocabulary)을 지원할 수 있는 방법이라고 할 수 있다. 학습에 사용하는 이중언어 말뭉치의 양이 많을수록 높은 성능을 이끌어 낼 수 있어, 현재의 상용화된 신경망 기계번역 시스템에서 보편적으로 사용되는 방법이 되었다. <방법 1>에 비해 상대적으로 높은 번역 품질을 기대할 수 있으나, 학습에 필요한 이중언어 말뭉치의 수가 적을 경우, <방법 2>를 사용하더라도 부분어휘열의 학습 정도가 낮아 올바르게 표현(또는 번역)하지 못하는 경우가 빈번하게 발생하게 되어, 여전히 미등록어에 대한 낮은 품질의 번역 결과를 받게 된다.

한편, 인코더-디코더 메커니즘 기반 신경망 기계번역 모델의 성능 향상을 위해, 간접적으로 신경망 학습 단계에서 원문 입력에 사용된 어휘 토큰과, 대역 부 생성에 출현된 대역 어휘 토큰의 연관 관계를 학습하는 주의집중 모델(Attention Model)(참고: Bahdanau et al., “Neural Machine Translation by Jointly Learning to Translate and Align”, in Proceedings of ICLR'15, 2015)이 등장하여 현재 널리 사용되고 있으나, 여전히 개별 어휘 토큰과 대역 어휘 토큰 간의 명시적인 어휘정렬 정보(explicit word-alignment information; hard alignment)와는 거리가 멀다.

이 주의집중 모델에서도, 이러한 특징을 표현하기 위해 암묵적 어휘정렬 정보(implicit word-alignment information; soft alignment)로 표현하고 있다. 즉, 특정 대역 어휘에 사용된 주의집중 정보가 원문의 지정된 어휘 토큰과 1:1로 정렬되지는 못하고 있다는 한계점이 존재한다.

두 방법을 모두 알고 있는 사람이 예상 가능한 전개 방법으로, 상기에 기술한 방법 1과 방법 2를 혼합하는 방법을 손쉽게 생각할 수 있다. 하지만, 이를 적용하고자 하는 경우, 다음의 문제가 존재하여 상술한 방법 1과 방법 2가 올바르게 혼합되지 않게 됨을 알 수 있다.

첫째, 어휘의 직접 대치를 수행하는 방법 1에 의해, 방법 2를 위해 적용해야 할 부분어휘가 상대적으로 줄어들게 된다. 즉, 방법 1에 의해 많은 미등록 어휘를 대치할 경우, 부분어휘 토큰 열의 수가 적어져 학습 단계에서 부분어휘 토큰을 올바르게 학습할 수 없기 때문에, 방법 2가 효과적으로 적용될 수 없다.

둘째, 방법 2와 같이 부분어휘 토큰으로 잘게 쪼개는 경우, 방법 1을 위해 필요한 전처리 단계, 그 중에서도 명시적 어휘정렬 정보를 얻는 과정에서 복잡도가 증가하고, 이에 따라 어휘정렬 정보 자체가 올바르게 처리될 가능성이 더욱 낮아지게 되어, 올바르지 않은 어휘정렬 정보가 포함된 데이터를 학습하게 됨으로 신경망 기계번역 시스템의 오히려 품질이 떨어진다는 문제가 존재한다.

본 발명에서는 이상의 문제점을 극복하면서 방법 1과 방법 2를 혼합할 수 있는 구성을 통해 시스템에서 잘못 번역된 미등록어를 교정할 수 있는 신경망 기계번역 시스템을 구현하는 것이다.

이하, 본 발명의 목적 1, 즉, "명시적인 어휘정렬 정보가 부가된 학습데이터의 생성 방법"을 도 2를 참조하여 설명한다.

(100) 학습에 사용될 이중언어 말뭉치의 원문언어 및 대역언어의 문장에 형태소 분석 또는 개체명 인식 단계를 통한 기본 어휘 경계 분리 단계 ― 본 단계는 각 언어에 모두 적용하거나, 혹은 둘 중 하나의 언어를 대상으로 처리할 수 있다.

(200) 명시적 어휘정렬 정보(explicit word-alignment information) 추출 단계

(300) 단계 100에 의해 분리된 어휘 경계를 다시 부분어휘 토큰(sub-word token)으로 분리하는 단계 ― 이 단계는 각 언어에 모두 적용하거나, 혹은 둘 중 하나의 언어를 대상으로 처리할 수 있다.

(400) 단계 100에 의해 처리된 원문언어 결과물과, 단계 300에 의해 처리된 원문언어 결과물을 사용하여, 새로운 원문언어 학습데이터를 생성하는 단계 ― <방법 1>과 달리, 입력된 원문언어의 문장을 구성하는 부분어휘 토큰을 직접 치환하지 않고, 단계 100에서 추출한 어휘순서 정보를 단계 300에서 분리된 부분어휘 토큰마다 추가 정보로 삽입하고 표현한다.

(500) 단계 200에서 생성된 명시적 어휘정렬 정보와, 단계 100 및 300에 의해 처리된 대역언어 결과물을 사용하여, 새로운 대역언어 학습데이터를 생성하는 단계 ― <방법 1>과 달리, 대역언어 문장을 구성하는 부분어휘 토큰을 직접 치환하지 않고, 단계 200에서 추출한 명시적 어휘정렬 정보와 단계 100에 의해 처리되어 생성된 원문언어 문장에 부착된 어휘순서 정보를 결합하고, 단계 300에 의해 생성된 대역 문장내 부분어휘 토큰마다 변형된 정렬 정보를 삽입하고 표현한다.

도 2의 처리 흐름에서 100, 200 단계는 상기에 기술한 <방법 1>을 사용하여 처리할 수 있고, 300 단계는 <방법 2>를 사용하여 처리할 수 있다.

이상의 각 단계에 대한 상세한 실시예를 아래에 기술한다.

학습에 사용될 이중언어 말뭉치 중 하나의 한국어(원문언어)와 영어(대역언어) 문장쌍은 아래와 같은 것으로 가정한다.

[한국어] 그리고 우리는 미동 마을에 있는 이쁜이 게스트 하우스를 예약했다.

[영어] And we booked a room at IPUNY Guest House in Midong village.

도 2의 단계 100에서 원문언어와 대역언어에 대한 형태소 분석 및 개체명 인식 등의 공지기술을 통해 단어의 구간을 결정하고, 내용어와 기능어를 분리하고, 내용어의 경계를 결정한다. 아래의 형태와 같이 결정되었다.

[한국어] '그리고'(1) '우리'(2) '는'(3) '미동'(4) '마을'(5) '에'(6) '있는'(7) '이쁜이 게스트'(8) '하우스'(9) '를'(10) '예약했다'(11) '.'(12)

[영어] 'And'(1) 'we'(2) 'booked'(3) 'a'(4) 'room'(5) 'at'(6) 'IPUNY'(7) 'Guest House'(8) 'in'(9) 'Midong'(10) 'village'(11) '.'(12)

각 어휘 뒤의 숫자는 어휘를 따라 순서대로 부여한 번호이다. 이는 설명의 편의를 위한 것이며, 실제로는 아래와 같이 공백으로 각각의 어휘 토큰이 나뉜다.

[한국어] 그리고 우리 는 미동 마을 에 있는 이쁜이_게스트 하우스 를 예약했다 .

[영어] And we booked a room at IPUNY Guest_House in Midong village .

단계 200에서, 명시적 어휘정렬 정보를 추출한다. 어휘정렬 정보를 추출하는 수단으로 IBM Model 4(GIZA++)과 함께 grow-diag-final-and 휴리스틱 알고리즘(Koehn'03)을 사용하였고, 다음의 예시와 같이 추출되었다.

[어휘정렬 정보] 1-1(그리고-And) 2-2(우리-We) 4-10(미동-Midong) 5-11(마을-village) 6-6(에-at) 7-9(있는-in) 8-7(이쁜이 게스트 IPUNY) 8-8(이쁜이 게스트 Guest House) 9-8(하우스-Guest House) 10-5(를-room) 11-3(예약했다-booked) 11-5(예약했다-room) 12-12(.-.)

여기서 8-7, 8-8, 9-8의 경우, 원문언어의 어휘 경계와 대역언어의 어휘 경계가 잘못 나뉘어져 중복으로 연결되어 있다. <방법 1>에서는 원문 어휘와 대역 어휘가 1:1 또는 1:N으로 연결된 경우만 허용하였으나, 본 발명에서는 차이로 N:1, N:N을 추가로 허용할 수 있다. 이는 단계 500에서 그 처리 방법을 예시로 설명한다.

단계 300에서, 단계 100의 결과물은 아래와 같이 부분어휘(sub-word)로 쪼개진다. 다시 원래대로 복원하기 위해, 쪼개진 부분어휘 앞에는 지정된 예약 기호(예를 들어, '+')를 부착하였다.

[한국어] 그리고 우리 는 미 +동 마 +을 에 있 +는 이쁜 +이 +_게스 +트 하우 +스 를 예약 +했 +다 .

[영어] And we book +ed a room at I +P +U +N +Y Gu +est +_Ho +use in Mi +do +ng vill +age .

단계 300의 결과물은 기본적으로 학습 단계에 사용될 어휘 토큰의 완성형태이다. 이제 단계 400에서, 단계 100의 결과물과 단계 300의 결과물을 통해 원문언어의 최종 입력 형태를 완성한다.

[단계 100 결과물 - 입력] 그리고'(1) '우리'(2) '는'(3) '미동'(4) '마을'(5) '에'(6) '있는'(7) '이쁜이 게스트'(8) '하우스'(9) '를'(10) '예약했다'(11) '.'(12)

[단계 300 결과물 - 입력] 그리고 우리 는 미 +동 마 +을 에 있 +는 이쁜 +이 +_게스 +트 하우 +스 를 예약 +했 +다 .

[100고 300이 결합된 단계 400 결과물 - 출력] 그리고^1_B 우리^2_B 는^3_B 미^4_B +동^4_E 마^5_B +을^5_E 에^6_B 있^7_B +는^7_E 이쁜^8_B +이^8_M 게스^8_M +트^8_E 하우^9_B +스^9_E 를^10_B 예약^11_B +했^11_M +다^11_E .^12_B

상기의 예시에서 ^는 부분어휘(sub-word) 부분과 그에 해당하는 원문의 실제 어휘 경계 순서를 일종의 자질(feature)로 부착하여 놓은 것이다. 어휘에 직접 붙어서 변형될 필요는 없으며, 원문의 순서 토큰과 동일한 길이의 자질값 열을 생성하여, 별도로 학습데이터를 구성할 수 있다. 핵심은, 원문의 부분어휘 열과 동일한 길이의 자질값 열을 단계 100에서 추출한 원래의 어휘 경계 정보를 구성한다는 데 있다. 숫자 뒤의 B, M, E는 각각 시작, 중간, 끝을 알리는 일종의 예약어로 작용한다.

이제 단계 500에서, 단계 300에서 추출된 대역언어 부분어휘열 결과물, 그리고 단계 200에서 추출된 정렬정보를 혼합하는 과정이 실시된다. 실시된 단계 500의 결과물 예시는 다음과 같다:

[단계 200 결과물 - 입력] 1-1(그리고-And) 2-2(우리-We) 4-10(미동-Midong) 5-11(마을-village) 6-6(에-at) 7-9(있는-in) 8-7(이쁜이 게스트 IPUNY) 8-8(이쁜이 게스트 Guest House) 9-8(하우스-Guest House) 10-5(를-room) 11-3(예약했다-booked) 11-5(예약했다-room) 12-12(.-.)

[단계 300 대역언어 결과물 - 입력] And we book +ed a room at I +P +U +N +Y +_Gu +est +_Ho +use in Mi +do +ng vill +age .

[200, 300이 결합된 단계 500 결과물 - 출력] And^1_B we^2_B book^11_B +ed^11_E a^NONE_B room^NONE_B at^6_B I^8,9_B +P^8,9_M +U^8,9_M +N^8,9_M +Y^8,9_M +_Gu^8,9_M +est^8,9_M +_Ho^8,9_M +use^8,9_E in^7_B Mi^4_B +do^4_M +ng^4_E vill^5_B +age^5_E .^11_B

단계 200에서 정렬 정보가 없는 경우(a^NONE_B)는 보는 바와 같이, NONE이라는 예약어를 사용하여 연결 정보가 없음을 알린다. 또한, 연결 정보가 존재하나 연속하지 않은 경우(book^11_B, +ed^11_E, 그리고 room^NONE_B)와 같이, 연속하지 않고 뒤에 떨어진 요소에는 연결 정보를 제거하도록 한다. 또한, 중복해서 걸쳐져 있는 경우(N:N 연결, 8-7, 8-8, 9-8) 연속하는 경우에는 걸쳐져 있는 원문의 순서 열을 같이 표현한다. 실시예에서는 쉼표(',')을 순서열의 분리 기호로 사용하였다. 이것 역시 단계 400와 마찬가지로, 대역 부분어휘열을 직접 치환시켜 존재할 필요가 없으며, 대신에 대역 부분어휘열과 동일한 길이의 자질 값으로 준비하면 된다.

다음 도 3을 참조하여 상기에 설명한 방법으로 준비된 학습데이터를 학습하는 장치를 설명한다. 이 학습 장치는 신경망 네트워크로 구현할 수 있다. 도 3은 기존의 장단기 메모리기반 재귀적 인공신경망(RNN-LSTM) 구조를 기반으로 구현한 신경망 구조로, 종래 기술과 다른 다음과 같은 특징을 갖는다.

(1) 학습에 사용되는 원문부 어휘열 및 대역부 어휘열의 워드 임베딩 벡터(word embedding vector) 치환과 함께, 각각의 어휘열 순서에 맞는 자질(feature)을 추가시키기 위한 자질 임베딩 벡터(feature embedding vector) 치환을 수행하는 N-차원의 임베딩 벡터(도3의 10, 20).

상기에 도 2를 참조하여 기술한 과정을 통해 생성된 단계 400과 단계 500의 결과로부터, 원문 및 대역부 어휘열을 구성하는 각각의 부분어휘 토큰은 도 3에 나타낸 워드 임베딩벡터(10, 20)에 부여되어, 신경망 학습을 위한 벡터로 1:1 치환되어서, '14'번 계층의 S₀~ S_m-1과 '24'번 계층의 T_-1~ T_n을 구성하는 요소가 된다. 한편, 단계 400과 500에 부착되어 있는 명시적 어휘정렬 정보는 도 3의 자질 임베딩벡터(12, 22)를 통해 벡터 치환되어서 각각 '14', '24' 계층을 구성하는 FS 및 FT로 치환된다.

(2) 치환된 자질 임베딩 벡터와 해당 위치의 입력 어휘에 의한 워드 임베딩 벡터를 결합하는 자질 결합 계층(16, 26).

도 3의 '14' 계층에 해당하는 각각의 벡터는, 어휘 토큰의 순서(시계열)에 따라 자질 결합 계층(16)을 통해 인코더(18)의 입력 요구 조건에 맞게 결합된다. 결합 방법은 시계열 기준으로 동일한 부분어휘 토큰을 가리키는 부분어휘('14'의 S)와 그와 연관된 정렬 정보('14'의 FS)를 단순 결합하여 긴 길이의 벡터로 생성하는 단순 결합(concatenation) 방식을 사용할 수 있지만, 이외에 두 벡터의 합계(sum)나 평균(average)으로도 계산할 수 있다. 디코더(28)의 입력으로 들어가기 위한 '24' 계층은 자질 결합 계층(16)의 방법과 동일한 행동을 수행하는 자질 결합 계층(26)을 통해 결합되어 디코더(28)로 전달된다. 단, 디코더(28)에서는 학습 단계에서 부여되는 대역 문장의 어휘에 삽입하는 것이 아닌, 다음 대역 문장의 어휘에 이전 어휘의 자질을 결합한다.

(3) 디코더(28)는 바로 직전의 어휘와 현재 어휘, 그리고 직전의 자질을 결합, 학습하고, 학습 단계에서 예측된 어휘열(도 3, '32'의 T₀~ T_n+1)의 바로 직전 어휘를 가리키는 명시적 정렬 정보 자질 벡터(explicit alignment-feature vector, '32'의 FT_-1~ FT_n)를 종래기술과 다르게 추가적으로 생성한다. 최종 출력 전, 예측이 종료되면 '32'의 T_n+1은 문장의 끝을 가리키는 심볼로 치환되기 때문에, '32'를 구성하는 FT_-1을 제거하고 FT₀~ FT_n까지를 '32'의 T₀~ T_n과 같이 반환한다.

이러한 구조상의 특징을 제외하고는 종래기술과 유사한 인공신경망 구조를 사용할 수 있다. 즉, 종래 기술의 구성 요소 중 인코더(18)는 하위의 입력(16)으로부터 누적 계산을 통해 신경망 학습을 위한 원문 입력 데이터(400)의 압축된 정보를 생성한다. 인코더(18)로부터 나온 결과는 대역부 입력(26)과 함께 디코더(28)로 전달되어 원문 입력에 맞는 예측 결과를 순차, 반복적으로 계산하여, 한 단계에 하나씩 '32'를 구성하기 위한 압축 정보를 생성한다. Softmax 레이어(30)는 디코더(28)가 생성한 압축 정보를 입력으로 받아, 최대 확률을 갖는 대역 어휘 토큰과 그 직전 어휘의 정렬 정보로 치환 가능한 벡터열로 변환하여 '32'를 생성하게 된다. 이러한 종래 기술의 구성요소는 그 성능 향상을 위해, 상기에서 설명하는 요소를 기본적으로 활용하고, 거기에 부가적인 신경망 계층이 추가될 수 있다. 이러한 부가 신경망 계층의 예시로는 주의집중 계층(attention layer)를 들 수 있다. 이러한 신경망 내 계층 추가에 의한 구성의 변경은 본 발명의 기술적 범위를 해치지 않고 허용된다.

다음, 상기의 방법에 의해 학습된 신경망 모델을 바탕으로 예측된 대역 어휘 열과, 정렬정보 자질을 통해 개선된 결과물을 내놓기 위한 보정 방법을 다음의 예를 통해 설명한다. 본 설명에서는 아래의 문장을 예시로 들어 보정 방법을 기술한다.

[원문-한국어] 상해에서는 마글레프를 타면 됩니다.

입력이 들어오면, 학습데이터를 처리할 때와 동일한 방법으로 기본 어휘 분리 및 부분어휘(sub-word) 단위로 분할하는 전처리를 거친다.

[기본 어휘 분리 결과 예시] 상해 에서는 마글레프 를 타면 됩 니다 .

[부분어휘 분리 결과 예시] 상해 에서는 마 +글 +레프 를 타 +면 됩 니 +다 .

그런 다음, 기본 어휘 분리 결과의 어휘 순서열을 바탕으로 입력 데이터를 완성한다.

[입력 데이터 완성 예시] 상해^1_B 에서는^2_B 마^3_B +글^3_M +레프^3_E 를^4_B 타^5_B +면^5_E 됩^6_B 니^7_B +다^7_E .^8_B

신경망 학습 모델에 의해서 번역이 수행되고, 결과가 다음과 같이 나왔을 때,

In^2_B sang^1_B +he^1_E ,^NONE_B you^NONE_B can^6_B take^5_B mag^3_B +hreb^3_E .^NONE_B

원문의 어휘 중에서 사용자가 정의한 사전, 예를 들어 설명하자면, 상해=Shanghai로 번역하고자 하는 사용자 사전이 있을 때, 입력된 원문에서 '상해'의 어휘 ID를 찾는다. 즉, 본 예시에서는 '상해'의 어휘 ID가 1번이고, 이에 따라 대역부에서 원문의 1번 어휘에 연결된 대역어를 찾아내도록 한다.

여기서 찾아진 부분어휘 열이 'sang' '+he' 인 경우, 이를 결합하여 'sanghe'로 만든 뒤, 사용자가 정의한 사전 내 값을 참조하여, 값이 있을 경우, 이를 'Shanghai'로 덮어 쓴다. 이 과정이 끝나면, 번역 결과는 다음과 같이 된다:

[사용자 사전에 의한 보정 결과] In Shanghai , you can take mag +hreb .

이제 미등록 어휘를 찾기 위해, 부분어휘 분리 결과를 결합하여 보정할 후보를 탐색한다. 학습데이터에 사용된 대역 어휘로 구성된 사전을 사용하여, 학습데이터에 사용되지 않은 어휘가 나타나는지 여부를 참조한다. 만약 'maghreb '라는 어휘가 학습데이터 내 대역 어휘로 한번도 나타나지 않으면, 이 ID에 연결되어 있는 입력 원문 어휘를 찾아낸다. 3_B, 3_E로 연결된 어휘는 '마글레프' 이므로, 미리 준비되어 있는 한-영 사전 데이터를 활용하여 '마글레프'의 대역어를 찾는다.

만약 대역어가 존재하지 않는 경우, 번역 결과를 다음과 같이 그대로 반환한다.

[대역어가 없는 경우, 부분어휘 단위의 번역 결과를 결합한 결과물] In Shanghai, you can take maghreb.

만약 대역어가 '마글레프=Maglev'로 존재하는 경우, 다음과 같이 번역 결과를 보정한다.

[미등록어 사전에 의한 후보 검출 및 다른 외부 어휘 사전에 의한 보정 후 결과물] In Shanghai, you can take Maglev.

이와 같이 결과물이 보정된다.

이상에서 본 발명을 제한적이지 않고 예시적인 실시예를 통해 설명하였다. 이들 실시예는 본 발명의 사상과 본질을 벗어나지 않는 범위에서, 첨부된 특허청구범위 내에서 의도적으로 변형, 변경, 수정할 수 있음은 물론이다.

Claims

원문 및 이 원문에 대한 번역문을 포함한 신경망 기계번역을 위한 학습데이터를 생성하는 방법에 있어서,
(1) 학습에 사용될 이중언어 말뭉치의 문장으로부터 형태소 분석 또는 개체명 인식 단계를 통한 기본 어휘 경계를 분리하는 단계;
(2) 학습에 사용될 이중언어 말뭉치의 문장으로부터 명시적 어휘정렬 정보를 추출하는 단계;
(3) 단계 1에 의해 분리된 어휘 경계를 다시 부분어휘 토큰으로 분리하는 단계;
(4) 단계 1에 의해 처리된 원문언어 결과물과, 단계 3에 의해 처리된 원문언어 결과물을 사용하여, 새로운 원문언어 학습데이터를 생성하는 단계;
(5) 단계 2에서 생성된 명시적 어휘정렬 정보와, 단계 1 및 3에 의해 처리된 대역언어 결과물을 사용하여, 새로운 대역언어 학습데이터를 생성하는 단계를 포함하는 신경망 기계번역을 위한 학습데이터 생성 방법.
제1항에 있어서, 상기 단계 (1) 및 단계 (3)은 원문언어 및 대역언어 모두에 적용되는 것을 특징으로 하는 신경망 기계번역을 위한 학습데이터 생성 방법.
제1항에 있어서, 상기 단계 (1) 및 단계 (3)은 원문언어 및 대역언어 중 하나의 언어에 적용되는 것을 특징으로 하는 신경망 기계번역을 위한 학습데이터 생성 방법.
제1항에 있어서, 상기 단계 (4)는
입력된 원문언어의 문장을 구성하는 부분어휘 토큰을 직접 치환하지 않고, 단계 (1)에서 추출된 어휘순서 정보를 단계 (3)에서 분리된 부분어휘 토큰마다 추가 정보로서 삽입하고 표현하는 것을 특징으로 하는 신경망 기계번역을 위한 학습데이터 생성 방법.
제1항에 있어서, 상기 단계 (5)는
대역언어 문장을 구성하는 부분어휘 토큰을 직접 치환하지 않고, 단계 (2)에서 추출된 명시적 어휘정렬 정보와 단계 (1)에 의해 처리되어 생성된 원문언어 문장에 부착된 어휘순서 정보를 결합하고, 단계 (3)에 의해 생성된 대역 문장내 부분어휘 토큰마다 변형된 정렬 정보를 삽입하고 표현하는 것을 특징으로 하는 신경망 기계번역을 위한 학습데이터 생성 방법.
제1항 내지 제5항 중 어느 한 항에 기재된 학습데이터 생성 방법에 의해 생성된 학습데이터를 기초로 신경망을 학습시키고, 학습된 신경망을 사용하여 대역문과 원문의 연결 관계 생성을 수행하는 신경망을 이용한 신경망 기계번역 방법.
제6항에 있어서, 상기 학습 및 대역문-원문의 연결 관계 생성을 수행하는 신경망은,
상기 단계 (4) 또는 단계 (5)의 결과로부터, 원문 및 대역부 어휘열을 구성하는 각각의 부분어휘 토큰을 신경망 학습을 위한 워드 임베딩 벡터로 1:1 치환하는 단계,
상기 단계 (4) 또는 단계 (5)의 결과에 부착된 명시적 어휘정렬 정보를 각각의 어휘열 순서에 맞는 자질을 추가시키기 위하여 자질 임베딩 벡터 치환을 수행하는 단계;
치환된 자질 임베딩 벡터와 해당 위치의 입력 어휘에 의한 워드 임베딩 벡터를 결합하는 단계; 그리고
바로 직전의 어휘와 현재 어휘, 그리고 직전의 자질을 결합·학습하고, 학습 단계에서 예측된 어휘열의 바로 직전 어휘를 가리키는 명시적 정렬정보 자질 벡터를 생성하는 단계를 수행하는 것을 특징으로 하는 신경망 기계번역 방법.
제7항에 있어서, 상기 자질 임베딩 벡터와 워드 임베딩 벡터를 결합하는 단계는,
시계열 기준으로 동일한 부분어휘 토큰을 가리키는 부분어휘와 그와 연관된 정렬 정보를 단순 결합하여 긴 길이의 벡터로 생성하는 단순 결합(concatenation) 방식으로 수행되는 것을 특징으로 하는 신경망 기계번역 방법.
제1항 내지 제5항 중 어느 한 항에 기재된 학습데이터 생성 방법으로 학습데이터를 생성하는 학습데이터 처리부와,
상기 학습데이터 처리부로부터 생성된 학습데이터를 기초로 신경망을 학습시키고, 대역문과 원문의 연결 관계 생성을 수행하는 데 이용되는 자동 번역 모델을 생성하는 모델 생성부를 포함하는 신경망을 이용한 신경망 기계번역 장치.
제9항에 있어서, 상기 모델 생성부는
상기 단계 (4) 또는 단계 (5)의 결과로부터, 원문 및 대역부 어휘열을 구성하는 각각의 부분어휘 토큰을 신경망 학습을 위한 워드 임베딩 벡터로 치환하는 워드 임베딩 벡터,
상기 단계 (4) 또는 단계 (5)의 결과에 부착된 명시적 어휘정렬 정보를 각각의 어휘열 순서에 맞는 자질을 추가시키기 위하여 자질 임베딩 벡터 치환을 수행하는 자질 임베딩 벡터;
치환된 자질 임베딩 벡터와 해당 위치의 입력 어휘에 의한 워드 임베딩 벡터를 결합하는 결합 계층; 그리고
바로 직전의 어휘와 현재 어휘, 그리고 직전의 자질을 결합·학습하고, 학습 단계에서 예측된 어휘열의 바로 직전 어휘를 가리키는 명시적 정렬정보 자질 벡터를 생성하는 디코더를 포함하는 신경망 기계번역 장치.
제10항에 있어서, 상기 자질 임베딩 벡터와 워드 임베딩 벡터를 결합하는 결합 계층은,
시계열 기준으로 동일한 부분어휘 토큰을 가리키는 부분어휘와 그와 연관된 정렬 정보를 단순 결합하여 긴 길이의 벡터로 생성하는 단순 결합(concatenation) 방식으로 수행되는 것을 특징으로 하는 신경망 기계번역 장치.