KR20210028041A

KR20210028041A - 전자 장치 및 그 제어 방법

Info

Publication number: KR20210028041A
Application number: KR1020190151482A
Authority: KR
Inventors: 사티쉬 인두르티; 한효정; 이범석; 정인수; 니킬 쿠마르
Original assignee: 삼성전자주식회사
Priority date: 2019-09-03
Filing date: 2019-11-22
Publication date: 2021-03-11

Abstract

전자 장치가 개시된다. 전자 장치는 음성 번역 모델이 저장된 메모리 및 메모리와 전기적으로 연결된 프로세서를 포함한다. 프로세서는 제1 언어의 음성 및 제1 언어의 음성에 대응되는 텍스트 간 변환과 관련된 제1 정보 및, 제1 언어의 텍스트 및 제1 언어의 텍스트에 대응되는 제2 언어의 텍스트 간 변환과 관련된 제2 정보에 기초하여 음성 번역 모델을 학습시키며, 음성 번역 모델은 제1 언어의 음성을 제2 언어의 텍스트로 변환하여 출력하도록 학습된다.

Description

전자 장치 및 그 제어 방법{Electronic device and Method for controlling the electronic device thereof}

본 개시는 전자 장치 및 그 제어 방법에 관한 것으로, 음성 번역을 이용하여 사용자 음성에 대한 번역을 수행할 수 있는 전자 장치 및 그 제어 방법에 관한 것이다.

최근 인공 지능 시스템이 다양한 분야에서 이용되고 있다. 특히, 인공 지능 시스템은 다양한 언어를 번역하는 분야에서도 널리 이용되고 있다.

종래에는 제1 언어로 입력된 사용자 음성을 제2 언어의 텍스트로 번역하기 위해 음성 인식 모델 및 기계 번역 모델을 이용하였다. 예를 들어, 제1 언어의 사용자 음성을 제1 언어의 텍스트로 변환하고, 변환된 제1 언어의 텍스트를 제2 언어의 텍스트로 번역하였다.

다만, 이 경우 두 가지 모델을 이용함에 따라 필요한 리소스가 증가되어 사용자가 번역된 결과 텍스트를 획득하기까지 상대적으로 긴 시간이 소요되는 문제와 각 모델을 거치며 오류가 악화되는 문제가 있었다.

본 개시는 상술한 문제점을 해결하기 위해 안출된 것으로, 본 개시의 목적은 음성 번역 모델을 이용하여 제1 언어의 음성을 제2 언어로 종단간 번역하여 제공할 수 있는 전자 장치 및 이의 제어 방법에 관한 것이다.

본 개시의 일 실시 예에 따른, 전자 장치는, 음성 번역 모델이 저장된 메모리 및 상기 메모리와 전기적으로 연결된 프로세서를 포함한다.

상기 프로세서는 제1 언어의 음성 및 상기 제1 언어의 음성에 대응되는 텍스트 간 변환과 관련된 제1 정보 및, 상기 제1 언어의 텍스트 및 상기 제1 언어의 텍스트에 대응되는 제2 언어의 텍스트 간 변환과 관련된 제2 정보에 기초하여 상기 음성 번역 모델을 학습시킬 수 있다.

상기 음성 번역 모델은 상기 제1 언어의 음성을 상기 제2 언어의 텍스트로 변환하여 출력하도록 학습될 수 있다.

여기서, 상기 음성 번역 모델은 복수의 신경망 레이어를 포함할 수 있다.

상기 프로세서는 상기 복수의 신경망 레이어 각각에 대응되는 가중치 정보를 상기 제1 및 제2 정보에 기초하여 메타 학습(meta learning)시킬 수 있다.

상기 프로세서는 상기 학습된 가중치 정보를 상기 음성 번역 모델에 대응되도록 파인 튜닝(fine tuning)할 수 있다.

상기 프로세서는 상기 제1 정보, 상기 제2 정보 및 상기 제2 언어의 음성 및 상기 제2 언어의 음성에 대응되는 텍스트 간 변환과 관련된 제3 정보에 기초하여 상기 음성 번역 모델을 학습시킬 수 있다.

여기서, 상기 메타 학습은 Model-agnostic meta-learning (MAML) 방식일 수 있다.

상기 제1 정보는 상기 제1 언어의 음성 및 상기 제1 언어의 음성에 대응되는 텍스트를 포함하는 제1 샘플 데이터에 기초하여 획득되며, 상기 제2 정보는 상기 제1 언어의 텍스트 및 상기 제1 언어의 텍스트에 대응되는 제2 언어의 텍스트를 포함하는 제2 샘플 데이터에 기초하여 획득될 수 있다.

상기 음성 번역 모델은, 시퀀스-투-시퀀스(Sequence-to-Sequence) 모델을 이용하여 학습될 수 있다.

상기 학습된 음성 번역 모델은 상기 제1 언어의 음성이 상기 음성 번역 모델을 통해 변환된 상기 제2 언어의 텍스트 및 상기 제1 언어의 음성에 상기 제1 정보 및 상기 제2 정보를 적용하여 획득된 상기 제2 언어의 텍스트를 비교하여 업데이트될 수 있다.

상기 제1 정보는 상기 제1 언어의 음성 및 상기 제1 언어의 음성의 대응되는 텍스트 간 변환 규칙(rule)에 기초하여 획득된 정보를 포함하고, 상기 제2 정보는 상기 제1 언어의 텍스트 및 상기 제1 언어의 텍스트에 대응되는 제2 언어의 텍스트 간 변환 규칙(rule)에 기초하여 획득된 정보를 포함할 수 있다.

상기 음성 번역 모델은 단일 인공 지능 모델로 구현될 수 있다.

한편, 본 개시의 일 실시 예에 따른, 음성 번역 모델이 저장된 전자 장치의 제어 방법은, 제1 언어의 음성 및 상기 제1 언어의 음성에 대응되는 텍스트 간 변환과 관련된 제1 정보 및, 상기 제1 언어의 텍스트 및 상기 제1 언어의 텍스트에 대응되는 제2 언어의 텍스트 간 변환과 관련된 제2 정보를 획득하는 단계 및 상기 제1 정보 및 상기 제2 정보에 기초하여 상기 음성 번역 모델을 학습시키는 단계를 포함한다.

여기서, 상기 음성 번역 모델은 상기 제1 언어의 음성을 상기 제2 언어의 텍스트로 변환하여 출력하도록 학습될 수 있다.

상기 전자 장치의 제어 방법은 상기 음성 번역 모델은 복수의 신경망 레이어를 포함하고, 상기 복수의 신경망 레이어 각각에 대응되는 가중치 정보를 상기 제1 및 제2 정보에 기초하여 메타 학습(meta learning)시키는 단계를 더 포함할 수 있다.

상기 전자 장치의 제어 방법은 상기 학습된 가중치 정보를 상기 음성 번역 모델에 대응되도록 파인 튜닝(fine tuning)하는 단계를 더 포함할 수 있다.

상기 음성 번역 모델을 학습시키는 단계는 상기 제1 정보, 상기 제2 정보 및 상기 제2 언어의 음성 및 상기 제2 언어의 음성에 대응되는 텍스트 간 변환과 관련된 제3 정보에 기초하여 상기 음성 번역 모델을 학습시킬 수 있다.

상기 메타 학습은 Model-agnostic meta-learning (MAML) 방식일 수 있다.

상기 음성 번역 모델은 시퀀스-투-시퀀스(Sequence-to-Sequence) 모델을 이용하여 학습될 수 있다.

상술한 바와 같이 본 개시의 다양한 실시 예에 따르면, 제1 언어의 음성을 제2 언어의 텍스트로 변환하는 음성 번역에 대한 학습 데이터의 양이 작더라도 음성 인식 데이터, 텍스트 간 번역 데이터를 이용하여 음성 번역 모델을 학습시킬 수 있다.

이에 따라 음성 번역 작업의 정확도가 개선될 수 있다.

도 1은 본 개시의 일 실시 예에 따른 음성 번역을 간략하게 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 도면이다.
도 3은 본 개시의 일 실시 예에 따른 가중치 정보가 학습되는 과정을 설명하기 위한 도면이다.
도 4는 본 개시의 일 실시 예에 따른 시퀀스-투-시퀀스 구조를 설명하기 위한 도면이다.
도 5는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 도시한 블록도이다.
도 6은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

이하에서는 도면을 참조하여 본 개시에 대해 더욱 상세히 설명하기로 한다.

도 1은 본 개시의 일 실시 예에 따른 음성 번역을 간략하게 설명하기 위한 도면이다.

전자 장치(100)는 입력된 사용자 음성을 타겟 언어로 번역하는 음성 번역(Speech Translation) 모델을 포함할 수 있다. 여기서, 음성 번역 모델은 제1 언어로 입력된 음성을 타겟 언어인 제2 언어의 텍스트로 변환하는 모델일 수 있다. 한편, 전자 장치(100)는 스마트폰, 태블릿 PC, 이동 전화기, 영상 전화기, 전자책 리더기, 데스크탑 PC, 랩탑 PC, 넷북 컴퓨터, 워크스테이션, 서버, PDA, PMP(portable multimedia player), MP3 플레이어, 의료기기, 카메라, 가전 제품(예로, TV, 냉장고 등) 또는 웨어러블 장치 등으로 구현될 수 있다.

한편, 제1 언어의 음성을 제2 언어로 번역하기 위해 음성 번역 모델이 학습될 필요가 있는데, 이 경우 제1 언어의 음성이 제2 언어의 텍스트로 변환되는 데이터를 학습 데이터로 이용하여 음성 번역 모델이 학습되는 것이 바람직하다. 다만, 이에 대한 학습 데이터가 작은 경우, 음성 인식 모델을 통해 제1 언어의 음성이 제1 언어의 텍스트로 변환되는 데이터 및 기계 번역 모델을 통해 제1 언어의 텍스트가 제2 언어의 텍스트로 변환되는 데이터를 학습 데이터로 이용하여 음성 번역 모델이 학습될 수 있는데, 이에 관하여는 하기에서 자세히 설명하도록 한다.

도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 도면이다.

도 2에 따르면, 전자 장치(100)는 메모리(110) 및 프로세서(120)를 포함한다.

도 2에 도시된 바와 같이, 메모리(110)는 음성 번역 모델을 저장할 수 있다. 여기서, 음성 번역(Speech Translation) 모델은 제1 언어의 음성을 제2 언어의 텍스트로 변환하는 인공지능 모델일 수 있다.

인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 업데이트될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.

또한, 메모리(110)는 음성 번역 모델을 학습하기 위한 학습 데이터로서 제1 언어의 음성이 제2 언어의 텍스트로 변환되는 데이터를 저장할 수 있다.

또한, 메모리(110)는 음성 인식 모델을 통해 제1 언어의 음성이 제1 언어의 텍스트로 변환되는 데이터, 제2 언어의 음성이 제2 언어의 텍스트로 변환되는 데이터 및 기계 번역 모델을 통해 제1 언어의 텍스트가 제2 언어의 텍스트로 변환되는 데이터를 저장할 수 있다.

여기서, 음성 인식 모델은 음성을 텍스트로 변환하는 모델로서, 자동 음성 인식(automatic speech recognition, ASR) 모델로 구현될 수 있다. 음성 인식 모델은 음향(acoustic) 모델 및 언어(language) 모델을 포함할 수 있으며, 제1 언어에 대한 음성 인식 모델 및 제2 언어에 대한 음성 인식 모델은 서로 다른 음향 모델 및 언어 모델을 포함할 수 있다. 일 실시 예에 따르면, 외부 음성 인식 모델을 통해 제1 언어의 음성이 제1 언어의 텍스트로 변환된 데이터 및 제2 언어의 음성이 제2 언어의 텍스트로 변환된 데이터가 수신되어 메모리(110)에 저장될 수 있다.

기계 번역 모델은 제1 언어의 텍스트를 제2 언어의 텍스트로 변환하는 모델로서, 신경망 기계 번역(Neural Machine Translation, NMT) 모델로 구현될 수 있다. 일 실시 예에 따르면, 외부 기계 번역 모델을 통해 제1 언어의 텍스트가 제2 언어의 텍스트로 변환된 데이터가 수신되어 메모리(110)에 저장될 수 있다.

다만, 이에 한정되는 것은 아니며 음성 인식 모델 및 기계 번역 모델이 전자 장치(100)에 구비될 수도 있다.

한편, 프로세서(120)의 제어에 따라 메모리(110)(예를 들어, 비휘발성 메모리)에 저장된 음성 번역 모델은 프로세서(120)의 내부 메모리(예를 들어, 휘발성 메모리)에 로딩될 수 있다.

프로세서(120)는 메모리(110)와 전기적으로 연결되어 전자 장치(100)의 전반적인 동작을 제어할 수 있다. 프로세서(120)는 메모리(110)에 저장된 각종 명령어 또는 프로그램을 이용하여 전자 장치(100)의 동작을 전반적으로 제어한다.

프로세서(120)는 제1 언어의 음성 및 제1 언어의 음성에 대응되는 텍스트 간 변환과 관련된 제1 정보 및, 제1 언어의 텍스트 및 제1 언어의 텍스트에 대응되는 제2 언어의 텍스트 간 변환과 관련된 제2 정보에 기초하여 음성 번역 모델을 학습시킬 수 있다.

여기서, 제1 정보는 음성 인식 모델을 통해 획득된 정보일 수 있다. 음성 인식 모델은 음성을 텍스트로 변환하는 모델로서, 자동 음성 인식(automatic speech recognition, ASR) 모델로 구현될 수 있다. 일 실시 예에 따르면, 프로세서(120)는 음성 인식 모델을 통해 제1 언어의 음성이 제1 언어의 텍스트로 변환된 데이터에 기초하여 제1 정보를 획득할 수 있다. 여기서, 제1 언어의 음성이 제1 언어의 텍스트로 변환된 데이터는 외부에 존재하는 오픈 소스일 수 있다. 예를 들어, 강연 영상에서 강연자 음성 및 강연 영상에서 제공하는 자막 정보는 제1 언어의 음성이 제1 언어의 텍스트로 변환된 데이터로서 이용될 수 있다. 다시 말해, 전자 장치(100)에 음성 인식 모델이 구비되지 않아도 전자 장치(100)는 제1 언어의 음성이 제1 언어의 텍스트로 변환된 데이터를 획득할 수 있다. 다만, 경우에 따라 전자 장치(100)에 구비된 음성 인식 모델을 통해 프로세서(120)는 제1 언어의 음성이 제1 언어의 텍스트로 변환된 데이터를 획득할 수도 있다. 제1 정보는 제1 언어의 음성 및 제1 언어의 음성에 대응되는 텍스트를 포함하는 제1 샘플 데이터에 기초하여 획득될 수 있다.

또한, 제2 정보는 기계 번역 모델을 통해 획득된 정보일 수 있다. 기계 번역 모델은 제1 언어의 텍스트를 제2 언어의 텍스트로 변환하는 모델로서, 신경망 기계 번역(Neural Machine Translation, NMT) 모델로 구현될 수 있다. 일 실시 예에 따르면, 프로세서(120)는 기계 번역 모델을 통해 제1 언어의 텍스트가 제2 언어의 텍스트로 변환된 데이터에 기초하여 제2 정보를 획득할 수 있다. 여기서, 제1 언어의 텍스트가 제2 언어의 텍스트로 변환된 데이터는 외부에 존재하는 오픈 소스일 수 있다. 다시 말해, 전자 장치(100)에 기계 번역 모델이 구비되지 않아도 전자 장치(100)는 제1 언어의 텍스트가 제2 언어의 텍스트로 변환된 데이트를 획득할 수 있다. 다만, 경우에 따라 전자 장치(100)에 구비된 기계 번역 모델을 통해 프로세서(120)는 제1 언어의 텍스트가 제2 언어의 텍스트로 변환된 데이터를 획득할 수도 있다. 제2 정보는 제1 언어의 텍스트 및 제1 언어의 텍스트에 대응되는 제2 언어의 텍스트를 포함하는 제2 샘플 데이터에 기초하여 획득될 수 있다.

프로세서(120)는 음성 번역 모델에 포함된 복수의 신경망 레이어 각각에 대응되는 가중치 정보를 제1 정보 및 제2 정보에 기초하여 메타 학습(meta learning)시킬 수 있다. 여기서, 메타 학습이란 학습하는 과정을 학습하는 방법을 의미한다. 본 개시의 일 실시 예에 따른 메타 학습은 Model-agnostic meta-learning (MAML) 방식으로 수행될 수 있다. Model-agnostic meta-learning (MAML)은 일반적으로 학습 데이터가 부족한 상황에서 모델을 학습시키는데 적합한 메타 학습의 방식이다.

다시 말해, 제1 언어의 음성을 제2 언어의 텍스트로 변환되는 데이터의 양이 음성 번역 모델을 학습시키기에 부족한 경우, 상대적으로 용이하게 획득할 수 있는 제1 언어의 음성이 제1 언어의 텍스트로 변환되는 데이터 및 제1 언어의 텍스트가 제2 언어의 텍스트로 변환되는 데이터에 기초하여 Model-agnostic meta-learning이 수행될 수 있다.

한편, 프로세서(120)가 제1 정보 및 제2 정보뿐만 아니라 제2 언어의 음성 및 제2 언어의 음성에 대응되는 텍스트 간 변환과 관련된 제3 정보에도 기초하여 음성 번역 모델을 학습시키는 것이 바람직하다. 다시 말해, 제1 정보, 제2 정보 및 제3 정보에 기초하여 가중치 정보가 학습될 수 있다. 제2 언어의 음성 및 제2 언어의 음성에 대응되는 텍스트 간 변환과 관련된 제3 정보 또한 음성 번역 모델을 학습시키는 학습 데이터로서 이용되는 경우 음성 번역 모델의 정확도가 개선될 수 있기 때문이다.

여기서, 제2 언어의 음성이 제2 언어의 텍스트로 변환된 데이터 또한 외부에 존재하는 오픈 소스일 수 있다. 예를 들어, 출연자 음성 및 이에 대응되는 자막이 존재하는 영상으로부터 획득된 음성 및 자막 정보는 제2 언어의 음성이 제2 언어의 텍스트로 변환된 데이터로 이용될 수 있다.

다시 말해, 전자 장치(100)에 제2 언어에 대한 음성 인식 모델이 구비되지 않아도 전자 장치(100)는 제2 언어의 음성이 제2 언어의 텍스트로 변환된 데이터를 획득할 수 있다. 다만, 경우에 따라 전자 장치(100)에 구비된 음성 인식 모델을 통해 프로세서(120)는 제2 언어의 음성이 제2 언어의 텍스트로 변환된 데이터를 획득할 수도 있다.

한편, 프로세서(120)는 상술한 바에 따라 학습된 가중치 정보를 음성 번역 모델에 대응되도록 파인 튜닝(fine tuning)할 수 있다. 다시 말해, 가중치 정보는 음성 번역 모델에 적합하도록 업데이트될 수 있다. 구체적으로, 가중치 정보는 경사 하강(gradient descent) 방식에 의해 파인 튜닝될 수 있다.

이와 같이, 파인 튜닝된 가중치 정보가 음성 번역 모델에 포함된 복수의 신경망 레이어에 적용되는 방식으로 학습된 음성 번역 모델은 제1 언어의 음성을 제2 언어의 텍스트로 변환하여 출력할 수 있다.

다시 말해, 음성 인식 모델 및 기계 번역 모델을 별도로 구비하지 않고, 단일 인공 지능 모델로 구현되는 음성 번역 모델을 통해 제1 언어의 음성이 제2 언어의 텍스트로 변환될 수 있다. 이에 따라, 불필요한 리소스의 증가가 없어 사용자는 번역된 결과 텍스트를 획득하기까지 상대적으로 짧은 시간이 소요될 수 있다.

한편, 음성 번역 모델은 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq) 모델을 이용하여 학습될 수 있다. 여기서, 시퀀스-투-시퀀스 모델은 입력된 시퀀스로부터 다른 도메인의 시퀀스를 출력하는 구조를 갖는다. 입력 시퀀스를 음성으로 설정하고 출력 시퀀스를 음성에 대한 번역된 텍스트로 설정된 시퀀스-투-시퀀스 구조는 음성 번역 모델에 포함될 수 있다. 시퀀스-투-시퀀스 모델은 인코더 및 디코더를 포함할 수 있다. 인코더는 입력된 음성에 포함된 모든 단어들을 순차적으로 입력 받은 후 모든 단어 정보들을 압축해서 하나의 벡터를 생성할 수 있다. 이와 같은 벡터는 컨텍스트 벡터(context vector)일 수 있다. 입력된 음성의 정보가 하나의 컨텍스트 벡터로 압축되면, 인코더는 컨텍스트 벡터를 디코더로 전송할 수 있다. 디코더는 컨텍스트 벡터를 수신하고, 번역된 단어를 한 개씩 순차적으로 출력할 수 있다. 디코더에 입력된 음성에 대한 정답 텍스트가 입력되어 시퀀스-투-시퀀스 모델이 학습될 수 있다. 이에 관하여는 도 3에서 자세히 설명한다.

한편, 학습된 음성 번역 모델은 제1 언어의 음성이 음성 번역 모델을 통해 변환된 제2 언어의 텍스트 및 제1 언어의 음성에 제1 정보 및 제2 정보를 적용하여 획득된 제2 언어의 텍스트를 비교하여 업데이트될 수 있다.

제1 정보 및 제2 정보는 음성 번역 모델의 학습 데이터로서, 학습된 음성 번역 모델을 통해 출력된 데이터에 비해 상대적으로 정확도가 높을 수 있다. 따라서, 학습된 음성 번역 모델이 출력하는 제2 언어의 텍스트를 제1 정보 및 제2 정보와 비교하여 학습되는 경우 음성 번역 모델의 정확도가 개선될 수 있다.

또한, 음성 번역 모델에 입력되는 제1 언어의 사용자 음성에 대응되는 정답 텍스트가 음성 번역 모델에 입력되는 경우, 음성 번역 모델에서 출력한 제1 언어의 음성에 대응되는 제2 언어의 텍스트 정보와 정답 텍스트를 비교하여 음성 번역 모델이 학습될 수 있다.

한편, 제1 정보는 제1 언어의 음성 및 제1 언어의 음성의 대응되는 텍스트 간 변환 규칙(rule)에 기초하여 획득된 정보를 포함하고, 제2 정보는 제1 언어의 텍스트 및 제1 언어의 텍스트에 대응되는 제2 언어의 텍스트 간 변환 규칙(rule)에 기초하여 획득된 정보를 포함할 수 있다. 다시 말해, 프로세서(120)는 제1 언어의 음성 및 제1 언어의 음성에 대응되는 텍스트 간 변환과 관련된 규칙을 학습하고, 제1 언어의 텍스트 및 제1 언어의 텍스트에 대응되는 제2 언어의 텍스트 간 변환과 관련된 규칙을 학습하여 음성 번역 모델의 가중치 정보를 학습시킬 수 있다.

도 3은 본 개시의 일 실시 예에 따른 가중치 정보가 학습되는 과정을 설명하기 위한 도면이다.

도 3에 따르면, 제1 언어의 음성이 제1 언어의 텍스트로 변환되는 데이터, 제1 언어의 텍스트가 제2 언어의 텍스트로 변환되는 데이터, 제2 언어의 음성이 제2 언어의 텍스트로 변환되는 데이터 및 제2 언어의 텍스트가 제1 언어의 텍스트로 변환되는 데이터에 기초하여 가중치 정보가 학습되는 메타 학습 단계 및 음성 번역(ST) 모델에 대응되도록 가중치 정보가 파인 튜닝되는 단계를 통해 음성 번역 모델이 학습될 수 있다.

한편, 이러한 음성 번역 모델에는 시퀀스-투-시퀀스 구조가 이용될 수 있다. 시퀀스-투-시퀀스(seq2seq) 구조는,　조건　확률(p (y | x,　θ　))을 모델링하여　소스 시퀀스 x = {x　₁, ..., x　_m}를 이용하여 타겟 시퀀스 y = {y1, ..., yn}을 생성한다.　일반적으로 seq2seq 구조는 x에 대응되는 표현인

을 산출하는 인코더(θ_e) 및 인코더의 출력을 판독하고 타겟 언어(제2 언어)의 각 토큰 분포를 예측하는 것과 관련된 디코더(θ_d)를 포함할 수 있다. 로그 가능성(log likelihood)을 최대화하기 위해 D 병렬 시퀀스(D Parallel sequences)의 데이터 세트에 대해 학습한다.

[수학식 1]

,

.

본 개시의 일 실시 예에 따른 음성 인식(automatic speech recognition, ASR) 태스크, 기계 번역(Machine Translation, MT) 태스크(task) 및 음성 번역(Speech Translation, ST) 태스크는 동일한 seq2seq 구조를 공유하여 수행될 수 있다. 기계 번역(MT) 태스크에 대한 입력은 characters 또는 word piece 토큰일 수 있다. 또한, 음성 인식 태스크 및 음성 번역 태스크는 음성 신호가 입력일 수 있다. 여기서, 각 음성 신호는 델타 및 델타-델타 기능으로 쌓인 홉 크기가 10ms인 25ms 윈도우에서 80 채널 로그 멜 필터 뱅크(log mel filterbank) 기능으로 표시될 수 있다. 음성 인식 태스크, 기계 번역 태스크 및 음성 번역 태스크의 출력은 characters 또는 word piece 토큰일 수 있다. seq2seq 구조에 관하여는 도 4에서 자세히 설명한다.

도 4는 본 개시의 일 실시 예에 따른 시퀀스-투-시퀀스 구조를 설명하기 위한 도면이다.

도 4에 따르면, seq2seq 구조에 압축 레이어(compression layer)가 추가되어 음성 인식 태스크, 기계 번역 태스크 및 음성 번역 태스크에 적용될 수 있다. 음성　시퀀스는 일반적으로 텍스트 시퀀스보다 몇 배 더 긴 멜 뱅크(mel filterbank) 기능을 사용하여 표현될 수 있다. 따라서, 시간과 주파수 차원 모두에 대해 2 개의 3X3 CNN(Convolutional Neural Network) 레이어를 보폭(stride) 2로 적층하여 길이를 압축하고　음성 신호의 구조적 위치를 활용할 수 있다.　이와 같이 압축된 신호는 이후에 인코더의 self-attention 레이어로 전송될 수 있다.　

seq2seq의 인코더 및 디코더 블록은 각각 스택 N과 M의 동일한 레이어로 구성될 수 있다. 인코더의 각 레이어에는 두 개의 하위 레이어인 Multi-Head Attention 메커니즘 및 피드 포워드 네트워크(Feed Forward Networks)가 포함될 수 있다. 또한, 각 디코더 레이어는 세 개의 하위 레이어로 구성될 수 있다.　제 1 및 제 3 서브 레이어는　인코더의 서브 레이어와 유사하고, 추가적인 제2 서브 레이어는 soft-attention 기반 접근법에 기초하여 인코더-디코더 attention (컨텍스트) 벡터를 산출하는데 이용될 수 있다.

다시 도 3으로 돌아와서, 상술한 seq2seq 모델은 학습　데이터가 상대적으로 작은 경우 성능이 저하될 수 있다. 다만, 이러한 문제는 Model　Agnostic Meta Learning(MAML) 알고리즘을 통해 작은 학습 데이터의 모델 및 많은 학습 데이터의 모듈 간 knowledge를 공유하여 해결될 수 있다. MAML의 접근 방식은 작은 학습 데이터의 타겟 모델에 대한 파라미터의 적절한 initialization point θ⁰를 찾기 위해 많은 학습 데이터가 있는 모델을 소스 태스크(task) τ⁰로 설정하는 것일 수 있다. 여기서, 파라미터는 레이어의 가중치와 같은 의미이다.

본 개시의 일 실시 예에 따르면, MAML의 개념은 서로 다른 입출력 모달리티(modality)의 태스크에 대한 메타 학습으로 확장될 수 있다. 예를 들어, 소스 태스크인 음성 인식 및 기계 번역은 각각 음성-텍스트 및 텍스트-텍스트 모달리티일 수 있다. 이후에, 메타 학습 모델의 파라미터(θ^m)로부터 타겟 태스크인 음성 번역 모델을 파인 튜닝할 수 있다. 이러한 프로세스는 하기의 [수학식 2]와 같이 이해될 수 있다.

[수학식 2]

θ^* = Learn(ST;Meta - Learn(ASR, MT)).

ASR 및 MT와 같은 소스 태스크를 이용하여 낮은 자원(작은 학습 데이터) 시나리오를 시뮬레이션하여 ST 태스크에 대한 θ⁰를 찾을 수 있다. θ⁰=　θ^m을 얻기 위해 다음의 메타 오브젝트 함수(

)를 정의할 수 있다.

[수학식 3]

여기서, τ는 하나의 메타 학습 단계를 수행하기 위해 무작위로 샘플링 된 태스크일 수 있다.　D_τ, D_τ'는 τ 데이터 셋에 대한 균일 분포를 따를 수 있다.

경사 하강(gradient descent) 알고리즘을 이용하여 메타 오브젝트 함수를 극대화할 수 있다. 메타 학습 단계마다 {ASR, MT}로부터 랜덤하게 소스 태스크(τ)를 균일하게 샘플링할 수 있다. 선택된 소스 태스크(τ)로부터 독립적으로 D_τ, D_τ'을 샘플링할 수 있다. D_τ를 이용하여 태스크 별 학습을 시뮬레이션하고, D_τ'를 이용하여 결과를 평가할 수 있다. 보조 그래디언트 단계로서 태스크 별 학습을 시뮬레이션하는 단계를 그래디언트 단계라고 한다. 보조 파라미터 (θ^α)는 보조 그래디언트 단계 및 다음과 같은 파라미터 α를 이용하여 업데이트될 수 있다.

[수학식 4]

태스크 별 학습이 수행되면, 이전에 샘플링된 D_τ'에 대해 보조 파라미터 (θ^a)가 평가될 수 있다. 이러한 평가 동안 발생된 로스에 대한 산출된 그래디언트는 메타-그래디언트로 불릴 수 있다. 메타 파라미터(θ^m)는 메타-그래디언트에 의해 업데이트되고, 다음의 [수학식 5]에 의해 산출될 수 있다.

[수학식 5]

여기서, β는 학습률이다. 보조 그래디언트를 통해 메타-그래디언트를 평가할 때 second derivate를 사용할 수 있다. 따라서, vanilla MAML 알고리즘을 이용함으로써, 메타-그래디언트를 계산하는 동안 first-order approximation을 이용할 수 있다.

메타 학습된 파라미터 (θ^m)는 수학식 5를 통해 업데이트되고, 작은 학습 데이터를 이용하여 새로운 학습 태스크를 적용할 수 있다.

vanilla MAML 알고리즘은 서로 다른 출력 모달리티 태스크를 다루지 않을 수 있다. 여기서 제안하는 Modality Agonistic Meta Learning에서는, 입력된 음성 신호의 추가적인 압축 레이어를 이용하고, 입력된 텍스트 시퀀스는 요구되지 않을 수 있다. 기존의 한계를 해결하기 위해 모든 태스크에서 보편적인 어휘를 생성할 수 있다. 또한, 메타 학습 단계에서 MT 태스크를 샘플링 할 때 마다 압축 레이어가 동적으로 비활성화될 수 있다. 즉, MT와 관련된 학습 데이터는 압축 레이어의 파라미터에 영향을 미치지 않을 수 있다.

메타 학습 단계 동안, 파라미터(θ^m)는 ASR을 통한 방대한 음성-텍스트 형태의 학습 데이터 및 MT를 통한 방대한 텍스트-텍스트 형태의 학습 데이터에 노출될 수 있다. 이에 따라, 압축, 인코더, 디코더, 인코더-디코더 attention 및 출력 레이어와 같은 모든 서브 레이어의 파라미터는 각각의 언어 표현 및 번역 관계에 대하여 학습될 수 있다.

따라서, 메타 학습된 파라미터(θ^m)는 ST 태스크에 적합하지는 않지만, 타겟 모델인 ST 태스크를 학습하기 위해 적절한 시작점(starting point)가 될 수 있다. 파인 튜닝 단계에서, 모델 학습은 보조 업데이트없이 일반 뉴럴 네트워크처럼 진행될 수 있다. 제안된 MAML 접근법의 개요(overview)는 하기와 같다.

1 Input: Training examples from source tasks,

T = {ASR, MT} and target ST task.

2 Input: Hyperparameters such as learning rates, α and β

3 Randomly initialize model parameters θ^m.

4 While not done do

5 sample task, τ from T

6 Assign θ^α= θ^m

7 Sample K data points,

from τ

8 compute

_θ ^m

₍D_τ; θ^m) using D_τand θ^m

9 Meta-train: update θ^α

10 sample 1 data points,

from τ

11 compute

_θ ^α

₍D_τ'; θ^α) using D_τ'and θ^m

12 Meta-Test: update θ^m

13 end

14 Assign θ = θ^m

15 while not done do

16 sample m data points,

task

17 compute

_θ

₍D_st; θ) using D_stand θ

18 Finetune: Update θ with gradient descent:

θ = θ -

_θ

₍D_st; θ)

19 end

20 Return: θ

이와 같은 방식을 순차적으로 수행하여 가중치 정보가 학습될 수 있다.

도 5는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 도시한 블록도이다.

도 5에 도시된 바와 같이, 전자 장치(100)는 통신 인터페이스(130), 메모리(110), 마이크(140), 디스플레이(150), 스피커(160), 센서(170) 및 프로세서(120)를 포함할 수 있다. 한편, 도 5에 도시된 전자 장치(100)의 구성은 전자 장치(100)의 유형에 따라 일부 구성이 추가되거나 생략될 수 있음은 물론이다.

메모리(110)는 전자 장치(100)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있다. 특히, 메모리(110)는 비휘발성 메모리 및 휘발성 메모리를 포함할 수 있으며, 예로, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(110)는 프로세서(120)에 의해 액세스되며, 프로세서(120)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 또한, 메모리(110)는 대화 시스템을 동작하기 위한 인공지능 에이전트를 저장할 수 있다. 구체적으로, 전자 장치(100)는 사용자 발화에 대한 응답으로 자연어를 생성하거나 제어 명령을 획득하기 위하여 인공지능 에이전트(Artificial intelligence agent)를 이용할 수 있다. 이때, 인공지능 에이전트는 AI(Artificial Intelligence) 기반의 서비스(예를 들어, 음성 인식 서비스, 비서 서비스, 번역 서비스, 검색 서비스 등)를 제공하기 위한 전용 프로그램이다. 특히, 인공지능 에이전트는 기존의 범용 프로세서(예를 들어, CPU) 또는 별도의 AI 전용 프로세서(예를 들어, GPU, NPU 등)에 의해 실행될 수 있다.

프로세서(120)는 메모리(110)와 전기적으로 연결되어 전자 장치(100)의 전반적인 동작을 제어할 수 있다. 프로세서(120)는 메모리(110)에 저장된 각종 명령어 또는 프로그램을 이용하여 전자 장치(100)의 동작을 전반적으로 제어한다. 특히, 일 실시 예에 따르면, 메인 CPU가 ROM에 저장된 명령어에 따라 프로그램을 RAM에 복사하고, RAM에 액세스하여 해당 프로그램을 실행시킬 수 있다. 여기서, 프로그램은 인공지능 모델 등을 포함할 수 있다.

특히, 본 개시에 따른 인공지능과 관련된 기능은 프로세서(120)와 메모리(110)를 통해 동작된다. 프로세서(120)는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리(110)에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.

기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.

통신 인터페이스(130)는 다양한 유형의 통신 방식에 따라 다양한 유형의 외부 장치와 통신을 수행하는 구성이다. 통신 인터페이스(130)는 와이파이 모듈, 블루투스 모듈, 적외선 통신 모듈 및 무선 통신 모듈 등을 포함할 수 있다. 특히, 프로세서(120)는 통신 인터페이스(130)를 이용하여 각종 외부 장치와 통신을 수행할 수 있다. 이때, 통신 인터페이스(130)는 음성 인식, 기계 번역 및 음성 번역을 위하여 외부 서버와 통신을 수행할 수 있다. 즉, 통신 인터페이스(130)는 음성 인식을 통해 제1 언어의 음성이 제1 언어의 텍스트로 변환된 데이터, 제2 언어의 음성이 제2 언어의 텍스트로 변환된 데이터 및 기계 번역 모델을 통해 제1 언어의 텍스트가 제2 언어의 텍스트로 변환된 데이터, 음성 번역 모델을 통해 제1 언어의 음성이 제2 언어의 텍스트로 변환된 데이터를 외부 서버로부터 수신할 수 있다.

마이크(140)는 사용자의 음성을 입력받기 위한 구성으로서, 전자 장치(100) 내에 구비될 수 있으나, 이는 일 실시 예에 불과할 뿐, 전자 장치(100)의 외부에 전자 장치(100)와 유선 또는 무선으로 연결될 수 있다. 특히, 마이크(140)는 전자 장치(100) 또는 전자 장치(100) 주위의 외부 기기를 제어하기 위한 사용자 음성을 입력받을 수 있다.

디스플레이(150)는 음성 번역 모델로부터 번역된 텍스트를 디스플레이할 수 있다. 특히, 디스플레이(150)는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 디스플레이, PDP(Plasma Display Panel) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 디스플레이(150) 내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다. 한편, 디스플레이(150)는 터치 센서와 결합된 터치 스크린, 플렉서블 디스플레이(flexible display), 3차원 디스플레이(3D display) 등으로 구현될 수 있다.

스피커(160)는 음성 번역 모델을 통해 제1 언어가 번역된 제2 언어의 데이터를 출력하는 구성 요소일 수 있다. 이때, 전자 장치(100)는 스피커(160)와 같은 오디오 출력 장치를 포함할 수 있으나, 오디오 출력 단자와 같은 출력 장치를 포함할 수 있다.

도 6은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

전자 장치(100)는 제1 언어의 음성 및 제1 언어의 음성에 대응되는 텍스트 간 변환과 관련된 제1 정보 및, 제1 언어의 텍스트 및 제1 언어의 텍스트에 대응되는 제2 언어의 텍스트 간 변환과 관련된 제2 정보를 획득할 수 있다(S610).

여기서, 제1 정보는 제1 언어의 음성 및 제1 언어의 음성에 대응되는 텍스트를 포함하는 제1 샘플 데이터에 기초하여 획득되며, 제2 정보는 제1 언어의 텍스트 및 제1 언어의 텍스트에 대응되는 제2 언어의 텍스트를 포함하는 제2 샘플 데이터에 기초하여 획득될 수 있다.

전자 장치(100)는 제1 정보 및 제2 정보에 기초하여 음성 번역 모델을 학습시킬 수 있다(S620).

여기서, 음성 번역 모델은 제1 언어의 음성을 제2 언어의 텍스트로 변환하여 출력하도록 학습되며, 구체적으로 시퀀스-투-시퀀스(Sequence-to-Sequence) 모델을 이용하여 학습될 수 있다.

음성 번역 모델은 복수의 신경망 레이어를 포함하고, 복수의 신경망 레이어 각각에 대응되는 가중치 정보를 제1 및 제2 정보에 기초하여 메타 학습(meta learning)시킬 수 있다. 여기서, 메타 학습은 Model-agnostic meta-learning (MAML) 방식일 수 있다.

전자 장치(100)는 학습된 가중치 정보를 음성 번역 모델에 대응되도록 파인 튜닝(fine tuning)할 수 있다.

한편, 제1 정보는 제1 언어의 음성 및 제1 언어의 음성의 대응되는 텍스트 간 변환 규칙(rule)에 기초하여 획득된 정보를 포함하고, 제2 정보는 제1 언어의 텍스트 및 제1 언어의 텍스트에 대응되는 제2 언어의 텍스트 간 변환 규칙(rule)에 기초하여 획득된 정보를 포함할 수 있다.

상술한 바와 같이 음성 번역 모델이 학습되어 별도의 음성 인식 모델 및 기계 번역 모델을 포함하지 않고도 음성 번역 모델은, 제1 언어의 음성을 제2 언어의 텍스트로 변환하는 단일 인공 지능 모델로 구현될 수 있다.

한편, 전자 장치(100)는 제1 정보, 제2 정보 및 제2 언어의 음성 및 제2 언어의 음성에 대응되는 텍스트 간 변환과 관련된 제3 정보에 기초하여 음성 번역 모델을 학습시키는 것이 바람직하다. 이 경우, 음성 번역 모델의 정확도가 개선될 수 있다.

한편, 본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 개시의 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시 예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 명세서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

본 개시에서 사용된 용어 "부" 또는 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "부" 또는 "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.

본 개시의 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 전자 장치(예: 전자 장치(100))를 포함할 수 있다. 상기 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어 하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

일시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

100 : 전자 장치 110 : 메모리
120 : 프로세서 130 : 통신 인터페이스

Claims

음성 번역 모델이 저장된 메모리; 및
상기 메모리와 전기적으로 연결된 프로세서;를 포함하며,
상기 프로세서는,
제1 언어의 음성 및 상기 제1 언어의 음성에 대응되는 텍스트 간 변환과 관련된 제1 정보 및, 상기 제1 언어의 텍스트 및 상기 제1 언어의 텍스트에 대응되는 제2 언어의 텍스트 간 변환과 관련된 제2 정보에 기초하여 상기 음성 번역 모델을 학습시키며,
상기 음성 번역 모델은,
상기 제1 언어의 음성을 상기 제2 언어의 텍스트로 변환하여 출력하도록 학습되는, 전자 장치.
제1항에 있어서,
상기 음성 번역 모델은,
복수의 신경망 레이어를 포함하고,
상기 프로세서는,
상기 복수의 신경망 레이어 각각에 대응되는 가중치 정보를 상기 제1 및 제2 정보에 기초하여 메타 학습(meta learning)시키는, 전자 장치.
제2항에 있어서,
상기 프로세서는,
상기 학습된 가중치 정보를 상기 음성 번역 모델에 대응되도록 파인 튜닝(fine tuning)하는, 전자 장치.
제2항에 있어서,
상기 프로세서는,
상기 제1 정보, 상기 제2 정보 및 상기 제2 언어의 음성 및 상기 제2 언어의 음성에 대응되는 텍스트 간 변환과 관련된 제3 정보에 기초하여 상기 음성 번역 모델을 학습시키는, 전자 장치.
제2항에 있어서,
상기 메타 학습은 Model-agnostic meta-learning (MAML) 방식인, 전자 장치.
제1항에 있어서,
상기 제1 정보는,
상기 제1 언어의 음성 및 상기 제1 언어의 음성에 대응되는 텍스트를 포함하는 제1 샘플 데이터에 기초하여 획득되며,
상기 제2 정보는,
상기 제1 언어의 텍스트 및 상기 제1 언어의 텍스트에 대응되는 제2 언어의 텍스트를 포함하는 제2 샘플 데이터에 기초하여 획득되는, 전자 장치.
제1항에 있어서,
상기 음성 번역 모델은,
시퀀스-투-시퀀스(Sequence-to-Sequence) 모델을 이용하여 학습되는, 전자 장치.
제1항에 있어서,
상기 학습된 음성 번역 모델은,
상기 제1 언어의 음성이 상기 음성 번역 모델을 통해 변환된 상기 제2 언어의 텍스트 및 상기 제1 언어의 음성에 상기 제1 정보 및 상기 제2 정보를 적용하여 획득된 상기 제2 언어의 텍스트를 비교하여 업데이트되는, 전자 장치.
제1항에 있어서,
상기 제1 정보는,
상기 제1 언어의 음성 및 상기 제1 언어의 음성의 대응되는 텍스트 간 변환 규칙(rule)에 기초하여 획득된 정보를 포함하고,
상기 제2 정보는,
상기 제1 언어의 텍스트 및 상기 제1 언어의 텍스트에 대응되는 제2 언어의 텍스트 간 변환 규칙(rule)에 기초하여 획득된 정보를 포함하는, 전자 장치.
제1항에 있어서,
상기 음성 번역 모델은,
단일 인공 지능 모델로 구현되는, 전자 장치.
음성 번역 모델이 저장된 전자 장치의 제어 방법에 있어서,
제1 언어의 음성 및 상기 제1 언어의 음성에 대응되는 텍스트 간 변환과 관련된 제1 정보 및, 상기 제1 언어의 텍스트 및 상기 제1 언어의 텍스트에 대응되는 제2 언어의 텍스트 간 변환과 관련된 제2 정보를 획득하는 단계; 및
상기 제1 정보 및 상기 제2 정보에 기초하여 상기 음성 번역 모델을 학습시키는 단계;를 포함하며,
상기 음성 번역 모델은,
상기 제1 언어의 음성을 상기 제2 언어의 텍스트로 변환하여 출력하도록 학습되는, 제어 방법.
제11항에 있어서,
상기 음성 번역 모델은,
복수의 신경망 레이어를 포함하고,
상기 복수의 신경망 레이어 각각에 대응되는 가중치 정보를 상기 제1 및 제2 정보에 기초하여 메타 학습(meta learning)시키는 단계;를 더 포함하는, 제어 방법.
제12항에 있어서,
상기 학습된 가중치 정보를 상기 음성 번역 모델에 대응되도록 파인 튜닝(fine tuning)하는 단계;를 더 포함하는, 제어 방법.
제12항에 있어서,
상기 음성 번역 모델을 학습시키는 단계는,
상기 제1 정보, 상기 제2 정보 및 상기 제2 언어의 음성 및 상기 제2 언어의 음성에 대응되는 텍스트 간 변환과 관련된 제3 정보에 기초하여 상기 음성 번역 모델을 학습시키는, 제어 방법.
제12항에 있어서,
상기 메타 학습은 Model-agnostic meta-learning (MAML) 방식인, 제어 방법.
제11항에 있어서,
상기 제1 정보는,
상기 제1 언어의 음성 및 상기 제1 언어의 음성에 대응되는 텍스트를 포함하는 제1 샘플 데이터에 기초하여 획득되며,
상기 제2 정보는,
상기 제1 언어의 텍스트 및 상기 제1 언어의 텍스트에 대응되는 제2 언어의 텍스트를 포함하는 제2 샘플 데이터에 기초하여 획득되는, 제어 방법.
제11항에 있어서,
상기 음성 번역 모델은,
시퀀스-투-시퀀스(Sequence-to-Sequence) 모델을 이용하여 학습되는, 제어 방법.
제11항에 있어서,
상기 학습된 음성 번역 모델은,
상기 제1 언어의 음성이 상기 음성 번역 모델을 통해 변환된 상기 제2 언어의 텍스트 및 상기 제1 언어의 음성에 상기 제1 정보 및 상기 제2 정보를 적용하여 획득된 상기 제2 언어의 텍스트를 비교하여 업데이트되는, 제어 방법.
제11항에 있어서,
상기 제1 정보는,
상기 제1 언어의 음성 및 상기 제1 언어의 음성의 대응되는 텍스트 간 변환 규칙(rule)에 기초하여 획득된 정보를 포함하고,
상기 제2 정보는,
상기 제1 언어의 텍스트 및 상기 제1 언어의 텍스트에 대응되는 제2 언어의 텍스트 간 변환 규칙(rule)에 기초하여 획득된 정보를 포함하는, 제어 방법.
제11항에 있어서,
상기 음성 번역 모델은,
단일 인공 지능 모델로 구현되는, 제어 방법.