WO2022092440A1

WO2022092440A1 - 전자 장치 및 그 제어 방법

Info

Publication number: WO2022092440A1
Application number: PCT/KR2020/018985
Authority: WO
Inventors: 이강욱
Original assignee: 삼성전자주식회사
Priority date: 2020-10-26
Filing date: 2020-12-23
Publication date: 2022-05-05
Also published as: US11875816B2; KR20220055296A; US20220343939A1

Abstract

전자 장치 및 그 제어 방법이 개시된다. 본 전자 장치는, 신경망 모델을 저장하는 메모리 및 입력 데이터를 상기 신경망 모델에 입력하여 출력 데이터를 획득하는 프로세서를 포함하고, 상기 신경망 모델은, 입력된 제1 모달리티에 기초한 제1 출력 데이터 및 입력된 제2 모달리티에 기초한 제2 출력 데이터의 비교에 기초하여, 상기 제2 모달리티가 입력되면, 상기 제1 출력 데이터에 대응되는 상기 제1 모달리티를 출력하도록 학습된 모델이며, 상기 제2 모달리티는, 적어도 하나의 마스킹 요소를 포함할 수 있다.

Description

전자 장치 및 그 제어 방법

본 개시는 전자 장치 및 그 제어 방법에 관한 것으로, 보다 상세하게는 신경망 모델을 통해 출력 데이터를 획득하는 전자 장치 및 그 제어 방법에 관한 것이다.

최근 DNN(Deep Neural Network)과 같은 신경망 모델을 통해 ASR (automatic speech recognition) 기능이나 TTS (text to speech) 기능을 수행하는 전자 장치가 개발되고 있다.

ASR 기능이란, 오디오 신호를 텍스트로 전환하여 출력하는 기능으로써, STT(speech to text)로 불릴 수도 있다. 그리고, TTS 기능이란, 텍스트를 오디오 신호로 전환하여 출력하는 기능이다.

ASR 기능의 수행을 위해 종래 신경망 모델은 입력된 오디오 신호에 대해 적절한 텍스트를 출력하는 학습을 수행하였으며, TTS 기능의 실행을 위해 입력된 텍스트에 대해 적절한 오디오 신호를 출력하는 학습을 수행하였다.

그런데, 이와 같이 텍스트 및 오디오 신호 중 하나를 단독으로 입력하여 신경망 모델을 학습시키는 경우, 음성적 유사성이나 텍스트의 형태적 유사성으로 인해 부적절한 데이터를 출력하는 경우가 발생할 수 있다.

일 예로, 사용자가 사람 이름인 'Tom'을 텍스트로 출력할 목적으로 'Tom'을 발화한 경우임에도, 종래 신경망 모델은 사용자 음성에 대한 출력으로 'Tom'과 음성적으로 유사한 'tomb'을 출력하는 문제가 있었으며, 사용자가 사람 이름인 'Tom'을 오디오 신호로 출력할 목적으로 'Tom'을 텍스트로 입력한 경우임에도, 종래 신경망 모델은 텍스트의 보정 이후 'tomb'에 대한 오디오 신호를 출력하는 문제가 있었다.

본 개시는 상술한 문제점을 해결하기 위해 안출된 것으로써, 본 개시의 목적은 텍스트 및 오디오 신호를 입력 데이터로 신경망 모델을 학습시킴으로써, 음성적 유사성을 가진 오디오 신호나 형태적 유사성을 가진 텍스트를 구분할 수 있는 전자 장치 및 그 제어 방법을 제공함에 있다.

상기 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치는, 신경망 모델을 저장하는 메모리 및 입력 데이터를 상기 신경망 모델에 입력하여 출력 데이터를 획득하는 프로세서를 포함하고, 상기 신경망 모델은, 입력된 제1 모달리티에 기초한 제1 출력 데이터 및 입력된 제2 모달리티에 기초한 제2 출력 데이터의 비교에 기초하여, 상기 제2 모달리티가 입력되면, 상기 제1 출력 데이터에 대응되는 상기 제1 모달리티를 출력하도록 학습된 모델이며, 상기 제2 모달리티는, 적어도 하나의 마스킹 요소를 포함할 수 있다.

상기 제1 및 제2 모달리티 중 하나는 텍스트이고, 다른 하나는 오디오 신호일 수 있다.

상기 신경망 모델은, 상기 텍스트를 복수의 텍스트 요소로 토큰화하고, 상기 오디오 신호를 복수의 오디오 요소로 세그먼트화하며, 상기 복수의 텍스트 요소 중 적어도 하나 또는 상기 복수의 오디오 요소 중 적어도 하나를 마스킹할 수 있다.

상기 제1 모달리티는 제1 텍스트를 포함하고, 상기 제2 모달리티는 제1 오디오 신호를 포함하며, 상기 신경망 모델은, 토큰화 된 복수의 텍스트 요소로 구성된 상기 제1 텍스트와, 세그먼트화 된 복수의 오디오 요소 중 적어도 하나가 마스킹 된 상기 제1 오디오 신호를 입력 데이터로, 상기 제1 텍스트에 대응되는 제2 오디오 신호 및 상기 제1 오디오 신호에 대응되는 제2 텍스트를 출력하고, 상기 제2 오디오 신호 및 상기 제2 텍스트의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호가 입력되면, 상기 제2 오디오 신호에 대응되는 제1 텍스트를 출력하도록 학습된 모델이 될 수 있다.

상기 신경망 모델은, 상기 제2 오디오 신호에 포함된 복수의 오디오 요소 및 상기 제2 텍스트에 포함된 복수의 텍스트 요소의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호에 대한 출력으로, 상기 제2 오디오 신호에 대응되는 텍스트가 출력되지 않은 것으로 판단되면 상기 학습을 수행할 수 있다.

상기 신경망 모델은, 상기 학습을 통해 상기 마스킹 요소에 대응되는 텍스트 요소를 출력할 수 있다.

상기 제1 모달리티는 제1 오디오 신호를 포함하고, 상기 제2 모달리티는 제1 텍스트를 포함하며, 상기 신경망 모델은, 세그먼트화 된 복수의 오디오 요소로 구성된 상기 제1 오디오 신호와, 토큰화 된 복수의 텍스트 요소 중 적어도 하나가 마스킹 된 상기 제1 텍스트를 입력 데이터로, 상기 제1 오디오 신호에 대응되는 제2 텍스트 및 상기 제1 텍스트에 대응되는 제2 오디오 신호를 출력하고, 상기 제2 텍스트 및 상기 제2 오디오 신호의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 텍스트가 입력되면, 상기 제2 텍스트에 대응되는 제1 오디오 신호를 출력하도록 학습된 모델이 될 수 있다.

상기 신경망 모델은, 상기 제2 텍스트에 포함된 복수의 텍스트 요소 및 상기 제2 오디오 신호에 포함된 복수의 오디오 요소의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 텍스트에 대한 출력으로, 상기 제2 텍스트에 대응되는 오디오 신호가 출력되지 않은 것으로 판단되면 상기 학습을 수행할 수 있다.

상기 신경망 모델은, 상기 학습을 통해 상기 마스킹 요소에 대응되는 오디오 요소를 출력할 수 있다.

한편, 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 입력 데이터를 신경망 모델에 입력하는 단계 및 상기 신경망 모델의 연산을 통해, 상기 입력 데이터에 대한 출력 데이터를 획득하는 단계를 포함하고, 상기 신경망 모델은, 입력된 제1 모달리티에 기초한 제1 출력 데이터 및 입력된 제2 모달리티에 기초한 제2 출력 데이터의 비교에 기초하여, 상기 제2 모달리티가 입력되면, 상기 제1 출력 데이터에 대응되는 상기 제1 모달리티를 출력하도록 학습된 모델이며, 상기 제2 모달리티는, 적어도 하나의 마스킹 요소를 포함할 수 있다.

상기 텍스트는 복수의 텍스트 요소로 토큰화되고, 상기 오디오 신호는 복수의 오디오 요소로 세그먼트화되며, 상기 복수의 텍스트 요소 중 적어도 하나 또는 상기 복수의 오디오 요소 중 적어도 하나는 마스킹되어 상기 신경망 모델에 입력될 수 있다.

이상과 같은 본 개시의 다양한 실시 예에 따르면, 음성적 유사성을 가진 오디오 신호나 형태적 유사성을 가진 텍스트를 구분할 수 있는 전자 장치 및 그 제어 방법이 제공될 수 있다.

도 1은 본 개시의 일 실시 예에 따른 전자 장치의 동작을 설명하기 위한 흐름도이다.

도 2는 본 개시의 일 실시 예에 따른 전자 장치를 구성하는 하드웨어/소프트웨어 모듈의 아키텍처를 나타내는 도면이다.

도 3은 본 개시의 일 실시 예에 따른 적어도 하나의 오디오 요소를 마스킹하는 실시 예를 설명하기 위한 도면이다.

도 4는 본 개시의 일 실시 예에 따른 적어도 하나의 텍스트 요소를 마스킹하는 실시 예를 설명하기 위한 도면이다.

도 5는 본 개시의 일 실시 예에 따른 서로 대응되지 않는 텍스트 및 오디오 신호가 입력되는 경우의 동작을 설명하기 위한 도면이다.

도 6은 본 개시의 일 실시 예에 따른 학습 된 신경망 모델을 통해 ASR 기능을 제공하는 실시 예를 설명하기 위한 흐름도이다.

도 7은 본 개시의 일 실시 예에 따른 학습 된 신경망 모델을 통해 TTS 기능을 제공하는 실시 예를 설명하기 위한 흐름도이다.

도 8은 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 블록도이다.

도 9는 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 상세 블록도이다.

도 10은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 도면이다.

먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 기능을 고려하여 일반적인 용어들을 선택하였다. 하지만, 이러한 용어들은 당 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.

또한, 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그에 대한 상세한 설명은 축약하거나 생략한다.

본 개시에 있어서 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 순서 및/또는 중요도에 상관없이 다양한 구성요소들을 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 수 있다.

본 개시에 있어서 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, , "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수도 있다.

본 개시에 있어서 '모듈' 또는 '부'는 적어도 하나의 기능이나 동작을 수행하는 구성으로써, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

나아가, 이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 개시의 실시 예를 상세하게 설명하지만, 본 개시가 실시 예들에 의해 제한되거나 한정되는 것은 아니라 할 것이다.

이하, 첨부된 도면을 참조하여 본 개시를 상세히 설명한다.

본 개시의 일 실시 예에 따른 전자 장치(100)는 신경망 모델을 이용하여 입력 데이터에 대한 출력 데이터를 획득하는 장치로써, 예를 들어, 전자 장치(100)는 데스크탑 PC, 노트북, 스마트 폰, 태블릿 PC, 서버 등일 수 있다. 또는, 전자 장치(100)는 클라우딩 컴퓨팅 환경이 구축된 시스템 자체일 수도 있다. 다만, 전자 장치(100)의 실시 예가 이에 한정되는 것은 아니며, 전자 장치(100)는 인공 지능 모델을 이용한 연산이 가능한 장치라면 어떠한 장치라도 무방하다.

전자 장치(100)는 신경망 모델의 학습을 수행할 수 있다. 여기에서, 신경망 모델은 인공 신경망(neural network)을 포함하는 인공 지능 모델(artificial intelligence model)으로써, 딥러닝(deep learning)에 의해 학습될 수 있다. 예를 들어, 신경망 모델은 심층 신경망(Deep Neural Network, DNN), 순환 신경망(Recurrent Neural Network, RNN), 합성곱 신경망(Convolution Neural Network, CNN) 및 생성적 적대 신경망(Generative Adversarial Networks, GAN) 중 적어도 하나를 포함할 수 있다. 또한, 신경망 모델은 ASR 모델(automatic speech recognition model), TTS 모델(text to speech model) 또는 NLP 모델 (Natural Language Processing model) 등이 될 수 있으나, 반드시 이에 한정되는 것은 아니다.

이와 같은 신경망 모델은 온 디바이스(on-device)의 형태로 전자 장치(100)에 포함될 수 있다. 다만, 이는 일 실시 예로써, 신경망 모델은 전자 장치(100)와 통신 연결된 외부 장치(가령, 서버)에 포함될 수도 있다.

도 1을 참조하면, 전자 장치(100)는 신경망 모델의 학습을 위해 복수의 모달리티를 신경망 모델에 입력(S1110)할 수 있다. 여기에서, 복수의 모달리티는 일 예로 오디오 신호 및 텍스트가 될 수 있다. 그리고, 오디오 신호 및 텍스트는 서로 대응하는(또는, 페어링 된) 관계가 될 수 있다. 일 예로, 전자 장치(100)는 텍스트 'spoon' 및 텍스트 'spoon'에 대응되는 오디오 신호를 신경망 모델의 입력 데이터로 신경망 모델에 입력할 수 있다. 이를 위해, 전자 장치(100)는 텍스트 별로 오디오 신호가 매칭된 Speech transcript를 저장할 수 있다.

신경망 모델은 학습을 위해, 입력된 복수의 모달리티에 대한 전처리를 수행할 수 있다. 구체적으로, 신경망 모델은 오디오 신호 및 텍스트가 입력되는 경우, 입력된 오디오 신호를 복수의 오디오 요소로 분할(segmentation)(S1210)하고, 입력된 텍스트를 복수의 텍스트 요소로 토큰화(S1220)할 수 있다. 여기에서, 오디오 신호의 분할은 일 예로 phonetic segmentation이 될 수 있고, 토큰화는 일 예로 grapheme 단위의 토큰화가 될 수 있으나 반드시 이에 한정되는 것은 아니다.

일 예로, 텍스트 'spoon'이 입력되는 경우, 신경망 모델은 텍스트 'spoon'을 grapheme 단위로 토큰화 하여 's', 'p', 'oo', 'n'을 획득하고, 텍스트 'spoon'에 대응되는 오디오 신호가 입력되는 경우, 오디오 신호를 phonetic segmentation하여 's'에 대응되는 오디오 요소, 'p'에 대응되는 오디오 요소, 'oo'에 대응되는 오디오 요소, 'n'에 대응되는 오디오 요소를 획득할 수 있다.

신경망 모델은 복수의 오디오 요소 중 적어도 하나 또는 복수의 텍스트 요소 중 적어도 하나를 마스킹할 수 있다. 즉, 신경망 모델은 복수의 오디오 요소 중 적어도 하나를 마스크 요소로 대체하거나, 복수의 텍스트 요소 중 적어도 하나를 마스크 요소로 대체할 수 있다.

일 예로, 상술한 바와 같이 텍스트 'spoon' 및 텍스트 'spoon'에 대응되는 오디오 신호가 입력되는 경우, 신경망 모델은 텍스트의 토큰화를 통해 획득한 's', 'p', 'oo', 'n' 중 적어도 하나를 마스크 요소로 대체할 수 있다. 또는, 신경망 모델은 오디오 신호의 분할을 통해 획득한 's'에 대응되는 오디오 요소, 'p'에 대응되는 오디오 요소, 'oo'에 대응되는 오디오 요소, 'n'에 대응되는 오디오 요소 중 적어도 하나를 마스크 요소로 대체할 수 있다.

신경망 모델은 토큰화 된 복수의 텍스트 요소로 구성된 텍스트와, 세그먼트화 된 복수의 오디오 요소 중 적어도 하나가 마스킹 된 오디오 신호를 신경망 모델(일 예로, Multi-modal model 또는 Cross-modal Model로 불릴 수 있다.)의 입력 레이어에 입력(S1300)할 수 있다. 또는, 신경망 모델은 세그먼트화 된 복수의 오디오 요소로 구성된 오디오 신호와, 토큰화 된 복수의 텍스트 요소 중 적어도 하나가 마스킹 된 텍스트를 신경망 모델의 입력 레이어에 입력(S1300)할 수 있다.

이후, 신경망 모델은 토큰화 된 복수의 텍스트 요소로 구성된 텍스트와, 세그먼트화 된 복수의 오디오 요소 중 적어도 하나가 마스킹 된 오디오 신호를 입력 데이터로 학습을 수행할 수 있다. 또는, 신경망 모델은 세그먼트화 된 복수의 오디오 요소로 구성된 오디오 신호와, 토큰화 된 복수의 텍스트 요소 중 적어도 하나가 마스킹 된 텍스트를 입력 데이터로 학습을 수행할 수 있다.

먼저, 토큰화 된 복수의 텍스트 요소로 구성된 텍스트(이하, 제1 텍스트라 한다.)와, 세그먼트화 된 복수의 오디오 요소 중 적어도 하나가 마스킹 된 오디오 신호(이하, 제1 오디오 신호라 한다.)가 입력된 경우에 대해 설명한다.

이 경우, 신경망 모델은 신경망 연산을 통해 제1 텍스트에 대응되는 제2 오디오 신호를 출력(S1410)하고, 제1 오디오 신호에 대응되는 제2 텍스트를 출력(S1420)할 수 있다. 구체적으로, 신경망 모델은 복수의 텍스트 요소를 입력 데이터로, 신경망 연산을 통해 복수의 텍스트 요소에 대응되는 복수의 오디오 요소를 출력하고, 적어도 하나의 마스크 요소 및 마스킹 되지 않은 복수의 오디오 요소(실시 예에 따라, 마스킹 되지 않은 오디오 요소는 단수가 될 수도 있다.)를 입력 데이터로, 신경망 연산을 통해 마스크 요소에 대응되는 텍스트 요소 및 마스킹 되지 않은 복수의 오디오 요소에 대응되는 복수의 텍스트 요소를 출력할 수 있다.

그리고, 신경망 모델은 출력된 제2 오디오 신호(이는, 복수의 오디오 요소를 포함한다.) 및 제2 텍스트(이는, 복수의 텍스트 요소를 포함한다.)를 비교하여, 제2 오디오 신호에 대응되는 제2 텍스트가 출력되었는지를 판단(S1500)할 수 있다. 구체적으로, 신경망 모델은 출력된 제2 오디오 신호를 구성하는 복수의 오디오 요소 및 출력된 제2 텍스트를 구성하는 복수의 텍스트 요소를 비교할 수 있다. 일 예로, 제2 오디오 신호에 제1 내지 제4 오디오 요소가 포함되고, 제2 텍스트에 제5 내지 제8 텍스트 요소가 포함된 경우, 신경망 모델은 제5 텍스트 요소가 제1 오디오 요소에 대응되지를 판단하고, 제6 텍스트 요소가 제2 오디오 요소에 대응되지를 판단하며, 제7 텍스트 요소가 제3 오디오 요소에 대응되지를 판단하고, 제8 텍스트 요소가 제4 오디오 요소에 대응되지를 판단할 수 있다.

그리고, 신경망 모델은 제2 텍스트를 구성하는 복수의 텍스트 요소가 제2 오디오 신호를 구성하는 복수의 오디오 요소에 대응되지 않는 것으로 판단되면, 신경망 모델의 학습을 수행(S1600-N)할 수 있다. 구체적으로, 신경망 모델은 상술한 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호가 입력 데이터로 입력되는 경우에, 제2 오디오 신호에 대응되는 제1 텍스트를 출력하도록 학습할 수 있다. 여기에서, 학습은 제1 오디오 신호를 입력 데이터로, 제1 텍스트를 출력하기 위해 신경망 모델을 구성하는 복수의 레이어의 적어도 하나 이상의 가중치를 보정하는 작업이 될 수 있으며, 가중치의 연산은 전자 장치(100)의 프로세서에 의해 수행될 수 있다.

상술한 실시 예에서, 만약 제5 텍스트 요소가 제1 오디오 요소에 대응되고, 제6 텍스트 요소가 제2 오디오 요소에 대응되지 않으며, 제7 텍스트 요소가 제3 오디오 요소에 대응되지 않고, 제8 텍스트 요소가 제4 오디오 요소에 대응되는 경우, 신경망 모델은 제2 오디오 요소에 대한 출력으로 제6 텍스트 요소가 출력되고, 제3 오디오 요소에 대한 출력으로 제7 텍스트 요소가 출력되도록 신경망 모델을 구성하는 복수의 레이어의 가중치를 보정하는 학습을 수행할 수 있다. 여기에서, 제2 오디오 요소 및 제3 오디오 요소는 마스킹된 요소가 될 수 있을 것이다.

그리고, 신경망 모델은 학습 이후, 출력된 제2 텍스트를 구성하는 복수의 텍스트 요소가 제2 오디오 신호를 구성하는 복수의 오디오 요소에 대응되는 것으로 판단되면 학습을 종료(S1600-Y)할 수 있다. 한편, 학습 이전이라도, 출력된 제2 텍스트를 구성하는 복수의 텍스트 요소가 제2 오디오 신호를 구성하는 복수의 오디오 요소에 대응되는 경우이면, 신경망 모델은 학습을 수행하지 않고 학습 절차를 종료할 수 있을 것이다.

한편, 세그먼트화 된 복수의 오디오 신호(이하, 제1 오디오 신호라 한다.)와 토큰화 된 복수의 텍스트 요소 중 적어도 하나가 마스킹 된 텍스트(이하, 제1 텍스트라 한다.)가 입력된 경우에도, 상술한 기술적 사상과 유사한 기술적 사상이 적용될 수 있다.

이 경우, 신경망 모델은 신경망 연산을 통해 제1 오디오 신호에 대응되는 제2 텍스트를 출력(S1410)하고, 제1 텍스트에 대응되는 제2 오디오 신호를 출력(S1420)할 수 있다. 구체적으로, 신경망 모델은 복수의 오디오 요소를 입력 데이터로, 복수의 오디오 요소에 대응되는 복수의 텍스트 요소를 출력하고, 적어도 하나의 마스크 요소 및 마스킹 되지 않은 복수의 텍스트 요소(실시 예에 따라, 마스킹 되지 않은 텍스트 요소는 단수가 될 수도 있다.)를 입력 데이터로, 마스크 요소에 대응되는 오디오 요소 및 마스킹 되지 않은 복수의 텍스트 요소에 대응되는 복수의 오디오 요소를 출력할 수 있다.

그리고, 신경망 모델은 출력된 제2 텍스트(이는, 복수의 텍스트 요소를 포함한다.) 및 제2 오디오 신호(이는, 복수의 오디오 요소를 포함한다.)를 비교하여, 제2 텍스트에 대응되는 제2 오디오 신호가 출력되었는지를 판단(S1500)할 수 있다. 구체적으로, 신경망 모델은 출력된 제2 텍스트를 구성하는 복수의 텍스트 요소 및 출력된 제2 오디오 신호를 구성하는 복수의 오디오 요소를 비교할 수 있다. 일 예로, 제2 오디오 신호에 제1 내지 제4 오디오 요소가 포함되고, 제2 텍스트에 제5 내지 제8 텍스트 요소가 포함된 경우, 신경망 모델은 제1 오디오 요소가 제5 텍스트 요소에 대응되지를 판단하고, 제2 오디오 요소가 제6 텍스트 요소에 대응되지를 판단하며, 제3 오디오 요소가 제7 텍스트 요소에 대응되지를 판단하고, 제4 오디오 요소가 제8 텍스트 요소에 대응되지를 판단할 수 있다.

그리고, 신경망 모델은 제2 오디오 신호를 구성하는 복수의 오디오 요소가 제2 텍스트를 구성하는 복수의 텍스트 요소에 대응되지 않는 것으로 판단되면, 신경망 모델의 학습을 수행(S1600-N)할 수 있다. 구체적으로, 신경망 모델은 상술한 적어도 하나의 마스킹 요소를 포함하는 제1 텍스트가 입력되는 경우에, 제2 텍스트 신호에 대응되는 제1 오디오 신호를 출력하도록 학습할 수 있다. 여기에서, 학습은 제1 텍스트를 입력 데이터로, 제1 오디오 신호를 출력하기 위해 신경망 모델을 구성하는 복수의 레이어의 적어도 하나 이상의 가중치를 보정하는 작업이 될 수 있다.

상술한 실시 예에서, 제1 오디오 요소가 제5 텍스트 요소에 대응되고, 제2 오디오 요소가 제6 텍스트 요소에 대응되지 않으며, 제3 오디오 요소가 제7 텍스트 요소에 대응되지 않고, 제4 오디오 요소가 제8 텍스트 요소에 대응되는 경우, 신경망 모델은 제2 텍스트 요소에 대한 출력으로 제6 오디오 요소가 출력되고, 제3 텍스트 요소에 대한 출력으로 제7 오디오 요소가 출력되도록 신경망 모델을 구성하는 복수의 레이어의 가중치를 보정하는 학습을 수행할 수 있다. 여기에서, 제2 텍스트 요소 및 제3 텍스트 요소는 마스킹된 요소가 될 수 있을 것이다.

그리고, 신경망 모델은 학습 이후, 출력된 제2 오디오 신호를 구성하는 복수의 오디오 요소가 제2 텍스트를 구성하는 복수의 텍스트 요소에 대응되는 것으로 판단되면 학습을 종료(S1600-Y)할 수 있다. 한편, 학습 이전이라도, 출력된 제2 오디오 신호를 구성하는 복수의 오디오 요소가 제2 텍스트를 구성하는 복수의 텍스트 요소에 대응되는 경우이면, 신경망 모델은 학습을 수행하지 않고 학습 절차를 종료할 수 있을 것이다.

이과 같이 본 개시는 텍스트 및 오디오 신호를 입력 데이터로 신경망 모델을 학습(이를 크로스-모달리티 학습이라 부를 수 있다.)시킴으로써, 유사성을 가진 오디오 신호나 텍스트를 구분할 수 있다. 일 예로, 사람 이름인 'Tom'을 학습할 목적으로, 텍스트 'Tom'을 구성하는 텍스트 요소인 'T', 'o', 'm' 과, 'T'에 대응되는 오디오 요소, 'o'에 대응되는 오디오 요소, 'm'에 대응되는 오디오 요소 중 적어도 하나를 마스킹하여 신경망 모델을 학습시킴으로써, 본 개시의 신경망 모델은 오디오 신호 'Tom'을 텍스트 'Tom'으로 출력할 수 있고, 음성적으로 유사한 'tomb'를 출력하는 오류를 방지할 수 있다. 또한, 'T'에 대응되는 오디오 요소, 'o'에 대응되는 오디오 요소, 'm'에 대응되는 오디오 요소와, 'Tom'을 구성하는 텍스트 요소인 'T', 'o', 'm' 중 적어도 하나를 마스킹하여 신경망 모델을 학습시킴으로써, 본 개시의 신경망 모델은 텍스트 'Tom'을 오디오 신호 'Tom'으로 출력할 수 있고, 텍스트 'Tom'을 'tomb'으로 보정하여 오디오 신호 'tomb'을 출력하는 경우를 방지할 수 있다.

이하 도 2를 참조하면, 본 개시의 신경망 모델의 학습에 대해 보다 구체적으로 설명한다.

도 2를 참조하면, 본 개시의 전자 장치(100)는 메모리(20)를 포함하고, 메모리(20)에 저장된 오디오 데이터를 오디오 인코더(30)로 전송할 수도 있다. 그리고, 전자 장치(100)는 메모리(20)에 저장된 텍스트 데이터를 텍스트 인코더(40)로 전송할 수 있다. 여기에서, 전송되는 오디오 데이터 및 텍스트 데이터는 신경망 모델의 학습을 위한 학습 데이터가 될 수 있다. 그리고, 오디오 인코더(30)로 전송되는 오디오 데이터는, 텍스트 인코더(40)로 전송되는 텍스트 데이터와 대응되는 관계(또는, 페어링 관계)를 가질 수 있다.

한편, 본 개시의 전자 장치(100)는 마이크(10)를 포함하고, 마이크(10)를 통해 수신된 사용자 음성을 오디오 인코더(30)로 전송할 수도 있다. 마이크(10)를 통해 수신된 사용자 음성은 학습 단계에서 텍스트와 함께 신경망 모델에 입력될 수 있음은 물론, 신경망 모델의 학습 이후 추론 단계에서 신경망 모델에 입력될 수 있다.

오디오 인코더(30)는 오디오 신호의 전처리를 수행할 수 있다. 구체적으로, 오디오 인코더(30)는 오디오 신호(이는, 상술한 사용자 음성 또는 오디오 데이터가 될 수 있다.)의 노이즈를 제거하고, 오디오 신호를 복수의 오디오 요소로 분할하며, 복수의 오디오 요소에 대한 특징 변환을 수행할 수 있다. 여기에서, 노이즈 제거는 오디오 신호를 주파수 영역으로 변환한 뒤, 음성 주파수에 해당하는 영역을 추출하는 작업이 될 수 있다. 다만, 반드시 이에 한정되는 것은 아니고, 노이즈 제거는 노이즈 캔슬링 등 오디오 신호에 포함된 잡음을 제거할 수 있는 다양한 도구가 이용될 수 있다. 그리고, 오디오 신호의 분할은 오디오 신호를 복수의 텍스트 요소에 대응되는 복수의 오디오 요소로 분할하는 Phonetic segmentation 작업이 될 수 있다. 그리고, 특징 변환은 각 오디오 요소를 벡터로 변환하는 작업으로써, 이를 위해 전자 장치(100)는 복수의 오디오 요소에 대응되는 복수의 벡터를 저장할 수 있다.

텍스트 인코더(40)는 텍스트의 전처리를 수행할 수 있다. 구체적으로, 텍스트 인코더(40)는 텍스트의 정규화를 수행하고, 텍스트를 복수의 텍스트 요소로 토큰화하며, 복수의 텍스트 요소에 대한 특징 변환을 수행할 수 있다. 여기에서, 텍스트의 정규화는 텍스트에 포함된 대문자의 소문자로의 변경, 텍스트에 포함된 불필요한 요소(가령, 자연어가 아니면서 특별한 의미가 없는 특수 문자 등) 등을 제거하는 작업이 될 수 있고, 토큰화는 일정 단위로 텍스트를 복수의 텍스트 요소로 구분하는 작업으로써, 여기에서 단위는 grapheme 단위가 될 수 있으나 반드시 이에 한정되는 것은 아니다. 그리고, 특징 변환은 각 텍스트 요소를 벡터로 변환하는 작업으로써, 이를 위해 전자 장치(100)는 복수의 텍스트 요소에 대응되는 복수의 벡터를 저장할 수 있다.

오디오 인코더(30) 및 텍스트 인코더(40)는 일 예로 소프트웨어 모듈로써 신경망 모델의 일부가 될 수 있다. 다만, 실시 예에 따라 오디오 인코더(30) 및 텍스트 인코더(40)는 하드웨어 모듈로 구현될 수도 있고, 신경망 모델과는 별개의 소프트웨어 모듈로써 메모리(20)에 저장될 수도 있다.

신경망 모델(50)(일 예로, Cross-modal Model로 불릴 수 있다.)은 오디오 인코더(30)에 의해 생성된 복수의 오디오 요소(구체적으로는, 복수의 오디오 요소에 대응되는 복수의 벡터) 중 적어도 하나 또는, 텍스트 인코더(40)에 의해 생성된 복수의 텍스트 요소(구체적으로는, 복수의 오디오 요소에 대응되는 복수의 벡터) 중 적어도 하나를 마스킹 할 수 있다.

그리고, 신경망 모델(50)은 복수의 텍스트 요소와 적어도 하나가 마스킹 된 복수의 오디오 요소를 입력 데이터로, 복수의 텍스트 요소에 대응되는 복수의 오디오 요소 및, 적어도 하나가 마스킹 된 복수의 오디오 요소에 대응되는 복수의 텍스트 요소를 출력할 수 있다. 여기에서, 출력되는 복수의 오디오 요소 및 복수의 텍스트 요소는 벡터로 표현될 수 있다.

오디오 디코더(60)는 신경망 모델(50)에 의해 출력된 복수의 오디오 벡터를 복수의 오디오 요소(이는, 웨이브 신호 또는 아날로그 신호가 될 수 있다.)로 변환하고, 텍스트 디코더(70)는 신경망 모델(50)에 의해 출력된 복수의 텍스트 벡터를 복수의 텍스트 요소로 변환할 수 있다.

판별 모듈(80)(Discrimination Module)은 오디오 디코더(60)에 의해 생성된 복수의 오디오 요소 및 텍스트 디코더(70)에 의해 생성된 복수의 텍스트 요소를 비교하고, 복수의 오디오 요소 및 복수의 텍스트 요소가 대응 관계(또는, 페어링 관계)인지를 판단할 수 있다. 그리고, 판별 모듈(80)은 그 판단 결과에 대한 정보를 신경망 모델(50)에 제공하고, 신경망 모델(50)은 판별 모듈(80)로부터 수신된 정보에 기초하여 신경망 모델(50)을 구성하는 복수의 가중치의 값을 조절하는 학습을 수행할 수 있다.

한편, 오디오 디코더(60) 및 텍스트 디코더(70)는 일 예로 소프트웨어 모듈로써 신경망 모델의 일부가 될 수 있다. 다만, 실시 예에 따라 오디오 디코더(60) 및 텍스트 디코더(70)는 하드웨어 모듈로 구현될 수도 있고, 신경망 모델과는 별개의 소프트웨어 모듈로써 메모리(20)에 저장될 수도 있다.

또한, 판별 모듈(80) 역시 소프트웨어 모듈로써 신경망 모델의 일부가 될 수 있음은 물론, 실시 예에 따라 하드웨어 모듈로 구현될 수도 있고, 신경망 모델과는 별개의 소프트웨어 모듈로써 메모리(20)에 저장될 수도 있다.

신경망 모델은 학습 단계에서, 텍스트 및 오디오 신호를 수신할 수 있다. 일 예로, 신경망 모델은 텍스트 'spoon' 및 텍스트 'spoon'에 대응되는 오디오 신호를 수신할 수 있다.

신경망 모델은 텍스트 인코더를 통해 텍스트 'spoon'를 복수의 텍스트 요소로 토큰화 할 수 있다. 일 예로, 신경망 모델은 grapheme 단위로 텍스트 'spoon'을 토큰화함으로써, 's', 'p', 'oo', 'n'을 획득할 수 있다.

신경망 모델은 오디오 인코더를 통해 텍스트 'spoon'에 대응되는 오디오 신호를 복수의 오디오 요소로 분할할 수 있다. 일 예로, 신경망 모델은 'spoon'에 대응되는 오디오 신호를 's'에 대응되는 오디오 요소, 'p'에 대응되는 오디오 요소, 'oo'에 대응되는 오디오 요소, 'n'에 대응되는 오디오 요소로 분할 할 수 있다.

신경망 모델은 복수의 오디오 요소 중 적어도 하나를 마스킹할 수 있다. 일 예로, 도 3을 참조하면, 신경망 모델은 'p'에 대응되는 오디오 신호를 제1 마스크 요소로 대체하고, 'oo'에 대응되는 오디오 신호를 제2 마스크 요소로 대체할 수 있다.

신경망 모델은 복수의 텍스트 요소와, 적어도 하나의 마스크 요소 및 적어도 하나의 오디오 요소를 입력 레이어에 입력하여 출력 데이터를 획득할 수 있다. 구체적으로, 신경망 모델은 복수의 텍스트 요소를 입력으로 신경망 모델의 연산을 수행하여 복수의 텍스트 요소에 대응되는 복수의 오디오 요소를 출력할 수 있다. 일 예로, 's', 'p', 'oo', 'n'의 입력으로, 신경망 모델은 's'에 대응되는 오디오 요소, 'p'에 대응되는 오디오 요소, 'oo'에 대응되는 오디오 요소, 'n'에 대응되는 오디오 요소를 출력할 수 있다. 그리고, 신경망 모델은 적어도 하나의 마스크 요소 및 적어도 하나의 오디오 요소를 입력으로 신경망 모델의 연산을 수행하여 적어도 하나의 마스크 요소 및 적어도 하나의 오디오 요소에 대응되는 복수의 텍스트 요소를 출력할 수 있다. 일 예로, 's'에 대응되는 오디오 요소, 제1 마스크 요소, 제2 마스크 요소 및 'n'에 대응되는 오디오 요소를 입력으로, 신경망 모델은 's', 'p', 'o', 'n'과 같은 텍스트를 출력할 수 있다.

신경망 모델은 출력된 복수의 오디오 요소 및 복수의 텍스트 요소를 비교할 수 있다. 구체적으로, 신경망 모델은 Discriminator(이는, Discriminator layer 또는 Discrimination Module로 불릴 수도 있다.)를 통해 출력된 복수의 오디오 요소 및 복수의 텍스트 요소가 대응 관계인지를 판단할 수 있다.

신경망 모델은 출력된 복수의 텍스트 요소 중 출력된 복수의 오디오 요소에 대응되는 않는 적어도 하나의 텍스트 요소를 판단할 수 있다. 상술한 실시 예에서, 신경망 모델은 제2 마스크 요소에 대한 출력으로 획득한 텍스트 'o'가 텍스트 'oo'에 대한 출력으로 획득한 오디오 요소와 대응되는 않는 관계인 것으로 판단할 수 있다. 이 경우, 신경망 모델은 's'에 대응되는 오디오 요소, 제1 마스크 요소, 제2 마스크 요소 및 'n'에 대응되는 오디오 요소를 입력으로, 출력된 복수의 오디오 요소에 대응되는 복수의 텍스트 요소, 즉 's', 'p', 'oo', 'n'과 같은 텍스트를 출력하도록 학습할 수 있다.

이와 같은 학습을 통해, 신경망 모델은 마스킹 요소를 포함하는 오디오 신호에 대한 입력으로 적절한 텍스트를 출력할 수 있으며, 이는 음성적 유사성으로 인해 사용자 의도와는 상이한 텍스트가 출력되는 오류를 방지할 수 있다.

신경망 모델은 복수의 텍스트 요소 중 적어도 하나를 마스킹할 수 있다. 일 예로, 도 4를 참조하면, 신경망 모델은 텍스트 'p'를 제1 마스크 요소로 대체하고, 텍스트 'oo'를 제2 마스크 요소로 대체할 수 있다.

신경망 모델은 적어도 하나의 마스크 요소 및 적어도 하나의 텍스트 요소와, 복수의 오디오 요소를 입력 레이어에 입력하여 출력 데이터를 획득할 수 있다. 구체적으로, 신경망 모델은 적어도 하나의 마스크 요소 및 적어도 하나의 텍스트 요소를 입력으로 신경망 모델의 연산을 수행하여 각 요소에 대응되는 오디오 요소를 출력할 수 있다. 일 예로, 's', 제1 마스크 요소, 제2 마스크 요소, 'n'의 입력으로, 신경망 모델은 's'에 대응되는 오디오 요소, 제1 마스크 요소에 대응되는 오디오 요소, 제2 마스크 요소에 대응되는 오디오 요소, 'n'에 대응되는 오디오 요소를 출력할 수 있다.

그리고, 신경망 모델은 복수의 오디오 요소를 입력으로, 신경망 모델의 연산을 수행하여 복수의 오디오 요소에 대응되는 복수의 텍스트 요소를 출력할 수 있다. 일 예로, 's'에 대응되는 오디오 요소, 'p'에 대응되는 오디오 요소, 'oo'에 대응되는 오디오 요소 및 'n'에 대응되는 오디오 요소를 입력으로, 신경망 모델은 's', 'p', 'oo', 'n'과 같은 텍스트를 출력할 수 있다.

신경망 모델은 출력된 복수의 오디오 요소 및 복수의 텍스트 요소를 비교할 수 있다. 구체적으로, 신경망 모델은 Discriminator를 통해, 출력된 복수의 오디오 요소 및 복수의 텍스트 요소가 대응 관계인지를 판단할 수 있다.

신경망 모델은 출력된 복수의 오디오 요소 중 출력된 복수의 텍스트 요소에 대응되는 않는 적어도 하나의 오디오 요소를 판단할 수 있다. 상술한 실시 예에서, 신경망 모델은 제2 마스크 요소에 대한 출력으로 획득한 'o'에 대응되는 오디오 요소가, 'oo'에 대응되는 오디오 요소에 대한 출력으로 획득한 텍스트 요소와 대응되는 않는 관계인 것으로 판단할 수 있다. 이 경우, 신경망 모델은 텍스트 's', 제1 마스크 요소, 제2 마스크 요소 및 텍스트 'n'을 입력으로, 출력된 복수의 텍스트 요소에 대응되는 복수의 오디오 요소, 즉 's'에 대응되는 오디오 요소, 'p'에 대응되는 오디오 요소, 'oo'에 대응되는 오디오 요소 및 'n'에 대응되는 오디오 요소 를 출력하도록 학습할 수 있다.

이와 같은 학습을 통해, 신경망 모델은 마스킹 요소를 포함하는 텍스트에 대한 입력으로 적절한 오디오 신호를 출력할 수 있으며, 이는 형태적 유사성으로 인해 사용자 의도와는 상이한 오디오 신호가 출력되는 오류를 방지할 수 있다.

이상에서 설명한 실시 예는, 대응 관계에 있는 텍스트 및 오디오 신호가 입력되는 경우를 전제로 한 신경망 모델의 동작에 해당한다.

다만, 실시 예에 따라, 신경망 모델에는 서로 대응되지 않는 텍스트 및 오디오 신호가 입력될 수 있다. 일 예로, 학습을 위해 입력된 텍스트가 'bloon'이고, 학습을 위해 입력된 오디오 신호가 'spoon'에 대응되는 오디오 신호인 경우가 그러하다.

이 경우, 신경망 모델은 상술한 크로스-모달리티 학습을 수행하지 않고, 학습 절차를 종료할 수 있다. 이를 위해, 신경망 모델은 텍스트 및 오디오 신호가 입력되면 학습을 위한 전처리 전(즉, 텍스트 토크화 또는 오디오 신호 분할 등)에 앞서 텍스트가 오디오 신호에 대응되는지 또는 오디오 신호가 텍스트에 대응되는지를 판단할 수 있다.

그리고, 신경망 모델은 텍스트 및 오디오 신호가 대응 관계에 있지 않은 것으로 판단되면, 학습을 위한 전처리나 학습을 수행하지 않고, 학습을 위한 절차를 종료할 수 있다.

즉, 본 개시의 신경망 모델은 텍스트 및 오디오 신호가 대응 관계에 있는 것으로 판단되면, 입력된 텍스트 및 오디오 신호에 대한 학습을 수행할 수 있다.

이에 따라, 본 개시의 신경망 모델은 대응 관계가 아닌 텍스트 및 오디오 신호의 학습으로 인해 발생할 수 있는 출력 데이터의 오류를 방지할 수 있고, 프로세서의 불필요한 연산을 방지할 수 있다.

본 개시의 전자 장치(100)는 마이크(10)을 통해 사용자 음성에 대응되는 오디오 신호를 수신(S610)할 수 있다. 여기에서, 사용자 음성에 대응되는 오디오 신호는 아날로그 신호(또는, 웨이브 신호)가 될 수 있다.

전자 장치(100)는 사용자 음성에 대응되는 오디오 신호를 신경망 모델에 입력할 수 있다. 이 경우, 신경망 모델은 오디오 신호 처리를 위한 전처리를 수행할 수 있다. 구체적으로, 신경망 모델은 오디오 신호에 포함된 노이즈를 제거(S620)할 수 있다. 여기에서, 노이즈의 제거는 일 예로, 오디오 신호를 주파수 영역으로 변환한 뒤, 음성 주파수에 해당하는 영역을 추출하는 작업이 될 수 있다.

그리고, 신경망 모델은 오디오 신호를 복수의 오디오 요소로 분할(S630)할 수 있다. 일 예로, 신경망 모델은 오디오 신호에 Phonetic segmentation을 수행할 수 있다.

그리고, 신경망 모델은 복수의 오디오 요소의 특징 변환을 수행(S640)할 수 있다. 여기에서, 특징 변환은 각 오디오 요소를 벡터로 변환하는 작업으로써, 이를 위해 전자 장치(100)는 복수의 오디오 요소에 대응되는 복수의 벡터를 저장할 수 있다.

그리고, 신경망 모델은 복수의 벡터를 신경망 모델의 입력 레이어에 입력하여 신경망 모델의 연산을 수행(S650)하고, 복수의 벡터에 대응되는 텍스트를 생성(S660)할 수 있다. 구체적으로, 신경망 모델은 복수의 레이어에 포함된 가중치 값들과 입력 레이어에 입력된 복수의 벡터의 연산에 기초하여, 입력된 오디오 신호에 대응되는 텍스트를 출력할 수 있다.

본 개시의 전자 장치(100)는 입력부(미도시)을 통해 텍스트를 수신(S710)할 수 있다. 여기에서, 입력부(미도시)는 일 예로 키보드가 될 수 있으나 반드시 이에 한정되는 것은 아니고, 터치 스크린, 터치 패드, 소프트 키보드 등과 같이 사용자 입력을 수신할 수 있는 다양한 기기로 구현될 수 있다.

전자 장치(100)는 텍스트를 신경망 모델에 입력할 수 있다. 이 경우, 신경망 모델은 텍스트 처리를 위한 전처리를 수행할 수 있다. 구체적으로, 신경망 모델은 텍스트의 정규화(S720)를 수행할 수 있다. 여기에서, 텍스트의 정규화는 텍스트에 포함된 대문자의 소문자로의 변경, 텍스트에 포함된 불필요한 요소(가령, 자연어가 아니면서 특별한 의미가 없는 특수 문자 등) 등을 제거하는 작업이 될 수 있다.

그리고, 신경망 모델은 텍스트를 복수의 텍스트 요소로 토큰화(S730)할 수 있다. 여기에서, 토큰화는 일정 단위로 텍스트를 복수의 텍스트 요소로 구분하는 작업으로써, 여기에서 단위는 grapheme 단위가 될 수 있으나 반드시 이에 한정되는 것은 아니다.

그리고, 신경망 모델은 복수의 텍스트 요소의 특징 변환을 수행(S640)할 수 있다. 여기에서, 특징 변환은 각 텍스트 요소를 벡터로 변환하는 작업으로써, 이를 위해 전자 장치(100)는 복수의 텍스트 요소에 대응되는 복수의 벡터를 저장할 수 있다.

그리고, 신경망 모델은 복수의 벡터를 신경망 모델의 입력 레이어에 입력하여 신경망 모델의 연산을 수행(S750)하고, 복수의 벡터에 대응되는 오디오 신호를 생성(S760)할 수 있다. 구체적으로, 신경망 모델은 복수의 레이어에 포함된 가중치 값들과 입력 레이어에 입력된 복수의 벡터의 연산에 기초하여, 입력된 텍스트에 대응되는 오디오 신호를 출력할 수 있다.

도 8을 참조하면, 본 개시의 일 실시 예에 따른 전자 장치(100)는 메모리(110) 및 프로세서(120)를 포함한다.

메모리(110)에는 적어도 하나의 인스트럭션(instruction)이 저장될 수 있다. 그리고, 메모리(110)에는 전자 장치(100)를 구동시키기 위한 O/S(Operating System)가 저장될 수 있다. 또한, 메모리(110)에는 본 개시의 다양한 실시 예들을 실행하기 위한 소프트웨어 프로그램이나 애플리케이션이 저장될 수도 있다. 메모리(110)는 플래시 메모리(Flash Memory) 등과 같은 반도체 메모리나 하드디스크(Hard Disk) 등과 같은 자기 저장 매체 등을 포함할 수 있다.

메모리(110)에는 본 개시의 다양한 실시 예들을 실행하기 위한 소프트웨어 모듈이 저장될 수 있으며, 프로세서(120)는 메모리(110)에 저장된 소프트웨어 모듈을 실행하여 전자 장치(100)의 동작을 제어할 수 있다. 즉, 메모리(110)는 프로세서(120)에 의해 액세스되며, 프로세서(120)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다.

한편, 본 개시에서 메모리(110)라는 용어는 메모리(110), 프로세서(120) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함하는 의미로 사용될 수 있다.

특히, 메모리(110)에는 본 개시에 따른 신경망 모델이 저장될 수 있으며, 텍스트를 벡터로 변환하기 위한 텍스트 인코더, 오디오 신호를 벡터로 변환하기 위한 오디오 인코더, 벡터를 텍스트로 변환하기 위한 텍스트 디코더, 벡터를 오디오 신호로 변환하기 위한 오디오 디코더 와 같은 소프트웨어 모듈이 저장될 수 있다.

그 밖에도 본 개시의 목적을 달성하기 위한 범위 내에서 필요한 다양한 정보가 메모리(110)에 저장될 수 있으며, 메모리(110)에 저장된 정보는 외부 장치로부터 수신될 수 있고, 사용자에 입력에 기초하여 갱신될 수 있다. 일 예로, 메모리(110)에는 오디오 데이터 및 텍스트 데이터가 저장될 수 있고, 오디오 데이터에 대응되는 벡터 정보 및 텍스트 데이터에 대응되는 벡터 정보가 저장될 수 있다.

프로세서(120)는 전자 장치(100)의 전반적인 동작을 제어한다. 구체적으로, 프로세서(120)는 메모리(110)에 저장된 적어도 하나의 인스트럭션을 실행함으로써, 전자 장치(100)의 동작을 제어할 수 있다.

프로세서(120)는 일 예로 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 임베디드 프로세서, 마이크로 프로세서, 하드웨어 컨트롤 로직, 하드웨어 유한 상태 기계(hardware Finite State Machine, FSM), 디지털 신호 프로세서(Digital Signal Processor, DSP) 중 적어도 하나로 구현될 수 있다. 한편, 본 개시에서 프로세서(120)라는 용어는 CPU(Central Processing Unit), GPU(Graphic Processing Unit) 및 MPU(Main Processing Unit)등을 포함하는 의미로 사용될 수 있다.

특히, 프로세서(120)는 텍스트 및 오디오 신호를 신경망 모델에 입력하고, 신경망 모델을 구성하는 복수의 레이어에 포함된 복수의 가중치 값을 독출하며, 입력 데이터 및 가중치 값에 기초한 신경망 연산을 수행할 수 있다. 그리고, 프로세서(120)는 신경망 연산에 기초하여 신경망 모델로부터 출력 데이터를 획득하고, 여기에서 출력 데이터는 입력된 텍스트에 대응되는 오디오 신호 또는, 입력된 오디오 신호에 대응되는 텍스트가 될 수 있다.

도 9를 참조하면, 본 개시의 일 실시 예에 따른 전자 장치(100)는 메모리(110), 통신부(130), 입력부(150), 출력부(160) 및 프로세서(160)를 포함할 수 있다. 이하, 상술한 설명과 중복되는 부분은 생략하거나 축약하여 설명한다.

통신부(130)는 회로를 포함하며, 외부 장치와의 통신을 수행할 수 있다. 구체적으로, 프로세서(120)는 통신부(130)를 통해 연결된 외부 장치로부터 각종 데이터 또는 정보를 수신할 수 있으며, 외부 장치로 각종 데이터 또는 정보를 전송할 수 있다.

통신부(130)는 WiFi 모듈, Bluetooth 모듈, 무선 통신 모듈, 및 NFC 모듈 중 적어도 하나를 포함할 수 있다. WiFi 모듈과 Bluetooth 모듈 각각은 WiFi 방식, Bluetooth 방식으로 통신을 수행할 수 있다. 무선 통신 모듈은 IEEE, Zigbee, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), 5G(5th Generation) 등과 같은 다양한 통신 규격에 따라 통신을 수행할 수 있다. 그리고, NFC 모듈은 135kHz, 13.56MHz, 433MHz, 860~960MHz, 2.45GHz 등과 같은 다양한 RF-ID 주파수 대역들 중에서 13.56MHz 대역을 사용하는 NFC(Near Field Communication) 방식으로 통신을 수행할 수 있다.

출력부(160)는 회로를 포함하며, 프로세서(120)는 출력부(160)를 통해 다양한 정보를 출력할 수 있다. 출력부(160)는 디스플레이 및 스피커 중 적어도 하나를 포함할 수 있다.

디스플레이는 프로세서(120)의 제어에 의하여 다양한 화면을 표시할 수 있다. 일 예로, 디스플레이는 프로세서(120)의 제어에 의하여 텍스트를 표시할 수 있다. 여기에서, 텍스트는 신경망 모델에 의해 출력된 텍스트가 될 수 있다.

디스플레이는 LCD(Liquid Crystal Display Panel), OLED(Organic Light Emitting Diodes) 등으로 구현될 수 있으며, 또한 디스플레이는 경우에 따라 플렉서블 디스플레이, 투명 디스플레이 등으로 구현되는 것도 가능하다. 다만, 본 개시에 따른 디스플레이가 특정한 종류에 한정되는 것은 아니다.

스피커는 프로세서(120)의 제어에 의하여 오디오 신호를 출력할 수 있다. 여기에서, 오디오 신호는 신경망 모델에 의해 출력된 오디오 신호가 될 수 있다.

본 개시에 따른 다양한 실시 예에 있어서, 프로세서(120)는 출력부(160)를 통해 출력 데이터를 사용자에게 제공할 수 있다. 구체적으로, 프로세서(120)는 디스플레이를 통해 출력 데이터를 시각적으로 사용자에게 제공할 수 있으며, 스피커를 통해 출력 데이터를 음성 신호의 형태로 사용자에게 제공할 수도 있다.

입력부(150)는 회로를 포함하며, 프로세서(120)는 입력부(150)를 통해 전자 장치(100)의 동작을 제어하기 위한 사용자 명령을 수신할 수 있다. 구체적으로, 입력부(150)는 마이크, 카메라 또는 신호 수신부 등과 같은 구성으로 이루어 질 수 있다. 그리고, 입력부(150)는 터치 스크린으로서 디스플레이에 포함된 형태로 구현될 수도 있다.

본 개시에 따른 다양한 실시 예에 있어서, 프로세서(120)는 입력부(150)를 통해 본 개시에 따른 프로세서(120)의 동작을 개시하도록 하는 사용자 명령을 수신할 수 있다. 그리고, 프로세서(120)는 신경망 모델을 통해 입력 데이터에 대응되는 출력 데이터를 제공하기 위한 사용자 명령을 입력부(150)를 통해 수신할 수 있다.

신경망 모델은 복수의 신경망 레이어들로 구성될 수 있다. 각 레이어는 복수의 가중치(weight values)를 갖고 있으며, 프로세서(120)는 이전(previous) 레이어의 연산 결과와 복수의 가중치의 연산을 통해 레이어의 연산을 수행할 수 있다. 신경망 모델의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network), GAN(Generative Adversarial Networks) 및 심층 Q-네트워크 (Deep Q-Networks)이 있으며, 본 개시에서의 신경망 모델은 상술한 예에 한정되지 않는다.

프로세서(120)는 학습 알고리즘을 통해 신경망 모델을 학습시킬 수 있다. 학습 알고리즘은의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으며, 본 개시에서의 학습 알고리즘은 상술한 예에 한정되지 않는다.

전자 장치(100)는 제1 모달리티 및 제2 모달리티를 신경망 모델에 입력(S1010)할 수 있다. 여기에서, 복수의 모달리티 중 하나는 텍스트이고, 다른 하나는 오디오 신호가 될 수 있다.

전자 장치(100)는 입력된 제1 모달리티에 기초한 제1 출력 데이터 및 입력된 제2 모달리티에 기초한 제2 출력 데이터의 비교에 기초하여, 제2 모달리티가 입력되면, 제1 출력 데이터에 대응되는 제1 모달리티를 출력하도록 신경망 모델을 학습(S1020)시킬 수 있다.

구체적으로, 전자 장치(100)는 텍스트를 복수의 텍스트 요소로 토큰화하고, 오디오 신호를 복수의 오디오 요소로 세그먼트화할 수 있다. 그리고, 전자 장치(100)는 복수의 텍스트 요소 중 적어도 하나 또는 복수의 오디오 요소 중 적어도 하나를 마스킹할 수 있다.

그리고, 전자 장치(100)는 토큰화 된 복수의 텍스트 요소로 구성된 제1 텍스트와, 세그먼트화 된 복수의 오디오 요소 중 적어도 하나가 마스킹 된 제1 오디오 신호를 신경망 모델에 입력할 수 있다.

이 경우, 신경망 모델은 제1 텍스트에 대응되는 제2 오디오 신호 및 제1 오디오 신호에 대응되는 제2 텍스트를 출력할 수 있다.

그리고, 신경망 모델은 제2 오디오 신호 및 제2 텍스트의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호가 입력되면, 제2 오디오 신호에 대응되는 제1 텍스트를 출력하도록 학습할 수 있다.

구체적으로, 신경망 모델은, 제2 오디오 신호에 포함된 복수의 오디오 요소 및 제2 텍스트에 포함된 복수의 텍스트 요소의 비교에 기초하여, 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호에 대한 출력으로, 제2 오디오 신호에 대응되는 텍스트가 출력되지 않은 것으로 판단되면 학습을 수행할 수 있다.

이에 따라, 신경망 모델은, 학습을 통해 마스킹 요소에 대응되는 텍스트 요소를 출력할 수 있다.

또는, 전자 장치(100)는 세그먼트화 된 복수의 오디오 요소로 구성된 제1 오디오 신호와, 토큰화 된 복수의 텍스트 요소 중 적어도 하나가 마스킹 된 제1 텍스트를 신경망 모델에 입력할 수 있다.

이 경우, 신경망 모델은, 제1 오디오 신호에 대응되는 제2 텍스트 및 제1 텍스트에 대응되는 제2 오디오 신호를 출력할 수 있다.

그리고, 신경망 모델은 제2 텍스트 및 제2 오디오 신호의 비교에 기초하여, 적어도 하나의 마스킹 요소를 포함하는 제1 텍스트가 입력되면, 제2 텍스트에 대응되는 제1 오디오 신호를 출력하도록 학습할 수 있다.

구체적으로, 신경망 모델은, 제2 텍스트에 포함된 복수의 텍스트 요소 및 제2 오디오 신호에 포함된 복수의 오디오 요소의 비교에 기초하여, 적어도 하나의 마스킹 요소를 포함하는 제1 텍스트에 대한 출력으로, 제2 텍스트에 대응되는 오디오 신호가 출력되지 않은 것으로 판단되면 학습을 수행할 수 있다.

이에 따라, 신경망 모델은, 학습을 통해 마스킹 요소에 대응되는 오디오 요소를 출력할 수 있다.

한편, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 대한 소프트웨어/하드웨어 업그레이드 만으로도 구현될 수 있다.

또한, 상술한 본 개시의 다양한 실시 예들은 전자 장치에 구비된 임베디드 서버, 또는 외부의 서버를 통해 수행되는 것도 가능하다.

상술한 다양한 실시 예에 따른 전자 장치의 제어 방법은 프로그램으로 구현되어 다양한 기록 매체에 저장될 수 있다. 즉, 각종 프로세서에 의해 처리되어 상술한 다양한 제어 방법을 실행할 수 있는 컴퓨터 프로그램이 기록 매체에 저장된 상태로 사용될 수도 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims

전자 장치에 있어서,

신경망 모델을 저장하는 메모리; 및

입력 데이터를 상기 신경망 모델에 입력하여 출력 데이터를 획득하는 프로세서;를 포함하고,

상기 신경망 모델은,

입력된 제1 모달리티에 기초한 제1 출력 데이터 및 입력된 제2 모달리티에 기초한 제2 출력 데이터의 비교에 기초하여, 상기 제2 모달리티가 입력되면, 상기 제1 출력 데이터에 대응되는 상기 제1 모달리티를 출력하도록 학습된 모델이며,

상기 제2 모달리티는, 적어도 하나의 마스킹 요소를 포함하는 전자 장치.
제1항에 있어서,

상기 제1 및 제2 모달리티 중 하나는 텍스트이고, 다른 하나는 오디오 신호인, 전자 장치.
제2항에 있어서,

상기 신경망 모델은,

상기 텍스트를 복수의 텍스트 요소로 토큰화하고, 상기 오디오 신호를 복수의 오디오 요소로 세그먼트화하며, 상기 복수의 텍스트 요소 중 적어도 하나 또는 상기 복수의 오디오 요소 중 적어도 하나를 마스킹하는, 전자 장치.
제1항에 있어서,

상기 제1 모달리티는 제1 텍스트를 포함하고, 상기 제2 모달리티는 제1 오디오 신호를 포함하며,

상기 신경망 모델은,

토큰화 된 복수의 텍스트 요소로 구성된 상기 제1 텍스트와, 세그먼트화 된 복수의 오디오 요소 중 적어도 하나가 마스킹 된 상기 제1 오디오 신호를 입력 데이터로, 상기 제1 텍스트에 대응되는 제2 오디오 신호 및 상기 제1 오디오 신호에 대응되는 제2 텍스트를 출력하고,

상기 제2 오디오 신호 및 상기 제2 텍스트의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호가 입력되면, 상기 제2 오디오 신호에 대응되는 제1 텍스트를 출력하도록 학습된 모델인, 전자 장치.
제4항에 있어서,

상기 신경망 모델은,

상기 제2 오디오 신호에 포함된 복수의 오디오 요소 및 상기 제2 텍스트에 포함된 복수의 텍스트 요소의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호에 대한 출력으로, 상기 제2 오디오 신호에 대응되는 텍스트가 출력되지 않은 것으로 판단되면 상기 학습을 수행하는, 전자 장치.
제4항에 있어서,

상기 신경망 모델은,

상기 학습을 통해 상기 마스킹 요소에 대응되는 텍스트 요소를 출력하는, 전자 장치.
제1항에 있어서,

상기 제1 모달리티는 제1 오디오 신호를 포함하고, 상기 제2 모달리티는 제1 텍스트를 포함하며,

상기 신경망 모델은,

세그먼트화 된 복수의 오디오 요소로 구성된 상기 제1 오디오 신호와, 토큰화 된 복수의 텍스트 요소 중 적어도 하나가 마스킹 된 상기 제1 텍스트를 입력 데이터로, 상기 제1 오디오 신호에 대응되는 제2 텍스트 및 상기 제1 텍스트에 대응되는 제2 오디오 신호를 출력하고,

상기 제2 텍스트 및 상기 제2 오디오 신호의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 텍스트가 입력되면, 상기 제2 텍스트에 대응되는 제1 오디오 신호를 출력하도록 학습된 모델인, 전자 장치.
제7항에 있어서,

상기 신경망 모델은,

상기 제2 텍스트에 포함된 복수의 텍스트 요소 및 상기 제2 오디오 신호에 포함된 복수의 오디오 요소의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 텍스트에 대한 출력으로, 상기 제2 텍스트에 대응되는 오디오 신호가 출력되지 않은 것으로 판단되면 상기 학습을 수행하는, 전자 장치.
제7항에 있어서,

상기 신경망 모델은,

상기 학습을 통해 상기 마스킹 요소에 대응되는 오디오 요소를 출력하는, 전자 장치.
전자 장치의 제어 방법에 있어서,

입력 데이터를 신경망 모델에 입력하는 단계; 및

상기 신경망 모델의 연산을 통해, 상기 입력 데이터에 대한 출력 데이터를 획득하는 단계;를 포함하고,

상기 신경망 모델은,

입력된 제1 모달리티에 기초한 제1 출력 데이터 및 입력된 제2 모달리티에 기초한 제2 출력 데이터의 비교에 기초하여, 상기 제2 모달리티가 입력되면, 상기 제1 출력 데이터에 대응되는 상기 제1 모달리티를 출력하도록 학습된 모델이며,

상기 제2 모달리티는, 적어도 하나의 마스킹 요소를 포함하는 전자 장치의 제어 방법.
제10항에 있어서,

상기 제1 및 제2 모달리티 중 하나는 텍스트이고, 다른 하나는 오디오 신호인, 전자 장치의 제어 방법.
제11항에 있어서,

상기 텍스트는 복수의 텍스트 요소로 토큰화되고, 상기 오디오 신호는 복수의 오디오 요소로 세그먼트화되며, 상기 복수의 텍스트 요소 중 적어도 하나 또는 상기 복수의 오디오 요소 중 적어도 하나는 마스킹되어 상기 신경망 모델에 입력되는, 전자 장치의 제어 방법.
제10항에 있어서,

상기 제1 모달리티는 제1 텍스트를 포함하고, 상기 제2 모달리티는 제1 오디오 신호를 포함하며,

상기 신경망 모델은,

토큰화 된 복수의 텍스트 요소로 구성된 상기 제1 텍스트와, 세그먼트화 된 복수의 오디오 요소 중 적어도 하나가 마스킹 된 상기 제1 오디오 신호를 입력 데이터로, 상기 제1 텍스트에 대응되는 제2 오디오 신호 및 상기 제1 오디오 신호에 대응되는 제2 텍스트를 출력하고,

상기 제2 오디오 신호 및 상기 제2 텍스트의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호가 입력되면, 상기 제2 오디오 신호에 대응되는 제1 텍스트를 출력하도록 학습된 모델인, 전자 장치의 제어 방법.
제13항에 있어서,

상기 신경망 모델은,

상기 제2 오디오 신호에 포함된 복수의 오디오 요소 및 상기 제2 텍스트에 포함된 복수의 텍스트 요소의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호에 대한 출력으로, 상기 제2 오디오 신호에 대응되는 텍스트가 출력되지 않은 것으로 판단되면 상기 학습을 수행하는, 전자 장치의 제어 방법.
제13항에 있어서,

상기 신경망 모델은,

상기 학습을 통해 상기 마스킹 요소에 대응되는 텍스트 요소를 출력하는, 전자 장치의 제어 방법.