KR20210135917A - 적어도 하나의 텍스트와 대응되는 음성 신호를 생성하는 전자 장치 및 그 동작 방법 - Google Patents

적어도 하나의 텍스트와 대응되는 음성 신호를 생성하는 전자 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR20210135917A
KR20210135917A KR1020200100676A KR20200100676A KR20210135917A KR 20210135917 A KR20210135917 A KR 20210135917A KR 1020200100676 A KR1020200100676 A KR 1020200100676A KR 20200100676 A KR20200100676 A KR 20200100676A KR 20210135917 A KR20210135917 A KR 20210135917A
Authority
KR
South Korea
Prior art keywords
sample
information
value
bunching
parameter information
Prior art date
Application number
KR1020200100676A
Other languages
English (en)
Inventor
주기현
박상준
니콜라스 레인
라비첸더 비펄라
수어라브 바타차리야
시예드 사민 이쉬티아크
강태화
정종훈
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US17/198,727 priority Critical patent/US20210350788A1/en
Priority to PCT/KR2021/003292 priority patent/WO2021225267A1/en
Publication of KR20210135917A publication Critical patent/KR20210135917A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

적어도 하나의 텍스트에 기초하여, 음성 신호에 포함된 제1 샘플에 대한 특징 정보를 획득하고, 특징 정보에 기초하여, 음성 신호에 포함된 적어도 하나의 샘플 값이 획득되는 번칭 동작이 수행되는 상황에 관한 상황 정보를 획득하고, 상황 정보에 기초하여, 번칭 동작을 수행하기 위한 적어도 하나의 번칭 블록을 구성하고, 제1 샘플의 특징 정보에 기초하여, 적어도 하나의 샘플 값을, 적어도 하나의 번칭 블록을 이용하여, 획득하고, 획득된 적어도 하나의 샘플 값에 기초하여, 음성 신호를 생성하는, 전자 장치에서, 적어도 하나의 텍스트와 대응되는 음성 신호를 생성하는 방법이 개시된다.

Description

적어도 하나의 텍스트와 대응되는 음성 신호를 생성하는 전자 장치 및 그 동작 방법 {Electronic device and operating method for generating a speech signal corresponding to at least one text}
본 개시는, 적어도 하나의 텍스트와 대응되는 음성 신호를 생성하는 전자 장치 및 그 동작 방법에 관한 것이다.
텍스트-음성 합성(TTS;Text-to-Speech)로도 불리는 음성 합성 기술은, 미리 녹음된 실제 사람의 음성 없이, 입력된 텍스트와 대응되는 음성을 재생하기 위해 이용될 수 있는 기술이다. 뉴럴 음성 합성 기술에 의하면, 어쿠스틱 모델에 의해 텍스트와 대응되는 음성의 특징 정보가 추정되고, 추정된 음성의 특징 정보가 뉴럴 보코더(neural vocoder)를 통해 처리됨으로써, 텍스트와 대응되는 음성 신호가 추출될 수 있다.
뉴럴 보코더를 이용한 음성 합성 기술에 의하면, 텍스트와 대응되는 음성의 특징 정보에 따라, 음성 신호의 각각의 시간 구간과 대응되는 프레임 또는 샘플 단위의 음성 신호에 대한 특징 정보가 획득될 수 있다. 다만, AR(Auto regressive) 기반 뉴럴 보코더는, 이전에 출력된 값을 입력 값으로 다시 받아 현재의 값을 출력하므로, 각각의 값들이 순차적으로 획득됨에 따라서, 연산량이 많고 최종 결과가 획득되는데 걸리는 시간이 길다는 단점이 존재한다.
따라서, 음성 신호의 음질 저하를 최소화하면서, 뉴럴 보코더의 연산량을 최적화할 수 있는 방법이 필요하다.
본 개시가 해결하고자 하는 과제는 전술한 문제를 해결하기 위한 것으로서, 적어도 하나의 텍스트와 대응되는 음성 신호를 생성하는 전자 장치 및 그 동작 방법을 제공하기 위한 것이다.
또한, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다. 해결하려는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 전자 장치에서, 적어도 하나의 텍스트와 대응되는 음성 신호를 생성하는 방법에 있어서, 상기 적어도 하나의 텍스트에 기초하여, 상기 음성 신호에 포함된 제1 샘플에 대한 특징 정보를 획득하는 단계; 상기 특징 정보에 기초하여, 상기 음성 신호에 포함된 적어도 하나의 샘플 값이 획득되는 번칭 동작이 수행되는 상황에 관한 상황 정보를 획득하는 단계; 상기 상황 정보에 기초하여, 상기 번칭 동작을 수행하기 위한 적어도 하나의 번칭 블록을 구성하는 단계; 상기 제1 샘플의 특징 정보에 기초하여, 상기 적어도 하나의 샘플 값을, 상기 적어도 하나의 번칭 블록을 이용하여, 획득하는 단계; 및 상기 획득된 적어도 하나의 샘플 값에 기초하여, 상기 음성 신호를 생성하는 단계를 포함하는, 방법을 제공할 수 있다.
또한, 본 개시의 제2 측면은, 적어도 하나의 텍스트와 대응되는 음성 신호를 생성하는 전자 장치에 있어서, 상기 적어도 하나의 텍스트에 기초하여, 상기 음성 신호에 포함된 제1 샘플에 대한 특징 정보를 획득하고, 상기 특징 정보에 기초하여, 상기 음성 신호에 포함된 적어도 하나의 샘플 값이 획득되는 번칭 동작이 수행되는 상황에 관한 상황 정보를 획득하고, 상기 상황 정보에 기초하여, 상기 번칭 동작을 수행하기 위한 적어도 하나의 번칭 블록을 구성하고, 상기 제1 샘플의 특징 정보에 기초하여, 상기 적어도 하나의 샘플 값을, 상기 적어도 하나의 번칭 블록을 이용하여, 획득하고, 상기 획득된 적어도 하나의 샘플 값에 기초하여, 상기 음성 신호를 생성하는 적어도 하나의 프로세서; 및 상기 음성 신호를 출력하는 출력부를 포함하는, 전자 장치를 제공할 수 있다.
또한, 본 개시의 제3 측면은, 제1 측면의 방법을 수행하도록 하는 프로그램이 저장된 기록매체를 제공할 수 있다.
도 1은 일 실시 예에 의한 텍스트와 대응되는 음성 신호를 생성하는 일 예를 나타낸 블록도이다.
도 2는 일 실시 예에 따른 선형 예측된 값에 기초하여, 텍스트에 대응하는 음성 신호를 획득하는 일 예를 나타낸 블록도이다.
도 3은 일 실시 예에 의한 번칭 블록 그룹의 일 예를 나타낸 블록도이다.
도 4는 일 실시 예에 의한 번칭 블록의 일 예를 나타낸 블록도이다.
도 5는 일 실시 예에 의한 전자 장치의 내부 구성을 설명하기 위한 블록도이다.
도 6은 일 실시 예에 의한 전자 장치의 내부 구성을 설명하기 위한 블록도이다.
도 7은 일 실시 예에 의한 텍스트와 대응되는 음성 신호를 생성하는 방법을 나타낸 순서도이다.
도 8은 일 실시 예에 의한 파라미터 정보가 결정되는 일 예를 나타낸 블록도이다.
도 9는 일 실시 예에 의한 파라미터 정보에 기초하여 번칭 동작이 수행되는 일 예를 나타낸 블록도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 일 실시 예에 의한 텍스트와 대응되는 음성 신호를 생성하는 일 예를 나타낸 블록도이다.
도 1을 참조하면, 일 실시 예에 의한 전자 장치(1000)는, 어쿠스틱 모델(110) 및 뉴럴 보코더(120)를 이용하여, 적어도 하나의 텍스트와 대응되는 음성 신호를 생성할 수 있다.
일 실시예에 따른 전자 장치(1000)는 텍스트에 대응하는 음성 신호를 생성할 수 있는 장치로서, 다양한 형태로 구현될 수 있다. 예를 들어, 본 명세서에서 기술되는 전자 장치(1000)는, 디지털 카메라, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 태블릿 PC, 전자북 단말기, 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어, 차량(vehicle) 등이 있을 수 있으나, 이에 한정되는 것은 아니다. 본 명세서에서 기술되는 전자 장치(1000)는 사용자에 의해 착용될 수 있는 장치(wearable device)일 수 있다. 웨어러블 디바이스는 액세서리 형 장치(예컨대, 시계, 반지, 팔목 밴드, 발목 밴드, 목걸이, 안경, 콘택트 렌즈), 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형 장치(예: 전자 의복), 신체 부착형 장치(예컨대, 스킨 패드(skin pad)), 또는 생체 이식형 장치(예: implantable circuit) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.
일 실시 예에 의한 전자 장치(1000)는, 어쿠스틱 모델(110)을 이용하여, 적어도 하나의 텍스트에 대응하는 음성 신호의 특징 정보를 소정의 시간 단위(ex. 프레임)로 획득할 수 있다. 일 실시 예에 의한 어쿠스틱 모델(110)은, 텍스트로부터 음성 특징을 추출할 수 있는 모델로 예를 들면, 타코트론(tacotron)이, 어쿠스틱 모델(110)로서, 이용될 수 있다. 상술한 예에 한하지 않고, 어쿠스틱 모델(110)은, 텍스트에 대응하는 음성 신호의 특징 정보를 텍스트로부터 추출할 수 있는 다양한 종류의 모델이 이용될 수 있다.
일 실시 예에 의한 어쿠스틱 모델(110)은, 텍스트뿐만 아니라, 음성 신호의 스타일 정보를 더 고려하여, 음성 신호의 특징 정보를 추출할 수 있다. 예를 들면, 스타일 정보는, 음성과 관련된 스타일에 관한 정보로서, 감정 상태(ex. 화남, 즐거움, 차분함), 발화 스타일(ex. 아나운서, 어린이, 여성, 남성) 등의 음성 신호의 스타일에 관한 다양한 정보를 포함할 수 있다. 상술한 예에 한하지 않고, 어쿠스틱 모델(110)은, 스타일 정보뿐만 아니라, 음성과 관련된 다양한 정보에 기초하여, 음성 신호의 특징 정보를 추출할 수 있다.
일 실시 예에 의한 어쿠스틱 모델(110)은, 입력된 텍스트로부터 텍스트의 특징 정보를 생성하는 인코더, 텍스트의 특징 정보로부터 음성의 특징 정보를 예측하는 디코더, 및 인코더와 디코더를 연결하는 어텐션을 포함할 수 있다. 상술한 예에 한하지 않고, 어쿠스틱 모델(110)은, 텍스트와 대응되는 음성 신호의 특징 정보를 텍스트로부터 추출하기 위한 다양한 구성 요소들을 포함할 수 있다.
일 실시 예에 의한 어쿠스틱 모델(110)에 의해 추출되는, 음성 신호의 특징 정보는, 스펙트로그램(Spectrogram) 및 캡스트럼(cepstrum) 등 다양한 방식에 따라 소정 단위(ex. 프레임 단위)로, 음성 신호의 특징을 나타내는 정보를 포함할 수 있다. 또한, 음성 신호의 특징 정보는, 상술한 예에 한하지 않고, 음성의 특징을 나타내는 정보로서, 음높이(pitch lag) 정보, 유무성음(pitch correlation) 정보, 비주기성(aperiodicity) 정보 등의 다양한 종류의 정보를 포함할 수 있다.
일 실시 예에 의한 어쿠스틱 모델(110)에 의해 추출된 음성 신호의 특징 정보(ex. 스펙트로그램, 캡스트럼, 음높이(pitch lag) 정보, 유무성음(pitch correlation) 정보)는, 뉴럴 보코더(120)에 입력되어, 스피커를 통해 직접적으로 출력될 수 있는 음성 신호가 추출될 수 있다.
일 실시 예에 의한 음성 신호는, 연속된 신호로 출력되어야, 사람에 의해 인지될 수 있으므로, 어쿠스틱 모델(110)에서 출력된 음성 신호의 특징 정보는, 미리 정해진 단위, 예를 들면, 프레임 단위로 출력될 수 있다.
일 실시 예에 의한 음성 신호의 프레임은, 예를 들면, 10ms, 12.5ms 크기의 단위로 설정될 수 있으며, 이에 한하지 않고, 다양한 크기로 설정될 수 있다. 예를 들면, 24kHz의 샘플링 레이트(1초당 포함된 샘플 값의 개수)에, 10ms 길이의 프레임의 경우, 1개 프레임에 해당되는 샘플 수는 240개가 된다. 따라서, 어쿠스틱 모델(110)에서 생성되는 음성 신호의 특징 정보는, 10ms 길이의 1개의 프레임 당 240개의 샘플 값에 대한 특징 정보를 포함할 수 있다. 일 실시 예에 의한 음성 신호의 특징 정보는 뉴럴 보코더(120)에 입력됨으로써, 음성 신호를 구성하는 샘플 값들이 획득될 수 있다.
일 실시 예에 의하면 어쿠스틱 모델(110)에 의해 생성되는 음성 신호의 특징 정보는, 미리 정해진 복수 개의 프레임 단위마다 획득될 수 있다. 예를 들면, 음성 신호의 특징 정보는 R개의 프레임이 묶여진 단위마다 출력될 수 있다. 따라서, 24kHz 샘플링레이트, 프레임 길이 10ms, R이 4인 경우, 4*240=960 개의 샘플 값들에 대응하는, 음성 신호의 특징 정보가 생성될 수 있다.
일 실시 예에 의한 어쿠스틱 모델(110)은, 적어도 하나의 미리 학습된 인공지능 모델(ex. 컨볼루션 레이어, FC(Fully connected) 레이어 등)로 구성될 수 있다. 따라서, 어쿠스틱 모델(110)로부터 출력된 음성 신호의 특징 정보는, 은닉 특징(hidden representation)을 포함할 수 있다. 상술한 예에 한하지 않고, 음성 신호의 특징 정보는, 음성 신호의 특징을 나타내는 다양한 형태의 정보를 포함할 수 있다.
일 실시 예에 의한 어쿠스틱 모델(110)에 의해 추출되는 음성 신호의 특징 정보는, 음성 신호로서 스피커를 통해 출력될 수 있는 샘플 단위의 값 대신, 샘플 단위, 또는 보다 더 큰 단위(ex. 프레임 단위)의 특징을 나타내는 정보를 포함하므로, 직접적으로 스피커로 출력될 수 없는 정보를 포함할 수 있다. 따라서, 일 실시 예에 의하면, 어쿠스틱 모델(110)로부터 획득된 음성 신호의 특징 정보로부터, 뉴럴 보코더(120)에 의해, 직접적으로 스피커로 출력될 수 있는 단위의 음성 신호가 획득될 수 있다.
예를 들면, 뉴럴 보코더(120)에 입력된, 프레임 단위의 음성 신호의 특징 정보는, 인공지능 모델(ex. 컨볼루션 레이어, FC(Fully connected) 레이어 등)에 의해, 처리된 후, 프레임 단위의 특징 정보로부터, 각각의 프레임에 포함된 샘플들에 대한, 샘플 단위의 특징 정보가 획득될 수 있고, 샘플 단위의 특징 정보에 기초하여, 샘플 단위의 값으로 구성된 음성 신호가 최종적으로 획득될 수 있다.
일 실시 예에 따른 음성 신호의 샘플 값은, 연속적으로 이어지는 음성 신호를 나타내기 위해, 음성 신호가 분할된 각 구간과 대응되는 값을 나타내며, 예를 들어, 1/16000초의 구간마다 음성 신호의 크기 및 부호를 나타내는 값을 포함할 수 있다. 따라서, 일 실시 예에 의하면, 음성 신호를 구성하는, 샘플 값들에 따라서, 스피커를 통해 음성 신호가 출력될 수 있다.
일 실시 예에 의한 뉴럴 보코더(120)는, 어쿠스틱 모델(110)에 의해 획득된 음성 신호의 특징 정보에 기초하여, FRN(130, Frame rate network) 및 SRN(140, Sample rate network)을 통해 음성 신호를 구성하는 샘플 단위의 값들을 획득할 수 있다. 일 실시 예에 의한 뉴럴 보코더(120)는, 상술한 프레임 또는 샘플 단위의 값에 한정되지 않고, 다양한 단위의 값으로, 최종적인 음성 신호를 획득할 수 있다.
일 실시 예에 의한, FRN(130)은, 미리 학습된 인공지능 모델(ex. 컨볼루션 레이어, FC 레이어 등)을 이용하여, FRN(130)에 입력된 음성 신호의 특징 정보를 처리할 수 있다. 일 실시 예에 의한, FRN(130)은, 음성 신호의 특징 정보를 처리하여, 프레임 단위의 음성 신호의 특징 정보를 출력하기 위해, 미리 학습된 다양한 종류의 인공지능 모델을 이용할 수 있다.
일 실시 예에 의한 FRN(130)는, 인공지능 모델에 의한 동작이 수행된 결과, FRN(130)에 입력된 프레임 단위의 음성 신호의 특징 정보를 SRN(140)에 입력되어 처리될 수 있는 형태로 변환하여 출력할 수 있다. 일 실시 예에 의한 프레임에 대한 음성 신호의 특징 정보는, SRN(140)에서, 상기 프레임에 속한 적어도 하나의 샘플 값을 생성하는데 이용될 수 있다.
일 실시 예에 의한 FRN(130)은, 현재 프레임에 대한 특징 정보를 생성할 때, 현재 프레임의 특징 정보뿐만 아니라 현재 프레임에 인접한 주변의 프레임의 특징 정보를 함께 고려하여 생성할 수 있다. 따라서, FRN(130)에서 출력된 프레임의 특징 정보는, 주변 프레임의 특징 정보가 반영된 특징 정보를 포함할 수 있다.
일 실시 예에 의하면, FRN(130)에서, 인공지능 모델에 의하여, 어쿠스틱 모델(110)에서 출력된 프레임 단위의 음성 신호의 특징 정보가 처리된 결과, 프레임 단위의 벡터 형태의 특징 정보가 출력될 수 있다. 따라서, FRN(130)에 의하면, 음성 신호의 특징 정보가 SRN(140)에서 처리될 수 있는 데이터 형태로 변환될 수 있다.
예를 들면, 프레임 단위의 1x128 크기의 벡터 정보가 FRN(130)에서 출력될 수 있다. 상술한 예에 한하지 않고, FRN(130)에 의해 출력되는 음성 신호의 특징 정보는, SRN(140)에 입력되어 처리될 수 있는, 다양한 단위 및 형태의 정보를 포함할 수 있다.
일 실시 예에 의한 프레임 단위의 벡터 형태의 특징 정보는, 동일한 프레임에 속한 샘플 값들을 생성하는데, 각각 대응되는 샘플 값에 대응되도록 추가적으로 처리된 후, 이용될 수 있다. 일 실시 예에 의하면, 동일한 프레임 내에서 변화되는 샘플 값들의 특징이 고려될 수 있도록, 한 프레임에 240개의 샘플이 포함되어 있는 경우, 1x128 크기의 벡터 값에 기초하여, 업샘플링 동작에 의해, 240x128 크기의 벡터 값이 획득될 수 있다. 따라서, 상기 240x128 크기의 벡터 값에 포함된 값 중 각 샘플과 대응되는 값에 기초하여, SRN(140)에서, 동일한 프레임에 속한 샘플 값들이 생성될 수 있다.
일 실시 예에 의한 FRN(130)은, 프레임 단위로 특징 정보를 생성하는 것에 한하지 않고, R개의 프레임이 묶여진 단위로 특징 정보를 생성할 수 있다. 예를 들어, R개 프레임 단위의 특징 정보가, 어쿠스틱 모델(110)에서 FRN(130)에 입력되면, R개의 프레임 단위의 특징 정보에 기초하여, FRN(130)은, SRN(140)에 입력될 수 있는 형태의, R개의 프레임이 묶여진 단위로 특징 정보를 생성할 수 있다. 또한, SRN(140)은, R개의 프레임에 대한 특징 정보에 기초하여, R개의 프레임에 속한 샘플 값들을 생성할 수 있다. 상술한 예에 한하지 않고, FRN(130)은, 다양한 단위로 특징 정보를 생성하여 출력할 수 있다.
일 실시 예에 의한 SRN(140)은, FRN(130)에서 출력된 프레임 단위의 특징 정보에 기초하여, 현재 샘플에서의 샘플 단위의 특징 정보를 획득하고, 번칭 동작을 통해, 샘플 단위의 특징 정보로부터 샘플 값들을, 최종 음성 신호로서, 획득할 수 있다.
일 실시 예에 의하면, SRN(140)에서, 샘플 단위의 특징 정보는, 이미 획득된 이전의 샘플값을 고려하여, 현재의 샘플 값이 획득될 수 있도록, 이전에 획득된 샘플 값에 기초하여 획득될 수 있다. 또한, SRN(140)에서는, 현재 샘플에 대한 프레임 단위의 특징 정보에 기초하여, 현재 샘플 값이 획득될 수 있다. 일 실시 예에 의하면, 현재 샘플에 대한 특징 정보에 기초하여, 현재 샘플 값에 더해, 현재 샘플 값에 인접한, 다음 순서의 적어도 하나의 샘플 값이 획득될 수 있다. 일 실시 예에 의하면, 일부 샘플 값은, 각각 대응되는 샘플의 특징 정보에 기초하여 획득될 수 있으나, 다른 일부의 샘플 값은, 이전 샘플의 특징 정보에 기초하여 획득될 수 있다.
따라서, 일 실시 예에 의하면, 모든 샘플에 대한 특징 정보가 획득될 필요 없이, 번칭 동작에서 이용되는, 일부 샘플에 대한 특징 정보만이 획득될 수 있으므로, 샘플에 대한 특징 정보를 획득하는 동작에 있어서, 연산량이 감소될 수 있다. 다만, 연산량이 감소되는 만큼, 다른 샘플에 대한 특징 정보에 따라서, 샘플 값이 획득됨에 따라, 음질이 낮아질 수 있으므로, 각각의 샘플 값이 획득되는 상황 정보에 기초하여, 적절한 연산량과 음질을 가진 샘플 값이 획득될 수 있도록, 번칭 동작이 수행될 수 있다.
또한, 일 실시 예에 의한 SRN(140)에서는, 프레임 단위의 특징 정보가 추가적으로 처리된, 각 샘플과 대응되는 특징 정보, 예를 들면, 업샘플링 동작에 의해, 획득된 240x128 크기의 벡터 값에 기초하여, 각각의 샘플 값이 획득될 수도 있다. 일 실시 예에 의하면, 동일한 프레임 내에서 변화되는 샘플 값들의 특징이 고려될 수 있도록, 한 프레임에 240개의 샘플이 포함되어 있는 경우, 한 프레임 내에서 1x128 크기의 벡터 값에 기초하여, 업샘플링 동작에 의해, 240x128 크기의 벡터 값이 획득될 수 있다.
다만, 일 실시 예에 의하면, 하나의 프레임에 대해, AR 네트워크(141)에서 출력되는 샘플 단위의 특징 정보의 개수에 따라, 벡터 값이 획득될 수 있다. 예를 들어, 샘플 번칭 동작에 의해 1개의 샘플 단위의 특징 정보에 기초하여, 2개의 샘플 값이 획득됨에 따라, 240개의 샘플을 포함하는 1개의 프레임에 대해, AR 네트워크(141)에서 120개의 샘플 단위의 특징 정보가 출력되는 경우, 120x128 크기의 벡터 값이 FRN(130)에서 출력될 수 있다.
또한, 일 실시 예에 의한 FRN(130)은, 하나의 프레임에 대해 AR 네트워크(141)에서 획득되는 샘플 단위의 특징 정보의 개수(ex. 120개)만큼 각각 대응되는 값을 가지는 벡터 값(ex. 120x128 크기의 벡터 값)을 업샘플링 동작을 통해 획득할 수 있다. 일 실시 예에 의한 FRN(130)은, 디바이스 기반의 파라미터 또는 프레임 기반의 파라미터에 기초하여, 하나의 프레임에 대해 AR 네트워크(141)에서 획득되는 샘플 단위의 특징 정보의 수를 판단하고, 이에 기초하여, 업샘플링 동작을 수행할 수 있다.
또한, AR 네트워크(141)에서 출력되는, 샘플 단위의 특징 정보는, 1개 샘플에 대응하나, 1개 샘플의 특징뿐만 아니라, 복수 개의 샘플의 특징을 함께 포함할 수 있다. 예를 들면, 1개 샘플에 대한 샘플 단위의 특징 정보는, 샘플 번칭 동작에 따라, 복수 개의 샘플 값이 획득되는데 이용될 수 있으므로, 복수 개의 샘플에 대한 특징을 함께 포함하도록, 생성될 수 있다. 일 실시 예에 의하면, AR 네트워크(141)에서, 샘플 단위의 특징 정보를 획득하는데 이용되는 적어도 하나의 인공지능 모델이, 복수 개의 샘플의 특징을 함께 포함하는 샘플 단위의 특징 정보를 생성할 수 있도록, 미리 학습될 수 있다. 이 때, 일 실시 예에 의한 업샘플링 동작은, 120x128의 벡터 값 중 각각 1개 샘플에 대응되는 값이, 복수의 샘플(ex. 2개 샘플)에 대한 특징을 함께 포함하도록, 수행될 수 있다. 따라서, 120x128의 벡터 값에 기초하여, AR 네트워크(141)에서, 복수의 샘플(ex. 2개 샘플)에 대한 특징을 함께 포함하는, 1개 샘플에 대응하는 샘플 단위의 특징 정보가 출력될 수 있다.
일 실시 예에 의한 번칭 동작은, 샘플 단위의 특징 정보로부터 샘플 값들을 획득하기 위한 동작으로, 샘플 번칭 동작과, 비트 번칭 동작을 포함할 수 있다. 일 실시 예에 의한 샘플 번칭 동작에 의하면, 하나의 샘플에 대한 특징 정보로부터 복수 개의 샘플 값들이 획득될 수 있다. 또한, 비트 번칭 동작에 의하면, 샘플에 대한 특징 정보로부터 샘플 값이 획득될 때, 샘플 값을 나타내는, 각각의 비트들이 복수 개의 그룹별로 나뉘어 획득된 후 결합됨으로써, 샘플 값이 획득될 수 있다.
일 실시 예에 의한 SRN(140)은, AR 네트워크(141, Auto-regressive network), 번칭 블록 그룹(142) 및 번칭 블록을 구성하기 위한 파라미터 결정부(143)로 구성될 수 있다.
일 실시 예에 의한 AR 네트워크(141)는, 프레임 단위의 특징 정보로부터 샘플 단위의 특징 정보를 획득할 수 있다. 예를 들면, AR 네트워크(141)에 의하여, 하나의 프레임 단위의 벡터 정보로부터, 상기 프레임에 속한, 복수 개의 샘플에 대한, 샘플 단위의 벡터 정보가 획득될 수 있다.
일 실시 예에 의한 AR 네트워크(141)는, FRN(140)에서 출력된 프레임 단위의 벡터 정보의 형태와 동일하게, 샘플 단위의 벡터 형태의 특징 정보를 출력할 수 있다.
일 실시 예에 의한 AR 네트워크(141)는, 이미 획득된 이전의 샘플값을 고려하여, 번칭 블록 그룹(142)에 의해, 현재의 샘플 값이 획득될 수 있도록, 프레임 단위의 특징 정보에 더해 이전에 획득된 적어도 하나의 샘플 값을 입력으로 받아서, 현재의 샘플에 대한 샘플 단위의 특징 정보를 획득할 수 있다.
또한, 일 실시 예에 의한 AR 네트워크(141)는, 이전에 획득된 샘플 값 대신, 이전 획득된 샘플 값의 일부 비트의 값(ex. 전체 11비트 중 상위 8비트의 값)을 입력으로 받아, 현재의 샘플 값에 대한 특징 정보를 획득할 수도 있다.
일 실시 예에 의한 AR 네트워크(141)는, 하나의 프레임 단위의 특징 정보 및 이전에 획득된 샘플 값으로부터 복수 개의 샘플 단위의 특징 정보를 획득하기 위해, 미리 학습된 다양한 종류의 인공지능 모델을 포함할 수 있다. 예를 들면, AR 네트워크(141)는, 이전 단계의 출력값을 현재 단계의 입력값으로 이용하는 순환 신경망인, 적어도 하나의 GRU(Gated Recurrent Unit) 또는, 적어도 하나의 커즐(causal) CNN(Convolutional Neural Network) 레이어로 구성될 수 있다.
일 실시 예에 의한 번칭 블록 그룹(142)은, 번칭 동작을 통해, AR 네트워크(141)에 의하여 출력된 샘플 단위의 특징 정보에 기초하여, 적어도 하나의 샘플 값을 획득할 수 있다. 일 실시 예에 의한 번칭 블록 그룹(142)은, 적어도 하나의 번칭 블록을 포함할 수 있고, 각각의 번칭 블록에서, 각각 대응되는 샘플 값을 획득하기 위한 샘플 번칭 동작이 수행될 수 있다.
일 실시 예에 의한 번칭 블록 그룹(142)은, 샘플 번칭 동작을 통해, 하나의 샘플에 대한 샘플 단위의 특징 정보에 기초하여 획득되는, 샘플 값의 개수만큼의 번칭 블록을 포함할 수 있다. 예를 들어, 샘플 a1에 대한 특징 정보에 기초하여, 샘플 번칭 동작을 통해, a1, a2, a3의 샘플 값이 획득되는 경우, 샘플 a1에 대한 특징 정보에 기초하여, 샘플 번칭 동작을 수행하는 번칭 블록 그룹(142)은, 3개의 번칭 블록을 포함할 수 있다. 이후, 다른 샘플에 대한 특징 정보에 기초하여, 샘플 번칭 동작이 수행될 때마다, 번칭 블록 그룹(142)은, 획득되는 샘플 값의 개수만큼 번칭 블록을 포함하도록 재구성될 수 있다.
일 실시 예에 의한 번칭 블록 그룹(142)에 포함된 각각의 번칭 블록은 적어도 하나의 출력 레이어(Output layer, 미도시)를 포함할 수 있다.
일 실시 예에 의한 출력 레이어는, AR 네트워크(141)의 샘플 단위의 특징 정보에 기초하여, 샘플 값을 출력할 수 있다. 일 실시 예에 의한 출력 레이어는, 듀얼 FC 레이어(Dual Fully connected layer), 소프트 맥스 레이어(softmax layer) 및 샘플링 레이어(sampling layer) 등의 미리 학습된 인공지능 모델을 이용하여, 샘플 단위의 특징 정보에 따른 샘플 값을 하나씩 출력할 수 있다.
일 실시 예에 의한 듀얼 FC 레이어 및 소프트 맥스 레이어는, 각각의 샘플 값에 대한 확률 정보를 출력할 수 있다. 예를 들면, 듀얼 FC 레이어 및 소프트 맥스 레이어는, 각 샘플 값의 샘플 후보 값들에 대한 확률 정보를 출력할 수 있다. 일 실시 예에 의한 소프트 맥스 레이어는, 인공지능 모델의 최종 레이어에 이용되는 레이어로, 인공지능 모델에 의해 출력될 수 있는 값에 대한 확률 정보를 출력할 수 있다. 또한, 소프트 맥스 레이어 대신에, 다양한 종류의 신경망 레이어(ex. FC 레이어)에 기초하여, 각각의 샘플 값에 대한 확률 정보가 출력될 수도 있다.
일 실시 예에 의한 확률 정보는, 샘플 값이 각각의 샘플 후보값을 가질 확률을 나타내는 분포도인, 확률 분포도를 포함할 수 있다. 상술한 예에 한하지 않고, 확률 정보는, 각 샘플 값이 각각의 샘플 후보 값을 가질 확률을 나타내는 다양한 형태의 정보를 포함할 수 있다.
일 실시 예에 의한 소프트 맥스 레이어는, 통상 확률 분포(PDF, Probability Distribution Function) 또는 누적 확률 분포(CDF, Cumulative Distribution Function)를 예측할 수 있는 파라미터, 예를 들면, 가우시안 분포, 로지스틱 분포, 혼합 분포(ex. GMM(Gaussian Mixture Model), MoL(Mixture of logistics)) 등을 예측하기 위한 파라미터를, PDF 또는 CDF 대신 출력할 수 있다. 예를 들어, 가우시안 분포의 확률 정보는, 확률 분포도 대신, 파라미터로서, 평균과 표준 편차 값을 포함할 수 있다. 또한, 로지스틱 분포의 확률 정보는, 파라미터로서, 평균과 스케일(scale) 파라미터를 포함할 수 있다. 또한, 여러 종류의 확률 분포가 합성된 확률 정보는, 합성된 확률 분포를 예측하기 위한 파라미터를 포함할 수 있다. 상술한 예에 한하지 않고, 소프트 맥스 레이어는 샘플 값에 대한 다양한 형태의 확률 정보를 출력할 수 있다.일 실시 예에 의한 샘플링 레이어는, 각 샘플에 대해 획득된 확률 정보에 기초하여, 샘플 값을 출력할 수 있다. 예를 들면, 소프트 맥스 레이어에 따라, 각 샘플 값에 대한 PDF에 기초한, CDF가 생성되고, CDF에 따라 선택된 확률 값에 대응되는 샘플 값이 선택될 수 있다. 상술한 예에 한하지 않고, 샘플링 레이어는, 다양한 방법을 이용하여, 소프트 맥스 레이어로부터 출력된 확률 정보에 기초하여, 샘플 값을 출력할 수 있다.
예를 들어, 샘플 값이 u-law로 양자화됨에 따라 8비트의 수로 표현될 수 있고, 샘플 값이 2의 8승인, 256 개의 값들 중 하나의 값으로 결정될 수 있는 경우, 소프트 맥스 레이어에 의해 각각의 256개의 샘플 후보 값에 대한 확률 정보가 결정될 수 있고, 결정된 확률 정보에 기초하여, 샘플링 레이어에 의해, 256개의 샘플 후보 값 중 하나의 샘플 값이 최종 결정될 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 1개의 출력 레이어를 이용하여, 1개 샘플에 대한 특징 정보에 기초하여 1개 샘플 값을 획득하는 대신, 적어도 하나의 출력 레이어를 포함한 적어도 하나의 번칭 블록을 이용하여, 1개 샘플에 대한 특징 정보에 기초하여, 적어도 하나의 샘플 값을 획득함에 따라, 더 적은 연산량으로 빠르게 음성 신호를 획득할 수 있다.
일 실시 예에 의한 번칭 블록 그룹(142)은, 하나의 샘플에 대한 특징 정보에 기초하여, 번칭 블록 그룹(142)에 포함된 번칭 블록 개수만큼의 적어도 하나의 샘플 값을 획득하는 샘플 번칭 동작을 수행할 수 있다. 이로 인해, 일 실시 예에 의한 AR 네트워크(141)는, 프레임의 특징 정보에 기초하여, 상기 프레임에 속한 모든 샘플의 특징 정보를 획득하는 대신, 프레임을 구성하는 샘플들 중 일부 샘플에 대한 특징 정보만을 획득할 수 있다.
또한, 일 실시 예에 의하면, 번칭 블록 그룹(142)에 포함된 번칭 블록의 개수만큼, AR 네트워크(141)에 의한 샘플의 특징 정보를 획득하는 동작의 횟수가 감소됨에 따라서, 일 실시 예에 따른 음성 신호를 생성하기 위한 동작의 연산량이 감소될 수 있다. 예를 들어, 샘플 번칭 동작을 통해, 1개의 샘플 단위의 특징 정보에 기초하여, N개의 샘플 값들이 획득됨에 따라, AR 네트워크(141)에 의한 연산량이 1/N로 감소될 수 있다.
일 실시 예에 의한 각각의 번칭 블록에서는, AR 네트워크(141)로부터 출력된 하나의 샘플의 특징 정보와, 동일한 샘플의 특징 정보에 기초하여 이전에 획득된 적어도 하나의 샘플 값에 기초하여, 현재의 샘플 값이 획득될 수 있다.
예를 들면, 상기 이전에 획득된 샘플 값이 벡터 형태로 변환된 값을 포함하는 벡터 정보와, AR 네트워크(141)로부터 출력된 샘플의 특징을 나타내는 벡터 정보에 기초하여, 현재의 샘플 값이 획득될 수 있다. 상기 이전에 획득된 샘플 값은, 룩업 테이블이나 임베딩(embedding) 레이어에 의해 벡터 형태로 변환될 수 있다. 또 다른 예로, 상기 적어도 하나의 샘플 값과, AR 네트워크(141)로부터 출력된 샘플의 특징 정보에 대해 이어 붙이는(concatenate) 동작이 수행된 결과에 기초하여, 현재의 샘플 값이 획득될 수 있다.
상술한 예에 한하지 않고, 상기 적어도 하나의 샘플 값과, AR 네트워크(141)로부터 출력된 하나의 샘플의 특징 정보는, 다양한 형태로 변환되어, 현재의 샘플 값이 획득되는데 이용될 수 있다.
다만, 하나의 샘플의 특징 정보에 기초하여, 최초로 획득되는 샘플 값은, 동일한 샘플의 특징 정보에 기초하여 먼저 획득된 샘플 값이 존재하지 않으므로, 이전에 획득된 샘플 값 없이, 상기 샘플의 특징 정보에 기초하여, 획득될 수 있다.
일 실시 예에 의한 샘플 번칭 동작은, 샘플의 특징 정보로부터 샘플 값을 획득하기 위한, 인공지능 모델에 의하여 수행될 수 있다. 예를 들면, 샘플 번칭 동작은, 상술한 출력 레이어에 포함된, 듀얼 FC 레이어, 소프트 맥스 레이어 및 샘플링 레이어 등의 미리 학습된 인공지능 모델에 의하여 수행될 수 있다. 일 실시 예에서 샘플 번칭 동작을 위해 이용되는 인공지능 모델은, 샘플의 특징 정보 및 동일한 샘플의 특징 정보에 기초하여 이전에 획득된 적어도 하나의 샘플 값에 기초하여, 적절한 샘플 값을 획득할 수 있도록 미리 학습된 모델일 수 있다. 상술한 예에 한하지 않고, 일 실시 예에 의한 샘플 번칭 동작은, 샘플의 특징 정보로부터 샘플 값을 획득하기 위한 다양한 방법에 따라서 수행될 수 있다.
일 실시 예에 의하면, 번칭 블록 그룹(142)에서의 샘플 번칭 동작에 의해, AR 네트워크(141)에서 어떤 샘플에 대하여 특징 정보가 획득될 지 여부가 결정될 수 있다. 일 실시 예에 의하면 샘플 번칭 동작에 의해, 번칭 블록 그룹(142)에서, 1개의 샘플의 특징 정보로부터 복수 개의 샘플값이 획득될 수 있으므로, 현재 단계에서, 샘플 번칭 동작을 통해 획득된 샘플 값에 기초하여, 다음 단계의 AR 네트워크(141)에서 어떤 샘플에 대해 특징 정보가 획득될 지 여부가 결정될 수 있다. 예를 들어, 번칭 블록 그룹(142)에서, 현재 단계의 샘플 번칭 동작이 완료된 후, 획득된 샘플 값들의 다음 순서의 샘플 값에 대하여, AR 네트워크(141)에서 특징 정보가 획득될 수 있다. 상술한 예에 한하지 않고, 어떤 샘플에 대하여 특징 정보가 획득될 지는, 후술될, 번칭 블록을 구성하는데 이용되는 파라미터 정보나, 다른 다양한 정보에 기초하여 결정될 수 있다.
일 실시 예에 의한 비트 번칭 동작에 의하면, 각각의 번칭 블록에서, 하나의 샘플 값을 나타내는 복수의 비트들이 속한 그룹별로, 샘플 특징 정보로부터 샘플 값을 획득하는 동작이 각각 수행될 수 있다.
일 실시 예에 의한 번칭 블록에서, 하나의 샘플 값을 나타내는 복수 개의 비트들(ex. 8개의 비트)은 복수 개의 그룹으로 분할될 수 있고, 각 그룹별로, 출력 레이어에 의해, 샘플 특징 정보로부터 샘플 값을 획득하는 동작이 수행됨으로써, 샘플 값을 나타내는 복수 개의 비트들이 획득될 수 있다. 예를 들면, 하나의 샘플 값을 구성하는 비트들 중에서, 제1 그룹의 비트들에 대한 제1 출력 레이어의 동작 및 제2 그룹의 비트들에 대한 제2 출력 레이어의 동작이 각각 수행될 수 있다. 또한, 제1 출력 레이어 및 제2 출력 레이어의 출력 값이 서로 결합됨으로써, 하나의 샘플 값이 획득될 수 있다.
일 예로, 샘플 값이 8비트의 수로 표현될 수 있을 때, 상위 7비트의 수와 하위 1비트의 수가 각각 제1 그룹 및 제2 그룹으로 분리되는 경우, 상위 7비트의 수는 2의 7승인 128개의 샘플 후보값 중 하나로 결정될 수 있고, 하위 1비트의 수는, 2의 1승인 2개의 샘플 후보값 중 하나로 결정될 수 있다. 따라서, 제1 그룹 및 제2 그룹에 대한 출력 레이어의 동작에서, 각각 128개의 샘플 후보 값에 대한 확률 정보와 2개의 샘플 후보 값에 대한 확률 정보가 결정될 수 있다. 또한, 제1 그룹에 대한 출력 레이어에서, 확률 정보에 따라, 128개의 샘플 후보 값 중 하나의 샘플 값이 7비트로 표현된 수가 출력될 수 있고, 제2 그룹에 대한 출력 레이어에서, 2개의 샘플 후보 값 중 하나의 샘플 값이 1비트로 표현된 수가 출력될 수 있다.
따라서, 복수 개의 그룹별로 출력 레이어의 동작이 각각 구분되어 수행되는 경우, 128과 2의 합인, 총 130개의 샘플 후보 값에 대한 확률 정보가 결정될 수 있다. 반면에, 그룹으로 분할되지 않고, 하나의 출력 레이어에 의한 샘플 값을 획득하는 동작이 수행되는 경우, 상술한 바와 같이 256개의 샘플 후보 값에 대한 확률 정보가 결정될 수 있으므로, 일 실시 예에 따라 복수 개의 그룹 별로 동작이 수행되는 경우, 샘플 값이 획득되는 동작의 연산량이 감소할 수 있다.
또한, 일 실시 예에 의하면, 샘플 값을 구성하는 비트들 중 하위 비트보다는 상위 비트가 음성 신호의 음질을 결정하는데 더 큰 영향을 줄 수 있다. 따라서, 일 실시 예에 의하면, 복수 개의 그룹 중 상위 비트 그룹에 대한 출력 레이어의 동작이 하위 비트 그룹에 대한 출력 레이어의 동작보다 먼저 수행된 후, 샘플 값의 일관성을 고려하여, 상위 비트에 기초하여, 하위 비트 그룹에 대한 출력 레이어의 동작이 수행될 수 있다.
일 실시 예에 의하면 상위 비트에 관한 정보가 룩업 테이블, 임베딩 레이어 등에 의해 벡터 형태로 변환되어, 하위 비트 그룹에 대한 출력 레이어의 동작에 이용될 수 있다. 또한, 상기 벡터 형태로 변환된 값이 AR 네트워크(141)로부터 출력된 샘플의 특징 정보와 이어 붙이는(concatenate) 동작이 수행됨에 의해, 하위 비트 그룹에 대한 출력 레이어의 동작이 수행될 수 있다. 상술한 예에 한하지 않고, 다양한 방법에 따라서, 상위 비트에 기초하여, 하위 비트 그룹에 대한 출력 레이어의 동작이 수행될 수 있다.
일 실시 예에 의한 샘플 값은, 각 그룹의 비트들이 결합됨으로써, 최종적으로 획득될 수 있다. 예를 들어, 8비트의 샘플 값에 대하여, 제1 그룹의 번칭 동작에서 획득된 7비트의 수는, 8비트 중 상위 7비트의 자리에 할당되고, 제2 그룹의 번칭 동작에서 획득된 1비트의 수는, 8비트 중 하위 1비트의 자리에 할당됨으로써, 8비트의 샘플 값이 최종적으로, 획득될 수 있다.
일 실시 예에 의한 번칭 블록 그룹(142)에서, 샘플 번칭 동작과 비트 번칭 동작은 함께 수행될 수 있다. 예를 들어, 샘플 번칭 동작에 의해, AR 네트워크(141)로부터 하나의 샘플에 대한 특징 정보가 획득될 때마다, N개의 샘플 값이 획득될 수 있다. 또한, N개의 샘플 값이 각각 획득될 때마다, 샘플 값을 구성하는 비트들이 나뉘어진, M개의 각 그룹에 대해 비트 값을 각각 획득하기 위한 비트 번칭 동작이 수행될 수 있다. 따라서, 샘플 값을 획득하기 위한 번칭 블록 그룹(142)은, N*M 개의 출력 레이어를 포함하는, 번칭 블록들을 포함할 수 있다.
일 실시 예에 의한 파라미터 결정부(143)는, 번칭 블록 그룹(142)에서 적어도 하나의 번칭 동작을 수행하기 위한 적어도 하나의 파라미터를 결정할 수 있다. 일 실시 예에 의한 파라미터는, 각각의 번칭 동작이 수행되는 상황 정보에 기초하여, SRN(140)의 연산량과 음성 신호의 음질이 최적으로 결정될 수 있는 값으로 결정될 수 있다.
일 실시 예에 의한 번칭 동작에서, 하나의 샘플에 대한 특징 정보로부터 획득되는 샘플 값의 개수가 많아질수록, 예를 들면, 번칭 블록 그룹(142)에 포함된 번칭 블록의 개수가 많아질수록, AR 네트워크(141)에서 획득되는 샘플들의 특징 정보의 개수가 감소됨에 따라, 연산량이 감소되지만, 음성 신호의 음질이 저하될 수 있다.
또한, 일 실시 예에 의한 번칭 동작에서, 음성 신호의 음질에 대하여, 샘플 값의 하위 비트에 비해, 상위 비트가 더 큰 영향을 주며, 상위 비트를 포함하는 그룹에 포함된 비트 수가 적어질수록 연산량이 감소될 수 있다. 따라서, 상위 비트를 포함하는 그룹에 포함된 비트 수가, 하위 비트를 포함하는 그룹에 포함된 비트 수에 비해, 더 많아질수록, 연산량은 증가되지만, 음성 신호의 음질은 더 향상될 수 있다.
또한, 일 실시 예에 의한 번칭 동작에서, 하나의 샘플 값이 표현되는데 이용되는 총 비트수가 클수록, 확률 정보가 획득되는 샘플 후보 값의 개수가 더 많아짐에 따라서, 연산량이 증가되지만, 음질은 향상될 수 있다.
따라서, 일 실시 예에 의한 파라미터는, 번칭 동작 중 연산량과 음질에 영향을 주는 값으로서, 하나의 샘플에 대한 특징 정보로부터 번칭 동작을 통해 획득되는 샘플 값의 개수, 샘플 값의 총 비트 수, 샘플 값의 비트들이 속한 각 그룹의 개수 및 각 그룹에 속한 비트 수(ex. bit depth) 등을 결정하는 값을 포함할 수 있다.
일 실시 예에 의한 파라미터는, 번칭 동작이 수행되는 상황 정보에 따라서, 결정될 수 있다. 일 실시 예에 의한 파라미터를 결정하기 위한, 상황 정보는, 전자 장치(1000)의 성능 정보, 음성 신호가 출력되는 장치(ex. 스피커)의 성능 정보, 샘플 값이 속한 구간(ex. 프레임 구간)의 특성에 관한 정보, 각각의 샘플 값의 특성에 관한 정보 및 번칭 동작과 관련하여 미리 설정된 정보 중 적어도 하나를 포함할 수 있다.
일 실시 예에 의한 파라미터의 상황 정보 중 전자 장치(1000)의 성능 정보 및 음성 신호가 출력되는 장치의 성능 정보는, 뉴럴 보코더(120)가 동작하는 동안, 변하지 않는 정보를 포함할 수 있다. 따라서, 전자 장치(1000)의 성능 정보 및 음성 신호가 출력되는 장치의 성능 정보에 따라서, 디바이스 기반의 파라미터 정보가 결정된 후, 각 샘플 값이 속한 구간(ex. 프레임 단위의 구간)이 변경되거나, 샘플 값이 획득될 때마다, 프레임 기반의 파라미터 정보 또는 샘플 기반의 파라미터 정보가 결정될 수 있다. 일 실시 예에 따라서, 프레임 기반의 파라미터 정보 또는 샘플 기반의 파라미터 정보는, 전자 장치(1000)의 성능 정보 및 음성 신호가 출력되는 장치의 성능 정보에 따라서, 먼저 결정된 디바이스 기반의 파라미터 정보에 기초하여, 결정될 수 있다.
일 실시 예에 의한 파라미터 정보는, 상황 정보에 따라서, 번칭 동작을 통해 적절한 샘플 값이 획득될 수 있는 파라미터가 이용될 수 있도록, 미리 학습된 인공지능 모델에 의하여, 결정될 수 있다. 상술한 예에 한하지 않고, 파라미터 정보는, 미리 학습된 인공지능 모델에 의해 결정되는 방법 이외에 다양한 방법에 따라서, 결정될 수 있다.
일 실시 예에 따라 생성되는 음성 신호와 관련된 디바이스에 관한 정보에 기초하여, 디바이스 기반의 파라미터 정보가 결정될 수 있다. 일 실시 예에 의한 디바이스 정보는, 음성 신호가 생성되는 전자 장치(1000)의 성능 정보 및 음성 신호가 출력되는 장치(ex. 스피커)의 성능 정보 중 적어도 하나를 포함할 수 있다. 상술한 예에 한하지 않고, 디바이스 정보는, 일 실시 예에 따라서, 생성되는 음성 신호와 관련된 다양한 종류의 디바이스와 관련된 정보를 포함할 수 있다.
일 실시 예에 의하면, 전자 장치(1000)의 성능 정보에 따라서, 뉴럴 보코더(120)의 번칭 동작이 적절한 연산량으로 수행될 수 있도록, 디바이스 기반의 파라미터 정보가 결정될 수 있다. 예를 들면, 전자 장치(1000)의 성능 정보에 따라서, 뉴럴 보코더(120)의 번칭 동작이 정해진 시간(ex. 0.5s) 내에 수행될 수 있는 연산량을 가지도록, 디바이스 기반의 파라미터 정보가 결정될 수 있다.
일 실시 예에 의하면, 음성 신호가 출력되는 장치의 성능 정보에 따라서, 뉴럴 보코더(120)의 번칭 동작에 의해 적절한 음질의 음성 신호가 획득될 수 있도록, 디바이스 기반의 파라미터 정보가 결정될 수 있다. 예를 들면, 음성 신호가 출력되는 스피커의 성능 정보에 따라서, 스피커가 지원 가능한 음질 수준에 맞는 음성 신호가 뉴럴 보코더(120)의 번칭 동작을 통해 획득될 수 있도록, 디바이스 기반의 파라미터 정보가 결정될 수 있다.
일 실시 예에 의한 디바이스 기반의 파라미터 정보는, 텍스트에 대응하는 음성 신호를 생성하는 동작이 시작되기 전에, 획득된 디바이스 정보에 기초하여 결정될 수 있다. 예를 들면, 전자 장치(1000)는, 음성 신호를 생성하는 동작을 시작하기 전에, 먼저 상기 동작이 수행되는 전자 장치(1000)의 성능 정보와, 음성 신호가 출력되는 스피커의 성능 정보를 먼저 획득하여, 디바이스 기반의 파라미터 정보를 미리 결정한 후에, 상기 디바이스 기반의 파라미터 정보에 기초하여, 음성 신호를 생성하는 동작을 수행할 수 있다. 상술한 예에 한하지 않고, 디바이스 기반의 파라미터 정보는, 다양한 시점에서 획득된 디바이스 정보에 기초하여, 결정될 수 있다.
또한, 일 실시 예에 의하면, 번칭 동작이 수행되는 구간(ex. 프레임 단위의 구간)의 음성 신호의 특성(ex. 묵음, 무성음, 유성음, 에너지 크기)에 따라, 적절한 음질의 음성 신호가 획득될 수 있도록, 프레임 기반의 파라미터 정보가 결정될 수 있다. 예를 들어, 번칭 동작이 수행되는 구간이, 묵음 구간, 또는 무성음 구간인 경우, 청취자가 음성 신호의 음질 변화를 체감할 수 있는 정도(ex. perceptual performance)가 낮은 구간에 해당되므로, 상대적으로 낮은 음질의 음성 신호가 획득될 수 있도록 프레임 기반의 파라미터 정보가 결정될 수 있다. 반면, 번칭 동작이 수행되는 구간이, 유성음 구간인 경우, 청취자가 음성 신호의 음질 변화를 체감할 수 있는 정도가 높은 구간에 해당되므로, 상대적으로 높은 음질의 음성 신호가 획득될 수 있도록 프레임 기반의 파라미터 정보가 결정될 수 있다.
일 실시 예에 의한 프레임 기반의 파라미터 정보는 어쿠스틱 모델(110)로부터 프레임 단위의 음성 신호의 특징 정보가 획득될 때마다, 결정될 수 있다. 상술한 예에 한하지 않고, 프레임 기반의 파라미터 정보는, 다양한 시점에서 획득된 프레임 단위의 음성 신호에 관한 다양한 정보에 기초하여, 다양한 방법에 따라서, 결정될 수 있다.
일 실시 예에 의하면, 각각의 샘플 값의 특성(ex. 음소 전이 구간, 샘플 값의 예측 정확도)에 따라, 적절한 음질의 음성 신호가 획득될 수 있도록, 샘플 기반의 파라미터 정보가 결정될 수 있다. 일 실시 예에 의하면 현재 획득하고자 하는 샘플 값의 상황을 유추할 수 있는, 이전에 획득된 적어도 하나의 샘플 값의 특성에 기초하여, 현재 획득하고자 하는 샘플 값에 대한 특성 정보가 판단됨에 따라, 샘플 기반의 파라미터 정보가 결정될 수 있다.
예를 들어, 이전에 획득된 적어도 하나의 샘플값들에 기초하여, 현재 획득하고자 하는 샘플이 음소가 전이되는 구간에 속하는 것으로 판단된 경우, 샘플 값들 간 변화 가능성이 높음에 따라서, 하나의 샘플의 특징 정보에 기초하여, 획득되는 샘플 값의 개수가 상대적으로 적어지도록, 샘플 기반의 파라미터 정보가 결정될 수 있다. 또한, 번칭 동작에서, 이전에 획득된 적어도 하나의 샘플값들을 구하기 위해 이용된 확률 정보의 확률 값이 분포된 모양에 따라서, 확률 정보에 따라 결정된 각 샘플 값의 정확도가 낮은 경우, 현재 샘플 값의 정확도도 낮을 것으로 판단될 수 있다. 따라서, 현재 샘플 값에 대해 예측되는 정확도를 고려하여, 높은 정확도의 샘플 값, 즉, 높은 음질의 샘플 값이 획득될 수 있도록, 샘플 기반의 파라미터 정보가 결정될 수 있다.
일 실시 예에 의한 샘플 기반의 파라미터 정보는 SRN(140)에서 샘플 값이 획득될 때마다, 결정될 수 있다. 상술한 예에 한하지 않고, 샘플 기반의 파라미터 정보는, 다양한 시점에서 획득된 샘플 값에 대한 다양한 정보에 기초하여, 다양한 방법에 따라서, 결정될 수 있다.
일 실시 예에 의한 샘플 기반의 파라미터 정보는, 먼저 결정된 프레임 기반의 파라미터 정보 및 디바이스 기반의 파라미터 정보 중 적어도 하나에 기초하여 결정될 수 있다.
일 실시 예에 의하면, 각 샘플 값을 획득하기 위한 번칭 동작은, 샘플 기반의 파라미터 정보에 따라 수행될 수 있으나, 이에 한하지 않고, 프레임 기반의 파라미터 정보 및 디바이스 기반의 파라미터 정보 중 적어도 하나에 기초하여 수행될 수도 있다. 또한, 각 샘플 값을 획득하기 위한 번칭 동작은, 음성 신호를 생성하는 동작이 시작되기 전에, 미리 설정된, 파라미터 정보에 따라 수행될 수도 있다.
도 2는 일 실시 예에 따른 선형 예측된 값에 기초하여, 텍스트에 대응하는 음성 신호를 획득하는 일 예를 나타낸 블록도이다.
일 실시 예에 따른 AR 네트워크(141)에 의해 출력되는 샘플 단위의 특징 정보는, 선형 예측(Linear prediction)에 의하여 샘플 값에 대해 예측된 값을 기준으로 한 차이값(ex. 여기(excitation) 값)에 대한 특징 정보를 포함할 수 있다. 일 실시 예에 의하면, 선형 예측된 값과 차이값이 더해짐으로써, 샘플 값이 획득될 수 있다. 따라서, 일 실시 예에 따른 SRN(140)이 샘플 값에 대하여 선형 예측된 값을 이용하는 경우, AR 네트워크(141)는, FRN(130)으로부터 획득된 프레임 단위의 특징 정보 및 이전 단계에서 획득된 적어도 하나의 샘플 값에 더하여, 현재 샘플 값에 대해, 선형 예측된 값과, 이전 단계에서 획득된 적어도 하나의 선형 예측 값을 기준으로 한 적어도 하나의 차이값을 입력으로 수신할 수 있다.
일 실시 예에 의하면, 샘플 값 대신 선형 예측된 샘플 값을 기준으로 한, 차이값에 대하여, SRN(140)의 AR 네트워크(141) 및 번칭 블록 그룹(142)의 동작이 수행될 수 있다. 따라서, 일 실시 예에 의하면, 샘플 값 대신 더 작고, 더 작은 변화 범위를 가질 수 있는, 샘플 값의 차이값에 대한, 특징 정보 및 확률 정보가 획득됨에 따라, 연산량 또는 에러율이 더 감소될 수 있다.
상술한 예에 한하지 않고, 샘플 값을 대체할 수 있는 다양한 방법으로 획득된 값에 기초하여, 샘플의 특징 정보 및 샘플 값을 획득하는 SRN(140)의 동작이 수행될 수 있다.
또한, 일 실시 예에 의한 SRN(140)의 동작은, 샘플 값, 샘플 값의 예측 값, 또는 샘플 값의 차이값이 양자화된 값에 기초하여 수행될 수 있다. 예를 들면, 샘플 값과 샘플 값의 차이값이 -32768에서 32767의 값 중 하나를 나타내는 16비트의 수로 표현되는 경우, 샘플 값, 샘플 값의 예측 값, 또는 예측 값의 차이값은 8비트의 u-law 양자화 방식에 따라 8비트의 수로 양자화된 후, 양자화된 값인, 양자화 인덱스가 샘플 값 대신에 SRN(140)에서 이용될 수 있다. 일 실시 예에 의하면, 각각의 값이 속하는 범위에 따라 대응되는 인덱스 값이 대신 부여됨으로써, 샘플 값, 예측값, 차이값 등이 양자화될 수 있다. 일 실시 예에 따라 양자화된 값에 의하면, 처리되는 값의 개수가 훨씬 줄어드므로, 연산량이 감소될 수 있다.
따라서, 본 명세서에서, 일 실시 예에 의한 SRN(140)의 동작은, 설명 편의상, 샘플 값을 획득하는 동작을 기준으로 기재되었으나, 샘플 값 대신 샘플 값을 대체하는 값(ex. 선형 예측된 값의 차이값(ex. 여기 값), 양자화된 값)으로 수행되는 동작도 포함할 수 있다.
도 1과는 달리, 도 2에서는, 선형 예측과 관련된, 선형 예측(210) 및 합성(220)에 따른 동작이 더 수행될 수 있다.
또한, 도 2의 어쿠스틱 모델(110), FRN(130), SRN(140), AR 네트워크(141), 번칭 블록 그룹(142) 및 파라미터 결정부(143)의 구성은, 도 1의 어쿠스틱 모델(110), FRN(130), SRN(140), AR 네트워크(141), 번칭 블록 그룹(142) 및 파라미터 결정부(143)의 구성과 대응될 수 있다.
일 실시 예에 의한 선형 예측(210)에서, 이전 단계에서 획득된 샘플값들과, 어쿠스틱 모델(110)로부터 획득된 음성 신호의 특징 정보에 기초하여, 현재 단계에서 SRN(140)에 의해 획득하고자 하는 샘플 값에 대하여 선형 예측된 값이 획득될 수 있다.
일 실시 예에 의한 선형 예측(210)에서, 전자 장치(1000)는 이전 단계에서 획득된 샘플 값들의 선형 함수로서, 현재의 샘플 값을 예측함으로써, 현재의 샘플 값에 대하여 선형 예측된 값을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는 샘플 값에 대하여 선형 예측된 값을 획득할 때, 음성 신호의 특징 정보를 더 고려하여, 음성 신호의 특징 정보와 모순되지 않는 선형 예측 값을 획득할 수 있다.
일 실시 예에 의하면, 선형 예측된 값을 이용하여, SRN(140)의 동작이 수행될 수 있다. 일 실시 예에 의하면, 샘플 값 대신, 선형 예측된 값과 샘플 값 간의 차이값에 기초하여, SRN(140)의 동작이 수행될 수 있다. 일 실시 예에 의한 차이값은, 샘플 값보다 값의 크기가 더 작고, 더 작은 변화 범위를 가질 수 있으므로, 샘플 값 대신 상기 차이값이 이용되는 경우, SRN(140)의 동작에 대한 연산량 또는 에러율이 더 감소될 수 있다.
일 실시 예에 의하면, 선형 예측(210)에서 AR 네트워크(141)로 입력되는 선형 예측된 값은, 8비트의 u-law 양자화 방식에 따라 8비트의 수로 양자화된 후, AR 네트워크(141)로 입력될 수 있다. 이 경우, AR 네트워크(141)로 입력되는 이전 단계에서 획득된 차이 값은, SRN(140)에서 양자화된 상태에서 출력된 값이므로, 변환 없이, AR 네트워크(141)로 입력될 수 있다. 또한, AR 네트워크(141)로 입력되는 이전 단계에서 획득된 샘플 값은, 합성(220)에서 선형 예측 값과의 합성을 위해, 역양자화된 값이므로, 8비트의 u-law 양자화 방식에 따라 8비트의 수로 양자화된 후, AR 네트워크(141)로 입력될 수 있다.
일 실시 예에 의한 전자 장치(1000)는 양자화된 값을 이용하여, AR 네트워크(141)를 포함한 SRN(140)에서 처리되는 값의 개수를 감소시킴으로써, 연산량이 감소될 수 있다. 상술한 예에 한하지 않고, 상기 선형 예측된 값은, AR 네트워크(141)를 포함한 SRN(140)이 최적으로 동작될 수 있도록, 다양하게 변형될 수 있다.
일 실시 예에 의한 AR 네트워크(141)는, FRN(130)에서 획득된 프레임에 대한 특징 정보에 기초하여, 상기 프레임에 속한 적어도 하나의 샘플에 대한 특징 정보를 출력할 수 있다. 일 실시 예에 의한 AR 네트워크(141)에서 출력되는 샘플 단위의 특징 정보는, 샘플 값 대신, 샘플 값(st)과 선형 예측된 값(pt) 간의 차이값(et)에 대한 특징 정보일 수 있다. 따라서, 일 실시 예에 의한 AR 네트워크(141)는, FRN(130)의 프레임 단위의 특징 정보에 더해, 현재 샘플에 대하여, 선형 예측된 값(pt)을 더 고려하여, 상기 차이값(et)에 대한 특징 정보를, 현재 샘플에 대한 특징 정보로서 출력할 수 있다.
또한, 일 실시 예에 의한 AR 네트워크(141)는, FRN(130)의 프레임 단위의 특징 정보에 더해, 이전 단계에서 획득된 샘플 값(st-1, st-2, … )들, 상기 샘플 값들과 대응되는 차이값(et-1, et-2, …)들 및 선형 예측된 값들(pt-1, pt-2, …) 중 적어도 하나에 더 기초하여, 현재 샘플에 대한 특징 정보를 획득할 수 있다. 일 실시 예에 의한, 이전 단계에서 획득된 샘플 값(st-1, st-2, … )들, 상기 샘플 값들과 대응되는 차이값(et-1, et-2, …)들과 선형 예측된 값들(pt-1, pt-2, …) 중 적어도 두 개의 값이 서로 이어 붙여져서(concatenate), AR 네트워크(141)에 입력되어, 현재 샘플에 대한 특징 정보가 획득되는데 이용될 수 있다.
일 실시 예에 의한 번칭 블록 그룹(142)은, 현재 샘플에 대한 특징 정보에 기초하여, 상기 특징 정보에 대응하는 적어도 하나의 샘플 값을 출력할 수 있다. 일 실시 예에 의한 번칭 블록 그룹(142)은, AR 네트워크(141)로부터 출력된, 현재 샘플에 대한 특징 정보가, 샘플 값(st) 대신, 차이값(et)에 대한 특징 정보를 포함함에 따라서, 샘플 값(st) 대신, 차이값(et)을 출력할 수 있다. 일 실시 예에 의한 샘플 번칭 동작에 따라서, 하나의 샘플에 대한 특징 정보로부터 복수 개의 샘플 값이 획득되는 경우에는, 하나의 차이값(et)에 대한 특징 정보에 기초하여, 번칭 블록 그룹(142)으로부터, 복수 개의 차이값(et, et+1, et+2…)이 출력될 수 있다.
일 실시 예에 의한 합성(220)에서, 번칭 블록 그룹(142)으로부터 출력된 적어도 하나의 차이값(et, et+1, et+2, … et+B-1)과 선형 예측된 값이 합성됨으로써, 현재 샘플을 포함한 적어도 하나의 샘플 값(st, st+1, st+2, … st+B-1)이 획득될 수 있다. 상기 B는, 번칭 블록 그룹(142)에서 번칭 동작이 각각 수행되는 번칭 블록의 개수를 나타낼 수 있다.
일 실시 예에 의하면, SRN(140)에서, 양자화된 값들이 이용되는 경우, SRN(140)에서 출력된 차이값은 양자화된 값일 수 있다. 따라서, 일 실시 예에 의하면, 합성(220)에서, SRN(140)으로부터 출력된 차이값과 선형 예측된 값이 합성될 수 있도록, 상기 차이값이 역양자화된 후, 선형 예측된 값과 합성될 수 있다.
일 실시 예에 의한 샘플 번칭 동작에 의해, 하나의 샘플 특징 정보에 기초하여, 복수 개의 샘플에 대한 차이값이 획득되는 경우, 선형 예측(210)에서, AR 네트워크(141)에 입력된 선형 예측 값(pt)에 더해, 상기 차이값(et+1, et+2, … et+B-1)에 각각 대응되는 선형 예측 값들(pt+1, pt+2, … pt+B-1)이 더 획득될 수 있다. 예를 들면, 선형 예측(210)에서, 이전 단계에서 획득된 샘플 값들과 음성 신호의 특징 정보에 기초하여, 상기 차이값(et+1, et+2, … et+B-1)에 대응되는 선형 예측 값들(pt+1, pt+2, … pt+B-1)이 더 획득될 수 있다.
일 실시 예에 의하면, 합성(220)에서, 상기 차이값(et, et+1, et+2, … et+B-1)과 선형 예측 값들(pt, pt+1, pt+2, … pt+B-1)이 단순 결합됨으로써, 샘플 값들(st, st+1, st+2, … st+B-1)이 획득될 수 있다.
일 실시 예에 따라 획득된 샘플 값들(st, st+1, st+2, … st+B-1) 중 적어도 하나는, 다음 단계에서, AR 네트워크(141)로 입력되어, 다음 샘플(s(t+B-1)+1)에 대한 특징 정보가 획득되는데 이용될 수 있다. 또한, 상기 샘플 값들에 한하지 않고, 일 실시 예에 따라 획득된 차이 값들(et, et+1, et+2, … et+B-1) 중 적어도 하나는, 다음 단계에서, AR 네트워크(141)로 입력되어, 다음 샘플(s(t+B-1)+1)에 대한 특징 정보가 획득되는데 이용될 수 있다. 일 실시 예에 의한 AR 네트워크(141)가, 샘플 값 대신, 선형 예측 값과의 차이값에 대한 특징 정보를 출력하는 경우, 이전 단계의 샘플 값들뿐만 아니라, 이전 단계의 상기 차이 값들에 더 기초하여, 샘플에 대한 특징 정보가 출력될 수 있도록, 상기 차이 값들이 AR 네트워크(141)에 입력될 수 있다.
일 실시 예에 따른 샘플 값들(st, st+1, st+2, … st+B-1) 중 적어도 하나는, 선형 예측(210)에서, 다음 샘플(s(t+B-1)+1, s(t+B-1)+2, … )들에 대한 선형 예측 값(p(t+B-1)+1, p(t+B-1)+2, …)이 획득되는데 이용될 수 있다.
도 3은 일 실시 예에 의한 번칭 블록 그룹(142)의 일 예를 나타낸 블록도이다.
도 3을 참조하면, 일 실시 예에 의한 번칭 블록 그룹(142)은, AR 네트워크(141)로부터 출력된 제1 샘플의 특징 정보에 기초하여, 제1 샘플 값 내지 제3 샘플 값을 출력할 수 있다. 일 실시 예에 의한 번칭 블록 그룹(142)은, 적어도 하나의 번칭 블록을 포함하여, 각 번칭 블록으로부터 적어도 하나의 샘플 값을 출력할 수 있다. 예를 들어, 제1 번칭 블록, 제2 번칭 블록 및 제3 번칭 블록은 제1 샘플에 대한 특징 정보에 기초하여, 각각 제1 샘플 값, 제2 샘플 값 및 제3 샘플 값을 출력할 수 있다.
일 실시 예에 의한 각각의 번칭 블록은, 샘플의 특징 정보에 기초하여, 샘플 값을 출력하기 위한, 출력 레이어의 구성인, 듀얼 FC(311, 321), 소프트맥스 레이어(312, 322) 및 샘플링 레이어(313, 323)를 포함할 수 있다. 상술한 예에 한하지 않고, 각각의 번칭 블록은, 샘플의 특징 정보에 기초하여, 샘플 값을 출력하기 위한, 다양한 구성을 포함할 수 있다.
일 실시 예에 의한 제1 번칭 블록(310)의 임베딩 레이어(314) 및 합성(315) 구성은, 제2 번칭 블록(320)에서, 제1 샘플 값과, 제1 샘플에 대한 특징 정보에 기초하여, 제2 샘플 값을 획득할 수 있도록, 제1 샘플 값과, 제1 샘플에 대한 특징 정보를 처리할 수 있다. 일 실시 예에 의하면, 제1 샘플 값은, 임베딩 레이어(314)에 의해 벡터 형태로 변환된 후, 합성(315)에서, 제1 샘플에 대한 특징 정보와 결합되어, 제2 번칭 블록(320)으로 전달될 수 있다. 상술한 예에 한하지 않고, 일 실시 예에 의한 제1 샘플 값 및 제1 샘플에 대한 특징 정보는 다양한 방법에 따라 처리된 후, 제2 번칭 블록(320)으로 전달될 수 있다.
일 실시 예에 의한 제2 번칭 블록(320)은, 제1 번칭 블록(310)으로부터 수신된 제1 샘플 값 및 제1 샘플에 대한 특징 정보에 기초하여 제2 샘플 값을 획득할 수 있다. 일 실시 예에 의한 제2 번칭 블록(320)의 임베딩 레이어(324) 및 합성(325) 구성은, 제3 번칭 블록(330)에서, 제2 샘플 값과, 제1 샘플 값 및 제1 샘플에 대한 특징 정보에 기초하여, 제3 샘플 값을 획득할 수 있도록, 제2 샘플 값, 제1 샘플 값, 및 제1 샘플에 대한 특징 정보를 처리할 수 있다. 상술한 예에 한하지 않고, 일 실시 예에 의한 제2 샘플 값, 제1 샘플 값 및 제1 샘플에 대한 특징 정보는 다양한 방법에 따라 처리된 후, 제3 번칭 블록(330)으로 전달될 수 있다.
따라서, 일 실시 예에 의한 각각의 번칭 블록은, 동일한 번칭 블록 그룹(142) 내에서 이전에 획득된 적어도 하나의 샘플 값 및 동일한 번칭 블록 그룹(142) 내에서 이용되는 하나의 샘플에 대한 특징 정보 중 적어도 하나에 기초하여, 현재의 샘플 값을 출력할 수 있다.
일 실시 예에 의하면, 하나의 샘플에 대한 특징 정보에 기초하여, 번칭 블록 그룹(142)에 의해 복수 개의 샘플 값들이 획득될 수 있으므로, AR 네트워크(141)에 의해 획득되는 각 샘플에 대한 특징 정보의 개수가 감소됨에 따라서, 연산량이 감소될 수 있다.
일 실시 예에 따른 각 번칭 블록들(310, 320, 330)의 동작이 샘플 값 대신, 선형 예측 값과의 차이값에 기초하여 동작하는 경우, 각각의 번칭 블록들(310, 320, 330)은, 샘플 값 대신, 샘플 값의 차이값에 대한 특징 정보에 기초하여, 샘플 값의 차이값을 출력할 수 있다. 상술한 예에 한하지 않고, 각 번칭 블록들(310, 320, 330)은 샘플 값을 대체할 수 있는 다양한 값에 기초하여, 동작할 수 있다.
도 4는 일 실시 예에 의한 번칭 블록(410)의 일 예를 나타낸 블록도이다.
도 4를 참조하면, 일 실시 예에 의한 번칭 블록 그룹(142)에 포함된 번칭 블록들 중 적어도 하나는, 도 4에 도시된, 번칭 블록(410)과 같이 구성될 수 있다.
도 4에 도시된 번칭 블록(410)은, 도 3에 도시된 번칭 블록들(310, 320, 330)과는 달리, 출력 레이어의 구성인, 듀얼 FC(311), 소프트맥스 레이어(312) 및 샘플링 레이어(313)를, 420과 같이, 복수 개를 포함할 수 있다.
일 실시 예에 의한 번칭 블록(410)은, 비트 번칭 동작을 위해, 샘플 값을 나타내는 복수의 비트들이 속한 그룹 별로 번칭 동작이 수행될 수 있도록, 복수 개의 출력 레이어를 포함할 수 있다.
일 실시 예에 의한 비트 번칭 동작에 따라서, 나뉘어진 그룹 별로, 각각의 출력 레이어에서, 샘플 값의 비트들이 각각 획득될 수 있다.
일 실시 예에 의하면, 도 4에 도시된 출력 레이어의 구성에 한하지 않고, 샘플의 특징 정보로부터 샘플 값을 획득하기 위한 다양한 구성에 따라서, 비트 번칭 동작을 통해, 샘플 값이 획득될 수 있다.
일 실시 예에 의하면, 번칭 블록(410)에 입력된 샘플 단위의 특징 정보에 기초하여, 제1 그룹의 출력 레이어인, 듀얼 FC(421), 소프트맥스 레이어(422) 및 샘플링 레이어(423)를 통해, 제1 샘플 값을 구성하는 값 중 제1 그룹에 속한 비트의 값이 획득될 수 있다. 상기 제1 그룹에 속한 비트 값은, 임베딩 레이어(427) 및 합성(428) 구성에 의해, 처리된 후, 제2 그룹의 출력 레이어에 입력될 수 있다. 따라서, 제2 그룹의 비트 값은, 제1 그룹에 속한 비트 값에 기초하여 획득될 수 있다.
또한, 일 실시 예에 의하면, 번칭 블록(410)에 입력된 샘플 단위의 특징 정보에 기초하여, 제2 그룹의 출력 레이어인, 듀얼 FC(424), 소프트맥스 레이어(425) 및 샘플링 레이어(426)를 통해, 제1 샘플 값을 구성하는 값 중 제2 그룹에 속한 비트의 값이 획득될 수 있다. 일 실시 예에 의한 번칭 블록(410)에 입력된 샘플 단위의 특징 정보는, 제1 그룹에 속한 비트 값이 제2 그룹의 비트값이 획득되는데 고려될 수 있도록, 합성(428) 구성에서, 제1 그룹의 비트 값과 합성된 후, 상기 제2 그룹의 출력 레이어에 입력될 수 있다.
일 실시 예에 의하면, 합성(429)에서, 제1 그룹의 비트 값과, 제2 그룹의 비트 값이 합성됨으로써, 제1 샘플 값이 획득될 수 있다.
일 실시 예에 의한 임베딩 레이어(430) 및 합성(440)은 도 3에 도시된 임베딩 레이어(314, 324) 및 합성(315, 325)과 대응되며, 현재 샘플 값이 다음 번칭 블록에 고려될 수 있도록, 현재 샘플 값을 처리하여 출력할 수 있다.
도 5는 일 실시 예에 의한 전자 장치(1000)의 내부 구성을 설명하기 위한 블록도이다.
도 6은 일 실시 예에 의한 전자 장치(1000)의 내부 구성을 설명하기 위한 블록도이다.
도 5를 참조하면, 전자 장치(1000)는, 프로세서(1300), 및 출력부(1020)을 포함할 수 있다. 그러나, 도 5에 도시된 구성 요소 모두가 전자 장치(1000)의 필수 구성 요소인 것은 아니다. 도 5에 도시된 구성 요소보다 많은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있고, 도 5에 도시된 구성 요소보다 적은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있다.
예를 들면, 전자 장치(1000)는 도 6에 도시된 바와 같이, 일 실시예에 따른 전자 장치(1000)는, 프로세서(1300), 및 출력부(1020) 이외에 사용자 입력부(1100), 센싱부(1400), 통신부(1500), A/V 입력부(1600) 및 메모리(1700)를 더 포함할 수도 있다.
사용자 입력부(1100)는, 사용자가 전자 장치(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.
일 실시 예에 의하면, 사용자 입력부(1100)는, 텍스트에 대응되는 음성 신호를 생성하기 위한 사용자 입력을 수신할 수 있다. 예를 들면, 사용자 입력에 따른 응답을 출력하기 위해, 상기 응답과 대응되는 음성 신호가 생성될 수 있다.
출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 디스플레이부(1210), 음향 출력부(1220), 및 진동 모터(1230)를 포함할 수 있다.
디스플레이부(1210)는 전자 장치(1000)에서 처리되는 정보를 표시 출력한다. 일 실시 예에 의하면, 디스플레이부(1210)는 감지된 메신저 피싱 또는 보이스 피싱에 관한 정보를 포함한 가이드 메시지를 표시할 수 있다.
한편, 디스플레이부(1210)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1210)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(1210)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고 전자 장치(1000)의 구현 형태에 따라 전자 장치(1000)는 디스플레이부(1210)를 2개 이상 포함할 수도 있다.
일 실시 예에 의한 디스플레이부(1210)는, 텍스트에 대응하는 음성 신호가 생성된 결과와 관련된 정보를 출력할 수 있다.
음향 출력부(1220)는 통신부(1500)로부터 수신되거나 메모리(1700)에 저장된 오디오 데이터를 출력한다.
일 실시 예에 의한 음향 출력부(1220)는, 텍스트에 대응하여 생성된 음성 신호를 출력할 수 있다.
진동 모터(1230)는 진동 신호를 출력할 수 있다. 또한, 진동 모터(1230)는 터치스크린에 터치가 입력되는 경우 진동 신호를 출력할 수도 있다. 일 실시 예에 의하면, 진동 모터(1230)는 텍스트에 대응하는 음성 신호가 생성된 결과와 관련된 정보를 출력할 수 있다.
프로세서(1300)는, 통상적으로 전자 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(1100), 출력부(1200), 센싱부(1400), 통신부(1500), A/V 입력부(1600) 등을 전반적으로 제어할 수 있다.
전자 장치(1000)는 적어도 하나의 프로세서(1300)를 포함할 수 있다. 예를 들면, 전자 장치(1000)는 CPU(Central Processing Unit), GPU(Graphics Processing Unit), NPU(Neural Processing Unit) 등의 다양한 종류의 프로세서를 포함할 수 있다.
프로세서(1300)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(1700)로부터 프로세서(1300)에 제공되거나, 통신부(1500)를 통해 수신되어 프로세서(1300)로 제공될 수 있다. 예를 들면 프로세서(1300)는 메모리와 같은 기록 장치에 저장된 프로그램 코드에 따라 명령을 실행하도록 구성될 수 있다.
일 실시 예에 의한 프로세서(1300)는 적어도 하나의 텍스트에 기초하여, 음성 신호에 포함된 제1 샘플에 대한 특징 정보를 획득하고, 상기 특징 정보에 기초하여, 음성 신호에 포함된 적어도 하나의 샘플 값을 획득할 수 있다. 또한, 프로세서(1300)는, 상기 특징 정보로부터 적어도 하나의 샘플 값을 획득하기 위한 번칭 동작이 수행되는 상황 정보를 획득하고, 상기 상황 정보에 기초하여, 번칭 동작을 수행하기 위한 적어도 하나의 번칭 블록을 구성할 수 있다. 또한, 프로세서(1300)는 상기 구성된 번칭 블록을 이용하여, 적어도 하나의 샘플 값을 획득함으로써, 텍스트에 대응하는 음성 신호를 생성할 수 있다.
일 실시 예에 의한 번칭 블록은, 샘플 값을 구성하는 비트들이 나뉘어진 복수 개의 그룹별로, 번칭 동작이 수행될 수 있도록, 구성될 수 있다. 예를 들면, 상황 정보에 기초하여, 샘플 값을 구성하는 비트들이 분할되고, 복수 개의 그룹과 각각 대응되는 복수 개의 출력 레이어를 포함한, 번칭 블록이 구성될 수 있다. 일 실시 예에 의하면, 하나의 번칭 블록에서, 복수 개의 그룹별로 출력된 값들이 서로 결합됨으로써, 하나의 샘플 값이 획득될 수 있다.
일 실시 예에 의한 샘플 값을 획득하기 위한 번칭 블록은, 샘플 값에 대응하는 파라미터 정보에 기초하여, 구성될 수 있다. 예를 들면, 각 번칭 블록과 대응되는 샘플 값에 대한, 샘플 기반의 파라미터 정보에 기초하여, 각각의 번칭 블록이 구성될 수 있다. 일 실시 예에 의한, 파라미터 정보는, 샘플 값이 획득되는 다양한 상황 정보에 기초하여, 적절한 연산량과 음질의 음성 신호가 획득될 수 있도록, 결정될 수 있다. 예를 들어, 파라미터 정보는, 샘플 번칭 동작에 따라, 하나의 샘플 특징 정보에 기초하여 획득되는 샘플 값들의 개수, 샘플 값이 표현되는 비트들의 개수, 복수 개의 각 그룹에 속한 비트들의 개수 등의 정보를 포함할 수 있다.
센싱부(1400)는, 전자 장치(1000)의 상태 또는 전자 장치(1000) 주변의 상태를 감지하고, 감지된 정보를 프로세서(1300)로 전달할 수 있다.
센싱부(1400)는, 지자기 센서(Geomagnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 기압 센서(1470), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.
통신부(1500)는, 전자 장치(1000)가 서버(2000) 또는 외부 장치(미도시)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1500)는, 근거리 통신부(1510), 이동 통신부(1520), 방송 수신부(1530)를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)(1510)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
이동 통신부(1520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
방송 수신부(1530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 전자 장치(1000)가 방송 수신부(1530)를 포함하지 않을 수도 있다.
일 실시 예에 의한, 통신부(1500)는 텍스트에 대응하는 음성 신호를 생성하는데 필요한 데이터를 송수신할 수 있다.
A/V(Audio/Video) 입력부(1600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1610)와 마이크로폰(1620) 등이 포함될 수 있다. 카메라(1610)는 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(1300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다.
마이크로폰(1620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 예를 들어, 마이크로폰(1620)은 텍스트에 대응하는 음성 신호를 생성하기 위한 사용자의 음성 입력을 수신하는데 이용될 수 있다.
메모리(1700)는, 프로세서(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 전자 장치(1000)로 입력되거나 전자 장치(1000)로부터 출력되는 데이터를 저장할 수도 있다.
일 실시 예에 의한 메모리(1700)는 텍스트에 대응하는 음성 신호를 생성하는데 필요한 데이터를 저장할 수 있다. 예를 들어, 메모리(1700)는 음성 신호의 각 샘플들이 획득되는 상황에 관련된 상황 정보와, 상황 정보에 기초하여 결정될 수 있는 파라미터 정보를 저장할 수 있다. 일 실시 예에 의한 상황 정보에 따라, 번칭 블록을 구성하기 위한 파라미터 정보가 결정됨으로써, 적정한 연산량 및 음질의 음성 신호가 생성될 수 있다. 또한, 메모리(1700)는 일 실시 예에 따라 생성된 텍스트에 대응하는 음성 신호를 저장할 수 있다.
메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
메모리(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730) 등으로 분류될 수 있다.
UI 모듈(1710)은, 애플리케이션 별로 전자 장치(1000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(1300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.
터치스크린의 터치 또는 근접 터치를 감지하기 위해 터치스크린의 내부 또는 근처에 다양한 센서가 구비될 수 있다. 터치스크린의 터치를 감지하기 위한 센서의 일례로 촉각 센서가 있다. 촉각 센서는 사람이 느끼는 정도로 또는 그 이상으로 특정 물체의 접촉을 감지하는 센서를 말한다. 촉각 센서는 접촉면의 거칠기, 접촉 물체의 단단함, 접촉 지점의 온도 등의 다양한 정보를 감지할 수 있다.
사용자의 터치 제스처에는 탭, 터치&홀드, 더블 탭, 드래그, 패닝, 플릭, 드래그 앤드 드롭, 스와이프 등이 있을 수 있다.
알림 모듈(1730)은 전자 장치(1000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다.
도 7은 일 실시 예에 의한 텍스트와 대응되는 음성 신호를 생성하는 방법을 나타낸 순서도이다.
도 7을 참조하면, 단계 710에서, 일 실시 예에 의한 전자 장치(1000)는, 적어도 하나의 텍스트에 기초하여, 음성 신호에 포함된 적어도 하나의 샘플 중 제1 샘플에 대한 특징 정보를 획득할 수 있다.
일 실시 예에 의한 제1 샘플의 특징 정보는, 텍스트에 대응하는 적어도 하나의 프레임의 특징 정보들 중, 제1 샘플이 포함된 프레임의 특징 정보로부터 획득될 수 있다. 또한, 제1 샘플의 특징 정보는, 텍스트로부터 제1 샘플의 특징 정보를 획득하기 위해 미리 학습된 적어도 하나의 인공지능 모델에 의하여 획득될 수 있다. 상술한 예에 한하지 않고, 일 실시 예에 의한 제1 샘플의 특징 정보는, 다양한 방법에 따라서 획득될 수 있다.
단계 720에서, 전자 장치(1000)는, 이하 단계에서 수행될 번칭 동작에 관한 상황 정보를 획득할 수 있다. 일 실시 예에 의한 번칭 동작은, 단계 710에서 획득된 제1 샘플에 대한 특징 정보에 기초하여, 음성 신호를 구성하는, 적어도 하나의 샘플을 획득하는 동작을 포함할 수 있다.
일 실시 예에 의한 번칭 동작은, 하나의 샘플에 관한 특징 정보에 기초하여, 복수 개의 샘플 값을 획득하는 샘플 번칭 동작과, 샘플 값을 나타내는 비트들이 복수 개의 그룹별로 획득됨으로써, 샘플 값이 획득되는 비트 번칭 동작을 포함할 수 있다.
일 실시 예에 의한 샘플 번칭 동작과, 비트 번칭 동작에 의하면, 연산량이 감소될 수 있으나, 상대적으로 음질이 낮은 음성 신호가 획득될 수 있다. 예를 들면, 샘플 번칭 동작에 따라, 하나의 샘플에 관한 특징 정보에 기초하여, 획득되는 샘플 값의 개수가 많아질수록, 연산량이 감소되나 음질이 낮은 음성 신호가 획득될 수 있다. 또한, 비트 번칭 동작에 따라, 상위 비트를 포함하는 그룹의 비트 개수가 더 많아질수록, 연산량이 증가되나, 음질이 높은 음성 신호가 획득될 수 있다.
따라서, 일 실시 예에 의하면, 높은 음질의 음성 신호가 출력될 필요성이 있는 상황인지 여부에 따라, 샘플 값을 획득하기 위한 샘플 번칭 동작 및 비트 번칭 동작 중 적어도 하나의 동작이 수행될 수 있다. 예를 들면, 샘플 값이 속한 음성 신호의 구간이 묵음 구간 또는 변동성이 낮은 구간에 속하거나, 음성 신호가 출력되는 스피커의 성능이 상대적으로 낮은 경우, 높은 음질의 음성 신호가 출력될 필요성이 없는 상황에 해당될 수 있다. 또한, 음성 신호가 생성되는 전자 장치(1000)의 성능이 상대적으로 낮은 경우, 높은 음질보다 연산량이 낮은 것이 우선되는 상황에 해당될 수 있다.
일 실시 예에 의하면, 각 샘플 값은, 샘플 값이 획득되는 상황과 관련된 상황 정보에 기초하여, 번칭 동작이 수행될 수 있다. 일 실시 예에 의한 상황 정보는, 예를 들면, 음성 신호가 생성되는 전자 장치(1000)의 성능 정보, 음성 신호가 출력되는 스피커의 성능 정보, 샘플 값이 속한 구간의 음질 수준에 관한 정보(ex. 묵음 구간, 변동성 수준) 등을 포함할 수 있다. 또한, 일 실시 예에 의한 상황 정보는, 번칭 동작과 관련하여, 사용자에 의해 미리 설정된 정보를 더 포함할 수 있다.
상술한 예에 한하지 않고, 일 실시 예에 의한 상황 정보는, 적절한 연산량 및 음질의 음성 신호가 획득될 수 있는 번칭 동작이 결정되기 위한 다양한 종류의 정보를 포함할 수 있다.
단계 730에서, 일 실시 예에 의한 전자 장치(1000)는 단계 720에서 획득된 상황 정보에 기초하여, 번칭 동작이 수행되는 번칭 블록을 구성할 수 있다. 일 실시 예에 의한 번칭 블록은, 적어도 하나의 출력 레이어를 포함하여, 샘플 값이 획득되는 번칭 동작이 수행될 수 있도록 구성될 수 있다.
일 실시 예에 의하면, 상황 정보에 기초하여, 제1 샘플에 대한 특징 정보에 기초하여 획득되는 샘플 값의 개수가 결정됨으로써, 샘플 번칭 동작을 위한 번칭 블록이 샘플 값의 개수만큼 생성될 수 있다. 예를 들어, 제1 샘플에 대한 특징 정보에 기초하여, 3개의 샘플 값이 생성되는 것으로 결정된 경우, 각각 대응되는 샘플 값을 출력할 수 있는, 3개의 번칭 블록이 생성될 수 있다.
또한, 일 실시 예에 의하면, 상황 정보에 기초하여, 각 번칭 블록에서 생성되는 샘플 값의 비트들이 비트 번칭 동작을 위한 복수 개의 그룹으로 나뉘어질 수 있다. 일 실시 예에 의한 번칭 블록은, 그룹 개수만큼의 출력 레이어들을 포함할 수 있고, 각 출력 레이어에서, 각각 대응되는 그룹의 비트 값들이 획득될 수 있다.
예를 들어, 상황 정보에 기초하여, 샘플 값을 나타내는 비트들의 총 개수가 8개로 결정되고, 샘플 값의 비트들이 상위 비트 그룹 및 하위 비트 그룹의 2개의 그룹으로 나뉘어 질 수 있다. 또한, 상황 정보에 기초하여, 상위 비트 그룹에는 상위 자리의 비트 값 7개, 하위 비트 그룹에는 하위 자리의 비트 값 1개가 출력될 수 있도록, 번칭 블록이 구성될 수 있다. 일 예로, 상황 정보에 따라 구성된 번칭 블록에 의하여, 상위 비트 그룹에 대응하는 제1 출력 레이어는, 상위 자리의 7개의 비트 값들을 출력할 수 있고, 하위 비트 그룹에 대응하는 제2 출력 레이어는, 하위 자리의 1개의 비트 값을 출력할 수 있다. 상술한 예에 한하지 않고, 상황 정보에 기초하여, 샘플 값 획득을 위한 번칭 동작이 수행될 수 있도록, 각각의 번칭 블록이 다양하게 구성될 수 있다.
단계 740에서, 일 실시 예에 의한 전자 장치(1000)는, 단계 730에서 구성된 번칭 블록을 이용하여, 제1 샘플에 대한 특징 정보로부터 적어도 하나의 샘플 값을 획득할 수 있다.
일 실시 예에 의하면, 샘플 값이 획득될 때마다, 각 샘플 값을 획득하기 위한 번칭 블록이, 상황 정보에 기초하여, 생성될 수 있다. 따라서, 일 실시 예에 의하면, 샘플 값에 대응되는 상황 정보에 따라서, 최적의 연산량으로 번칭 동작이 수행됨으로써, 샘플 값이 획득될 수 있다.
일 실시 예에 의하면, 각 샘플 값의 상황 정보에 기초하여, 각 샘플 값에 대한 샘플 기반의 파라미터 정보가 결정되고, 상기 결정된 샘플 기반의 파라미터 정보에 기초하여, 번칭 블록이 구성될 수 있다.
또한, 일 실시 예에 의하면, 제1 샘플 값은, 제1 샘플의 특징 정보에 기초하여 획득될 수 있으나, 제1 샘플 값 이후 다른 샘플 값에 대하여, 각 샘플 값에 대한 파라미터 정보에 기초하여, 제1 샘플의 특징 정보에 기초하여 각각의 샘플 값이 획득될 지 여부가 결정될 수 있다. 예를 들어, 제2 샘플 값의 파라미터 정보 중 제2 샘플에 대한 특징 정보로부터 번칭 동작을 통해 획득되는 샘플 값의 개수를 나타내는 값이 0인 경우, 제1 샘플에 대한 특징 정보에 기초하여, 제2 샘플 값이 획득될 수 있도록, 제2 샘플 값에 대한 번칭 블록이 구성될 수 있다.
일 실시 예에 의한 각각의 번칭 블록은, 비트 번칭 동작과 관련된 파라미터 정보에 기초하여, 적어도 하나의 출력 레이어를 포함함으로써, 샘플 값을 출력할 수 있다. 일 실시 예에 의하면, 파라미터 정보에 기초하여, 샘플 값이 표현되는 복수 개의 비트들이 분할되고, 분할된 그룹의 개수만큼의 출력 레이어가 포함된 번칭 블록이 구성될 수 있다.
일 실시 예에 의한 제1 샘플의 특징 정보에 기초하여, 적어도 하나의 번칭 블록에 의해 획득되는, 적어도 하나의 샘플 값들은, 이전에 획득된 샘플 값에 기초하여, 순차적으로 획득될 수 있다. 예를 들면, 상기 적어도 하나의 샘플 값 중 어느 하나의 샘플 값은, 상기 적어도 하나의 샘플 값 중 이전에 획득된 적어도 하나의 샘플 값과, 상기 제1 샘플의 특징 정보에 기초하여, 획득될 수 있다.
단계 750에서, 일 실시 예에 의한 전자 장치(1000)는 단계 740에서 획득된 샘플 값에 기초하여, 음성 신호를 생성할 수 있다. 일 실시 예에 의하면, 샘플 값들이 시간 순서대로 스피커를 통해 출력될 수 있도록 나열함으로써, 음성 신호가 생성될 수 있다. 상술한 예에 한하지 않고, 음성 신호는 샘플 값에 기초하여, 다양한 방법에 따라 다양한 형태로 생성될 수 있다.
도 8은 일 실시 예에 의한 파라미터 정보가 결정되는 일 예를 나타낸 블록도이다.
도 8을 참조하면, 도 8의 어쿠스틱 모델(110), FRN(130), AR 네트워크(141), 번칭 블록 그룹(142) 및 파라미터 결정부(143)는, 도 1의 어쿠스틱 모델(110), FRN(130), AR 네트워크(141), 번칭 블록 그룹(142) 및 파라미터 결정부(143)와 대응될 수 있다.
일 실시 예에 의한 파라미터 결정부(143)는, 디바이스 기반의 파라미터 정보(143-1), 프레임 기반의 파라미터 정보(143-2) 및 샘플 기반의 파라미터 정보(143-3)를 결정할 수 있다.
일 실시 예에 의한 파라미터 정보는, 번칭 블록 그룹(142)에서 샘플 값을 획득하기 위한 번칭 동작과 관련된 파라미터에 관한 정보를 포함할 수 있다. 예를 들면, 파라미터 정보는, 하나의 샘플에 대한 특징 정보로부터 번칭 동작을 통해 획득되는 샘플 값의 개수(B), 샘플 값의 총 비트 수(b), 샘플 값의 비트들이 속한 각 그룹의 개수 및 각 그룹에 속한 비트 수(bh, bl) 등을 결정하는 값을 포함할 수 있다. 상술한 예에 한하지 않고, 파라미터 정보는, 번칭 동작과 관련된 다양한 종류의 파라미터 값을 포함할 수 있다.
일 실시 예에 따라 결정되는, 디바이스 기반의 파라미터 정보(143-1), 프레임 기반의 파라미터 정보(143-2) 및 샘플 기반의 파라미터 정보(143-3)는, 동일한 파라미터에 대해 결정된 값을 포함할 수 있다. 예를 들어, 디바이스 기반의 파라미터 정보(143-1), 프레임 기반의 파라미터 정보(143-2) 및 샘플 기반의 파라미터 정보(143-3)는, 상술한, B, b, bh 및 bl 값에 대해 결정된 정보를 포함할 수 있다.
일 실시 예에 의하면, 디바이스 기반의 파라미터 정보(143-1)가 먼저 결정된 후, 프레임 기반의 파라미터 정보(143-2)가 결정될 수 있고, 프레임 기반의 파라미터 정보(143-2)에 기초하여, 샘플 기반의 파라미터 정보(143-3)가 결정될 수 있다. 일 실시 예에 의한 번칭 블록 그룹(142)에서의 샘플 값이 획득되는 번칭 동작은, 최종 결정된, 샘플 기반의 파라미터 정보(143-3)에 기초하여 수행될 수 있다.
일 실시 예에 의한 파라미터 정보는, 상황 정보에 따라서, 결정될 수 있다. 일 실시 예에 의한 상황 정보는, 번칭 블록 그룹(142)에서 샘플 값이 획득되는 상황과 관련된 정보를 포함할 수 있다. 예를 들어, 상황 정보는 음성 신호와 관련된 디바이스에 관한 정보, 음성 신호와 대응되는 프레임 단위의 특징 정보 및 음성 신호와 대응되는 샘플 단위의 특징 정보 등을 포함할 수 있다.
일 실시 예에 의한 디바이스 기반의 파라미터 정보(143-1)는, 상황 정보 중 음성 신호와 관련된 디바이스에 관한 정보에 기초하여, 획득될 수 있다. 예를 들면, 상황 정보는, 음성 신호가 생성되는, 전자 장치(1000)의 성능에 관한 정보, 음성 신호가 출력되는 스피커의 성능에 관한 정보 등을 포함할 수 있다.
일 실시 예에 의한 디바이스 기반의 파라미터 정보(143-1)는, 음성 신호가 생성되는, 전자 장치(1000)의 성능에 관한 정보에 기초하여, 전자 장치(1000)에 의해 음성 신호가 생성되는데 적절한 길이의 시간이 소요될 수 있도록, 결정될 수 있다. 예를 들어, 전자 장치(1000)의 성능이 낮을 수록, 하나의 샘플 특징 정보에 기초하여 획득되는 샘플 수가 늘어나도록, B 값이 상대적으로 큰 값으로 결정될 수 있다. 또한, 샘플 값을 나타내는 비트 개수가 적어지도록, b 값이 상대적으로 작은 값으로 결정될 수 있다. 또한, 각 그룹에 포함된 비트 개수를 나타내는 bh 및 bl 값도, 각 그룹에서 예측되는 샘플 후보 값의 개수가 적어지도록, 결정될 수 있다.
또한, 일 실시 예에 의한 디바이스 기반의 파라미터 정보(143-1)는, 상황 정보 중 음성 신호가 출력되는, 스피커 장치의 성능에 관한 정보에 기초하여, 스피커 장치의 성능에 맞는 음질의 음성 신호가 생성될 수 있도록, 결정될 수 있다. 일 실시 예에 의하면, 높은 음질의 음성 신호가 생성되어도, 스피커 장치의 성능이 낮은 경우, 낮은 음질의 음성 신호가 출력될 수 있으므로, 스피커 장치의 성능에 맞는 음질의 음성 신호가 생성될 수 있도록, 디바이스 기반의 파라미터 정보(143-1)가 결정될 수 있다. 예를 들어, 스피커 장치의 성능이 낮을 수록, 하나의 샘플 특징 정보에 기초하여 획득되는 샘플 수가 늘어나도록, B 값이 상대적으로 큰 값으로 결정될 수 있다. 또한, 샘플 값을 나타내는 비트 개수가 적어지도록, b 값이 상대적으로 작은 값으로 결정될 수 있다. 또한, 각 그룹에 포함된 비트 개수를 나타내는 bh 및 bl 값도, 각 그룹에서 예측되는 샘플 후보 값의 개수가 적어지도록, 결정될 수 있다.
상술한 예에 한하지 않고, 디바이스 기반의 파라미터 정보(143-1)는, 음성 신호와 관련된 디바이스의 성능에 맞게, 적절한 음질의 음성 신호가 생성될 수 있도록, 다양한 방법 및 정보에 따라서, 결정될 수 있다.
일 실시 예에 의한 디바이스 정보는, 음성 신호가 생성되는 동작이 수행되기 전에 미리 획득될 수 있는 정보이므로, 디바이스 기반의 파라미터 정보(143-1)는 음성 신호가 생성되는 동작이 수행되기 전에 미리 결정될 수 있다.
일 실시 예에 의한 프레임 기반의 파라미터 정보(143-2)는, 상황 정보 중 음성 신호의 프레임 단위로 획득되는 특징 정보에 기초하여 결정될 수 있다. 일 실시 예에 의한 프레임 단위의 특징 정보는, 어쿠스틱 모델(110)에 의해 획득될 수 있는 음성 신호의 특징 정보일 수 있다. 일 실시 예에 의하면, 어쿠스틱 모델(110)에 의해 음성 신호의 특징 정보가 프레임 단위로 획득될 때마다, 프레임 기반의 파라미터 정보(143-2)가 결정될 수 있다. 상술한 예에 한하지 않고, 프레임 기반의 파라미터 정보(143-2)는 다양한 방법으로 획득된 프레임 단위의 음성 신호의 특징 정보에 기초하여 결정될 수 있다.
일 실시 예에 의한 프레임 단위의 음성 신호의 특징 정보는, 예를 들면, 묵음, 무성음, 유성음, 에너지 크기 등의 음성 신호의 특성에 관한 정보를 포함할 수 있다. 일 실시 예에 의하면, 음성 신호의 특성에 따라, 청취자가 음성 신호의 음질 변화를 체감할 수 있는 정도를 고려하여, 적절한 음질의 음성 신호가 생성될 수 있도록, 프레임 기반의 파라미터 정보(143-2)가 결정될 수 있다.
일 실시 예에 의한, 묵음 또는 무성음 특징을 가지거나 에너지 크기가 작은 특징을 가지는 음성 신호의 경우, 높은 음질의 음성 신호가 출력되어도, 청취자가 높은 음질의 음성 신호를 체감하기 어려운 경우에 해당되므로, 상대적으로 낮은 음질의 음성 신호가 획득될 수 있도록 프레임 기반의 파라미터 정보(143-2)가 결정될 수 있다. 예를 들어, 묵음 또는 무성음 특징이 강한 음성 신호의 구간에 해당될 수록, 하나의 샘플 특징 정보에 기초하여 획득되는 샘플 수가 늘어나도록, B 값이 상대적으로 큰 값으로 결정될 수 있다. 또한, 샘플 값을 나타내는 비트 개수가 적어지도록, b 값이 상대적으로 작은 값으로 결정될 수 있다. 또한, 각 그룹에 포함된 비트 개수를 나타내는 bh 및 bl 값도, 각 그룹에서 예측되는 샘플 후보 값의 개수가 적어지도록, 결정될 수 있다.
일 실시 예에 의한, 유성음 특징을 가지거나 에너지 크기가 큰 특징을 가지는 음성 신호의 경우, 높은 음질의 음성 신호가 출력될 수록 청취자가 높은 음질의 음성 신호를 체감하기 쉬운 경우에 해당되므로, 상대적으로 높은 음질의 음성 신호가 획득될 수 있도록 프레임 기반의 파라미터 정보(143-2)가 결정될 수 있다. 예를 들어, 유성음 특징이 강하거나 에너지 크기가 큰 음성 신호의 구간에 해당될 수록, 하나의 샘플 특징 정보에 기초하여 획득되는 샘플 수가 적어지도록, B 값이 상대적으로 작은 값으로 결정될 수 있다. 또한, 샘플 값을 나타내는 비트 개수가 많아지도록, b 값이 상대적으로 큰 값으로 결정될 수 있다. 또한, 각 그룹에 포함된 비트 개수를 나타내는 bh 및 bl 값도, 높은 비트를 포함하는 그룹의 비트 개수가 많아지도록, bh 값이 bl 값 보다 더 큰 값으로 결정될 수 있다.
상술한 예에 한하지 않고, 프레임 기반의 파라미터 정보(143-2)는, 음성 신호의 특성에 맞게, 적절한 음질의 음성 신호가 생성될 수 있도록, 다양한 방법 및 정보에 따라서, 결정될 수 있다.
일 실시 예에 의한 프레임 기반의 파라미터 정보(143-2)는 먼저 결정된 디바이스 기반의 파라미터 정보(143-1)의 파라미터 값에 기초하여, 결정될 수 있다. 예를 들어, B 값은, 프레임 단위의 특성 정보에 기초하여, 수정될 수 있으나, 스피커 성능에 비해 큰 값이 결정되지 않도록 수정될 수 있다. 상술한 예에 한하지 않고, 프레임 기반의 파라미터 정보(143-2)는 다양한 방법에 따라 디바이스 기반의 파라미터 정보(143-1)에 기초하여, 결정될 수 있다.
일 실시 예에 의한 샘플 기반의 파라미터 정보(143-3)는, 상황 정보 중 음성 신호의 샘플 값의 특징 정보 및 미리 설정된 정보 중 적어도 하나에 기초하여 결정될 수 있다. 일 실시 예에 의한 샘플 값의 특징 정보는 번칭 블록 그룹(142)에서, 번칭 동작을 통해, 획득된 샘플 값에 따라서 결정될 수 있다. 일 실시 예에 의하면, 번칭 블록 그룹(142)에서 이전 단계에서 획득된 적어도 하나의 샘플 값에 기초하여, 현재 단계에서 획득될 샘플에 대한 샘플 기반의 파라미터 정보(143-3)가 결정될 수 있다. 상술한 예에 한하지 않고, 샘플 기반의 파라미터 정보(143-3)는 다양한 방법으로 획득된 프레임 단위의 음성 신호의 특징 정보에 기초하여 결정될 수 있다.
일 실시 예에 의한 샘플 값의 특징 정보는, 예를 들면, 음소 전이 구간, 샘플 값의 예측 정확도 등의 각각의 샘플 값에 대한 특성에 관한 정보를 포함할 수 있다. 일 실시 예에 의하면, 샘플 값의 특성에 따라, 적절한 음질의 음성 신호가 생성될 수 있도록, 샘플 기반의 파라미터 정보(143-3)가 결정될 수 있다.
일 실시 예에 의한, 이전 단계의 샘플 값들이, 음소 전이 구간에 속하는 경우, 샘플 값들 간 변화 가능성이 높아, 음성 신호의 음질에 따라 청취자가 체감하는 음질이 크게 달라질 수 있으므로, 상대적으로 높은 음질의 음성 신호가 획득될 수 있도록 샘플 기반의 파라미터 정보(143-3)가 결정될 수 있다. 예를 들어, 이전 단계의 샘플 값들이 속한 구간이, 음소 전이 정도가 크게 발생되는 구간에 해당될 수록, 하나의 샘플 특징 정보에 기초하여 획득되는 샘플 수가 줄어들도록, B 값이 상대적으로 작은 값으로 결정될 수 있다. 또한, 샘플 값을 나타내는 비트 개수가 많아지도록, b 값이 상대적으로 큰 값으로 결정될 수 있다. 또한, 각 그룹에 포함된 비트 개수를 나타내는 bh 및 bl 값도, 높은 비트를 포함하는 그룹의 비트 개수가 많아지도록, bh 값이 bl 값 보다 더 큰 값으로 결정될 수 있다.
일 실시 예에 의한, 이전 단계의 샘플 값들에 대한 확률 정보에 기초하여 결정된 예측 정확도가 낮은 만큼, 상대적으로 높은 음질의 음성 신호가 획득될 수 있도록 샘플 기반의 파라미터 정보(143-3)가 결정될 수 있다. 예를 들어, 이전 단계의 샘플 값들의 예측 정확도가 낮을 수록, 하나의 샘플 특징 정보에 기초하여 획득되는 샘플 수가 줄어들도록, B 값이 상대적으로 작은 값으로 결정될 수 있다. 또한, 샘플 값을 나타내는 비트 개수가 많아지도록, b 값이 상대적으로 큰 값으로 결정될 수 있다. 또한, 각 그룹에 포함된 비트 개수를 나타내는 bh 및 bl 값도, 높은 비트를 포함하는 그룹의 비트 개수가 많아지도록, bh 값이 bl 값 보다 더 큰 값으로 결정될 수 있다.
상술한 예에 한하지 않고, 샘플 기반의 파라미터 정보(143-3)는, 음성 신호의 특성에 맞게, 적절한 음질의 음성 신호가 생성될 수 있도록, 다양한 방법 및 정보에 따라서, 결정될 수 있다.
일 실시 예에 의하면, 샘플 기반의 파라미터 정보(143-3)는, 미리 설정된 정보에 기초하여, 획득될 수도 있다. 일 실시 예에 의한 미리 설정된 정보는, 각 샘플에 대하여, 미리 설정된 파라미터 값을 포함할 수 있다. 또한, 미리 설정된 정보는, 일 실시 예에 의한 음성 신호를 생성하는 동작이 시작되기 전에 사용자에 의해 미리 설정된 파라미터 값을 포함할 수 있다.
일 실시 예에 의한 샘플 기반의 파라미터 정보(143-3)는 먼저 결정된 디바이스 기반의 파라미터 정보(143-1)의 파라미터 값과, 프레임 기반의 파라미터 정보(143-2) 중 적어도 하나에 기초하여, 결정될 수 있다. 예를 들어, B 값은, 이전에 획득된 샘플 값의 특성에 기초하여 수정될 수 있으나, 스피커 성능에 비해 큰 값이 결정되거나, 프레임 특성에 적절하지 않은 값으로 결정되지 않도록 수정될 수 있다. 상술한 예에 한하지 않고, 샘플 기반의 파라미터 정보(143-3)는 다양한 방법에 따라 디바이스 기반의 파라미터 정보(143-1) 및 프레임 기반의 파라미터 정보(143-2)에 기초하여, 결정될 수 있다.
일 실시 예에 의한 샘플 기반의 파라미터 정보(143-3)는, 이전에 획득된 적어도 하나의 샘플 값에 따라서 결정될 수 있고, 번칭 블록 그룹(142)에서, 샘플 번칭 동작 및 비트 번칭 동작을 통해 현재 샘플을 획득하는데 이용될 수 있다.
예를 들면, 샘플 기반의 파라미터 정보(143-3) 중 b, bh 및 bl 값에 기초하여, 현재 샘플에 대한 비트 번칭 동작이 수행될 수 있다. 또한, 샘플 기반의 파라미터 정보(143-3) 중 B 값에 기초하여, 현재 샘플에 대한 샘플 번칭 동작이 수행될 수 있다.
일 실시 예에 의한 샘플 기반의 파라미터 정보(143-3) 중 b, bh 및 bl 값은, 각각의 샘플 값마다 결정될 수 있다. B 값도, 샘플 값마다 결정될 수 있으나, 이전 샘플에 대해 결정된 B값과 모순되지 않는 값으로 결정될 수 있다. 예를 들어, 인덱스가 k인 샘플에 대해 결정된 B 값이 3인 경우, k+1의 현재 샘플은, 샘플 k의 값에 대한 특징 정보에 기초하여 획득될 수 있도록, B 값이 0으로 결정될 수 있다. 이후, k+3의 샘플에 대한 B 값은, k+3 샘플부터는, 새로운 샘플의 특징 정보에 기초한 샘플 번칭 동작이 수행될 수 있으므로, 샘플 k의 B 값과는 무관하게 결정될 수 있다. 상술한 예에 한하지 않고, k+1의 현재 샘플에 대한 B 값은, 이전 샘플에 대해 결정된 B값과는 무관하게, 현재 샘플의 특징 정보에 기초하여, 복수의 샘플 값들이 획득될 수 있도록, 결정될 수도 있다. 또한, k+1의 현재 샘플에 대한 B 값은, 현재 샘플의 특징 정보에 기초하여, 다양한 방법에 따라 결정될 수 있다.
일 실시 예에 의하면, 번칭 블록 그룹(142)에서 획득된 샘플 값들은, 샘플 기반의 파라미터 정보(143-3)가 획득되는데 이용될 수 있으나, 이에 더해, AR 네트워크(141)의 피드백(810)으로 입력될 수 있다. 일 실시 예에 의한 피드백(810)은, 도 1의 AR 네트워크(141)로, 이전에 번칭 블록 그룹(142)에서 획득된 샘플 값들이 입력되는 동작과 대응될 수 있다.
또한, 일 실시 예에 의한 번칭 블록 그룹(142)에서 획득된 샘플 값들에 기초하여, 음성 신호가 생성(820)되어, 스피커를 통해 출력되거나, 전자 장치(1000)의 메모리 또는 외부 저장 장치(미도시)에 저장될 수 있다.
도 9는 일 실시 예에 의한 파라미터 정보에 기초하여 번칭 동작이 수행되는 일 예를 나타낸 블록도이다.
도 9를 참조하면, 도 9의 FRN(130), AR 네트워크(141), 번칭 블록 그룹(142)은, 도 1의 FRN(130), AR 네트워크(141) 및 번칭 블록 그룹(142)과 대응될 수 있다. 또한, 도 9의 디바이스 기반의 파라미터 정보(143-1), 프레임 기반의 파라미터 정보(143-2), 샘플 기반의 파라미터 정보(143-3) 및 음성 신호 생성(820)은, 도 8의 디바이스 기반의 파라미터 정보(143-1), 프레임 기반의 파라미터 정보(143-2), 샘플 기반의 파라미터 정보(143-3) 및 음성 신호 생성(820)와 대응될 수 있다.
일 실시 예에 의한 어쿠스틱 모델(110)로부터 M개의 프레임에 대해, 음성 신호의 특징 정보가 획득되는 경우, FRN(130)은, 0부터 M-1까지의 M개의 특징 정보에 기초하여, M개의 프레임 단위의 특징 정보를 출력할 수 있다. 따라서, 프레임을 나타내는 인덱스 i 값이 M보다 작은 경우(130-1), FRN(130)의 동작이 반복적으로 수행될 수 있다. 일 실시 예에 의한 프레임을 나타내는 인덱스 i 값은, 0부터 시작하여, AR 네트워크(141)에서, 하나의 프레임에 속한 샘플들에 대해 특징 정보가 모두 획득될 때마다, 1씩 증가됨으로써, FRN(130)에서, 다음 프레임에 대한 특징 정보가 출력될 수 있다.
일 실시 예에 의한 AR 네트워크(141)는, 하나의 프레임 단위의 특징 정보마다, 복수의 샘플에 대한 특징 정보를 출력할 수 있다. 하나의 프레임에 N개의 샘플이 포함되어 있고, 샘플을 나타내는 인덱스 j 값이 N보다 작은 샘플에 대해(141-1), AR 네트워크(141)의 동작이 반복적으로 수행될 수 있다.
일 실시 예에 의한 AR 네트워크(141)의 동작은, 샘플 기반의 파라미터 정보(143-3)의 B 값에 따라, 적응적으로 수행될 수 있다. 예를 들어, B 값이 클수록, AR 네트워크(141)는, 동일한 프레임 내에서, 상대적으로, 적은 개수의 샘플 특징 정보를 출력함에 따라, 상대적으로 낮은 음질의 음성 신호가 획득될 수 있다.
일 실시 예에 의한 번칭 블록 그룹(142)은, 샘플 기반의 파라미터 정보(143-3)에 기초하여 결정된 B 값에 따라서, 하나의 샘플에 대한 특징 정보에 기초하여, B개의 샘플 값을 획득하는 동작을 수행할 수 있다. 따라서, 142-1에서, AR 네트워크(141)에서 출력된 특징 정보의 샘플부터 카운트된 k 값이 B 미만이고, 샘플을 나타내는 인덱스 j 값이 N보다 작은 경우, 번칭 블록 그룹(142)에 의한 샘플 값을 획득하는 동작이 반복하여 수행될 수 있다. 일 실시 예에 의한 k 및 j값은, 샘플 번칭 동작에 따라, 하나의 샘플에 대한 특징 정보에 기초하여, 샘플 값이 획득될 때마다 1씩 증가될 수 있다.
일 실시 예에 의하면, 번칭 블록 그룹(142)의 동작은, 샘플 기반의 파라미터 정보(143-3)의 B, b, bh 및 bl 값 등에 의해, 적응적으로 수행될 수 있다. 예를 들어, B 값만큼의 개수의 번칭 블록이 구성됨으로써, 샘플 번칭 동작이 수행될 수 있고, b, bh 및 bl 값에 의해 각 번칭 블록 내에서, 비트 번칭을 위한 구성이 추가됨에 따라, 비트 번칭 동작이 수행될 수 있다.
상술한 에에 한하지 않고, 번칭 블록 그룹(142)의 동작은, 샘플 기반의 파라미터 정보(143-3)에 따른 파라미터 값에 한하지 않고, 디바이스 기반의 파라미터 정보(143-1) 및 프레임 기반의 파라미터 정보(143-2) 중 적어도 하나에 의한 파라미터 값에 따라 수행될 수도 있다. 예를 들어, 샘플 기반의 파라미터 정보(143-3)가, 여러가지 요인으로 인해, 다른 파라미터 정보(143-1, 143-2)에 비해 정확도가 낮은 경우, 번칭 블록 그룹(142)은, 샘플 기반의 파라미터 정보(143-3) 대신 다른 파라미터 정보(143-1, 143-2)에 기초하여 동작을 수행할 수도 있다.
일 실시 예에 의한 디바이스 기반의 파라미터 정보(143-1)는, 미리 획득된 디바이스 정보에 기초하여 결정될 수 있다.
일 실시 예에 의한 프레임 기반의 파라미터 정보(143-2)는, 현재 프레임에 대한 음성 신호의 특징 정보에 기초하여 결정될 수 있다. 또한, 프레임 기반의 파라미터 정보(143-2)는, 디바이스 기반의 파라미터 정보(143-1)에 기초하여 결정될 수도 있다.
일 실시 예에 의한 샘플 기반의 파라미터 정보(143-3)는, 이전에 획득된 샘플 값들에 기초하여 결정될 수 있다. 또한, 샘플 기반의 파라미터 정보(143-3)는, 디바이스 기반의 파라미터 정보(143-1) 및 프레임 기반의 파라미터 정보(143-2) 중 적어도 하나에 기초하여 결정될 수도 있다.
일 실시 예에 의한 번칭 블록 그룹(142)은, 샘플 기반의 파라미터 정보(143-3), 디바이스 기반의 파라미터 정보(143-1) 및 프레임 기반의 파라미터 정보(143-2) 대신에, 현재 샘플(j)에 대해 미리 설정된 파라미터 값(ex. Bj, bj, bh j 및 bl j)에 기초하여, 번칭 동작을 수행할 수도 있다. 예를 들면, 현재 샘플(j)에 대해 미리 설정된 파라미터 값(ex. Bj, bj, bh j 및 bl j)은, 샘플 기반의 파라미터 정보(143-3)로서, 번칭 블록 그룹(142)의 각 번칭 동작이 수행되는데 이용될 수 있다.
일 실시 예에 의하면, 음질 저하를 최소화하면서, 음성 신호의 생성에 소요되는 연산량을 줄일 수 있도록, 텍스트와 대응되는 음성 신호를 생성할 수 있다.
기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (15)

  1. 전자 장치에서, 적어도 하나의 텍스트와 대응되는 음성 신호를 생성하는 방법에 있어서,
    상기 적어도 하나의 텍스트에 기초하여, 상기 음성 신호에 포함된 제1 샘플에 대한 특징 정보를 획득하는 단계;
    상기 특징 정보에 기초하여, 상기 음성 신호에 포함된 적어도 하나의 샘플 값이 획득되는 번칭 동작이 수행되는 상황에 관한 상황 정보를 획득하는 단계;
    상기 상황 정보에 기초하여, 상기 번칭 동작을 수행하기 위한 적어도 하나의 번칭 블록을 구성하는 단계;
    상기 제1 샘플의 특징 정보에 기초하여, 상기 적어도 하나의 샘플 값을, 상기 적어도 하나의 번칭 블록을 이용하여, 획득하는 단계; 및
    상기 획득된 적어도 하나의 샘플 값에 기초하여, 상기 음성 신호를 생성하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 상황 정보는
    상기 전자 장치의 성능 정보, 상기 음성 신호가 출력되는 장치의 성능 정보, 상기 적어도 하나의 샘플 값이 속한 구간의 특성에 관한 정보, 각각의 샘플 값의 특성에 관한 정보 및 상기 번칭 동작과 관련하여 미리 설정된 정보 중 적어도 하나를 포함하는, 방법.
  3. 제1항에 있어서, 상기 상황 정보에 기초하여, 상기 적어도 하나의 번칭 블록을 구성하기 위한 파라미터 정보가 결정되고,
    상기 파라미터 정보는, 상기 제1 샘플의 특징 정보로부터 획득될 수 있는 상기 적어도 하나의 샘플 값의 개수, 상기 적어도 하나의 샘플 값 각각의 총 비트 수 및 상기 총 비트 수에서 복수 개의 그룹으로 분할된 각 그룹의 비트 수 중 적어도 하나를 포함하는, 방법.
  4. 제3항에 있어서, 상기 적어도 하나의 샘플 값을 획득하는 단계는
    상기 적어도 하나의 샘플 값에 대한 상황 정보에 기초하여, 상기 적어도 하나의 샘플 값과 각각 대응되는, 적어도 하나의 파라미터 정보를 획득하는 단계;
    상기 획득된 적어도 하나의 파라미터 정보에 기초하여, 상기 적어도 하나의 샘플 값과 각각 대응되는 적어도 하나의 번칭 블록을 구성하는 단계; 및
    상기 구성된 적어도 하나의 번칭 블록을 이용하여, 상기 적어도 하나의 샘플 값을 획득하는 단계를 포함하는, 방법.
  5. 제3항에 있어서, 상기 파라미터 정보는,
    디바이스 기반의 파라미터 정보, 프레임 기반의 파라미터 정보 및 샘플 기반의 파라미터 정보 중 적어도 하나를 포함하고,
    상기 디바이스 기반의 파라미터 정보는, 상기 전자 장치의 성능 정보 및 상기 음성 신호가 출력되는 장치의 성능 정보 중 적어도 하나에 기초하여 결정되고,
    상기 프레임 기반의 파라미터 정보는, 상기 적어도 하나의 샘플 값이 속한 프레임의 특성에 관한 정보에 기초하여, 각각의 프레임에 대해 결정되고,
    상기 샘플 기반의 파라미터 정보는, 각각의 샘플 값의 특성에 관한 정보 및 미리 설정된 정보 중 적어도 하나에 기초하여, 각각의 샘플 값에 대해 결정되는, 방법.
  6. 제5항에 있어서,
    상기 프레임 기반의 파라미터 정보는, 먼저 결정된, 상기 디바이스 기반의 파라미터 정보에 기초하여, 결정되고,
    상기 샘플 기반의 파라미터 정보는, 먼저 결정된, 상기 디바이스 기반의 파라미터 정보 및 상기 프레임 기반의 파라미터 정보 중 적어도 하나에 기초하여 결정되고,
    상기 적어도 하나의 번칭 블록은, 상기 디바이스 기반의 파라미터 정보, 상기 프레임 기반의 파라미터 정보 및 상기 샘플 기반의 파라미터 정보 중 적어도 하나에 기초하여 구성되는, 방법.
  7. 제1항에 있어서, 상기 적어도 하나의 번칭 블록을 구성하는 단계는
    상기 적어도 하나의 샘플이 복수 개의 비트로 표현되는 경우, 상기 복수 개의 비트를, 상기 상황 정보에 기초하여, 복수 개의 그룹으로 분할하는 단계; 및
    상기 복수 개의 그룹과 각각 대응되는 복수 개의 출력 레이어를 포함하는, 상기 적어도 하나의 샘플과 각각 대응되는 적어도 하나의 번칭 블록을 구성하는 단계를 포함하고,
    상기 적어도 하나의 샘플의 값은, 상기 복수 개의 각 비트 블록으로부터 획득된 비트 값들이 결합됨으로써, 획득되는, 방법.
  8. 적어도 하나의 텍스트와 대응되는 음성 신호를 생성하는 전자 장치에 있어서,
    상기 적어도 하나의 텍스트에 기초하여, 상기 음성 신호에 포함된 제1 샘플에 대한 특징 정보를 획득하고, 상기 특징 정보에 기초하여, 상기 음성 신호에 포함된 적어도 하나의 샘플 값이 획득되는 번칭 동작이 수행되는 상황에 관한 상황 정보를 획득하고, 상기 상황 정보에 기초하여, 상기 번칭 동작을 수행하기 위한 적어도 하나의 번칭 블록을 구성하고, 상기 제1 샘플의 특징 정보에 기초하여, 상기 적어도 하나의 샘플 값을, 상기 적어도 하나의 번칭 블록을 이용하여, 획득하고, 상기 획득된 적어도 하나의 샘플 값에 기초하여, 상기 음성 신호를 생성하는 적어도 하나의 프로세서; 및
    상기 음성 신호를 출력하는 출력부를 포함하는, 전자 장치.
  9. 제8항에 있어서, 상기 상황 정보는
    상기 전자 장치의 성능 정보, 상기 음성 신호가 출력되는 장치의 성능 정보, 상기 적어도 하나의 샘플 값이 속한 구간의 특성에 관한 정보, 각각의 샘플 값의 특성에 관한 정보 및 상기 번칭 동작과 관련하여 미리 설정된 정보 중 적어도 하나를 포함하는, 전자 장치.
  10. 제8항에 있어서, 상기 상황 정보에 기초하여, 상기 적어도 하나의 번칭 블록을 구성하기 위한 파라미터 정보가 결정되고,
    상기 파라미터 정보는, 상기 제1 샘플의 특징 정보로부터 획득될 수 있는 상기 적어도 하나의 샘플 값의 개수, 상기 적어도 하나의 샘플 값 각각의 총 비트 수 및 상기 총 비트 수에서 복수 개의 그룹으로 분할된 각 그룹의 비트 수 중 적어도 하나를 포함하는, 전자 장치.
  11. 제10항에 있어서, 상기 적어도 하나의 프로세서는
    상기 적어도 하나의 샘플 값에 대한 상황 정보에 기초하여, 상기 적어도 하나의 샘플 값과 각각 대응되는, 적어도 하나의 파라미터 정보를 획득하고,
    상기 획득된 적어도 하나의 파라미터 정보에 기초하여, 상기 적어도 하나의 샘플 값과 각각 대응되는 적어도 하나의 번칭 블록을 구성하고,
    상기 구성된 적어도 하나의 번칭 블록을 이용하여, 상기 적어도 하나의 샘플 값을 획득하는, 전자 장치.
  12. 제10항에 있어서, 상기 파라미터 정보는,
    디바이스 기반의 파라미터 정보, 프레임 기반의 파라미터 정보 및 샘플 기반의 파라미터 정보를 포함하고,
    상기 디바이스 기반의 파라미터 정보는, 상기 전자 장치의 성능 정보 및 상기 음성 신호가 출력되는 장치의 성능 정보 중 적어도 하나에 기초하여 결정되고,
    상기 프레임 기반의 파라미터 정보는, 상기 적어도 하나의 샘플 값이 속한 프레임의 특성에 관한 정보에 기초하여, 각각의 프레임에 대해 결정되고,
    상기 샘플 기반의 파라미터 정보는, 각각의 샘플 값의 특성에 관한 정보 및 미리 설정된 정보 중 적어도 하나에 기초하여, 각각의 샘플 값에 대해 결정되는, 전자 장치.
  13. 제12항에 있어서, 상기 프레임 기반의 파라미터 정보는, 먼저 결정된, 상기 디바이스 기반의 파라미터 정보에 기초하여, 결정되고,
    상기 샘플 기반의 파라미터 정보는, 먼저 결정된, 상기 디바이스 기반의 파라미터 정보 및 상기 프레임 기반의 파라미터 정보 중 적어도 하나에 기초하여 결정되고,
    상기 적어도 하나의 번칭 블록은, 상기 디바이스 기반의 파라미터 정보, 상기 프레임 기반의 파라미터 정보 및 상기 샘플 기반의 파라미터 정보 중 적어도 하나에 기초하여 구성되는, 전자 장치.
  14. 제8항에 있어서, 상기 적어도 하나의 프로세서는
    상기 적어도 하나의 샘플이 복수 개의 비트로 표현되는 경우, 상기 복수 개의 비트를, 상기 상황 정보에 기초하여, 복수 개의 그룹으로 분할하고,
    상기 복수 개의 그룹과 각각 대응되는 복수 개의 출력 레이어를 포함하는, 상기 적어도 하나의 샘플과 각각 대응되는 적어도 하나의 번칭 블록을 구성하고,
    상기 적어도 하나의 샘플의 값은, 상기 복수 개의 각 비트 블록으로부터 획득된 비트 값들이 결합됨으로써, 획득되는, 전자 장치.
  15. 제1항 내지 제7항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.
KR1020200100676A 2020-05-06 2020-08-11 적어도 하나의 텍스트와 대응되는 음성 신호를 생성하는 전자 장치 및 그 동작 방법 KR20210135917A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/198,727 US20210350788A1 (en) 2020-05-06 2021-03-11 Electronic device for generating speech signal corresponding to at least one text and operating method of the electronic device
PCT/KR2021/003292 WO2021225267A1 (en) 2020-05-06 2021-03-17 Electronic device for generating speech signal corresponding to at least one text and operating method of the electronic device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202063020712P 2020-05-06 2020-05-06
US63/020,712 2020-05-06

Publications (1)

Publication Number Publication Date
KR20210135917A true KR20210135917A (ko) 2021-11-16

Family

ID=78717095

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200100676A KR20210135917A (ko) 2020-05-06 2020-08-11 적어도 하나의 텍스트와 대응되는 음성 신호를 생성하는 전자 장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR20210135917A (ko)

Similar Documents

Publication Publication Date Title
CN110211563B (zh) 面向情景及情感的中文语音合成方法、装置及存储介质
CN110136692B (zh) 语音合成方法、装置、设备及存储介质
CN109801618B (zh) 一种音频信息的生成方法和装置
US11942077B2 (en) Electronic device and operating method thereof
KR102489498B1 (ko) 음성 합성 및 영상 합성 기술을 통해 고인을 모사하는 가상 인물과 커뮤니케이션을 수행하는 방법 및 시스템
CN115148185A (zh) 语音合成方法及装置、电子设备及存储介质
US20210350788A1 (en) Electronic device for generating speech signal corresponding to at least one text and operating method of the electronic device
KR102677052B1 (ko) 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법
KR20220023211A (ko) 대화 텍스트에 대한 요약 정보를 생성하는 전자 장치 및 그 동작 방법
US11710495B2 (en) Device for outputting sound and method therefor
US12014741B2 (en) Electronic device and controlling method thereof
KR20210135917A (ko) 적어도 하나의 텍스트와 대응되는 음성 신호를 생성하는 전자 장치 및 그 동작 방법
US20220083882A1 (en) Electronic device and operating method for providing information about why response has changed
CN112712788B (zh) 语音合成方法、语音合成模型的训练方法及装置
EP4131130A1 (en) Method and device for providing interpretation situation information
KR20220021898A (ko) 텍스트에 대한 합성 음성 생성 작업을 수행하는 방법
KR20220086265A (ko) 전자 장치 및 전자 장치의 동작 방법
KR20220039018A (ko) 전자 장치 및 그 제어 방법
US11848004B2 (en) Electronic device and method for controlling thereof
KR20210027016A (ko) 음성 합성 방법 및 장치
KR20220120052A (ko) 데이터를 생성하는 전자 장치 및 그 동작 방법
CN117546233A (zh) 电子设备及其控制方法
KR20220170330A (ko) 전자 장치 및 이의 제어 방법
US20230335112A1 (en) Electronic device and method of generating text-to-speech model for prosody control of the electronic device
KR20230013826A (ko) 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 장치 및 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal