WO2019083055A1

WO2019083055A1 - 기계학습을 이용한 오디오 복원 방법 및 장치

Info

Publication number: WO2019083055A1
Application number: PCT/KR2017/011786
Authority: WO
Inventors: 성호상; 정종훈; 주기현; 오은미; 류종엽
Original assignee: 삼성전자 주식회사
Priority date: 2017-10-24
Filing date: 2017-10-24
Publication date: 2019-05-02
Also published as: EP3667663A4; US11545162B2; CN111164682A; KR20200062183A; US20200234720A1; KR102551359B1; EP3667663A1

Abstract

본 개시는 비트스트림으로부터 획득된 복호화 파라미터 또는 오디오 신호를 기계학습을 이용하여 복원하여 향상된 음질을 제공하기 위한 오디오 복원 방법 및 장치에 관한 것이다. 오디오 복원 방법은 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득하고, 복수의 복호화 파라미터들에 포함되는 제 1 파라미터에 기초하여, 복수의 복호화 파라미터들에 포함되며 제 1 파라미터와 연관되는 제 2 파라미터의 특성을 결정하고, 복수의 복호화 파라미터들, 제 2 파라미터 및 제 2 파라미터의 특성 중 적어도 하나에 기계학습모델을 적용하여 복원된(reconstructed) 제 2 파라미터를 획득하고, 및 복원된 제 2 파라미터에 기초하여 오디오 신호를 복호화한다.

Description

기계학습을 이용한 오디오 복원 방법 및 장치

본 명세서는 오디오 복원 방법 및 장치에 관한 것으로 보다 상세하게는 비트스트림으로부터 획득된 복호화 파라미터 또는 오디오 신호를 기계학습을 이용하여 복원하여 향상된 음질을 제공하기 위한 오디오 복원 방법 및 장치에 관한 것이다.

고음질의 컨텐트를 전송, 재생, 저장할 수 있는 오디오 코덱 기술이 개발되어 왔으며, 현재 초고음질 기술에 의하면 24bit/192khz의 해상도의 오디오를 전송, 재생, 저장이 가능하다. 24bit/192khz의 해상도는 오리지널 오디오를 192khz로 샘플링 하며, 샘플링된 하나의 신호는 24 bit를 사용하여 2^24단계로 표현될 수 있다는 것을 의미한다.

하지만 고음질의 컨텐트를 전송하기 위해서는 고대역폭의 데이터 전송이 필요한 경우가 있다. 또한 고음질의 컨텐트는 서비스가격이 높은 경우가 많고, 고음질 코덱을 사용해야 하기 때문에 로열티 문제가 생기는 경우가 있다. 또한, 고음질 서비스는 최근에 제공되기 시작했으므로, 고음질로 녹음된 음원이 존재하지 않는 경우가 있다. 따라서 저음질의 음원을 고음질로 복원하는 기술의 필요성이 증대되고 있다. 저음질의 음원을 고음질로 복원하기 위해서는 인공지능이 사용될 수 있다.

인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.

인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다. 기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.

본 개시는 오리지널 오디오와 오디오 코덱의 다양한 복호화 파라미터들을 이용하여 기계학습을 수행하여 복원된 복호화 파라미터들을 획득한다. 또한, 본 개세는 복원된 복호화 파라미터들을 이용하여 더 높은 음질의 오디오를 복원할 수 있다.

본 개시는 비트스트림으로부터 획득된 복호화 파라미터 또는 오디오 신호를 기계학습을 이용하여 복원하는 방법 및 장치를 제공한다.

본 개시의 일 실시예에 따른 오디오 복원 방법은 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득하는 단계, 복수의 복호화 파라미터들에 포함되는 제 1 파라미터에 기초하여, 복수의 복호화 파라미터들에 포함되며 제 1 파라미터와 연관되는 제 2 파라미터의 특성을 결정하는 단계, 복수의 복호화 파라미터들, 제 2 파라미터 및 제 2 파라미터의 특성 중 적어도 하나에 기계학습모델을 적용하여 복원된(reconstructed) 제 2 파라미터를 획득하는 단계, 및 복원된 제 2 파라미터에 기초하여 오디오 신호를 복호화하는 단계를 포함하는 것을 특징으로 한다.

본 개시의 일 실시예에 따른 오디오 복원 방법에 따르면, 오디오 신호를 복호화하는 단계는, 제 2 파라미터의 특성에 기초하여 복원된 제 2 파라미터를 보정하여 보정된 제 2 파라미터를 획득하는 단계, 및 보정된 제 2 파라미터에 기초하여 오디오 신호를 복호화하는 단계를 포함하는 것을 특징으로 한다.

본 개시의 일 실시예에 따른 오디오 복원 방법에 따르면, 제 2 파라미터의 특성을 결정하는 단계는 제 1 파라미터에 기초하여, 제 2 파라미터의 범위를 결정하는 단계를 포함하고, 보정된 제 2 파라미터를 획득하는 단계는 복원된 제 2 파라미터가 범위에 있지 않을 경우, 복원된 제 2 파라미터와 가장 가까운 범위의 값을 보정된 제 2 파라미터로 획득하는 단계를 포함하는 것을 특징으로 한다.

본 개시의 일 실시예에 따른 오디오 복원 방법에 따르면, 제 2 파라미터의 특성을 결정하는 단계는, 제 1 파라미터 및 제 2 파라미터 중 적어도 하나에 기초하여 프리-트레이닝된(pre-trained) 기계학습모델을 이용하여 제 2 파라미터의 특성을 결정하는 단계를 포함하는 것을 특징으로 한다.

본 개시의 일 실시예에 따른 오디오 복원 방법에 따르면, 복원된 제 2 파라미터를 획득하는 단계는, 제 2 파라미터의 특성에 기초한 제 2 파라미터의 후보들을 결정하는 단계, 및 기계학습모델에 기초하여 제 2 파라미터의 후보들 중 하나를 선택하는 단계를 포함하는 것을 특징으로 한다.

본 개시의 일 실시예에 따른 오디오 복원 방법에 따르면, 복원된 제 2 파라미터를 획득하는 단계는, 이전 프레임의 복수의 복호화 파라미터들 중 적어도 하나에 더 기초하여 현재 프레임의 복원된 제 2 파라미터를 획득하는 단계를 포함하는 것을 특징으로 한다.

본 개시의 일 실시예에 따른 오디오 복원 방법에 따르면, 기계학습모델은 오리지널 오디오 신호 및 복수의 복호화 파라미터들 중 적어도 하나를 기계학습하여 생성되는 것을 특징으로 한다.

본 개시의 다른 실시예에 따른 오디오 복원 방법는, 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득하는 단계, 복수의 복호화 파라미터들에 기초하여 오디오 신호를 복호화하는 단계, 복수의 복호화 파라미터들 중 적어도 하나 및 복호화된 오디오 신호에 기초하여 복수의 기계학습모델들 중 하나의 기계학습모델을 선택하는 단계, 및 선택된 기계학습모델을 이용하여 복호화된 오디오 신호를 복원하는(reconstructing) 단계를 포함하는 것을 특징으로 한다.

본 개시의 일 실시예에 따른 오디오 복원 방법에 따르면, 기계학습모델은 복호화된 오디오 신호 및 오리지널 오디오 신호를 기계학습하여 생성되는 것을 특징으로 한다.

본 개시의 일 실시예에 따른 오디오 복원 방법에 따르면, 기계학습모델을 선택하는 단계는 복수의 복호화 파라미터들 중 적어도 하나에 기초하여 대역폭 확장(band width extension)의 시작 주파수를 결정하는 단계, 및 시작 주파수 및 복호화된 오디오 신호의 주파수에 기초하여 복호화된 오디오 신호의 기계학습모델을 선택하는 단계를 포함하는 것을 특징으로 한다.

본 개시의 일 실시예에 따른 오디오 복원 방법에 따르면, 기계학습모델을 선택하는 단계는 복수의 복호화 파라미터들 중 적어도 하나에 기초하여 현재 프레임의 게인을 획득하는 단계, 현재 프레임 및 현재 프레임에 인접한 프레임들의 게인들의 평균을 획득하는 단계, 현재 프레임의 게인과 게인들의 평균값의 차이값이 임계값보다 큰 경우 트랜지언트(transient) 신호를 위한 기계학습모델을 선택하는 단계, 현재 프레임의 게인과 게인들의 평균값의 차이값이 임계값보다 작은 경우, 복수의 복호화 파라미터들에 포함된 윈도우 타입이 쇼트(short)인지를 결정하는 단계, 윈도우 타입이 쇼트인 경우 트랜지언트 신호를 위한 기계학습모델을 선택하는 단계, 및 윈도우 타입이 쇼트가 아닌 경우, 스테이셔너리(stationary) 신호를 위한 기계학습모델을 선택하는 단계를 포함하는 것을 특징으로 한다.

본 개시의 일 실시예에 따른 오디오 복원 장치는, 수신된 비트스트림을 저장하는 메모리, 및 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득하고, 복수의 복호화 파라미터들에 포함되는 제 1 파라미터에 기초하여, 복수의 복호화 파라미터들에 포함되며 제 1 파라미터와 연관되는 제 2 파라미터의 특성을 결정하고, 복수의 복호화 파라미터들, 제 2 파라미터 및 제 2 파라미터의 특성 중 적어도 하나에 기계학습모델을 적용하여 복원된(reconstructed) 제 2 파라미터를 획득하고, 복원된 제 2 파라미터에 기초하여 오디오 신호를 복호화하는 적어도 하나의 프로세서를 포함하는 것을 특징으로 한다.

본 개시의 일 실시예에 따른 오디오 복원 장치에 따르면, 적어도 하나의 프로세서는, 제 2 파라미터의 특성에 기초하여 복원된 제 2 파라미터를 보정하여 보정된 제 2 파라미터를 획득하고, 보정된 제 2 파라미터에 기초하여 오디오 신호를 복호화하는 것을 특징으로 한다.

본 개시의 일 실시예에 따른 오디오 복원 장치에 따르면, 적어도 하나의 프로세서는 제 1 파라미터 및 제 2 파라미터 중 적어도 하나에 기초하여 프리-트레이닝된(pre-trained) 기계학습모델을 이용하여 제 2 파라미터의 특성을 결정하는 것을 특징으로 한다.

본 개시의 일 실시예에 따른 오디오 복원 장치에 따르면, 적어도 하나의 프로세서는 제 2 파라미터의 특성에 기초한 제 2 파라미터의 후보들을 결정하고, 기계학습모델에 기초하여 제 2 파라미터의 후보들 중 하나를 선택하여 복원된 제 2 파라미터를 획득하 는 단계를 포함하는 것을 특징으로 한다.

본 개시의 일 실시예에 따른 오디오 복원 장치에 따르면, 적어도 하나의 프로세서는 이전 프레임의 복수의 복호화 파라미터들 중 적어도 하나에 더 기초하여 현재 프레임의 복원된 제 2 파라미터를 획득하는 것을 특징으로 한다.

본 개시의 일 실시예에 따른 오디오 복원 장치에 따르면, 적어도 하나의 프로세서는 기계학습모델은 오리지널 오디오 신호 및 복수의 복호화 파라미터들 중 적어도 하나를 기계학습하여 생성되는 것을 특징으로 한다.

본 개시의 일 실시예에 따른 오디오 복원 장치는, 수신된 비트스트림을 저장하는 메모리, 및 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득하고, 복수의 복호화 파라미터들에 기초하여 오디오 신호를 복호화하고, 복수의 복호화 파라미터들 중 적어도 하나 및 복호화된 오디오 신호에 기초하여 복수의 기계학습모델들 중 하나의 기계학습모델을 선택하고, 선택된 기계학습모델을 이용하여 복호화된 오디오 신호를 복원하는(reconstructing) 적어도 하나의 프로세서를 포함하는 것을 특징으로 한다.

또한, 상술한 바와 같은 오디오 복원 방법을 구현하기 위한 프로그램은 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다.

도 1은 일 실시예에 따른 오디오 복원 장치(100)의 블록도를 도시한다.

도 2은 일 실시예에 따른 오디오 복원 장치(100)의 블록도를 도시한다.

도 3는 일 실시예에 따른 오디오 복원 방법의 흐름도를 도시한다.

도 4은 일 실시예에 따른 기계학습에 대한 블록도를 도시한다.

도 5는 일 실시예에 따른 복호화 파라미터의 특성의 예측을 도시한다.

도 6는 일 실시예에 따른 복호화 파라미터의 특성의 예측을 도시한다.

도 7는 일 실시예에 따른 오디오 복원 방법의 흐름도를 도시한다.

도 8은 일 실시예에 따른 복호화 파라미터를 도시한다.

도 9은 일 실시예에 따른 복호화 파라미터의 변화를 도시한다.

도 10은 일 실시예에 따라 비트의 수를 늘린 경우 복호화 파라미터의 변화를 도시한다.

도 11은 일 실시예에 따른 복호화 파라미터의 변화를 도시한다.

도 12 는 일 실시예에 따른 오디오 복원 장치(100)의 블록도를 도시한다.

도 13은 일 실시예에 따른 오디오 복원 방법의 흐름도를 도시한다

도 14는 일 실시예에 따른 오디오 복원 방법의 흐름도를 도시한다.

도 15는 일 실시예에 따른 오디오 복원 방법의 흐름도를 도시한다.

개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시가 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다.

본 명세서에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.

또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어 또는 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.

본 개시의 일 실시예에 따르면 "부"는 프로세서 및 메모리로 구현될 수 있다. 용어 "프로세서" 는 범용 프로세서, 중앙 처리 장치 (CPU), 마이크로프로세서, 디지털 신호 프로세서 (DSP), 제어기, 마이크로제어기, 상태 머신, 및 등을 포함하도록 넓게 해석되어야 한다. 몇몇 환경에서는, "프로세서" 는 주문형 반도체 (ASIC), 프로그램가능 로직 디바이스 (PLD), 필드 프로그램가능 게이트 어레이 (FPGA), 등을 지칭할 수도 있다. 용어 "프로세서" 는, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들의 조합, DSP 코어와 결합한 하나 이상의 마이크로프로세서들의 조합, 또는 임의의 다른 그러한 구성들의 조합과 같은 처리 디바이스들의 조합을 지칭할 수도 있다.

용어 "메모리" 는 전자 정보를 저장 가능한 임의의 전자 컴포넌트를 포함하도록 넓게 해석되어야 한다. 용어 메모리는 임의 액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 비-휘발성 임의 액세스 메모리 (NVRAM), 프로그램가능 판독-전용 메모리 (PROM), 소거-프로그램가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능 PROM (EEPROM), 플래쉬 메모리, 자기 또는 광학 데이터 저장장치, 레지스터들, 등과 같은 프로세서-판독가능 매체의 다양한 유형들을 지칭할 수도 있다. 프로세서가 메모리에 메모리로부터 정보를 판독하고/하거나 메모리에 정보를 기록할 수 있다면 메모리는 프로세서와 전자 통신 상태에 있다고 불린다. 프로세서에 집적된 메모리는 프로세서와 전자 통신 상태에 있다.

아래에서는 첨부한 도면을 참고하여 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 개시를을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.

고음질의 컨텐트는 서비스가격이 높은 경우가 많고, 고음질 코덱을 사용해야 하기 때문에 로열티 문제가 생기는 경우가 있다. 또한, 고음질 서비스는 최근에 제공되기 시작했으므로, 고음질로 녹음된 오디오가 존재하지 않는 경우가 있다. 따라서 저음질로 부호화된 오디오를 고음질로 복원하는 기술의 필요성이 증대되고 있다. 저음질로 부호화된 오디도를 고음질로 복원하기 위해서 사용될 수 있는 방법들 중 하나는 기계학습을 사용하는 방법이다. 이하에서는 코덱의 복호화 파라미터들과 기계학습을 통하여 복호화된 오디오의 음질을 향상시키는 방법을 도 1 내지 도 15와 함께 설명한다.

오디오 복원 장치(100)는 수신부(110) 및 복호화부(decoder)(120)를 포함할 수 있다. 수신부(110)는 비트스트림을 수신할 수 있다. 복호화부(120)는 수신된 비트스트림에 기초하여 복호화된 오디오 신호를 출력할 수 있다. 이하에서는 도 2와 함께 오디오 복원 장치(100)를 보다 자세하게 설명한다.

오디오 복원 장치(100)는 코덱 정보 도출부(210), 적어도 하나의 복호화부를 포함할 수 있다. 코덱 정보 도출부(210)는 도 1 의 수신부(110)에 동일 대응될 수 있다. 적어도 하나의 복호화부는 제 1 복호화부(221), 제 2 복호화부(222) 및 제 N 복호화부 중 적어도 하나를 포함할 수 있다. 제 1 복호화부(221), 제 2 복호화부(222) 및 제 N 복호화부 중 적어도 하나는 도 1 의 복호화부(120)에 동일대 대응될 수 있다.

코덱 정보 도출부(210)는 비트스트림을 수신할 수 있다. 비트스트림은 부호화 장치에서 생성될 수 있다. 부호화 장치는 오리지널 오디오를 부호화하여 비트스트림으로 압축할 수 있다. 코덱 정보 도출부(210)는 비트스트림을 부호화부 또는 저장매체로부터 유무선 통신을 통하여 수신할 수 있다. 코덱 정보 도출부(210)는 비트스트림을 메모리에 저장할 수 있다. 코덱 정보 도출부(210)는 비트스트림으로부터 다양한 정보를 추출할 수 있다. 다양한 정보는 코덱 정보를 포함할 수 있다. 코덱 정보는 오리지널 오디오가 부호화되기 위하여 사용된 기술에 대한 정보를 포함할 수 있다. 오리지널 오디오가 부호화되기 위하여 사용된 기술에는 MP3, AAC, HE-AAC등이 있을 수 있다. 코덱 정보 도출부(210)는 코덱 정보에 기초하여 적어도 하나의 복호화부 중 하나의 복호화부를 선택할 수 있다.

적어도 하나의 복호화부는 제 1 복호화부(221), 제 2 복호화부(222), 제N복호화부(223)를 포함할 수 있다. 적어도 하나의 복호화부 중 코덱 정보 도출부(210)에 의하여 선택된 복호화부가 비트스트림에 기초하여 오디오 신호를 복호화할 수 있다. 이하에서는 설명의 편의를 위하여 제N복호화부(223)에 대하여 설명한다. 제 1 복호화부(221) 및 제 2 복호화부(222)는 제N복호화부(223)와 유사한 구조를 가질 수 있다.

제N복호화부(223)는 오디오 신호 복호화부(230)를 포함할 수 있다. 오디오 신호 복호화부(230)는 무손실 복호화부(231), 역양자화부(232), 스테레오 복원부(233) 및 역변환부(234)를 포함할 수 있다.

무손실 복호화부(231)는 비트스트림을 수신할 수 있다. 무손실 복호화부(231)는 비트스트림을 복호화하여 적어도 하나의 복호화 파라미터를 출력할 수 있다. 무손실 복호화부(231)는 정보의 손실 없이 비트스트림을 복호화할 수 있다. 역양자화부(232)는 무손실 복호화부로부터 적어도 하나의 복호화 파라미터를 수신할 수 있다. 역양자화부(232)는 적어도 하나의 복호화 파라미터를 역양자화할 수 있다. 역양자화된 복호화 파라미터는 모노 신호일 수 있다. 스테레오 신호 복원부(233)는 역양자화된 복호화 파라미터에 기초하여 스테레오 신호를 복원할 수 있다. 역변환부(234)는 주파수 도메인의 스테레오 신호를 변환하여 시간 도메인의 복호화된 오디오 신호를 출력할 수 있다.

복호화 파라미터는 스펙트럴 빈(Spectral bin), 스케일 팩터 게인(Scalefactor gain), 글로벌 게인(Global gain), 스펙트럴 데이터(Spectral data), 윈도우 타입(window type) 중 적어도 하나를 포함할 수 있다. 복호화 파라미터는 MP3, AAC, HE-AAC 와 같은 코덱에서 사용되는 파라미터 일 수 있다. 하지만 복호화 파라미터는 특정 코덱에 한정되는 것은 아니며, 명칭은 달라도 유사한 기능을 하는 복호화 파라미터가 있을 수 있다. 복호화 파라미터는 프레임 단위로 전송될 수 있다. 프레임은 시간 도메인에서 오리지널 오디오 신호를 나눈 단위이다.

스펙트럴 빈은 주파수 도메인에서 주파수에 따른 신호의 크기에 대응될 수 있다.

스케일 팩터 게인 및 글로벌 게인은 스펙트럴 빈을 스케일하기 위한 값이다. 스케일 팩터는 하나의 프레임에 포한된 복수의 밴드들 별로 다른 값을 가질 수 있다.

글로벌 게인은 하나의 프레임에서 모든 밴드에 대하여 동일한 값을 가질 수 있다. 오디오 복원 장치(100)는 스펙트럴 빈, 스케일 팩터 게인 및 글로벌 게인을 곱하여 주파수 도메인의 오디오 신호를 획득할 수 있다.

스펙트럴 데이터는 스펙트럴 빈의 특성을 나타내는 정보이다. 스펙트럴 데이터는 스펙트럴 빈의 부호를 나타낼 수 있다. 또한 스펙트럴 데이터는 스펙트럴 빈이 0인지 여부를 나타낼 수 있다.

윈도우 타입은 오리지널 오디오 신호의 특성(characteristic)을 나타낼 수 있다. 시간 도메인의 오리지널 오디오 신호를 주파수 도메인으로 변환하기 위한 시간 간격에 대응될 수 있다. 오리지널 오디오 신호가 변화가 거의 없는 스테이셔너리 신호인 경우 윈도우 타입은 "긺(long)"을 나타낼 수 있다. 오리지널 오디오 신호가 변화가 심한 트랜지언트(transient) 신호인 경우 윈도우 타입은 "짧음(short)"를 나타낼 수 있다.

제N복호화부(123)는 파라미터 특성 결정부(240) 및 파라미터 복원부(250) 중 적어도 하나를 포함할 수 있다. 파라미터 특성 결정부(240)는 적어도 하나의 복호화 파라미터를 수신하여 적어도 하나의 복호화 파라미터의 특성을 결정할 수 있다. 파라미터 특성 결정부(240)는 적어도 하나의 복호화 파라미터의 특성을 결정하기 위하여 기계학습을 이용할 수 있다. 또한 파라미터 특성 결정부(240)는 적어도 하나의 복호화 파라미터에 포함된 제 2 복호화 파라미터의 특성을 결정하기 위하여 적어도 하나의 복호화 파라미터에 포함된 제 1 복호화 파라미터를 이용할 수 있다. 또한 파라미터 특성 결정부(240)는 복호화 파라미터의 특성 및 복호화 파라미터 중 적어도 하나를 파라미터 복원부(250)로 출력할 수 있다. 파라미터 특성 결정부(240)에 대해서는 도 4 내지 도 6와 함께 자세히 설명한다.

본 개시의 일 실시예에 따르면 파라미터 복원부(250)는 무손실 복호화부(231)로부터 적어도 하나의 복호화 파라미터를 수신할 수 있다. 또한 파라미터 복원부(250)는 적어도 하나의 복호화 파라미터를 복원할 수 있다. 파라미터 복원부(250)는 적어도 하나의 복호화 파라미터를 복원하기 위하여 기계학습(mechine learning) 모델을 이용할 수 있다. 오디오 신호 복호화부(230)는 복원된 적어도 하나의 복호화 파라미터에 기초하여 오리지널 오디오에 가까운 복호화된 오디오 신호를 출력할 수 있다.

본 개시의 다른 실시예에 따르면 파라미터 복원부(250)는 파라미터 특성 결정부(240)로부터 적어도 하나의 복호화 파라미터 및 복호화 파라미터의 특성을 수신할 수 있다. 또한 파라미터 복원부(250)는 적어도 하나의 복호화 파라미터 및 복호화 파라미터의 특성에 기계학습모델을 적용하여 복원된 파라미터를 출력할 수 있다. 또한 파라미터 복원부(250)는 적어도 하나의 복호화 파라미터에 기계학습모델을 적용하여 복원된 파라미터를 출력할 수 있다. 파라미터 복원부(250)는 파라미터 특성에 기초하여 복원된 파라미터를 보정할 수 있다. 파라미터 복원부(250)는 보정된 파라미터를 출력할 수 있다. 오디오 신호 복호화부(130)는 보정된 파라미터에 기초하여 오리지널 오디오에 가까운 복호화된 오디오 신호를 출력할 수 있다.

파라미터 복원부(250)는 복원된 적어도 하나의 복호화 파라미터 및 보정된 파라미터 중 적어도 하나를 파라미터 특성 결정부(240) 또는 파라미터 복원부(250)로 출력할 수 있다. 파라미터 특성 결정부(240) 및 파라미터 복원부(250) 중 적어도 하나는 이전 프레임의 적어도 하나의 복호화 파라미터 및 보정된 파라미터 중 적어도 하나를 수신할 수 있다. 파라미터 특성 결정부(240)는 이전 프레임의 적어도 하나의 복호화 파라미터 및 보정된 파라미터 중 적어도 하나에 기초하여 현재 프레임의 파라미터 특성을 출력할 수 있다. 파라미터 복원부(250)는 이전 프레임의 적어도 하나의 복호화 파라미터 및 보정된 파라미터 중 적어도 하나에 기초하여 현재 프레임의 복원된 파라미터를 획득할 수 있다.

이하 도 3 내지 도 11을 참조하여 파라미터 특성 결정부(240) 및 파라미터 복원부(250)에 대하여 자세히 설명한다.

단계 310에서, 오디오 복원 장치(100)는 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득할 수 있다. 단계 320에서, 오디오 복원 장치(100)는 제 2 파라미터의 특성을 결정할 수 있다. 단계 330에서, 오디오 복원 장치(100)는 기계학습모델을 이용하여 복원된 제 2 파라미터를 획득할 수 있다. 단계 340에서, 오디오 복원 장치(100)는 복원된 제 2 파라미터에 기초하여 오디오 신호를 복호화 할 수 있다.

오디오 복원 장치(100)는 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득할 수 있다(310 단계). 무손실 복호화부(231)는 비트스트림을 복호화하여 복수의 복호화 파라미터들을 획득할 수 있다. 무손실 복호화부(231)는 복호화 파라미터를 역양자화부(232), 파라미터 특성 결정부(240) 또는 파라미터 복원부(250)로 출력할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터를 분석하여 복호화 파라미터를 어디로 출력할지 결정할 수 있다. 본 개시의 일 실시예에 따라, 오디오 복원 장치(100)는 미리 결정된 규칙에 의하여 복호화 파라미터를 어디로 출력할지 결정할 수 있다. 다만 이에 한정되는 것은 아니며, 비트스트림은 복호화 파라미터가 어디로 출력되어야 하는지에 대한 정보를 포함하고 있을 수 있다. 오디오 복원 장치(100)는 비트스트림에 포함된 정보에 기초하여 복호화 파라미터를 어디로 출력할지 결정할 수 있다.

오디오 복원 장치(100)는 복수의 복호화 파라미터들 중 적어도 하나의 복호화 파라미터를 수정하지 않아도 높은 음질을 보장할 수 있는 경우, 적어도 하나의 복호화 파라미터를 수정하지 않을 수 있다. 무손실 복호화부(231)는 적어도 하나의 복호화 파라미터를 역양자화부(232)로 출력할 수 있다. 적어도 하나의 파라미터는 파라미터 특성 결정부(240) 또는 파라미터 복원부(250)를 거치지 않으므로 수정되지 않을 수 있다. 오디오 복원 장치(100)는 일부 복호화 파라미터에 대하여 파라미터 특성 결정부(240) 및 파라미터 복원부(250)를 사용하지 않으므로 컴퓨팅 자원을 효율적으로 사용할 수 있다.

본 개시의 일 실시예에 따르면, 오디오 복원 장치(100)는 적어도 하나의 복호화 파라미터를 수정할 것을 결정할 수 있다. 무손실 복호화부(231)는 적어도 하나의 복호화 파라미터를 파라미터 복원부(250)로 출력할 수 있다. 오디오 복원 장치(100)는 기계학습모델을 이용하여 복호화 파라미터에 기초하여 복원된 복호화 파라미터를 획득할 수 있다. 오디오 복원 장치(100)는 복원된 복호화 파라미터에 기초하여 오디오 신호를 복호화할 수 있다. 오디오 복원 장치(100)는 복원된 복호화 파라미터에 기초하여 향상된 음질의 오디오 신호를 제공할 수 있다. 기계학습모델에 대해서는 도 4와 함께 보다 자세히 설명한다.

본 개시의 다른 실시예에 따르면, 오디오 복원 장치(100)는 복수의 복호화 파라미터들을 수정할 것을 결정할 수 있다. 무손실 복호화부(231)는 복수의 복호화 파라미터들을 파라미터 특성 결정부(240)로 출력할 수 있다.

파라미터 특성 결정부(240)는 복수의 복호화 파라미터들에 포함되는 제 1 파라미터에 기초하여, 복수의 복호화 파라미터들에 포함되는 제 2 파라미터의 특성을 결정할 수 있다(320 단계). 제 2 파라미터는 제 1 파라미터에 연관되어 있을 수 있다. 또한, 제 1 파라미터는 제 2 파라미터의 특성을 직접적 또는 간접적으로 나타낼 수 있다. 예를 들어 제 1 파라미터는 제 2 파라미터에 대한 스케일 팩터 게인, 글로벌 게인, 스펙트럴 데이터 및 윈도우 타입 중 적어도 하나 일 수 있다.

제 1 파라미터는 제 2 파라미터에 인접한 파라미터일 수 있다. 또한, 제 1 파라미터는 제 2 파라미터와 동일한 밴드 또는 프레임에 포함된 파라미터일 수 있다. 또한 제 1 파라미터는 제 2 파라미터가 포함된 밴드 또는 프레임에 인접한 밴드 또는 프레임에 포함된 파라미터일 수 있다.

또한, 본 개시는 설명의 편의를 위하여 제 1 파라미터 및 제 2 파라미터를 구분하였으나, 제 1 파라미터는 제 2 파라미터와 동일할 수 있다. 즉, 파라미터 특성 결정부(240)는 제 2 파라미터 자체로부터 제 2 파라미터의 특성을 결정할 수 있다.

파라미터 복원부(250)는 복수의 복호화 파라미터들, 제 2 파라미터 및 제 2 파라미터의 특성 중 적어도 하나에 기계학습모델을 적용하여 복원된(reconstructed) 제 2 파라미터를 획득할 수 있다(330 단계). 오디오 복원 장치(100)는 복원된 제 2 파라미터에 기초하여 오디오 신호를 복호화할 수 있다(340 단계). 기계학습모델을 적용하여 복원된 제 2 파라미터에 기초한 복호화된 오디오 신호는 뛰어난 음질을 제공할 수 있다. 기계학습모델에 대해서는 도 4과 함께 보다 자세히 설명한다.

데이터학습부(410) 및 데이터적용부(420)는 서로 다른 시간에 수행될 수 있다. 예를 들어 데이터학습부(410)가 데이터적용부(420)보다 미리 동작할 수 있다. 파라미터 특성 결정부(240) 및 파라미터 복원부(250)는 데이터학습부(410) 및 데이터적용부(420) 중 적어도 하나를 포함할 수 있다.

도 4를 참조하면, 일 실시예에 따른 데이터학습부(410)는 데이터획득부(411), 전처리부(412) 및 기계학습부(413)를 포함할 수 있다. 데이터학습부(410)가 입력데이터(431)를 수신하여 기계학습모델(432)을 출력하는 것을 트레이닝 과정이라고 할 수 있다.

데이터획득부(411)는 입력데이터를 수신할 수 있다. 입력데이터(431)는 오리지널 오디오 신호 및 복호화 파라미터들 중 적어도 하나를 포함할 수 있다. 오리지널 오디오 신호는 고음질로 녹음된 오디오 신호일 수 있다. 오리지널 오디오 신호는 주파수 도메인 또는 시간 도메인에서 표현될 수 있다. 복호화 파라미터들은 오리지널 오디오 신호를 부호화한 결과일 수 있다. 오리지널 오디오 신호를 부호화하면서 일부 정보가 손실될 수 있다. 즉, 복수의 복호화 파라미터들로부터 복호화된 오디오 신호는 오리지널 오디오 신호에 비하여 저음질일 수 있다.

전처리부(412)는 입력데이터(431)가 학습에 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(412)는 후술할 기계학습부(413)가 입력데이터(431)를 이용할 수 있도록, 입력데이터를 기 설정된 포맷으로 가공할 수 있다. 오리지널 오디오 신호 및 복수의 복호화 파라미터들이 서로 다른 포맷을 가지고 있는 경우, 오리지널 오디오 신호 또는 복수의 복호화 파라미터들을 변환하여 포맷을 맞출 수 있다. 예를 들어, 오리지널 오디오 신호 및 복수의 복호화 파라미터들이 서로 다른 코덱에 관련된 경우 서로 호환되도록 오리지널 오디오 신호 및 복수의 복호화 파라미터들의 코덱정보를 수정할 수 있다. 또한 오리지널 오디오 신호 및 복수의 복호화 파라미터들이 서로 다른 도메인 상에서 표현된 경우, 동일 도메인 상에서 표현되도록 수정할 수 있다.

전처리부(412)는 입력데이터(431) 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 기계학습부(413)에 제공될 수 있다. 전처리부(412)는 기 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 또한, 전처리부(312)는 후술할 기계학습부(413)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다. 입력데이터가 방대한 경우 데이터 처리에 시간이 많이 걸리므로, 입력데이터(431) 중 일부 데이터를 선택하는 경우 데이터 처리의 효율성을 높일 수 있다.

기계학습부(413)는 선택된 입력데이터에 기초하여 기계학습모델(432)을 출력할 수 있다. 선택된 입력데이터는 오리지널 오디오 신호 복수의 복호화 파라미터들 중 적어도 하나일 수 있다. 기계학습모델(432)은 복수의 복호화 파라미터 중 적어도 하나의 파라미터를 복원하기 위한 기준일 수 있다. 기계학습부(413)는 복원된 복호화 파라미터에 의하여 복호화된 오디오 신호와 오리지널 오디오 신호의 차이가 최소가 되도록 학습할 수 있다. 또한, 기계학습부(413)는 복수의 복호화 파라미터 중 적어도 하나의 파라미터를 복원하기 위하여 어떤 입력데이터(431)를 이용해야 하는 지에 대한 기준을 학습할 수 있다.

또한, 기계학습부(413)는 입력데이터(431)를 이용하여 기계학습모델을 학습할 수 있다. 이 경우, 기계학습모델(432)은 프리-트레이닝된(pre-trained) 모델일 수 있다. 예를 들어, 기계학습모델(432)은 기본 학습 데이터(예를 들어, 적어도 하나의 복호화 파라미터)를 입력 받아 프리-트레이닝된 모델일 수 있다. 기본 학습 데이터는 프리-트레이닝된 모델을 구축하기 위한 초기 데이터일 수 있다.

기계학습모델(432)은, 인식 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 선택될 수 있다. 기계학습모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 기계학습모델로서 사용될 수 있으나, 이에 한정되지 않는다.

다양한 실시예에 따르면, 기계학습부(414)는 미리 구축된 기계학습모델이 복수 개가 존재하는 경우, 입력데이터(431) 또는 기본 학습 데이터와 관련성이 큰 데이터 인식 모델을 학습할 데이터 인식 모델로 결정할 수 있다. 이 경우, 입력데이터(431) 또는 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 데이터 인식 모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 입력데이터(431) 또는 기본 학습 데이터는 데이터가 생성된 지역, 데이터가 생성된 시간, 데이터의 크기, 데이터의 장르, 데이터의 생성자, 데이터 내의 오브젝트의 종류, 데이터의 포멧 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다.

또한, 기계학습부(413)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 데이터 인식 모델을 학습시킬 수 있다.

또한, 기계학습부(413)는, 예를 들어, 입력데이터(431)를 입력 값으로 하는 지도 학습(supervised learning) 을 통하여, 기계학습모델(432)을 학습시킬 수 있다. 또한, 기계학습부(413)는, 예를 들어, 별다른 지도없이 상황 판단을 위해 필요한 데이터의 종류를 스스로 학습함으로써, 상황 판단을 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 기계학습모델을 학습시킬 수 있다. 또한, 기계학습부(413)는, 예를 들어, 학습에 따른 상황 판단의 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 기계학습모델(432)을 학습시킬 수 있다.

기계학습부(413)는 이하와 같은 수식 1 및 수식 2 을 이용하여 기계학습을 수행할 수 있다.

[수식1]

[수식2]

여기서, x는 기계학습모델에 이용되는 선택된 입력데이터고, y는 각 후보들의 확률이고, i는 후보들의 인덱스이고, j는 기계학습모델에 이용되는 선택된 입력데이터의 인덱스이고, W는 입력데이터에 대한 가중치 매트릭스이고, b는 편향 매개변수이다.

기계학습부(413)는 임의의 가중치(W) 및 임의의 편향 매개 변수(b)를 이용하여 예측된 데이터를 획득할 수 있다. 예측된 데이터는 복원된 복호화 파라미터일 수 있다. 기계학습부(413)는 y의 코스트를 계산할 수 있다. 코스트는 실제데이터와 예측된 데이터의 차이일 수 있다. 예를 들어 코스트는 오리지널 오디오 신호에 관련된 데이터와 복원된 복호화 파라미터와 관련된 데이터의 차이일 수 있다. 기계학습부(413)는 코스트가 최소가 되도록 가중치(W) 및 편향 매개 변수(b)를 업데이트 할 수 있다.

기계학습부(413)는 최소의 코스트일 때의 가중치 및 편향 매개 변수를 획득할 수 있다. 기계학습부(413)는 최소의 코스트일 때의 가중치 및 편향 매개 변수를 매트릭스로 나타낼 수 있다. 기계학습부(413)는 코스트가 최소일 때의 가중치 및 매개 변수 중 적어도 하나를 이용하여 기계학습모델(432)을 획득할 수 있다. 기계학습모델(432)은 가중치의 매트릭스 및 매개 변수의 매트릭스에 대응될 수 있다.

또한, 기계학습모델(432)이 학습되면, 기계학습부(313)는 학습된 기계학습모델(432)을 저장할 수 있다. 이 경우, 기계학습부(413)는 학습된 기계학습모델(432)을 데이터 데이터학습부(410)의 메모리에 저장할 수 있다. 또는, 기계학습부(413)는 학습된 기계학습모델(432)을 후술할 데이터적용부(420)의 메모리에 저장할 수 있다. 또는, 기계학습부(413)는 학습된 기계학습모델(432)을 전자 장치 또는 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.

이 경우, 학습된 기계학습모델(432)이 저장되는 메모리는, 예를 들면, 전자 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.

모델 평가부(미도시)는 기계학습모델(432)에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 결과가 소정 기준을 만족하지 못하는 경우, 기계학습부(413)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 기계학습모델(432)을 평가하기 위한 기 설정된 데이터일 수 있다.

예를 들어, 모델 평가부(미도시)는 평가 데이터에 대한 학습된 기계학습모델을 이용한 결과 중에서, 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 기계학습모델이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 결과를 출력하는 경우, 모델 평가부는 학습된 기계학습모델(432)이 적합하지 않은 것으로 평가할 수 있다.

한편, 학습된 기계학습모델이 복수 개가 존재하는 경우, 모델 평가부는 각각의 학습된 기계학습모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 기계학습모델로서 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 기계학습모델(432)로서 결정할 수 있다.

한편, 데이터학습부(410) 내의 데이터획득부(411), 전처리부(412), 기계학습부(413) 및 모델 평가부 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터획득부(411), 전처리부(412), 기계학습부(413) 및 모델 평가부 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.

또한, 데이터획득부(411), 전처리부(412), 기계학습부(413) 및 모델 평가부는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터획득부(411), 전처리부(412), 기계학습부(413) 및 모델 평가부 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.

또한, 데이터획득부(411), 전처리부(412), 기계학습부(413) 및 모델 평가부 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터획득부(411), 전처리부(412), 기계학습부(413) 및 모델 평가부 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

도 4을 참조하면, 일부 실시예에 따른 데이터 데이터적용부(420)는 데이터획득부(421), 전처리부(422), 결과제공부(423)를 포함할 수 있다. 데이터 데이터적용부(420)가 입력데이터(441) 및 기계학습모델(432)을 수신하여 출력 데이터(442)를 출력하는 것을 테스트 과정이라고 할 수 있다.

데이터획득부(421)는 입력데이터를 획득할 수 있다. 입력데이터(441)는 오디오 신호를 복호화하기 위한 적어도 하나의 복호화 파라미터를 포함할 수 있다. 전처리부(422)는 입력데이터(441)가 이용될 수 있도록, 입력데이터(441)를 전처리할 수 있다. 전처리부(422)는 후술할 결과제공부(423)가 입력데이터(441)를 이용할 수 있도록, 입력데이터(441)를 기 설정된 포맷으로 가공할 수 있다.

전처리부(422)는 전처리된 입력데이터 중에서 결과제공부(423)에서 사용할 데이터를 선택할 수 있다. 전처리부(422)는 전처리된 입력데이터 중 오디오 신호의 음질을 향상시키기 위해 이용할 적어도 하나의 복호화 파라미터를 선택할 수 있다. 선택된 데이터는 결과제공부(423)에게 제공될 수 있다. 전처리부(422)는 오디오 신호의 음질을 향상시키기 위한 설정된 기준에 따라, 전처리된 입력데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 전처리부(422)는 기계학습부(413)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.

결과제공부(423)는 전처리부(422)에 의해 선택된 데이터를 기계학습모델(432)에 적용하여 출력 데이터(442)를 출력할 수 있다. 출력된 데이터(442)는 향상된 음질을 제공하기 위한 복원된 복호화 파라미터일 수 있다. 오디오 복원 장치(100)는 복원된 복호화 파라미터에 기초하여 오리지널 오디오 신호에 가까운 복호화된 오디오 신호를 출력할 수 있다.

또한 결과제공부(423)는 출력 데이터(442)를 전처리부(422)에 제공할 수 있다. 전처리부는 출력 데이터(442)를 전처리기하고, 결과제공부(423)에 제공할 수 있다. 예를 들어 출력 데이터(442)는 이전 프레임의 복원된 복호화 파라미터일 수 있다. 결과제공부(423)는 이전 프레임에 대한 출력 데이터(442)를 전처리부(422)에 제공할 수 있다. 전처리부(422)는 현재 프레임의 선택된 복호화 파라미터와 함께 이전 프레임의 복원된 복호화 파라미터를 결과제공부(423)에 제공할 수 있다. 결과제공부(423)는 현재 프레임의 복원된 복호화 파라미터 뿐 아니라 이전 프레임에 대한 정보를 반영하여 현재 프레임에 대한 출력 데이터(442)를 생성할 수 있다. 현재 프레임에 대한 출력 데이터(442)는 현재 프레임의 복원된 복호화 파라미터 또는 보정된 복호화 파라미터 중 적어도 하나 일 수 있다. 오디오 복원 장치(100)는 현재 프레임에 대한 출력 데이터(442)에 기초하여 보다 향상된 음질의 오디오를 제공할 수 있다.

모델 갱신부(미도시)는 결과제공부(423)에 의해 제공되는 출력 데이터(342)에 대한 평가에 기초하여, 기계학습모델(432)이 갱신되도록할 수 있다. 예를 들어, 모델 갱신부는 결과제공부(423)에 의해 제공되는 출력 데이터(442)를 기계학습부(413)에게 제공함으로써, 기계학습부(413)가 기계학습모델(432)을 갱신하도록 할 수 있다.

한편, 데이터적용부(420) 내의 데이터획득부(421), 전처리부(422), 결과제공부(423) 및 모델 갱신부 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터획득부(421), 전처리부(422), 결과제공부(423) 및 모델 갱신부 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.

또한, 데이터획득부(421), 전처리부(422), 결과제공부(423) 및 모델 갱신부는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터획득부(421), 전처리부(422), 인식 결과제공부(423) 및 모델 갱신부 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.

또한, 데이터획득부(421), 전처리부(422), 결과제공부(423) 및 모델 갱신부 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터획득부(421), 전처리부(422), 결과제공부(423) 및 모델 갱신부 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

이하에서는 도 1의 오디오 복원 장치(100) 및 도 4 의 데이터학습부(410) 및 데이터적용부(420)의 동작을 도 5 내지 도 11과 함께 더 자세히 설명한다.

파라미터 특성 결정부(240)는 복호화 파라미터의 특성을 결정할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터의 특성을 만족하지 않는 파라미터에 대하여 처리를 할 필요가 없으므로 연산량을 줄일 수 있다. 또한, 오디오 복원 장치(100)는 복원된 복호화 파라미터가 입력된 복호화 파라미터보다 나쁜 음질을 도출하는 것을 방지할 수 있다.

그래프(510)는 한 프레임에 대한 주파수에 따른 신호의 크기를 나타낼 수 있다. 오디오 복원 장치(100)가 비트스트림에 기초하여 획득한 복수의 복호화 파라미터들은 주파수에 따른 신호의 크기값을 포함할 수 있다. 예를 들어 신호의 크기값은 스펙트럴 빈에 대응될 수 있다.

복수의 복호화 파라미터들은 제 1 파라미터 및 제 2 파라미터를 포함할 수 있다. 파라미터 특성 결정부(140)는 제 1 파라미터에 기초하여 제 2 파라미터의 특성을 결정할 수 있다. 제 1 파라미터는 제 2 파라미터에 인접한 파라미터일 수 있다. 오디오 복원 장치(100)는 제 1 파라미터의 추세 기초하여 제 2 파라미터의 특성을 결정할 수 있다. 제 2 파라미터의 특성은 제 2 파라미터의 범위일 수 있다.

본 개시의 일 실시예에 따르면, 제 2 파라미터는 주파수 f3에서의 신호의 크기값(513)일 수 있다. 또한 제 1 파라미터는 주파수 f1, f2, f4 및 f5에 대응되는 신호의 크기값들(511, 512, 514, 515)일 수 있다. 오디오 복원 장치(100)는 제 1 파라미터에 대응되는 신호의 크기값들(511, 12, 514, 515)이 상승 추세임을 결정할 수 있다. 따라서 오디오 복원 장치(100)는 제 2 파라미터에 대응되는 신호의 크기값(513)의 범위를 신호값(512) 및 신호값(514) 사이로 결정할 수 있다.

또한, 도 2 의 파라미터 특성 결정부(240)는 도 4의 데이터학습부(410)를 포함할 수 있다. 기계학습모델(432)은 데이터학습부(410)에 의하여 프리-트레이닝될(pre-trained) 수 있다.

예를 들어, 파라미터 특성 결정부(240)의 데이터학습부(410)는 오리지널 오디오 신호에 대응하는 정보를 수신할 수 있다. 오리지널 오디오 신호에 대응하는 정보는 오리지널 오디오 신호 자체 또는 오리지널 오디오 신호를 고음질로 부호화한 정보일 수 있다. 또한 파라미터 특성 결정부(240)의 데이터학습부(410)는 복호화 파라미터를 수신할 수 있다. 또한 파라미터 특성 결정부(240)의 데이터학습부(410)가 수신한 파라미터들은 적어도 하나의 프레임에 대응할 수 있다. 또한 파라미터 특성 결정부(240)의 데이터학습부(410)는 데이터획득부(411), 전처리부(412) 및 기계학습부(413)의 동작에 기초하여 기계학습모델(432)을 출력할 수 있다. 기계학습모델(432)의 데이터학습부(410)는 제 1 파라미터에 기초하여 제 2 파라미터의 특성을 결정하기 위한 기계학습모델(432)일 수 있다. 예를 들어 기계학습모델(432)은 적어도 하나의 제 1 파라미터들 각각에 대한 가중치로 주어질 수 있다.

또한 파라미터 특성 결정부(240)는 도 4의 데이터적용부(420)를 포함할 수 있다. 파라미터 특성 결정부(240)는 제 1 파라미터 및 상기 제 2 파라미터 중 적어도 하나에 기초하여 제 2 파라미터의 특성을 결정할 수 있다. 파라미터 특성 결정부(240)는 제 2 파라미터의 특성을 결정하기 위하여 프리-트레이닝된(pre-trained) 기계학습모델을 이용할 수 있다.

예를 들어, 파라미터 특성 결정부(240)의 데이터적용부(420)는 현재 프레임의 복수의 복호화 파라미터에 포함된 제 1 파라미터 및 제 2 파라미터 중 적어도 하나를 수신할 수 있다. 또한 파라미터 특성 결정부(240)의 데이터적용부(420)는 파라미터 특성 결정부(240)의 데이터학습부(410)로부터 기계학습모델(432)을 수신할 수 있다. 파라미터 특성 결정부(240)의 데이터적용부(420)는 데이터획득부(421), 전처리부(422) 및 결과제공부(423)의 동작에 기초하여 제 2 파라미터의 특성을 결정할 수 있다. 예를 들어 파라미터 특성 결정부(240)의 데이터적용부(420)는 제 1 파라미터 및 제 2 파라미터 중 적어도 하나에 기계학습모델(432)을 적용하여 제 2 파라미터의 특성을 결정할 수 있다.

본 개시의 다른 실시예에 따르면, 오디오 복원 장치(100)는 비트스트림에 포함되지 않은 제 2 파라미터를 복원하여 비트레이트가 높은 오디오를 제공할 수 있다. 오디오 복원 장치(100)는 제 2 파라미터는 주파수 f0에서의 신호의 크기값일 수 있다. 비트스트림은 주파수 f0에서의 신호의 크기에 대한 정보를 포함하지 않을 수 있다. 오디오 복원 장치(100)는 제 1 파라미터에 기초하여 주파수 f0에서의 신호의 특성을 추정할 수 있다. 또한 제 1 파라미터는 주파수 f1, f2, f3, f4 및 f5에 대응되는 신호의 크기값들(511, 512, 513, 514, 515)일 수 있다. 오디오 복원 장치(100)는 제 1 파라미터에 대응되는 신호의 크기값들(511, 512, 513, 514, 515)이 상승 추세임을 결정할 수 있다. 따라서 오디오 복원 장치는 제 2 파라미터에 대응되는 신호의 크기값의 범위를 신호값(514) 및 신호값(515) 사이로 결정할 수 있다. 오디오 복원 장치(100)는 도 4의 데이터학습부(410) 또는 데이터적용부(420) 중 적어도 하나를 포함할 수 있다. 데이터학습부(410) 또는 데이터적용부(420)의 동작에 대해서는 이미 설명한 바 있으므로 여기에서는 자세한 설명을 생략한다.

또한 그래프(520)를 참조하면, 제 2 파라미터는 주파수 f3에서의 신호의 크기값(523)일 수 있다. 또한 제 1 파라미터는 주파수 f1, f2, f4 및 f5에 대응되는 신호의 크기값들(521, 522, 524, 525)일 수 있다. 오디오 복원 장치(100)는 제 1 파라미터에 대응되는 신호의 크기값들(521, 522, 524, 525)이 상승 후 하강 추세임을 결정할 수 있다. 또한 주파수 f2에 대응되는 신호값(522)보다 주파수 f4에 대응되는 신호값(524)이 크므로, 오디오 복원 장치(100)는 제 2 파라미터에 대응되는 신호의 크기값(523)의 범위를 신호값(524)보다 크거나 같다고 결정할 수 있다.

또한 그래프(530)를 참조하면, 제 2 파라미터는 주파수 f3에서의 신호의 크기값(533)일 수 있다. 또한 제 1 파라미터는 주파수 f1, f2, f4 및 f5에 대응되는 신호의 크기값들(531, 532, 534, 535)일 수 있다. 오디오 복원 장치(100)는 제 1 파라미터에 대응되는 신호의 크기값들(531, 532, 534, 535)이 하강 후 상승 추세임을 결정할 수 있다. 또한 주파수 f2에 대응되는 신호값(532)보다 주파수 f4에 대응되는 신호값(534)이 작으므로, 오디오 복원 장치(100)는 제 2 파라미터에 대응되는 신호의 크기값(533)의 범위를 신호값(534)보다 작거나 같다고 결정할 수 있다.

또한 그래프(540)를 참조하면, 제 2 파라미터는 주파수 f3에서의 신호의 크기값(543)일 수 있다. 또한 제 1 파라미터는 주파수 f1, f2, f4 및 f5에 대응되는 신호의 크기값들(541, 542, 544, 545)일 수 있다. 오디오 복원 장치(100)는 제 1 파라미터에 대응되는 신호의 크기값들(541, 542, 544, 545)이 하강 추세임을 결정할 수 있다. 또한 오디오 복원 장치(100)는 제 2 파라미터에 대응되는 신호의 크기값의 범위를 신호값(542) 및 신호값(544) 사이로 결정할 수 있다.

오디오 복원 장치(100) 하나의 프레임에 대한 복호화 파라미터의 특성을 결정하기 위하여 복수의 프레임들을 이용할 수 있다. 오디오 복원 장치(100) 하나의 프레임에 대한 복호화 파라미터의 특성을 결정하기 위하여 하나의 프레임 이전의 프레임들을 이용할 수 있다. 예를 들어 오디오 복원 장치(100)는 프레임 n+1(630)에 포함된 적어도 하나의 복호화 파라미터의 특성을 결정하기 위하여 프레임 n-2, 프레임 n-1(610), 프레임 n(620) 또는 프레임 n+1(630)에 포함된 적어도 하나의 복호화 파라미터을 이용할 수 있다.

오디오 복원 장치(100)는 비트스트림으로부터 복호화 파라미터를 획득할 수 있다. 오디오 복원 장치(100)는 복수의 프레임에서의 복호화 파라미터에 기초하여 그래프들(640, 650, 660)을 획득할 수 있다. 그래프(640)는 주파수 도메인에서 프레임 n-1(610)에 대한 복호화 파라미터를 나타낼 수 있다. 그래프(640)에 나타난 복호화 파라미터는 주파수에 따른 신호의 크기를 나타낼 수 있다. 그래프(650)는 주파수 도메인에서 프레임 n(620)에 대한 주파수에 따른 신호의 크기를 나타낼 수 있다. 그래프(660)는 주파수 도메인에서 프레임 n+1(630)에 대한 주파수에 따른 신호의 크기를 나타낼 수 있다. 오디오 복원 장치(100)는 그래프(640), 그래프(650) 및 그래프(660)에 포함된 적어도 하나의 신호의 크기에 기초하여 그래프(660)에 포함된 신호의 크기의 특성을 결정할 수 있다.

본 개시의 일 실시예에 따르면, 오디오 복원 장치(100)는 그래프(640), 그래프(650) 및 그래프(660)에 포함된 적어도 하나의 신호의 크기에 기초하여 그래프(660)에 포함된 신호의 크기(662)의 특성을 결정할 수 있다. 오디오 복원 장치(100)는 그래프(640)의 신호의 크기들(641, 642, 643)의 추세를 확인할 수 있다. 또한 오디오 복원 장치(100)는 그래프(650)의 신호의 크기들(651, 652, 653)의 추세를 확인할 수 있다. 추세는 f3 부근에서 상승 후 하강하는 것일 수 있다. 또한 오디오 복원 장치(100)는 그래프(640) 및 그래프(650)에 기초하여 그래프(660)의 추세를 결정할 수 있다. 또한, 오디오 복원 장치(100)는 신호의 크기(662)가 신호의 크기(661) 및 신호의 크기(663)보다 크거나 같음을 결정할 수 있다.

본 개시의 다른 실시예에 따르면, 오디오 복원 장치(100)는 그래프(640), 그래프(650) 및 그래프(660)에 포함된 적어도 하나의 신호의 크기에 기초하여 그래프(660)에 포함된 f0에서의 신호의 크기의 특성을 결정할 수 있다. 오디오 복원 장치(100)는 그래프(640)에서 신호의 크기들의 추세를 확인할 수 있다. 또한 오디오 복원 장치(100)는 그래프(650)의 신호의 크기들의 추세를 확인할 수 있다. 추세는 f0 부근에서 하강하는 것일 수 있다. 또한 오디오 복원 장치(100)는 그래프(640) 및 그래프(650)에 기초하여 그래프(660)의 추세를 결정할 수 있다. 또한, 오디오 복원 장치(100)는 f0에서의 신호의 크기가 f4에서의 신호의 크기보다 작거나 같고 f5에서의 신호의 크기보다 크거나 같음을 결정할 수 있다. 오디오 복원 장치(100)는 도3의 데이터학습부(410) 또는 데이터적용부(420) 중 적어도 하나를 포함할 수 있다. 데이터학습부(410) 또는 데이터적용부(420)의 동작에 대해서는 이미 설명한 바 있으므로 여기에서는 자세한 설명을 생략한다.

본 개시의 일 실시예에 따르면, 오디오 복원 장치(100) 하나의 프레임에 포함된 복호화 파라미터의 특성을 결정하기 위하여 하나의 프레임 이전의 프레임들을 이용할 수 있다. 오디오 복원 장치(100)는 이전 프레임에 포함된 특정 주파수에 따른 신호에 기초하여 현재 프레임에 포함된 특정 주파수에 따른 신호의 특성을 결정할 수 있다. 오디오 복원 장치(100)는 이전 프레임에 포함된 특정 주파수에 따른 신호의 분포 범위, 평균값, 중간값, 중앙값, 최소값, 최대값, 편차 또는 부호 등에 기초하여 현재 프레임에 포함된 특정 주파수에 따른 복호화 파라미터의 특성을 결정할 수 있다.

예를 들어, 오디오 복원 장치(100)는 그래프(640) 및 그래프(650)에 포함된 적어도 하나의 신호의 크기에 기초하여 그래프(660)에 포함된 신호의 크기(662)의 특성을 결정할 수 있다. 오디오 복원 장치(100)는 그래프(640)의 주파수 f3에서의 신호의 크기(642) 및 그래프(650)의 주파수 f3에서의 신호의 크기(652)에 기초하여 그래프(660)의 주파수 f3에서의 신호의 크기(662)의 특성을 결정할 수 있다. 신호의 크기(662)의 특성은 신호의 크기(642) 및 신호의 크기(652)의 분포 범위, 평균값, 중간값, 중앙값, 최소값, 최대값, 편차 또는 부호 등에 기초할 수 있다.

본 개시의 일 실시예에 따르면 오디오 복원 장치(100)는 비트스트림으로부터 복호화 파라미터를 획득할 수 있다. 복호화 파라미터는 제 2 파라미터를 포함할 수 있다. 또한 제 2 파라미터의 특성은 복호화 파라미터가 아닌 이미 결정된 파라미터에 기초하여 결정될 수 있다.

예를 들어 양자화 스텝 사이즈는 복호화 파라미터에 포함되지 않을 수 있다. 제 2 파라미터는 하나의 프레임에 대한 주파수에 따른 신호의 크기에 대응할 수 있다. 신호의 크기값은 스펙트럴 빈에 대응될 수 있다. 또한 오디오 복원 장치(100)는 양자화 스텝 사이즈에 기초하여 스펙트럴 빈의 범위를 결정할 수 있다. 양자화 스텝 사이즈는 하나의 스펙트럴 빈으로 결정되는 신호의 크기의 범위이다. 양자화 스텝 사이즈는 주파수마다 다를 수 있다. 가청 주파수 영역에서는 양자화 스텝사이즈가 조밀할 수 있다. 가청 주파수 영역이 아닌 영역에서는 양자화 스텝사이즈가 성길 수 있다. 따라서 스펙트럴 빈에 대응하는 주파수 값을 알면, 양자화 스텝사이즈가 결정될 수 있다. 또한 양자화 스텝사이즈에 기초하여 스펙트럴 빈의 범위가 결정될 수 있다.

본 개시의 다른 실시예에 따르면 오디오 복원 장치(100)는 비트스트림으로부터 복호화 파라미터를 획득할 수 있다. 복호화 파라미터는 제 1 파라미터 및 제 2 파라미터를 포함할 수 있다. 제 2 파라미터의 특성은 제 1 파라미터에 기초하여 결정될 수 있다. 제 2 파라미터의 특성은 제 2 파라미터의 범위일 수 있다.

예를 들어 제 1 파라미터는 스케일 팩터 및 마스킹 임계값을 포함할 수 있다. 양자화 스텝 사이즈는 스케일 팩터 및 마스킹 임계값에 기초하여 결정될 수 있다. 스케일 팩터는 이미 설명한 바와 스펙트럴 빈을 스케일하기 위한 값이다. 스케일 팩터는 하나의 프레임에 포한된 복수의 밴드들 별로 다른 값을 가질 수 있다. 마스킹 임계값은 마스커라는 노이즈가 존재 할 때 현재 신호가 들리기 위한 현재 신호의 최소 크기이다. 마스킹 임계값은 주파수 및 마스커의 종류에 따라 다를 수 있다. 또한 마스킹 임계값은 마스커 및 현재 신호의 주파수가 근접할 때 커질 수 있다.

예를 들어 현재 신호가 f0에 존재하고, f0에 근접한 f1에 마스커 신호가 있을 수 있다. f1의 마스커에 의하여 f0에서의 마스킹 임계값이 정해질 수 있다. f0의 현재 신호의 크기가 마스킹 임계값보다 작은 경우 현재 신호는 들리지 않는 소리 일 수 있다. 따라서 오디오 복원 장치(100)는 부호화 또는 복호화 과정에서 f0에서의 현재 신호를 무시할 수 있다. 반면에 f0의 현재 신호의 크기가 마스킹 임계값보다 큰 경우 현재 신호는 들리는 소리 일 수 있다. 따라서 오디오 복원 장치(100)는 부호화 또는 복호화 과정에서 f0에서의 현재 신호를 무시할 수 없다.

오디오 복원 장치(100)는 양자화 스텝 사이즈를 스케일 팩터 및 마스킹 임계값 중 작은 값으로 설정할 수 있다. 또한 오디오 복원 장치(100)는 양자화 스텝사이즈에 기초하여 스펙트럴 빈의 범위를 결정할 수 있다.

단계 710에서 오디오 복원 장치(100)는 비트스트림을 복호화하여 오디오 신호를 복호화하기 위한 현재 프레임의 복수의 복호화 파라미터들을 획득할 수 있다. 단계 720에서 오디오 복원 장치(100)는 복수의 복호화 파라미터들에 포함된 제 1 파라미터에 기초하여 복수의 복호화 파라미터들에 포함된 제 2 파라미터의 특성을 결정할 수 있다. 단계 730에서 오디오 복원 장치(100)는 기계학습모델을 이용하여 복수의 복호화 파라미터들 중 적어도 하나에 기초하여 복원된 제 2 파라미터를 획득할 수 있다. 단계 740에서 오디오 복원 장치(100)는 제 2 파라미터의 특성에 기초하여 제 2 파라미터를 보정하여 보정된 제 2 파라미터를 획득할 수 있다. 단계 750에서 오디오 복원 장치(100)는 보정된 제 2 파라미터에 기초하여 오디오 신호를 복호화할 수 있다.

710 단계 및 750 단계는 오디오 신호 복호화부(230)에 의하여 수행될 수 있다. 720 단계는 파라미터 특성 결정부(240)에 의하여 수행될 수 있다. 또한 730 단계 내지 740 단계는 파라미터 복원부(250)에 의하여 수행될 수 있다.

본 개시의 일 실시예에 따라 도 3을 다시 참조하면, 파라미터 복원부(250)의 데이터학습부(410) 및 데이터적용부(420)는 제 2 파라미터의 특성을 입력으로 수신할 수 있다. 즉, 파라미터 복원부(250)는 제 2 파라미터의 특성에 기초하여 기계학습할 수 있다. 파라미터 복원부(250)의 데이터학습부(410)는 제 2 파라미터의 특성을 반영하여 기계학습모델(432)을 출력할 수 있다. 또한 파라미터 복원부(250)의 데이터적용부(420)는 제 2 파라미터의 특성을 반영하여 출력 데이터(442)를 출력할 수 있다.

본 개시의 다른 실시예에 따라 도 7을 참조하면, 파라미터 복원부(250)의 데이터학습부(410) 및 데이터적용부(420)는 제 2 파라미터의 특성을 입력으로 수신하지 않을 수 있다. 즉, 파라미터 복원부(250)는 복호화 파라미터에 기초하여 기계학습할 뿐, 제 2 파라미터의 특성에 기초하여 기계학습하지 않을 수 있다. 파라미터 복원부(250)의 데이터학습부(410)는 제 2 파라미터의 특성을 반영하지 않고 기계학습모델(432)을 출력할 수 있다. 또한 파라미터 복원부(250)의 데이터적용부(420)는 제 2 파라미터의 특성을 반영하지 않고 출력 데이터(442)를 출력할 수 있다.

출력 데이터(442)는 복원된 제 2 파라미터일 수 있다. 파라미터 복원부(250)는 복원된 제 2 파라미터가 제 2 파라미터의 특성에 맞는지 결정할 수 있다. 복원된 제 2 파라미터가 제 2 파라미터의 특성에 맞는 경우, 파라미터 복원부(250)는 복원된 파라미터를 오디오 신호 복호화부(230)로 출력할 수 있다. 복원된 제 2 파라미터가 제 2 파라미터의 특성에 맞지 않는 경우, 파라미터 복원부(250)는 제 2 파라미터의 특성에 기초하여 복원된 제 2 파라미터를 보정하여 보정된 제 2 파라미터를 획득할 수 있다. 파라미터 복원부(250)는 보정된 파라미터를 오디오 신호 복호화부(230)로 출력할 수 있다.

예를 들어, 제 2 파라미터의 특성은 제 2 파라미터의 범위 일 수 있다. 오디오 복원 장치(100)는 제 1 파라미터에 기초하여, 제 2 파라미터의 범위를 결정할 수 있다. 오디오 복원 장치(100)는 복원된 제 2 파라미터가 제 2 파라미터의 범위 내에 있지 않을 경우, 복원된 제 2 파라미터와 가장 가까운 범위의 값을 보정된 제 2 파라미터로 획득할 수 있다. 이에 대해서는 도 8과 함께 더 자세히 설명한다.

도 8은 일 실시예에 따른 복호화 파라미터를 도시한다.

그래프(800)는 주파수 도메인에서 오리지널 오디오 신호의 주파수에 따른 신호의 크기를 나타낸다. 그래프(800)는 오리지널 오디오 신호의 하나의 프레임에 대응될 수 있다. 오리지널 오디오 신호는 연속적인 파형을 가진 곡선(805)으로 나타난다. 오리지널 오디오 신호는 주파수 f1, f2, f3 및 f4 에서 샘플링될 수 있다. 주파수 f1, f2, f3 및 f4에서 오리지널 오디오 신호의 크기는 점들(801, 802, 803, 804)로 나타낼 수 있다. 오리지널 오디오 신호는 부호화 될 수 있다. 오디오 복원 장치(100)는 부호화된 오리지널 오디오 신호를 복호화하여 복호화 파라미터를 생성할 수 있다.

그래프(810)는 주파수에 따른 신호의 크기를 나타낸다. 그래프(810)에 표시된 점선(815)은 오리지널 오디오 신호에 대응될 수 있다. 또한 그래프(810)에 표시된 점들(811, 812, 813, 814)는 복호화 파라미터에 대응될 수 있다. 복호화 파라미터는 오디오 복원 장치(100)의 무손실 복호화부(231)에서 출력될 수 있다. 오리지널 오디오 신호 및 복호화 파라미터 중 적어도 하나는 스케일되어 그래프(810)에 표시될 수 있다.

그래프(810)에 나타난 바와 같이 점선(815)은 점들(811, 812, 813, 814)과 차이가 있을 수 있다. 점선(815)과 점들(811, 812, 813, 814)의 차이는 오리지널 오디오 신호가 부호화 및 복호화되면서 생긴 오차 때문일 수 있다.

오디오 복원 장치(100)는 점들(811, 812, 813, 814)에 대응되는 복호화 파라미터의 특성을 결정할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터의 특성을 결정하기 위하여 기계학습모델을 이용할 수 있다. 복호화 파라미터의 특성 결정에 대해서는 도 5 및 도 6에서 이미 설명한 바 있으므로 자세한 설명은 생략한다. 복호화 파라미터는 스펙트럴 빈일 수 있다. 또한 복호화 파라미터의 특성은 스펙트럴 빈의 범위 일 수 있다.

오디오 복원 장치(100)가 결정한 스펙트럴 빈의 범위는 그래프(830)와 같이 나타날 수 있다. 즉, 화살 표시(835)는 스펙트럴 빈에 대응하는 점(831)의 존재 가능한 범위를 나타낸다. 화살 표시(836)는 스펙트럴 빈에 대응하는 점(832)의 존재 가능한 범위를 나타낸다. 화살 표시(837)는 스펙트럴 빈에 대응하는 점(833)의 존재 가능한 범위를 나타낸다. 화살 표시(838)는 스펙트럴 빈에 대응하는 점(834)의 존재 가능한 범위를 나타낸다.

오디오 복원 장치(100)는 f2 및 f3 사이의 f0에서의 신호의 특성을 결정할 수 있다. 오디오 복원 장치(100)는 f0에 대한 복호화 파라미터를 수신하지 않을 수 있다. 오디오 복원 장치(100)는 f0에 관련된 복호화 파라미터에 기초하여 f0에서의 복호화 파라미터의 특성을 결정할 수 있다.

예를 들어, 오디오 복원 장치(100)는 f0에서의 스펙트럴 빈의 크기에 관련된 정보를 수신하지 않을 수 있다. 오디오 복원 장치(100)는 f0 에 인접한 주파수의 스펙트럴 빈 및 현재 프레임에 인접한 프레임의 스펙트럴 빈을 이용하여 f0에서의 신호의 크기의 범위를 결정할 수 있다. 이에 대해서는 도 5 및 도 6 에서 자세히 설명하였으므로 자세한 설명은 생략한다.

오디오 복원 장치(100)는 복호화 파라미터를 복원할 수 있다. 오디오 복원 장치(100)는 기계학습모델을 이용할 수 있다. 복호화 파라미터를 복원하기 위하여, 오디오 복원 장치(100)는 기계학습모델에 복호화 파라미터 및 복호화 파라미터의 특성 중 적어도 하나를 적용할 수 있다.

오디오 복원 장치(100)가 복원한 복호화 파라미터를 나타내면 그래프(850)와 같다. 점들(851, 852, 853, 854, 855)은 복원한 복호화 파라미터들을 나타낸다. 복원한 복호화 파라미터는 복원 전의 복호화 파라미터보다 오차가 클 수 있다. 예를 들어 그래프(830)에서 스펙트럴 빈에 대응하는 점(834)은 오리지널 오디오 신호에 가까웠으나, 그래프(850)에서 스펙트럴 빈에 대응하는 점(854)은 오리지널 오디오 신호(860)에서 멀어질 수 있다.

오디오 복원 장치(100)는 복호화 파라미터를 보정할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터가 복호화 파라미터의 존재 가능한 범위 내에 있는지 결정할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터가 복호화 파라미터의 존재 가능한 범위 내에 있지 않은 경우 복호화 파라미터를 보정할 수 있다. 보정된 복호화 파라미터는 복호화 파라미터의 존재 가능한 범위 내에 있을 수 있다.

예를 들어 그래프(870)는 보정된 스펙트럴 빈을 나타낸다. 스펙트럴 빈에 대응하는 점들(871, 872, 873, 875)은 스펙트럴 빈의 존재 가능한 범위 내에 있을 수 있다. 하지만, 스펙트럴 빈에 대응하는 점(874)은 스펙트럴 빈의 존재 가능한 범위(878) 외에 있을 수 있다. 오디오 복원 장치(100)는 복원된 스펙트럴 빈이 스펙트럴 빈의 존재 가능한 범위(878)에 있지 않을 경우, 복원된 스펙트럴 빈과 가장 가까운 범위(878)의 값을 보정된 스펙터럴 빈으로 획득할 수 있다. 오디오 복원 장치(100)는 복원된 스펙트럴 빈에 대응하는 점(874)이 범위(878)의 최대값보다 큰 값인 경우, 범위(878)의 최대값을 보정된 스펙트럴 빈에 대응하는 점(880)으로 획득할 수 있다. 즉, 오디오 복원 장치(100)는 복원된 스펙트럴 빈에 대응하는 점(874)을 점(880)으로 보정할 수 있다. 점(880)은 보정된 스펙트럴 빈에 대응할 수 있다.

오디오 복원 장치(100)는 보정된 복호화 파라미터에 기초하여 오디오 신호를 복호화 할 수 있다. 주파수 f0 에서 복원된 스펙트럴 빈에 대응하는 점(875)에 의하면 오디오 신호의 샘플링 레이트를 개선할 수 있다. 주파수 f4 에서 복원된 스펙트럴 빈에 대응하는 점(880)에 의하면 오디오 신호의 크기를 정확하게 나타낼 수 있다. 보정된 복호화 파라미터는 주파수 도메인의 오리지널 오디오 신호에 가까우므로, 복호화된 오디오 신호는 오리지널 오디오 신호에 가까울 수 있다.

그래프(910)는 도 8 의 그래프(810)를 구체화한 것이다. 그래프 (910)는 주파수에 따른 신호의 크기를 나타낸다. 그래프(910)에 표시된 점선(915)은 오리지널 오디오 신호에 대응될 수 있다. 또한 그래프(910)에 표시된 점들(911, 912, 913, 914)는 복호화 파라미터에 대응될 수 있다. 오리지널 오디오 신호 및 복호화 파라미터 중 적어도 하나는 스케일되어 그래프(910)에 표시될 수 있다.

오디오 복원 장치(100)는 점들(911, 912, 913, 914)에 대응되는 복호화 파라미터의 특성을 결정할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터의 특성을 결정하기 위하여 기계학습모델을 이용할 수 있다. 복호화 파라미터의 특성의 결정에 대해서는 도 5 및 도 6에서 이미 설명한 바 있으므로 자세한 설명은 생략한다. 복호화 파라미터는 스펙트럴 빈일 수 있다. 또한 복호화 파라미터의 특성은 스펙트럴 빈의 범위 일 수 있다. 오디오 복원 장치(100)가 결정한 스펙트럴 빈의 범위는 그래프(930)와 같이 나타날 수 있다.

오디오 복원 장치(100)는 스펙트럴 빈을 미세하게 조정하기 위한 후보들을 결정할 수 있다. 오디오 복원 장치(100)는 스펙트럴 빈을 복수의 비트(bit)를 이용하여 표현할 수 있다. 또한 오디오 복원 장치(100)는 스펙트럴 빈을 표현하기 위한 비트(bit)의 개수를 늘릴수록 스펙트럴 빈을 미세하게 표현할 수 있다. 오디오 복원 장치(100)는 스펙트럴 빈을 미세하게 조정하기 위하여 스펙트럴 빈을 표현하기 위한 비트(bit)의 수를 늘릴 수 있다. 스펙트럴 빈을 표현하기 위한 비트(bit)수를 늘리는 경우에 대하여 도 10과 함께 설명한다.

그래프(1000)를 참조하면, 오디오 복원 장치(100)는 양자화된 복호화 파라미터를 나타내기 위하여 2개의 비트를 사용할 수 있다. 이 경우 오디오 복원 장치(100)는 '00', '01', '10' 및 '11'를 이용하여 양자화된 복호화 파라미터를 나타낼 수 있다. 즉 오디오 복원 장치(100)가 나타낼 수 있는 복호화 파라미터의 크기는 4개이다. 오디오 복원 장치(100)는 복호화 파라미터가 가질 수 있는 최소값을 '00'에 할당할 수 있다. 또한 오디오 복원 장치(100)는 복호화 파라미터가 가질 수 있는 최대값을 '11'에 할당할 수 있다.

오디오 복원 장치(100)가 수신한 복호화 파라미터의 크기는 점(1020)과 같을 수 있다. 복호화 파라미터의 크기는 '01'일 수 있다. 하지만 양자화 전의 복호화 파라미터의 실제 크기는 별표들(1011, 1012, 1013)과 같을 수 있다. 복호화 파라미터의 실제 크기가 별표(1011)와 같은 경우 오차 범위는 화살표(1031)와 같을 수 있다. 복호화 파라미터의 실제 크기가 별표(1012)와 같은 경우 오차 범위는 화살표(1032)와 같을 수 있다. 복호화 파라미터의 실제 크기가 별표(1013)와 같은 경우 오차 범위는 화살표(1033)와 같을 수 있다.

그래프(1050)를 참조하면, 오디오 복원 장치(100)는 양자화된 복호화 파라미터를 나타내기 위하여 3개의 비트를 사용할 수 있다. 이 경우 오디오 복원 장치(100)는 '000', '001', '010', '011', '100', '101', '110' 및 '111'을 이용하여 양자화된 복호화 파라미터를 나타낼 수 있다. 즉 오디오 복원 장치(100)가 나타낼 수 있는 복호화 파라미터의 크기는 8개이다. 오디오 복원 장치(100)는 복호화 파라미터가 가질 수 있는 최소값을 '000'에 할당할 수 있다. 또한 오디오 복원 장치(100)는 복호화 파라미터가 가질 수 있는 최대값을 '111'에 할당할 수 있다.

오디오 복원 장치(100)가 수신한 복호화 파라미터의 크기는 점들(1071, 1072, 1073)과 같을 수 있다. 복호화 파라미터의 크기는 각각 '001', '101' 및 '011'일 수 있다. 복호화 파라미터의 실제 크기는 별표들(1061, 1062, 1063)과 같을 수 있다. 복호화 파라미터의 실제 크기가 별표(1061)와 같은 경우 오차 범위는 화살표(1081)와 같을 수 있다. 복호화 파라미터의 실제 크기가 별표(1062)와 같은 경우 오차 범위는 화살표(1082)와 같을 수 있다. 복호화 파라미터의 실제 크기가 별표(1063)와 같은 경우 오차 범위는 화살표(1083)와 같을 수 있다.

그래프 (1000)와 그래프(1050)를 비교하면, 그래프(1050)에 표시된 복호화 파라미터의 오차가 그래프(1000)에 표시된 복호화 파라미터의 오차보다 상대적으로 작다. 도 10에 나타난 바와 같이 오디오 복원 장치(100)가 복호화 파라미터를 나타내기 위해 많은 비트를 사용할수록 복호화 파라미터를 세밀하게 표현할 수 있다.

다시 도 9 를 참조하면, 오디오 복원 장치(100)는 복호화 파라미터를 미세하게 조정하기 위한 후보들을 결정할 수 있다. 그래프(950)를 참조하면, 오디오 복원 장치는 복호화 파라미터를 표현하기 위해 1비트를 추가적으로 사용할 수 있다. 또한 그래프(930)의 하나의 복호화 파라미터(931)에 대응되는 후보들(951,952, 953)을 결정할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터의 후보들(951,952, 953)을 결정하기 위하여 복호화 파라미터의 특성을 이용할 수 있다. 예를 들어 복호화 파라미터의 특성은 복호화 파라미터의 범위(954) 일 수 있다. 후보들(951,952, 953)은 복호화 파라미터의 범위(954) 내에 있을 수 있다.

오디오 복원 장치(100)는 기계학습모델에 기초하여 복호화 파라미터의 후보들(951,952, 953) 중 하나를 선택할 수 있다. 오디오 복원 장치(100)는 데이터학습부(410) 및 데이터적용부(420) 중 적어도 하나를 포함할 수 있다. 오디오 복원 장치(100)는 현재 프레임의 복호화 파라미터, 이전 프레임의 복호화 파라미터 중 적어도 하나를 기계학습모델에 적용하여 복호화 파라미터들 중 하나를 선택할 수 있다. 기계학습모델은 프리-트레이닝될 수 있다.

복호화 파라미터는 제 1 파라미터 및 제 2 파라미터를 포함할 수 있다. 오디오 복원 장치(100)는 제 2 파라미터의 후보들 중 하나를 선택하기 위하여 제 2 파라미터와 연관되는 제 1 파라미터를 이용할 수 있다.

그래프(960)를 참조하면, 오디오 복원 장치(100)는 선택된 복호화 파라미터(961)를 획득할 수 있다. 또한 오디오 복원 장치(100)는 선택된 복호화 파라미터(961)에 기초하여 복호화된 오디오 신호를 획득할 수 있다.

그래프(970)를 참조하면, 오디오 복원 장치는 복호화 파라미터를 표현하기 위해 2비트를 추가적으로 사용할 수 있다. 또한 그래프(930)의 하나의 복호화 파라미터(931)에 대응되는 후보들(971,972, 973, 974, 975)을 결정할 수 있다. 후보들(971,972, 973, 974, 975)이 그래프(950)의 후보들(951, 952, 953)보다 세밀한 값을 가진다. 오디오 복원 장치(100)는 1비트를 사용하는 경우보다 2 비트를 사용할 때 정확한 복호화 파라미터를 복원할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터의 후보들(971,972, 973, 974, 975)을 결정하기 위하여 복호화 파라미터의 특성을 이용할 수 있다. 예를 들어 복호화 파라미터의 특성은 복호화 파라미터의 범위(976) 일 수 있다. 후보들(971,972, 973, 974, 975)은 복호화 파라미터의 범위(976) 내에 있을 수 있다.

오디오 복원 장치(100)는 기계학습모델에 기초하여 복호화 파라미터의 후보들(971,972, 973, 974, 975) 중 하나를 선택할 수 있다. 오디오 복원 장치(100)는 현재 프레임의 복호화 파라미터, 이전 프레임의 복호화 파라미터 중 적어도 하나를 기계학습모델에 적용하여 복호화 파라미터들 중 하나를 선택할 수 있다. 복호화 파라미터는 제 1 파라미터 및 제 2 파라미터를 포함할 수 있다. 오디오 복원 장치(100)는 제 2 파라미터의 후보들 중 하나를 선택하기 위하여 제 2 파라미터와 연관되는 제 1 파라미터를 이용할 수 있다.

그래프(980)를 참조하면, 오디오 복원 장치(100)는 선택된 복호화 파라미터(981)를 획득할 수 있다. 선택된 복호화 파라미터(981)는 그래프(960)의 선택된 복호화 파라미터(961)보다 정확한 값일 수 있다. 즉, 선택된 복호화 파라미터(981)는 선택된 복호화 파라미터(961)보다 오리지널 오디오 신호에 대응되는 점선에 더 가까울 수 있다. 또한 오디오 복원 장치(100)는 선택된 복호화 파라미터(981)에 기초하여 복호화된 오디오 신호를 획득할 수 있다.

오디오 복원 장치(100)는 비트스트림을 수신할 수 있다. 오디오 복원 장치(100)는 비트스트림에 기초하여 복호화 파라미터를 획득할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터의 특성을 결정할 수 있다. 복호화 파라미터의 특성은 부호일 수 있다. 또한, 복호화 파라미터가 0의 크기를 가질 수 있으며, 0의 크기는 복호화 파라미터의 특성일 수 있다.

예를 들어 복호화 파라미터는 스펙트럴 데이터일 수 있다. 스펙트럴 데이터는 스펙트럴 빈의 부호을 나타낼 수 있다. 또한 스펙트럴 데이터는 스펙트럴 빈이 0인지 여부를 나타낼 수 있다. 스펙트럴 데이터는 비트스트림에 포함되어 있을 수 있다. 또한 오디오 복원 장치(100)는 비트스트림에 기초하여 스펙트럴 데이터를 생성할 수 있다.

복호화 파라미터는 제 1 파라미터 및 제 2 파라미터를 포함할 수 있다. 오디오 복원 장치(100)는 제 1 파라미터에 기초하여 제 2 파라미터의 특성을 결정할 수 있다. 제 1 파라미터는 스펙트럴 데이터일 수 있다. 또한 제 2 파라미터는 스펙트럴 빈일 수 있다.

그래프(1110)는 주파수에 따른 복호화 파라미터의 크기를 나타낸다. 복호화 파라미터는 스펙트럴 빈일 수 있다. 복호화 파라미터는 다양한 부호를 가질 수 있다. 예를 들어 복호화 파라미터(1111)는 음의 부호를 가질 수 있다. 복호화 파라미터(1113)는 양의 부호를 가질 수 있다. 오디오 복원 장치(100)는 복호화 파라미터의 부호를 복호화 파라미터들(1111, 1113)의 특성으로 결정할 수 있다. 복호화 파라미터(1112)는 0의 크기를 가질 수 있다. 오디오 복원 장치(100)는 0의 크기를 복호화 파라미터(1112)의 특성으로 결정할 수 있다.

본 개시의 일 실시예에 따르면, 오디오 복원 장치(100)는 복호화 파라미터를 기계학습모델에 적용하여 복원된 복호화 파라미터를 결정할 수 있다. 그래프(1130)는 주파수에 따른 복원된 복호화 파라미터의 크기를 나타낸다. 오디오 복원 장치(100)는 복호화 파라미터들(1111, 1112. 1113)을 복원하여 복원된 복호화 파라미터들(1131, 1132, 1133)을 획득할 수 있다. 하지만 복원된 복호화 파라미터들(1131, 1133)은 복호화 파라미터들(1111, 1113)과 다른 부호를 가질 수 있다. 또한 복원된 복호화 파라미터(1132)는 복호화 파라미터(1112)와 다르게 0이 아닌 값을 가질 수 있다.

오디오 복원 장치(100)는 복호화 파라미터의 특성에 기초하여 복원된 복호화 파라미터를 보정하여 보정된 복호화 파라미터를 획득할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터의 부호에 기초하여 복원된 복호화 파라미터를 보정할 수 있다. 그래프(1150)를 참조하면 오디오 복원 장치(100)는 복원된 복호화 파라미터들(1131, 1133)의 부호를 보정하여 보정된 복호화 파라미터들(1151, 1153)을 획득할 수 있다. 또한 오디오 복원 장치(100)는 복원된 복호화 파라미터(1132)의 크기를 0으로 보정하여 보정된 복호화 파라미터(1152)를 획득할 수 있다.

본 개시의 다른 실시예에 따르면, 오디오 복원 장치(100)는 복호화 파라미터의 특성 및 복호화 파라미터에 기계학습모델을 적용하여 복원된 복호화 파라미터를 획득할 수 있다. 즉, 오디오 복원 장치(100)는 그래프(1110)에 따른 복호화 파라미터들에 기초하여 그래프(1150)에 따른 복원된 파라미터를 획득할 수 있다.

오디오 복원 장치(100)는 코덱 정보 도출부(1210), 오디오 신호 복호화부(1220), 비트스트림 분석부(1230), 복원 방법 선택부(1240) 및 적어도 하나의 복원부를 포함할 수 있다.

코덱 정보 도출부(1210)는 도 1의 수신부(110)에 동일 대응될 수 있다. 또한 코덱 정보 도출부(1210)는 도 2 의 코덱 정보 도출부(210)에 동일 대응될 수 있다. 코덱 정보 도출부(1210)는 비트스트림을 수신하여 비트스트림이 어떤 기술을 이용하여 부호화되었는지 결정할 수 있다. 오리지널 오디오가 부호화되기 위하여 사용된 기술에는 MP3, AAC, HE-AAC등이 있을 수 있다.

오디오 신호 복호화부(1220)는 비트스트림에 기초하여 오디오 신호를 복호화한다. 오디오 신호 복호화부(1220)는 도 2 의 오디오 신호 복호화부(230)에 동일 대응될 수 있다. 오디오 신호 복호화부(1220)는 무손실 복호화부, 역양자화부, 스테레오 신호 복원부 및 역변환부를 포함할 수 있다. 오디오 신호 복호화부(1220)는 코덱 정보 도출부(1210)으로부터 수신한 코덱 정보에 기초하여 복원된 오디오 신호를 출력할 수 있다.

비트스트림 분석부(1230)는 비트스트림에 기초하여 현재 프레임에 대한 복호화 파라미터를 획득할 수 있다. 비트스트림 분석부(1230)는 복호화 파라미터에 기초하여 복원된 오디오 신호의 특성을 파악할 수 있다. 비트스트림 분석부(1230)는 신호의 특성에 대한 정보를 복원 방법 선택부(1240)로 전송할 수 있다.

예를 들어 복호화 파라미터는 스펙트럴 빈, 스케일 팩터 게인, 글로벌 게인, 윈도우 타입, 버퍼 레벨, Temporal Noise Shaping(TNS) 정보 및 Perceptual Noise Substitution(PNS) 정보 중 적어도 하나를 포함할 수 있다.

스펙트럴 빈은 주파수 도메인에서 주파수에 따른 신호의 크기에 대응될 수 있다. 오디오 부호화 장치는 데이터를 줄이기 위하여 인간이 민감한 주파수 범위에 대해서만 정확한 스펙트럴 빈을 전송할 수 있다. 또한 인간이 듣기 힘든 고주파수 영역 또는 인간이 듣기 힘든 저주파수 영역에 대해서는 스펙트럴 빈을 전송하지 않거나 부정확한 스펙트럴 빈을 전송할 수 있다. 오디오 복원 장치(100)는 스펙트럴 빈이 전송되지 않은 영역에 대하여 대역폭 확장 기술을 적용할 수 있다. 비트스트림 분석부(1230)는 스펙트럴 빈을 분석하여 스펙트럴 빈이 정확하게 전송된 주파수 영역 및 스펙트럴 빈이 부정확하게 전송된 주파수 영역을 결정할 수 있다. 비트스트림 분석부(1230)는 주파수에 대한 정보를 복원 방법 선택부(1240)로 전송할 수 있다.

예를 들어 대역폭 확장 기술은 일반적으로 고주파수 영역에 적용될 수 있다. 비트스트림 분석부(1230)는 스펙트럴 빈이 부정확하게 전송된 주파수 영역의 최소 주파수 값을 시작 주파수로 결정할 수 있다. 비트스트림 분석부(1230)는 시작 주파수부터 대역폭 확장 기술이 적용되어야함을 결정할 수 있다. 비트스트림 분석부(1230)는 시작 주파수를 복원 방법 선택부(1240)로 전송할 수 있다.

스케일 팩터 게인 및 글로벌 게인은 스펙트럴 빈을 스케일하기 위한 값이다. 비트스트림 분석부(1230)는 스케일 팩터 게인 및 글로벌 게인을 분석하여 복원된 오디오 신호의 특징을 획득할 수 있다. 예를 들어 비트스트림 분석부(1230)는 현재 프레임의 스케일 팩터 게인 및 글로벌 게인이 급격히 변화한 경우, 현재 프레임은 트랜지언트 신호라고 결정할 수 있다. 또한 비트스트림 분석부(1230)는 프레임들의 스케일 팩터 게인 및 글로벌 게인에 변화가 거의 없는 경우 프레임들이 스테이셔너리 신호임을 결정할 수 있다. 비트스트림 분석부(1230)는 프레임들이 스테이셔너리 신호인지 트랜지언트 신호인지에 대한 정보를 복원 방법 선택부(1240)로 전송할 수 있다.

윈도우 타입 시간 도메인의 오리지널 오디오 신호를 주파수 도메인으로 변환하기 위한 시간 간격에 대응될 수 있다. 비트스트림 분석부(1230)는 현재 프레임의 윈도우 타입이 "긺(long)"을 나타내는 경우, 현재 프레임이 스테이셔너리 신호임을 결정할 수 있다. 비트스트림 분석부(1230)는 현재 프레임의 윈도우 타입이 "짧음(short)"를 나타내는 경우, 현재 프레임이 트랜지언트(transient) 신호임을 결정할 수 있다. 비트스트림 분석부(1230)는 프레임들이 스테이셔너리 신호인지 트랜지언트 신호인지에 대한 정보를 복원 방법 선택부(1240)로 전송할 수 있다.

버퍼 레벨은 프레임을 부호화하고 남은 가용 비트의 크기에 관한 정보이다. 버퍼 레벨은 Variable Bit Rate(VBR)을 이용하여 부호화할 때, 사용된다. 오리지널 오디오의 프레임이 변화가 없는 스테이셔너리 신호인 경우 오디오 부호화 장치는 적은 비트를 이용해서 오리지널 오디오를 부호화 할 수 있다. 하지만 오리지널 오디오의 프레임이 복잡한 트렌지언트 신호인 경우 오디오 부호화 장치는 많은 비트를 이용해서 오리지널 오디오를 부호화 할 수 있다. 오디오 부호화 장치는 스테이셔너리 신호를 부호화하여 남은 가용비트를 가지고 있다가 추후 트렌지언트 신호를 부호화할 때 사용할 수 있다. 즉 현재 프레임의 버퍼 레벨이 높다는 것은 현재 프레임이 스테이셔너리 신호라는 것을 의미한다. 또한 현재 프레임의 버퍼 레벨이 낮다는 것은 현재 프레임이 트렌지언트 신호라는 것을 의미한다. 비트스트림 분석부(1230)는 프레임들이 스테이셔너리 신호인지 트랜지언트 신호인지에 대한 정보를 복원 방법 선택부(1240)로 전송할 수 있다.

Temporal Noise Shaping (TNS) 정보는 프리에코(pre-echo)를 줄이기 위한 정보이다. TNS 정보에 의하면 시간 도메인에서 어택(attack) 신호의 시작 위치를 알 수 있다. 어택 신호는 갑자기 나타난 큰 소리를 의미한다. 비트스트림 분석부(1230)는 TNS에 의하여 어택 신호의 시작 위치를 알 수 있으므로, 시작 위치 이전은 스테이셔너리 신호임을 결정할 수 있다. 또한 비트스트림 분석부(1230)는 시작 위치 이후는 트렌지언트 신호임을 결정할 수 있다

Perceptual Noise Substitution(PNS) 정보는 주파수 도메인에서 홀(hole)이 발생한 부분에 대한 정보를 나타낸다. 홀은 비트스트림의 비트를 절약하기 위하여 스펙트럴 빈이 전송되지 않고, 복호화 시 임의의 노이즈로 채워지는 부분을 의미한다. 비트스트림 분석부(1230)는 홀의 위치에 대한 정보를 복원 방법 선택부(1240)로 전송할 수 있다.

복원 방법 선택부(1240)는 복호화된 오디오 신호 및 복호화된 파라미터의 특징을 수신할 수 있다. 복원 방법 선택부(1240)는 복호화된 오디오 신호를 복원할 방법을 선택할 수 있다. 복원 방법 선택부(1240)의 선택에 기초하여 적어도 하나의 복원부 중 하나에 의하여 복호화된 오디오 신호가 복원될 수 있다.

적어도 하나의 복원부는 제1 복원부(1250), 제 2 복원부(1260) 및 제 N 복원부 등이 있을 수 있다. 제 1 복원부(1250), 제 2 복원부(1260) 및 제 N 복원부 중 적어도 하나는 기계학습모델을 이용할 수 있다. 기계학습모델은 오리지널 오디오 신호, 복호화된 오디오 신호 및 복호화 파라미터 중 적어도 하나를 기계학습하여 생성된 모델일 수 있다. 제 1 복원부(1250), 제 2 복원부(1260) 및 제 N 복원부 중 적어도 하나는 데이터획득부(1251), 전처리부(1252) 및 결과제공부(1253)를 포함할 수 있다. 또한, 제 1 복원부(1250), 제 2 복원부(1260) 및 제 N 복원부 중 적어도 하나는 도 4 의 데이터학습부(410)를 포함할 수 있다. 제 1 복원부(1250), 제 2 복원부(1260) 및 제 N 복원부 중 적어도 하나는 복호화된 오디오 신호 및 복호화 파라미터 중 적어도 하나를 입력으로 수신할 수 있다.

본 개시의 일 실시예에 따르면, 복호화된 파라미터의 특징은 스펙트럴 빈이 정확하게 전송된 주파수 영역 및 스펙트럴 빈이 부정확하게 전송된 주파수 영역에 대한 정보일 수 있다. 현재 프레임에서 스펙트럴 빈이 정확하게 전송된 주파수 영역에 대해서, 복원 방법 선택부(1240)는 복호화된 파라미터 및 복호화된 오디오 신호 중 적어도 하나에 기초하여 복호화된 오디오 신호를 복원할 것을 결정할 수 있다. 복원 방법 선택부(1240)는 제 1 복원부(1250)를 이용하여 복호화된 오디오 신호를 복원할 것을 결정할 수 있다. 제 1 복원부(1250)는 기계학습모델을 이용하여 복원된 오디오 신호를 출력할 수 있다.

현재 프레임에서 스펙트럴 빈이 정확하게 전송되지 않은 주파수 영역에 대해서, 복원 방법 선택부(1240)는 대역폭 확장 기술을 이용하여 오디오 신호를 복원할 것을 결정할 수 있다. 대역폭 확장 기술에는 Spectral Band Replication(SBR)이 있다. 복원 방법 선택부(1240)는 제 2 복원부(1260)를 이용하여 복호화된 오디오 신호를 복원할 것을 결정할 수 있다. 제 2 복원부(1260)는 기계학습모델에 의하여 개선된 대역 확장 기술을 이용하여 복원된 오디오 신호를 출력할 수 있다.

본 개시의 다른 실시예에 따르면, 복호화된 파라미터의 특징은 프레임이 스테이셔너리 신호인지 트랜지언트 신호인지에 대한 정보일 수 있다. 프레임이 스테이셔너리 신호인 경우, 복원 방법 선택부(1240)는 스테이셔너리 신호를 위한 제 1 복원부(1250)를 이용할 수 있다. 프레임이 트렌지언트 신호인 경우, 복원 방법 선택부(1240)는 트렌지언트 신호를 위한 제 2 복원부(1260)를 이용할 수 있다. 제 1 복원부(1250) 또는 제 2 복원부(1260)는 복원된 오디오 신호를 출력할 수 있다.

본 개시의 다른 실시예에 따르면, 복호화된 파라미터의 특징은 홀의 위치에 대한 정보일 수 있다. 홀의 위치가 아닌 신호들로 복호화된 오디오 신호에 대해서, 복원 방법 선택부(1240)는 복호화된 파라미터 및 복호화된 오디오 신호에 기초하여 복호화된 오디오 신호를 복원할 것을 결정할 수 있다. 복원 방법 선택부(1240)는 제 1 복원부(1250)를 이용하여 복호화된 오디오 신호를 복원할 것을 결정할 수 있다. 제 1 복원부(1250)는 기계학습모델을 이용하여 복원된 오디오 신호를 출력할 수 있다. 홀의 위치의 신호들로 복호화된 오디오 신호에 대해서, 복원 방법 선택부(1240)는 홀의 위치의 신호들을 위한 제 2 복원부(1260)를 이용할 수 있다. 제 2 복원부(1260)는 기계학습모델을 이용하여 복원된 오디오 신호를 출력할 수 있다.

복원 방법 선택부(1240)에 의하여 오디오 신호의 특성에 따라 복호화된 오디오 신호의 복원 방법을 선택할 수 있으므로, 오디오 복원 장치(100)는 효율적으로 오디오 신호를 복원할 수 있다.

단계 1310 에서, 오디오 복원 장치(100)는 비트스트림을 복호화(decoding)하여 현재 프레임에 대한 복수의 복호화 파라미터들을 획득한다. 단계 1320에서 오디오 복원 장치(100)는 복수의 복호화 파라미터들에 기초하여 오디오 신호를 복호화한다. 단계 1330에서 오디오 복원 장치(100)는 복수의 복호화 파라미터들 중 적어도 하나 및 복호화된 오디오 신호에 기초하여 복수의 기계학습모델들 중 하나의 기계학습모델을 선택한다. 단계 1340에서 오디오 복원 장치(100)는 선택된 기계학습모델을 이용하여 복호화된 오디오 신호를 복원한다.

도 13에 의한 오디오 복원 장치(100) 및 도 3 에 의한 오디오 복원 장치(100)는 복호화된 오디오 신호의 음직을 향상시킬 수 있다는 점에서 공통점이 있다. 또한 도 13에 의한 오디오 복원 장치(100)는 복호화 파라미터에 덜 의존하므로 범용성이 높을 수 있다.

이하에서는 도 14 및 도 15와 함께 오디오 복원 장치(100)의 동작에 대하여 보다 자세히 설명한다.

코덱 정보 도출부(1210)는 비트스트림을 수신할 수 있다. 오디오 신호 복호화부(1220)는 비트스트림에 기초하여 복호화된 오디오 신호를 출력할 수 있다.

비트스트림 분석부(1230)는 비트스트림에 기초하여 복호화 파라미터의 특징을 획득할 수 있다. 예를 들어 비트스트림 분석부(1230)는 복수의 복호화 파라미터들 중 적어도 하나에 기초하여 대역폭 확장(band width extension)의 시작 주파수를 결정할 수 있다(1410 단계).

그래프(1460)를 참조하면, 오디오 부호화 장치는 주파수(f) 보다 작은 주파수 영역에 대한 스펙트럴 빈을 정확하게 전송할 수 있다. 하지만 주파수(f)보다 큰 주파수 영역은 인간이 듣기 힘든 영역이므로, 오디오 부호화 장치는 스펙트럴 빈을 전송하지 않거나 부실하게 전송할 수 있다. 코덱 정보 도출부(1210)는 스펙트럴 빈에 기초하여 대역폭 확장의 시작 주파수(f)를 결정할 수 있다. 코덱 정보 도출부(1210)는 대역폭 확장의 시작 주파수(f)를 복원 방법 선택부(1240)로 출력할 수 있다.

복원 방법 선택부(1240)는 시작 주파수 및 복호화된 오디오 신호의 주파수에 기초하여 복호화된 오디오 신호의 기계학습모델을 선택할 수 있다. 복원 방법 선택부(1240)는 복호화된 오디오 신호의 주파수와 시작 주파수(f)를 비교할 수 있다(1420 단계). 또한 복원 방법 선택부(1240)는 비교에 기초하여 복호화 방법을 선택할 수 있다.

복호화된 오디오 신호의 주파수가 시작 주파수(f)보다 작다면, 복원 방법 선택부(1240)는 소정의 기계학습모델을 선택할 수 있다. 소정의 기계학습모델은 복호화된 오디오 신호 및 오리지널 오디오 신호에 의하여 프리-트레이닝될 수 있다. 오디오 복원 장치(100)는 기계학습모델을 이용하여 복호화된 오디오 신호를 복원할 수 있다(1430 단계).

복호화된 오디오 신호의 주파수가 시작 주파수(f)보다 크다면, 복원 방법 선택부(1240)는 대역폭 확장 기술을 이용하여 복호화된 오디오 신호를 복원할 것을 결정할 수 있다. 예를 들어, 복원 방법 선택부(1240)는 대역폭 확장 기술이 적용된 기계학습모델을 선택할 수 있다. 기계학습모델은 대역폭 확장 기술과 관련된 파라미터, 복호화된 오디오 신호 및 오리지널 오디오 신호 중 적어도 하나를 이용하여 프리-트레이닝될 수 있다. 오디오 복원 장치(100)는 대역폭 확장 기술이 적용된 기계학습모델을 이용하여 복호화된 오디오 신호를 복원할 수 있다(1440 단계).

비트스트림 분석부(1230)는 비트스트림에 기초하여 복호화 파라미터의 특징을 획득할 수 있다. 예를 들어 비트스트림 분석부(1230)는 복수의 복호화 파라미터들 중 적어도 하나에 기초하여 현재 프레임의 게인(A)을 획득할 수 있다(1510 단계). 또한 비트스트림 분석부(1230)는 현재 프레임 및 현재 프레임에 인접한 프레임들의 게인들의 평균을 획득할 수 있다(1520 단계).

복원 방법 선택부(1240)는 현재 프레임의 게인과 상기 게인들의 평균값의 차이값을 임계값과 비교할 수 있다(1530 단계). 또한 복원 방법 선택부(1240)는 현재 프레임의 게인과 게인들의 평균값의 차이값이 임계값보다 큰 경우 트랜지언트(transient) 신호를 위한 기계학습모델을 선택할 수 있다. 또한 오디오 복원 장치(100)는 트랜지언트 신호를 위한 기계학습모델을 이용하여 복호화된 오디오 신호를 복원할 수 있다(1550 단계).

복원 방법 선택부(1240)는 현재 프레임의 게인과 상기 게인들의 평균값의 차이값이 임계값보다 작은 경우, 복수의 복호화 파라미터들에 포함된 윈도우 타입이 쇼트(short)인지를 결정할 수 있다(1540 단계). 또한 복원 방법 선택부(1240)는 윈도우 타입이 쇼트인 경우 트랜지언트 신호를 위한 기계학습모델을 선택할 수 있다(1550 단계). 복원 방법 선택부(1240)는 윈도우 타입이 쇼트가 아닌 경우, 스테이셔너리(stationary) 신호를 위한 기계학습모델을 선택할 수 있다. 오디오 복원 장치(100)는 스테이셔너리 신호를 위한 기계학습모델을 이용하여 복호화된 오디오 신호를 복원할 수 있다(1560 단계).

트랜지언트 신호를 위한 기계학습모델은 트렌지언트로 분류된 오리지널 오디오 신호 및 복호화된 오디오 신호에 기초하여 기계학습될 수 있다. 스테이셔너리 신호를 위한 기계학습모델은 스테이셔너리로 분류된 오리지널 오디오 신호 및 복호화된 오디오 신호에 기초하여 기계학습될 수 있다. 스테이셔너리 신호와 트랜지언트 신호는 서로 특성이 다르며, 오디오 복원 장치(100)는 스테이셔너리 신호와 트랜지언트 신호를 별도로 기계학습하므로 보다 효율적으로 복호화된 오디오 신호를 복원할 수 있다.

이제까지 다양한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.

Claims

비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득하는 단계;

상기 복수의 복호화 파라미터들에 포함되는 제 1 파라미터에 기초하여, 상기 복수의 복호화 파라미터들에 포함되며 상기 제 1 파라미터와 연관되는 제 2 파라미터의 특성을 결정하는 단계;

상기 복수의 복호화 파라미터들, 상기 제 2 파라미터 및 상기 제 2 파라미터의 특성 중 적어도 하나에 기계학습모델을 적용하여 복원된(reconstructed) 제 2 파라미터를 획득하는 단계; 및

상기 복원된 제 2 파라미터에 기초하여 오디오 신호를 복호화하는 단계를 포함하는 것을 특징으로 하는 오디오 복원 방법.
제 1 항에 있어서,

상기 오디오 신호를 복호화하는 단계는,

상기 제 2 파라미터의 특성에 기초하여 상기 복원된 제 2 파라미터를 보정하여 보정된 제 2 파라미터를 획득하는 단계; 및

상기 보정된 제 2 파라미터에 기초하여 오디오 신호를 복호화하는 단계를 포함하는 것을 특징으로 하는 오디오 복원 방법.
제 2 항에 있어서,

상기 제 2 파라미터의 특성을 결정하는 단계는,

상기 제 1 파라미터에 기초하여, 상기 제 2 파라미터의 범위를 결정하는 단계를 포함하고,

상기 보정된 제 2 파라미터를 획득하는 단계는,

상기 복원된 제 2 파라미터가 상기 범위에 있지 않을 경우, 상기 복원된 제 2 파라미터와 가장 가까운 상기 범위의 값을 보정된 제 2 파라미터로 획득하는 단계를 포함하는 것을 특징으로 하는 오디오 복원 방법.
제 1 항에 있어서,

상기 제 2 파라미터의 특성을 결정하는 단계는,

상기 제 1 파라미터 및 상기 제 2 파라미터 중 적어도 하나에 기초하여 프리-트레이닝된(pre-trained) 기계학습모델을 이용하여 상기 제 2 파라미터의 특성을 결정하는 단계를 포함하는 것을 특징으로 하는 오디오 복원 방법.
제 1 항에 있어서,

상기 복원된 제 2 파라미터를 획득하는 단계는,

상기 제 2 파라미터의 특성에 기초한 제 2 파라미터의 후보들을 결정하는 단계; 및

상기 기계학습모델에 기초하여 상기 제 2 파라미터의 후보들 중 하나를 선택하는 단계를 포함하는 것을 특징으로 하는 오디오 복원 방법.
제 1 항에 있어서,

상기 복원된 제 2 파라미터를 획득하는 단계는,

이전 프레임의 복수의 복호화 파라미터들 중 적어도 하나에 더 기초하여 상기 현재 프레임의 상기 복원된 제 2 파라미터를 획득하는 단계를 포함하는 것을 특징으로 하는 오디오 복원 방법.
제 1 항에 있어서,

상기 기계학습모델은 오리지널 오디오 신호 및 상기 복수의 복호화 파라미터들 중 적어도 하나를 기계학습하여 생성되는 것을 특징으로 하는 오디오 복원 방법.
비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득하는 단계;

상기 복수의 복호화 파라미터들에 기초하여 오디오 신호를 복호화하는 단계;

상기 복수의 복호화 파라미터들 중 적어도 하나 및 상기 복호화된 오디오 신호에 기초하여 복수의 기계학습모델들 중 하나의 기계학습모델을 선택하는 단계; 및

상기 선택된 기계학습모델을 이용하여 상기 복호화된 오디오 신호를 복원하는(reconstructing) 단계를 포함하는 것을 특징으로 하는 오디오 복원 방법.
제 8 항에 있어서,

상기 기계학습모델은 상기 복호화된 오디오 신호 및 오리지널 오디오 신호를 기계학습하여 생성되는 것을 특징으로 하는 오디오 복원 방법.
제 8 항에 있어서,

상기 기계학습모델을 선택하는 단계는,

상기 복수의 복호화 파라미터들 중 적어도 하나에 기초하여 대역폭 확장(band width extension)의 시작 주파수를 결정하는 단계; 및

상기 시작 주파수 및 상기 복호화된 오디오 신호의 주파수에 기초하여 상기 복호화된 오디오 신호의 기계학습모델을 선택하는 단계를 포함하는 것을 특징으로 하는 오디오 복원 방법.
제 8 항에 있어서,

상기 기계학습모델을 선택하는 단계는,

상기 복수의 복호화 파라미터들 중 적어도 하나에 기초하여 현재 프레임의 게인을 획득하는 단계;

상기 현재 프레임 및 상기 현재 프레임에 인접한 프레임들의 게인들의 평균을 획득하는 단계;

상기 현재 프레임의 게인과 상기 게인들의 평균값의 차이값이 임계값보다 큰 경우 트랜지언트(transient) 신호를 위한 기계학습모델을 선택하는 단계;

상기 현재 프레임의 게인과 상기 게인들의 평균값의 차이값이 임계값보다 작은 경우, 상기 복수의 복호화 파라미터들에 포함된 윈도우 타입이 쇼트(short)인지를 결정하는 단계;

상기 윈도우 타입이 쇼트인 경우 상기 트랜지언트 신호를 위한 기계학습모델을 선택하는 단계; 및

상기 윈도우 타입이 쇼트가 아닌 경우, 스테이셔너리(stationary) 신호를 위한 기계학습모델을 선택하는 단계를 포함하는 것을 특징으로 하는 오디오 복원 방법.
수신된 비트스트림을 저장하는 메모리; 및

상기 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득하고, 상기 복수의 복호화 파라미터들에 포함되는 제 1 파라미터에 기초하여, 상기 복수의 복호화 파라미터들에 포함되며 상기 제 1 파라미터와 연관되는 제 2 파라미터의 특성을 결정하고, 상기 복수의 복호화 파라미터들, 상기 제 2 파라미터 및 상기 제 2 파라미터의 특성 중 적어도 하나에 기계학습모델을 적용하여 복원된(reconstructed) 제 2 파라미터를 획득하고, 상기 복원된 제 2 파라미터에 기초하여 오디오 신호를 복호화하는 적어도 하나의 프로세서를 포함하는 것을 특징으로 하는 오디오 복원 장치.
제 12 항에 있어서,

상기 적어도 하나의 프로세서는,

상기 제 2 파라미터의 특성에 기초하여 상기 복원된 제 2 파라미터를 보정하여 보정된 제 2 파라미터를 획득하고, 상기 보정된 제 2 파라미터에 기초하여 오디오 신호를 복호화하는 것을 특징으로 하는 오디오 복원 장치.
제 12 항에 있어서,

상기 적어도 하나의 프로세서는,

상기 제 1 파라미터 및 상기 제 2 파라미터 중 적어도 하나에 기초하여 프리-트레이닝된(pre-trained) 기계학습모델을 이용하여 상기 제 2 파라미터의 특성을 결정하는 것을 특징으로 하는 오디오 복원 장치.
제 12 항에 있어서,

상기 적어도 하나의 프로세서는,

상기 제 2 파라미터의 특성에 기초한 제 2 파라미터의 후보들을 결정하고, 상기 기계학습모델에 기초하여 상기 제 2 파라미터의 후보들 중 하나를 선택하여 상기 복원된 제 2 파라미터를 획득하 는 단계를 포함하는 것을 특징으로 하는 오디오 복원 장치.
제 12 항에 있어서,

상기 적어도 하나의 프로세서는,

이전 프레임의 복수의 복호화 파라미터들 중 적어도 하나에 더 기초하여 상기 현재 프레임의 상기 복원된 제 2 파라미터를 획득하는 것을 특징으로 하는 오디오 복원 장치.
제 12 항에 있어서,

상기 적어도 하나의 프로세서는,

상기 기계학습모델은 오리지널 오디오 신호 및 상기 복수의 복호화 파라미터들 중 적어도 하나를 기계학습하여 생성되는 것을 특징으로 하는 오디오 복원 장치.
수신된 비트스트림을 저장하는 메모리; 및

상기 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득하고, 상기 복수의 복호화 파라미터들에 기초하여 오디오 신호를 복호화하고, 상기 복수의 복호화 파라미터들 중 적어도 하나 및 상기 복호화된 오디오 신호에 기초하여 복수의 기계학습모델들 중 하나의 기계학습모델을 선택하고, 상기 선택된 기계학습모델을 이용하여 상기 복호화된 오디오 신호를 복원하는(reconstructing) 적어도 하나의 프로세서를 포함하는 것을 특징으로 하는 오디오 복원 장치.
제 1 항 또는 제 8 항 중 어느 한 항의 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터로 판독 가능한 기록매체.