KR20210133551A - 적응형 주파수 복원 기법 기반 오디오 부호화 방법 - Google Patents

적응형 주파수 복원 기법 기반 오디오 부호화 방법 Download PDF

Info

Publication number
KR20210133551A
KR20210133551A KR1020200052278A KR20200052278A KR20210133551A KR 20210133551 A KR20210133551 A KR 20210133551A KR 1020200052278 A KR1020200052278 A KR 1020200052278A KR 20200052278 A KR20200052278 A KR 20200052278A KR 20210133551 A KR20210133551 A KR 20210133551A
Authority
KR
South Korea
Prior art keywords
coefficient
frequency
frequency spectrum
decoder
spectral
Prior art date
Application number
KR1020200052278A
Other languages
English (en)
Inventor
백승권
성종모
이미숙
이태진
임우택
장인선
최진수
박호종
Original Assignee
한국전자통신연구원
광운대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원, 광운대학교 산학협력단 filed Critical 한국전자통신연구원
Priority to KR1020200052278A priority Critical patent/KR20210133551A/ko
Publication of KR20210133551A publication Critical patent/KR20210133551A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

적응형 주파수 복원 기법 기반 오디오 부호화 방법이 개시된다. 본 발명의 일실시예에 따른 부호화기가 수행하는 부호화 방법은 오디오 신호를 변환함으로써 2D 체크 패턴에서의 주파수 스펙트럼 계수를 획득하는 단계; 상기 2D 체크 패턴에서의 주파수 스펙트럼 계수들을 i) 변환 코딩으로 처리되는 제1 주파수 스펙트럼 계수, ii) 복호화기에서 복원되는 제2 주파수 스펙트럼 계수 및 iii) 고대역 주파수에 대응하는 제3 주파수 스펙트럼 계수로 구분하는 단계; 상기 제1 주파수 스펙트럼 계수의 양자화 결과에 기초하여 상기 제2 주파수 스펙트럼 계수의 일부를 상기 제1 주파수 스펙트럼 계수로 변경하는 단계; 상기 제1 주파수 스펙트럼 계수를 변환 코딩으로 부호화하여 복호화기에 전송하는 단계; 파라메트릭(parametric) 코딩으로 상기 제2 주파수 스펙트럼 계수를 선택적으로 부호화하여 복호화기에 전송하는 단계; 상기 제3 주파수 스펙트럼 계수를 파라메트릭 코딩으로 부호화하여 복호화기에 전송하는 단계를 포함할 수 있다.

Description

적응형 주파수 복원 기법 기반 오디오 부호화 방법 {AUDIO CODING METHOD ASED ON ADAPTIVE SPECTRAL RECOVERY SCHEME}
본 발명은 오디오를 처리하는 방법에 관한 것으로, 적응형 주파수 복원 기법에 따라 오디오를 부호화하거나 복호화하는 기법에 관한 것이다.
오디오를 처리함에 있어서 변환 코딩(transform coding)은 매우 중요한 기법 중 하나이다. 변환 코딩은 인간 심리-음향 모델(human psycho-acoustic model)에 기초하여 주파수 스펙트럼 계수(spectral coefficient)를 양자화할 수 있다. 그리고, 변환 코딩은 코딩할 때의 비트율에 비례하는 사운드 품질을 가지는 출력 파형(waveform)을 복원함으로써, 고비트율에서 고품질의 코딩에 일반적으로 사용된다.
종래에 저비트율에서의 변환 코딩에 대한 문제를 해결하기 위해 파라메트릭 코딩(parametric coding)이 개발되었다. 파라메트릭 코딩은 파라메트릭 도메인에서 오디오 정보를 나타내며, 원래 사운드와 유사한 사운드 인지(sound perception)을 생성하기 위한 몇가지 파라미터들을 결정할 수 있다.
저비트율 코딩을 위해 파라메트릭 코딩은 개별적인 계수(individual coefficient) 대신에 파라미터화된 주파수 스펙트럼 정보(spectral information)을 처리함으로써 변환 코딩보다는 훨씬 효율적이다. 하지만, 파라메트릭 코딩은 고품질 코딩을 수행하는데 매우 제한적인데, 그 이유는 원본 주파수 스펙트럼이 한번 손실되면 오직 주어진 파라미터들을 가지고 고품질의 파형을 생성하기 위해 요구되는 정교한 주파수 스펙트럼 구조를 재구성하는 것이 불가능하기 때문이다.
기존의 뉴럴 네트워크에 기초하여 음성/오디오를 위한 주파수 스펙트럼 복원들이 수행될 수 있다. 대부분의 방식들은 블록 기반의 복원을 다루지만, 고주파수 대역의 블록들은 저주파수 대역에 기초하여 복원된다. 블록 기반의 주파수 스펙트럼 복원의 성능은 파라메트릭 고주파수 대역의 코딩에서 정확한 복원이 도움이 되는 추가적인 파라미터들이 제공됨에도 불구하고 변환 코딩의 성능보다 낮다.
따라서, 고비트율에서 변환 코딩의 성능을 향상시키기 위한 방법이 필요하다.
본 발명은 복원이 어려운 주파수를 미리 식별하여 변환 코딩으로 부호화함으로써 고비트율에서 변환 코딩의 성능을 향상시키는 방법 및 장치를 제공한다.
본 발명의 일실시예에 따른 부호화기가 수행하는 부호화 방법은 오디오 신호를 변환함으로써 2D 체크 패턴에서의 주파수 스펙트럼 계수를 획득하는 단계; 상기 2D 체크 패턴에서의 주파수 스펙트럼 계수들을 i) 변환 코딩으로 처리되는 제1 주파수 스펙트럼 계수, ii) 복호화기에서 복원되는 제2 주파수 스펙트럼 계수 및 iii) 고대역 주파수에 대응하는 제3 주파수 스펙트럼 계수로 구분하는 단계; 상기 제1 주파수 스펙트럼 계수의 양자화 결과에 기초하여 상기 제2 주파수 스펙트럼 계수의 일부를 상기 제1 주파수 스펙트럼 계수로 변경하는 단계; 상기 제1 주파수 스펙트럼 계수를 변환 코딩으로 부호화하여 복호화기에 전송하는 단계; 파라메트릭(parametric) 코딩으로 상기 제2 주파수 스펙트럼 계수를 선택적으로 부호화하여 복호화기에 전송하는 단계; 상기 제3 주파수 스펙트럼 계수를 파라메트릭 코딩으로 부호화하여 복호화기에 전송하는 단계를 포함할 수 있다.
상기 설정하는 단계는, 상기 제1 주파수 스펙트럼 계수가 양자화되는 결과에 기초하여 상기 부호화기에서 상기 제2 주파수 스펙트럼 계수가 상기 제1 주파수 스펙트럼 계수로 설정할 수 있다.
주파수 구간에 따라 상기 제2 주파수 스펙트럼 계수를 복수의 블록으로 그룹화하고, 각 블록의 양자화 에너지를 계산하는 단계를 더 포함하고, 상기 제2 주파수 스펙트럼 계수를 선택적으로 부호화하여 복호화기에 전송하는 단계는, 상기 계산된 양자화 에너지에 기초하여 파라메트릭 코딩으로 상기 블록들을 부호화하고 복호화기에 송신할 수 있다.
상기 제3 주파수 스펙트럼 계수를 파라메트릭 코딩으로 부호화하여 복호화기에 전송하는 단계는, 상기 제3 주파수 스펙트럼 계수의 크기(magnitude)를 부호화하여 상기 복호화기에 전송할 수 있다.
본 발명의 일실시예에 따른 복호화기가 수행하는 복호화 방법은 부호화기에서 전송된 제1 주파수 스펙트럼 계수를 변환 코딩으로 복호화하는 단계; 상기 부호화기에서 전송된 제2 주파수 스펙트럼 계수 및 제3 주파수 스펙트럼 계수를 파라메트릭(parametric) 코딩으로 복호화하는 단계; 상기 제1 주파수 스펙트럼 계수의 복호화된 결과를 이용하여 상기 제2 주파수 스펙트럼 계수의 크기(magnitude)를 뉴럴 네트워크로 복원하는 단계; 상기 복호화된 제2 주파수 스펙트럼 계수의 부호를 상기 복원한 결과에 삽입하는 단계; 상기 부호화기에서 전송된 제3 주파수 스펙트럼 계수를 파라메트릭 코딩으로 복호화하는 단계; 상기 복호화된 제1 주파수 스펙트럼 계수, 상기 복호화된 제3 주파수 스펙트럼 계수 및 상기 뉴럴 네트워크로 복원한 결과를 결합하는 단계; 상기 결합한 결과를 역변환함으로써 복원된 오디오 신호를 출력하는 단계를 포함할 수 있다.
상기 전송된 제1 주파수 스펙트럼 계수는, 상기 제1 주파수 스펙트럼 계수가 양자화되는 결과에 기초하여 상기 부호화기에서 상기 제2 주파수 스펙트럼 계수가 상기 제1 주파수 스펙트럼 계수로 설정될 수 있다.
상기 복호화된 제3 주파수 스펙트럼 계수는, 저대역의 부호를 복사함으로써 상기 제3 주파수 스펙트럼 계수의 부호가 결정될 수 있다.
상기 복원하는 단계는, 상기 부호화기에서 전송되지 않은 제2 주파수 스펙트럼 계수의 크기를 0으로 결정하고, 상기 복호화된 제2 스펙트럼 계수의 크기를 사전 정보로 상기 뉴럴 네트워크에 입력함으로써 상기 제2 스펙트럼 계수의 크기를 복원할 수 있다.
상기 복원한 결과에 삽입하는 단계는, 상기 제2 주파수 스펙트럼 계수의 부호를 랜덤으로 생성하고, 생성된 부호를 상기 제2 주파수 스펙트럼 계수에 추가할 수 있다.
본 발명의 일실시예에 따른 부호화 방법을 수행하는 부호화기에 있어서, 상기 부호화기는 프로세서를 포함하고, 상기 프로세서는, 오디오 신호를 변환함으로써 2D 체크 패턴에서의 주파수 스펙트럼 계수를 획득하고, 상기 2D 체크 패턴에서의 주파수 스펙트럼 계수들을 i) 변환 코딩으로 처리되는 제1 주파수 스펙트럼 계수, ii) 복호화기에서 복원되는 제2 주파수 스펙트럼 계수 및 iii) 고대역 주파수에 대응하는 제3 주파수 스펙트럼 계수로 구분하고, 상기 제1 주파수 스펙트럼 계수의 양자화 결과에 기초하여 상기 제2 주파수 스펙트럼 계수의 일부를 상기 제1 주파수 스펙트럼 계수로 변경하고, 상기 제1 주파수 스펙트럼 계수를 변환 코딩으로 부호화하여 복호화기에 전송하고, 파라메트릭(parametric) 코딩으로 상기 제2 주파수 스펙트럼 계수를 선택적으로 부호화하여 복호화기에 전송하고, 상기 제3 주파수 스펙트럼 계수를 파라메트릭 코딩으로 부호화하여 복호화기에 전송할 수 있다.
상기 부호화기는, 상기 제1 주파수 스펙트럼 계수가 양자화되는 결과에 기초하여 상기 부호화기에서 상기 제2 주파수 스펙트럼 계수가 상기 제1 주파수 스펙트럼 계수로 설정할 수 있다.
상기 프로세서는, 주파수 구간에 따라 상기 제2 주파수 스펙트럼 계수를 복수의 블록으로 그룹화하고, 각 블록의 양자화 에너지를 계산하고, 상기 계산된 양자화 에너지에 기초하여 파라메트릭 코딩으로 상기 블록들을 부호화하고 복호화기에 송신할 수 있다.
상기 프로세서는, 상기 제3 주파수 스펙트럼 계수의 크기(magnitude)를 부호화하여 상기 복호화기에 전송할 수 있다.
본 발명의 일실시예에 따른 복호화 방법을 수행하는 복호화기에 있어서, 상기 복호화기는 프로세서를 포함하고, 상기 프로세서는, 부호화기에서 전송된 제1 주파수 스펙트럼 계수를 변환 코딩으로 복호화하고, 상기 부호화기에서 전송된 제2 주파수 스펙트럼 계수 및 제3 주파수 스펙트럼 계수를 파라메트릭(parametric) 코딩으로 복호화하고, 상기 제1 주파수 스펙트럼 계수의 복호화된 결과를 이용하여 상기 제2 주파수 스펙트럼 계수의 크기(magnitude)를 뉴럴 네트워크로 복원하고, 상기 복호화된 제2 주파수 스펙트럼 계수의 부호를 상기 복원한 결과에 삽입하고, 상기 부호화기에서 전송된 제3 주파수 스펙트럼 계수를 파라메트릭 코딩으로 복호화하고, 상기 복호화된 제1 주파수 스펙트럼 계수, 상기 복호화된 제3 주파수 스펙트럼 계수 및 상기 뉴럴 네트워크로 복원한 결과를 결합하고, 상기 결합한 결과를 역변환함으로써 복원된 오디오 신호를 출력할 수 있다.
상기 전송된 제1 주파수 스펙트럼 계수는, 상기 제1 주파수 스펙트럼 계수가 양자화되는 결과에 기초하여 상기 부호화기에서 상기 제2 주파수 스펙트럼 계수가 상기 제1 주파수 스펙트럼 계수로 설정될 수 있다.
상기 복호화된 제3 주파수 스펙트럼 계수는, 저대역의 부호를 복사함으로써 상기 제3 주파수 스펙트럼 계수의 부호가 결정될 수 있다.
상기 프로세서는, 상기 부호화기에서 전송되지 않은 제2 주파수 스펙트럼 계수의 크기를 0으로 결정하고, 상기 복호화된 제2 스펙트럼 계수의 크기를 사전 정보로 상기 뉴럴 네트워크에 입력함으로써 상기 제2 스펙트럼 계수의 크기를 복원할 수 있다.
상기 프로세서는, 상기 제2 주파수 스펙트럼 계수의 부호를 랜덤으로 생성하고, 생성된 부호를 상기 제2 주파수 스펙트럼 계수에 추가할 수 있다.
본 발명의 일실시예에 따른 부호화기에서 수행하는 적응형 주파수 스펙트럼 복원 기법의 부호화 방법에 있어서, 오디오 신호를 구성하는 복수의 프레임을 식별하는 단계; 상기 프레임으로부터 시간-주파수 도메인에서 2차원의 행렬로 나타나는 주파수 스펙트럼 계수를 생성하는 단계; 상기 주파수 스펙트럼 계수를 변환 코딩 행렬 및 복원 행렬로 분할하는 단계; 상기 복원 행렬의 엘리먼트와 인접하는 상기 변환 코딩의 엘리먼트들의 양자화 결과에 따라 상기 복원 행렬의 엘리먼트를 상기 변환 코딩 행렬로 할당하는 단계; 상기 변환 코딩 행렬을 변환 코딩으로 부호화하는 단계; 및 파라메트릭(parametric) 코딩으로 상기 복원 행렬을 선택적으로 부호화하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 복호화기에서 수행하는 적응형 주파수 스펙트럼 복원 기법의 복호화 방법에 있어서, 부호화기로부터 수신한 변환 코딩 행렬을 변환 코딩으로 복호화하는 단계; 부호화기로부터 수신한 복원 행렬의 일부를 파라메트릭(parametric) 코딩으로 복호화하는 단계; 상기 부호화기로부터 수신되지 않은 복원 행렬의 일부의 크기를 결정하고, 상기 복호화된 복원 행렬의 크기 및 상기 복호화된 변환 코딩 행렬의 크기를 신경망에 입력하여 복원 행렬의 크기를 복원하는 단계; 상기 복원 행렬의 부호를 생성하여 상기 복원 행렬의 크기에 추가하는 단계; 및 상기 복원 행렬과 변환 코딩 행렬을 역변환하여 오디오 신호를 생성하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따르면 복원이 어려운 주파수를 미리 식별하여 변환 코딩으로 부호화함으로써 고비트율에서 변환 코딩의 성능을 향상시킬 수 있다.
도 1은 본 발명의 일실시에에 따른 부호화기와 복호화기를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 주파수-시간 도메인에서 2D 체크 패턴에서의 주파수 스펙트럼 계수를 도시한 도면이다.
도 3는 본 발명의 일실시예에 따른 주파수-시간 도메인에서 2D 체크 패턴에서의 주파수 스펙트럼 계수의 재배열 과정을 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 주파수-시간 도메인에서 2D 체크 패턴에서의 주파수 스펙트럼 계수로 구성되는 블록을 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 부호화기와 복호화기의 동작을 나타낸 도면이다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일실시에에 따른 부호화기와 복호화기를 도시한 도면이다.
본 발명의 부호화 방법 및 복호화 방법 각각을 수행하는 부호화기(101) 및 복호화기(102)는 각각은 프로세서에 대응한다. 이 때, 부호화기(101) 및 복호화기(102)는 동일한 프로세서에 대응하거나 서로 다른 프로세서에 대응할 수 있다.
도 1을 참조하면, 부호화기(101)는 오디오 신호를 처리하여 비트스트림으로 변환하고 이를 복호화기(102)로 전송한다. 복호화기(102)는 수신한 비트스트림을 이용하여 오디오 신호를 복원한다.
구체적으로, 부호화기(101) 및 복호화기(102)는 오디오 신호를 프레임 단위로 처리한다. 오디오 신호는 시간 도메인의 오디오 샘플로 구성되며, 오디오 신호의 프레임은 일정한 시간 간격에 포함되는 복수의 오디오 샘플로 구성된다.
본 발명은 고비트율(high bit-rate)에서 변환 코딩의 성능을 향상시키기 위한 방법에 관한 것이다. 본 발명은 뉴럴 네트워크(neural network)에 의한 주파수 스펙트럼 복원과 변환 코딩을 이용한다.
오디오 신호의 주파수 스펙트럼 계수는 서브 프레임에 변환을 적용한 이후에 2D 시간-주파수 도메인에서 표현된다. 부호화 영역에서 2D 체크 패턴에서 선택된 주파수 스펙트럼 계수의 일부분이 일반적인 변환 코딩에 의해 양자화되고, 코딩된다.
복호화 단계에서, 누락된 주파수 스펙트럼 계수들의 크기(magnitude)들이 뉴럴 네트워크 중 하나인 CNN(convolution neural network)에 의해 복원될 수 있다. 부호화기(101)는 주파수 스펙트럼 계수들의 일부만 복호화기(102)로 전송한다. 그러면, 복호화기(102)는 전송되지 않은 누락된 주파수 스펙트럼 계수를 복원할 수 있다. 이러한 과정은 주파수 스펙트럼 계수들 간에 강한 상관 관계가 존재하기 때문에 진행될 수 있다.
본 발명은 주파수 스펙트럼 계수의 크기만 복원하고, 주파수 스펙트럼 계수의 부호(sign)는 개별적으로 처리한다. 데이터의 상관성을 증가시키기 위해, 본 발명은 서브 프레임 기반의 변환을 적용한다. 그 결과, 주파수 스펙트럼 계수들은 2D 시간-주파수 도메인에서 표현되며, 주파수 스펙트럼 계수의 복원은 시간과 주파수 스펙트럼에서 데이터 상관성을 이용할 수 있다.
본 발명은 주파수 스펙트럼 계수의 복원 성능을 높이기 위하여, 복원이 어려운 주파수 스펙트럼 계수를 식별하여 변환 코딩으로 부호화되도록 처리한다. 따라서, 복원이 어려운 주파수 스펙트럼 계수의 배치에 따라 복원된 주파수 스펙트럼 계수의 패턴이 다양할 수 있다.
그리고, 스펙트럼 특징에 따라 부호화기(101)는 복원되는 주파수 스펙트럼 계수와 연관된 사전 정보를 선택적으로 복호화기(102)에 송신할 수 있다. 사전 정보는 뉴럴 네트워크의 복원 성능을 높이는데 이용된다. 사전 정보는 복원된 크기의 부호를 제공한다. 본 발명에서 고대역의 주파수 스펙트럼 계수의 크기는 블록 단위로 복원되므로 비트율을 감소시킬 수 있다.
도 2는 본 발명의 일실시예에 따른 주파수-시간 도메인에서 2D 체크 패턴에서의 주파수 스펙트럼 계수를 도시한 도면이다.
부호화기는 오디오 신호를 변환함으로써 2D 체크 패턴에서의 주파수 스펙트럼 계수를 획득할 수 있다. 구체적으로, 부호화기는 MDCT(modified discrete cosine transform) 변환을 통해 오디오 신호를 2D 체크 패턴의 MDCT 계수를 생성할 수 있다. 이 때, 부호화기는 오디오 신호를 MDCT 처리하여 획득한 MDCT 계수를 주파수 스펙트럼 계수로 이용할 수 있다. 부호화기는 오디오 신호에서 주파수 스펙트럼 계수를 추출하는 방법은 MDCT로 한정되지 않는다.
본 발명은 오디오 신호를 구성하는 프레임의 길이가 2048 샘플들(samples)이고, 서브 프레임의 길이가 1024 샘플들인 경우를 가정한다. MDCT은 50% 오버랩으로 각각의 서브 프레임에 적용된다. 도 2를 참조하면, 각각의 프레임에 대해, MDCT 계수들은 시간-주파수 도메인에서 X[k][m](201)로 정의되는 1024x2 사이즈의 행렬로 표현될 수 있다. X[k][m](201)은 오디오 신호의 프레임을 변환함으로써 나타나는 2D 체크 패턴의 주파수 스펙트럼 계수를 의미한다.
도 2를 참조하면, k는 0 ≤ k ≤ 1024의 주파수 인덱스를 나타내고, m은 서브 프레임 인덱스를 나타낸다. m이 0, 1인 경우, m은 현재 서브 프레임을 나타내고, m≤-1인 경우, m은 이전 서브 프레임들을 나타낸다.
도 2를 참조하면, XR[k][m](202)은 복호화기에서 크기가 복원되는 주파수 스펙트럼 계수를 나타낸다. XQ[k][m](203)은 변환 코딩으로 부호화되는 주파수 스펙트럼 계수를 의미한다. XQ[k][m](203)는 변환 코딩으로 양자화된다.
주파수 대역에서 인간들의 인식(human perception)은 낮은 주파수 스펙트럼의 왜곡에도 불구하고 매우 민감하기 때문에, 저주파수 대역에서 주파수 스펙트럼 복원이 원하는 정확도를 가지는 것이 쉽지 않을 수 있다. 그래서, 본 발명은 kL Hz 이상의 고주파수 대역에 대해 적용되는 것으로 가정한다. 그리고, kL Hz 보다 낮은 주파수 대역의 주파수 스펙트럼 계수는 XQ[k][m] (203)으로 구분되고, 일반적인 변환 코딩이 적용될 수 있다. kL은 본 발명의 주파수 스펙트럼 복원 기법이 적용되는 기준 주파수를 나타낸다.
그러나, 도 2에서 kH Hz보다 큰 고대역의 주파수 스펙트럼 계수는 XH[k][m](204)으로 구분되고, 본 발명의 주파수 스펙트럼 복원 기법이 적용되지 않고 파라메트릭(parametric) 코딩으로 부호화된다. kH도 본 발명의 주파수 스펙트럼 복원 기법이 적용되는 기준 주파수를 나타낸다. 일례로, 본 발명에서 파라메트릭 코딩으로 오토인코더(autoencoder)가 이용될 수 있다.
구체적으로, 인간들의 인식은 고대역에서 민감하지 않기 때문에 고대역에 대응하는 주파수 스펙트럼 계수에 많은 코딩 비트를 할당하는 것은 비효율적이다. 따라서, 본 발명에서 고대역에 대응하는 주파수 스펙트럼 계수 XH[k][m](204)은 적은 수의 비트로 부호화된다. 구체적으로, XH[k][m](204)의 크기(|XH[k][m]|)만 파라메트릭 코딩으로 부호화되어 복호화기로 전송되고, XH[k][m](204)의 부호는 복호화기로 전송되지 않는다.
그리고, 복호화기에서 XH[k][m](204)의 크기(|XH[k][m]|)가 파라메트릭 코딩으로 복호화된다. 일례로, 오토인코더로 부호화된 경우, 복호화기는 양자화된 잠재 벡터를 통해 XH[k][m](204)의 크기(|XH[k][m]|)를 생성할 수 있다. 복호화기는 저대역의 부호를 복사함으로써 XH[k][m](204)의 부호를 결정한다. 복호화기는 intelligent gap filling(IGF)을 통해 고대역에 대응하는 주파수 스펙트럼 계수인 XH[k][m](204)를 복호화할 수 있다.
부호화기는 오디오 신호의 서브 프레임을 MDCT로 변환하여 획득한 주파수 스펙트럼 계수를 기준 주파수 구간(kL-kH) 보다 고대역의 주파수 스펙트럼 계수를 제3 스펙트럼 계수(XH[k][m](204))로 구분하고, 기준 주파수 구간(kL-kH) 보다 저대역의 주파수 스펙트럼 계수를 제1 스펙트럼 계수(XQ[k][m] (203))로 구분할 수 있다.
그리고, 부호화기는 기준 주파수 구간(kL-kH)에 포함되는 주파수 스펙트럼 계수를 2D 체크 패턴에 따라 변환 코딩으로 처리되는 제1 스펙트럼 계수(XQ[k][m] (203))와 파라메트릭 코딩으로 처리되는 제2 스펙트럼 계수(XR[k][m](202))로 구분한다.
변환 코딩으로 처리되는 제1 스펙트럼 계수(XQ[k][m] (203))는 변환 코딩으로 양자화하여 복호화기에 송신되는 데이터이고, 제2 스펙트럼 계수(XR[k][m](202))는 복호화기에서 신경망을 통해 복원하는 데이터이다.
부호화기에서 2D 체크 패턴의 형태로 제1 스펙트럼 계수(XQ[k][m] (203))와 제2 스펙트럼 계수(XR[k][m](202))를 구분하기 때문에, 복호화기에서는 제1 스펙트럼 계수(XQ[k][m] (203))를 이용하여 부호화기로부터 전송되지 않은 제2 스펙트럼 계수(XR[k][m](202))을 복원할 수 있다.
부호화기는 2D 체크 패턴이 아닌 다른 패턴으로 제1 스펙트럼 계수(XQ[k][m] (203))와 제2 스펙트럼 계수(XR[k][m](202))를 구분할 수 있으나, 이 경우 패턴에 대한 정보를 별도로 복호화기에 제공해야 하므로 추가적인 비트가 소모된다.
또는, 본 발명에서 변환 코딩으로 처리되는 제1 스펙트럼 계수(XQ[k][m] (203))는 변환 코딩 행렬, 파라메트릭 코딩으로 처리되는 제2 스펙트럼 계수(XR[k][m](202))는 복원 행렬, 고대역에 대응하는 고대역에 대응하는 제3 주파수 스펙트럼 계수(XH[k][m](204))는 고대역 행렬로 정의될 수 있다. 각 행렬은 엘리먼트(element)들을 포함할 수 있다.
도 3는 본 발명의 일실시예에 따른 주파수-시간 도메인에서 2D 체크 패턴에서의 주파수 스펙트럼 계수의 재배열 과정을 도시한 도면이다.
복호화기는 주파수 스펙트럼 계수 간의 상관관계를 이용하여 주파수 스펙트럼 계수를 복원하기 때문에, 2D 체크 패턴의 주파수 스펙트럼 계수에서 양자화로 값이 0이 되는 제1 스펙트럼 계수(XQ[k][m])로 둘러싸인 제2 주파수 스펙트럼 계수의 크기(|XR[k][m]|)가 클수록, 정확하게 복원하는 것이 거의 불가능하다. 그리고, 복호화기에서 이용되는 뉴럴 네트워크가 학습한 확률 분포에 기초할 때, 제2 주파수 스펙트럼 계수의 크기(|XR[k][m]|)가 작을수록 복원될 가능성도 높다.
따라서, 부호화기는 복원이 어려운 주파수 스펙트럼 계수에 대한 비효율적인 복원을 방지하기 위해, 제1 주파수 스펙트럼 계수(XQ[k][m])가 양자화되는 결과에 기초하여 미리 복원이 어려운 제2 주파수 스펙트럼 계수(XR[k][m])를 식별하고, 식별된 제2 주파수 스펙트럼 계수를 제1 주파수 스펙트럼 계수(XQ[k][m])로 재할당한다.
구체적으로, 부호화기는 2D 체크 패턴의 제1 주파수 스펙트럼 계수(XQ[k][m]) 중에서 변환 코딩으로 양자화된 값이 0이 되는 제1 주파수 스펙트럼 계수(XQ[k][m])로 둘러싸인 제2 주파수 스펙트럼 계수(XR[k][m])를 복원이 어려운 주파수 스펙트럼 계수로 판단하고, 복원이 어렵다고 판단된 제2 주파수 스펙트럼 계수(XR[k][m])를 변환 코딩으로 처리되는 제1 주파수 스펙트럼 계수(XQ[k][m])로 변경한다.
도 3의 (a)는 재배열 과정 전 기준 주파수 구간에 대응하는 주파수 스펙트럼 계수를 도시한 도면이다. 도 3의 (a)에서 301은 이전 프레임, 302는 현재 프레임을 의미한다. 그리고, 도 3의 (a)에서 제1 주파수 스펙트럼 계수(XQ[k][m])는 변환 코딩에 의한 양자화로 값이 0인 제1 주파수 스펙트럼 계수(305)와 값이 0이 아닌 제1 주파수 스펙트럼 계수로 나누어질 수 있다.
도 3의 (b)는 재배열 과정으로 제2 주파수 스펙트럼 계수의 일부가 제1 주파수 스펙트럼으로 변경된 것을 도시한 도면이다. 도 3의 (a)에서 303은 이전 프레임, 304는 현재 프레임을 의미한다.
도 3의 (a)를 참조하면, 제2 주파수 스펙트럼 계수(XR[k][m])의 일부(310, 320)가 양자화로 0이되는 제1 주파수 스펙트럼 계수(XQ[k][m])들로 둘러싸여 있기 때문에, 부호화기는 도 3의 (b)에서처럼 제2 주파수 스펙트럼 계수(XR[k][m])의 일부(310, 320)를 제1 주파수 스펙트럼 계수(XQ[k][m])로 제1 주파수 스펙트럼 계수(XQ[k][m])로 재할당 수 있다.
제1 주파수 스펙트럼 계수로 재할당된 제2 주파수 스펙트럼 계수는 변환 코딩으로 부호화되어 복호화기로 전송된다. 재배열 과정 후, MDCT로 변환된 2D 체크 패턴의 주파수 스펙트럼 계수는 일부분이 변형된 다양한 형태의 패턴일 수 있다. 재배열 과정은 양자화된 제1 스펙트럼 계수만을 이용하기 때문에, 제2 스펙트럼 계수의 최종 패턴에 관한 부가 정보는 복호화기로 전송될 필요가 없다.
본 발명의 재배열 과정은 경우에 따라 불필요하게 수행될 수 있으나, 결과적으로 향상된 성능을 보인다.
도 4는 본 발명의 일실시예에 따른 주파수-시간 도메인에서 2D 체크 패턴에서의 주파수 스펙트럼 계수로 구성되는 블록을 도시한 도면이다.
본 발명에서 이용되는 파라메트릭 코딩의 예로 오토인코더가 포함될 수 있다. 오토인코더는 블록 단위로 제2 주파수 스펙트럼 계수를 복호화한다. 도 4를 참조하면, 재배열 과정을 거친 주파수 스펙트럼 계수에서 기준 주파수 구간(kL-kH)에 대응하는 주파수 스펙트럼 계수는 복수의 블록(401-403)으로 그룹화될 수 있다.
도 4에서 m은 서브 프레임의 인덱스를 의미하고, k는 주파수 인덱스를 의미한다. 부호화기는 오토인코더를 통해 각 블록(401-403)에 포함되는 제2 주파수 스펙트럼 계수를 선택적으로 잠재 벡터로 변환하고, 양자화된 잠재 벡터를 복호화기로 송신한다. 일례로, 블록(401, 402)는 블록(403)보다 짧은 영역이지만 더 많은 정보량을 포함하기 때문에 오토인코더를 통한 부호화에 있어서 더 많은 비트가 할당된다. 예를 들어, 블록(403)은 10-bit가 할당되고, 블록(401, 402)에 12-bit가 할당될 수 있다.
구체적으로, 블록에 포함된 양자화된 제1 주파수 스펙트럼 계수의 에너지가 0에 가까운 경우, 그 블록에 포함된 제2 주파수 스펙트럼 계수는 복호화기로 전송되지 않는다. 왜냐하면, 블록에 포함된 양자화된 제1 주파수 스펙트럼 계수의 에너지가 0에 가까울수록 그 블록에 포함된 제2 주파수 스펙트럼 계수의 크기도 0에 가까울 확률이 높고, CNN으로 인한 복원이 쉽게 이루어질 수 있기 때문이다.
이를 통해, 불필요하게 제2 주파수 스펙트럼 계수를 사전 정보로 전송하기 위해 부호화에 이용되는 비트의 수를 줄일 수 있다. 그리고, 블록에 포함된 양자화된 제1 주파수 스펙트럼 계수의 에너지가 0에 가까운 경우, 그 블록에 포함된 제2 주파수 스펙트럼 계수의 부호도 복호화기로 전송되지 않고, 복호화기에서 랜덤으로 결정된다. 랜덤으로 결정되더라도 전송되지 않은 제2 주파수 스펙트럼 계수의 크기가 거의 0이기 때문에 성능에 영향을 주지 않기 때문이다.
즉, 부호화기는 블록의 특성에 따라 선택적으로 제2 주파수 스펙트럼 계수를 복호화기에 사전 정보로 전송한다.
도 5는 본 발명의 일실시예에 따른 부호화기와 복호화기의 동작을 나타낸 도면이다.
단계(511)에서, 부호화기(510)는 오디오 신호를 변환함으로써 2D 체크 패턴에서의 주파수 스펙트럼 계수를 획득할 수 있다. 구체적으로, 부호화기(510)는 MDCT 통해 오디오 신호를 2D 체크 패턴의 MDCT 계수를 생성할 수 있고, 생성된 MDCT 계수를 주파수 스펙트럼 계수로 이용할 수 있다.
단계(512)에서, 부호화기(510)는 오디오 신호의 서브 프레임을 MDCT로 변환하여 획득한 주파수 스펙트럼 계수를 기준 주파수 구간 보다 고대역의 주파수 스펙트럼 계수를 제3 스펙트럼 계수(XH)로 구분하고, 기준 주파수 구간 보다 저대역의 주파수 스펙트럼 계수를 제1 스펙트럼 계수(XQ)로 구분할 수 있다. 기준 주파수 구간은 인간들의 인식 범위를 고려하여 임의로 미리 결정될 수 있다.
그리고, 부호화기(510)는 기준 주파수 구간에 포함되는 주파수 스펙트럼 계수를 2D 체크 패턴에 따라 변환 코딩으로 처리되는 제1 스펙트럼 계수(XQ)와 파라메트릭 코딩으로 처리되는 제2 스펙트럼 계수(XQ)로 구분한다.
단계(513)에서, 부호화기(510)는 부호화기(510)는 2D 체크 패턴의 제1 주파수 스펙트럼 계수(XQ) 중에서 변환 코딩으로 양자화된 값이 0이 되는 제1 주파수 스펙트럼 계수(XQ)로 둘러싸인 제2 주파수 스펙트럼 계수(XR)를 복원이 어려운 주파수 스펙트럼 계수로 판단하고, 복원이 어렵다고 판단된 제2 주파수 스펙트럼 계수(XR)를 변환 코딩으로 처리되는 제1 주파수 스펙트럼 계수(XQ)로 변경하여 제2 주파수 스펙트럼 계수(XR)의 패턴을 적응형으로 만든다.
단계(514)에서, 부호화기(510)는 제1 주파수 스펙트럼 계수(XQ)를 변환 코딩으로 부호화하여 복호화기(520)에 전송한다.
단계(515)에서, 부호화기(510)는 기준 주파수 구간에 포함되고 재배열 과정을 거친 주파수 스펙트럼 계수를 주파수 구간에 따라 복수의 블록으로 그룹화할 수 있다. 그리고, 부호화기(510)는 각 블록에 포함되는 양자화된 제1 주파수 스펙트럼 계수(XQ)의 에너지를 계산하여 선택적으로 제2 주파수 스펙트럼 계수(XR)를 파라메트릭 코딩을 통해 부호화하여 복호화기(520)에 전송한다.
구체적으로, 특정 블록에 포함되는 양자화된 제1 주파수 스펙트럼 계수(XQ)의 에너지가 기준 에너지 보다 큰 경우, 부호화기(510)는 오토인코더를 통해 그 특정 블록에 포함되는 제2 주파수 스펙트럼 계수(XR)를 부호화하여 복호화기(520)에 전송한다. 이 때, 부호화기(510)는 제2 주파수 스펙트럼 계수(XR)의 크기(|XR|)만을 부호화하는 것이 아니라 제2 주파수 스펙트럼 계수(XR)를 오토인코더로 부호화함으로써 복호화기(520)에 제2 주파수 스펙트럼 계수(XR)의 크기를 사전 정보로 제공함과 동시에 제2 주파수 스펙트럼 계수(XR)의 부호도 전송할 수 있다.
본 발명의 부호화기(510)는 오토인코더를 이용하기 때문에 적은 비용으로 제2 주파수 스펙트럼 계수(XR)를 복호화할 수 있고, 복호화기(520)에서 제2 주파수 스펙트럼 계수(XR)의 복원에 이용하는 CNN에 사전 정보를 제공함으로써 주파수 스펙트럼 복원 효율을 높일 수 있다.
그러나, 부호화기(510)는 특정 블록에 포함되는 양자화된 제1 주파수 스펙트럼 계수(XQ)의 에너지가 기준 에너지 보다 작은 경우, 부호화기(510)는 그 특정 블록에 포함된 제2 주파수 스펙트럼 계수(XR)를 복호화기(520)에 전송하지 않는다.
단계(516)에서, 부호화기(510)는 고대역에 대응하는 제3 주파수 스펙트럼 계수(XH)의 크기를 고대역 코딩을 위한 개별적인 오토인코더를 통해 부호화하여 복호화기(520)에 전송한다.
단계(521)에서, 복호화기(520)는 부호화기(510)로부터 수신한 제1 주파수 스펙트럼 계수를 변환 코딩으로 복호화한다. 그리고, 단계(522)에서, 복호화기(520)는 부호화기(510)로부터 수신한 제2 주파수 스펙트럼 계수를 파라메트릭 코딩으로 복호화한다.
일례로, 복호화기(520)는 제2 주파수 스펙트럼 계수를 오토인코더를 통해 복호화한다. 복호화기(520)는 오토인코더 잠재 벡터(autoencoder latent vector)를 통해 제2 주파수 스펙트럼 계수를 복호화할 수 있다.
그리고, 복호화기(520)는 부호화기(510)로부터 수신되지 않은 제2 주파수 스펙트럼 계수를 0으로 결정할 수 있다. 구체적으로, 복호화기(520)는 변형된 2D 체크 패턴으로 나타나는 제1 주파수 스펙트럼 계수 및 제2 주파수 스펙트럼 계수의 복호화된 결과를 통해 수신되지 않은 제2 주파수 스펙트럼 계수를 식별할 수 있고, 수신되지 않은 제2 주파수 스펙트럼 계수를 0으로 결정할 수 있다.
단계(523)에서, 복호화기(520)는 부호화기(510)로부터 수신한 제3 주파수 스펙트럼 계수의 크기를 파라메트릭 코딩으로 복호화한다. 일례로, 오토인코더로 부호화된 경우, 복호화기(520)는 양자화된 잠재 벡터를 통해 제3 주파수 스펙트럼 계수의 크기를 복호화할 수 있다. 복호화기(520)는 고대역 코딩을 위한 개별적인 오토인코더를 통해 제3 주파수 스펙트럼 계수의 크기를 복호화할 수 있다.
그리고, 복호화기(520)는 복호화한 제2 주파수 스펙트럼 계수의 크기와 부호를 각각 다르게 이용한다. 단계(524)에서, 복호화기(520)는 부호화기(510)로부터 수신된 제2 주파수 스펙트럼 계수의 크기와 부호화기(510)로부터 수신되지 않고 0으로 결정된 제2 주파수 스펙트럼 계수의 크기를 사전 정보로 CNN에 입력하여 제2 주파수 스펙트럼 계수의 크기를 복원할 수 있다.
이 때, 복호화기(520)는 변환 코딩으로 복호화된 제1 주파수 스펙트럼 계수의 크기(|X'Q|)를 이용하여 CNN을 통해 제2 주파수 스펙트럼 계수의 크기를 복원한다. 구체적으로, 복호화기(520)는 복호화된 제1 주파수 스펙트럼 계수의 크기(|X'Q|)를 CNN에 입력함으로써 복원한다.
일례로, CNN은 스킵 연결(skip connection), 인셉션 프로세스(inception process)를 포함할 수 있고, 게이트 활성화 함수(gated activation function)이 이용될 수 있다. 본 발명에서 이용하는 뉴럴 네트워크는 CNN으로 한정되지 않으며, 다양한 형태로 구현될 수 있다.
단계(525)에서, 복호화기(520)는 오토인코더를 통해 복호화된 제2 스펙트럼 계수를 부호를 CNN을 통해 복원된 제2 스펙트럼 계수의 크기(|X'Q|)에 적용함으로써 제2 스펙트럼 계수(X'Q)를 생성할 수 있다.
단계(526)에서, 복호화기(520)는 IGF를 통해 저대역의 부호를 복사함으로써 제3 주파수 스펙트럼 계수의 부호를 결정한다. 복호화기(520)는 복사된 제3 주파수 스펙트럼 계수의 부호와 복호화된 제3 주파수 스펙트럼 계수의 크기를 통해 제3 주파수 스펙트럼 계수(X'H)를 생성한다.
단계(527)에서, 복호화기(520)는 제1 주파수 스펙트럼 계수, 제2 주파수 스펙트럼 계수 및 제3 주파수 스펙트럼 계수를 결합하여 역변환함으로써 오디오 신호를 생성할 수 있다.
구체적으로, 변환 코딩을 통해 복호화된 제1 주파수 스펙트럼 계수(X'Q)와, CNN을 통해 복원된 제2 주파수 스펙트럼 계수의 크기에 부호가 삽입된 제2 주파수 스펙트럼 계수(X'R) 및 저대역의 부호를 복사하여 생성한 제3 주파수 스펙트럼 계수(X'H)가 결합된다. 그리고, 복호화기(520)는 MDCT의 역변환인 IMDCT(inverse MDCT)를 통해 결합한 결과를 변환함으로써 오디오 신호를 생성할 수 있다.
한편, 본 발명에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.
본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 즉 정보 캐리어, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체) 또는 전파 신호에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.
컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.
또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체 및 전송매체를 모두 포함할 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.
101: 부호화기
102: 복호화기

Claims (20)

  1. 부호화기가 수행하는 부호화 방법에 있어서,
    오디오 신호를 변환함으로써 2D 체크 패턴에서의 주파수 스펙트럼 계수를 획득하는 단계;
    상기 2D 체크 패턴에서의 주파수 스펙트럼 계수들을 i) 변환 코딩으로 처리되는 제1 주파수 스펙트럼 계수, ii) 복호화기에서 복원되는 제2 주파수 스펙트럼 계수 및 iii) 고대역 주파수에 대응하는 제3 주파수 스펙트럼 계수로 구분하는 단계;
    상기 제1 주파수 스펙트럼 계수의 양자화 결과에 기초하여 상기 제2 주파수 스펙트럼 계수의 일부를 상기 제1 주파수 스펙트럼 계수로 변경하는 단계;
    상기 제1 주파수 스펙트럼 계수를 변환 코딩으로 부호화하여 복호화기에 전송하는 단계;
    파라메트릭(parametric) 코딩으로 상기 제2 주파수 스펙트럼 계수를 선택적으로 부호화하여 복호화기에 전송하는 단계; 및
    상기 제3 주파수 스펙트럼 계수를 파라메트릭 코딩으로 부호화하여 복호화기에 전송하는 단계
    를 포함하는 부호화 방법.
  2. 제1항에 있어서,
    상기 설정하는 단계는,
    상기 제1 주파수 스펙트럼 계수가 양자화되는 결과에 기초하여 상기 부호화기에서 상기 제2 주파수 스펙트럼 계수가 상기 제1 주파수 스펙트럼 계수로 설정하는, 부호화 방법.
  3. 제1항에 있어서,
    주파수 구간에 따라 상기 제2 주파수 스펙트럼 계수를 복수의 블록으로 그룹화하고, 각 블록의 양자화 에너지를 계산하는 단계
    를 더 포함하고,
    상기 제2 주파수 스펙트럼 계수를 선택적으로 부호화하여 복호화기에 전송하는 단계는,
    상기 계산된 양자화 에너지에 기초하여 파라메트릭 코딩으로 상기 블록들을 부호화하고 복호화기에 송신하는, 부호화 방법.
  4. 제1항에 있어서,
    상기 제3 주파수 스펙트럼 계수를 파라메트릭 코딩으로 부호화하여 복호화기에 전송하는 단계는,
    상기 제3 주파수 스펙트럼 계수의 크기(magnitude)를 부호화하여 상기 복호화기에 전송하는, 부호화 방법.
  5. 복호화기가 수행하는 복호화 방법에 있어서,
    부호화기에서 전송된 제1 주파수 스펙트럼 계수를 변환 코딩으로 복호화하는 단계;
    상기 부호화기에서 전송된 제2 주파수 스펙트럼 계수 및 제3 주파수 스펙트럼 계수를 파라메트릭(parametric) 코딩으로 복호화하는 단계;
    상기 제1 주파수 스펙트럼 계수의 복호화된 결과를 이용하여 상기 제2 주파수 스펙트럼 계수의 크기(magnitude)를 뉴럴 네트워크로 복원하는 단계;
    상기 복호화된 제2 주파수 스펙트럼 계수의 부호를 상기 복원한 결과에 삽입하는 단계;
    상기 부호화기에서 전송된 제3 주파수 스펙트럼 계수를 파라메트릭 코딩으로 복호화하는 단계;
    상기 복호화된 제1 주파수 스펙트럼 계수, 상기 복호화된 제3 주파수 스펙트럼 계수 및 상기 뉴럴 네트워크로 복원한 결과를 결합하는 단계;
    상기 결합한 결과를 역변환함으로써 복원된 오디오 신호를 출력하는 단계
    를 포함하는 복호화 방법.
  6. 제5항에 있어서,
    상기 전송된 제1 주파수 스펙트럼 계수는,
    상기 제1 주파수 스펙트럼 계수가 양자화되는 결과에 기초하여 상기 부호화기에서 상기 제2 주파수 스펙트럼 계수가 상기 제1 주파수 스펙트럼 계수로 설정된, 복호화 방법.
  7. 제5항에 있어서,
    상기 복호화된 제3 주파수 스펙트럼 계수는,
    저대역의 부호를 복사함으로써 상기 제3 주파수 스펙트럼 계수의 부호가 결정되는, 복호화 방법.
  8. 제5항에 있어서,
    상기 복원하는 단계는,
    상기 부호화기에서 전송되지 않은 제2 주파수 스펙트럼 계수의 크기를 0으로 결정하고, 상기 복호화된 제2 스펙트럼 계수의 크기를 사전 정보로 상기 뉴럴 네트워크에 입력함으로써 상기 제2 스펙트럼 계수의 크기를 복원하는, 복호화 방법.
  9. 제5항에 있어서,
    상기 복원한 결과에 삽입하는 단계는,
    상기 제2 주파수 스펙트럼 계수의 부호를 랜덤으로 생성하고, 생성된 부호를 상기 제2 주파수 스펙트럼 계수에 추가하는, 복호화 방법.
  10. 부호화 방법을 수행하는 부호화기에 있어서,
    상기 부호화기는 프로세서를 포함하고,
    상기 프로세서는,
    오디오 신호를 변환함으로써 2D 체크 패턴에서의 주파수 스펙트럼 계수를 획득하고, 상기 2D 체크 패턴에서의 주파수 스펙트럼 계수들을 i) 변환 코딩으로 처리되는 제1 주파수 스펙트럼 계수, ii) 복호화기에서 복원되는 제2 주파수 스펙트럼 계수 및 iii) 고대역 주파수에 대응하는 제3 주파수 스펙트럼 계수로 구분하고, 상기 제1 주파수 스펙트럼 계수의 양자화 결과에 기초하여 상기 제2 주파수 스펙트럼 계수의 일부를 상기 제1 주파수 스펙트럼 계수로 변경하고, 상기 제1 주파수 스펙트럼 계수를 변환 코딩으로 부호화하여 복호화기에 전송하고, 파라메트릭(parametric) 코딩으로 상기 제2 주파수 스펙트럼 계수를 선택적으로 부호화하여 복호화기에 전송하고, 상기 제3 주파수 스펙트럼 계수를 파라메트릭 코딩으로 부호화하여 복호화기에 전송하는,
    부호화기.
  11. 제10항에 있어서,
    상기 부호화기는,
    상기 제1 주파수 스펙트럼 계수가 양자화되는 결과에 기초하여 상기 부호화기에서 상기 제2 주파수 스펙트럼 계수가 상기 제1 주파수 스펙트럼 계수로 설정하는, 부호화기.
  12. 제10항에 있어서,
    상기 프로세서는,
    주파수 구간에 따라 상기 제2 주파수 스펙트럼 계수를 복수의 블록으로 그룹화하고, 각 블록의 양자화 에너지를 계산하고, 상기 계산된 양자화 에너지에 기초하여 파라메트릭 코딩으로 상기 블록들을 부호화하고 복호화기에 송신하는, 부호화기.
  13. 제10항에 있어서,
    상기 프로세서는,
    상기 제3 주파수 스펙트럼 계수의 크기(magnitude)를 부호화하여 상기 복호화기에 전송하는, 부호화기.
  14. 복호화 방법을 수행하는 복호화기에 있어서,
    상기 복호화기는 프로세서를 포함하고,
    상기 프로세서는,
    부호화기에서 전송된 제1 주파수 스펙트럼 계수를 변환 코딩으로 복호화하고, 상기 부호화기에서 전송된 제2 주파수 스펙트럼 계수 및 제3 주파수 스펙트럼 계수를 파라메트릭(parametric) 코딩으로 복호화하고, 상기 제1 주파수 스펙트럼 계수의 복호화된 결과를 이용하여 상기 제2 주파수 스펙트럼 계수의 크기(magnitude)를 뉴럴 네트워크로 복원하고, 상기 복호화된 제2 주파수 스펙트럼 계수의 부호를 상기 복원한 결과에 삽입하고, 상기 부호화기에서 전송된 제3 주파수 스펙트럼 계수를 파라메트릭 코딩으로 복호화하고, 상기 복호화된 제1 주파수 스펙트럼 계수, 상기 복호화된 제3 주파수 스펙트럼 계수 및 상기 뉴럴 네트워크로 복원한 결과를 결합하고, 상기 결합한 결과를 역변환함으로써 복원된 오디오 신호를 출력하는,
    복호화기.
  15. 제14항에 있어서,
    상기 전송된 제1 주파수 스펙트럼 계수는,
    상기 제1 주파수 스펙트럼 계수가 양자화되는 결과에 기초하여 상기 부호화기에서 상기 제2 주파수 스펙트럼 계수가 상기 제1 주파수 스펙트럼 계수로 설정된, 복호화기.
  16. 제14항에 있어서,
    상기 복호화된 제3 주파수 스펙트럼 계수는,
    저대역의 부호를 복사함으로써 상기 제3 주파수 스펙트럼 계수의 부호가 결정되는, 복호화기.
  17. 제14항에 있어서,
    상기 프로세서는,
    상기 부호화기에서 전송되지 않은 제2 주파수 스펙트럼 계수의 크기를 0으로 결정하고, 상기 복호화된 제2 스펙트럼 계수의 크기를 사전 정보로 상기 뉴럴 네트워크에 입력함으로써 상기 제2 스펙트럼 계수의 크기를 복원하는, 복호화기.
  18. 제14항에 있어서,
    상기 프로세서는,
    상기 제2 주파수 스펙트럼 계수의 부호를 랜덤으로 생성하고, 생성된 부호를 상기 제2 주파수 스펙트럼 계수에 추가하는, 복호화기.
  19. 부호화기에서 수행하는 적응형 주파수 스펙트럼 복원 기법의 부호화 방법에 있어서,
    오디오 신호를 구성하는 복수의 프레임을 식별하는 단계;
    상기 프레임으로부터 시간-주파수 도메인에서 2차원의 행렬로 나타나는 주파수 스펙트럼 계수를 생성하는 단계;
    상기 주파수 스펙트럼 계수를 변환 코딩 행렬 및 복원 행렬로 분할하는 단계;
    상기 복원 행렬의 엘리먼트와 인접하는 상기 변환 코딩의 엘리먼트들의 양자화 결과에 따라 상기 복원 행렬의 엘리먼트를 상기 변환 코딩 행렬로 할당하는 단계;
    상기 변환 코딩 행렬을 변환 코딩으로 부호화하는 단계; 및
    파라메트릭(parametric) 코딩으로 상기 복원 행렬을 선택적으로 부호화하는 단계
    를 포함하는 부호화 방법.
  20. 복호화기에서 수행하는 적응형 주파수 스펙트럼 복원 기법의 복호화 방법에 있어서,
    부호화기로부터 수신한 변환 코딩 행렬을 변환 코딩으로 복호화하는 단계;
    부호화기로부터 수신한 복원 행렬의 일부를 파라메트릭(parametric) 코딩으로 복호화하는 단계;
    상기 부호화기로부터 수신되지 않은 복원 행렬의 일부의 크기를 결정하고, 상기 복호화된 복원 행렬의 크기 및 상기 복호화된 변환 코딩 행렬의 크기를 신경망에 입력하여 복원 행렬의 크기를 복원하는 단계;
    상기 복원 행렬의 부호를 생성하여 상기 복원 행렬의 크기에 추가하는 단계; 및
    상기 복원 행렬과 변환 코딩 행렬을 역변환하여 오디오 신호를 생성하는 단계
    를 포함하는 복호화 방법.
KR1020200052278A 2020-04-29 2020-04-29 적응형 주파수 복원 기법 기반 오디오 부호화 방법 KR20210133551A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200052278A KR20210133551A (ko) 2020-04-29 2020-04-29 적응형 주파수 복원 기법 기반 오디오 부호화 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200052278A KR20210133551A (ko) 2020-04-29 2020-04-29 적응형 주파수 복원 기법 기반 오디오 부호화 방법

Publications (1)

Publication Number Publication Date
KR20210133551A true KR20210133551A (ko) 2021-11-08

Family

ID=78497130

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200052278A KR20210133551A (ko) 2020-04-29 2020-04-29 적응형 주파수 복원 기법 기반 오디오 부호화 방법

Country Status (1)

Country Link
KR (1) KR20210133551A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023165946A1 (fr) * 2022-03-02 2023-09-07 Orange Codage et décodage optimisé d'un signal audio utilisant un auto-encodeur à base de réseau de neurones

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023165946A1 (fr) * 2022-03-02 2023-09-07 Orange Codage et décodage optimisé d'un signal audio utilisant un auto-encodeur à base de réseau de neurones
FR3133265A1 (fr) * 2022-03-02 2023-09-08 Orange Codage et décodage optimisé d’un signal audio utilisant un auto-encodeur à base de réseau de neurones

Similar Documents

Publication Publication Date Title
US9728196B2 (en) Method and apparatus to encode and decode an audio/speech signal
KR101143225B1 (ko) 오디오 인코더 및 오디오 디코더에서의 컴퓨터 구현 방법및 컴퓨터 판독 가능 매체
US9620132B2 (en) Decoding of multichannel audio encoded bit streams using adaptive hybrid transformation
US9774975B2 (en) Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
RU2505921C2 (ru) Способ и устройство кодирования и декодирования аудиосигналов (варианты)
KR20100085018A (ko) 신호 처리 방법 및 장치
JP2005338850A (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
KR20070059849A (ko) 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치
US10194257B2 (en) Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
JP7257965B2 (ja) デジタルオーディオ信号における差分データ
CN102158692B (zh) 编码方法、解码方法、编码器和解码器
US20170164132A1 (en) Method and apparatus for decoding a compressed hoa representation, and method and apparatus for encoding a compressed hoa representation
US20220358940A1 (en) Methods of encoding and decoding audio signal using side information, and encoder and decoder for performing the methods
KR20210003514A (ko) 오디오의 고대역 부호화 방법 및 고대역 복호화 방법, 그리고 상기 방법을 수하는 부호화기 및 복호화기
JP2014513813A (ja) 適応的な利得−シェイプのレート共用
KR20220048252A (ko) 학습 모델을 이용한 오디오 신호의 부호화 및 복호화 방법 및 장치와 학습 모델의 트레이닝 방법 및 장치
KR102556096B1 (ko) 이전 프레임의 정보를 사용한 오디오 신호 부호화/복호화 장치 및 방법
KR20210133551A (ko) 적응형 주파수 복원 기법 기반 오디오 부호화 방법
KR100992675B1 (ko) 오디오 부호화 및 복호화 방법과 그 장치
KR20220118158A (ko) 주파수 대역의 확장을 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기
US11508386B2 (en) Audio coding method based on spectral recovery scheme
US20170164130A1 (en) Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation
US20230245666A1 (en) Encoding method, encoding device, decoding method, and decoding device using scalar quantization and vector quantization
KR20230018976A (ko) 오디오 신호의 부호화 및 복호화 방법 및 이를 수행하는 부호화기 및 복호화기
KR20210144573A (ko) 음원을 인지하는 신경망 모델을 이용한 음성 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화 및 복호화 장치