KR20200127781A - 주파수 복원 기법 기반 오디오 부호화 방법 - Google Patents

주파수 복원 기법 기반 오디오 부호화 방법 Download PDF

Info

Publication number
KR20200127781A
KR20200127781A KR1020190052560A KR20190052560A KR20200127781A KR 20200127781 A KR20200127781 A KR 20200127781A KR 1020190052560 A KR1020190052560 A KR 1020190052560A KR 20190052560 A KR20190052560 A KR 20190052560A KR 20200127781 A KR20200127781 A KR 20200127781A
Authority
KR
South Korea
Prior art keywords
frequency spectrum
decoder
transmitted
frequency
spectrum coefficient
Prior art date
Application number
KR1020190052560A
Other languages
English (en)
Inventor
박호종
백승권
성종모
이미숙
이태진
최진수
신성현
Original Assignee
한국전자통신연구원
광운대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원, 광운대학교 산학협력단 filed Critical 한국전자통신연구원
Priority to KR1020190052560A priority Critical patent/KR20200127781A/ko
Priority to US16/843,649 priority patent/US11508386B2/en
Publication of KR20200127781A publication Critical patent/KR20200127781A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

CNN 기반의 주파수 스펙트럼 복원이 적용된 오디오 코딩 방법에 관한 것이다. 본 발명은 변환 코딩에서 발생된 주파수 스펙트럼 계수들 중 일부를 복호화기에 전송할 수 있으며, 전송되지 않은 주파수 스펙트럼 계수는 복호화기에서 복원할 수 있다. 또한, 주파수 스펙트럼 계수의 부호들도 부호 전송 규칙에 따라 선택적으로 부호화기에서 복호화기로 전송할 수 있다.

Description

주파수 복원 기법 기반 오디오 부호화 방법 {AUDIO CODING METHOD ASED ON SPECTRAL RECOVERY SCHEME}
본 발명은 오디오를 처리하는 방법에 관한 것으로, 주파수 복원 기법에 따라 오디오를 부호화하거나 복호화하는 기법에 관한 것이다.
오디오를 처리함에 있어서 변환 코딩(transform coding)은 매우 중요한 기법 중 하나이다. 변환 코딩은 인간 심리-음향 모델(human psycho-acoustic model)에 기초하여 주파수 스펙트럼 계수(spectral coefficient)를 양자화할 수 있다. 그리고, 변환 코딩은 코딩할 때의 비트율에 비례하는 사운드 품질을 가지는 출력 파형(waveform)을 복원함으로써, 고비트율에서 고품질의 코딩에 일반적으로 사용된다.
종래에 저비트율에서의 변환 코딩에 대한 문제를 해결하기 위해 파라메트릭 코딩(parametric coding)이 개발되었다. 파라메트릭 코딩은 파라메트릭 도메인에서 오디오 정보를 나타내며, 원래 사운드와 유사한 사운드 인지(sound perception)을 생성하기 위한 몇가지 파라미터들을 결정할 수 있다.
저비트율 코딩을 위해 파라메트릭 코딩은 개별적인 계수(individual coefficient) 대신에 파라미터화된 주파수 스펙트럼 정보(spectral information)을 처리함으로써 변환 코딩보다는 훨씬 효율적이다. 하지만, 파라메트릭 코딩은 고품질 코딩을 수행하는데 매우 제한적인데, 그 이유는 원본 주파수 스펙트럼이 한번 손실되면 오직 주어진 파라미터들을 가지고 고품질의 파형을 생성하기 위해 요구되는 정교한 주파수 스펙트럼 구조를 재구성하는 것이 불가능하기 때문이다.
기존의 뉴럴 네트워크에 기초하여 음성/오디오를 위한 주파수 스펙트럼 복원들이 수행될 수 있다. 대부분의 방식들은 블록 기반의 복원을 다루지만, 고주파수 대역의 블록들은 저주파수 대역에 기초하여 복원된다. 블록 기반의 주파수 스펙트럼 복원의 성능은 파라메트릭 고주파수 대역의 코딩에서 정확한 복원이 도움이 되는 추가적인 파라미터들이 제공됨에도 불구하고 변환 코딩의 성능보다 낮다.
그래서, 고비트율에서 변환 코딩의 성능을 향상시키기 위한 방법이 필요하다.
본 발명은 같은 비트율에서 기존이 오디오 코딩 방식에 비해 좀더 나은 품질로 코딩할 수 있는 방법을 제공한다.
본 발명의 부호화기에서 수행하는 주파수 스펙트럼 복원 기법의 부호화 방법은 입력 신호에 대해 변환 코딩을 수행하는 단계; 상기 변환 코딩을 통해 도출된 2D 체크 패턴에서의 주파수 스펙트럼 계수를 식별하는 단계; 상기 2D 체크 패턴에서의 주파수 스펙트럼 계수들 중 복호화기로 전송할 현재 프레임에 대한 제1 주파수 스펙트럼 계수와 복호화기로 전송하지 않는 것으로 결정된 현재 프레임에 대한 제2 주파수 스펙트럼 계수를 결정하는 단계; 상기 복호화기로 전송하는 제1 주파수 스펙트럼 계수를 부호화하여 복호화기에 전송하는 단계; 상기 복호화기로 전송하지 않는 것으로 결정된 제2 주파수 스펙트럼 계수의 부호를 선택적으로 복호화기에 전송하는 단계를 포함할 수 있다.
상기 부호화 방법은 상기 현재 프레임의 주파수 스펙트럼 계수의 에너지 분배 정보를 결정하는 단계; 상기 에너지 분배 정보를 이용하여 주파수 스펙트럼 복원 기법의 부호화 방법이 적용되는 기준 주파수를 결정하는 단계를 더 포함할 수 있다.
상기 제2 주파수 스펙트럼 계수의 부호는, 상기 부호의 중요도에 따라 정렬되어 복호화기에 선택적으로 전송될 수 있다.
상기 제1 주파수 스펙트럼 계수는, 산술 부호화를 통해 양자화 및 부호화되어 크기와 부호가 모두 복호화기에 전송될 수 있다.
본 발명의 복호화기에서 수행하는 주파수 스펙트럼 복원 기법의 복호화 방법은 부호화기에서 전송된 제1 주파수 스펙트럼 계수를 복호화하는 단계; 뉴럴 네트워크를 통해 상기 제2 주파수 스펙트럼 계수의 크기를 복원하는 단계; 상기 부호화기에서 전송되지 않은 제2 주파수 스펙트럼 계수의 부호 전송 규칙을 결정하는 단계; 상기 부호 전송 규칙에 따라 상기 제2 주파수 스펙트럼 계수의 부호를 할당하는 단계; 상기 제1 주파수 스펙트럼 계수 및 상기 부호와 크기가 결정된 제2 주파수 스펙트럼에 대해 역변환 코딩을 수행하여 복원된 입력 신호를 출력하는 단계를 포함할 수 있다.
상기 제1 주파수 스펙트럼 계수는, 부호화기에서 입력 신호를 변환 코딩하여 도출된 2D 체크 패턴에서의 주파수 스펙트럼 계수 중 복호화기에 전송되는 주파수 스펙트럼이고, 상기 제2 주파수 스펙트럼 계수는, 부호화기에서 입력 신호를 변환 코딩하여 도출된 2D 체크 패턴에서의 주파수 스펙트럼 계수 중 복호화기에 전송되지 않은 주파수 스펙트럼일 수 있다.
상기 제2 주파수 스펙트럼 계수의 부호는, 상기 부호의 중요도에 따라 정렬되어 부호화기에서 선택적으로 전송되며, 상기 부호를 할당하는 단계는, 상기 전송된 부호는 제2 주파수 스펙트럼 계수로 할당하고, 전송되지 않은 부호는 랜덤하게 제2 주파수 스펙트럼 계수로 할당할 수 있다.
상기 제1 주파수 스펙트럼 계수를 복호화하는 단계는, 산술 복호화에 기초하여 제1 주파수 스펙트럼 계수를 복호화할 수 있다.
상기 뉴럴 네트워크는, 시간-주파수 도메인의 2D 체크 패턴에서 주파수 인덱스가 감소된 주파수 스펙트럼 계수를 입력으로 훈련될 수 있다.
상기 뉴럴 네트워크는, 시간-주파수 도메인의 2D 체크 패턴에서 복호화기로 전송되는 현재 프레임에 대한 제1 주파수 인덱스 계수와 이전 프레임의 주파수 인덱스 계수의 합집합의 엘리먼트들 중 기준 주파수보다 낮은 엘리먼트들을 삭제한 결과를 입력으로 할 수 있다.
주파수 스펙트럼 복원 기법의 부호화 방법을 수행하는 부호화기는 프로세서를 포함하고, 상기 프로세서는, 입력 신호에 대해 변환 코딩을 수행하고, 상기 변환 코딩을 통해 도출된 2D 체크 패턴에서의 주파수 스펙트럼 계수를 식별하고, 상기 2D 체크 패턴에서의 주파수 스펙트럼 계수들 중 복호화기로 전송할 현재 프레임에 대한 제1 주파수 스펙트럼 계수와 복호화기로 전송하지 않는 것으로 결정된 현재 프레임에 대한 제2 주파수 스펙트럼 계수를 결정하고, 상기 복호화기로 전송하는 제1 주파수 스펙트럼 계수를 부호화하여 복호화기에 전송하고, 상기 복호화기로 전송하지 않는 것으로 결정된 제2 주파수 스펙트럼 계수의 부호를 선택적으로 복호화기에 전송할 수 있다.
주파수 스펙트럼 복원 기법의 복호화 방법을 수행하는 복호화기는 프로세서를 포함하고, 상기 프로세서는, 부호화기에서 전송된 제1 주파수 스펙트럼 계수를 복호화하고, 뉴럴 네트워크를 통해 상기 제2 주파수 스펙트럼 계수의 크기를 복원하고, 상기 부호화기에서 전송되지 않은 제2 주파수 스펙트럼 계수의 부호 전송 규칙을 결정하고, 상기 부호 전송 규칙에 따라 상기 제2 주파수 스펙트럼 계수의 부호를 할당하고, 상기 제1 주파수 스펙트럼 계수 및 상기 부호와 크기가 결정된 제2 주파수 스펙트럼에 대해 역변환 코딩을 수행하여 복원된 입력 신호를 출력할 수 있다.
본 발명의 일실시예에 따르면, 같은 비트율에서 기존이 오디오 코딩 방식에 비해 좀더 나은 품질로 코딩할 수 있다.
도 1은 본 발명의 일실시에에 따른 부호화기와 복호화기를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 주파수-시간 도메인에서 2D 체크 패턴에서의 주파수 스펙트럼 계수를 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 CNN 구조를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 부호화기와 복호화기의 동작을 나타낸 도면이다.
도 5는 본 발명의 일실시예에 따른 선택적인 부호 전송 규칙을 결정하는 과정을 나타낸 도면이다.
도 6은 본 발명의 일실시예에 따른 2D 주파수 스펙트럼 계수를 산술 부호화를 위한 1D 데이터로 변환하는 과정을 나타낸다.
도 7은 본 발명의 일실시예에 따른 USAC와 본 발명에 의한 효과를 비교를 도시한 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명은 고비트율(high bit-rate)에서 변환 코딩의 성능을 향상시키기 위한 방법에 관한 것이다. 본 발명은 뉴럴 네트워크(neural network)에 의한 주파수 스펙트럼 복원에 기초한다. 입력 신호의 주파수 스펙트럼 정보는 서브 프레임에 변환을 적용한 이후에 2D 시간-주파수 도메인에서 표현된다. 부호화 영역에서 2D 체크 패턴에서 선택된 주파수 스펙트럼 계수의 일부분이 일반적인 변환 코딩에 의해 양자화되고, 코딩된다. 추가적으로, 누락되는 주파수 스펙트럼 계수들에서 중요한 부호(sign)들의 몇 개만 전송된다.
부호화 영역에서, 누락된 주파수 스펙트럼 계수들의 크기(magnitude)들이 CNN(convolution neural network)에 의해 전송된 데이터 및 부호들의 중요도에 따라 랜덤하게 할당된 부호들에 기초하여 복원된다. 본 발명은 주파수 스펙트럼 정보의 전송과 복원을 모두 이용하며, 이를 통해 감소된 데이터를 전송함에 있어서 양자화 오류를 줄일 수 있으며, 이를 통해 코딩 효율을 향상시킬 수 있다.
본 발명은 블록 기반의 복원과 다르게 이웃 정보(neighbor information)에 기초하여 독립적으로 개별적인 주파수 스펙트럼 계수를 복원한다. 왜냐하면, 복원될 데이터는 2D 체크 패턴으로 배열되기 때문이다. 그래서, 본 발명의 경우, 주파수 스펙트럼 복원은 블록 기반의 복원보다 훨씬 더 나은 성능을 제공하며, 주파수 스펙트럼 복원이 적용된 코딩 방식은 잠재적인 성능 향상을 지원하는 새로운 변환 코딩 방식이 될 수 있다.
본 발명의 가장 핵심적인 사항은, 부호화 영역에서 주파수 스펙트럼 계수들의 일부만 복호화 영역으로 전송한다. 그러면, 부호화기는 전송되지 않은 누락된 주파수 스펙트럼 계수를 복원할 수 있다. 이러한 과정은 주파수 스펙트럼 계수들 간에 강한 상관 관계가 존재하기 때문에 진행될 수 있다. 그러나, 주파수 스펙트럼 계수의 부호화들은 서로 간에 매우 낮은 상관 관계를 나타낸다.
본 발명은 주파수 스펙트럼 계수의 크기만 복원하고, 주파수 스펙트럼 계수의 부호는 개별적으로 처리한다. 데이터의 상관성을 증가시키기 위해, 본 발명은 서브 프레임 기반의 변환을 적용한다. 그 결과, 주파수 스펙트럼 계수들은 2D 시간-주파수 도메인에서 표현되며, 주파수 스펙트럼 복원은 시간과 주파수 스펙트럼에서 데이터 상관성을 이용할 수 있다.
일례로, 본 발명은 프레임의 길이가 2048 샘플들(samples)이고, 서브 프레임의 길이가 1024 샘플들인 경우를 가정한다. MDCT(modified discrete cosine transform)은 50% 오버랩으로 각각의 서브 프레임에 적용된다. 각각의 프레임에 대해, MDCT 계수들은 시간-주파수 도메인에서 X[k][m]로 정의되는 1024x2 사이즈의 매트릭스로 표현된다. 즉, 본 발명에서 설명하는 매트릭스는 변환 코딩을 통해 입력 신호로부터 도출된 주파수 스펙트럼 계수를 나타낸다. 일례로, 변환 코딩은 MDCT가 적용될 수 있으나, 본 발명은 이에 한정되지 않는다. 여기서, k는 0 ≤ k ≤ 1024의 주파수 인덱스를 나타내고, m은 서브 프레임 인덱스를 나타낸다. m이 0, 1인 경우, m은 현재 서브 프레임을 나타내고, m≤-1인 경우, m은 이전 서브 프레임들을 나타낸다.
저주파수 대역에서 인간들의 인식(human perception)은 낮은 주파수 스펙트럼의 왜곡에도 불구하고 매우 민감하기 때문에, 저주파수 대역에서 주파수 스펙트럼 복원이 원하는 정확도를 가지는 것이 쉽지 않을 수 있다. 그래서, 본 발명은 Lx Hz 이상의 고주파수 대역에 대해 적용되는 것으로 가정한다. 여기서, 주파수 인덱스 k는 k = kL일 수 있다. 그리고, Lx Hz 보다 낮은 주파수 대역에서는 일반적인 변환 코딩이 적용될 수 있다. Lx는 주파수 스펙트럼 복원 기법이 적용되는 기준 주파수를 나타낸다.
3 kHz ~ 4 kHz 이하의 주파수 대역에서 MDCT 계수들의 크기(magnitude)들은 주파수 스펙트럼 복원의 정확도 이상의 품질 레벨을 요구한다. 따라서, 3 kHz ~ 4 kHz 부근에서 각 프레임에 대해 변동되는 Lx가 적용될 수 있다. 추가적으로, 에너지 분배 정보는 적절한 Lx를 결정하는데 도움이 된다. 그래서, 부호화기는 현재 프레임에 대응하는 매트릭스 X[k][0] 및 X[k][1]를 이용하여 특정 주파수인 4 kHz 이하의 에너지(ENlow)와 4 kHz 이하를 초과하는 에너지(ENhigh)를 계산한다. 그런 후에 부호화기는 ENratio = (ENlow / ENhigh)를 계산할 수 있다.
그러면, ENratio를 가지는 프레임들이 고정된 임계치보다 큰 경우, Lx는 특정 주파수인 4 kHz로 설정되고, ENratio를 가지는 프레임들이 고정된 임계치보다 낮은 경우, Lx는 3 kHz로 설정될 수 있다. 일례로, Lx = 3 kHz 와 Lx = 4 kHz인 경우의 선택 비율은 0.4:0.6 정도로 나타낸다.
도 2는 매트릭스 X[k][m]를 나타낸다. 매트릭스 X[k][m]는 주파수 스펙트럼을 나타낸다. 여기서, m은 변동되는 kL에 대해 6 ≤ k ≤ 1을 나타낸다. 그리고, k는 주어진 코딩 대역폭인 Ux Hz에서 k = k U 를 나타낸다. X[k][m]는 4개의 배타적인(exclusive) 4개의 셋트들로 그룹핑될 수 있다. 셋트 R은 Lx Hz보다 큰 2D 체크 패턴에서 전체 X[k][m] 중에서 현재 프레임에 대해 복호화기로 전송되지 않은 X[k][m]를 나타낸다. 2D 체크 패턴은 R을 복원할 때 시간-주파수 도메인에서 2D 상관성의 완전한 이용을 보장한다. 세트 Q0는 전체 X[k][m] 중에서 현재 프레임에 대해 복호화기로 전송되는 X[k][m]를 나타낸다. 그리고, 세트 Q1은 전체 X[k][m] 중에서 이전 프레임에 대해 복호화기로 전송되는 X[k][m]를 나타낸다. 또한, P는 전체 X[k][m] 중에서 이전 프레임에 대해 복호화기로 전송되지 않은 X[k][m]를 나타낸다. 각 프레임에 대해 부호화기는 Q0를 일반적인 변환 코딩을 통해 양자화한 후, 양자화된 결과를 복호화기에 전송한다.
그리고, 복호화기는 CNN에 의해 양자화된 Q0와 Q1의 합집합(Q0 ∪ Q1)에 기초하여 R의 부분집합에 해당하는 X[k][m]의 크기인 |X[k][m]| ∈ R을 복원할 수 있다. 왜냐하면, P는 복원 오류(recovery error)에 의해 오염되어 있기 때문에, CNN이 P의 정확한 값으로 훈련된 경우에 CNN의 낮은 성능을 초래할 수도 있기 때문이다.
본 발명은 부호화기에서 복호화기로 전송되지 않은 주파수 스펙트럼의 크기를 복원하기 위해 CNN을 이용할 수 있다. CNN에 대한 적절한 입력을 준비하기 위해, X[k][m]가 새로운 2D 매트릭스인 Y[k][m]으로 변환될 수 있다. 이러한 변환 과정은 k축을 반으로 줄여서 0 ≤ k ≤ 512이 되도록 한다. Y[k][m]은 Q0와 Q1의 합집합(Q0 ∪ Q1)의 엘리먼트(element)들 중 Lx Hz보다 낮은 Q0와 Q1의 합집합(Q0 ∪ Q1)의 엘리먼트(element)들을 절반 정도 삭제한 것을 포함한다. Lx Hz보다 낮은 Q0와 Q1의 합집합(Q0 ∪ Q1)에 일부 유용한 정보가 손실되더라도, Y[k][m]은 Lx Hz보다 낮거나 큰 상황에서 같은 구조를 가지고, 전체 영역에서 같은 로컬 관계를 지는 장점이 있다. Y[k][m]은 CNN에서 로컬 컨볼루션 동작을 위해 요구되는 중요한 조건이다. Y[k][m]은 뉴럴 네트워크의 사이즈를 줄일 수 있도록 한다.
CNN은 0 ≤ k < kU/2, -6 ≤ m ≤ 1를 만족하는 |Y[k][m]|를 입력으로 하고, 0 ≤ k < kU, m = 0, 1를 만족하는 복원된 |X[k][m]|를 출력으로 한다. 여기서, 복원된 |X[k][m]|는 Q0의 엘리먼트들을 포함한다. 복원된 |X[k][m]|들 중에서 R의 엘리먼트들이 최종 복원된 데이터로 사용되며, Q0의 엘리먼트들은 전송된 Q0로 대체된다. CNN의 입출력 구성에서 Lx = 3 kHz , Lx = 4 kHz인 경우의 서로 다른 코딩 구조는 하나의 CNN을 이용함으로써 처리된다.
Ux = 14.25 kHz이고, 샘플링율이 48kHz일 때, 주파수 스펙트럼 복원을 위한 CNN은 도 3과 같이 표현된다. 사이즈가 304ⅹ8일 때, CNN의 입력은 0 ≤ k < 304, -6 ≤ m ≤ 1를 만족하는 |Y[k][m]|이다.
CNN은 encoding network(인코딩 네트워크)와 decoding network(디코딩 네트워크)와 같이 2개의 영역으로 구성된다. 인코딩 네트워크는 5개의 계층들을 포함하고, 2D 출력 사이즈를 줄이는 2D 컨볼루션과 rectified linear unit (ReLU) activation 함수를 이용함으로써 입력을 38ⅹ2개의 고유변수(latent variable)로 부호화한다. 그리고, 디코딩 네트워크도 5개의 계층들로 구성되며, 고유 변수들로부터 출력을 복원할 수 있다. 최초의 4개 계층은 2D 트랜스포즈(transpose) 컨볼루션과 ReLU activation 함수를 수행하여 출력 사이즈를 증가시키고, 마지막 1개 계층은 tanh activation 함수를 수행하여 0 ≤ k < 608, m = 0, 1를 만족하는 |X[k][m]|에 대응하는 608ⅹ2 데이터를 출력한다.
CNN의 훈련 과정은 Q0와 Q1의 양자화 과정없이 수행된다. 이것은 CNN의 훈련 과정과 테스트 과정 간의 불일치를 야기하지만, 불일치의 효과는 크게 부각되지 않는다. 그리고, 비트레이트에서의 뉴럴 네트워크의 종속성과 개별적인 부호화기의 특정 동작이 제거될 수 있다. CNN은 L1 비용 함수와 최소 매치 사이즈 1024를 이용하여 ADAM을 통해 훈련될 수 있다.
도 4는 본 발명의 일실시예에 따른 주파수 스펙트럼 복원 기반의 오디오 코딩 방법을 제시한다.
단계(401)에서, 부호화기는 입력 신호 x[n]에 대해 변환 코딩인 MDCT를 수행할 수 있다. MDCT를 통해 도 2와 같이 2D 체크 패턴의 시간-주파수 도메인에서의 주파수 스펙트럼 계수가 결정될 수 있다.
단계(402)에서, 부호화기는 본 발명과 같이 CNN 기반의 주파수 스펙트럼 복원 기법이 적용될지 여부를 판단하기 위한 기준 주파수 Lx에 대응하는 주파수 인덱스인 kL을 결정할 수 있다.
단계(403)에서, 부호화기는 2D 체크 패턴에 존재하는 주파수 스펙트럼 계수들 중 현재 프레임에 대해 복호화기에 전송되는 주파수 스펙트럼 계수의 그룹인 Q0를 양자화하고 부호화할 수 있다. Q0의 양자화 결과는 복호화기에 전달된다.
한편, 단계(404)에서, 부호화기는 2D 체크 패턴에 존재하는 주파수 스펙트럼 계수들 중 현재 프레임에 대해 복호화기에 전송되지 않는 주파수 스펙트럼 계수의 그룹인 R에 대해 부호 전송 규칙을 결정할 수 있다. 부호화기는 R에 대해서는 선택적으로 부호를 복호화기에 전달할 수 있다. 부호 전송 규칙은 도 5에서 구체적으로 설명된다.
그리고, 단계(405)에서, 복호화기는 부호화기에서 부호화된 Q0를 복원할 수 있다. 그리고, 단계(406)에서, 복호화기는 2D 체크 패턴에 존재하는 주파수 스펙트럼 계수들 중 현재 프레임에 대해 복호화기에 전송되지 않는 주파수 스펙트럼 계수의 그룹인 R에 대해 부호 전송 규칙을 결정할 수 있다.
단계(407)에서, 복호화기는 CNN을 이용하여 R의 크기 복원을 수행할 수 있다. 그런 후, 복호화기는 단계(406)에서 결정된 부호 전송 규칙에 따라 R의 부호 할당을 수행함으로써 최종적인 R을 결정할 수 있다.
그러면, 단계(408)에서, 복호화기는 단계(405)를 통해 복호화된 Q0와 단계(408)을 통해 복원된 R에 대해 변환 코딩인 IMDCT를 수행함으로써, 복원된 입력 신호 x'[n]을 도출할 수 있다.
X[k][0] 와 X[k][1]는 2개의 MDCT들을 2048 샘플들의 x[n]에 적용함으로써 계산된다. 각 프레임에 대해 kL은 대역 에너지 비율에 기초하여 결정된다. Q0의 양자화는 각 서브 프레임의 스케일 팩터를 계산함으로써 서브 프레임 기반의 일반적인 변환 코딩을 통해 수행된다.
각 프레임에 대한 Q0의 독립적인 양자화로 인해서, 주파수 스펙트럼 복원 기반의 오디오 코딩은 2014 샘플 길이의 프레임을 가지는 USAC (unified speech audio coding)과 같은 주파수 스펙트럼과 시간 해상도를 나타낸다.
Q0의 양자 인덱스에 엔트로피 코딩(entropy)이 적용되고, 엔트로피 코딩의 결과 비트가 전송된다. 본 발명은 Q0를 위한 최적화된 엔트로피 코딩을 새롭게 제안하는 대신에 본 발명의 2D 시간-주파수 도메인과 USAC 에서의 1D 주파수 스펙트럼 도메인 간의 구조 상의 차이를 고려하지 않고 USAC의 산술 코딩(arithmetic coding)을 이용할 수 있다.
USAC에서 산술 코딩이 1D 주파수 스펙트럼 데이터를 이용하기 때문에, 도 6에 도시된 바와 같이 Ux Hz로 스캐닝 패턴업함으로써 X[k][m] ∈ R은 1D 데이터로 변환된다. 그 결과, 1D 양자화 인덱스들은 USAC 산술 코더에 입력될 수 있다. 작은 개수의 비트들을 가지는 스캐닝 패턴이 선택된다. 스캐닝 패턴과 kL을 스위칭하기 위해 산술 코더의 상태는 매 프레임마다 리셋된다. 양자화된 Q0를 이용하여, X[k][m] ∈ R의 부호 전송 규칙이 결정되고, 부호가 복호화기로 전송된다.
복호화기에서, 전송된 kL을 이용하여 변환 코딩을 통해 Q0가 복구된다. Q0에 기초하여, 전송된 부호들 각각이 X[k][m] ∈ R에 매핑되는 규칙이 결정된다. |Y[k][m]|이 입력으로 설정된 이후에, CNN에 의해 X[k][m] ∈ R이 복원된다. 복원된 X[k][m] ∈ R의 부호들은 전송된 부호 비트 또는 랜덤하게 할당된다. 여기서 랜덤하게 할당되는 의미는 임의의 값이 부호로 결정된다는 것을 의미한다. Q0와 R은 함께 2048 샘플의 x'[n]로 변환된다.
본 발명은 CNN을 이용하여 2D 스펙트럼 주파수 복원 기반의 오디오 코딩 방법을 제안한다. 본 발명은 서브 프레임 기반의 MDCT에 의해 2D 시간-주파수 도메인의 주파수 스펙트럼 정보가 설정되며, MDCT 계수 중 일부가 복호화기로 전송된다. 반면에, 복호화기에 전송되지 않은 나머지 MDCT 계수는 CNN에 의해 복호화기에서 복원된다. 복호화기로 전송되지 않은 누락된 MDCT 계수의 부호는 중요도에 따라 전송되거나 또는 랜덤하게 할당된다. 여기서 랜덤하게 할당되는 의미는 임의의 값이 부호로 결정된다는 것을 의미한다.
도 5는 본 발명의 일실시예에 따른 선택적인 부호 전송 규칙을 결정하는 과정을 나타낸 도면이다.
코딩에서의 비트율을 줄이기 위해, R의 전송되는 부호의 개수가 가능한 작은 것이 필요하다. 본 발명은 선택적인 부호 전송을 채택하고 있다. R의 부분집합에 해당하는 X[k][m] ∈ R의 부호들은 다른 부호들에 비해 중요하게 선택되며, 부호의 중요도에 따라 각 부호에 대한 1비트를 이용하여 내림차순(descending order)으로 전송된다. R의 부호 중요도가 부호화기와 복호화기에서 계산될 수 있는 한 위의 과정은 어떠한 추가적인 정보없이 적절하게 수행될 수 있다.
X[k][m]의 부호 중요도는 |X[k][m]|에 의해 간단하게 추정된다. 그러나, R의 부분집합에 해당하는 복원된 |X[k][m]| ∈ R은 이용될 수 없다. 왜냐하면, 부호화기와 복호화기는 실수점 계산에서 수치 오류로 인해 서로 다른 |X[k][m]|를 가지기 때문이다.
본 발명에서, X[k][m] ∈ R 에 인접한 X[k][m] ∈ Q0의 양자화값이 X[k][m] ∈ R를 대체한다. 도 5는 선택적인 부호 전송의 과정을 나타낸다. X[k][m] ∈ R에 대해, S[k][m]는 S[k][m] = |X[k-1][m]| + |X[k+1][m]| (X[k-1][m] ∈ Q0 and X[k+1][m] ∈ Q0)이며, 양자화 이후에 계산된다. 작은 k와 작은 m을 가지는 S[k][m]들이 같을 때, S[k][m]들이 내림차순에 따라 정렬된다. 가장 큰 S[k][m]의 부호인 Nsign에 대응하는 R에서 X[k][m]들의 부호인 Nsign들이 S[k][m]와 같은 순서로 전송된다. 양자화된 Q0 때문에, 비트 전송 오류가 없다는 가정하에 부호화기와 복호화기는 같은 순서를 결정한다. 전송되지 않은 부호들은 복호화기에서 랜덤하게 설정된다. 이것은 MPEG-H의 intelligent gap filling(IGF)를 고려한 것이다. MDCT 계수의 부호들 중 누락된 부호들은 심각한 품질 저하없이 다른 MDCT 계수들의 부호로부터 복사된다. 이 방식으로 부호의 비트 개수는 감소될 수 있으며, 좀더 중요한 부호들이 전송되는 것에 집중될 수 있다.
본 발명에서 Lx = 4 kHz일 때 사용되는 부호의 개수(Nsign)가 Nsign = 40이고, Lx = 3 kHz일 때 사용되는 부호의 개수(Nsign)가 Nsign = 100일 수 있다. Lx = 4 kHz일 때, Q0의 엘리먼트로서 3 kHz ~ 4 kHz에서 정확한 부호가 전송되고, Lx = 3kHz인 경우와 비교했을 때 작은 개수의 부호가 이용된다.
도 7은 48kbps에서 USAC의 주파수 스펙트럼 양자화기를 이용하고, 대역폭이 Ux = 14.25 kHz로 설정된 경우에, 본 발명(ACSR: Audio Coding based on Spectral Recovery)과 USAC에서 MDCT 계수들을 위한 코딩 비트의 평균 개수가 도시된다. 2048 샘플 길이의 입력에 대해 USAC는 608 ⅹ 2 프레임에 대해 1216 MDCT 계수를 가지고, 본 발명은 Lx = 3 kHz 및 4 kHz인 경우 Q0에 대해 각각 736, 778 MDCT 계수를 가진다. 즉, 본 발명은 USAC에 비해 20.4% 감소된 코딩 비트의 개수를 나타낸다. 스케일 팩터와 같은 부가 정보가 프레임 기반에서 처리되며, 그것의 비트 개수는 거의 동일하다.
한편, 본 발명에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.
본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 즉 정보 캐리어, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체) 또는 전파 신호에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.
컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.
또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체 및 전송매체를 모두 포함할 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims (20)

  1. 부호화기에서 수행하는 주파수 스펙트럼 복원 기법의 부호화 방법에 있어서,
    입력 신호에 대해 변환 코딩을 수행하는 단계;
    상기 변환 코딩을 통해 도출된 2D 체크 패턴에서의 주파수 스펙트럼 계수를 식별하는 단계;
    상기 2D 체크 패턴에서의 주파수 스펙트럼 계수들 중 복호화기로 전송할 현재 프레임에 대한 제1 주파수 스펙트럼 계수와 복호화기로 전송하지 않는 것으로 결정된 현재 프레임에 대한 제2 주파수 스펙트럼 계수를 결정하는 단계;
    상기 복호화기로 전송하는 제1 주파수 스펙트럼 계수를 부호화하여 복호화기에 전송하는 단계;
    상기 복호화기로 전송하지 않는 것으로 결정된 제2 주파수 스펙트럼 계수의 부호를 선택적으로 복호화기에 전송하는 단계;
    를 포함하는 부호화 방법.
  2. 제1항에 있어서,
    상기 현재 프레임의 주파수 스펙트럼 계수의 에너지 분배 정보를 결정하는 단계;
    상기 에너지 분배 정보를 이용하여 주파수 스펙트럼 복원 기법의 부호화 방법이 적용되는 기준 주파수를 결정하는 단계
    를 더 포함하는 부호화 방법.
  3. 제1항에 있어서,
    상기 제2 주파수 스펙트럼 계수의 부호는,
    상기 부호의 중요도에 따라 정렬되어 복호화기에 선택적으로 전송되는 부호화 방법.
  4. 제1항에 있어서,
    상기 제1 주파수 스펙트럼 계수는,
    산술 부호화를 통해 양자화 및 부호화되어 크기와 부호가 모두 복호화기에 전송되는 부호화 방법.
  5. 복호화기에서 수행하는 주파수 스펙트럼 복원 기법의 복호화 방법에 있어서,
    부호화기에서 전송된 제1 주파수 스펙트럼 계수를 복호화하는 단계;
    뉴럴 네트워크를 통해 상기 제2 주파수 스펙트럼 계수의 크기를 복원하는 단계
    상기 부호화기에서 전송되지 않은 제2 주파수 스펙트럼 계수의 부호 전송 규칙을 결정하는 단계;
    상기 부호 전송 규칙에 따라 상기 제2 주파수 스펙트럼 계수의 부호를 할당하는 단계;
    상기 제1 주파수 스펙트럼 계수 및 상기 부호와 크기가 결정된 제2 주파수 스펙트럼에 대해 역변환 코딩을 수행하여 복원된 입력 신호를 출력하는 단계
    를 포함하는 복호화 방법.
  6. 제5항에 있어서,
    상기 제1 주파수 스펙트럼 계수는,
    부호화기에서 입력 신호를 변환 코딩하여 도출된 2D 체크 패턴에서의 주파수 스펙트럼 계수 중 복호화기에 전송되는 주파수 스펙트럼이고,
    상기 제2 주파수 스펙트럼 계수는,
    부호화기에서 입력 신호를 변환 코딩하여 도출된 2D 체크 패턴에서의 주파수 스펙트럼 계수 중 복호화기에 전송되지 않은 주파수 스펙트럼인 복호화 방법.
  7. 제5항에 있어서,
    상기 제2 주파수 스펙트럼 계수의 부호는,
    상기 부호의 중요도에 따라 정렬되어 부호화기에서 선택적으로 전송되며,
    상기 부호를 할당하는 단계는,
    상기 전송된 부호는 제2 주파수 스펙트럼 계수로 할당하고, 전송되지 않은 부호는 랜덤하게 제2 주파수 스펙트럼 계수로 할당하는 복호화 방법.
  8. 제5항에 있어서,
    상기 제1 주파수 스펙트럼 계수를 복호화하는 단계는,
    산술 복호화에 기초하여 제1 주파수 스펙트럼 계수를 복호화하는 복호화 방법.
  9. 제5항에 있어서,
    상기 뉴럴 네트워크는,
    시간-주파수 도메인의 2D 체크 패턴에서 주파수 인덱스가 감소된 주파수 스펙트럼 계수를 입력으로 훈련되는 복호화 방법.
  10. 제9항에 있어서,
    상기 뉴럴 네트워크는,
    시간-주파수 도메인의 2D 체크 패턴에서 복호화기로 전송되는 현재 프레임에 대한 제1 주파수 인덱스 계수와 이전 프레임의 주파수 인덱스 계수의 합집합의 엘리먼트들 중 기준 주파수보다 낮은 엘리먼트들을 삭제한 결과를 입력으로 하는 복호화 방법.
  11. 주파수 스펙트럼 복원 기법의 부호화 방법을 수행하는 부호화기에 있어서,
    프로세서를 포함하고,
    상기 프로세서는,
    입력 신호에 대해 변환 코딩을 수행하고,
    상기 변환 코딩을 통해 도출된 2D 체크 패턴에서의 주파수 스펙트럼 계수를 식별하고,
    상기 2D 체크 패턴에서의 주파수 스펙트럼 계수들 중 복호화기로 전송할 현재 프레임에 대한 제1 주파수 스펙트럼 계수와 복호화기로 전송하지 않는 것으로 결정된 현재 프레임에 대한 제2 주파수 스펙트럼 계수를 결정하고,
    상기 복호화기로 전송하는 제1 주파수 스펙트럼 계수를 부호화하여 복호화기에 전송하고,
    상기 복호화기로 전송하지 않는 것으로 결정된 제2 주파수 스펙트럼 계수의 부호를 선택적으로 복호화기에 전송하는 부호화기.
  12. 제11항에 있어서,
    상기 프로세서는,
    현재 프레임의 주파수 스펙트럼 계수의 에너지 분배 정보를 결정하고,
    상기 에너지 분배 정보를 이용하여 주파수 스펙트럼 복원 기법의 부호화 방법이 적용되는 기준 주파수를 결정하는 부호화기.
  13. 제11항에 있어서,
    상기 제2 주파수 스펙트럼 계수의 부호는,
    상기 부호의 중요도에 따라 정렬되어 복호화기에 선택적으로 전송되는 부호화기.
  14. 제11항에 있어서,
    상기 제1 주파수 스펙트럼 계수는,
    산술 부호화를 통해 양자화 및 부호화되어 크기와 부호가 모두 복호화기에 전송되는 부호화기.
  15. 주파수 스펙트럼 복원 기법의 복호화 방법을 수행하는 복호화기에 있어서,
    프로세서를 포함하고,
    상기 프로세서는,
    부호화기에서 전송된 제1 주파수 스펙트럼 계수를 복호화하고,
    뉴럴 네트워크를 통해 상기 제2 주파수 스펙트럼 계수의 크기를 복원하고,
    상기 부호화기에서 전송되지 않은 제2 주파수 스펙트럼 계수의 부호 전송 규칙을 결정하고,
    상기 부호 전송 규칙에 따라 상기 제2 주파수 스펙트럼 계수의 부호를 할당하고,
    상기 제1 주파수 스펙트럼 계수 및 상기 부호와 크기가 결정된 제2 주파수 스펙트럼에 대해 역변환 코딩을 수행하여 복원된 입력 신호를 출력하는 복호화기.
  16. 제15항에 있어서,
    상기 제1 주파수 스펙트럼 계수는,
    부호화기에서 입력 신호를 변환 코딩하여 도출된 2D 체크 패턴에서의 주파수 스펙트럼 계수 중 복호화기에 전송되는 주파수 스펙트럼이고,
    상기 제2 주파수 스펙트럼 계수는,
    부호화기에서 입력 신호를 변환 코딩하여 도출된 2D 체크 패턴에서의 주파수 스펙트럼 계수 중 복호화기에 전송되지 않은 주파수 스펙트럼인 복호화기.
  17. 제15항에 있어서,
    상기 제2 주파수 스펙트럼 계수의 부호는,
    상기 부호의 중요도에 따라 정렬되어 부호화기에서 선택적으로 전송되며,
    상기 부호를 할당하는 단계는,
    상기 전송된 부호는 제2 주파수 스펙트럼 계수로 할당하고, 전송되지 않은 부호는 랜덤하게 제2 주파수 스펙트럼 계수로 할당하는 복호화기.
  18. 제15항에 있어서,
    상기 프로세서는,
    산술 복호화에 기초하여 제1 주파수 스펙트럼 계수를 복호화하는 복호화기.
  19. 제15항에 있어서,
    상기 뉴럴 네트워크는,
    시간-주파수 도메인의 2D 체크 패턴에서 주파수 인덱스가 감소된 주파수 스펙트럼 계수를 입력으로 훈련되는 복호화기.
  20. 제19항에 있어서,
    상기 뉴럴 네트워크는,
    시간-주파수 도메인의 2D 체크 패턴에서 복호화기로 전송되는 현재 프레임에 대한 제1 주파수 인덱스 계수와 이전 프레임의 주파수 인덱스 계수의 합집합의 엘리먼트들 중 기준 주파수보다 낮은 엘리먼트들을 삭제한 결과를 입력으로 하는 복호화기.
KR1020190052560A 2019-05-03 2019-05-03 주파수 복원 기법 기반 오디오 부호화 방법 KR20200127781A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190052560A KR20200127781A (ko) 2019-05-03 2019-05-03 주파수 복원 기법 기반 오디오 부호화 방법
US16/843,649 US11508386B2 (en) 2019-05-03 2020-04-08 Audio coding method based on spectral recovery scheme

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190052560A KR20200127781A (ko) 2019-05-03 2019-05-03 주파수 복원 기법 기반 오디오 부호화 방법

Publications (1)

Publication Number Publication Date
KR20200127781A true KR20200127781A (ko) 2020-11-11

Family

ID=73016978

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190052560A KR20200127781A (ko) 2019-05-03 2019-05-03 주파수 복원 기법 기반 오디오 부호화 방법

Country Status (2)

Country Link
US (1) US11508386B2 (ko)
KR (1) KR20200127781A (ko)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100829870B1 (ko) 2006-02-03 2008-05-19 한국전자통신연구원 멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
KR101375668B1 (ko) * 2008-03-17 2014-03-18 삼성전자주식회사 변환 계수의 부호화, 복호화 방법 및 장치
US9479786B2 (en) * 2008-09-26 2016-10-25 Dolby Laboratories Licensing Corporation Complexity allocation for video and image coding applications
US8428959B2 (en) * 2010-01-29 2013-04-23 Polycom, Inc. Audio packet loss concealment by transform interpolation
JP6185457B2 (ja) 2011-04-28 2017-08-23 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定
WO2013048171A2 (ko) * 2011-09-28 2013-04-04 엘지전자 주식회사 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치
US10388293B2 (en) * 2013-09-16 2019-08-20 Samsung Electronics Co., Ltd. Signal encoding method and device and signal decoding method and device
KR101805976B1 (ko) 2015-03-02 2017-12-07 한국전자통신연구원 음성 인식 장치 및 방법
CN109328461B (zh) * 2016-04-29 2023-09-05 世宗大学校产学协力团 视频信号编码/解码方法和设备
KR20180111271A (ko) 2017-03-31 2018-10-11 삼성전자주식회사 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치
JP7085009B2 (ja) * 2018-03-07 2022-06-15 華為技術有限公司 マルチ符号ビット隠蔽及び残差符号予測を和合する方法及び装置

Also Published As

Publication number Publication date
US20200349959A1 (en) 2020-11-05
US11508386B2 (en) 2022-11-22

Similar Documents

Publication Publication Date Title
US6064954A (en) Digital audio signal coding
JP3592473B2 (ja) 周波数領域内のlpc予測による時間領域内での知覚ノイズ整形
AU2006332046B2 (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US9355646B2 (en) Method and apparatus to encode and decode an audio/speech signal
KR101162275B1 (ko) 오디오 신호 처리 방법 및 장치
KR101237413B1 (ko) 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치
RU2505921C2 (ru) Способ и устройство кодирования и декодирования аудиосигналов (варианты)
JP5400143B2 (ja) オーバーラッピング変換の2つのブロック変換への因数分解
UA83207C2 (ru) Способ и устройство устойчивого векторного прогнозного квантования параметров линейного прогнозирования в кодировании языка с переменной битовой скоростью
RU97122037A (ru) Способ и устройство для масштабируемого кодирования/декодирования аудиосигнала
JP4538324B2 (ja) 音声信号符号化
JP2005338850A (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
US8515770B2 (en) Method and apparatus for encoding and decoding excitation patterns from which the masking levels for an audio signal encoding and decoding are determined
KR20210012031A (ko) Mdct기반의 코더와 이종의 코더 간 변환에서의 인코딩 장치 및 디코딩 장치
JP3824607B2 (ja) 時間−周波数相関性を利用した改善されたオーディオ符号化及び/または復号化方法とその装置
US20130103394A1 (en) Device and method for efficiently encoding quantization parameters of spectral coefficient coding
JP4843142B2 (ja) 音声符号化のための利得−適応性量子化及び不均一符号長の使用
Shin et al. Audio coding based on spectral recovery by convolutional neural network
JP4359949B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
CN109427338B (zh) 立体声信号的编码方法和编码装置
KR20200127781A (ko) 주파수 복원 기법 기반 오디오 부호화 방법
KR20210133551A (ko) 적응형 주파수 복원 기법 기반 오디오 부호화 방법
JP5361565B2 (ja) 符号化方法、復号方法、符号化器、復号器およびプログラム
KR100737386B1 (ko) 공간정보기반 오디오 부호화를 위한 채널간 에너지비 추정및 양자화 방법
JPH0990989A (ja) 変換符号化方法および変換復号化方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X601 Decision of rejection after re-examination