KR20230018838A - 벡터 양자화된 잔여오차 특징을 사용한 오디오 부호화/복호화 장치 및 그 방법 - Google Patents

벡터 양자화된 잔여오차 특징을 사용한 오디오 부호화/복호화 장치 및 그 방법 Download PDF

Info

Publication number
KR20230018838A
KR20230018838A KR1020210100809A KR20210100809A KR20230018838A KR 20230018838 A KR20230018838 A KR 20230018838A KR 1020210100809 A KR1020210100809 A KR 1020210100809A KR 20210100809 A KR20210100809 A KR 20210100809A KR 20230018838 A KR20230018838 A KR 20230018838A
Authority
KR
South Korea
Prior art keywords
feature vector
bitstream
side information
residual error
encoding
Prior art date
Application number
KR1020210100809A
Other languages
English (en)
Inventor
장인선
백승권
성종모
이태진
임우택
신종원
천영주
한상욱
황수중
Original Assignee
한국전자통신연구원
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원, 광주과학기술원 filed Critical 한국전자통신연구원
Priority to KR1020210100809A priority Critical patent/KR20230018838A/ko
Priority to US17/711,908 priority patent/US11804230B2/en
Publication of KR20230018838A publication Critical patent/KR20230018838A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

벡터 양자화된 잔여오차 특징을 사용한 오디오 부호화/복호화 장치 및 그 방법이 개시된다. 오디오 부호화 방법은 원본 신호를 부호화하여 메인 코덱의 비트스트림을 출력하는 단계; 상기 메인 코덱의 비트스트림을 복호화하는 단계; 복호화한 신호의 특징 벡터와 상기 원본 신호의 특징 벡터로부터 잔여 오차 특징 벡터를 결정하는 단계; 및 상기 잔여 오차 특징 벡터를 부호화하여 부가 정보의 비트스트림을 출력하는 단계를 포함할 수 있다.

Description

벡터 양자화된 잔여오차 특징을 사용한 오디오 부호화/복호화 장치 및 그 방법{AUDIO ENCODING/DECODING APPARATUS AND METHOD USING VECTOR QUANTIZED RESIDUAL ERROR FEATURE}
본 발명은 벡터 양자화된 잔여오차 특징을 신경망으로 압축하여 부가정보로 이용함으로써 코딩음질을 향상시킬 수 있는 장치 및 방법에 관한 것이다.
오디오 코딩 기술을 낮은 비트율에서 작동하는 경우, 프리에코(pre-echo) 및 양자화 잡음과 같은 코딩 아티펙트(artifact)가 발생하여 오디오 음질이 저하될 수 있다. 이러한 코딩 아티펙트를 제거하여 음질을 향상시키는 다양한 전/후처리 기법들이 개발되고 있다
Ghido, Florin, et al. "Coding of fine granular audio signals using High Resolution Envelope Processing (HREP)." 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017의 오디오 코딩 방법은 신호의 고주파 성분의 gain 값을 부가 정보로 사용하여 음질을 향상시키는 방법으로써 pre-echo가 발생할 수 있는 transient signal을 검출, envelop를 평탄화(flattening)시키고, 복호화 단에서 전송된 부가 정보를 이용하여 평탄화된 성분을 원래의 성분으로 되돌리는 방식이다.
종래의 부가 정보를 이용한 코딩 음질 향상 기법들은 부가 정보를 음성 존재 유무, transient signal 여부, 또는 시간-주파수 영역에서 신호의 gain 값 등으로 한정시키고 있으므로 음질 향상 폭을 제한 시킨다는 한계가 있었다.
따라서, 음질 향상 폭을 제한하지 않으면서 오디오 코딩의 음질을 향상할 수 있는 방법이 요청되고 있다.
본 발명은 잔여오차 특징들을 신경망을 이용하여 부호화하고 벡터 양자화하여 부가정보로 전송하는 오디오 부호화 장치 및 수신한 부가 정보를 신경망을 이용하여 후처리함으로써 기존 코덱과의 역호환성을 제공하고 기존 코덱으로 복호화된 오디오 신호의 음질을 향상시킬 수 있는 오디오 복호화 장치 및 방법을 제공할 수 있다.
또한, 본 발명은 부가 정보 인코더에서 잔여 오차 특징 벡터를 부호화하는 딥러닝 모델과 부가 정보 디코더에서 잔여 오차 특징 벡터를 복원하는 딥러닝 모델 및 후처리 프로세서에서 원본 신호의 특징 벡터를 추정하는 딥러닝 모델을 조인트 트레이닝(joint training)하는 종단간 딥러닝을 수행함으로써, 딥러닝 모델들을 사용하는 부가 정보 인코더, 부가 정보 디코더 및 후처리 프로세스의 오차가 순차적으로 누적되지 않도록 하는 장치 및 방법을 제공할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법은 원본 신호를 부호화하여 메인 코덱의 비트스트림을 출력하는 단계; 상기 메인 코덱의 비트스트림을 복호화하는 단계; 복호화한 신호의 특징 벡터와 상기 원본 신호의 특징 벡터로부터 잔여 오차 특징 벡터를 결정하는 단계; 및 상기 잔여 오차 특징 벡터를 부호화하여 부가 정보의 비트스트림을 출력하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법의 상기 부가 정보 비트스트림을 출력하는 단계는, 상기 잔여 오차 특징 벡터를 잠재 공간으로 대응 시키는 단계; 잠재 공간에 대응된 잔여 오차 특징 벡터를 벡터 양자화를 위한 코드 벡터로 할당하여 부호화하는 단계; 및 부호화된 잔여 오차 특징 벡터를 양자화하여 부가 정보 비트스트림을 출력하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법의 상기 잔여 오차 특징 벡터를 부호화하는 부가 정보 인코더는, 상기 부가 정보 인코더의 부호화에 따른 손실, 상기 부가 정보 비트스트림을 복호화하는 부가 정보 디코더의 벡터 양자화에 따른 손실 및 원본 신호의 특징 벡터와 상기 메인 코덱의 비트스트림 및 상기 부가 정보의 비트스트림으로부터 추정한 원본 신호의 특징 벡터 간의 차이에 따라 결정된 손실 함수에 따라 트레이닝될 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법은 상기 잔여 오차 특징 벡터를 부호화하는 부가 정보 인코더를 상기 부가 정보 비트스트림을 복호화하는 부가 정보 디코더 및 상기 메인 코덱의 비트스트림, 상기 부가 정보의 비트스트림을 기초로 원본 신호의 특징 벡터를 추정하는 후처리 프로세서와 함께 트레이닝하는 단계를 더 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법의 상기 트레이닝하는 단계는, 평균 제곱 오차(MSE: mean squared error) 함수 및 VQ-VAE(Vector Quantized Variational AutoEncoder)의 손실 함수에 기초한 손실 함수를 이용하여 상기 부가 정보 인코더, 상기 부가 정보 디코더 및 후처리 프로세서를 트레이닝할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법은 상기 복호화한 신호에 포함된 음향 특징들로부터 상기 복호화한 신호의 특징 벡터를 추출하는 단계; 및 상기 원본 신호에 포함된 음향 특징들로부터 상기 원본 신호의 특징 벡터를 추출하는 단계를 더 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법은 메인 코덱의 비트스트림 및 부가 정보의 비트스트림을 수신하는 단계; 상기 메인 코덱의 비트스트림을 복호화하는 단계; 복호화한 신호에 포함된 음향 특징들로부터 상기 복호화한 신호의 특징 벡터를 추출하는 단계; 상기 부가 정보의 비트스트림을 복호화하여 잔여 오차 특징 벡터를 복원하는 단계; 및 복호화한 신호의 특징 벡터와 상기 잔여 오차 특징 벡터로부터 원본 신호의 특징 벡터를 추정하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법의 상기 원본 신호의 특징 벡터를 추정하는 단계는, 상기 복호화한 신호의 특징 벡터와 상기 잔여 오차 특징 벡터를 결합하여 상기 원본 신호의 특징 벡터를 추정할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법은 추정한 원본 신호의 특징 벡터를 시간 영역 표현으로 변환하여 출력하는 단계를 더 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법은 상기 부가 정보 비트스트림을 복호화하는 부가 정보 디코더 및 상기 메인 코덱의 비트스트림, 상기 부가 정보의 비트스트림을 기초로 원본 신호의 특징 벡터를 추정하는 후처리 프로세서를 부호화 장치에서 상기 잔여 오차 특징 벡터를 부호화하는 부가 정보 인코더와 함께 트레이닝하는 단계를 더 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 장치는 원본 신호를 부호화하여 메인 코덱의 비트스트림을 출력하는 메인 코덱 인코더; 상기 메인 코덱의 비트스트림을 복호화하는 메인 코덱 디코더; 및 복호화한 신호의 특징 벡터와 상기 원본 신호의 특징 벡터로부터 잔여 오차 특징 벡터를 결정하고, 상기 잔여 오차 특징 벡터를 부호화하여 부가 정보의 비트스트림을 출력하는 부가 정보 인코더를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 장치의 상기 부가 정보 인코더는, 상기 잔여 오차 특징 벡터를 잠재 공간으로 대응 시키고, 잠재 공간에 대응된 잔여 오차 특징 벡터를 벡터 양자화를 위한 코드 벡터로 할당하여 부호화하며, 부호화된 잔여 오차 특징 벡터를 양자화하여 부가 정보 비트스트림을 출력할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 장치의 상기 부가 정보 인코더는, 상기 부가 정보 인코더의 부호화에 따른 손실, 부가 정보 디코더의 벡터 양자화에 따른 손실 및 원본 신호의 특징 벡터와 상기 메인 코덱의 비트스트림 및 상기 부가 정보의 비트스트림으로부터 추정한 원본 신호의 특징 벡터 간의 차이에 따라 결정된 손실 함수에 따라 트레이닝될 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 장치의 상기 부가 정보 인코더는, 상기 부가 정보 비트스트림을 복호화하는 부가 정보 디코더 및 상기 메인 코덱의 비트스트림, 상기 부가 정보의 비트스트림을 기초로 원본 신호의 특징 벡터를 추정할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 장치의 상기 부가 정보 인코더는, 평균 제곱 오차(MSE: mean squared error) 함수 및 VQ-VAE(Vector Quantized Variational AutoEncoder)의 손실 함수에 기초한 손실 함수를 이용하여 상기 부가 정보 디코더 및 후처리 프로세서와 함께 트레이닝될 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 장치는 메인 코덱의 비트스트림을 수신하고, 상기 메인 코덱의 비트스트림을 복호화하는 메인 코덱 디코더; 복호화한 신호에 포함된 음향 특징들로부터 상기 복호화한 신호의 특징 벡터를 추출하는 특징 추출기; 부가 정보의 비트스트림을 수신하고, 상기 부가 정보의 비트스트림을 복호화하여 잔여 오차 특징 벡터를 복원하는 부가 정보 디코더; 및 복호화한 신호의 특징 벡터와 상기 잔여 오차 특징 벡터로부터 원본 신호의 특징 벡터를 추정하는 후처리 프로세서를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 장치의 상기 후처리 프로세서는, 상기 복호화한 신호의 특징 벡터와 상기 잔여 오차 특징 벡터를 결합하여 상기 원본 신호의 특징 벡터를 추정할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 장치의 상기 후처리 프로세서는, 추정한 원본 신호의 특징 벡터를 시간 영역 표현으로 변환하여 출력할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 장치의 상기 부가 정보 디코더 및 상기 후처리 프로세서는, 부호화 장치에서 상기 잔여 오차 특징 벡터를 부호화하여 상기 부가 정보의 비트스트림을 출력하는 부가 정보 인코더와 함께 트레이닝될 수 있다.
본 발명의 일실시예에 의하면, 오디오 부호화 장치가 잔여오차 특징들을 신경망을 이용하여 부호화하고 벡터 양자화하여 부가정보로 전송하고, 오디오 복호화 장치가 수신한 부가 정보를 신경망을 이용하여 후처리 함으로써 기존 코덱과의 역호환성을 제공하고 기존 코덱으로 복호화된 오디오 신호의 음질을 향상시킬 수 있다.
또한, 본 발명의 일실시예에 의하면, 잔여 오차 특징 벡터를 부호화하는 딥러닝 모델과 잔여 오차 특징 벡터를 복원하는 딥러닝 모델 및 원본 신호의 특징 벡터를 추정하는 딥러닝 모델을 조인트 트레이닝(joint training)하는 종단간 딥러닝을 수행함으로써, 딥러닝 모델들을 사용하는 부가 정보 인코더 부가 정보 디코더 및 후처리 프로세스의 오차가 순차적으로 누적되지 않도록 할 수 있다.
그리고, 본 발명은 딥러닝 모델들을 조인트 트레이닝(joint training)하는 종단간 딥러닝을 수행함으로써, 압축된 잠재 벡터를 양자화 하는 코드 벡터를 효과적으로 트레이닝하여 오디오 부호화 과정에서 음질향상을 위한 부가정보를 추출할 수 있다.
도 1은 본 발명의 일실시예에 따른 오디오 부호화 장치 및 오디오 복호화 장치를 나타내는 도면이다.
도 2는 본 발명의 일실시예에 따른 오디오 부호화 장치 및 오디오 복호화 장치의 동작 일례이다.
도 3은 본 발명의 일실시예에 따른 오디오 복호화 장치의 출력에 대한 성능 평가의 일례이다.
도 4는 본 발명의 일실시예에 따른 오디오 복호화 장치의 출력에 대한 음질 평가의 일례이다.
도 5는 본 발명의 일실시예에 따른 오디오 복호화 장치가 출력한 신호의 스펙트로그램의 일례이다.
도 6은 본 발명의 일실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
도 7은 본 발명의 일실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 본 발명의 일실시예에 따른 오디오 부호화 방법 및 오디오 복호화 방법은 오디오 부호화 장치(110) 및 오디오 복호화 장치(120)에 의해 수행될 수 있다.
도 1은 본 발명의 일실시예에 따른 오디오 부호화 장치 및 오디오 복호화 장치를 나타내는 도면이다.
오디오 부호화 장치(110)는 도 1에 도시된 바와 같이 메인 코덱 인코더(111), 메인 코덱 디코더(112), 특징 추출기(113), 특징 추출기(114), 및 부가 정보 인코더(115)를 포함할 수 있다. 이때, 메인 코덱 인코더(111), 메인 코덱 디코더(112), 특징 추출기(113), 특징 추출기(114), 및 부가 정보 인코더(115)는 서로 다른 프로세스, 또는 하나의 프로세스에 포함된 각각의 모듈일 수 있다.
메인 코덱 인코더(111)는 원본 신호
Figure pat00001
를 부호화하여 메인 코덱의 비트스트림을 출력할 수 있다. 예를 들어, 메인 코덱은 HE-AAC(High-Efficiency Advanced Audio Coding)와 같은 레거시 코덱일 수 있다.
메인 코덱 디코더(112)는 메인 코덱의 비트스트림을 복호화하여 복호화한 신호
Figure pat00002
를 출력할 수 있다.
특징 추출기(113)는 복호화한 신호
Figure pat00003
에 포함된 음향 특징들로부터 복호화한 신호
Figure pat00004
의 특징 벡터 Xd를 추출할 수 있다.
특징 추출기(114)는 원본 신호
Figure pat00005
에 포함된 음향 특징들로부터 원본 신호
Figure pat00006
의 특징 벡터 Xo를 추출할 수 있다. 예를 들어, 특징 추출기(113) 및 특징 추출기(114)는 LPS (log power spectra)와 같은 다양한 종류의 음향 특징들 중 적어도 하나를 이용하여 특징 벡터 Xd 및 특징 벡터 Xo를 추출할 수 있다.
부가 정보 인코더(115)는 복호화한 신호
Figure pat00007
의 특징 벡터 Xd와 원본 신호
Figure pat00008
의 특징 벡터 Xo로부터 잔여 오차 특징 벡터 Xr을 결정할 수 있다. 그리고, 부가 정보 인코더(115)는 잔여 오차 특징 벡터 Xr을 부호화하여 부가 정보의 비트스트림을 출력할 수 있다. 이때, 잔여 오차 특징 벡터 Xr은 수학식 1을 만족할 수 있다.
Figure pat00009
이때, 부가 정보 인코더(115)는 잔여 오차 특징 벡터 Xr을 잔여 오차 특징 벡터의 차원수보다 더 작은 차원의 잠재 공간으로 대응 시킬 수 있다. 예를 들어, 부가 정보 인코더(115)에 입력된 잔여 오차 특징 벡터 Xr의 차원수는 257이고, 부가 정보 인코더(115)에서 출력되는 비트스트림의 차원수는 32일 수 있다. 또한, 잠재 공간은 관측된 데이터(observed data)에 내재되어 있는 잠재 정보를 표현하는 공간일 수 있다.
다음으로, 부가 정보 인코더(115)는 잠재 공간에 대응된 잔여 오차 특징 벡터를 벡터 양자화를 위한 코드 벡터로 할당하여 부호화할 수 있다. 그 다음으로, 부가 정보 인코더(115)는 부호화된 잔여 오차 특징 벡터를 양자화하여 부가 정보 비트스트림을 출력할 수 있다.
이때, 부가 정보 인코더(115)는 부가 정보 인코더(115)의 부호화 및 벡터 양자화에 따른 손실, 및 후처리 프로세서(1240)가 원본 신호의 특징 벡터와 메인 코덱의 비트스트림 및 부가 정보의 비트스트림으로부터 추정한 원본 신호의 특징 벡터 간의 차이에 따라 결정된 손실 함수에 따라 트레이닝될 수 있다. 이때, 부가 정보 인코더(115)는 부가 정보 디코더(123), 및 후처리 프로세서(124)와 함께 트레이닝될 수 있다. 예를 들어, 부가 정보 인코더(115), 부가 정보 디코더(123), 및 후처리 프로세서(124)는 수학식 2와 같이 나타내는 손실 함수 L에 따라 조인트 트레이닝(joint training)을 수행할 수 있다.
Figure pat00010
이때,
Figure pat00011
는 부가 정보 인코더(115)의 최적화를 위한 부호화 및 벡터 양자화에 따른 손실이고,
Figure pat00012
는 부가 정보 디코더(123)의 복호화 및 벡터양자화에 따른 손실일 수 있다. 또한,
Figure pat00013
는 후처리 프로세서(124)에서 원본 신호의 특징 벡터 Xo와 후처리 프로세서(124)가 추정한 원본 신호의 특징 벡터
Figure pat00014
간의 차이일 수 있다. 또한, 손실 함수는 평균 제곱 오차 (mean squared error, MSE) 등 다양한 최적화 방법을 이용하여 트레이닝 될 수 있다.
정리하면, 부가 정보 인코더(115)는 평균 제곱 오차(MSE: mean squared error) 함수 및 VQ-VAE(Vector Quantized Variational AutoEncoder)의 손실 함수에 기초한 손실 함수를 이용하여 부가 정보 디코더(123) 및 후처리 프로세서(124)와 함께 트레이닝될 수 있다. 예를 들어, 부가 정보 인코더(115), 부가 정보 디코더(123) 및 후처리 프로세서(124)는 수학식 2와 같이 MSE 함수(
Figure pat00015
) 및 VQ-VAE의 함수(
Figure pat00016
,
Figure pat00017
)를 결합한 손실 함수를 사용하여 트레이닝될 수 있다.
오디오 복호화 장치(110)는 도 1에 도시된 바와 같이 메인 코덱 디코더(121), 특징 추출기(122), 부가 정보 디코더(123) 및 후처리 프로세서(124)를 포함할 수 있다. 이때, 메인 코덱 디코더(121), 특징 추출기(122), 부가 정보 디코더(123) 및 후처리 프로세서(124)는 서로 다른 프로세스, 또는 하나의 프로세스에 포함된 각각의 모듈일 수 있다.
메인 코덱 디코더(121)는 오디오 부호화 장치(110)의 메인 코덱 인코더(111)로부터 메인 코덱의 비트스트림을 수신할 수 있다. 그리고, 메인 코덱 디코더(121)는 수신한 메인 코덱의 비트스트림을 복호화하여 복호화한 신호
Figure pat00018
를 출력할 수 있다. 또한, 메인 코덱 디코더(121)는 오디오 신호 부호화 장치(110)의 메인 코덱 디코더(112)와 동일하게 동작할 수 있다.
특징 추출기(122)는 메인 코덱 디코더(121)가 복호화한 신호
Figure pat00019
에 포함된 음향 특징들로부터 복호화한 신호
Figure pat00020
의 특징 벡터 Xd를 추출할 수 있다. 또한, 특징 추출기(122)는 오디오 신호 부호화 장치(110)의 특징 추출기(112)와 동일하게 동작할 수 있다.
부가 정보 디코더(123)는 오디오 부호화 장치(110)의 부가 정보 인코더(115)로부터 부가 정보의 비트스트림을 수신할 수 있다. 그리고, 부가 정보 디코더(123)는 수신한 부가 정보의 비트스트림을 복호화하여 잔여 오차 특징 벡터를 복원할 수 있다.
후처리 프로세서(124)는 복호화한 신호
Figure pat00021
의 특징 벡터 Xd와 부가 정보 디코더(123)가 복원한 잔여 오차 특징 벡터
Figure pat00022
로부터 원본 신호의 특징 벡터를 추정할 수 있다. 그리고, 후처리 프로세서(124)는 추정한 원본 신호의 특징 벡터
Figure pat00023
를 시간 영역 표현
Figure pat00024
로 변환하여 출력할 수 있다. 이때, 후처리 프로세서(124)는 특징 벡터 Xd와 잔여 오차 특징 벡터
Figure pat00025
을 결합하여 원본 신호의 특징 벡터를 추정할 수 있다.
본 발명에 따른 오디오 부호화 장치(110)는 잔여오차 특징들을 신경망을 이용하여 부호화하고 벡터 양자화하여 부가정보로 전송하고, 오디오 복호화 장치(120)는 수신한 부가 정보를 신경망을 이용하여 후처리 함으로써 기존 코덱과의 역호환성을 제공하고 기존 코덱으로 복호화된 오디오 신호의 음질을 향상시킬 수 있다.
도 2는 본 발명의 일실시예에 따른 오디오 부호화 장치 및 오디오 복호화 장치의 동작 일례이다.
원본 신호
Figure pat00026
는 도 2에 도시된 바와 같이 메인 코덱 인코더(111) 및 특징 추출기(114)에 입력될 수 있다.
이때, 메인 코덱 인코더(111)는 원본 신호
Figure pat00027
를 부호화하여 오디오 부호화 장치(120)의 메인 코덱 디코더(112) 및 오디오 복호화 장치(120)의 메인 코덱 디코더(121)로 전송할 수 있다.
그리고, 메인 코덱 디코더(112) 및 메인 코덱 디코더(121)는 각각 수신한 비트스트림을 복호화하여 복호화한 신호
Figure pat00028
를 출력할 수 있다.
특징 추출기(113)는 복호화한 신호
Figure pat00029
에 포함된 음향 특징들로부터 복호화한 신호
Figure pat00030
의 특징 벡터 Xd를 추출할 수 있다. 또한, 특징 추출기(114)는 원본 신호
Figure pat00031
에 포함된 음향 특징들로부터 원본 신호
Figure pat00032
의 특징 벡터 Xo를 추출할 수 있다.
이때, 부가 정보 인코더(115)는 원본 신호
Figure pat00033
의 특징 벡터 Xo와 복호화한 신호
Figure pat00034
의 특징 벡터 Xd 간의 차이인 잔여 오차 특징 벡터 Xr을 결정할 수 있다. 그리고, 부가 정보 인코더(115)는 잔여 오차 특징 벡터 Xr을 부호화하여 부가 정보의 비트스트림을 출력할 수 있다. 예를 들어, 부가 정보 인코더(115)가 잔여 오차 특징 벡터 Xr의 부호화에 사용하는 신경망은 구조(210)를 가지는 딥러닝 모델로 형성될 수 있다. 또한, 부가 정보 인코더(115)의 출력 코드 벡터는 VQ 코드북(220)의 대표 코드 벡터로 할당될 수 있다. 이때, 대표 코드 벡터는 VQ 코드북(220)에 포함된 벡터들 중에서 벡터들 간의 거리가 가장 가까운 코드 벡터들일 수 있다. 예를 들어, 벡터들 간의 거리는 유클리디언 디스턴스(Euclidean distance) 등을 이용하여 계산될 수 있다.
그 다음으로, 부가 정보 인코더(115)는 부호화된 잔여 오차 특징 벡터를 양자화하여 부가 정보 비트스트림을 출력할 수 있다. 이때, 부가 정보 비트스트림에는 부가 정보의 코드북 인덱스(코드 벡터 인덱스)가 포함될 수 있다. 그리고, 부가 정보 인코더(115)는 코드 북(220) 및 부가 정보 비트스트림을 부가 정보 디코더(123)에게 전송할 수 있다.
부가 정보 디코더(123)는 오디오 부호화 장치(110)의 부가 정보 인코더(115)로부터 수신한 부가 정보의 비트스트림을 복호화하여 잔여 오차 특징 벡터를 복원할 수 있다. 예를 들어, 부가 정보 디코더(123)가 잔여 오차 특징 벡터 Xr의 복호화에 사용하는 신경망은 구조(230)를 가지는 딥러닝 모델로 형성될 수 있다. 이때, 부가 정보 디코더(123)는 코드 북(220)의 코드 벡터를 사용하여 잔여 오차 특징 벡터를 복원할 수 있다.
특징 추출기(122)는 메인 코덱 디코더(121)가 복호화한 신호
Figure pat00035
에 포함된 음향 특징들로부터 복호화한 신호
Figure pat00036
의 특징 벡터 Xd를 추출할 수 있다.
결합(concatenate) 연산기(201)는 특징 벡터 Xd와 부가 정보 디코더(123)가 복원한 잔여 오차 특징 벡터
Figure pat00037
에 결합 연산을 수행한 결과인
Figure pat00038
를 후처리 프로세서(124)에 입력할 수 있다. 그리고, 후처리 프로세서(124)는 구조(240)를 가지는 딥러닝 모듈을 이용하여
Figure pat00039
부터 원본 신호의 특징 벡터를 추정할 수 있다. 그리고, 후처리 프로세서(124)는 추정한 원본 신호의 특징 벡터
Figure pat00040
를 출력할 수 있다. 이때, 파형 복원기(202)는 추정한 원본 신호의 특징 벡터
Figure pat00041
를 시간 영역 표현
Figure pat00042
로 변환하여 출력할 수 있다.
오디오 부호화 장치(110) 및 오디오 복호화 장치(120)는 부가 정보 인코더(115)에서 잔여 오차 특징 벡터를 부호화하는 딥러닝 모델과 부가 정보 디코더(123)에서 잔여 오차 특징 벡터를 복원하는 딥러닝 모델 및 후처리 프로세서(124)에서 원본 신호의 특징 벡터를 추정하는 딥러닝 모델을 조인트 트레이닝(joint training)하는 종단간 딥러닝을 수행함으로써, 딥러닝 모델들을 사용하는 부가 정보 인코더(115), 부가 정보 디코더(123) 및 후처리 프로세스(124)의 오차가 순차적으로 누적되지 않도록 할 수 있다.
또한, 오디오 부호화 장치(110) 및 오디오 복호화 장치(120)는 구조(210)를 가지는 딥러닝 모델, 구조(230)를 가지는 딥러닝 모델, 및 구조(240)를 가지는 딥러닝 모듈을 조인트 트레이닝(joint training)하는 종단간 딥러닝을 수행함으로써, 압축된 잠재 벡터를 양자화 하는 코드 벡터를 효과적으로 트레이닝하여 오디오 부호화 과정에서 음질향상을 위한 부가정보를 추출할 수 있다. 구체적으로, 오디오 부호화 장치(110) 및 오디오 복호화 장치(120)는 수학식 2의 손실 함수를 최소화하도록 구조(210)를 가지는 딥러닝 모델, 구조(230)를 가지는 딥러닝 모델, 및 구조(240)를 가지는 딥러닝 모듈을 트레이닝함으로써, 부가 정보 인코더(115), 부가 정보 디코더(123), 코드북(220), 및 후처리 프로세서(124)를 최적화할 수 있다.
도 3은 본 발명의 일실시예에 따른 오디오 복호화 장치의 출력에 대한 성능 평가의 일례이다.
MPEG-4 high-efficiency advanced audio coding (HE-AAC) v1 중 NeroAAC 코덱을 사용한 오디오 복호화 장치의 성능 평가(NeroAAC), NeroAAC 코덱에 후처리기를 추가한 오디오 복호화 장치의 성능 평가(+PP only), 및 메인 코덱으로 NeroAAC 코덱을 사용한 오디오 복호화 장치(120)의 성능 평가(Prop. (+0.6 kbps))는 도 3의 위쪽 표에 도시된 바와 같을 수 있다. 도 3의 표는 표준화된 음성 품질 평가 도구인 ITU-T Recommendation P.862.2 wideband perceptual evaluation of speech quality (PESQ)가 사용하여 측정한 성능의 일례이다.
또한, QAAC 코덱을 사용한 오디오 복호화 장치의 성능 평가(QAAC), QAAC 코덱에 후처리기를 추가한 오디오 복호화 장치의 성능 평가(+PP only), 및 메인 코덱으로 QAAC 코덱을 사용한 오디오 복호화 장치(120)의 성능 평가(Prop. (+0.6 kbps))는 도 3의 아래쪽 표에 도시된 바와 같을 수 있다.
도 3에 도시된 바에 따르면, 본 발명의 일실시예에 따른 오디오 부호화 장치(110) 및 오디오 복호화 장치(120)는 추가로 사용되는 비트율이 약 0.6 kbps임에도 불구하고, 더 높은 비트율에서 작동하는 메인 코덱에 후처리 모듈만 사용한 방법보다 평균 PESQ 점수가 높을 수 있다.
도 4는 본 발명의 일실시예에 따른 오디오 복호화 장치의 출력에 대한 음질 평가의 일례이다.
그래프(410)는 NeroAAC 코덱에 후처리기가 추가된 오디오 복호화 장치에서 복호화한 신호가 16 kbps에서 작동시킨 NeroAAC 코덱을 사용한 오디오 복호화 장치에서 복호화된 신호 보다 품질이 향상된 정도(+PP only), 및 메인 코덱으로 NeroAAC 코덱을 사용한 오디오 복호화 장치(120)에서 복호화한 신호가 16 kbps에서 작동시킨 NeroAAC 코덱을 사용한 오디오 복호화 장치에서 복호화된 신호 보다 품질이 향상된 정도(Prop. (+0.6 kbps))를 나타낼 수 있다.
또한, 그래프(420)는 QAAC 코덱에 후처리기가 추가된 오디오 복호화 장치에서 복호화한 신호가 16 kbps에서 작동시킨 QAAC 코덱을 사용한 오디오 복호화 장치에서 복호화된 신호 보다 품질이 향상된 정도(+PP only), 및 메인 코덱으로 QAAC 코덱을 사용한 오디오 복호화 장치(120)에서 복호화한 신호가 16 kbps에서 작동시킨 QAAC 코덱을 사용한 오디오 복호화 장치에서 복호화된 신호 보다 품질이 향상된 정도(Prop. (+0.6 kbps))를 나타낼 수 있다.
이때, 그래프(410), 및 그래프(420)는 코덱 출력 신호의 품질을 평가하기 위한 코덱 청취 테스트를 수행하는 방법 중 하나인 MUltiple Stimuli with Hidden Reference and Anchor (MUSHRA) 테스트에 따라 측정된 결과일 수 있다.
그래프(410), 및 그래프(420)에 따르면, 본 발명의 일실시예에 따른 오디오 복호화 장치(120)에서 복호화된 신호가 메인 코덱에 후처리만 사용한 오디오 복호화 장치에서 복호화된 신호에 비하여 NeroAAC에서는 9.73점, QAAC에서는 7.93점이 향상됨을 확인할 수 있다.
도 5는 본 발명의 일실시예에 따른 오디오 복호화 장치가 출력한 신호의 스펙트로그램의 일례이다.
도 5의 스펙트로그램(510)은 원본 신호(a), 메인 코덱으로 NeroAAC 코덱을 사용한 오디오 복호화 장치(120)에서 복호화한 신호(b), NeroAAC 코덱에 후처리기를 추가한 오디오 복호화 장치에서 복호화한 신호(c) 및 NeroAAC 코덱을 사용한 기존 오디오 복호화 장치에서 복호화한 신호(d)를 나타낼 수 있다.
또한, 도 5의 스펙트로그램(520)은 원본 신호(a), 메인 코덱으로 QAAC 코덱을 사용한 오디오 복호화 장치(120)에서 복호화한 신호(b), QAAC 코덱에 후처리기를 추가한 오디오 복호화 장치에서 복호화한 신호(c) 및 QAAC 코덱을 사용한 기존 오디오 복호화 장치에서 복호화한 신호(d)를 나타낼 수 있다.
스펙트로그램(510)과 스펙트로그램(520)에 따르면, (c)에서 잘 복원하지 못하는 고주파 대역을 (b)에서는 잘 복원하는 것을 확인할 수 있다.
도 6은 본 발명의 일실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
단계(610)에서 메인 코덱 인코더(111)는 원본 신호
Figure pat00043
를 부호화하여 메인 코덱의 비트스트림을 출력할 수 있다. 이때, 메인 코덱 인코더(111)는 메인 코덱의 비트스트림을 오디오 복호화 장치(120)로 전송할 수 있다.
단계(620)에서 메인 코덱 디코더(112)는 단계(610)에서 출력된 메인 코덱의 비트스트림을 복호화하여 복호화한 신호
Figure pat00044
를 출력할 수 있다.
단계(630)에서 특징 추출기(113)는 단계(620)에서 복호화한 신호
Figure pat00045
에 포함된 음향 특징들로부터 복호화한 신호
Figure pat00046
의 특징 벡터 Xd를 추출할 수 있다.
단계(640)에서 특징 추출기(114)는 원본 신호
Figure pat00047
에 포함된 음향 특징들로부터 원본 신호
Figure pat00048
의 특징 벡터 Xo를 추출할 수 있다.
단계(650)에서 부가 정보 인코더(115)는 복호화한 신호
Figure pat00049
의 특징 벡터 Xd와 원본 신호
Figure pat00050
의 특징 벡터 Xo로부터 잔여 오차 특징 벡터 Xr을 결정할 수 있다.
단계(660)에서 부가 정보 인코더(115)는 잔여 오차 특징 벡터 Xr을 부호화하여 부가 정보의 비트스트림을 출력할 수 있다. 이때, 부가 정보 인코더(115)는 잔여 오차 특징 벡터 Xr을 잠재 공간으로 대응 시킬 수 있다. 다음으로, 부가 정보 인코더(115)는 잠재 공간에 대응된 잔여 오차 특징 벡터를 벡터 양자화를 위한 코드 벡터로 할당하여 부호화할 수 있다. 그 다음으로, 부가 정보 인코더(115)는 부호화된 잔여 오차 특징 벡터를 양자화하여 부가 정보 비트스트림을 출력할 수 있다.
도 7은 본 발명의 일실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
단계(710)에서 메인 코덱 디코더(121)는 오디오 부호화 장치(110)의 메인 코덱 인코더(111)로부터 메인 코덱의 비트스트림을 수신할 수 있다. 그리고, 메인 코덱 디코더(121)는 수신한 메인 코덱의 비트스트림을 복호화하여 복호화한 신호
Figure pat00051
를 출력할 수 있다.
단계(720)에서 특징 추출기(122)는 단계(710)에서 복호화한 신호
Figure pat00052
에 포함된 음향 특징들로부터 복호화한 신호
Figure pat00053
의 특징 벡터 Xd를 추출할 수 있다.
단계(730)에서 부가 정보 디코더(123)는 오디오 부호화 장치(110)의 부가 정보 인코더(115)로부터 부가 정보의 비트스트림을 수신할 수 있다. 그리고, 부가 정보 디코더(123)는 수신한 부가 정보의 비트스트림을 복호화하여 잔여 오차 특징 벡터를 복원할 수 있다.
단계(740)에서 후처리 프로세서(124)는 복호화한 신호
Figure pat00054
의 특징 벡터 Xd와 부가 정보 디코더(123)가 복원한 잔여 오차 특징 벡터
Figure pat00055
로부터 원본 신호의 특징 벡터를 추정할 수 있다. 이때, 후처리 프로세서(124)는 특징 벡터 Xd와 잔여 오차 특징 벡터
Figure pat00056
을 결합하여 원본 신호의 특징 벡터를 추정할 수 있다.
단계(750)에서 후처리 프로세서(124)는 추정한 원본 신호의 특징 벡터
Figure pat00057
를 시간 영역 표현
Figure pat00058
로 변환하여 출력할 수 있다.
본 발명의 오디오 부호화 장치(110)는 잔여오차 특징들을 신경망을 이용하여 부호화하고 벡터 양자화하여 부가정보로 전송하고, 오디오 복호화 장치(120)는 수신한 부가 정보를 신경망을 이용하여 후처리 함으로써 기존 코덱과의 역호환성을 제공하고 기존 코덱으로 복호화된 오디오 신호의 음질을 향상시킬 수 있다.
또한, 본 발명은 부가 정보 인코더(115)에서 잔여 오차 특징 벡터를 부호화하는 딥러닝 모델과 부가 정보 디코더(123)에서 잔여 오차 특징 벡터를 복원하는 딥러닝 모델 및 후처리 프로세서(124)에서 원본 신호의 특징 벡터를 추정하는 딥러닝 모델을 조인트 트레이닝(joint training)하는 종단간 딥러닝을 수행함으로써, 딥러닝 모델들을 사용하는 부가 정보 인코더(115), 부가 정보 디코더(123) 및 후처리 프로세스(124)의 오차가 순차적으로 누적되지 않도록 할 수 있다.
그리고, 본 발명은 딥러닝 모델들을 조인트 트레이닝(joint training)하는 종단간 딥러닝을 수행함으로써, 압축된 잠재 벡터를 양자화 하는 코드 벡터를 효과적으로 트레이닝하여 오디오 부호화 과정에서 음질향상을 위한 부가정보를 추출할 수 있다.
한편, 본 발명에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.
본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 즉 정보 캐리어, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체) 또는 전파 신호에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.
컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.
또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체 및 전송매체를 모두 포함할 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.
110: 오디오 부호화 장치
111: 메인 코덱 인코더
112: 메인 코덱 디코더
113: 특징 추출기
114: 특징 추출기
115: 부가 정보 인코더
120: 오디오 복호화 장치
121: 메인 코덱 디코더
122: 특징 추출기
123: 부가 정보 디코더
124: 후처리 프로세서

Claims (16)

  1. 원본 신호를 부호화하여 메인 코덱의 비트스트림을 출력하는 단계;
    상기 메인 코덱의 비트스트림을 복호화하는 단계;
    복호화한 신호의 특징 벡터와 상기 원본 신호의 특징 벡터로부터 잔여 오차 특징 벡터를 결정하는 단계; 및
    상기 잔여 오차 특징 벡터를 부호화하여 부가 정보의 비트스트림을 출력하는 단계
    를 포함하는 오디오 신호 부호화 방법.
  2. 제1항에 있어서
    상기 부가 정보 비트스트림을 출력하는 단계는,
    상기 잔여 오차 특징 벡터를 잠재 공간으로 대응 시키는 단계;
    잠재 공간에 대응된 잔여 오차 특징 벡터를 벡터 양자화를 위한 코드 벡터로 할당하여 부호화하는 단계; 및
    부호화된 잔여 오차 특징 벡터를 양자화하여 부가 정보 비트스트림을 출력하는 단계
    를 포함하는 오디오 신호 부호화 방법.
  3. 제1항에 있어서,
    상기 잔여 오차 특징 벡터를 부호화하는 부가 정보 인코더는,
    상기 부가 정보 인코더의 부호화에 따른 손실, 상기 부가 정보 비트스트림을 복호화하는 부가 정보 디코더의 벡터 양자화에 따른 손실 및 원본 신호의 특징 벡터와 상기 메인 코덱의 비트스트림 및 상기 부가 정보의 비트스트림으로부터 추정한 원본 신호의 특징 벡터 간의 차이에 따라 결정된 손실 함수에 따라 트레이닝되는 오디오 신호 부호화 방법.
  4. 제1항에 있어서,
    상기 잔여 오차 특징 벡터를 부호화하는 부가 정보 인코더를 상기 부가 정보 비트스트림을 복호화하는 부가 정보 디코더 및 상기 메인 코덱의 비트스트림, 상기 부가 정보의 비트스트림을 기초로 원본 신호의 특징 벡터를 추정하는 후처리 프로세서와 함께 트레이닝하는 단계
    를 더 포함하는 오디오 신호 부호화 방법.
  5. 제4항에 있어서,
    상기 트레이닝하는 단계는,
    평균 제곱 오차(MSE: mean squared error) 함수 및 VQ-VAE(Vector Quantized Variational AutoEncoder)의 손실 함수에 기초한 손실 함수를 이용하여 상기 부가 정보 인코더, 상기 부가 정보 디코더 및 후처리 프로세서를 트레이닝하는 오디오 신호 부호화 방법.
  6. 제1항에 있어서,
    상기 복호화한 신호에 포함된 음향 특징들로부터 상기 복호화한 신호의 특징 벡터를 추출하는 단계; 및
    상기 원본 신호에 포함된 음향 특징들로부터 상기 원본 신호의 특징 벡터를 추출하는 단계
    를 더 포함하는 오디오 신호 부호화 방법.
  7. 메인 코덱의 비트스트림 및 부가 정보의 비트스트림을 수신하는 단계;
    상기 메인 코덱의 비트스트림을 복호화하는 단계;
    복호화한 신호에 포함된 음향 특징들로부터 상기 복호화한 신호의 특징 벡터를 추출하는 단계;
    상기 부가 정보의 비트스트림을 복호화하여 잔여 오차 특징 벡터를 복원하는 단계; 및
    복호화한 신호의 특징 벡터와 상기 잔여 오차 특징 벡터로부터 원본 신호의 특징 벡터를 추정하는 단계
    를 포함하는 오디오 신호 복호화 방법.
  8. 제7항에 있어서,
    상기 원본 신호의 특징 벡터를 추정하는 단계는,
    상기 복호화한 신호의 특징 벡터와 상기 잔여 오차 특징 벡터를 결합하여 상기 원본 신호의 특징 벡터를 추정하는 오디오 신호 복호화 방법.
  9. 제7항에 있어서,
    추정한 원본 신호의 특징 벡터를 시간 영역 표현으로 변환하여 출력하는 단계
    를 더 포함하는 오디오 신호 복호화 방법.
  10. 제7항에 있어서,
    상기 부가 정보 비트스트림을 복호화하는 부가 정보 디코더 및 상기 메인 코덱의 비트스트림, 상기 부가 정보의 비트스트림을 기초로 원본 신호의 특징 벡터를 추정하는 후처리 프로세서를 부호화 장치에서 상기 잔여 오차 특징 벡터를 부호화하는 부가 정보 인코더와 함께 트레이닝하는 단계
    를 더 포함하는 오디오 신호 복호화 방법.
  11. 제1항 내지 제10항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체.
  12. 원본 신호를 부호화하여 메인 코덱의 비트스트림을 출력하는 메인 코덱 인코더;
    상기 메인 코덱의 비트스트림을 복호화하는 메인 코덱 디코더; 및
    복호화한 신호의 특징 벡터와 상기 원본 신호의 특징 벡터로부터 잔여 오차 특징 벡터를 결정하고, 상기 잔여 오차 특징 벡터를 부호화하여 부가 정보의 비트스트림을 출력하는 부가 정보 인코더
    를 포함하는 오디오 신호 부호화 장치.
  13. 제12항에 있어서
    상기 부가 정보 인코더는,
    상기 잔여 오차 특징 벡터를 잠재 공간으로 대응 시키고, 잠재 공간에 대응된 잔여 오차 특징 벡터를 벡터 양자화를 위한 코드 벡터로 할당하여 부호화하며, 부호화된 잔여 오차 특징 벡터를 양자화하여 부가 정보 비트스트림을 출력하는 오디오 신호 부호화 장치.
  14. 제12항에 있어서,
    상기 부가 정보 인코더는,
    상기 부가 정보 인코더의 부호화에 따른 손실, 부가 정보 디코더의 벡터 양자화에 따른 손실 및 원본 신호의 특징 벡터와 상기 메인 코덱의 비트스트림 및 상기 부가 정보의 비트스트림으로부터 추정한 원본 신호의 특징 벡터 간의 차이에 따라 결정된 손실 함수에 따라 트레이닝되는 오디오 신호 부호화 장치.
  15. 제12항에 있어서,
    상기 부가 정보 인코더는,
    상기 부가 정보 비트스트림을 복호화하는 부가 정보 디코더 및 상기 메인 코덱의 비트스트림, 상기 부가 정보의 비트스트림을 기초로 원본 신호의 특징 벡터를 추정하는 후처리 프로세서와 함께 트레이닝되는 오디오 신호 부호화 장치.
  16. 제15항에 있어서,
    상기 부가 정보 인코더는,
    평균 제곱 오차(MSE: mean squared error) 함수 및 VQ-VAE(Vector Quantized Variational AutoEncoder)의 손실 함수에 기초한 손실 함수를 이용하여 상기 부가 정보 디코더 및 후처리 프로세서와 함께 트레이닝되는 오디오 신호 부호화 장치.
KR1020210100809A 2021-07-30 2021-07-30 벡터 양자화된 잔여오차 특징을 사용한 오디오 부호화/복호화 장치 및 그 방법 KR20230018838A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210100809A KR20230018838A (ko) 2021-07-30 2021-07-30 벡터 양자화된 잔여오차 특징을 사용한 오디오 부호화/복호화 장치 및 그 방법
US17/711,908 US11804230B2 (en) 2021-07-30 2022-04-01 Audio encoding/decoding apparatus and method using vector quantized residual error feature

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210100809A KR20230018838A (ko) 2021-07-30 2021-07-30 벡터 양자화된 잔여오차 특징을 사용한 오디오 부호화/복호화 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20230018838A true KR20230018838A (ko) 2023-02-07

Family

ID=85152506

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210100809A KR20230018838A (ko) 2021-07-30 2021-07-30 벡터 양자화된 잔여오차 특징을 사용한 오디오 부호화/복호화 장치 및 그 방법

Country Status (2)

Country Link
US (1) US11804230B2 (ko)
KR (1) KR20230018838A (ko)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5630011A (en) * 1990-12-05 1997-05-13 Digital Voice Systems, Inc. Quantization of harmonic amplitudes representing speech
US6459914B1 (en) * 1998-05-27 2002-10-01 Telefonaktiebolaget Lm Ericsson (Publ) Signal noise reduction by spectral subtraction using spectrum dependent exponential gain function averaging
KR101413968B1 (ko) 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
US11276413B2 (en) 2018-10-26 2022-03-15 Electronics And Telecommunications Research Institute Audio signal encoding method and audio signal decoding method, and encoder and decoder performing the same
KR20210003507A (ko) 2019-07-02 2021-01-12 한국전자통신연구원 오디오 코딩을 위한 잔차 신호 처리 방법 및 오디오 처리 장치
KR20210070767A (ko) 2019-12-05 2021-06-15 한국전자통신연구원 오디오 부호화를 위한 잠재 벡터의 양자화 방법 및 양자화 방법을 수행하는 컴퓨팅 장치

Also Published As

Publication number Publication date
US11804230B2 (en) 2023-10-31
US20230039546A1 (en) 2023-02-09

Similar Documents

Publication Publication Date Title
KR101428487B1 (ko) 멀티 채널 부호화 및 복호화 방법 및 장치
US8548801B2 (en) Adaptive time/frequency-based audio encoding and decoding apparatuses and methods
US7864843B2 (en) Method and apparatus to encode and/or decode signal using bandwidth extension technology
US8423371B2 (en) Audio encoder, decoder, and encoding method thereof
USRE46082E1 (en) Method and apparatus for low bit rate encoding and decoding
US7805314B2 (en) Method and apparatus to quantize/dequantize frequency amplitude data and method and apparatus to audio encode/decode using the method and apparatus to quantize/dequantize frequency amplitude data
US9548056B2 (en) Signal adaptive FIR/IIR predictors for minimizing entropy
US9240192B2 (en) Device and method for efficiently encoding quantization parameters of spectral coefficient coding
US11783844B2 (en) Methods of encoding and decoding audio signal using side information, and encoder and decoder for performing the methods
US11176954B2 (en) Encoding and decoding of multichannel or stereo audio signals
JP7477247B2 (ja) ステレオ信号符号化方法および装置、ならびにステレオ信号復号方法および装置
US11804230B2 (en) Audio encoding/decoding apparatus and method using vector quantized residual error feature
US20070078651A1 (en) Device and method for encoding, decoding speech and audio signal
KR100928966B1 (ko) 저비트율 부호화/복호화방법 및 장치
WO2019173195A1 (en) Signals in transform-based audio codecs
KR101735619B1 (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법
KR20220005379A (ko) 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법
KR20210133554A (ko) 선형 예측 코딩을 이용한 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기
KR20230028912A (ko) 오디오 압축 효율 향상 장치 및 방법
Ramadan Compressive sampling of speech signals
Samaali et al. Temporal envelope correction for attack restoration in low bit-rate audio coding
KR100940532B1 (ko) 저비트율 복호화방법 및 장치
Tamrakar et al. An 800 bps MBE vocoder with low delay

Legal Events

Date Code Title Description
E902 Notification of reason for refusal