KR20230018838A - 벡터 양자화된 잔여오차 특징을 사용한 오디오 부호화/복호화 장치 및 그 방법 - Google Patents
벡터 양자화된 잔여오차 특징을 사용한 오디오 부호화/복호화 장치 및 그 방법 Download PDFInfo
- Publication number
- KR20230018838A KR20230018838A KR1020210100809A KR20210100809A KR20230018838A KR 20230018838 A KR20230018838 A KR 20230018838A KR 1020210100809 A KR1020210100809 A KR 1020210100809A KR 20210100809 A KR20210100809 A KR 20210100809A KR 20230018838 A KR20230018838 A KR 20230018838A
- Authority
- KR
- South Korea
- Prior art keywords
- feature vector
- bitstream
- side information
- residual error
- encoding
- Prior art date
Links
- 239000013598 vector Substances 0.000 title claims abstract description 209
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000005236 sound signal Effects 0.000 claims abstract description 23
- 238000012805 post-processing Methods 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 17
- 238000013139 quantization Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 2
- 238000013136 deep learning model Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 3
- 238000013441 quality evaluation Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
벡터 양자화된 잔여오차 특징을 사용한 오디오 부호화/복호화 장치 및 그 방법이 개시된다. 오디오 부호화 방법은 원본 신호를 부호화하여 메인 코덱의 비트스트림을 출력하는 단계; 상기 메인 코덱의 비트스트림을 복호화하는 단계; 복호화한 신호의 특징 벡터와 상기 원본 신호의 특징 벡터로부터 잔여 오차 특징 벡터를 결정하는 단계; 및 상기 잔여 오차 특징 벡터를 부호화하여 부가 정보의 비트스트림을 출력하는 단계를 포함할 수 있다.
Description
본 발명은 벡터 양자화된 잔여오차 특징을 신경망으로 압축하여 부가정보로 이용함으로써 코딩음질을 향상시킬 수 있는 장치 및 방법에 관한 것이다.
오디오 코딩 기술을 낮은 비트율에서 작동하는 경우, 프리에코(pre-echo) 및 양자화 잡음과 같은 코딩 아티펙트(artifact)가 발생하여 오디오 음질이 저하될 수 있다. 이러한 코딩 아티펙트를 제거하여 음질을 향상시키는 다양한 전/후처리 기법들이 개발되고 있다
Ghido, Florin, et al. "Coding of fine granular audio signals using High Resolution Envelope Processing (HREP)." 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017의 오디오 코딩 방법은 신호의 고주파 성분의 gain 값을 부가 정보로 사용하여 음질을 향상시키는 방법으로써 pre-echo가 발생할 수 있는 transient signal을 검출, envelop를 평탄화(flattening)시키고, 복호화 단에서 전송된 부가 정보를 이용하여 평탄화된 성분을 원래의 성분으로 되돌리는 방식이다.
종래의 부가 정보를 이용한 코딩 음질 향상 기법들은 부가 정보를 음성 존재 유무, transient signal 여부, 또는 시간-주파수 영역에서 신호의 gain 값 등으로 한정시키고 있으므로 음질 향상 폭을 제한 시킨다는 한계가 있었다.
따라서, 음질 향상 폭을 제한하지 않으면서 오디오 코딩의 음질을 향상할 수 있는 방법이 요청되고 있다.
본 발명은 잔여오차 특징들을 신경망을 이용하여 부호화하고 벡터 양자화하여 부가정보로 전송하는 오디오 부호화 장치 및 수신한 부가 정보를 신경망을 이용하여 후처리함으로써 기존 코덱과의 역호환성을 제공하고 기존 코덱으로 복호화된 오디오 신호의 음질을 향상시킬 수 있는 오디오 복호화 장치 및 방법을 제공할 수 있다.
또한, 본 발명은 부가 정보 인코더에서 잔여 오차 특징 벡터를 부호화하는 딥러닝 모델과 부가 정보 디코더에서 잔여 오차 특징 벡터를 복원하는 딥러닝 모델 및 후처리 프로세서에서 원본 신호의 특징 벡터를 추정하는 딥러닝 모델을 조인트 트레이닝(joint training)하는 종단간 딥러닝을 수행함으로써, 딥러닝 모델들을 사용하는 부가 정보 인코더, 부가 정보 디코더 및 후처리 프로세스의 오차가 순차적으로 누적되지 않도록 하는 장치 및 방법을 제공할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법은 원본 신호를 부호화하여 메인 코덱의 비트스트림을 출력하는 단계; 상기 메인 코덱의 비트스트림을 복호화하는 단계; 복호화한 신호의 특징 벡터와 상기 원본 신호의 특징 벡터로부터 잔여 오차 특징 벡터를 결정하는 단계; 및 상기 잔여 오차 특징 벡터를 부호화하여 부가 정보의 비트스트림을 출력하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법의 상기 부가 정보 비트스트림을 출력하는 단계는, 상기 잔여 오차 특징 벡터를 잠재 공간으로 대응 시키는 단계; 잠재 공간에 대응된 잔여 오차 특징 벡터를 벡터 양자화를 위한 코드 벡터로 할당하여 부호화하는 단계; 및 부호화된 잔여 오차 특징 벡터를 양자화하여 부가 정보 비트스트림을 출력하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법의 상기 잔여 오차 특징 벡터를 부호화하는 부가 정보 인코더는, 상기 부가 정보 인코더의 부호화에 따른 손실, 상기 부가 정보 비트스트림을 복호화하는 부가 정보 디코더의 벡터 양자화에 따른 손실 및 원본 신호의 특징 벡터와 상기 메인 코덱의 비트스트림 및 상기 부가 정보의 비트스트림으로부터 추정한 원본 신호의 특징 벡터 간의 차이에 따라 결정된 손실 함수에 따라 트레이닝될 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법은 상기 잔여 오차 특징 벡터를 부호화하는 부가 정보 인코더를 상기 부가 정보 비트스트림을 복호화하는 부가 정보 디코더 및 상기 메인 코덱의 비트스트림, 상기 부가 정보의 비트스트림을 기초로 원본 신호의 특징 벡터를 추정하는 후처리 프로세서와 함께 트레이닝하는 단계를 더 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법의 상기 트레이닝하는 단계는, 평균 제곱 오차(MSE: mean squared error) 함수 및 VQ-VAE(Vector Quantized Variational AutoEncoder)의 손실 함수에 기초한 손실 함수를 이용하여 상기 부가 정보 인코더, 상기 부가 정보 디코더 및 후처리 프로세서를 트레이닝할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법은 상기 복호화한 신호에 포함된 음향 특징들로부터 상기 복호화한 신호의 특징 벡터를 추출하는 단계; 및 상기 원본 신호에 포함된 음향 특징들로부터 상기 원본 신호의 특징 벡터를 추출하는 단계를 더 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법은 메인 코덱의 비트스트림 및 부가 정보의 비트스트림을 수신하는 단계; 상기 메인 코덱의 비트스트림을 복호화하는 단계; 복호화한 신호에 포함된 음향 특징들로부터 상기 복호화한 신호의 특징 벡터를 추출하는 단계; 상기 부가 정보의 비트스트림을 복호화하여 잔여 오차 특징 벡터를 복원하는 단계; 및 복호화한 신호의 특징 벡터와 상기 잔여 오차 특징 벡터로부터 원본 신호의 특징 벡터를 추정하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법의 상기 원본 신호의 특징 벡터를 추정하는 단계는, 상기 복호화한 신호의 특징 벡터와 상기 잔여 오차 특징 벡터를 결합하여 상기 원본 신호의 특징 벡터를 추정할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법은 추정한 원본 신호의 특징 벡터를 시간 영역 표현으로 변환하여 출력하는 단계를 더 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법은 상기 부가 정보 비트스트림을 복호화하는 부가 정보 디코더 및 상기 메인 코덱의 비트스트림, 상기 부가 정보의 비트스트림을 기초로 원본 신호의 특징 벡터를 추정하는 후처리 프로세서를 부호화 장치에서 상기 잔여 오차 특징 벡터를 부호화하는 부가 정보 인코더와 함께 트레이닝하는 단계를 더 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 장치는 원본 신호를 부호화하여 메인 코덱의 비트스트림을 출력하는 메인 코덱 인코더; 상기 메인 코덱의 비트스트림을 복호화하는 메인 코덱 디코더; 및 복호화한 신호의 특징 벡터와 상기 원본 신호의 특징 벡터로부터 잔여 오차 특징 벡터를 결정하고, 상기 잔여 오차 특징 벡터를 부호화하여 부가 정보의 비트스트림을 출력하는 부가 정보 인코더를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 장치의 상기 부가 정보 인코더는, 상기 잔여 오차 특징 벡터를 잠재 공간으로 대응 시키고, 잠재 공간에 대응된 잔여 오차 특징 벡터를 벡터 양자화를 위한 코드 벡터로 할당하여 부호화하며, 부호화된 잔여 오차 특징 벡터를 양자화하여 부가 정보 비트스트림을 출력할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 장치의 상기 부가 정보 인코더는, 상기 부가 정보 인코더의 부호화에 따른 손실, 부가 정보 디코더의 벡터 양자화에 따른 손실 및 원본 신호의 특징 벡터와 상기 메인 코덱의 비트스트림 및 상기 부가 정보의 비트스트림으로부터 추정한 원본 신호의 특징 벡터 간의 차이에 따라 결정된 손실 함수에 따라 트레이닝될 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 장치의 상기 부가 정보 인코더는, 상기 부가 정보 비트스트림을 복호화하는 부가 정보 디코더 및 상기 메인 코덱의 비트스트림, 상기 부가 정보의 비트스트림을 기초로 원본 신호의 특징 벡터를 추정할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 장치의 상기 부가 정보 인코더는, 평균 제곱 오차(MSE: mean squared error) 함수 및 VQ-VAE(Vector Quantized Variational AutoEncoder)의 손실 함수에 기초한 손실 함수를 이용하여 상기 부가 정보 디코더 및 후처리 프로세서와 함께 트레이닝될 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 장치는 메인 코덱의 비트스트림을 수신하고, 상기 메인 코덱의 비트스트림을 복호화하는 메인 코덱 디코더; 복호화한 신호에 포함된 음향 특징들로부터 상기 복호화한 신호의 특징 벡터를 추출하는 특징 추출기; 부가 정보의 비트스트림을 수신하고, 상기 부가 정보의 비트스트림을 복호화하여 잔여 오차 특징 벡터를 복원하는 부가 정보 디코더; 및 복호화한 신호의 특징 벡터와 상기 잔여 오차 특징 벡터로부터 원본 신호의 특징 벡터를 추정하는 후처리 프로세서를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 장치의 상기 후처리 프로세서는, 상기 복호화한 신호의 특징 벡터와 상기 잔여 오차 특징 벡터를 결합하여 상기 원본 신호의 특징 벡터를 추정할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 장치의 상기 후처리 프로세서는, 추정한 원본 신호의 특징 벡터를 시간 영역 표현으로 변환하여 출력할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 장치의 상기 부가 정보 디코더 및 상기 후처리 프로세서는, 부호화 장치에서 상기 잔여 오차 특징 벡터를 부호화하여 상기 부가 정보의 비트스트림을 출력하는 부가 정보 인코더와 함께 트레이닝될 수 있다.
본 발명의 일실시예에 의하면, 오디오 부호화 장치가 잔여오차 특징들을 신경망을 이용하여 부호화하고 벡터 양자화하여 부가정보로 전송하고, 오디오 복호화 장치가 수신한 부가 정보를 신경망을 이용하여 후처리 함으로써 기존 코덱과의 역호환성을 제공하고 기존 코덱으로 복호화된 오디오 신호의 음질을 향상시킬 수 있다.
또한, 본 발명의 일실시예에 의하면, 잔여 오차 특징 벡터를 부호화하는 딥러닝 모델과 잔여 오차 특징 벡터를 복원하는 딥러닝 모델 및 원본 신호의 특징 벡터를 추정하는 딥러닝 모델을 조인트 트레이닝(joint training)하는 종단간 딥러닝을 수행함으로써, 딥러닝 모델들을 사용하는 부가 정보 인코더 부가 정보 디코더 및 후처리 프로세스의 오차가 순차적으로 누적되지 않도록 할 수 있다.
그리고, 본 발명은 딥러닝 모델들을 조인트 트레이닝(joint training)하는 종단간 딥러닝을 수행함으로써, 압축된 잠재 벡터를 양자화 하는 코드 벡터를 효과적으로 트레이닝하여 오디오 부호화 과정에서 음질향상을 위한 부가정보를 추출할 수 있다.
도 1은 본 발명의 일실시예에 따른 오디오 부호화 장치 및 오디오 복호화 장치를 나타내는 도면이다.
도 2는 본 발명의 일실시예에 따른 오디오 부호화 장치 및 오디오 복호화 장치의 동작 일례이다.
도 3은 본 발명의 일실시예에 따른 오디오 복호화 장치의 출력에 대한 성능 평가의 일례이다.
도 4는 본 발명의 일실시예에 따른 오디오 복호화 장치의 출력에 대한 음질 평가의 일례이다.
도 5는 본 발명의 일실시예에 따른 오디오 복호화 장치가 출력한 신호의 스펙트로그램의 일례이다.
도 6은 본 발명의 일실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
도 7은 본 발명의 일실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
도 2는 본 발명의 일실시예에 따른 오디오 부호화 장치 및 오디오 복호화 장치의 동작 일례이다.
도 3은 본 발명의 일실시예에 따른 오디오 복호화 장치의 출력에 대한 성능 평가의 일례이다.
도 4는 본 발명의 일실시예에 따른 오디오 복호화 장치의 출력에 대한 음질 평가의 일례이다.
도 5는 본 발명의 일실시예에 따른 오디오 복호화 장치가 출력한 신호의 스펙트로그램의 일례이다.
도 6은 본 발명의 일실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
도 7은 본 발명의 일실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 본 발명의 일실시예에 따른 오디오 부호화 방법 및 오디오 복호화 방법은 오디오 부호화 장치(110) 및 오디오 복호화 장치(120)에 의해 수행될 수 있다.
도 1은 본 발명의 일실시예에 따른 오디오 부호화 장치 및 오디오 복호화 장치를 나타내는 도면이다.
오디오 부호화 장치(110)는 도 1에 도시된 바와 같이 메인 코덱 인코더(111), 메인 코덱 디코더(112), 특징 추출기(113), 특징 추출기(114), 및 부가 정보 인코더(115)를 포함할 수 있다. 이때, 메인 코덱 인코더(111), 메인 코덱 디코더(112), 특징 추출기(113), 특징 추출기(114), 및 부가 정보 인코더(115)는 서로 다른 프로세스, 또는 하나의 프로세스에 포함된 각각의 모듈일 수 있다.
메인 코덱 인코더(111)는 원본 신호를 부호화하여 메인 코덱의 비트스트림을 출력할 수 있다. 예를 들어, 메인 코덱은 HE-AAC(High-Efficiency Advanced Audio Coding)와 같은 레거시 코덱일 수 있다.
특징 추출기(114)는 원본 신호에 포함된 음향 특징들로부터 원본 신호의 특징 벡터 Xo를 추출할 수 있다. 예를 들어, 특징 추출기(113) 및 특징 추출기(114)는 LPS (log power spectra)와 같은 다양한 종류의 음향 특징들 중 적어도 하나를 이용하여 특징 벡터 Xd 및 특징 벡터 Xo를 추출할 수 있다.
부가 정보 인코더(115)는 복호화한 신호 의 특징 벡터 Xd와 원본 신호의 특징 벡터 Xo로부터 잔여 오차 특징 벡터 Xr을 결정할 수 있다. 그리고, 부가 정보 인코더(115)는 잔여 오차 특징 벡터 Xr을 부호화하여 부가 정보의 비트스트림을 출력할 수 있다. 이때, 잔여 오차 특징 벡터 Xr은 수학식 1을 만족할 수 있다.
이때, 부가 정보 인코더(115)는 잔여 오차 특징 벡터 Xr을 잔여 오차 특징 벡터의 차원수보다 더 작은 차원의 잠재 공간으로 대응 시킬 수 있다. 예를 들어, 부가 정보 인코더(115)에 입력된 잔여 오차 특징 벡터 Xr의 차원수는 257이고, 부가 정보 인코더(115)에서 출력되는 비트스트림의 차원수는 32일 수 있다. 또한, 잠재 공간은 관측된 데이터(observed data)에 내재되어 있는 잠재 정보를 표현하는 공간일 수 있다.
다음으로, 부가 정보 인코더(115)는 잠재 공간에 대응된 잔여 오차 특징 벡터를 벡터 양자화를 위한 코드 벡터로 할당하여 부호화할 수 있다. 그 다음으로, 부가 정보 인코더(115)는 부호화된 잔여 오차 특징 벡터를 양자화하여 부가 정보 비트스트림을 출력할 수 있다.
이때, 부가 정보 인코더(115)는 부가 정보 인코더(115)의 부호화 및 벡터 양자화에 따른 손실, 및 후처리 프로세서(1240)가 원본 신호의 특징 벡터와 메인 코덱의 비트스트림 및 부가 정보의 비트스트림으로부터 추정한 원본 신호의 특징 벡터 간의 차이에 따라 결정된 손실 함수에 따라 트레이닝될 수 있다. 이때, 부가 정보 인코더(115)는 부가 정보 디코더(123), 및 후처리 프로세서(124)와 함께 트레이닝될 수 있다. 예를 들어, 부가 정보 인코더(115), 부가 정보 디코더(123), 및 후처리 프로세서(124)는 수학식 2와 같이 나타내는 손실 함수 L에 따라 조인트 트레이닝(joint training)을 수행할 수 있다.
이때, 는 부가 정보 인코더(115)의 최적화를 위한 부호화 및 벡터 양자화에 따른 손실이고, 는 부가 정보 디코더(123)의 복호화 및 벡터양자화에 따른 손실일 수 있다. 또한, 는 후처리 프로세서(124)에서 원본 신호의 특징 벡터 Xo와 후처리 프로세서(124)가 추정한 원본 신호의 특징 벡터 간의 차이일 수 있다. 또한, 손실 함수는 평균 제곱 오차 (mean squared error, MSE) 등 다양한 최적화 방법을 이용하여 트레이닝 될 수 있다.
정리하면, 부가 정보 인코더(115)는 평균 제곱 오차(MSE: mean squared error) 함수 및 VQ-VAE(Vector Quantized Variational AutoEncoder)의 손실 함수에 기초한 손실 함수를 이용하여 부가 정보 디코더(123) 및 후처리 프로세서(124)와 함께 트레이닝될 수 있다. 예를 들어, 부가 정보 인코더(115), 부가 정보 디코더(123) 및 후처리 프로세서(124)는 수학식 2와 같이 MSE 함수() 및 VQ-VAE의 함수(, )를 결합한 손실 함수를 사용하여 트레이닝될 수 있다.
오디오 복호화 장치(110)는 도 1에 도시된 바와 같이 메인 코덱 디코더(121), 특징 추출기(122), 부가 정보 디코더(123) 및 후처리 프로세서(124)를 포함할 수 있다. 이때, 메인 코덱 디코더(121), 특징 추출기(122), 부가 정보 디코더(123) 및 후처리 프로세서(124)는 서로 다른 프로세스, 또는 하나의 프로세스에 포함된 각각의 모듈일 수 있다.
메인 코덱 디코더(121)는 오디오 부호화 장치(110)의 메인 코덱 인코더(111)로부터 메인 코덱의 비트스트림을 수신할 수 있다. 그리고, 메인 코덱 디코더(121)는 수신한 메인 코덱의 비트스트림을 복호화하여 복호화한 신호 를 출력할 수 있다. 또한, 메인 코덱 디코더(121)는 오디오 신호 부호화 장치(110)의 메인 코덱 디코더(112)와 동일하게 동작할 수 있다.
특징 추출기(122)는 메인 코덱 디코더(121)가 복호화한 신호 에 포함된 음향 특징들로부터 복호화한 신호 의 특징 벡터 Xd를 추출할 수 있다. 또한, 특징 추출기(122)는 오디오 신호 부호화 장치(110)의 특징 추출기(112)와 동일하게 동작할 수 있다.
부가 정보 디코더(123)는 오디오 부호화 장치(110)의 부가 정보 인코더(115)로부터 부가 정보의 비트스트림을 수신할 수 있다. 그리고, 부가 정보 디코더(123)는 수신한 부가 정보의 비트스트림을 복호화하여 잔여 오차 특징 벡터를 복원할 수 있다.
후처리 프로세서(124)는 복호화한 신호 의 특징 벡터 Xd와 부가 정보 디코더(123)가 복원한 잔여 오차 특징 벡터 로부터 원본 신호의 특징 벡터를 추정할 수 있다. 그리고, 후처리 프로세서(124)는 추정한 원본 신호의 특징 벡터 를 시간 영역 표현 로 변환하여 출력할 수 있다. 이때, 후처리 프로세서(124)는 특징 벡터 Xd와 잔여 오차 특징 벡터 을 결합하여 원본 신호의 특징 벡터를 추정할 수 있다.
본 발명에 따른 오디오 부호화 장치(110)는 잔여오차 특징들을 신경망을 이용하여 부호화하고 벡터 양자화하여 부가정보로 전송하고, 오디오 복호화 장치(120)는 수신한 부가 정보를 신경망을 이용하여 후처리 함으로써 기존 코덱과의 역호환성을 제공하고 기존 코덱으로 복호화된 오디오 신호의 음질을 향상시킬 수 있다.
도 2는 본 발명의 일실시예에 따른 오디오 부호화 장치 및 오디오 복호화 장치의 동작 일례이다.
이때, 메인 코덱 인코더(111)는 원본 신호를 부호화하여 오디오 부호화 장치(120)의 메인 코덱 디코더(112) 및 오디오 복호화 장치(120)의 메인 코덱 디코더(121)로 전송할 수 있다.
특징 추출기(113)는 복호화한 신호 에 포함된 음향 특징들로부터 복호화한 신호 의 특징 벡터 Xd를 추출할 수 있다. 또한, 특징 추출기(114)는 원본 신호에 포함된 음향 특징들로부터 원본 신호의 특징 벡터 Xo를 추출할 수 있다.
이때, 부가 정보 인코더(115)는 원본 신호의 특징 벡터 Xo와 복호화한 신호 의 특징 벡터 Xd 간의 차이인 잔여 오차 특징 벡터 Xr을 결정할 수 있다. 그리고, 부가 정보 인코더(115)는 잔여 오차 특징 벡터 Xr을 부호화하여 부가 정보의 비트스트림을 출력할 수 있다. 예를 들어, 부가 정보 인코더(115)가 잔여 오차 특징 벡터 Xr의 부호화에 사용하는 신경망은 구조(210)를 가지는 딥러닝 모델로 형성될 수 있다. 또한, 부가 정보 인코더(115)의 출력 코드 벡터는 VQ 코드북(220)의 대표 코드 벡터로 할당될 수 있다. 이때, 대표 코드 벡터는 VQ 코드북(220)에 포함된 벡터들 중에서 벡터들 간의 거리가 가장 가까운 코드 벡터들일 수 있다. 예를 들어, 벡터들 간의 거리는 유클리디언 디스턴스(Euclidean distance) 등을 이용하여 계산될 수 있다.
그 다음으로, 부가 정보 인코더(115)는 부호화된 잔여 오차 특징 벡터를 양자화하여 부가 정보 비트스트림을 출력할 수 있다. 이때, 부가 정보 비트스트림에는 부가 정보의 코드북 인덱스(코드 벡터 인덱스)가 포함될 수 있다. 그리고, 부가 정보 인코더(115)는 코드 북(220) 및 부가 정보 비트스트림을 부가 정보 디코더(123)에게 전송할 수 있다.
부가 정보 디코더(123)는 오디오 부호화 장치(110)의 부가 정보 인코더(115)로부터 수신한 부가 정보의 비트스트림을 복호화하여 잔여 오차 특징 벡터를 복원할 수 있다. 예를 들어, 부가 정보 디코더(123)가 잔여 오차 특징 벡터 Xr의 복호화에 사용하는 신경망은 구조(230)를 가지는 딥러닝 모델로 형성될 수 있다. 이때, 부가 정보 디코더(123)는 코드 북(220)의 코드 벡터를 사용하여 잔여 오차 특징 벡터를 복원할 수 있다.
결합(concatenate) 연산기(201)는 특징 벡터 Xd와 부가 정보 디코더(123)가 복원한 잔여 오차 특징 벡터 에 결합 연산을 수행한 결과인 를 후처리 프로세서(124)에 입력할 수 있다. 그리고, 후처리 프로세서(124)는 구조(240)를 가지는 딥러닝 모듈을 이용하여 부터 원본 신호의 특징 벡터를 추정할 수 있다. 그리고, 후처리 프로세서(124)는 추정한 원본 신호의 특징 벡터 를 출력할 수 있다. 이때, 파형 복원기(202)는 추정한 원본 신호의 특징 벡터 를 시간 영역 표현 로 변환하여 출력할 수 있다.
오디오 부호화 장치(110) 및 오디오 복호화 장치(120)는 부가 정보 인코더(115)에서 잔여 오차 특징 벡터를 부호화하는 딥러닝 모델과 부가 정보 디코더(123)에서 잔여 오차 특징 벡터를 복원하는 딥러닝 모델 및 후처리 프로세서(124)에서 원본 신호의 특징 벡터를 추정하는 딥러닝 모델을 조인트 트레이닝(joint training)하는 종단간 딥러닝을 수행함으로써, 딥러닝 모델들을 사용하는 부가 정보 인코더(115), 부가 정보 디코더(123) 및 후처리 프로세스(124)의 오차가 순차적으로 누적되지 않도록 할 수 있다.
또한, 오디오 부호화 장치(110) 및 오디오 복호화 장치(120)는 구조(210)를 가지는 딥러닝 모델, 구조(230)를 가지는 딥러닝 모델, 및 구조(240)를 가지는 딥러닝 모듈을 조인트 트레이닝(joint training)하는 종단간 딥러닝을 수행함으로써, 압축된 잠재 벡터를 양자화 하는 코드 벡터를 효과적으로 트레이닝하여 오디오 부호화 과정에서 음질향상을 위한 부가정보를 추출할 수 있다. 구체적으로, 오디오 부호화 장치(110) 및 오디오 복호화 장치(120)는 수학식 2의 손실 함수를 최소화하도록 구조(210)를 가지는 딥러닝 모델, 구조(230)를 가지는 딥러닝 모델, 및 구조(240)를 가지는 딥러닝 모듈을 트레이닝함으로써, 부가 정보 인코더(115), 부가 정보 디코더(123), 코드북(220), 및 후처리 프로세서(124)를 최적화할 수 있다.
도 3은 본 발명의 일실시예에 따른 오디오 복호화 장치의 출력에 대한 성능 평가의 일례이다.
MPEG-4 high-efficiency advanced audio coding (HE-AAC) v1 중 NeroAAC 코덱을 사용한 오디오 복호화 장치의 성능 평가(NeroAAC), NeroAAC 코덱에 후처리기를 추가한 오디오 복호화 장치의 성능 평가(+PP only), 및 메인 코덱으로 NeroAAC 코덱을 사용한 오디오 복호화 장치(120)의 성능 평가(Prop. (+0.6 kbps))는 도 3의 위쪽 표에 도시된 바와 같을 수 있다. 도 3의 표는 표준화된 음성 품질 평가 도구인 ITU-T Recommendation P.862.2 wideband perceptual evaluation of speech quality (PESQ)가 사용하여 측정한 성능의 일례이다.
또한, QAAC 코덱을 사용한 오디오 복호화 장치의 성능 평가(QAAC), QAAC 코덱에 후처리기를 추가한 오디오 복호화 장치의 성능 평가(+PP only), 및 메인 코덱으로 QAAC 코덱을 사용한 오디오 복호화 장치(120)의 성능 평가(Prop. (+0.6 kbps))는 도 3의 아래쪽 표에 도시된 바와 같을 수 있다.
도 3에 도시된 바에 따르면, 본 발명의 일실시예에 따른 오디오 부호화 장치(110) 및 오디오 복호화 장치(120)는 추가로 사용되는 비트율이 약 0.6 kbps임에도 불구하고, 더 높은 비트율에서 작동하는 메인 코덱에 후처리 모듈만 사용한 방법보다 평균 PESQ 점수가 높을 수 있다.
도 4는 본 발명의 일실시예에 따른 오디오 복호화 장치의 출력에 대한 음질 평가의 일례이다.
그래프(410)는 NeroAAC 코덱에 후처리기가 추가된 오디오 복호화 장치에서 복호화한 신호가 16 kbps에서 작동시킨 NeroAAC 코덱을 사용한 오디오 복호화 장치에서 복호화된 신호 보다 품질이 향상된 정도(+PP only), 및 메인 코덱으로 NeroAAC 코덱을 사용한 오디오 복호화 장치(120)에서 복호화한 신호가 16 kbps에서 작동시킨 NeroAAC 코덱을 사용한 오디오 복호화 장치에서 복호화된 신호 보다 품질이 향상된 정도(Prop. (+0.6 kbps))를 나타낼 수 있다.
또한, 그래프(420)는 QAAC 코덱에 후처리기가 추가된 오디오 복호화 장치에서 복호화한 신호가 16 kbps에서 작동시킨 QAAC 코덱을 사용한 오디오 복호화 장치에서 복호화된 신호 보다 품질이 향상된 정도(+PP only), 및 메인 코덱으로 QAAC 코덱을 사용한 오디오 복호화 장치(120)에서 복호화한 신호가 16 kbps에서 작동시킨 QAAC 코덱을 사용한 오디오 복호화 장치에서 복호화된 신호 보다 품질이 향상된 정도(Prop. (+0.6 kbps))를 나타낼 수 있다.
이때, 그래프(410), 및 그래프(420)는 코덱 출력 신호의 품질을 평가하기 위한 코덱 청취 테스트를 수행하는 방법 중 하나인 MUltiple Stimuli with Hidden Reference and Anchor (MUSHRA) 테스트에 따라 측정된 결과일 수 있다.
그래프(410), 및 그래프(420)에 따르면, 본 발명의 일실시예에 따른 오디오 복호화 장치(120)에서 복호화된 신호가 메인 코덱에 후처리만 사용한 오디오 복호화 장치에서 복호화된 신호에 비하여 NeroAAC에서는 9.73점, QAAC에서는 7.93점이 향상됨을 확인할 수 있다.
도 5는 본 발명의 일실시예에 따른 오디오 복호화 장치가 출력한 신호의 스펙트로그램의 일례이다.
도 5의 스펙트로그램(510)은 원본 신호(a), 메인 코덱으로 NeroAAC 코덱을 사용한 오디오 복호화 장치(120)에서 복호화한 신호(b), NeroAAC 코덱에 후처리기를 추가한 오디오 복호화 장치에서 복호화한 신호(c) 및 NeroAAC 코덱을 사용한 기존 오디오 복호화 장치에서 복호화한 신호(d)를 나타낼 수 있다.
또한, 도 5의 스펙트로그램(520)은 원본 신호(a), 메인 코덱으로 QAAC 코덱을 사용한 오디오 복호화 장치(120)에서 복호화한 신호(b), QAAC 코덱에 후처리기를 추가한 오디오 복호화 장치에서 복호화한 신호(c) 및 QAAC 코덱을 사용한 기존 오디오 복호화 장치에서 복호화한 신호(d)를 나타낼 수 있다.
스펙트로그램(510)과 스펙트로그램(520)에 따르면, (c)에서 잘 복원하지 못하는 고주파 대역을 (b)에서는 잘 복원하는 것을 확인할 수 있다.
도 6은 본 발명의 일실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
단계(610)에서 메인 코덱 인코더(111)는 원본 신호를 부호화하여 메인 코덱의 비트스트림을 출력할 수 있다. 이때, 메인 코덱 인코더(111)는 메인 코덱의 비트스트림을 오디오 복호화 장치(120)로 전송할 수 있다.
단계(660)에서 부가 정보 인코더(115)는 잔여 오차 특징 벡터 Xr을 부호화하여 부가 정보의 비트스트림을 출력할 수 있다. 이때, 부가 정보 인코더(115)는 잔여 오차 특징 벡터 Xr을 잠재 공간으로 대응 시킬 수 있다. 다음으로, 부가 정보 인코더(115)는 잠재 공간에 대응된 잔여 오차 특징 벡터를 벡터 양자화를 위한 코드 벡터로 할당하여 부호화할 수 있다. 그 다음으로, 부가 정보 인코더(115)는 부호화된 잔여 오차 특징 벡터를 양자화하여 부가 정보 비트스트림을 출력할 수 있다.
도 7은 본 발명의 일실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
단계(710)에서 메인 코덱 디코더(121)는 오디오 부호화 장치(110)의 메인 코덱 인코더(111)로부터 메인 코덱의 비트스트림을 수신할 수 있다. 그리고, 메인 코덱 디코더(121)는 수신한 메인 코덱의 비트스트림을 복호화하여 복호화한 신호 를 출력할 수 있다.
단계(730)에서 부가 정보 디코더(123)는 오디오 부호화 장치(110)의 부가 정보 인코더(115)로부터 부가 정보의 비트스트림을 수신할 수 있다. 그리고, 부가 정보 디코더(123)는 수신한 부가 정보의 비트스트림을 복호화하여 잔여 오차 특징 벡터를 복원할 수 있다.
단계(740)에서 후처리 프로세서(124)는 복호화한 신호 의 특징 벡터 Xd와 부가 정보 디코더(123)가 복원한 잔여 오차 특징 벡터 로부터 원본 신호의 특징 벡터를 추정할 수 있다. 이때, 후처리 프로세서(124)는 특징 벡터 Xd와 잔여 오차 특징 벡터 을 결합하여 원본 신호의 특징 벡터를 추정할 수 있다.
본 발명의 오디오 부호화 장치(110)는 잔여오차 특징들을 신경망을 이용하여 부호화하고 벡터 양자화하여 부가정보로 전송하고, 오디오 복호화 장치(120)는 수신한 부가 정보를 신경망을 이용하여 후처리 함으로써 기존 코덱과의 역호환성을 제공하고 기존 코덱으로 복호화된 오디오 신호의 음질을 향상시킬 수 있다.
또한, 본 발명은 부가 정보 인코더(115)에서 잔여 오차 특징 벡터를 부호화하는 딥러닝 모델과 부가 정보 디코더(123)에서 잔여 오차 특징 벡터를 복원하는 딥러닝 모델 및 후처리 프로세서(124)에서 원본 신호의 특징 벡터를 추정하는 딥러닝 모델을 조인트 트레이닝(joint training)하는 종단간 딥러닝을 수행함으로써, 딥러닝 모델들을 사용하는 부가 정보 인코더(115), 부가 정보 디코더(123) 및 후처리 프로세스(124)의 오차가 순차적으로 누적되지 않도록 할 수 있다.
그리고, 본 발명은 딥러닝 모델들을 조인트 트레이닝(joint training)하는 종단간 딥러닝을 수행함으로써, 압축된 잠재 벡터를 양자화 하는 코드 벡터를 효과적으로 트레이닝하여 오디오 부호화 과정에서 음질향상을 위한 부가정보를 추출할 수 있다.
한편, 본 발명에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.
본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 즉 정보 캐리어, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체) 또는 전파 신호에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.
컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.
또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체 및 전송매체를 모두 포함할 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.
110: 오디오 부호화 장치
111: 메인 코덱 인코더
112: 메인 코덱 디코더
113: 특징 추출기
114: 특징 추출기
115: 부가 정보 인코더
120: 오디오 복호화 장치
121: 메인 코덱 디코더
122: 특징 추출기
123: 부가 정보 디코더
124: 후처리 프로세서
111: 메인 코덱 인코더
112: 메인 코덱 디코더
113: 특징 추출기
114: 특징 추출기
115: 부가 정보 인코더
120: 오디오 복호화 장치
121: 메인 코덱 디코더
122: 특징 추출기
123: 부가 정보 디코더
124: 후처리 프로세서
Claims (16)
- 원본 신호를 부호화하여 메인 코덱의 비트스트림을 출력하는 단계;
상기 메인 코덱의 비트스트림을 복호화하는 단계;
복호화한 신호의 특징 벡터와 상기 원본 신호의 특징 벡터로부터 잔여 오차 특징 벡터를 결정하는 단계; 및
상기 잔여 오차 특징 벡터를 부호화하여 부가 정보의 비트스트림을 출력하는 단계
를 포함하는 오디오 신호 부호화 방법. - 제1항에 있어서
상기 부가 정보 비트스트림을 출력하는 단계는,
상기 잔여 오차 특징 벡터를 잠재 공간으로 대응 시키는 단계;
잠재 공간에 대응된 잔여 오차 특징 벡터를 벡터 양자화를 위한 코드 벡터로 할당하여 부호화하는 단계; 및
부호화된 잔여 오차 특징 벡터를 양자화하여 부가 정보 비트스트림을 출력하는 단계
를 포함하는 오디오 신호 부호화 방법. - 제1항에 있어서,
상기 잔여 오차 특징 벡터를 부호화하는 부가 정보 인코더는,
상기 부가 정보 인코더의 부호화에 따른 손실, 상기 부가 정보 비트스트림을 복호화하는 부가 정보 디코더의 벡터 양자화에 따른 손실 및 원본 신호의 특징 벡터와 상기 메인 코덱의 비트스트림 및 상기 부가 정보의 비트스트림으로부터 추정한 원본 신호의 특징 벡터 간의 차이에 따라 결정된 손실 함수에 따라 트레이닝되는 오디오 신호 부호화 방법. - 제1항에 있어서,
상기 잔여 오차 특징 벡터를 부호화하는 부가 정보 인코더를 상기 부가 정보 비트스트림을 복호화하는 부가 정보 디코더 및 상기 메인 코덱의 비트스트림, 상기 부가 정보의 비트스트림을 기초로 원본 신호의 특징 벡터를 추정하는 후처리 프로세서와 함께 트레이닝하는 단계
를 더 포함하는 오디오 신호 부호화 방법. - 제4항에 있어서,
상기 트레이닝하는 단계는,
평균 제곱 오차(MSE: mean squared error) 함수 및 VQ-VAE(Vector Quantized Variational AutoEncoder)의 손실 함수에 기초한 손실 함수를 이용하여 상기 부가 정보 인코더, 상기 부가 정보 디코더 및 후처리 프로세서를 트레이닝하는 오디오 신호 부호화 방법. - 제1항에 있어서,
상기 복호화한 신호에 포함된 음향 특징들로부터 상기 복호화한 신호의 특징 벡터를 추출하는 단계; 및
상기 원본 신호에 포함된 음향 특징들로부터 상기 원본 신호의 특징 벡터를 추출하는 단계
를 더 포함하는 오디오 신호 부호화 방법. - 메인 코덱의 비트스트림 및 부가 정보의 비트스트림을 수신하는 단계;
상기 메인 코덱의 비트스트림을 복호화하는 단계;
복호화한 신호에 포함된 음향 특징들로부터 상기 복호화한 신호의 특징 벡터를 추출하는 단계;
상기 부가 정보의 비트스트림을 복호화하여 잔여 오차 특징 벡터를 복원하는 단계; 및
복호화한 신호의 특징 벡터와 상기 잔여 오차 특징 벡터로부터 원본 신호의 특징 벡터를 추정하는 단계
를 포함하는 오디오 신호 복호화 방법. - 제7항에 있어서,
상기 원본 신호의 특징 벡터를 추정하는 단계는,
상기 복호화한 신호의 특징 벡터와 상기 잔여 오차 특징 벡터를 결합하여 상기 원본 신호의 특징 벡터를 추정하는 오디오 신호 복호화 방법. - 제7항에 있어서,
추정한 원본 신호의 특징 벡터를 시간 영역 표현으로 변환하여 출력하는 단계
를 더 포함하는 오디오 신호 복호화 방법. - 제7항에 있어서,
상기 부가 정보 비트스트림을 복호화하는 부가 정보 디코더 및 상기 메인 코덱의 비트스트림, 상기 부가 정보의 비트스트림을 기초로 원본 신호의 특징 벡터를 추정하는 후처리 프로세서를 부호화 장치에서 상기 잔여 오차 특징 벡터를 부호화하는 부가 정보 인코더와 함께 트레이닝하는 단계
를 더 포함하는 오디오 신호 복호화 방법. - 제1항 내지 제10항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체.
- 원본 신호를 부호화하여 메인 코덱의 비트스트림을 출력하는 메인 코덱 인코더;
상기 메인 코덱의 비트스트림을 복호화하는 메인 코덱 디코더; 및
복호화한 신호의 특징 벡터와 상기 원본 신호의 특징 벡터로부터 잔여 오차 특징 벡터를 결정하고, 상기 잔여 오차 특징 벡터를 부호화하여 부가 정보의 비트스트림을 출력하는 부가 정보 인코더
를 포함하는 오디오 신호 부호화 장치. - 제12항에 있어서
상기 부가 정보 인코더는,
상기 잔여 오차 특징 벡터를 잠재 공간으로 대응 시키고, 잠재 공간에 대응된 잔여 오차 특징 벡터를 벡터 양자화를 위한 코드 벡터로 할당하여 부호화하며, 부호화된 잔여 오차 특징 벡터를 양자화하여 부가 정보 비트스트림을 출력하는 오디오 신호 부호화 장치. - 제12항에 있어서,
상기 부가 정보 인코더는,
상기 부가 정보 인코더의 부호화에 따른 손실, 부가 정보 디코더의 벡터 양자화에 따른 손실 및 원본 신호의 특징 벡터와 상기 메인 코덱의 비트스트림 및 상기 부가 정보의 비트스트림으로부터 추정한 원본 신호의 특징 벡터 간의 차이에 따라 결정된 손실 함수에 따라 트레이닝되는 오디오 신호 부호화 장치. - 제12항에 있어서,
상기 부가 정보 인코더는,
상기 부가 정보 비트스트림을 복호화하는 부가 정보 디코더 및 상기 메인 코덱의 비트스트림, 상기 부가 정보의 비트스트림을 기초로 원본 신호의 특징 벡터를 추정하는 후처리 프로세서와 함께 트레이닝되는 오디오 신호 부호화 장치. - 제15항에 있어서,
상기 부가 정보 인코더는,
평균 제곱 오차(MSE: mean squared error) 함수 및 VQ-VAE(Vector Quantized Variational AutoEncoder)의 손실 함수에 기초한 손실 함수를 이용하여 상기 부가 정보 디코더 및 후처리 프로세서와 함께 트레이닝되는 오디오 신호 부호화 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210100809A KR20230018838A (ko) | 2021-07-30 | 2021-07-30 | 벡터 양자화된 잔여오차 특징을 사용한 오디오 부호화/복호화 장치 및 그 방법 |
US17/711,908 US11804230B2 (en) | 2021-07-30 | 2022-04-01 | Audio encoding/decoding apparatus and method using vector quantized residual error feature |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210100809A KR20230018838A (ko) | 2021-07-30 | 2021-07-30 | 벡터 양자화된 잔여오차 특징을 사용한 오디오 부호화/복호화 장치 및 그 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230018838A true KR20230018838A (ko) | 2023-02-07 |
Family
ID=85152506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210100809A KR20230018838A (ko) | 2021-07-30 | 2021-07-30 | 벡터 양자화된 잔여오차 특징을 사용한 오디오 부호화/복호화 장치 및 그 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11804230B2 (ko) |
KR (1) | KR20230018838A (ko) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5630011A (en) * | 1990-12-05 | 1997-05-13 | Digital Voice Systems, Inc. | Quantization of harmonic amplitudes representing speech |
US6459914B1 (en) * | 1998-05-27 | 2002-10-01 | Telefonaktiebolaget Lm Ericsson (Publ) | Signal noise reduction by spectral subtraction using spectrum dependent exponential gain function averaging |
KR101413968B1 (ko) | 2008-01-29 | 2014-07-01 | 삼성전자주식회사 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
US11276413B2 (en) | 2018-10-26 | 2022-03-15 | Electronics And Telecommunications Research Institute | Audio signal encoding method and audio signal decoding method, and encoder and decoder performing the same |
KR20210003507A (ko) | 2019-07-02 | 2021-01-12 | 한국전자통신연구원 | 오디오 코딩을 위한 잔차 신호 처리 방법 및 오디오 처리 장치 |
KR20210070767A (ko) | 2019-12-05 | 2021-06-15 | 한국전자통신연구원 | 오디오 부호화를 위한 잠재 벡터의 양자화 방법 및 양자화 방법을 수행하는 컴퓨팅 장치 |
-
2021
- 2021-07-30 KR KR1020210100809A patent/KR20230018838A/ko not_active Application Discontinuation
-
2022
- 2022-04-01 US US17/711,908 patent/US11804230B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11804230B2 (en) | 2023-10-31 |
US20230039546A1 (en) | 2023-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101428487B1 (ko) | 멀티 채널 부호화 및 복호화 방법 및 장치 | |
US8548801B2 (en) | Adaptive time/frequency-based audio encoding and decoding apparatuses and methods | |
US7864843B2 (en) | Method and apparatus to encode and/or decode signal using bandwidth extension technology | |
US8423371B2 (en) | Audio encoder, decoder, and encoding method thereof | |
USRE46082E1 (en) | Method and apparatus for low bit rate encoding and decoding | |
US7805314B2 (en) | Method and apparatus to quantize/dequantize frequency amplitude data and method and apparatus to audio encode/decode using the method and apparatus to quantize/dequantize frequency amplitude data | |
US9548056B2 (en) | Signal adaptive FIR/IIR predictors for minimizing entropy | |
US9240192B2 (en) | Device and method for efficiently encoding quantization parameters of spectral coefficient coding | |
US11783844B2 (en) | Methods of encoding and decoding audio signal using side information, and encoder and decoder for performing the methods | |
US11176954B2 (en) | Encoding and decoding of multichannel or stereo audio signals | |
JP7477247B2 (ja) | ステレオ信号符号化方法および装置、ならびにステレオ信号復号方法および装置 | |
US11804230B2 (en) | Audio encoding/decoding apparatus and method using vector quantized residual error feature | |
US20070078651A1 (en) | Device and method for encoding, decoding speech and audio signal | |
KR100928966B1 (ko) | 저비트율 부호화/복호화방법 및 장치 | |
WO2019173195A1 (en) | Signals in transform-based audio codecs | |
KR101735619B1 (ko) | 멀티 채널 신호의 부호화/복호화 장치 및 방법 | |
KR20220005379A (ko) | 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법 | |
KR20210133554A (ko) | 선형 예측 코딩을 이용한 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기 | |
KR20230028912A (ko) | 오디오 압축 효율 향상 장치 및 방법 | |
Ramadan | Compressive sampling of speech signals | |
Samaali et al. | Temporal envelope correction for attack restoration in low bit-rate audio coding | |
KR100940532B1 (ko) | 저비트율 복호화방법 및 장치 | |
Tamrakar et al. | An 800 bps MBE vocoder with low delay |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal |