KR20230018976A - 오디오 신호의 부호화 및 복호화 방법 및 이를 수행하는 부호화기 및 복호화기 - Google Patents

오디오 신호의 부호화 및 복호화 방법 및 이를 수행하는 부호화기 및 복호화기 Download PDF

Info

Publication number
KR20230018976A
KR20230018976A KR1020210179989A KR20210179989A KR20230018976A KR 20230018976 A KR20230018976 A KR 20230018976A KR 1020210179989 A KR1020210179989 A KR 1020210179989A KR 20210179989 A KR20210179989 A KR 20210179989A KR 20230018976 A KR20230018976 A KR 20230018976A
Authority
KR
South Korea
Prior art keywords
encoding
layer
decoding
signal
current
Prior art date
Application number
KR1020210179989A
Other languages
English (en)
Inventor
임우택
백승권
성종모
이태진
장인선
김민제
Original Assignee
한국전자통신연구원
더 트러스티즈 오브 인디애나 유니버시티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원, 더 트러스티즈 오브 인디애나 유니버시티 filed Critical 한국전자통신연구원
Publication of KR20230018976A publication Critical patent/KR20230018976A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

오디오 신호의 부호화 및 복호화 방법 및 이를 수행하는 부호화기 및 복호화기가 개시된다. 본 발명의 일실시예에 따른 오디오 신호의 부호화 방법은 입력 신호를 식별하는 단계; 및 상기 입력 신호를 부호화하는 연속적인 인코딩 계층들을 포함하는 부호화 모델을 상기 입력 신호에 적용하여 상기 각 인코딩 계층 별 비트스트링(bitstring)들을 생성하는 단계를 포함하고, 상기 인코딩 계층들 중 현재 인코딩 계층은, 이전 인코딩 계층에서 부호화된 인코딩 신호를 부호화하고, 상기 현재 인코딩 계층에서 부호화된 인코딩 신호를 양자화하여 상기 현재 인코딩 신호의 비트스트링을 생성하도록 트레이닝될 수 있다.

Description

오디오 신호의 부호화 및 복호화 방법 및 이를 수행하는 부호화기 및 복호화기 {Audio Signal Encoding and Decoding Method, and Encoder and Decoder Performing the Methods}
본 발명은 오디오 신호의 부호화 및 복호화 방법 및 이를 수행하는 부호화기 및 복호화기에 관한 것으로, 보다 구체적으로는, 오토인코더 구조의 신경망 모델을 이용함에 있어, 각 계층에서 출력되는 인코딩 신호를 복호화기에 전달하여 복호화를 수행함으로써 코딩 품질을 높이는 기술에 관한 것이다.
최근, 딥러닝에 대한 활발한 연구가 이루어짐에 따라 오디오 코딩 기술에도 딥러닝이 적용되고 있다. 대표적으로, 오디오 신호의 부호화 및 복호화 과정을 처리하기 위하여 오토인코더(autoencoder)가 이용될 수 있다.
오토인코더는 부호화 모델과 복호화 모델을 포함하는 구조이고, 부호화 모델 및 복호화 모델은 모두 신경망(neural network) 모델이다. 부호화 모델은 오디오 신호를 비트스트링 또는 잠재 코드로 변환하고, 복호화 모델은 비트스트링으로부터 원본의 오디오 신호를 복원할 수 있다.
종래 오토인코더의 부호화 모델은, 오디오 신호의 부호화를 수행하는 복수의 계층들을 포함할 수 있다. 각 계층은, 오디오 신호에 대해 부호화 연산을 수행할 수 있다. 복수의 계층 각각에 의하여 오디오 신호에 대한 부호화 연산이 반복적으로 수행될 수 있다.
부호화 연산이 수행될 때 마다, 원본 오디오 신호의 일부가 손실되기 때문에, 복호화 모델이 부호화 모델에서 복수의 부호화 연산을 거쳐 최종적으로 생성된 비트스트링에 기초하여 원본 오디오 신호를 복원함에 있어, 높은 품질의 오디오 신호를 얻기 어렵다. 따라서, 높은 품질로 오디오 신호를 복원할 수 있는 오디오 코딩 기술이 요구된다.
본 발명은 오토인코더 구조의 신경망 모델을 이용하여 오디오 코딩을 수행함에 있어, 계층 별로 별도의 인코딩 및 양자화를 처리함으로써, 오디오 신호의 복원 품질을 높일 수 있는 방법 및 장치를 제공한다.
본 발명의 일실시예에 따른 오디오 신호의 부호화 방법은 입력 신호를 식별하는 단계; 및 상기 입력 신호를 부호화하는 연속적인 인코딩 계층들을 포함하는 부호화 모델을 상기 입력 신호에 적용하여 상기 각 인코딩 계층 별 비트스트링(bitstring)들을 생성하는 단계를 포함하고, 상기 인코딩 계층들 중 현재 인코딩 계층은, 이전 인코딩 계층에서 부호화된 인코딩 신호를 부호화하고, 상기 현재 인코딩 계층에서 부호화된 인코딩 신호를 양자화하여 상기 현재 인코딩 신호의 비트스트링을 생성하도록 트레이닝될 수 있다.
상기 현재 인코딩 계층은, 상기 이전 인코딩 계층에서 부호화된 인코딩 신호를 부호화하여 압축 신호를 생성하고, 상기 압축 신호를 양자화함으로써 상기 현재 인코딩 계층의 비트스트링을 생성할 수 있다.
상기 각 인코딩 계층 별 비트스트링은, 상기 각 인코딩 계층에 대응하는 복호화 모델의 디코딩 계층에서 복호화되고, 상기 디코딩 계층은, 상기 인코딩 계층과 일대일 대응할 수 있다.
상기 각 인코딩 계층 별 비트스트링들을 결합하여 비트스트림을 생성하는 단계를 더 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 신호의 복호화 방법은 부호화기에 의해 생성된 인코딩 계층 별 비트스트링(bitstring)들을 식별하는 단계; 및 상기 인코딩 계층 별 비트스트링들을 복호화하는 연속적인 디코딩 계층들을 포함하는 복호화 모델에 상기 인코딩 계층 별 비트스트링들을 입력함으로써 출력 신호를 생성하는 단계를 포함하고, 상기 디코딩 계층들 중 현재 디코딩 계층은, 상기 인코딩 계층 별 비트스트링들 중 상기 현재 디코딩 계층에 대응하는 인코딩 계층의 비트스트링을 이용하여, 이전 디코딩 계층에서 복호화된 디코딩 신호를 복호화하도록 트레이닝될 수 있다.
상기 현재 디코딩 계층은, 상기 인코딩 계층 별 비트스트링들 중 상기 현재 디코딩 계층에 대응하는 인코딩 계층의 비트스트링을 역양자화하고, 상기 역양자화된 비트스트링과 동일하도록, 상기 이전 디코딩 계층에서 복호화된 디코딩 신호를 복호화할 수 있다.
상기 인코딩 계층 별 비트스트링들 중 상기 현재 디코딩 계층에 대응하는 인코딩 계층의 비트스트링은, 이전 디코딩 계층에서 복호화된 디코딩 신호와 동일한 크기이거나 동일한 채널일 수 있다.
상기 인코딩 계층 별 비트스트링들은, 부호화 모델에 의해 서로 다른 인코딩 계층에서 부호화되고 양자화될 수 있다.
상기 인코딩 계층 별 비트스트링들은, 서로 다른 크기이거나, 서로 다른 채널일 수 있다.
본 발명의 일실시예에 따른 오디오 신호의 부호화 방법을 수행하는 부호화기에 있어서, 상기 부호화기는 프로세서를 포함하고, 상기 프로세서는, 입력 신호를 식별하고, 상기 입력 신호를 부호화하는 연속적인 인코딩 계층들을 포함하는 부호화 모델을 상기 입력 신호에 적용하여 상기 각 인코딩 계층 별 비트스트링(bitstring)들을 생성하고, 상기 인코딩 계층들 중 현재 인코딩 계층은, 이전 인코딩 계층에서 부호화된 인코딩 신호를 부호화하고, 상기 현재 인코딩 계층에서 부호화된 인코딩 신호를 양자화하여 상기 현재 인코딩 신호의 비트스트링을 생성하도록 트레이닝될 수 있다.
상기 현재 인코딩 계층은, 상기 이전 인코딩 계층에서 부호화된 인코딩 신호를 부호화하여 압축 신호를 생성하고, 상기 압축 신호를 양자화함으로써 상기 현재 인코딩 계층의 비트스트링을 생성할 수 있다.
상기 각 인코딩 계층 별 비트스트링은, 상기 각 인코딩 계층에 대응하는 복호화 모델의 디코딩 계층에서 복호화되고, 상기 디코딩 계층은, 상기 인코딩 계층과 일대일 대응할 수 있다.
상기 프로세서는, 상기 각 인코딩 계층 별 비트스트링들을 결합하여 비트스트림을 생성할 수 있다.
본 발명의 일실시예에 따른 오디오 신호의 복호화 방법을 수행하는 복호화기에 있어서, 상기 복호화기는 프로세서를 포함하고, 상기 프로세서는, 부호화기에 의해 생성된 인코딩 계층 별 비트스트링(bitstring)들을 식별하고, 상기 인코딩 계층 별 비트스트링들을 복호화하는 연속적인 디코딩 계층들을 포함하는 복호화 모델에 상기 인코딩 계층 별 비트스트링들을 입력함으로써 출력 신호를 생성하고, 상기 디코딩 계층들 중 현재 디코딩 계층은, 상기 인코딩 계층 별 비트스트링들 중 상기 현재 디코딩 계층에 대응하는 인코딩 계층의 비트스트링을 이용하여, 이전 디코딩 계층에서 복호화된 디코딩 신호를 복호화하도록 트레이닝될 수 있다.
상기 현재 디코딩 계층은, 상기 인코딩 계층 별 비트스트링들 중 상기 현재 디코딩 계층에 대응하는 인코딩 계층의 비트스트링을 역양자화하고, 상기 역양자화된 비트스트링과 동일하도록, 상기 이전 디코딩 계층에서 복호화된 디코딩 신호를 복호화할 수 있다.
상기 인코딩 계층 별 비트스트링들 중 상기 현재 디코딩 계층에 대응하는 인코딩 계층의 비트스트링은, 이전 디코딩 계층에서 복호화된 디코딩 신호와 동일한 크기이거나 동일한 채널일 수 있다.
상기 인코딩 계층 별 비트스트링들은, 부호화 모델에 의해 서로 다른 인코딩 계층에서 부호화되고 양자화될 수 있다.
상기 인코딩 계층 별 비트스트링들은, 서로 다른 크기이거나, 서로 다른 채널을 가질 수 있다.
본 발명의 일실시예에 따르면 오토인코더 구조의 신경망 모델을 이용하여 오디오 코딩을 수행함에 있어, 계층 별로 별도의 인코딩 및 양자화를 처리함으로써, 오디오 신호의 복원 품질을 높일 수 있다. 본 발명의 일실시예에 따르면 신경망 모델이 이용됨으로써 복원된 오디오 신호의 인지적 품질도 향상될 수 있다.
도 1은 본 발명의 일실시예에 따른 부호화기 및 복호화기를 도시한 것이다.
도 2는 오토인코더(autoencoder) 기반의 신경망 모델의 구조를 도시한 것이다.
도 3은 본 발명의 일실시예에 따른 부호화 모델 및 복호화 모델의 구조를 도시한 것이다.
도 4는 본 발명의 일실시예에 따른 부호화 모델 및 복호화 모델의 데이터 처리 과정을 블록도로 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 부호화 및 복호화 방법을 플로우 차트로 도시한 것이다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일실시예에 따른 부호화기 및 복호화기를 도시한 것이다.
본 발명은 오토인코더 구조의 신경망 모델을 이용하여 오디오 신호를 부호화 및 복호화함에 있어, 인코딩 계층 별로 비트스트링(bitstring)을 생성하여 복호화기(102)에 전달함으로써 오디오 신호의 복원 품질을 높일 수 있는 기술에 관한 것이다.
도 1을 참조하면, 부호화기(101)는, 입력 신호를 부호화하여 비트스트링을 생성할 수 있고, 복호화기(102)는, 비트스트링을 복호화하여 출력 신호를 생성할 수 있다. 부호화기(101) 및 복호화기(102)는, 각각 프로세서를 포함할 수 있다. 일례로, 부호화기(101) 및 복호화기(102)는 동일한 전자 장치일 수 있다.
부호화기(101)에 포함된 프로세서는 본 발명의 일실시예에 따른 부호화 방법을 수행할 수 있다. 복호화기(102)에 포함된 프로세서는 본 발명의 일실시예에 따른 복호화 방법을 수행할 수 있다. 본 발명에서 이용되는 신경망 모델에 의해 처리되는 동작들은 모두 부호화기(101) 또는 복호화기(102)에 포함된 프로세서에 의해 수행될 수 있다.
입력 신호는 부호화 및 복호화 대상이 되는 원본의 오디오 신호를 의미하고, 출력 신호는 본 발명의 일실시예에 따라 복원되는 오디오 신호를 의미할 수 있다.
본 발명에 이용되는 신경망 모델은 오토인코더(autoencoder) 구조를 기반으로 하는 신경망 모델이고, 부호화 모델과 복호화 모델을 포함할 수 있다. 일례로, 합성곱 신경망(convolutional neural network, CNN), 순환 신경망(recurrent neural network, RNN) 등 다양한 종류의 신경망이 본 발명의 일실시예에 따른 신경망 모델에 이용될 수 있다.
일례로, 신경망 모델은, 입력 신호와 출력 신호의 차이에 기초하여 트레이닝될 수 있다. 일례로, 신경망 모델은, 입력 신호와 출력 신호의 차이가 최소화되도록 신경망 모델의 파라미터가 업데이트됨으로써 트레이닝될 수 있다. 신경망 모델은, 입력 신호와 출력 신호의 차이에 의해 결정되는 손실 함수의 값이 최소가 되도록 트레이닝될 수 있다. 일례로, 신경망 모델의 트레이닝에 역전파(backpropagation)가 이용될 수 있다.
신경망 모델에 포함되는 부호화 모델은 입력 신호를 부호화하여 인코딩 계층 별 비트스트링을 생성할 수 있다. 부호화 모델은, 입력 신호를 부호화하는 연속적인 인코딩 계층들을 포함할 수 있다. 입력 신호는 순차적으로 인코딩 계층들을 거쳐 부호화될 수 있다.
각 인코딩 계층은 동일한 부호화 함수에 대한 연산을 수행할 수 있다. 각 인코딩 계층은 부호화 함수의 연산을 위한 파라미터들을 포함할 수 있다. 부호화 함수는 특정한 예로 제한되지 않는다. 일례로, 인코딩 계층에서 합성곱(convolution) 연산이 수행될 수 있다. 각 인코딩 계층의 입력 데이터는 이전 인코딩 계층의 출력 데이터일 수 있다.
즉, 인코딩 계층들 중 현재 인코딩 계층은, 이전 인코딩 계층에서 부호화된 인코딩 신호를 부호화할 수 있다. 일례로, 인코딩 계층의 출력 데이터는 특징 벡터들로 구성된 특징 맵일 수 있다. 일례로, 인코딩 계층에서, 입력 데이터의 크기는 감소하고, 입력 데이터의 채널 또는 차원이 증가할 수 있다.
복호화 모델은 인코딩 계층 별 비트스트링들을 복호화하여 출력 신호를 생성할 수 있다. 복호화 모델은 비트스트링의 복호화를 수행하는 연속적인 디코딩 계층들을 포함할 수 있다. 비트스트링은 순차적으로 디코딩 계층들을 거쳐 복호화될 수 있다. 일례로, 디코딩 계층에서, 입력 데이터의 크기는 증가하고, 채널 또는 차원이 감소할 수 있다.
각 디코딩 계층은 동일한 복호화 함수에 대한 연산을 수행할 수 있다. 복호화 함수는 부호화 함수에 대응하여 결정될 수 있다. 복호화 함수는 특정한 예로 제한되지 않는다. 각 디코딩 계층은 복호화 함수의 연산을 위한 파라미터들을 포함할 수 있다. 오토인코더 구조의 신경망 모델의 예는 아래 도 2에서 후술한다.
본 발명의 일실시예에 따르면, 부호화 모델에 의한 부호화 과정에서, 인코딩 계층들에 대한 스킵 커넥션(skip connection)이 수행될 수 있다. 다만, 스킵 커넥션 과정에서 인코딩 계층 별로 별도의 부호화 과정 및 양자화 과정이 수행되어, 인코딩 계층 별 비트스트링이 생성될 수 있다.
일례로, 현재 인코딩 계층은, 이전 인코딩 계층에서 부호화된 인코딩 신호를 부호화하고, 현재 인코딩 계층에서 부호화된 인코딩 신호를 양자화하여 현재 인코딩 신호의 비트스트링을 생성할 수 있다.
복호화 모델의 디코딩 계층은 대응되는 인코딩 계층의 비트스트링을 이용하여 복호화를 수행함으로써, 복호화된 오디오 신호의 품질을 높일 수 있다. 또한, 인코딩 계층 별 비트스트링 생성 과정에서 별도의 부호화 및 양자화 과정이 수행되기 때문에, 압축 효율도 높일 수 있다.
도 2는 오토인코더(autoencoder) 기반의 신경망 모델의 구조를 도시한 것이다.
도 2를 참조하면, 종래 오토인코더 기반의 신경망 모델에 포함되는 부호화 모델(201)은, 복수의 연속적인 인코딩 계층(203)을 포함할 수 있다. 입력 신호는 연속적인 인코딩 계층(203)들을 거쳐 비트스트링으로 부호화될 수 있다. 일례로, 입력 신호는 일련의 인코딩 계층(203)들에 의해 순차적으로 부호화될 수 있다.
일례로, 아래 수학식 1에 따라, 부호화 모델(201)에 대한 비트스트링이 결정될 수 있다.
Figure pat00001
수학식 1에서, z는 부호화 모델(201)에 의해 생성된 비트스트링을 의미할 수 있다. Fenc(x)는 부호화 모델(201)에서 처리되는 연산에 대한 함수를 의미할 수 있다. fenc (i)는 i번째 인코딩 계층(203)의 부호화 함수를 의미할 수 있다. L은 인코딩 계층의 전체 수를 의미할 수 있다. x는 입력 신호를 의미할 수 있다.
도 2를 참조하면, 종래 오토인코더 기반의 신경망 모델에 포함되는 복호화 모델(202)은, 복수의 연속적인 디코딩 계층(204)을 포함할 수 있다. 복호화 모델(202)은 비트스트링을 복호화하여 출력 신호를 생성할 수 있다. 일례로, 비트스트링은 일련의 디코딩 계층(204)들에 의해 순차적으로 복호화될 수 있다.
일례로, 아래 수학식 2에 따라, 복호화 모델(202)에서 출력 신호가 생성될 수 있다.
Figure pat00002
수학식 2에서,
Figure pat00003
는 복호화 모델(202)에 의해 생성된 출력 신호를 의미할 수 있다. x는 입력 신호를 의미할 수 있다.
Figure pat00004
(L)는 부호화 모델(201)에 의해 생성된 비트스트링을 역 양자화(de-quantization) 한 신호를 의미할 수 있다. Fdec(x)는 복호화 모델(202)에서 처리되는 연산에 대한 함수를 의미할 수 있다. fdec (i)는 i번째 디코딩 계층(204)의 복호화 함수를 의미할 수 있다. L은 인코딩 계층의 전체 수를 의미할 수 있다.
도 2를 참조하면, 디코딩 계층(204)들과, 인코딩 계층(203)들은 일대일 대응할 수 있다.
일례로, 입력 신호를 부호화하는 첫번째 인코딩 계층(203)의 입력 데이터(입력 신호)와, 복호화 모델(202)에서 출력 신호를 생성하는 마지막 디코딩 계층(204)의 출력 데이터(출력 신호)의 크기 및 차원이 동일하기 때문에, 입력 신호를 부호화하는 첫번째 인코딩 계층(203)은, 복호화 모델(202)에서 출력 신호를 생성하는 마지막 디코딩 계층(204)과 대응할 수 있다.
도 2에 도시된 종래 오토인코더 기반의 신경망 모델에 의한 부호화 및 복호화 과정은, 부호화 연산이 수행될 때 마다 원본 오디오 신호의 일부가 손실되기 때문에, 오디오 신호를 복원함에 있어, 높은 품질의 오디오 신호를 획득하기 어려울 수 있다.
이에 따라, 본 발명의 부호화기는, 각 인코딩 계층(203) 별 비트스트링을 생성하고, 복호화기는 이를 복호화에 이용하여 복원되는 오디오 신호의 품질을 높일 수 있다. 또한, 본 발명의 부호화기는 각 인코딩 계층(203) 별 비트스트링을 생성하는 과정에서, 별도의 부호화 및 양자화 과정을 수행함으로써 압축 효율을 높일 수 있다.
도 3은 본 발명의 일실시예에 따른 부호화 모델 및 복호화 모델의 구조를 도시한 것이다.
도 3을 참조하면, 본 발명의 일실시예에 따른 신경망 모델에 포함되는 부호화 모델(301)은, 복수의 연속적인 인코딩 계층(303)을 포함할 수 있다. 입력 신호는 연속적인 인코딩 계층(303)들을 거쳐 비트스트링으로 부호화될 수 있다. 일례로, 입력 신호는 일련의 인코딩 계층(303)들에 의해 순차적으로 부호화될 수 있다.
도 3을 참조하면, 스킵 커넥션(도 3의 (a), (b), (c))을 통해, 각 인코딩 계층(303) 별로 생성된 비트스트링들은 복호화 모델(302)의 디코딩 계층(304)들에서 복호화될 수 있다. 스킵 커넥션은 서로 대응되는 인코딩 계층(303) 및 디코딩 계층(304)에 대하여 수행될 수 있다.
인코딩 계층(303) 별 비트스트링들은, 부호화 모델(301)에 의해 서로 다른 인코딩 계층(303)에서 부호화되고 양자화되어 생성된 것일 수 있다. 일례로, 본 발명의 일실시예에 따른 인코딩 계층(303)은, 입력 데이터를 부호화하고, 추가적인 부호화 및 양자화를 수행함으로써 비트스트링을 생성할 수 있다.
일례로, 현재 인코딩 계층(303)은, 이전 인코딩 계층(303)에서 부호화된 인코딩 신호를, 추가적으로 부호화하고, 양자화하여 현재 인코딩 계층(303)에 대응하는 비트스트링을 생성할 수 있다. 인코딩 신호는, 인코딩 계층(303)에 의해 부호화된 입력 신호를 의미할 수 있다.
일례로, 인코딩 계층(303) 별 비트스트링을 생성하기 위해 추가적인 부호화에 이용되는 부호화 함수를 제2 부호화 함수로 정의하고, 수학식 1의 부호화 함수를 제1 부호화 함수로 정의할 수 있다.
일례로, 현재 인코딩 계층(303)은, 제1 부호화 함수를 이용하여 이전 인코딩 계층(303)에서 부호화된 인코딩 신호를 부호화할 수 있다. 그리고, 인코딩 계층(303)은, 제2 부호화 함수를 이용하여, 현재 인코딩 계층(303)에서 부호화된 인코딩 신호를 부호화하고 양자화함으로써 비트스트링을 생성할 수 있다. 다음 인코딩 계층(303)은, 현재 인코딩 계층(303)에서 제1 부호화 함수에 의해 부호화된 인코딩 신호를, 제1 부호화 함수로 부호화할 수 있다.
다른 예로, 인코딩 계층(303)들 중 일부 계층들에 대해서만 스킵 커넥션이 수행될 수 있다. 이 경우, 비트율에 따라 확장 가능(scalable)한 구조가 적용될 수 있다. 또한, 스킵 커넥션을 수행함에 있어 인코딩 계층(303) 별로 부호화 및 양자화 과정을 통해 비트스트링을 생성하는 동작은 다양한 오디오 코딩 모델에 적용될 수 있다.
도 3을 참조하면, 디코딩 계층(304)들과, 인코딩 계층(303)들은 일대일 대응할 수 있다.
일례로, 입력 신호를 부호화하는 첫번째 인코딩 계층(303)의 입력 데이터(입력 신호)와, 복호화 모델(302)에서 출력 신호를 생성하는 마지막 디코딩 계층(304)의 출력 데이터(출력 신호)의 크기 및 차원이 동일하기 때문에, 입력 신호를 부호화하는 첫번째 인코딩 계층(303)은, 복호화 모델(302)에서 출력 신호를 생성하는 마지막 디코딩 계층(304)과 대응할 수 있다.
일례로, 인코딩 계층(303) 별 비트스트링들 중 현재 디코딩 계층(304)에 대응하는 인코딩 계층(303)의 비트스트링은, 이전 디코딩 계층(304)에서 복호화된 디코딩 신호와 동일한 크기이거나 동일한 채널일 수 있다.
도 3을 참조하면, 복호화 모델(302)은, 복수의 연속적인 디코딩 계층(304)을 포함할 수 있다. 복호화 모델(302)은 비트스트링을 복호화하여 출력 신호를 생성할 수 있다. 일례로, 복호화 모델(302)은 인코딩 계층(303) 별 비트스트링들을 이용하여 출력 신호를 순차적으로 복호화될 수 있다. 구체적인 과정은 도 4에서 후술한다.
도 4는 본 발명의 일실시예에 따른 데이터 처리 과정을 블록도로 도시한 도면이다.
일례로, 도 4를 참조하면, 부호화 모델(401)은 4개의 인코딩 계층을 포함하고, 복호화 모델(402)은 4개의 디코딩 계층을 포함할 수 있다. 인코딩 계층 및 디코딩 계층의 수는 도시된 예로 제한되지 않으며, 실시예에 따라 확장되거나 축소될 수 있다. 도 4를 참조하면, 1-4번째 인코딩 계층은 4-7번째 디코딩 계층에 각각 대응할 수 있다.
도 4를 참조하면, 부호화기는 입력 신호(400)(x(0))를 식별할 수 있다. 도 4를 참조하면, fenc (i)은 i번째 인코딩 계층에서 이용되는 제1 부호화 함수를 의미할 수 있다. genc (i)(x(i))는 i번째 인코딩 계층에서 이용되는 제2 부호화 함수를 의미할 수 있다.
z(i)는 i번째 인코딩 계층의 비트스트링에 대응할 수 있다. Q(y(i))는 i번째 인코딩 계층에서 이용되는 양자화 함수를 의미할 수 있다. y(i)는 i번째 인코딩 계층에서 제2 부호화 함수에 의해 부호화된 인코딩 신호를 의미할 수 있다.
일례로, y(i)는 아래 수학식 3에 따라 결정될 수 있다.
Figure pat00005
수학식 3에서, y(l)는 l번째 인코딩 계층에서 제2 부호화 함수에 의해 부호화된 인코딩 신호를 의미할 수 있다. 수학식 3에서, genc (l)(x(l))는 l번째 인코딩 계층에서 이용되는 제2 부호화 함수를 의미할 수 있다. x(l)은 l번째 계층에서 제1 부호화 함수에 의해 부호화된 인코딩 신호를 의미할 수 있다.
일례로, 도 4를 참조하면, 현재 인코딩 계층(예: 2번째 인코딩 계층)은, 제1 부호화 함수(fenc (2))를 이용하여 이전 인코딩 계층(예: 1번째 인코딩 계층)에서 부호화된 인코딩 신호(x(1))를 부호화할 수 있다. 그리고, 현재 인코딩 계층은, 제2 부호화 함수(genc (2))를 이용하여, 현재 인코딩 계층에서 부호화된 인코딩 신호(x(2))를 부호화하고 양자화함으로써 현재 인코딩 계층에 대응하는 비트스트링(z(2))을 생성할 수 있다.
복호화기는 부호화기에 의해 생성된 인코딩 계층 별 비트스트링(z(1) - z(4))들을 식별할 수 있다. 도 4를 참조하면, 복호화 모델(402)에서, fdec (i)은 i번째 디코딩 계층에서 이용되는 제1 복호화 함수를 의미할 수 있다. 제1 복호화 함수는 제1 부호화 함수에 대응되는 복호화 함수일 수 있다. gdec (i)는 i번째 디코딩 계층에서 이용되는 제2 복호화 함수를 의미할 수 있다. 제2 복호화 함수는 제2 부호화 함수에 대응되는 복호화 함수일 수 있다.
도 4에서, 4번째 인코딩 계층의 비트스트링은 4번째 디코딩 계층에서부터 7번째 디코딩 계층을 거쳐 복호화될 수 있다. 도 4를 참조하면,
Figure pat00006
(4) -
Figure pat00007
(7)는 4-7번째 디코딩 계층에서 제1 복호화 함수에 의해 복호화된 디코딩 신호를 의미할 수 있다. 디코딩 신호는 복호화된 비트스트링을 의미할 수 있다.
Figure pat00008
(1) -
Figure pat00009
(3)는 1-3번째 인코딩 계층의 비트스트링에 대응하는 인코딩 신호가, 디코딩 계층에서 복원된 것을 의미할 수 있다. Q-1(y(i))는 i번째 인코딩 계층에서 이용되는 양자화 함수의 역함수를 의미할 수 있다.
Figure pat00010
(i)는 i번째 인코딩 계층에서 제2 부호화 함수에 의해 부호화된 인코딩 신호가 복원된 것을 의미할 수 있다.
일례로, 수학식 4에 따라, 1-3번째 인코딩 계층의 비트스트링에 대응하는 인코딩 신호가, 디코딩 계층에서 복원될 수 있다.
Figure pat00011
수학식 4에서, gdec (l)는 l번째 디코딩 계층에서 이용되는 제2 복호화 함수를 의미할 수 있다.
Figure pat00012
(l)는 l번째 인코딩 계층에서 제2 부호화 함수에 의해 부호화된 인코딩 신호가 복원된 것을 의미할 수 있다.
Figure pat00013
(l)는 l번째 인코딩 계층의 비트스트링에 대응하는 인코딩 신호가, 디코딩 계층에서 복원된 것을 의미할 수 있다. x(l)은 원본의 오디오 신호 또는 인코딩 신호를 의미할 수 있다.
일례로, 디코딩 계층들 중 현재 디코딩 계층(예: 6번째 디코딩 계층)은, 인코딩 계층 별 비트스트링(z(1) - z(4))들 중 현재 디코딩 계층에 대응하는 인코딩 계층(예: 2번째 디코딩 계층)의 비트스트링(z(2))을 이용하여, 이전 디코딩 계층(예: 5번째 인코딩 계층)에서 복호화된 디코딩 신호(
Figure pat00014
(5))를 복호화할 수 있다.
일례로, 현재 디코딩 계층(예: 6번째 디코딩 계층)은, 인코딩 계층 별 비트스트링(z(1) - z(4))들 중 현재 디코딩 계층에 대응하는 인코딩 계층(예: 2번째 디코딩 계층)의 비트스트링(z(2))으로부터 복원된 디코딩 신호(
Figure pat00015
(2))와 이전 디코딩 계층(예: 5번째 인코딩 계층)에서 복호화된 디코딩 신호(
Figure pat00016
(5))간의 연접(concatenation) 결과를 제1 복호화 함수(fdec (3))에 입력하여, 이전 디코딩 계층(예: 5번째 인코딩 계층)에서 복호화된 디코딩 신호(
Figure pat00017
(5))를 복호화할 수 있다. 위와 같은 과정을 통해 복호화 모델(402)은 출력 신호(403)(
Figure pat00018
(8))을 생성할 수 있다.
도 5는 본 발명의 일실시예에 따른 부호화 및 복호화 방법을 플로우 차트로 도시한 것이다.
도 5의 (a)는 본 발명의 일실시예에 따른 부호화 방법을 플로우 차트로 도시한 도면이다. 도 5의 (b)는 본 발명의 일실시예에 따른 복호화 방법을 플로우 차트로 도시한 도면이다.
단계(501)에서, 부호화기는, 입력 신호를 식별할 수 있다. 입력 신호는 원본의 오디오 신호를 의미할 수 있다. 단계(502)에서, 부호화기는, 입력 신호를 부호화하는 연속적인 인코딩 계층들을 포함하는 부호화 모델을 입력 신호에 적용하여 각 인코딩 계층 별 비트스트링들을 생성할 수 있다.
인코딩 계층들 중 현재 인코딩 계층은, 현재 인코딩 계층은, 제1 부호화 함수를 이용하여 이전 인코딩 계층에서 부호화된 인코딩 신호를 부호화할 수 있다. 그리고, 현재 인코딩 계층은, 제2 부호화 함수를 이용하여, 현재 인코딩 계층에서 부호화된 인코딩 신호를 부호화하고 양자화함으로써 현재 인코딩 계층에 대응하는 비트스트링을 생성할 수 있다.
단계(511)에서, 복호화기는, 부호화기에 의해 생성된 인코딩 계층 별 비트스트링들을 식별할 수 있다. 단계(512)에서, 복호화기는, 인코딩 계층 별 비트스트링들을 복호화하는 연속적인 디코딩 계층들을 포함하는 복호화 모델에 인코딩 계층 별 비트스트링들을 입력함으로써 출력 신호를 생성할 수 있다.
디코딩 계층들 중 현재 디코딩 계층은, 현재 디코딩 계층은, 인코딩 계층 별 비트스트링들 중 현재 디코딩 계층에 대응하는 인코딩 계층의 비트스트링으로부터 복원된 디코딩 신호와 이전 디코딩 계층에서 복호화된 디코딩 신호간의 연접 결과를 제1 복호화 함수에 입력하여, 이전 디코딩 계층에서 복호화된 디코딩 신호를 복호화할 수 있다. 위와 같은 과정을 통해 복호화 모델은 출력 신호을 생성할 수 있다.
한편, 본 발명에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.
본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 즉 정보 캐리어, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체) 또는 전파 신호에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.
컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.
또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체 및 전송매체를 모두 포함할 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.
101: 부호화기
102: 복호화기

Claims (13)

  1. 오디오 신호의 부호화 방법에 있어서,
    입력 신호를 식별하는 단계; 및
    상기 입력 신호를 부호화하는 연속적인 인코딩 계층들을 포함하는 부호화 모델을 상기 입력 신호에 적용하여 상기 각 인코딩 계층 별 비트스트링(bitstring)들을 생성하는 단계
    를 포함하고,
    상기 인코딩 계층들 중 현재 인코딩 계층은,
    이전 인코딩 계층에서 부호화된 인코딩 신호를 부호화하고, 상기 현재 인코딩 계층에서 부호화된 인코딩 신호를 양자화하여 상기 현재 인코딩 신호의 비트스트링을 생성하도록 트레이닝되는,
    부호화 방법.
  2. 제1항에 있어서,
    상기 현재 인코딩 계층은,
    상기 이전 인코딩 계층에서 부호화된 인코딩 신호를 부호화하여 압축 신호를 생성하고, 상기 압축 신호를 양자화함으로써 상기 현재 인코딩 계층의 비트스트링을 생성하는, 부호화 방법.
  3. 제1항에 있어서,
    상기 각 인코딩 계층 별 비트스트링은,
    상기 각 인코딩 계층에 대응하는 복호화 모델의 디코딩 계층에서 복호화되고,
    상기 디코딩 계층은, 상기 인코딩 계층과 일대일 대응하는, 부호화 방법.
  4. 제1항에 있어서,
    상기 각 인코딩 계층 별 비트스트링들을 결합하여 비트스트림을 생성하는 단계를 더 포함하는, 부호화 방법.
  5. 오디오 신호의 복호화 방법에 있어서,
    부호화기에 의해 생성된 인코딩 계층 별 비트스트링(bitstring)들을 식별하는 단계; 및
    상기 인코딩 계층 별 비트스트링들을 복호화하는 연속적인 디코딩 계층들을 포함하는 복호화 모델에 상기 인코딩 계층 별 비트스트링들을 입력함으로써 출력 신호를 생성하는 단계
    를 포함하고,
    상기 디코딩 계층들 중 현재 디코딩 계층은,
    상기 인코딩 계층 별 비트스트링들 중 상기 현재 디코딩 계층에 대응하는 인코딩 계층의 비트스트링을 이용하여, 이전 디코딩 계층에서 복호화된 디코딩 신호를 복호화하도록 트레이닝되는,
    복호화 방법.
  6. 제5항에 있어서,
    상기 현재 디코딩 계층은,
    상기 인코딩 계층 별 비트스트링들 중 상기 현재 디코딩 계층에 대응하는 인코딩 계층의 비트스트링을 역양자화하고, 상기 역양자화된 비트스트링과 동일하도록, 상기 이전 디코딩 계층에서 복호화된 디코딩 신호를 복호화하는, 복호화 방법.
  7. 제5항에 있어서,
    상기 인코딩 계층 별 비트스트링들 중 상기 현재 디코딩 계층에 대응하는 인코딩 계층의 비트스트링은, 이전 디코딩 계층에서 복호화된 디코딩 신호와 동일한 크기이거나 동일한 채널인, 복호화 방법.
  8. 제5항에 있어서,
    상기 인코딩 계층 별 비트스트링들은,
    부호화 모델에 의해 서로 다른 인코딩 계층에서 부호화되고 양자화되어 생성되는, 복호화 방법.
  9. 제5항에 있어서,
    상기 인코딩 계층 별 비트스트링들은,
    서로 다른 크기이거나, 서로 다른 채널을 가지는, 복호화 방법.
  10. 오디오 신호의 부호화 방법을 수행하는 부호화기에 있어서,
    상기 부호화기는 프로세서를 포함하고,
    상기 프로세서는,
    입력 신호를 식별하고, 상기 입력 신호를 부호화하는 연속적인 인코딩 계층들을 포함하는 부호화 모델을 상기 입력 신호에 적용하여 상기 각 인코딩 계층 별 비트스트링(bitstring)들을 생성하고,
    상기 인코딩 계층들 중 현재 인코딩 계층은,
    이전 인코딩 계층에서 부호화된 인코딩 신호를 부호화하고, 상기 현재 인코딩 계층에서 부호화된 인코딩 신호를 양자화하여 상기 현재 인코딩 신호의 비트스트링을 생성하도록 트레이닝되는,
    부호화기.
  11. 제10항에 있어서,
    상기 현재 인코딩 계층은,
    상기 이전 인코딩 계층에서 부호화된 인코딩 신호를 부호화하여 압축 신호를 생성하고, 상기 압축 신호를 양자화함으로써 상기 현재 인코딩 계층의 비트스트링을 생성하는, 부호화기.
  12. 제10항에 있어서,
    상기 각 인코딩 계층 별 비트스트링은,
    상기 각 인코딩 계층에 대응하는 복호화 모델의 디코딩 계층에서 복호화되고,
    상기 디코딩 계층은, 상기 인코딩 계층과 일대일 대응하는, 부호화기.
  13. 제10항에 있어서,
    상기 프로세서는,
    상기 각 인코딩 계층 별 비트스트링들을 결합하여 비트스트림을 생성하는, 부호화기.
KR1020210179989A 2021-07-30 2021-12-15 오디오 신호의 부호화 및 복호화 방법 및 이를 수행하는 부호화기 및 복호화기 KR20230018976A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/390,753 US11823688B2 (en) 2021-07-30 2021-07-30 Audio signal encoding and decoding method, and encoder and decoder performing the methods
US17/390,753 2021-07-30

Publications (1)

Publication Number Publication Date
KR20230018976A true KR20230018976A (ko) 2023-02-07

Family

ID=85153279

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210179989A KR20230018976A (ko) 2021-07-30 2021-12-15 오디오 신호의 부호화 및 복호화 방법 및 이를 수행하는 부호화기 및 복호화기

Country Status (2)

Country Link
US (1) US11823688B2 (ko)
KR (1) KR20230018976A (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
KR20110123651A (ko) 2010-05-07 2011-11-15 한국전자통신연구원 생략 부호화를 이용한 영상 부호화 및 복호화 장치 및 그 방법
US11416742B2 (en) 2017-11-24 2022-08-16 Electronics And Telecommunications Research Institute Audio signal encoding method and apparatus and audio signal decoding method and apparatus using psychoacoustic-based weighted error function

Also Published As

Publication number Publication date
US20230038394A1 (en) 2023-02-09
US11823688B2 (en) 2023-11-21

Similar Documents

Publication Publication Date Title
WO2014192602A1 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
US10194257B2 (en) Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
CN101796579A (zh) 数字音频信号的分级编码
JP5746974B2 (ja) 符号化装置、復号装置およびこれらの方法
CN102158692B (zh) 编码方法、解码方法、编码器和解码器
CN101127212A (zh) 音频解码
KR102556096B1 (ko) 이전 프레임의 정보를 사용한 오디오 신호 부호화/복호화 장치 및 방법
KR20220142717A (ko) 신경망 모델을 이용한 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기
KR20230018976A (ko) 오디오 신호의 부호화 및 복호화 방법 및 이를 수행하는 부호화기 및 복호화기
KR102505834B1 (ko) 신경망 모델을 이용한 오디오 신호의 부호화 및 복호화 방법 및 이를 수행하는 부호화기 및 복호화기
Matsuda et al. Lossless coding using predictors and arithmetic code optimized for each image
KR20210133551A (ko) 적응형 주파수 복원 기법 기반 오디오 부호화 방법
KR102487689B1 (ko) 신경망 모델을 이용한 오디오 신호의 부호화 및 복호화 방법 및 이를 수행하는 부호화기 및 복호화기
KR20230121396A (ko) 신경망을 이용한 스테레오 부호화 방법 및 부호화 장치, 복호화 방법 및 복호화 장치
Bruns et al. Sample-parallel execution of EBCOT in fast mode
KR20210096542A (ko) 오디오 신호의 처리 방법 및 장치
KR20210070767A (ko) 오디오 부호화를 위한 잠재 벡터의 양자화 방법 및 양자화 방법을 수행하는 컴퓨팅 장치
JP4960791B2 (ja) ベクトル量子化符号化装置、ベクトル量子化復号化装置、それらの方法、それらのプログラム、及びそれらの記録媒体
KR20220142679A (ko) 신경망 모델을 이용한 오디오 신호의 부호화 및 복호화 방법 및 이를 수행하는 부호화기 및 복호화기 및 신경망 모델의 트레이닝 방법
US11508386B2 (en) Audio coding method based on spectral recovery scheme
KR20210030886A (ko) 동적 모델 파라미터를 이용한 오디오 부호화 방법 및 오디오 복호화 방법, 오디오 부호화 장치 및 오디오 복호화 장치
CN108292506B (zh) 使用视频信息的音频编码
KR100686354B1 (ko) 가변 트리를 이용한 허프만 복호화 방법 및 장치
US20230245666A1 (en) Encoding method, encoding device, decoding method, and decoding device using scalar quantization and vector quantization
JP5544371B2 (ja) 符号化装置、復号装置およびこれらの方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal