KR20230121396A - 신경망을 이용한 스테레오 부호화 방법 및 부호화 장치, 복호화 방법 및 복호화 장치 - Google Patents

신경망을 이용한 스테레오 부호화 방법 및 부호화 장치, 복호화 방법 및 복호화 장치 Download PDF

Info

Publication number
KR20230121396A
KR20230121396A KR1020220018208A KR20220018208A KR20230121396A KR 20230121396 A KR20230121396 A KR 20230121396A KR 1020220018208 A KR1020220018208 A KR 1020220018208A KR 20220018208 A KR20220018208 A KR 20220018208A KR 20230121396 A KR20230121396 A KR 20230121396A
Authority
KR
South Korea
Prior art keywords
audio signal
channel
neural network
channel audio
encoding
Prior art date
Application number
KR1020220018208A
Other languages
English (en)
Inventor
임우택
백승권
성종모
이태진
장인선
조병호
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020220018208A priority Critical patent/KR20230121396A/ko
Publication of KR20230121396A publication Critical patent/KR20230121396A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

신경망을 이용한 스테레오 부호화 방법 및 부호화 장치, 복호화 방법 및 복호화 장치가 개시된다. 부호화 방법은 스테레오 채널의 오디오 신호에서 좌채널의 오디오 신호와 우채널의 오디오 신호를 신경망을 이용하여 부호화하는 단계; 상기 부호화된 좌채널의 오디오 신호와 우채널의 오디오 신호를 이용하여 합산 연산과 차분 연산을 수행하는 단계; 상기 합산 연산을 통해 도출된 미드 채널의 오디오 신호와 상기 차분 연산을 통해 도출된 사이드 채널의 오디오 신호를 양자화하는 단계; 상기 양자화된 미드 채널의 오디오 신호와 사이드 채널의 오디오 신호를 엔트로피 부호화를 수행하는 단계를 포함할 수 있다.

Description

신경망을 이용한 스테레오 부호화 방법 및 부호화 장치, 복호화 방법 및 복호화 장치 {STEREO ENCODING METHOD AND ENCODING DEVICE, DECODING METHOD AND DECODING DEVICE USING NEURAL NETWORK}
최근에 신경망을 이용한 오디오 신호의 부호화 기술이 연구되고 있다. 신경망을 이용한 부호화 방식은 각 채널을 불연속적(discrete)하게 부호화한다. 이 경우, 채널들 간의 상관 관계를 적용하기 어렵기 때문에 오디오 신호의 부호화 품질이 떨어지는 문제가 있다.
본 발명은 스테레오 신호를 신경망에 적용하여 효율적으로 부호화하는 방법 및 장치를 제공한다.
본 발명의 일실시예에 따른 부호화 방법은 스테레오 채널의 오디오 신호에서 좌채널의 오디오 신호와 우채널의 오디오 신호를 신경망을 이용하여 부호화하는 단계; 상기 부호화된 좌채널의 오디오 신호와 우채널의 오디오 신호를 이용하여 합산 연산과 차분 연산을 수행하는 단계; 상기 합산 연산을 통해 도출된 미드 채널의 오디오 신호와 상기 차분 연산을 통해 도출된 사이드 채널의 오디오 신호를 양자화하는 단계; 상기 양자화된 미드 채널의 오디오 신호와 사이드 채널의 오디오 신호를 엔트로피 부호화를 수행하는 단계를 포함할 수 있다.
상기 신경망은, 상기 좌채널과 우채널 각각에 대한 표현(representation)을 학습한 결과이고, 상기 부호화하는 단계는, 상기 신경망에 기초하여 상기 좌채널의 오디오 신호와 상기 우채널의 오디오 신호의 압축된 정보가 출력될 수 있다.
상기 합산 연산과 차분 연산은, 미분 가능한 신경망을 통해 수행되며, 인코딩 신경망이 추가될 수 있다.
상기 양자화하는 단계는, 상기 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대한 양자화가 진행될 때 서로 독립적으로 수행되거나 또는 양자화 테이블을 공유하면서 수행될 수 있다.
본 발명의 일실시예에 따른 복호화 방법은 부호화된 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대해 엔트로피 복호화를 수행하는 단계; 상기 엔트로피 복호화된 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대해 역양자화를 수행하는 단계; 상기 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대해 합산 연산 및 차분 연산을 수행하여 부호화된 좌채널의 오디오 신호와 우채널의 오디오 신호를 복원하는 단계; 상기 부호화된 좌채널의 오디오 신호와 우채널의 오디오 신호에 대해 신경망에 기초한 복호화를 수행하는 단계를 포함할 수 있다.
상기 신경망은, 상기 좌채널과 우채널 각각에 대한 표현(representation)을 학습한 결과이고, 상기 복호화하는 단계는, 상기 신경망에 기초하여 상기 좌채널의 오디오 신호와 상기 우채널의 오디오 신호의 압축된 정보를 복호화할 수 있다.
상기 합산 연산과 차분 연산은, 미분 가능한 신경망을 통해 수행되며, 인코딩 신경망이 추가될 수 있다.
상기 역양자화하는 단계는, 상기 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대한 역양자화가 진행될 때 서로 독립적으로 수행되거나 또는 양자화 테이블을 공유하면서 수행될 수 있다.
본 발명의 일실시예에 따른 부호화 장치는 상기 부호화 장치는 프로세서를 포함하고, 상기 프로세서는, 스테레오 채널의 오디오 신호에서 좌채널의 오디오 신호와 우채널의 오디오 신호를 신경망을 이용하여 부호화하는 단계; 상기 부호화된 좌채널의 오디오 신호와 우채널의 오디오 신호를 이용하여 합산 연산과 차분 연산을 수행하는 단계; 상기 합산 연산을 통해 도출된 미드 채널의 오디오 신호와 상기 차분 연산을 통해 도출된 사이드 채널의 오디오 신호를 양자화하는 단계; 상기 양자화된 미드 채널의 오디오 신호와 사이드 채널의 오디오 신호를 엔트로피 부호화를 수행하는 단계를 수행할 수 있다.
상기 신경망은, 상기 좌채널과 우채널 각각에 대한 표현(representation)을 학습한 결과이고, 상기 부호화하는 단계는, 상기 신경망에 기초하여 상기 좌채널의 오디오 신호와 상기 우채널의 오디오 신호의 압축된 정보가 출력될 수 있다.
상기 합산 연산과 차분 연산은, 미분 가능한 신경망을 통해 수행되며, 인코딩 신경망이 추가될 수 있다.
상기 양자화하는 단계는, 상기 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대한 양자화가 진행될 때 서로 독립적으로 수행되거나 또는 양자화 테이블을 공유하면서 수행될 수 있다.
본 발명의 일실시예에 따르면, 채널간 상관도를 최대한 반영하여 오디오 채널 간의 정보량 감축을 극대화하여 오디오 부호화 효율을 높일 수 있다.
도 1은 본 발명의 일실시예에 따른 부호화 장치와 복호화 장치를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 부호화 과정을 도시한 플로우차트이다.
도 3은 본 발명의 일실시예에 따른 복호화 과정을 도시한 플로우차트이다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수 개의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 부호화 장치와 복호화 장치를 도시한 도면이다.
본 발명은 오디오 신호를 부호화하거나 또는 복호화를 하기 위해 신경망을 이용하여 스테레오 채널의 오디오 신호를 효율적으로 처리할 수 있다.
도 2는 본 발명의 일실시예에 따른 부호화 과정을 도시한 플로우차트이다.
먼저 Left(L) 오디오 신호와 Right(R) 오디오 신호는 각각의 신경망(enc_l, enc_r)을 통해 인코딩 되며, 이에 따라 각 채널의 representation을 학습하게 된다. 이 단계까지 학습된 latent space의 representation은 각 채널의 abstracted 정보를 표현하게 되며 이는 신경망을 통해 transform 되는 것으로 볼 수 있기 때문에 데이터 압축을 위해 더 유용한 형태(l, r)로 표현 된다고 볼 수 있다.
이렇게 인코딩 된 (l, r) 신호는 add()와 sub() 레이어를 통해 mid(m)와 side(s) 신호로 변경되게 되는데, 이 과정은 앞서 기술한 기존 MS 스테레오 기술의 sum/difference coding과 유사한 구조를 갖는다. 따라서 add()와 sub() 레이어는 MS 스테레오와 유사한 동작()을 하게 되고, 이에 따라 출력 값 또한 (m, s) 신호로 표현된다. 또한 여기서 사용되는 add()와 sub() 레이어는 미분 가능한 신경망의 형태를 가지며, add()와 sub() 레이어 이후에 추가적으로 인코딩 신경망을 추가할 수도 있다. 즉 (enc_l, enc_r) 중간 단계에서 add()와 sub()를 통한 변환 과정을 거치는 것과 같다.
출력 된 (m, s) 신호는 각각의 양자화 레이어를 통해서 양자화 된다(Q_m, Q_s). 이때 양자화 레이어는 기존 신경망을 이용한 양자화 연구들에서 주로 사용되는 softmax quantization (SQ), vector quantization (VQ), residual VQ 등 다양한 구조를 가질 수 있다. 또한 각 (m, s) 신호를 양자화 할 때 양자화 테이블을 공유하거나 별도로 양자화를 수행 할 수도 있으며, 중요도에 따라서 비트를 다르게 할당하여 보다 효율적인 데이터 압축 및 복원 성능을 기대할 수 있다.
최종적으로 양자화 된 (m, s) 신호는 statistical redundancy를 활용하여 비트율을 줄이기 위해 entropy encoding 과정을 거치게 되며, 여기서도 각 신호에 동일 또는 별도의 entropy encoding 과정을 적용하거나 통합적으로 수행 할 수 있다. 모든 과정을 거친 데이터는 비트스트림 형태로 전송 된다.
도 3은 본 발명의 일실시예에 따른 복호화 과정을 도시한 플로우차트이다.
디코더 에서는 인코딩 되어 전송된 비트스트림을 오디오 신호로 복원하기 위해 디코딩 과정을 거친다. 먼저 entropy decoding 과 각 신호의 역 양자화 과정을 통해 (m', s') 신호를 복원한다.
다음으로 MS 스테레오 복원 과정과 유사하게 add()와 sub() 레이어를 통해 (l', r') 신호를 복원한다. 따라서 add()와 sub() 레이어는 스테레오 기술의 sum/difference coding의 복원 과정과 유사하게 동작() 하게 되고, 이에 따라 add()와 sub() 레이어를 통한 출력 값 또한 (l', r') 신호로 표현된다. 인코더와 동일하게 여기서 사용되는 add()와 sub() 레이어는 미분 가능한 신경망의 형태를 가지며, add()와 sub() 레이어 이전에도 추가적으로 디코딩 신경망을 추가할 수 있다. 즉 (dec_l, dec_r) 중간 단계에서 add()와 sub()를 통한 변환 과정을 거치는 것과 같다.
마지막으로 각각의 신경망(dec_l, dec_r)을 통해 최종 복원신호 L'과 R'을 생성해 낸다.
기존 MS 스테레오 코딩의 경우 L, R 신호가 유사한 경우 비트 효율이 높지만 두 채널의 레벨 차이가 큰 경우 복원 시 Side 신호도 높은 비트를 사용하게 되며, 따라서 복원 품질 또한 discrete한 L, R 채널 코딩 대비 많이 떨어지게 된다. 그러나 제안 구조는 중간 latent space 레벨에서 MS 스테레오 코딩의 개념을 적용하는 것이기 때문에 sum/difference coding을 위한 보다 효율적인 latent space의 학습이 가능하게 되며, 또한 이후의 디코딩 네트워크를 통해서도 보다 우수한 신호 복원 성능을 기대할 수 있다.
본 제안 방법은 단순히 스테레오 코딩을 위한 것이 아니며 2채널 이상의 다채널 오디오 신호에도 적용 가능하다.
본 발명은 오디오 부/복호화 기술에 있어서 스테레오 오디오 신호의 효율적인 코딩을 위해, 신경망에 스테레오 코딩 구조를 적용하여 보다 효율적으로 다채널 오디오 코딩을 수행하여 비트율을 감축 시킴과 동시에 더 우수한 복원 오디오 품질을 얻을 수 있다.
한편, 본 발명에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.
본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 즉 정보 캐리어, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체) 또는 전파 신호에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.
컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.
또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체 및 전송매체를 모두 포함할 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims (12)

  1. 스테레오 채널의 오디오 신호에서 좌채널의 오디오 신호와 우채널의 오디오 신호를 신경망을 이용하여 부호화하는 단계;
    상기 부호화된 좌채널의 오디오 신호와 우채널의 오디오 신호를 이용하여 합산 연산과 차분 연산을 수행하는 단계;
    상기 합산 연산을 통해 도출된 미드 채널의 오디오 신호와 상기 차분 연산을 통해 도출된 사이드 채널의 오디오 신호를 양자화하는 단계;
    상기 양자화된 미드 채널의 오디오 신호와 사이드 채널의 오디오 신호를 엔트로피 부호화를 수행하는 단계
    를 포함하는 부호화 방법.
  2. 제1항에 있어서,
    상기 신경망은,
    상기 좌채널과 우채널 각각에 대한 표현(representation)을 학습한 결과이고,
    상기 부호화하는 단계는,
    상기 신경망에 기초하여 상기 좌채널의 오디오 신호와 상기 우채널의 오디오 신호의 압축된 정보가 출력되는 부호화 방법.
  3. 제1항에 있어서,
    상기 합산 연산과 차분 연산은,
    미분 가능한 신경망을 통해 수행되며, 인코딩 신경망이 추가될 수 있는 부호화 방법.
  4. 제1항에 있어서,
    상기 양자화하는 단계는,
    상기 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대한 양자화가 진행될 때 서로 독립적으로 수행되거나 또는 양자화 테이블을 공유하면서 수행되는 부호화 방법.
  5. 부호화된 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대해 엔트로피 복호화를 수행하는 단계;
    상기 엔트로피 복호화된 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대해 역양자화를 수행하는 단계;
    상기 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대해 합산 연산 및 차분 연산을 수행하여 부호화된 좌채널의 오디오 신호와 우채널의 오디오 신호를 복원하는 단계;
    상기 부호화된 좌채널의 오디오 신호와 우채널의 오디오 신호에 대해 신경망에 기초한 복호화를 수행하는 단계
    를 포함하는 복호화 방법.
  6. 제5항에 있어서,
    상기 신경망은,
    상기 좌채널과 우채널 각각에 대한 표현(representation)을 학습한 결과이고,
    상기 복호화하는 단계는,
    상기 신경망에 기초하여 상기 좌채널의 오디오 신호와 상기 우채널의 오디오 신호의 압축된 정보를 복호화하는 복호화 방법.
  7. 제5항에 있어서,
    상기 합산 연산과 차분 연산은,
    미분 가능한 신경망을 통해 수행되며, 인코딩 신경망이 추가될 수 있는 복호화 방법.
  8. 제5항에 있어서,
    상기 역양자화하는 단계는,
    상기 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대한 역양자화가 진행될 때 서로 독립적으로 수행되거나 또는 양자화 테이블을 공유하면서 수행되는 복호화 방법.
  9. 부호화 장치에 있어서,
    상기 부호화 장치는 프로세서를 포함하고,
    상기 프로세서는, 스테레오 채널의 오디오 신호에서 좌채널의 오디오 신호와 우채널의 오디오 신호를 신경망을 이용하여 부호화하는 단계; 상기 부호화된 좌채널의 오디오 신호와 우채널의 오디오 신호를 이용하여 합산 연산과 차분 연산을 수행하는 단계; 상기 합산 연산을 통해 도출된 미드 채널의 오디오 신호와 상기 차분 연산을 통해 도출된 사이드 채널의 오디오 신호를 양자화하는 단계; 상기 양자화된 미드 채널의 오디오 신호와 사이드 채널의 오디오 신호를 엔트로피 부호화를 수행하는 단계를 수행하는 부호화 장치.
  10. 제9항에 있어서,
    상기 신경망은,
    상기 좌채널과 우채널 각각에 대한 표현(representation)을 학습한 결과이고,
    상기 부호화하는 단계는,
    상기 신경망에 기초하여 상기 좌채널의 오디오 신호와 상기 우채널의 오디오 신호의 압축된 정보가 출력되는 부호화 장치.
  11. 제9항에 있어서,
    상기 합산 연산과 차분 연산은,
    미분 가능한 신경망을 통해 수행되며, 인코딩 신경망이 추가될 수 있는 부호화 장치.
  12. 제9항에 있어서,
    상기 양자화하는 단계는,
    상기 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대한 양자화가 진행될 때 서로 독립적으로 수행되거나 또는 양자화 테이블을 공유하면서 수행되는 부호화 장치.
KR1020220018208A 2022-02-11 2022-02-11 신경망을 이용한 스테레오 부호화 방법 및 부호화 장치, 복호화 방법 및 복호화 장치 KR20230121396A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220018208A KR20230121396A (ko) 2022-02-11 2022-02-11 신경망을 이용한 스테레오 부호화 방법 및 부호화 장치, 복호화 방법 및 복호화 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220018208A KR20230121396A (ko) 2022-02-11 2022-02-11 신경망을 이용한 스테레오 부호화 방법 및 부호화 장치, 복호화 방법 및 복호화 장치

Publications (1)

Publication Number Publication Date
KR20230121396A true KR20230121396A (ko) 2023-08-18

Family

ID=87801794

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220018208A KR20230121396A (ko) 2022-02-11 2022-02-11 신경망을 이용한 스테레오 부호화 방법 및 부호화 장치, 복호화 방법 및 복호화 장치

Country Status (1)

Country Link
KR (1) KR20230121396A (ko)

Similar Documents

Publication Publication Date Title
US9774975B2 (en) Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
CZ300954B6 (cs) Zarízení a zpusob pro kódování digitálního informacního signálu, zarízení pro dekódování a nosic záznamu
EP1969593A1 (en) Multiple description coding using correlating transforms
US10403292B2 (en) Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
US10194257B2 (en) Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
KR20090095009A (ko) 복수의 가변장 부호 테이블을 이용한 멀티 채널 오디오를부호화/복호화하는 방법 및 장치
US10049683B2 (en) Audio encoder and decoder
WO1995032499A1 (fr) Procede de codage, procede de decodage, procede de codage-decodage, codeur, decodeur et codeur-decodeur
US9991905B2 (en) Encoding method, decoding method, encoder and decoder
KR102556096B1 (ko) 이전 프레임의 정보를 사용한 오디오 신호 부호화/복호화 장치 및 방법
US9794714B2 (en) Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
US20050060146A1 (en) Method of and apparatus to restore audio data
CN106878757B (zh) 用于对数字视频内容进行编码的方法、介质和系统
KR20210003514A (ko) 오디오의 고대역 부호화 방법 및 고대역 복호화 방법, 그리고 상기 방법을 수하는 부호화기 및 복호화기
CN107077850B (zh) 用于对子带组的子带配置数据进行编码或解码的方法和装置
KR20230121396A (ko) 신경망을 이용한 스테레오 부호화 방법 및 부호화 장치, 복호화 방법 및 복호화 장치
US9800986B2 (en) Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
KR20210133551A (ko) 적응형 주파수 복원 기법 기반 오디오 부호화 방법
JP2002091497A (ja) オーディオ信号符号化方法、復号化方法及びそれらの方法を実行するプログラム記憶媒体
KR20230018976A (ko) 오디오 신호의 부호화 및 복호화 방법 및 이를 수행하는 부호화기 및 복호화기
WO2023221590A1 (zh) 编解码方法及电子设备
CN112352277B (zh) 编码装置及编码方法
EP3780396B1 (en) Encoding device, decoding device, encoding method, decoding method, program, and recording medium
JP4960791B2 (ja) ベクトル量子化符号化装置、ベクトル量子化復号化装置、それらの方法、それらのプログラム、及びそれらの記録媒体
WO2011045927A1 (ja) 符号化装置、復号装置およびこれらの方法