KR20230121396A

KR20230121396A - 신경망을 이용한 스테레오 부호화 방법 및 부호화 장치, 복호화 방법 및 복호화 장치

Info

Publication number: KR20230121396A
Application number: KR1020220018208A
Authority: KR
Inventors: 임우택; 백승권; 성종모; 이태진; 장인선; 조병호
Original assignee: 한국전자통신연구원
Priority date: 2022-02-11
Filing date: 2022-02-11
Publication date: 2023-08-18

Abstract

신경망을 이용한 스테레오 부호화 방법 및 부호화 장치, 복호화 방법 및 복호화 장치가 개시된다. 부호화 방법은 스테레오 채널의 오디오 신호에서 좌채널의 오디오 신호와 우채널의 오디오 신호를 신경망을 이용하여 부호화하는 단계; 상기 부호화된 좌채널의 오디오 신호와 우채널의 오디오 신호를 이용하여 합산 연산과 차분 연산을 수행하는 단계; 상기 합산 연산을 통해 도출된 미드 채널의 오디오 신호와 상기 차분 연산을 통해 도출된 사이드 채널의 오디오 신호를 양자화하는 단계; 상기 양자화된 미드 채널의 오디오 신호와 사이드 채널의 오디오 신호를 엔트로피 부호화를 수행하는 단계를 포함할 수 있다.

Description

신경망을 이용한 스테레오 부호화 방법 및 부호화 장치, 복호화 방법 및 복호화 장치 {STEREO ENCODING METHOD AND ENCODING DEVICE, DECODING METHOD AND DECODING DEVICE USING NEURAL NETWORK}

최근에 신경망을 이용한 오디오 신호의 부호화 기술이 연구되고 있다. 신경망을 이용한 부호화 방식은 각 채널을 불연속적(discrete)하게 부호화한다. 이 경우, 채널들 간의 상관 관계를 적용하기 어렵기 때문에 오디오 신호의 부호화 품질이 떨어지는 문제가 있다.

본 발명은 스테레오 신호를 신경망에 적용하여 효율적으로 부호화하는 방법 및 장치를 제공한다.

본 발명의 일실시예에 따른 부호화 방법은 스테레오 채널의 오디오 신호에서 좌채널의 오디오 신호와 우채널의 오디오 신호를 신경망을 이용하여 부호화하는 단계; 상기 부호화된 좌채널의 오디오 신호와 우채널의 오디오 신호를 이용하여 합산 연산과 차분 연산을 수행하는 단계; 상기 합산 연산을 통해 도출된 미드 채널의 오디오 신호와 상기 차분 연산을 통해 도출된 사이드 채널의 오디오 신호를 양자화하는 단계; 상기 양자화된 미드 채널의 오디오 신호와 사이드 채널의 오디오 신호를 엔트로피 부호화를 수행하는 단계를 포함할 수 있다.

상기 신경망은, 상기 좌채널과 우채널 각각에 대한 표현(representation)을 학습한 결과이고, 상기 부호화하는 단계는, 상기 신경망에 기초하여 상기 좌채널의 오디오 신호와 상기 우채널의 오디오 신호의 압축된 정보가 출력될 수 있다.

상기 합산 연산과 차분 연산은, 미분 가능한 신경망을 통해 수행되며, 인코딩 신경망이 추가될 수 있다.

상기 양자화하는 단계는, 상기 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대한 양자화가 진행될 때 서로 독립적으로 수행되거나 또는 양자화 테이블을 공유하면서 수행될 수 있다.

본 발명의 일실시예에 따른 복호화 방법은 부호화된 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대해 엔트로피 복호화를 수행하는 단계; 상기 엔트로피 복호화된 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대해 역양자화를 수행하는 단계; 상기 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대해 합산 연산 및 차분 연산을 수행하여 부호화된 좌채널의 오디오 신호와 우채널의 오디오 신호를 복원하는 단계; 상기 부호화된 좌채널의 오디오 신호와 우채널의 오디오 신호에 대해 신경망에 기초한 복호화를 수행하는 단계를 포함할 수 있다.

상기 신경망은, 상기 좌채널과 우채널 각각에 대한 표현(representation)을 학습한 결과이고, 상기 복호화하는 단계는, 상기 신경망에 기초하여 상기 좌채널의 오디오 신호와 상기 우채널의 오디오 신호의 압축된 정보를 복호화할 수 있다.

상기 역양자화하는 단계는, 상기 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대한 역양자화가 진행될 때 서로 독립적으로 수행되거나 또는 양자화 테이블을 공유하면서 수행될 수 있다.

본 발명의 일실시예에 따른 부호화 장치는 상기 부호화 장치는 프로세서를 포함하고, 상기 프로세서는, 스테레오 채널의 오디오 신호에서 좌채널의 오디오 신호와 우채널의 오디오 신호를 신경망을 이용하여 부호화하는 단계; 상기 부호화된 좌채널의 오디오 신호와 우채널의 오디오 신호를 이용하여 합산 연산과 차분 연산을 수행하는 단계; 상기 합산 연산을 통해 도출된 미드 채널의 오디오 신호와 상기 차분 연산을 통해 도출된 사이드 채널의 오디오 신호를 양자화하는 단계; 상기 양자화된 미드 채널의 오디오 신호와 사이드 채널의 오디오 신호를 엔트로피 부호화를 수행하는 단계를 수행할 수 있다.

본 발명의 일실시예에 따르면, 채널간 상관도를 최대한 반영하여 오디오 채널 간의 정보량 감축을 극대화하여 오디오 부호화 효율을 높일 수 있다.

도 1은 본 발명의 일실시예에 따른 부호화 장치와 복호화 장치를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 부호화 과정을 도시한 플로우차트이다.
도 3은 본 발명의 일실시예에 따른 복호화 과정을 도시한 플로우차트이다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수 개의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일실시예에 따른 부호화 장치와 복호화 장치를 도시한 도면이다.

본 발명은 오디오 신호를 부호화하거나 또는 복호화를 하기 위해 신경망을 이용하여 스테레오 채널의 오디오 신호를 효율적으로 처리할 수 있다.

도 2는 본 발명의 일실시예에 따른 부호화 과정을 도시한 플로우차트이다.

먼저 Left(L) 오디오 신호와 Right(R) 오디오 신호는 각각의 신경망(enc_l, enc_r)을 통해 인코딩 되며, 이에 따라 각 채널의 representation을 학습하게 된다. 이 단계까지 학습된 latent space의 representation은 각 채널의 abstracted 정보를 표현하게 되며 이는 신경망을 통해 transform 되는 것으로 볼 수 있기 때문에 데이터 압축을 위해 더 유용한 형태(l, r)로 표현 된다고 볼 수 있다.

이렇게 인코딩 된 (l, r) 신호는 add()와 sub() 레이어를 통해 mid(m)와 side(s) 신호로 변경되게 되는데, 이 과정은 앞서 기술한 기존 MS 스테레오 기술의 sum/difference coding과 유사한 구조를 갖는다. 따라서 add()와 sub() 레이어는 MS 스테레오와 유사한 동작()을 하게 되고, 이에 따라 출력 값 또한 (m, s) 신호로 표현된다. 또한 여기서 사용되는 add()와 sub() 레이어는 미분 가능한 신경망의 형태를 가지며, add()와 sub() 레이어 이후에 추가적으로 인코딩 신경망을 추가할 수도 있다. 즉 (enc_l, enc_r) 중간 단계에서 add()와 sub()를 통한 변환 과정을 거치는 것과 같다.

출력 된 (m, s) 신호는 각각의 양자화 레이어를 통해서 양자화 된다(Q_m, Q_s). 이때 양자화 레이어는 기존 신경망을 이용한 양자화 연구들에서 주로 사용되는 softmax quantization (SQ), vector quantization (VQ), residual VQ 등 다양한 구조를 가질 수 있다. 또한 각 (m, s) 신호를 양자화 할 때 양자화 테이블을 공유하거나 별도로 양자화를 수행 할 수도 있으며, 중요도에 따라서 비트를 다르게 할당하여 보다 효율적인 데이터 압축 및 복원 성능을 기대할 수 있다.

최종적으로 양자화 된 (m, s) 신호는 statistical redundancy를 활용하여 비트율을 줄이기 위해 entropy encoding 과정을 거치게 되며, 여기서도 각 신호에 동일 또는 별도의 entropy encoding 과정을 적용하거나 통합적으로 수행 할 수 있다. 모든 과정을 거친 데이터는 비트스트림 형태로 전송 된다.

도 3은 본 발명의 일실시예에 따른 복호화 과정을 도시한 플로우차트이다.

디코더 에서는 인코딩 되어 전송된 비트스트림을 오디오 신호로 복원하기 위해 디코딩 과정을 거친다. 먼저 entropy decoding 과 각 신호의 역 양자화 과정을 통해 (m', s') 신호를 복원한다.

다음으로 MS 스테레오 복원 과정과 유사하게 add()와 sub() 레이어를 통해 (l', r') 신호를 복원한다. 따라서 add()와 sub() 레이어는 스테레오 기술의 sum/difference coding의 복원 과정과 유사하게 동작() 하게 되고, 이에 따라 add()와 sub() 레이어를 통한 출력 값 또한 (l', r') 신호로 표현된다. 인코더와 동일하게 여기서 사용되는 add()와 sub() 레이어는 미분 가능한 신경망의 형태를 가지며, add()와 sub() 레이어 이전에도 추가적으로 디코딩 신경망을 추가할 수 있다. 즉 (dec_l, dec_r) 중간 단계에서 add()와 sub()를 통한 변환 과정을 거치는 것과 같다.

마지막으로 각각의 신경망(dec_l, dec_r)을 통해 최종 복원신호 L'과 R'을 생성해 낸다.

기존 MS 스테레오 코딩의 경우 L, R 신호가 유사한 경우 비트 효율이 높지만 두 채널의 레벨 차이가 큰 경우 복원 시 Side 신호도 높은 비트를 사용하게 되며, 따라서 복원 품질 또한 discrete한 L, R 채널 코딩 대비 많이 떨어지게 된다. 그러나 제안 구조는 중간 latent space 레벨에서 MS 스테레오 코딩의 개념을 적용하는 것이기 때문에 sum/difference coding을 위한 보다 효율적인 latent space의 학습이 가능하게 되며, 또한 이후의 디코딩 네트워크를 통해서도 보다 우수한 신호 복원 성능을 기대할 수 있다.

본 제안 방법은 단순히 스테레오 코딩을 위한 것이 아니며 2채널 이상의 다채널 오디오 신호에도 적용 가능하다.

본 발명은 오디오 부/복호화 기술에 있어서 스테레오 오디오 신호의 효율적인 코딩을 위해, 신경망에 스테레오 코딩 구조를 적용하여 보다 효율적으로 다채널 오디오 코딩을 수행하여 비트율을 감축 시킴과 동시에 더 우수한 복원 오디오 품질을 얻을 수 있다.

한편, 본 발명에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.

본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 즉 정보 캐리어, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체) 또는 전파 신호에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.

컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.

또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체 및 전송매체를 모두 포함할 수 있다.

본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.

마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.

한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims

스테레오 채널의 오디오 신호에서 좌채널의 오디오 신호와 우채널의 오디오 신호를 신경망을 이용하여 부호화하는 단계;
상기 부호화된 좌채널의 오디오 신호와 우채널의 오디오 신호를 이용하여 합산 연산과 차분 연산을 수행하는 단계;
상기 합산 연산을 통해 도출된 미드 채널의 오디오 신호와 상기 차분 연산을 통해 도출된 사이드 채널의 오디오 신호를 양자화하는 단계;
상기 양자화된 미드 채널의 오디오 신호와 사이드 채널의 오디오 신호를 엔트로피 부호화를 수행하는 단계
를 포함하는 부호화 방법.
제1항에 있어서,
상기 신경망은,
상기 좌채널과 우채널 각각에 대한 표현(representation)을 학습한 결과이고,
상기 부호화하는 단계는,
상기 신경망에 기초하여 상기 좌채널의 오디오 신호와 상기 우채널의 오디오 신호의 압축된 정보가 출력되는 부호화 방법.
제1항에 있어서,
상기 합산 연산과 차분 연산은,
미분 가능한 신경망을 통해 수행되며, 인코딩 신경망이 추가될 수 있는 부호화 방법.
제1항에 있어서,
상기 양자화하는 단계는,
상기 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대한 양자화가 진행될 때 서로 독립적으로 수행되거나 또는 양자화 테이블을 공유하면서 수행되는 부호화 방법.
부호화된 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대해 엔트로피 복호화를 수행하는 단계;
상기 엔트로피 복호화된 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대해 역양자화를 수행하는 단계;
상기 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대해 합산 연산 및 차분 연산을 수행하여 부호화된 좌채널의 오디오 신호와 우채널의 오디오 신호를 복원하는 단계;
상기 부호화된 좌채널의 오디오 신호와 우채널의 오디오 신호에 대해 신경망에 기초한 복호화를 수행하는 단계
를 포함하는 복호화 방법.
제5항에 있어서,
상기 신경망은,
상기 좌채널과 우채널 각각에 대한 표현(representation)을 학습한 결과이고,
상기 복호화하는 단계는,
상기 신경망에 기초하여 상기 좌채널의 오디오 신호와 상기 우채널의 오디오 신호의 압축된 정보를 복호화하는 복호화 방법.
제5항에 있어서,
상기 합산 연산과 차분 연산은,
미분 가능한 신경망을 통해 수행되며, 인코딩 신경망이 추가될 수 있는 복호화 방법.
제5항에 있어서,
상기 역양자화하는 단계는,
상기 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대한 역양자화가 진행될 때 서로 독립적으로 수행되거나 또는 양자화 테이블을 공유하면서 수행되는 복호화 방법.
부호화 장치에 있어서,
상기 부호화 장치는 프로세서를 포함하고,
상기 프로세서는, 스테레오 채널의 오디오 신호에서 좌채널의 오디오 신호와 우채널의 오디오 신호를 신경망을 이용하여 부호화하는 단계; 상기 부호화된 좌채널의 오디오 신호와 우채널의 오디오 신호를 이용하여 합산 연산과 차분 연산을 수행하는 단계; 상기 합산 연산을 통해 도출된 미드 채널의 오디오 신호와 상기 차분 연산을 통해 도출된 사이드 채널의 오디오 신호를 양자화하는 단계; 상기 양자화된 미드 채널의 오디오 신호와 사이드 채널의 오디오 신호를 엔트로피 부호화를 수행하는 단계를 수행하는 부호화 장치.
제9항에 있어서,
상기 신경망은,
상기 좌채널과 우채널 각각에 대한 표현(representation)을 학습한 결과이고,
상기 부호화하는 단계는,
상기 신경망에 기초하여 상기 좌채널의 오디오 신호와 상기 우채널의 오디오 신호의 압축된 정보가 출력되는 부호화 장치.
제9항에 있어서,
상기 합산 연산과 차분 연산은,
미분 가능한 신경망을 통해 수행되며, 인코딩 신경망이 추가될 수 있는 부호화 장치.
제9항에 있어서,
상기 양자화하는 단계는,
상기 사이드 채널의 오디오 신호와 미드 채널의 오디오 신호에 대한 양자화가 진행될 때 서로 독립적으로 수행되거나 또는 양자화 테이블을 공유하면서 수행되는 부호화 장치.