KR20210033853A - 유넷 기반의 음원 대역 변환장치 및 방법 - Google Patents

유넷 기반의 음원 대역 변환장치 및 방법 Download PDF

Info

Publication number
KR20210033853A
KR20210033853A KR1020190115687A KR20190115687A KR20210033853A KR 20210033853 A KR20210033853 A KR 20210033853A KR 1020190115687 A KR1020190115687 A KR 1020190115687A KR 20190115687 A KR20190115687 A KR 20190115687A KR 20210033853 A KR20210033853 A KR 20210033853A
Authority
KR
South Korea
Prior art keywords
sound source
source data
low
learning model
quality sound
Prior art date
Application number
KR1020190115687A
Other languages
English (en)
Inventor
나태영
양정현
김홍국
이정혁
Original Assignee
에스케이텔레콤 주식회사
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사, 광주과학기술원 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020190115687A priority Critical patent/KR20210033853A/ko
Publication of KR20210033853A publication Critical patent/KR20210033853A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

유넷 기반의 음원 대역 변환장치 및 방법을 개시한다.
전송 채널의 제약으로 인하여 고압축률로 압축되어 모바일 디바이스로 전송된 저품질의 음원 데이터를 고품질 음원과 등가의 데이터로 변환하기 위하여, 유넷에 기반하여 회귀적 방식을 이용하는 음원 대역 변환장치 및 방법을 제공하는 데 목적이 있다..

Description

유넷 기반의 음원 대역 변환장치 및 방법{Method and Apparatus for Audio Band Conversion Based on U-Net}
본 발명은 모바일 디바이스에서 이용되는 유넷(U-Net) 기반 음원 대역 변환장치 및 방법에 관한 것이다.
이하에 기술되는 내용은 단순히 본 발명과 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.
음원 대역 변환은, 제한된 대역폭 혹은 하드웨어 성능 등의 원인에 의해 낮은 전송률로 수신된 저음질 신호에 대하여, 저주파수 대역(low frequency band, 이하 "저대역") 분석에 기반하여 고주파수 대역(high frequency band, 이하 "고대역")을 생성함으로써 신호 품질을 향상시키는 기술로서 ABE(Audio Bandwidth Extension 또는 Artificial Bandwidth Extension)로도 불리운다. 뮤직 음원신호 처리 분야에서 ABE는 데이터의 압축을 위한 인코더와 디코더를 통칭한 코덱(codec) 시스템에 적용되어 모바일 디바이스 상에서 작동되며, 주로 온라인 상황에서 품질 향상을 위해 추가적인 후처리(post-processing) 형태로 실행된다.
ABE를 구현한 종래의 기술로는, HMM(Hidden Markov Model) 및 GMM(Gaussian Mixture Model) 등 패턴인식(pattern recognition) 기반의 추정(estimation) 방식이 있다. 그러나 패턴인식 기반의 추정 방식은 목표로 하는 성능을 달성하기 위하여 모델 학습에 긴 시간을 요구하고, 학습 결과를 적용한 추론 과정 또한 복잡하다. 최근에 SoC(System on Chip) 기술의 발달에 따라 종전에 비해 추론 과정에 대한 실시간 처리 여건이 향상되었음에도 불구하고 패턴인식 기반의 추정 방식은 모바일 디바이스에서 실시간 처리가 어렵다는 단점이 있다.
다른 기술로는 유넷(U-Net)과 같은 딥 네트워크(deep network) 구조를 이용하는 방식이 있다(비특허문헌 1 참조). 유넷 구조를 이용한 방식에서는 음원의 저대역을 입력받아 전대역(full frequency band)으로의 복원을 시도하는데, SNR(Signal to Noise Ratio) 측면에서 어느 정도 개선을 보이나, 제시된 모델의 구조적 한계로 인하여 추가적인 성능 개선의 여지를 남겼다.
따라서 모바일 디바이스 상에서 실시간 처리가 가능하면서도, SNR로 대표되는 성능은 더 향상된 음원신호 처리를 위한 음원 대역 변환장치 및 방법이 요구된다.
비특허문헌 1: Kuleshov, Volodymyr, S. Zayd Enam, and Stefano Ermon. "Audio super resolution using neural networks." arXiv preprint arXiv:1708.00853 (2017)
본 개시는, 전송 채널의 제약으로 인하여 고압축률로 압축되어 모바일 디바이스로 전송된 저품질의 음원 데이터를 고품질 음원과 등가의 데이터로 변환하기 위하여, 유넷에 기반하여 회귀적 방식을 이용하는 음원 대역 변환장치 및 방법을 제공하는 데 주된 목적이 있다.
본 발명의 실시예에 의하면, 저품질 음원 데이터에 대한 음원 대역 변환장치에 있어서, 시간 영역 상에서 상기 저품질 음원 데이터를 획득하는 입력부; 사전에 트레이닝된 학습 모델을 포함하고, 상기 저품질 음원 데이터를 상기 학습 모델에 입력하여, 대역폭이 확장된 고품질 음원 데이터를 생성하는 대역폭 확장부; 및 상기 고품질 음원 데이터를 청각적 형태로 출력하는 출력부를 포함하는 것을 특징으로 하는 음원 대역 변환장치를 제공한다.
본 발명의 다른 실시예에 의하면, 저품질 음원 데이터에 대한 음원 대역 변환장치를 이용하여, 컴퓨터 상에서 구현되는 음원 대역 변환방법에 있어서, 시간 영역 상에서 상기 저품질 음원 데이터를 획득하는 과정; 상기 저품질 음원 데이터를 사전에 트레이닝된 학습 모델에 입력하여, 대역폭이 확장된 고품질 음원 데이터를 생성하는 과정; 및 상기 고품질 음원 데이터를 청각적 형태로 출력하는 과정을 포함하는 것을 특징으로 하는, 컴퓨터 상에서 구현되는 음원 대역 변환방법을 제공한다.
본 발명의 다른 실시예에 의하면, 음원 대역 변환방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는, 비휘발성 또는 비일시적인 기록매체에 저장된 컴퓨터프로그램을 제공한다.
이상에서 설명한 바와 같이 본 실시예에 의하면, 전송 채널의 제약으로 인하여 고압축률로 압축되어 모바일 디바이스로 전송된 저품질의 음원 데이터를 고품질 음원으로 변환하기 위하여, 유넷에 기반하여 회귀적 방식을 이용하는 음원 대역 변환장치 및 방법을 제공함으로써, 모바일 디바이스에서 고품질 음원과 등가의 음질을 서비스하여 사용자의 만족도를 높이는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른, 모바일 디바이스 상에 구현되는 음원 대역 변환기의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 음원 대역 변환기의 학습 모델에 대한 구조도이다.
도 3은 본 발명의 일 실시예에 따른 디코더 블록의 전치 콘볼루션 동작을 보여 주는 예시이다.
도 4는 본 발명의 일 실시예에 따른 음원 대역 변환방법에 대한 순서도이다.
도 5는 본 발명의 다른 실시예에 따른, 음원 대역 변환기에 QMF 뱅크를 적용하는 방식에 대한 예시도이다.
이하, 본 발명의 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 실시예들의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.
이하의 설명에서 음원의 품질은 음원의 압출률(kbps로 표시)과 반비례하는 것으로 가정한다, 즉 압축률이 높을수록 음원의 품질은 낮은 것으로 가정한다. 또한 낮은 품질의 음원은 높은 품질의 음원에 대하여 상대적으로 저대역(low frequency band) 데이터인 것으로 가정한다.
도 1은 본 발명의 일 실시예에 따른, 모바일 디바이스 상에 구현되는 음원 대역 변환기의 구성도이다.
도 1에 예시된 모바일 디바이스(100) 상에 구현되는 음원 대역 변환기(110)는 입력부(111), 대역폭 확장부(112) 및 출력부(113)의 일부 또는 전부를 포함한다. 여기서, 본 실시예에 따른 음원 대역 변환기(110)에 포함되는 구성요소가 반드시 이에 한정되는 것은 아니다. 예컨대, 음원 대역 변환기(110) 상에 학습 모델의 트레이닝을 위한 트레이닝부(미도시)를 추가로 구비하거나, 외부의 트레이닝부와 연동되는 형태로 구현될 수 있다.
입력부(111)는 음원 대역폭 변환(Audio Bandwidth Extension: ABE)을 수행하는 과정에서 필요한 데이터를 획득하여 ABE에 적절한 형태로 변환한다.
예컨대, 본 실시예에 따른 입력부(111)는 전송된 고압축률의 음원을 스트리밍(streaming) 서비스 시스템으로부터 수신한 후, 시간 영역(time domain)의 저대역 데이터를 합성(synthesis)한다. 시간 영역 상의 데이터를 합성 시에 샘플링 주파수(sampling frequency)는 44.1 KHz를 사용하는 것으로 가정한다. 한편, 고압축률의 음원은 64 kbps, 96 kbps 및 128 kbps 중의 하나로 압축된 음원을 의미하나 반드시 이에 한정하는 것은 아니다. ABE의 목표가 되는 고품질 음원은 320 kbps 음원 혹은 그 등가 품질의 음원을 의미하나 반드시 이에 한정하는 것을 아니며, 고압축률의 음원보다 낮은 압축률을 가지며 스트리밍 서비스에서 제공받을 수 있는 최상의 음질을 갖는 음원 중의 하나일 수 있다.
또한, 본 발명의 다른 실시예에 따른 입력부(111)는, 시간 영역 상의 데이터 형태로 기 존재하는 저품질 음원 데이터를 획득할 수 있다.
대역폭 확장부(112)는, 입력부(111)로부터 시간 영역의 저대역 데이터를 입력으로 받아들여, 대역폭이 확장된 시간 영역 상의 전대역(full frequency band) 데이터로 변형한다. 대역폭 확장부(112)는 ABE를 위하여 트레이닝부에 의하여 기 학습된 신경회로망(neural network) 기반의 학습 모델을 이용한다. 학습 모델의 구조 및 학습 모델의 트레이닝 과정은 추후에 설명하기로 한다.
출력부(113)는 대역폭이 확장된 음원 신호를, 음원 대역 변환기(110)의 사용자에게 청각적인 형태(audible form)로 제공한다.
본 실시예에 따른 인공 대역폭 확장기(110)는 모바일 디바이스(100) 상에 탑재될 수 있다. 모바일 디바이스(100)는 전송대역의 제한을 받는 무선 또는 유선 전송로를 이용하여 음원 스트리밍서비스를 제공받을 수 있는 어느 기기든 될 수 있다.
도 2는 본 발명의 일 실시예에 따른 음원 대역 변환기의 학습 모델에 대한 구조도이다.
도 2에 도시된 학습 모델을 이용하여 대역폭 확장부(112)는 음원 대역 변환을 수행한다. 본 실시예에 따른 학습 모델은 유넷(U-Net)을 기반으로 하는 딥러닝(deep learning) 모델이다. 이하 도 2를 참조하여, 학습 모델의 구조 및 학습 과정을 설명한다.
유넷은 인코딩 경로 및 디코딩 경로를 포함하는 FCN(Full Convolutional Neural Network)에 병목(bottle neck) 블록 및 스킵 연결(skip connection)이 적용된 신경회로망이다. 먼저 학습 모델의 인코딩 경로는 입력 레이어(input layer)와 복수의 인코더 블록을 적층한 구조이다. 각각의 인코더 블록은 1 차원 콘볼루션 레이어(convolution layer), 배치 정규화(batch normalization) 레이어 및 누설 ReLU(Leaky Rectified Linear Unit) 레이어를 포함한다. 그리고, 디코딩 경로는 출력 레이어(output layer)와 복수의 디코더 블록을 적층한 구조이다. 각각의 디코더 블록은 1 차원 전치(transposed) 콘볼루션 레이어, 배치 정규화 레이어 및 ReLU(Rectified Linear Unit) 레이어를 포함한다.
병목(bottle neck) 블록은 1 차원 전치 콘볼루션 레이어, 배치 정규화 레이어, 누설 ReLU 레이어 및 드랍아웃(dropout)을 포함한다. 병목(bottle-neck) 블록은 인코딩 경로와 디코딩 경로의 중간에 존재한다. 도 2에 도시된 바대로, 인코더 블록과 디코더 블록 간에는 스킵 연결이 적용된다. 스킵 연결은 콘볼루션 레이어의 출력을 해당되는 전치 콘볼루션 레이어의 입력에 접합(concatenation)한다.
도 2의 도시에서 인코더 블록의 두 숫자의 곱으로 표시된 부분은 각각 해당 블록의 출력 특성(feature) 데이터의 차원 및 출력 특성의 개수를 의미한다. 예컨대, 인코딩 경로의 "512 X 16"은 해당 레이어의 출력 특성 데이터의 차원이 512이고, 출력 특성이 16 개임을 의미한다. 그리고 1 차원 콘볼루션 레이어 구성은 괄호 안에 순서쌍으로 표기되는데, 각각 콘볼루션 필터(convolution filter)의 길이 및 출력 특성의 개수를 의미한다. 따라서 각 블록의 콘볼루션 필터의 개수와 출력하는 특성의 개수는 같다. 인코딩 경로의 각 블록을 거치면서 다운샘플링(down-sampling)됨에 따라 출력 특성 데이터의 차원은 감소하고, 콘볼루션 필터의 개수 증가에 따라 출력 특성의 개수는 증가한다. 다운샘플링 방법은 콘볼루션 필터링 시에 스트라이드(stride) 2를 적용하는 방식을 이용하되, 이에 한정하는 것은 아니며, 맥스스풀링(max-spooling) 및 평균스풀링(average-spooling)과 같은 다른 방법도 이용이 가능하다.
디코더 블록의 두 숫자의 곱으로 표시된 부분은 각각 해당 블록의 입력 특성 데이터의 차원 및 출력 특성의 개수를 의미한다. 예컨대, 디코딩 경로의 "512 X 16"은 해당 레이어의 입력 데이터의 차원이 512이고, 입력 특성이 16 개임을 의미한다. 그리고 1 차원 전치 콘볼루션 레이어 구성은 괄호 안에 순서쌍으로 표기되는데, 각각 전치 콘볼루션 필터의 길이 및 출력 특성의 개수를 의미한다. 따라서 각 레이어의 전치 콘볼루션 필터의 개수는 입력되는 특성의 개수보다 적다. 디코딩 경로의 각 블록을 거치면서 업샘플링(up-sampling)됨에 따라 출력 특성 데이터의 차원은 증가하고, 전치 콘볼루션 필터의 개수의 감소에 따라 출력 특성의 개수는 감소한다. 업샘플링 방법은 도 3을 참조하여 추후에 설명하기로 한다.
병목 블록의 두 숫자의 곱으로 표시된 부분은 각각 해당 블록의 출력 특성(feature) 데이터의 차원 및 출력 특성의 개수를 의미한다. 그리고 1 차원 전치 콘볼루션 레이어 구성은 괄호 안에 순서쌍으로 표기되는데, 각각 전치 콘볼루션 필터(convolution filter)의 길이 및 출력 특성의 개수를 의미한다.
인코딩 경로 및 병목 블록에 사용되는 활성 함수(activation function)인 누설 ReLU는, 시간 영역 상의 음원 신호가 음수 값을 포함하는 특징을 유지한 채로 디코더 블록 측으로 전달한다. 한편, 디코딩 경로에서는 그레디언트 소멸문제(gradient vanishing problem)에 대처하기 위하여 활성 함수로서 ReLU가 사용된다. 다만 디코딩 경로의 마지막 블록에는 활성 함수 ReLU를 생략하여 출력 신호가 음수를 포함하도록 한다.
인코딩 경로, 병목 블록 및 디코딩 경로에 모두 포함되는 배치 정규화 단계는 각 블록의 출력을 정규화함으로써 학습 모델의 트레이닝을 용이하게 한다. 배치 정규화 레이어는 학습 모델의 각 블록 내 신호값들의 공분산 이동(covariance shift) 문제를 해결하기 위하여 사용되며, 디코딩 경로의 마지막 블록에서는 생략한다.
학습 모델의 크기가 큰 경우에 발생하는 오버피팅(overfitting) 문제에 대처하기 위해, 병목 블록에 드랍아웃(dropout)을 적용한다. 드랍아웃을 적용함에 따라 학습 모델 내의 일부 연결이 생략되어, 축소된 학습 모델이 트레이닝에 사용된다.
도 2의 도시에 따르면 인코딩 블록의 적층 수와 디코딩 레이어의 적층 수는 각각 7 개로 서로 동일하고, 여기에 병목 블록을 합하여 총 15 개의 블록으로 학습모델이 구성된다. 입력 및 출력은 모두 1024 차원의 시간 영역 상의 1 차원 음원 신호 파형(waveform) 데이터이다. 본 실시예에서는 시간 영역 상의 입력 및 출력 데이터에 특정한 전처리 및 후처리 과정을 적용하지 않는다. 따라서, 시간 영역의 데이터에 학습 모델에 기반한 회귀적(regressive) 방식을 적용하여 저대역 음원에 대한 전대역적 특성을 추정한다.
도 3은 본 발명의 일 실시예에 따른 디코더 블록의 전치 콘볼루션 동작을 보여 주는 예시이다.
도 3에 도시된 바대로, 입력 샘플 간에 제로 패딩(zero padding)을 적용하여 업샘플링(up-sampling)을 수행한 후, 콘볼루션을 수행하는 전치 콘볼루션 레이어를 디코더 블록에 사용한다. 통상적인 콘볼루션 동작 시, 입력 경계 부분의 제로 패딩은 콘볼루션 전후의 입출력 크기를 동일하게 유지하여 출력 데이터 개수가 감소하는 것을 방지한다. 그러나, 본 실시예에 따른 전치 콘볼루션 레이어에서는 샘플 간마다 제로 패딩을 적용하여, 출력 차원을 두 배로 확장함으로써 업샘플링을 수행한다.
도 2 및 도 3의 구성요소에 기반하여, 학습 모델의 인코더 블록은 입력된 저대역 음원으로부터 음원 신호를 구성하는 주요 특징을 추정하고, 디코더 블록은 추정된 특징을 이용하여 전대역 음원 신호를 합성한다.
전술한 바와 같은 학습 모델의 구성 및 동작은 예시일 뿐으로, 반드시 이에 한정하는 것은 아니며, 트레이닝에 소요되는 시간, 학습 모델의 성능 및 실시간 구현 가능성 등에 따라 인코더 블록, 병목 블록 및 디코더 블록의 개수 및 블록 구성 등에 대한 구조 변형이 가능하다.
이하 트레이닝부에 의한 학습 모델의 트레이닝 과정을 설명한다. 먼저 고음질 음원(예컨대, 320 kbps)을 이용하여 시간 영역 상의 타겟(target) 음원 데이터를 생성한다. 다음 고음질 음원에 해당하는 저품질의 학습용 음원(예컨대, 64 kbps, 96 kbps 또는 128 kbps로 압축된 음원)에 대한 시간 영역 상의 음원 데이터를 생성한 후, 학습 모델에 입력하여 고품질의 음원 데이터를 추정한다. 트레이닝부는 타겟 음원 신호와 학습 모델이 추정한 음원 데이터 간의 거리 메트릭(distance metric)에 기반하여 학습 모델의 파라미터를 업데이트한다. 여기서 거리 메트릭은 L1 및 L2 메트릭 등, 두 비교 대상 간의 거리 메트릭의 차이를 표현할 수 있는 것이면 어느 것이든 이용 가능하다.
일반적으로 평균 절대 오차(Mean-Absolute Error)인 L1 메트릭은 샘플 데이터 중 이상값(outlier)에 대한 처리에 더 효과적이고, 평균 제곱 오차(Mean-Square Error: MSE)인 L2 메트릭은 샘플 데이터 간의 예측가능한 보간값을 회귀적으로 추론하는데 더 효과적이다. 따라서 본 실시예에서는, 시간 영역 상의 음원 데이터를 입출력으로 사용하므로 L2 메트릭을 기반으로 학습 모델의 파라미터를 업데이트하여 샘플 데이터 간의 보간값을 추론한다.
또한 전술한 바와 같이, 트레이닝 과정에서 학습 모델의 오버피팅(overfitting) 문제에 대처하기 위해, 병목 블록에 드랍아웃을 적용한다. 드랍아웃 적용에 따라 학습 모델 내의 일부 연결이 생략되고, 트레이닝부는 축소된 학습 모델에 대한 트레이닝을 진행한다.
본 실시예에 따른 인공 대역폭 확장기(110)가 탑재되는 모바일 디바이스(100)는 프로그램가능 컴퓨터일 수 있으며, 서버(미도시)와 연결이 가능한 적어도 한 개의 통신 인터페이스를 포함한다.
전술한 바와 같은 학습 모델에 대한 트레이닝은 서버에서 진행될 수 있다. 모바일 디바이스(100) 상에 탑재된 학습 모델과 동일한 구조의 딥러닝 모델에 대하여 서버의 트레이닝부는 트레이닝을 수행할 수 있다. 모바일 디바이스(100)와 연결되는 통신 인터페이스를 이용하여 서버는 트레이닝된 파라미터를 모바일 디바이스(100)로 전달하고, 전달받은 파라미터를 이용하여 인공 대역폭 확장기(110)는 학습 모델의 파라미터를 업데이트할 수 있다. 또한 모바일 디바이스(100) 출하 시점 또는 인공 대역폭 확장기(110)가 모바일 디바이스(100)에 탑재되는 시점에, 학습 모델의 파라미터가 설정될 수 있다.
도 4는 본 발명의 일 실시예에 따른 음원 대역 변환방법에 대한 순서도이다.
도 4에 도시된 순서도는, 본 실시예에 따른 대역폭 확장부(112)가 수행하는 음원 대역 변환방법을 나타낸다.
먼저, 시간 영역 상의 저품질 음원 데이터를 획득한다(S401). 여기서 시간 영역 상의 데이터는, 입력부(111)가 고압축률의 음원을 이용하여 합성한 데이터일 수 있다.
다음, 저품질 음원 데이터를 학습 모델에 입력하여, 대역폭이 확장된 고품질 음원 데이터를 생성한다(S402). 여기서 학습 모델로는 ABE를 위하여 트레이닝부에 의하여 기 학습된 유넷 기반의 학습 모델을 이용한다.
다음, 대역폭이 확장된 고품질 음원 데이터를 사용자에게 청각적 형태로 제공한다(S403).
도 5는 본 발명의 다른 실시예에 따른, 음원 대역 변환기에 QMF 뱅크를 적용하는 방식에 대한 예시도이다.
본 발명의 다른 실시예로서 음원 대역 변환기(100)에 음성 신호처리에 널리 이용되는 QMF(Quadrature Mirror Filter) 뱅크(bank)를 적용하는 것이 가능하다. QMF 뱅크를 이용할 경우 대역폭 확장부(112)에 의해 생성된 음원의 협대역과 원래 음원의 협대역 간의 왜곡(distortion)이 보정되므로 더 향상된 성능을 성취할 수 있다. 이하 도 5를 참조하여, QMF 뱅크를 적용하는 실시예를 설명한다. QMF 뱅크를 적용하는 실시예에서는, 협대역 음원 신호와 음원 대역 변환기(100)가 추출한 광대역 음원 데이터에 QMF 뱅크를 이용한 분석 및 합성과정을 적용하여 전대역 데이터를 생성한다.
먼저 도 5의 (a)에 도시된 바대로, 저대역 데이터
Figure pat00001
을 대역폭 확장부(112)에 입력하여 광대역 데이터
Figure pat00002
을 생성한다. 도 5의 (b)에 도시된 QMF 뱅크 분석과정은, 광대역 데이터
Figure pat00003
을 분석 필터(analysis filter)
Figure pat00004
Figure pat00005
를 통과시킨 후, 2 배 다운샘플링하여 고대역(high frequency band) 데이터
Figure pat00006
과 저대역 데이터
Figure pat00007
를 분리한다. 도 5의 (c)에 도시된 QMF 뱅크 합성과정은, 분리된 데이터 중 고대역 데이터
Figure pat00008
과 원래의 저대역 데이터
Figure pat00009
을 2 배 업샘플링하여 합성필터(synthesis filter)
Figure pat00010
Figure pat00011
를 통과시킨 후에 서로 합산한다. 합산된 결과는 원래 데이터의 저대역 부분과 대역폭 확장부(112)가 추정한 데이터의 고대역 부분이 합성된 전대역 데이터
Figure pat00012
이다.
이하 본 실시예에 따른 인공 대역폭 확장장치의 성능을 평가한 결과를 설명한다. 평가 및 학습에는 고전음악, 케이팝(K-pop) 및 팝음악 등을 압축한 음원을 시간 영역 상에서 모노(mono) 샘플링한 음원 데이터를 사용하였다. 모노 음원 데이터를 사용한 이유는 비교 대상(비특허문헌 1 참조)과의 대조를 하기 위함이다. 전술한 트레이닝 방법을 적용하여 본 실시예에 따른 학습 모델을 트레이닝시킨 후, 동일한 평가용 음원을 이용하여 비교 대상의 추정 방식과 SNR 측정 결과를 비교하였다. 측정된 SNR은 32.0 dB로서, 비교 대상의 추정 방식이 산출한 22.5 dB와 대비하여 더 탁월한 성능을 보였다.
이상에서 설명한 바와 같이 본 실시예에 의하면, 전송 채널의 제약으로 인하여 고압축률로 압축되어 모바일 디바이스로 전송된 저품질의 음원 데이터를 고품질 음원으로 변환하기 위하여, 유넷에 기반하여 회귀적 방식을 이용하는 음원 대역 변환장치 및 방법을 제공함으로써, 모바일 디바이스에서 고품질 음원과 등가의 음질을 서비스하여 사용자의 만족도를 높이는 효과가 있다.
본 실시예에 따른 각 순서도에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 순서도에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것이 적용 가능할 것이므로, 순서도는 시계열적인 순서로 한정되는 것은 아니다.
본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터-판독가능 매체"에 저장된다.
컴퓨터-판독가능 매체는, 명령어들 및/또는 데이터를 프로그래밍가능 프로세서에게 제공하기 위해 사용되는, 임의의 컴퓨터 프로그램 제품, 장치, 및/또는 디바이스(예를 들어, CD-ROM, ROM, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성 또는 비일시적인 기록매체)를 나타낸다.
본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 프로그램가능 컴퓨터에 의하여 구현될 수 있다. 여기서, 컴퓨터는 프로그램가능 프로세서, 데이터 저장 시스템(휘발성 메모리, 비휘발성 메모리, 또는 다른 종류의 저장 시스템이거나 이들의 조합을 포함함) 및 적어도 한 개의 커뮤니케이션 인터페이스를 포함한다. 예컨대, 프로그램가능 컴퓨터는 서버, 네트워크 기기, 셋탑 박스, 내장형 장치, 컴퓨터 확장 모듈, 개인용 컴퓨터, 랩탑, PDA(Personal Data Assistant), 클라우드 컴퓨팅 시스템 또는 모바일 장치 중 하나일 수 있다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 모바일 디바이스 110: 음원 대역 변환기
111: 입력부 112: 대역포확장부
113: 출력부

Claims (10)

  1. 저품질 음원 데이터에 대한 음원 대역 변환장치에 있어서,
    시간 영역 상에서 상기 저품질 음원 데이터를 획득하는 입력부;
    사전에 트레이닝된 학습 모델을 포함하고, 상기 저품질 음원 데이터를 상기 학습 모델에 입력하여, 대역폭이 확장된 고품질 음원 데이터를 생성하는 대역폭 확장부; 및
    상기 고품질 음원 데이터를 청각적 형태로 출력하는 출력부
    를 포함하는 것을 특징으로 하는 음원 대역 변환장치.
  2. 제1항에 있어서,
    상기 학습 모델은 딥러닝(deep learning) 모델로서, 동일 음원 신호에 대한 시간 영역 상의 고품질 음원 데이터 및 저품질 음원 데이터 각각을 타겟(target) 및 입력으로 이용하여 사전에 트레이닝되는 것을 특징으로 하는 음원 대역 변환장치.
  3. 제2항에 있어서,
    상기 딥러닝 모델은,
    시간 영역 상의 상기 저품질 음원 데이터를 이용하여 저대역(low frequency band) 음원에 대한 전대역(full frequency band)적 특성을 회귀적(regressive) 방식으로 추정하는 것을 특징으로 하는 음원 대역 변환장치.
  4. 제2항에 있어서,
    상기 딥러닝 모델은,
    입력 레이어(input layer)와 복수의 인코더 블록을 포함하는 인코딩 경로;
    복수의 디코더 블록과 출력 레이어(output layer)를 포함하는 디코딩 경로;
    상기 인코딩 경로와 상기 디코딩 경로를 연결하는 병목(bottle-neck) 블록; 및
    상기 인코더 블록과 상기 디코더 블록을 접합(concatenation)하는 스킵 연결(skip connection)
    을 포함하되,
    상기 인코더 블록의 개수와 상기 디코더 블록의 개수가 동일한 것을 특징으로 하는 음원 대역 변환장치.
  5. 제4항에 있어서,
    상기 디코더 블록은,
    전치 콘볼루션(transposed convolution) 레이어를 포함하고, 상기 전치 콘볼루션 레이어는 입력 샘플 간에 제로 패딩(zero padding)을 적용하여 업샘플링(up-sampling)을 수행한 후, 업샘플링된 샘플에 대한 콘볼루션을 수행하는 것을 특징으로 하는 음원 대역 변환장치.
  6. 제4항에 있어서,
    상기 인코더 블록 및 상기 병목 블록은 활성 함수(active function)로서 누설 ReLU(Leaky Rectified Linear Unit)를 이용하고, 상기 디코더 블록의 일부는 활성 함수로서 ReLU(Rectified Linear Unit)를 이용하는 것을 특징으로 하는 음원 대역 변환장치.
  7. 저품질 음원 데이터에 대한 음원 대역 변환장치를 이용하여, 컴퓨터 상에서 구현되는 음원 대역 변환방법에 있어서,
    시간 영역 상에서 상기 저품질 음원 데이터를 획득하는 과정;
    상기 저품질 음원 데이터를 사전에 트레이닝된 학습 모델에 입력하여, 대역폭이 확장된 고품질 음원 데이터를 생성하는 과정; 및
    상기 고품질 음원 데이터를 청각적 형태로 출력하는 과정
    을 포함하는 것을 특징으로 하는, 컴퓨터 상에서 구현되는 음원 대역 변환방법.
  8. 제7항에 있어서,
    상기 생성하는 과정은,
    사전에 트레이닝된, 딥러닝(deep learning) 기반의 학습 모델을 이용하는 것을 특징으로 하는, 컴퓨터 상에서 구현되는 음원 대역 변환방법.
  9. 제7항에 있어서,
    상기 생성하는 과정은,
    시간 영역 상의 상기 저품질 음원 데이터를 이용하여 저대역(low frequency band) 음원에 대한 전대역(full frequency band)적 특성을 회귀적(regressive) 방식으로 추정하는 것을 특징으로 하는, 컴퓨터 상에서 구현되는 음원 대역 변환방법.
  10. 제7항 내지 제9항 중 어느 한 항에 따른 음원 대역 변환방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는, 비휘발성 또는 비일시적인 기록매체에 저장된 컴퓨터프로그램.
KR1020190115687A 2019-09-19 2019-09-19 유넷 기반의 음원 대역 변환장치 및 방법 KR20210033853A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190115687A KR20210033853A (ko) 2019-09-19 2019-09-19 유넷 기반의 음원 대역 변환장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190115687A KR20210033853A (ko) 2019-09-19 2019-09-19 유넷 기반의 음원 대역 변환장치 및 방법

Publications (1)

Publication Number Publication Date
KR20210033853A true KR20210033853A (ko) 2021-03-29

Family

ID=75250058

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190115687A KR20210033853A (ko) 2019-09-19 2019-09-19 유넷 기반의 음원 대역 변환장치 및 방법

Country Status (1)

Country Link
KR (1) KR20210033853A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419725A (zh) * 2021-11-30 2022-04-29 西安交通大学 一种基于无线射频信号的行为检测方法及系统
CN114777677A (zh) * 2022-03-09 2022-07-22 南京理工大学 基于深度学习的单帧双频复用条纹投影三维面型测量方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
비특허문헌 1: Kuleshov, Volodymyr, S. Zayd Enam, and Stefano Ermon. "Audio super resolution using neural networks." arXiv preprint arXiv:1708.00853 (2017)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419725A (zh) * 2021-11-30 2022-04-29 西安交通大学 一种基于无线射频信号的行为检测方法及系统
CN114777677A (zh) * 2022-03-09 2022-07-22 南京理工大学 基于深度学习的单帧双频复用条纹投影三维面型测量方法
CN114777677B (zh) * 2022-03-09 2024-04-26 南京理工大学 基于深度学习的单帧双频复用条纹投影三维面型测量方法

Similar Documents

Publication Publication Date Title
JP6306676B2 (ja) 高周波数帯域幅拡張のための符号化/復号化装置及びその方法
KR102002681B1 (ko) 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법
Li et al. Speech bandwidth extension using generative adversarial networks
JP6701429B2 (ja) 高調波転換
JP2010224321A (ja) 信号処理装置
US10373624B2 (en) Broadband signal generating method and apparatus, and device employing same
JP7297367B2 (ja) 周波数帯域拡張方法、装置、電子デバイスおよびコンピュータプログラム
TWI708243B (zh) 於分散式語音辨識中基於小波轉換之語音特徵壓縮及重建系統與方法
JP7490894B2 (ja) 深層生成ネットワークを用いたリアルタイムパケット損失隠蔽
KR20210033853A (ko) 유넷 기반의 음원 대역 변환장치 및 방법
JPWO2008053970A1 (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
Sadasivan et al. Joint dictionary training for bandwidth extension of speech signals
Hao et al. Time-domain neural network approach for speech bandwidth extension
JP5443547B2 (ja) 信号処理装置
Narayanaswamy et al. Audio source separation via multi-scale learning with dilated dense u-nets
KR102427874B1 (ko) 학습 모델 기반의 인공 대역 변환장치 및 방법
JP6157926B2 (ja) 音声処理装置、方法およびプログラム
CN115966218A (zh) 一种骨导辅助的气导语音处理方法、装置、介质及设备
Sun et al. Single-channel speech enhancement based on joint constrained dictionary learning
Jassim et al. Speech quality assessment with WARP‐Q: From similarity to subsequence dynamic time warp cost
JP2022127898A (ja) 声質変換装置、声質変換方法及びプログラム
WO2020231437A1 (en) Identifying salient features for generative networks
Wen et al. X-net: A Joint Scale Down and Scale Up Method for Voice Call.
López‐Espejo et al. Dual‐channel VTS feature compensation for noise‐robust speech recognition on mobile devices
Yang et al. Taper Residual Dense Network for Audio Super-Resolution

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X601 Decision of rejection after re-examination