KR20210033852A - Method and Apparatus for Artificial Band Conversion Based on Learning Model - Google Patents

Method and Apparatus for Artificial Band Conversion Based on Learning Model Download PDF

Info

Publication number
KR20210033852A
KR20210033852A KR1020190115686A KR20190115686A KR20210033852A KR 20210033852 A KR20210033852 A KR 20210033852A KR 1020190115686 A KR1020190115686 A KR 1020190115686A KR 20190115686 A KR20190115686 A KR 20190115686A KR 20210033852 A KR20210033852 A KR 20210033852A
Authority
KR
South Korea
Prior art keywords
band
data
low
energy
full
Prior art date
Application number
KR1020190115686A
Other languages
Korean (ko)
Other versions
KR102308077B1 (en
Inventor
나태영
이정혁
김홍국
Original Assignee
에스케이텔레콤 주식회사
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사, 광주과학기술원 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020190115686A priority Critical patent/KR102308077B1/en
Publication of KR20210033852A publication Critical patent/KR20210033852A/en
Priority to KR1020210126252A priority patent/KR102427874B1/en
Application granted granted Critical
Publication of KR102308077B1 publication Critical patent/KR102308077B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

Disclosed are an artificial band conversion device and a method based on a learning model. To transform the low-quality sound source data compressed at a high compression rate and transmitted to a mobile device into a signal equivalent to a high-quality sound source due to the limitation of a transmission channel, the artificial band conversion device and method using an energy estimation method based on a learning model is provided.

Description

학습 모델 기반의 인공 대역 변환장치 및 방법{Method and Apparatus for Artificial Band Conversion Based on Learning Model}{Method and Apparatus for Artificial Band Conversion Based on Learning Model}

본 발명은 모바일 디바이스에서 이용되는 학습 모델 기반의 인공 대역 변환장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for converting an artificial band based on a learning model used in a mobile device.

이하에 기술되는 내용은 단순히 본 발명과 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다. The contents described below merely provide background information related to the present invention and do not constitute the prior art.

인공 대역 변환은, 제한된 대역폭 혹은 하드웨어 성능 등의 원인에 의해 낮은 전송률로 수신된 저음질 신호에 대하여, 저주파수 대역(low frequency band, 이하 "저대역") 분석에 기반하여 고주파수 대역(high frequency band, 이하 "고대역")을 생성함으로써 신호 품질을 향상시키는 기술로서 ABE(Artificial Bandwidth Extension)로도 불리운다. 뮤직 음원신호 처리 분야에서 ABE는 데이터의 압축을 위한 인코더와 디코더를 통칭한 코덱(codec) 시스템에 적용되어 모바일 디바이스 상에서 작동되며, 주로 온라인 상황에서 품질 향상을 위해 추가적인 후처리(post-processing) 형태로 실행된다.Artificial band conversion is a high frequency band based on analysis of a low frequency band (hereinafter referred to as "low band") for a low sound quality signal received at a low transmission rate due to a limited bandwidth or hardware performance. Hereinafter, it is also called ABE (Artificial Bandwidth Extension) as a technique for improving signal quality by generating "high band"). In the field of music sound signal processing, ABE is applied to a codec system collectively referred to as an encoder and decoder for data compression, and is operated on mobile devices, mainly in the form of additional post-processing to improve quality in online situations. Is executed as

ABE를 구현한 종래의 기술로는, G.729.1에서와 같이 고대역의 정보를 따로 압축하여 모바일 디바이스로 전송하는 방식이 있다(비특허문헌 1 참조). 대역폭 확장을 위해 고대역의 정보를 이용한다는 장점은 있으나, 추가적인 비트 할당을 위한 대역을 전송 채널에 요구하고, 사용되는 코덱의 복잡도를 증가시키는 단점이 있다. As a conventional technology implementing the ABE, there is a method of separately compressing high-band information and transmitting it to a mobile device as in G.729.1 (see Non-Patent Document 1). Although there is an advantage of using high-band information for bandwidth extension, there is a disadvantage in that a bandwidth for additional bit allocation is required for a transmission channel, and the complexity of the codec used is increased.

다른 기술로는 HMM(Hidden Markov Model) 및 GMM(Gaussian Mixture Model) 등 패턴인식(pattern recognition) 기반의 추정(estimation) 방식이 있다. 그러나 패턴인식 기반의 추정 방식은 목표로 하는 성능을 달성하기 위하여 모델 학습에 긴 시간을 요구하고, 학습 결과를 적용한 추론 과정 또한 복잡하다. 최근에 SoC(System on Chip) 기술의 발달에 따라 종전에 비해 추론 과정에 대한 실시간 처리 여건이 좋아졌음에도 불구하고 패턴인식 기반의 추정 방식은 모바일 디바이스에서 실시간 처리가 어렵다는 단점이 있다.Other technologies include an estimation method based on pattern recognition such as Hidden Markov Model (HMM) and Gaussian Mixture Model (GMM). However, the pattern recognition-based estimation method requires a long time to train the model to achieve the target performance, and the inference process applying the learning result is also complex. Despite the recent development of SoC (System on Chip) technology, real-time processing conditions for inference processes have improved compared to before, the pattern recognition-based estimation method has the disadvantage that real-time processing in mobile devices is difficult.

따라서 전송 채널에 부담을 주지 않은 채로, 모바일 디바이스 상에서 실시간 처리가 가능하면서도, SNR(Signal to Noise Ratio)로 대표되는 성능은 향상된 음원 신호처리를 위한 인공 대역 변환장치 및 방법이 요구된다. Therefore, while real-time processing is possible on a mobile device without burdening the transmission channel, an artificial band converter and method for processing a sound source signal with improved performance represented by a signal to noise ratio (SNR) are required.

비특허문헌 1: ITU-T (January 2007). "G.729: Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (CS-ACELP)" Non-Patent Document 1: ITU-T (January 2007). "G.729: Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (CS-ACELP)"

본 개시는, 전송 채널의 제약으로 인하여 고압축률로 압축되어 모바일 디바이스로 전송된 저품질의 음원 데이터를 고품질 음원과 등가의 신호로 변형하기 위하여, 학습 모델 기반의 에너지 추정 방법을 이용하는 인공 대역 변환장치 및 방법을 제공하는 데 주된 목적이 있다.The present disclosure is an artificial band converter using an energy estimation method based on a learning model to transform low-quality sound source data compressed at a high compression rate and transmitted to a mobile device into a signal equivalent to a high-quality sound source due to a transmission channel constraint, and The main purpose is to provide a method.

본 발명의 실시예에 의하면, 저품질 신호를 표현한 주파수 영역의 데이터를 획득하여 부대역(sub-band) 별로 저대역(low frequency band) 에너지를 추출하는 특성추출부; 사전에 트레이닝된 학습형 연산 모델을 포함하고, 상기 저대역 에너지를 상기 학습형 연산 모델에 입력하여 고대역(high frequency band) 에너지를 추정하는 대역에너지 추정부; 및 상기 고대역 에너지, 상기 저대역 에너지 및 상기 주파수 영역의 데이터를 이용하여 전대역(full frequency band) 주파수 데이터를 추정하는 재구성부를 포함하는 것을 특징으로 하는 인공 대역 변환장치를 제공한다. According to an embodiment of the present invention, a characteristic extracting unit for extracting low frequency band energy for each sub-band by acquiring data in a frequency domain representing a low-quality signal; A band energy estimating unit including a pre-trained learning-type calculation model, and estimating a high frequency band energy by inputting the low-band energy into the learning-type calculation model; And a reconstruction unit estimating full frequency band frequency data using the high-band energy, the low-band energy, and data in the frequency domain.

본 발명의 다른 실시예에 의하면, 인공 대역 변환장치의 인공 대역 변환방법에 있어서, 주파수 영역의 데이터를 이용하여 부대역(sub-band) 별로 저대역(low frequency band) 에너지를 추출하는 과정: 상기 저대역 에너지를 사전에 트레이닝된 학습 모델에 입력하여 고대역 에너지(high frequency band)를 추정하는 과정; 상기 저대역 에너지 및 상기 주파수 영역의 데이터를 이용하여 평준화된 전대역(full frequency band) 데이터를 생성하는 과정; 및 상기 고대역 에너지와 상기 저대역 에너지를 합성하여 전대역 에너지를 생성한 후, 상기 평준화된 전대역 데이터와 상기 전대역 에너지를 처리하여 전대역 주파수 데이터를 추정하는 과정을 포함하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 인공 대역 변환방법을 제공한다. According to another embodiment of the present invention, in the artificial band conversion method of the artificial band converter, the process of extracting low frequency band energy for each sub-band by using data in the frequency domain: the Estimating a high frequency band by inputting low-band energy into a pre-trained learning model; Generating normalized full frequency band data by using the low-band energy and data in the frequency domain; And generating full-band energy by synthesizing the high-band energy and the low-band energy, and then processing the leveled full-band data and the full-band energy to estimate full-band frequency data. Provides an implemented artificial band conversion method.

본 발명의 다른 실시예에 의하면, 인공 대역 변환방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는, 비휘발성 또는 비일시적인 기록매체에 저장된 컴퓨터프로그램을 제공한다. According to another embodiment of the present invention, there is provided a computer program stored in a computer-readable, nonvolatile or non-transitory recording medium in order to execute each step of the artificial band conversion method.

이상에서 설명한 바와 같이 본 실시예에 의하면, 전송 채널의 제약으로 인하여 고압축률로 압축되어 전송된 저품질의 음원 데이터를 고품질 음원 신호로 변형하기 위하여, 학습 모델 기반의 에너지 추정 방법을 이용하는 인공 대역 변환장치 및 방법을 제공함으로써, 모바일 디바이스에서 고품질 음원과 등가의 음질을 서비스하여 사용자의 만족도를 높이는 효과가 있다. As described above, according to the present embodiment, in order to transform low-quality sound source data compressed at a high compression rate and transmitted into a high-quality sound source signal due to a limitation of a transmission channel, an artificial band converter using an energy estimation method based on a learning model. And by providing a method, there is an effect of increasing user satisfaction by providing sound quality equivalent to a high-quality sound source in a mobile device .

도 1은 본 발명의 일 실시예에 따른, 모바일 디바이스 상에 구현되는 인공 대역 변환기의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 대역폭 확장부의 구성도이다.
도 3은 본 발명의 일 실시예에 따른 고대역 에너지 추정을 위한 학습 모델의 구조도이다.
도 4는 본 발명의 일 실시예에 따른 인공 대역 변환방법에 대한 순서도이다.
1 is a block diagram of an artificial band converter implemented on a mobile device according to an embodiment of the present invention.
2 is a block diagram of a bandwidth extension unit according to an embodiment of the present invention.
3 is a structural diagram of a learning model for estimating high-band energy according to an embodiment of the present invention.
4 is a flowchart of an artificial band conversion method according to an embodiment of the present invention.

이하, 본 발명의 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.Hereinafter, embodiments of the present invention will be described in detail with reference to exemplary drawings. In adding reference numerals to elements of each drawing, it should be noted that the same elements are assigned the same numerals as possible, even if they are indicated on different drawings. In addition, in describing the embodiments, when it is determined that a detailed description of a related known configuration or function may obscure the subject matter of the embodiments, a detailed description thereof will be omitted.

또한, 본 실시예들의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.In addition, terms such as first, second, A, B, (a), (b) may be used to describe the constituent elements of the present embodiments. These terms are for distinguishing the constituent element from other constituent elements, and the nature, order, or order of the constituent element is not limited by the term. Throughout the specification, when a part'includes' or'includes' a certain element, it means that other elements may be further included rather than excluding other elements unless otherwise stated. . In addition, the'... Terms such as'sub' and'module' mean a unit that processes at least one function or operation, which may be implemented by hardware or software, or a combination of hardware and software.

첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.DETAILED DESCRIPTION OF THE INVENTION The detailed description to be disclosed below together with the accompanying drawings is intended to describe exemplary embodiments of the present invention, and is not intended to represent the only embodiments in which the present invention may be practiced.

이하의 설명에서 음원의 품질은 음원의 압출률(kbps로 표시)과 반비례하는 것으로 가정한다, 즉 압축률이 높을수록 음원의 품질은 낮은 것으로 가정한다. 또한 낮은 품질의 음원은 높은 품질의 음원에 대하여 상대적으로 저대역(low frequency band) 데이터인 것으로 가정한다.In the following description, it is assumed that the quality of the sound source is inversely proportional to the extrusion rate of the sound source (expressed in kbps), that is, it is assumed that the higher the compression rate, the lower the quality of the sound source. In addition, it is assumed that a low-quality sound source is relatively low frequency band data for a high-quality sound source.

도 1은 본 발명의 일 실시예에 따른, 모바일 디바이스 상에 구현되는 인공 대역 변환기의 구성도이다.1 is a block diagram of an artificial band converter implemented on a mobile device according to an embodiment of the present invention.

도 1에 예시된 인공 대역 변환기(110)는 입력부(111), 대역폭 확장부(112) 및 출력부(113)의 전부 또는 일부를 포함한다. 여기서, 본 실시예에 따른 인공 대역 변환기(110)에 포함되는 구성요소가 반드시 이에 한정하는 것은 아니다. 예컨대, 인공 대역 변환기(110) 상에 학습 모델의 트레이닝을 위한 트레이닝부(미도시)를 추가로 구비하거나, 외부의 트레이닝부와 연동되는 형태로 구현될 수 있다. The artificial band converter 110 illustrated in FIG. 1 includes all or part of an input unit 111, a bandwidth extension unit 112, and an output unit 113. Here, the components included in the artificial band converter 110 according to the present embodiment are not necessarily limited thereto. For example, artificial band converter 110 On the top, a training unit (not shown) for training a learning model may be additionally provided, or may be implemented in a form interlocked with an external training unit.

입력부(111)는 인공 대역폭 확장(Artificial Bandwidth Extension: ABE)을 수행하는 과정에서 필요한 데이터를 획득하여 ABE에 적절한 형태로 변환한다.The input unit 111 acquires necessary data in a process of performing artificial bandwidth extension (ABE) and converts it into a form suitable for an ABE.

예컨대, 본 실시예에 따른 입력부(111)는 전송된 고압축률의 음원을 스트리밍(streaming) 서비스 시스템으로부터 수신한 후, 주파수 영역(frequency domain)의 데이터로 변환(transformation)한다. 변환 방법으로는 MDCT(Modified Discrete Cosine Transform), FFT(Fast Fourier Transform), 또는 셉스트럼(cepstrum) 변환 등을 사용할 수 있으나, 반드시 이에 한정하는 것은 아니다.For example, the input unit 111 according to the present embodiment receives the transmitted high compression rate sound source from the streaming service system and then transforms it into frequency domain data. Modified Discrete Cosine Transform (MDCT), Fast Fourier Transform (FFT), or cepstrum transformation may be used as the transformation method, but is not limited thereto.

본 실시예에서, 입력부(111)는 고압축률의 음원 스트리밍(streaming) 데이터를 수신한 후, 우선 코덱(codec)을 이용하여 시간 영역(time domain)의 데이터를 합성(synthesis)한다. 시간 영역 데이터의 합성 시에 샘플링 주파수(sampling frequency)는 44.1 KHz를 사용하는 것으로 가정한다. 다음, 시간 영역 상의 음원 데이터에 대하여, 수행 구간을 겹쳐가면서(overlapping and sliding) MDCT를 진행하여 주파수 영역 상의 데이터

Figure pat00001
를 생성한다. In this embodiment, the input unit 111 first synthesizes data in a time domain using a codec after receiving the sound source streaming data having a high compression rate. When synthesizing time domain data, it is assumed that a sampling frequency of 44.1 KHz is used. Next, with respect to the sound source data in the time domain, MDCT is performed while overlapping and sliding the execution section, and the data in the frequency domain
Figure pat00001
Create

예컨대, 본 실시예에서, 고압축률의 음원은 64 kbps, 96 kbps 및 128 kbps 중의 하나로 압축된 음원을 의미하나 반드시 이에 한정하는 것은 아니다. ABE의 목표가 되는 고품질 음원은 320 kbps 음원 혹은 그 등가 품질의 음원을 의미하나 반드시 이에 한정하는 것을 아니며, 고압축률의 음원보다 낮은 압축률을 가지며 스트리밍 서비스에서 제공받을 수 있는 최상의 음질을 갖는 음원 중의 하나일 수 있다.For example, in the present embodiment, a sound source having a high compression rate refers to a sound source compressed by one of 64 kbps, 96 kbps, and 128 kbps, but is not limited thereto. The high-quality sound source targeted by ABE refers to a sound source of 320 kbps or equivalent quality, but is not limited thereto. It has a lower compression rate than a sound source with a high compression rate, and is one of the sound sources with the best sound quality that can be provided by streaming services. I can.

또한, 본 발명의 다른 실시예에 따른 입력부(111)는, 시간 영역 상의 데이터 형태로 기 존재하는 저품질 음원 데이터를 획득할 수 있다.In addition, the input unit 111 according to another embodiment of the present invention may acquire low-quality sound source data that already exists in the form of data in the time domain.

대역폭 확장부(112)는 저품질 음원에 대한 인공 대역 변환을 실행한다. The bandwidth extension unit 112 performs artificial band conversion on a low-quality sound source.

본 실시예에 따른 대역폭 확장부(112)는, 특성추출부(121), 대역에너지 추정부(122) 및 재구성부(123)를 포함한다. 대역폭 확장부(112)는 입력부(111)에 의하여 변환된 주파수 영역의 데이터를 입력으로 받아들인 후, ABE를 실행하여 주파수 영역 상의 데이터로 변환한다. 대역폭 확장부(112)의 구조 및 동작은 추후에 설명하기로 한다.The bandwidth expansion unit 112 according to the present embodiment includes a characteristic extracting unit 121, a band energy estimating unit 122, and a reconstructing unit 123. The bandwidth extension unit 112 receives the data in the frequency domain converted by the input unit 111 as an input, and then converts the data into the frequency domain by executing an ABE. The structure and operation of the bandwidth extension unit 112 will be described later.

출력부(113)는 변환된 음원을 인공 대역 변환기(110)의 사용자에게 청각적인 형태(audible form)로 제공한다.The output unit 113 provides the converted sound source to the user of the artificial band converter 110 in an audible form.

본 실시예에 따른 출력부(113)는, 대역폭 확장부(112)로부터 주파수 영역에서 변형된 데이터를 수신한 후, 합성 과정을 통하여 시간 영역에서의 확장된 음원으로 변환한다. 합성 과정은 IMDCT(Inverse MDCT), IFFT(Inverse FFT), 또는 역셉스트럼(inverse cepstrum) 변환과 같은, 주파수 영역의 데이터를 시간 영역의 데이터로 변환하는 과정을 포함할 수 있다. 최종적으로 시간 영역 상의 확장된 데이터를 청각적인 형태로 출력한다. The output unit 113 according to the present exemplary embodiment receives the modified data in the frequency domain from the bandwidth extension unit 112 and converts it into an extended sound source in the time domain through a synthesis process. The synthesis process may include a process of converting data in the frequency domain into data in the time domain, such as inverse MDCT (IMDCT), inverse FFT (IFFT), or inverse cepstrum transform. Finally, the extended data in the time domain is output in an audible form.

본 실시예에 따른 인공 대역 변환기(110)는 모바일 디바이스(100) 상에 구현될 수 있다. 모바일 디바이스(100)는 전송대역의 제한을 받는 무선 또는 유선 전송로를 이용하여 음원 스트리밍서비스를 제공받을 수 있는 어느 기기든 될 수 있다. The artificial band converter 110 according to the present embodiment may be implemented on the mobile device 100. The mobile device 100 may be any device capable of receiving a sound source streaming service using a wireless or wired transmission path that is limited by a transmission band.

도 2는 본 발명의 일 실시예에 따른 대역폭 확장부의 구성도이다.2 is a block diagram of a bandwidth extension unit according to an embodiment of the present invention.

대역폭 확장부(112)는 저품질 음원에 대한 인공 대역 변환을 실행한다. 대역폭 확장부(112)는 특성추출부(121), 대역에너지 추정부(122) 및 재구성부(123)의 전부 또는 일부를 포함한다. 재구성부(123)는 정규화부(201), 주파수대역 복제부(202, Spectral Band Replication: SBR), 에너지 합성부(203) 및 전대역데이터 추정부(204)를 포함하나, 반드시 이에 한정하는 것은 아니다. 도 2의 도시는 본 실시예에 따른 예시적인 구성이며, 주파수 영역에서의 데이터 처리 기법에 의거하여 다른 구성요소 또는 구성요소 간의 다른 연결을 포함하는 구현이 가능하다.The bandwidth extension unit 112 performs artificial band conversion on a low-quality sound source. The bandwidth extension unit 112 includes all or part of the characteristic extracting unit 121, the band energy estimating unit 122, and the reconfiguration unit 123. The reconstruction unit 123 includes a normalization unit 201, a frequency band replication unit 202 (Spectral Band Replication: SBR), an energy synthesis unit 203, and a full-band data estimation unit 204, but is not limited thereto. . 2 is an exemplary configuration according to the present embodiment, and implementation including other components or other connections between components is possible based on a data processing technique in the frequency domain.

특성추출부(121)는, 입력부(111)에 의하여 변환되어 주파수 영역의 데이터

Figure pat00002
로 표현된 음원 신호를 입력으로 받아들여 부대역(sub-band) 별로 저대역(low frequency band) 에너지를 추출한다. 추출하는 방법은 수학식 1에 따른다. 수학식 1에 따르면 하나의 부대역 에너지를 구하기 위해 SB의 2 배수에 해당하는 주파수 영역의 데이터를 이용하고, 각 부대역은 서로 50 %씩 겹쳐져(overlapping) 있다. 전술한 바와 같은 부대역 에너지를 구하는 방법은 하나의 예시이며, SB 및 수학식 1을 변형하여 다양한 방법으로 부대역 에너지를 구하는 것이 가능하다.The characteristic extraction unit 121 is converted by the input unit 111 Frequency domain data
Figure pat00002
The sound source signal represented by is received as an input and low frequency band energy is extracted for each sub-band. The extraction method is according to Equation 1. According to Equation 1, data in a frequency domain corresponding to a multiple of 2 SB is used to obtain one subband energy, and each subband overlaps each other by 50%. The method of obtaining the subband energy as described above is an example, and it is possible to obtain the subband energy in various ways by modifying the SB and Equation 1.

Figure pat00003
Figure pat00003

Figure pat00004
를 구성요소로 포함하는 저대역 에너지 벡터
Figure pat00005
은 대역에너지 추정부(122)에 입력으로 전달된다. 따라서
Figure pat00006
Figure pat00007
개의 부대역 에너지를 포함하고,
Figure pat00008
은 확장 대상 음원의 압축률에 의존한다.
Figure pat00004
Low-band energy vector containing as components
Figure pat00005
Is transmitted to the band energy estimation unit 122 as an input. therefore
Figure pat00006
silver
Figure pat00007
Contains subband energies,
Figure pat00008
Depends on the compression rate of the sound source to be expanded.

전술한 바와 같이, 본 실시예에서는 주파수 영역의 데이터

Figure pat00009
를 처리하여 축소된 차원의 데이터인 저대역 에너지 벡터를 대역에너지 추정부(122)에 제공함으로써, 대역에너지 추정부(122) 구현 시 복잡도를 감소시키고, 감소된 복잡도에 따라 모바일 디바이스(100) 상에서의 실시간 동작 가능성 및 실시간 동작 성능을 높일 수 있다.As described above, in this embodiment, data in the frequency domain
Figure pat00009
By processing and providing the reduced-dimensional data, the low-band energy vector, to the band energy estimating unit 122, the complexity of implementing the band energy estimating unit 122 is reduced, and on the mobile device 100 according to the reduced complexity. It is possible to increase the real-time operation possibility and real-time operation performance.

대역에너지 추정부(122)는 저대역 에너지

Figure pat00010
을 입력으로 받아들여 고대역(high frequency band) 에너지
Figure pat00011
를 추정한다. 대역에너지 추정부(122)는 저대역 에너지를 고대역 에너지 추정에 직접적으로 이용하기 때문에 주파수 영역 상의 음원 특성을 더 강조하는 고대역 에너지 추정이 가능하다. 대역에너지 추정부(122)는 고대역 에너지 추정을 위하여 트레이닝부에 의하여 기 학습된 신경회로망(Neural Network) 기반의 학습 모델을 이용한다. 학습 모델의 구조 및 학습 모델의 트레이닝 과정은 추후에 설명하기로 한다.The band energy estimating unit 122 is a low band energy
Figure pat00010
Is taken as an input and the high frequency band energy
Figure pat00011
Estimate Since the band energy estimating unit 122 directly uses the low band energy to estimate the high band energy, it is possible to estimate the high band energy that further emphasizes the sound source characteristics in the frequency domain. The band energy estimating unit 122 uses a learning model based on a neural network previously learned by the training unit to estimate high band energy. The structure of the learning model and the training process of the learning model will be described later.

재구성부(123)는 대역에너지 추정부(122)가 추정한 고대역 에너지, 특성추출부(121)가 추출한 저대역 에너지, 및 주파수 영역의 데이터

Figure pat00012
를 이용하여 전대역(full frequency band) 주파수 데이터를 추정한다. The reconstruction unit 123 includes high-band energy estimated by the band energy estimation unit 122, low-band energy extracted by the characteristic extraction unit 121, and data in the frequency domain.
Figure pat00012
Estimate full frequency band frequency data using.

정규화부(201)는 부대역 별로 추출된 저대역 에너지 및 주파수 영역의 데이터를 처리하여 평준화된 저대역 데이터를 생성한다. 평준화를 적용하는 이유는, 주파수대역 복제부(202)에서 상관도(correlation)를 구할 때 발생하는 편차를 축소할 수 있기 때문이다.The normalization unit 201 generates leveled low-band data by processing the low-band energy and frequency-domain data extracted for each sub-band. The reason for applying the leveling is that it is possible to reduce a deviation that occurs when the frequency band replicating unit 202 obtains a correlation.

주파수대역 복제부(202)는 평준화된 저대역 데이터를 이용하여 고대역 데이터를 복원한다. 복원 과정에서는 부대역 순서대로 복원이 이루어지는데, 현재까지 복원된 부대역의 다음(고주파수 방향) 부대역이 복원 대상이 된다. 복원 대상 부대역의 바로 앞에 위치하는 부대역과 가장 상관도가 높은 저주파수 데이터 영역을 찾은 후, 찾아진 영역의 데이터를 복원 대상 부대역에 복사한다. 여기서, 바로 앞에 위치하는 부대역은, 복원 과정의 첫 단계에서는 저대역 내의 마지막 부대역이고, 이후 단계에서는 직전에 복원된 부대역이다. 주파수대역 복제부(202)는 복원된 고대역 데이터와 평준화된 저대역 데이터를 합성하여 평준화된 전대역 데이터

Figure pat00013
를 생성한다.The frequency band replicating unit 202 restores high band data by using the leveled low band data. In the restoration process, restoration is performed in the order of subbands, and the next (high frequency direction) subband of the subband restored to the present is the restoration target. Of the subband to be restored After just found a bag in front of the station and the correlation data with a high degree of low frequency region, thereby copying the data in the found area to target restored sub-band. Here, the subband immediately preceding is the last subband within the low band in the first stage of the restoration process, and the subband restored immediately before in the subsequent stages. The frequency band replicating unit 202 synthesizes the restored high-band data and the leveled low-band data to obtain leveled full-band data.
Figure pat00013
Create

한편, 에너지 합성부(203)는 대역에너지 추정부(122)가 추정한 고대역 에너지

Figure pat00014
와 특성추출부(121)에서 추출한 저대역 에너지
Figure pat00015
을 합성하여 전대역 에너지
Figure pat00016
를 생성한다.On the other hand, the energy synthesis unit 203 is the high-band energy estimated by the band energy estimation unit 122
Figure pat00014
And low-band energy extracted from the characteristic extraction unit 121
Figure pat00015
By synthesizing the full-band energy
Figure pat00016
Create

전대역데이터 추정부(204)는 평준화된 전대역 데이터

Figure pat00017
과 전대역 에너지
Figure pat00018
를 곱하여 전대역 주파수 데이터
Figure pat00019
를 추정한다. 주파수 영역에서의 곱셈을 수행하므로, 시간 영역에서의 콘볼루션(convolution) 과정을 수행하는 것과 동일하다. 따라서 곱셈 과정은 평준화된 주파수 데이터를 부대역 별 에너지에 해당하는 계수를 갖는 필터를 이용하여 필터링하는 것과 동일한 과정이며, 달리 말하면 평준화된 전대역 데이터를 전대역 에너지로 마스킹(masking)하는 과정이다. The full-band data estimating unit 204 is standardized full-band data
Figure pat00017
And full-band energy
Figure pat00018
Multiply by the full-band frequency data
Figure pat00019
Estimate Since multiplication is performed in the frequency domain, it is the same as performing a convolution process in the time domain. Therefore, the multiplication process is the same process as filtering the leveled frequency data using a filter having a coefficient corresponding to the energy of each subband, in other words, a process of masking the leveled full-band data with full-band energy.

도 3은 본 발명의 일 실시예에 따른 고대역 에너지 추정을 위한 학습 모델의 구조도이다.3 is a structural diagram of a learning model for estimating high-band energy according to an embodiment of the present invention.

도 3에 표시된 학습 모델은 딥러닝(deep learning) 모델을 기반으로 한다. 이하 도 3을 참조하여, 본 실시예에 따른 딥러닝 모델의 구조 및 학습 과정을 설명한다. The learning model shown in FIG. 3 is based on a deep learning model. Hereinafter, a structure and a learning process of the deep learning model according to the present embodiment will be described with reference to FIG . 3.

딥러닝 모델은 입력 레이어(input layer), 3 개의 전연결 레이어(fully-connected layer 또는 dense layer, 이하 제1 전연결 레이어, 제2 전연결 레이어 및 제3 전연결 레이어) 및 출력 레이어(output layer)를 포함하나, 반드시 이에 한정하는 것은 아니며, 트레이닝에 소요되는 시간, 대역에너지 추정부(122)의 성능 및 실시한 구현 가능성 등에 따라 각 레이어를 구성하는 노드의 개수, 노드의 출력에 대한 활성 함수(activation function) 및 전연결 레이어의 개수 등에 대한 구조 변형이 가능하다.The deep learning model includes an input layer, three fully-connected layers (fully-connected layer or dense layer, hereinafter referred to as a first fully-connected layer, a second fully-connected layer, and a third fully-connected layer), and an output layer. ), but is not necessarily limited thereto, and the number of nodes constituting each layer according to the time required for training, the performance of the band energy estimator 122, and the implemented implementation possibility, and the activation function for the output of the node ( activation function) and the number of all connection layers.

본 실시예에 따른 딥러닝 모델은 64k bps, 96 kbps 및 128 kbps의 음원 압축률에 따라, 각기 정해진 11, 16 및 23 개의 부대역 에너지 입력에 대해 31 개의 부대역 에너지를 출력한다. 따라서 입력 레이어는 11, 16 및 23 개의 부대역 에너지 입력에 해당하는 수(

Figure pat00020
)만큼의 노드(node)로 구성되는 한편, 출력 레이어는 31 개의 부대역 에너지에 해당하는 31 개(
Figure pat00021
)의 노드를 포함한다. 전연결 레이어는 연결되는 이전 레이어와 전연결(fully-connected)된다. 따라서, 도 3의 도시에서 입력 레이어는 이어지는 제1 및 제3 전연결 레이어와 전연결되나, 제2 및 제3 전연결 레이어의 출력은 뒷단의 출력 레이어에서 단순히 합성된다. The deep learning model according to this embodiment outputs 31 subband energies for 11, 16 and 23 subband energy inputs, respectively, according to sound source compression rates of 64k bps, 96 kbps and 128 kbps. Thus, the input layer has a number corresponding to 11, 16 and 23 subband energy inputs (
Figure pat00020
), while the output layer is composed of 31 subband energies.
Figure pat00021
) Of the node. The fully-connected layer is fully-connected with the previous layer to which it is connected. Accordingly, in the illustration of FIG. 3, the input layer is pre-connected with the subsequent first and third pre-connected layers, but the outputs of the second and third pre-connected layers are simply synthesized in the output layer at the rear end.

제1 전연결 레이어는 은닉층(hidden layer)으로 작용하고, 64개의 노드를 포함하며 31개의 노드를 포함하는 제2 전연결 레이어와 전연결된다. 제1 및 제2 전연결 레이어는 서로 직렬로 연결되어 고대역 에너지를 추정한다. 한편, 제3 전연결 레이어는 출력 레이어와 같은 수의 노드를 포함하고 제1 및 제2 전연결 레이어와는 병렬로 입력 레이어와 출력 레이어를 연결한다. 따라서, 제3 전연결 레이어는 숏컷(shortcut) 경로를 형성하여 고대역 에너지와 연관성이 높은 저대역 에너지의 정보를 출력 측으로 전달함으로써 고대역 에너지를 재귀적으로(recursively) 추정하는 것을 보조한다. The first full connection layer acts as a hidden layer, includes 64 nodes, and is fully connected to the second full connection layer including 31 nodes. The first and second all-connected layers are connected in series to each other to estimate high-band energy. Meanwhile, the third pre-connected layer includes the same number of nodes as the output layer and connects the input layer and the output layer in parallel with the first and second pre-connected layers. Accordingly, the third pre-connected layer assists in recursively estimating high-band energy by forming a shortcut path and transferring information of low-band energy, which is highly correlated with high-band energy, to the output side.

앞에서 기술한 바와 같은 딥러닝 모델의 동작은 수학식 2로 표현될 수 있다.The operation of the deep learning model as described above can be expressed by Equation 2.

Figure pat00022
Figure pat00022

여기서 입력 벡터 x는 저대역 에너지

Figure pat00023
이고,
Figure pat00024
는 i 레이어와 j 레이 어 사이의 전연결 가중치 행렬(weight matrix),
Figure pat00025
는 i 레이어와 j 레이어 사이의 편향치 벡터(bias vector),
Figure pat00026
는 k 레이어의 출력 벡터를 나타낸다. Where the input vector x is the low-band energy
Figure pat00023
ego,
Figure pat00024
Is the total connection weight matrix between the i layer and the j layer,
Figure pat00025
Is the bias vector between layer i and layer j,
Figure pat00026
Denotes the output vector of the k-layer.

이하 트레이닝부(미도시)에 의한 딥러닝 모델의 트레이닝 과정을 설명한다. 먼저 고음질 음원(예컨대, 320 kbps로 압축된 음원)에 본 발명에 따른 전처리 과정을 적용하여 타겟(target) 데이터

Figure pat00027
를 생성한다. 여기서 전처리 과정은 압축된 음원을 시간 영역 상의 데이터로 합성하는 과정, 시간 영역의 데이터를 주파수 영역의 데이터로 변환하는 과정, 및 주파수 영역의 데이터를 이용하여 부대역 별 대역 에너지를 추출하는 과정 등을 포함한다. Hereinafter, a training process of the deep learning model by the training unit (not shown) will be described. First, target data by applying the preprocessing process according to the present invention to a high-quality sound source (eg, a sound source compressed to 320 kbps)
Figure pat00027
Create Here, the pre-processing process includes a process of synthesizing the compressed sound source into time domain data, a process of converting time domain data into frequency domain data, and a process of extracting band energy for each subband using the frequency domain data. Includes.

다음, 고음질 음원에 해당하는 저품질의 학습용 음원(예컨대, 64 kbps, 96 kbps 또는 128 kbps로 압축된 음원)의 저대역 에너지

Figure pat00028
을 대역에너지 추정부(122)에 입력하여 전대역 에너지 출력
Figure pat00029
를 산정한다. 트레이닝부는 타겟 데이터
Figure pat00030
와 딥러닝 모델의 출력
Figure pat00031
간의 거리 메트릭에 기반하여 딥러닝 모델의 파라미터를 업데이트한다. 여기서 거리 메트릭은 L1 및 L2 메트릭 등, 두 비교 대상 간의 메트릭 거리 차이를 표현할 수 있는 것이면 어느 것이든 이용 가능하다.Next, the low-band energy of a low-quality learning sound source (e.g., a sound source compressed to 64 kbps, 96 kbps or 128 kbps) corresponding to a high-quality sound source
Figure pat00028
Input to the band energy estimating unit 122 to output full band energy
Figure pat00029
Calculate Training department target data
Figure pat00030
And the output of the deep learning model
Figure pat00031
The parameters of the deep learning model are updated based on the distance metric between them. Here, any distance metric, such as an L1 and an L2 metric, can be used as long as it can express the difference in the metric distance between the two comparison targets.

딥러닝 모델에 대한 트레이닝 효율을 높이기 위해 각 노드의 값을 표현하는 에너지는 로그함수를 적용하여 사용한다. 에너지에 로그함수가 적용되었으므로 음수 값이 나타날 수 있다. 따라서, 트레이닝 과정에서 음수 값의 영향을 적절하게 반영하기 위해 도 3에 도시된 바대로 활성 함수 ELU(Exponential Linear Unit)를 전연결 레이어의 출력에 적용한다. In order to increase the training efficiency for the deep learning model, the energy representing the value of each node is used by applying a log function. Since the logarithmic function is applied to the energy, negative values may appear. Therefore, in order to properly reflect the influence of negative values in the training process, the active function Exponential Linear Unit (ELU) is applied to the output of the all-connected layer as shown in FIG. 3.

도 2 및 수학식 2에 따르면, 딥러닝 모델의 출력이 전대역 에너지가 아니라 고대역 에너지

Figure pat00032
로 표기되어 있다. 그 이유는 트레이닝 과정이 아닌 대역폭확대부(112)의 일부로 동작 시, 딥러닝 모델이 고대역 에너지를 추정하는 것을 표현하기 위함이다. 전술한 바와 같이 트레이닝 과정에서는 전대역에 대한 타겟 데이터가 존재하므로 전대역 에너지를 추정하도록 트레이닝하는 것이 가능하다. 그러나 대역폭확대부(112)의 일부로 동작 시, 딥러닝 모델의 입력으로 저대역 에너지가 추출되므로, 추출된 저대역 에너지를 재활용하는 것이 합리적이다. 따라서 딥러닝 모델이 대역폭확대부(112)의 일부로 동작 시에는 딥러닝 모델이 구한 전대역 에너지 중, 고대역 에너지에 해당하는 부분만을 사용한다. 2 and Equation 2, the output of the deep learning model is not full-band energy, but high-band energy
Figure pat00032
It is marked as. The reason is to express that the deep learning model estimates high-band energy when operating as a part of the bandwidth expansion unit 112 rather than a training process. As described above, in the training process, since target data for the full band exists, it is possible to train to estimate the full band energy. However, when operating as a part of the bandwidth expansion unit 112, since low-band energy is extracted as an input of the deep learning model, it is reasonable to recycle the extracted low-band energy. Therefore, when the deep learning model operates as a part of the bandwidth expansion unit 112, only a portion corresponding to the high-band energy is used among the full-band energy obtained by the deep learning model.

본 실시예에 따른 인공 대역 변환기(110)가 탑재되는 모바일 디바이스(100)는 프로그램가능 컴퓨터일 수 있으며, 서버(미도시)와 연결이 가능한 적어도 한 개의 통신 인터페이스를 포함한다. The mobile device 100 on which the artificial band converter 110 according to the present embodiment is mounted may be a programmable computer and includes at least one communication interface capable of being connected to a server (not shown).

전술한 바와 같은 학습 모델에 대한 트레이닝은 서버에서 진행될 수 있다. 모바일 디바이스(100) 상에 탑재된 학습 모델과 동일한 구조의 딥러닝 모델에 대하여 서버의 트레이닝부는 트레이닝을 수행할 수 있다. 모바일 디바이스(100)와 연결되는 통신 인터페이스를 이용하여 서버는 트레이닝된 파라미터를 모바일 디바이스(100)로 전달하고, 전달받은 파라미터를 이용하여 인공 대역 변환기(110)는 학습 모델의 파라미터를 업데이트할 수 있다. 또한 모바일 디바이스(100) 출하 시점 또는 인공 대역 변환기(110)가 모바일 디바이스(100)에 탑재되는 시점에, 학습 모델의 파라미터가 설정될 수 있다. Training on the learning model as described above may be performed in the server. The training unit of the server may perform training on the deep learning model having the same structure as the learning model mounted on the mobile device 100. Using a communication interface connected to the mobile device 100, the server transmits the trained parameters to the mobile device 100, and the artificial band converter 110 may update the parameters of the learning model using the received parameters. . In addition, when the mobile device 100 is shipped or when the artificial band converter 110 is mounted on the mobile device 100, a parameter of the learning model may be set.

도 4는 본 발명의 일 실시예에 따른 인공 대역 변환방법에 대한 순서도이다.4 is a flowchart of an artificial band conversion method according to an embodiment of the present invention.

도 4에 도시된 순서도에서는, 대역폭확대부(112)가 수행하는 인공 대역 변환방법 위주로 표현하기 위해 도 1에 도시된 바에 따른 입력부(111) 및 출력부(113)가 수행하는 과정을 생략하였다. 또한 순서도의 각 과정을 기술함에 있어, 각 과정을 수행하는 대역폭확대부(112)의 구성요소에 대한 기술도, 도 2에 대한 설명에서 다루었으므로 더 이상의 상세한 설명은 생략한다. In the flowchart illustrated in FIG. 4, the process performed by the input unit 111 and the output unit 113 as illustrated in FIG. 1 is omitted to mainly express the artificial band conversion method performed by the bandwidth expansion unit 112. In addition, in describing each process in the flow chart, a description of the components of the bandwidth expansion unit 112 performing each process is also covered in the description of FIG. 2, and thus further detailed description thereof will be omitted.

먼저, 주파수 영역의 데이터를 이용하여 부대역 별로 저대역 에너지를 추출하고(S401), 저대역 에너지를 대역에너지 추정부(122)에 입력하여 고대역 에너지를 추정한 후(S402), 저대역 에너지 및 주파수 영역의 데이터를 처리하여 평준화된 저대역 데이터를 생성한다(S403).First, the low-band energy is extracted for each sub-band using the data in the frequency domain (S401), and the high-band energy is estimated by inputting the low-band energy into the band energy estimating unit 122 (S402), and then the low-band energy And processing the data in the frequency domain to generate leveled low-band data (S403).

다음, 평준화된 저대역 데이터를 이용하여 고대역 데이터를 복원한 후, 복원된 고대역 데이터와 평준화된 저대역 데이터를 합성하여 평준화된 전대역 데이터를 생성한다(S404).Next, after restoring high-band data using the leveled low-band data, the restored high-band data and the leveled low-band data are synthesized to generate leveled full-band data (S404).

다음, 대역에너지 추정부(122)가 추정한 고대역 에너지와 특성추출부(121)에서 추출한 저대역 에너지를 합성하여 전대역 에너지를 생성한 후, 평준화된 전대역 데이터와 전대역 에너지를 곱하여 전대역 주파수 데이터를 추정한다(S405).Next, after generating full-band energy by synthesizing the high-band energy estimated by the band energy estimating unit 122 and the low-band energy extracted from the characteristic extracting unit 121, the full-band frequency data is multiplied by the normalized full-band data and the full-band energy. It is estimated (S405).

이하 본 실시예에 따른 인공 대역 변환장치의 성능을 평가한 결과를 설명한다. 평가 및 학습에는 고전음악, 케이팝(K-pop) 및 팝음악 등을 압축한 음원을 사용하였다. 전술한 트레이닝 방법을 적용하여 본 실시예에 따른 대역에너지 추정부(122)를 트레이닝시킨 후, 동일한 평가용 음원을 이용하여 일반적인 HMM 기반의 추정 방식과 SNR 측정 결과를 비교하였다. 측정된 SNR은 20.8 dB로서, HMM 기반의 추정 방식에서 측정된 17.5 dB와 대비하여 더 우수한 성능을 보였다.Hereinafter, a result of evaluating the performance of the artificial band converter according to the present embodiment will be described. Compressed sound sources such as classical music, K-pop and pop music were used for evaluation and learning. After training the band energy estimating unit 122 according to the present embodiment by applying the above-described training method, a general HMM-based estimation method and SNR measurement results were compared using the same sound source for evaluation. The measured SNR is 20.8 dB, which shows better performance compared to the 17.5 dB measured in the HMM-based estimation method.

이상에서 설명한 바와 같이 본 실시예에 의하면, 전송 채널의 제약으로 인하여 고압축률로 압축되어 전송된 저품질의 음원 데이터를 고품질 음원 신호로 변형하기 위하여, 학습 모델 기반의 에너지 추정 방법을 이용하는 인공 대역 변환장치 및 방법을 제공함으로써, 모바일 디바이스에서 고품질 음원과 등가의 음질을 서비스하여 사용자의 만족도를 높이는 효과가 있다. As described above, according to the present embodiment, in order to transform low-quality sound source data compressed at a high compression rate and transmitted into a high-quality sound source signal due to the limitation of a transmission channel, an artificial band converter using an energy estimation method based on a learning model. And by providing a method, there is an effect of increasing user satisfaction by providing sound quality equivalent to a high-quality sound source in a mobile device.

본 실시예에 따른 각 순서도에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 순서도에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것이 적용 가능할 것이므로, 순서도는 시계열적인 순서로 한정되는 것은 아니다.Each flow chart according to the present embodiment describes that each process is sequentially executed, but is not limited thereto. In other words, since it may be applicable to change and execute the processes described in the flow chart or execute one or more processes in parallel, the flow chart is not limited to a time series order.

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터-판독가능 매체"에 저장된다. Various implementations of the systems and techniques described herein include digital electronic circuits, integrated circuits, field programmable gate arrays (FPGAs), application specific integrated circuits (ASICs), computer hardware, firmware, software, and/or their It can be realized in combination. Various such implementations may include being implemented as one or more computer programs executable on a programmable system. The programmable system includes at least one programmable processor (which may be a special purpose processor) coupled to receive data and instructions from and transmit data and instructions to and from a storage system, at least one input device, and at least one output device. Or a general purpose processor). Computer programs (which are also known as programs, software, software applications or code) contain instructions for a programmable processor and are stored on a "computer-readable medium".

컴퓨터-판독가능 매체는, 명령어들 및/또는 데이터를 프로그래밍가능 프로세서에게 제공하기 위해 사용되는, 임의의 컴퓨터 프로그램 제품, 장치, 및/또는 디바이스(예를 들어, CD-ROM, ROM, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성 또는 비일시적인 기록매체)를 나타낸다. A computer-readable medium is any computer program product, apparatus, and/or device (e.g., CD-ROM, ROM, memory card, It represents a nonvolatile or non-transitory recording medium such as a hard disk, magneto-optical disk, and storage device).

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 프로그램가능 컴퓨터에 의하여 구현될 수 있다. 여기서, 컴퓨터는 프로그램가능 프로세서, 데이터 저장 시스템(휘발성 메모리, 비휘발성 메모리, 또는 다른 종류의 저장 시스템이거나 이들의 조합을 포함함) 및 적어도 한 개의 커뮤니케이션 인터페이스를 포함한다. 예컨대, 프로그램가능 컴퓨터는 서버, 네트워크 기기, 셋탑 박스, 내장형 장치, 컴퓨터 확장 모듈, 개인용 컴퓨터, 랩탑, PDA(Personal Data Assistant), 클라우드 컴퓨팅 시스템 또는 모바일 장치 중 하나일 수 있다.Various implementations of the systems and techniques described herein may be implemented by a programmable computer. Here, the computer includes a programmable processor, a data storage system (including volatile memory, nonvolatile memory, or other types of storage systems or combinations thereof), and at least one communication interface. For example, the programmable computer may be one of a server, a network device, a set-top box, an embedded device, a computer expansion module, a personal computer, a laptop, a personal data assistant (PDA), a cloud computing system, or a mobile device.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical idea of the present embodiment, and those of ordinary skill in the technical field to which the present embodiment belongs will be able to make various modifications and variations without departing from the essential characteristics of the present embodiment. Accordingly, the present embodiments are not intended to limit the technical idea of the present embodiment, but to explain the technical idea, and the scope of the technical idea of the present embodiment is not limited by these embodiments. The scope of protection of this embodiment should be interpreted by the following claims, and all technical ideas within the scope equivalent thereto should be interpreted as being included in the scope of the present embodiment.

100: 모바일 디바이스 110: 인공 대역 변환기
111: 입력부 112: 대역폭 확장부
113: 출력부 121: 특성추출부
122: 대역에너지 추정부 123: 재구성부
100: mobile device 110: artificial band converter
111: input unit 112: bandwidth extension unit
113: output unit 121: characteristic extraction unit
122: band energy estimation unit 123: reconstruction unit

Claims (13)

저품질 신호에 대응하는 주파수 영역의 데이터를 획득하여 부대역(sub-band) 별로 저대역(low frequency band) 에너지를 추출하는 특성추출부;
사전에 트레이닝된 학습형 연산 모델을 포함하고, 상기 저대역 에너지를 상기 학습형 연산 모델에 입력하여 고대역(high frequency band) 에너지를 추정하는 대역에너지 추정부; 및
상기 고대역 에너지, 상기 저대역 에너지 및 상기 주파수 영역의 데이터를 이용하여 고품질 전대역(full frequency band) 데이터를 추정하는 재구성부
를 포함하는 것을 특징으로 하는 인공 대역 변환장치.
A characteristic extracting unit that obtains data in a frequency domain corresponding to a low-quality signal and extracts low frequency band energy for each sub-band;
A band energy estimating unit including a pre-trained learning-type calculation model, and estimating a high frequency band energy by inputting the low-band energy into the learning-type calculation model; And
Reconstruction unit for estimating high-quality full frequency band data using the high-band energy, the low-band energy, and data in the frequency domain
Artificial band converter comprising a.
제1항에 있어서,
상기 특성추출부는,
상기 주파수 영역의 데이터에 대비하여 축소된 차원의 저대역 에너지를 추출하는 것을 특징으로 하는 인공 대역 변환장치.
The method of claim 1,
The characteristic extracting unit,
An artificial band converter, characterized in that for extracting a reduced-dimensional low-band energy compared to the data in the frequency domain.
제1항에 있어서,
상기 학습형 연산 모델은 딥러닝(deep learning) 모델로서, 동일 음원 신호로부터 추출된 주파수 영역의 고품질 전대역 에너지 및 주파수 영역의 저품질 저대역 에너지 각각을 타겟(target) 및 입력으로 이용하여 사전에 트레이닝되는 것을 특징으로 하는 인공 대역 변환장치.
The method of claim 1,
The learning-type computational model is a deep learning model, which is pre-trained using each of the high-quality full-band energy in the frequency domain and low-quality low-band energy in the frequency domain extracted from the same sound source signal as targets and inputs. Artificial band converter, characterized in that.
제3항에 있어서,
상기 딥러닝 모델은,
복수의 전연결 레이어 중 하나의 전연결 레이어를 제외한 나머지 전연결 레이어가 입력 레이어와 출력 레이어 사이에서 서로 직렬로 연결되는 것을 특징으로 하는 인공 대역 변환장치.
The method of claim 3,
The deep learning model,
An artificial band converter, characterized in that the all-connected layers other than one of the plurality of all-connected layers are connected in series between the input layer and the output layer.
제4항에 있어서,
상기 딥러닝 모델은,
상기 하나의 전연결 레이어가 상기 입력 레이어와 상기 출력 레이어를 연결하여 상기 고대역 에너지와 연관성이 높은 저대역 에너지의 정보를 상기 출력 레이어 측으로 전달하는 것을 특징으로 하는 인공 대역 변환장치.
The method of claim 4,
The deep learning model,
Wherein the one full connection layer connects the input layer and the output layer to transmit information on the low-band energy having a high correlation with the high-band energy to the output layer.
제4항에 있어서,
상기 딥러닝 모델은,
상기 복수의 전연결 레이어의 출력에 적용되는 활성 함수(activation function)로서 ELU(Exponential Linear Unit)를 사용하는 것을 특징으로 하는 인공 대역 변환장치.
The method of claim 4,
The deep learning model,
An artificial band converter, characterized in that an ELU (Exponential Linear Unit) is used as an activation function applied to the outputs of the plurality of all connection layers.
제1항에 있어서,
상기 재구성부는,
상기 저대역 에너지 및 상기 주파수 영역의 데이터를 처리하여 평준화된 저대역 데이터를 생성하는 정규화부;
상기 평준화된 저대역 데이터를 이용하여 평준화된 전대역 데이터를 생성하는 주파수대역 복제부;
상기 고대역 에너지와 상기 저대역 에너지를 합성하여 전대역 에너지를 생성하는 에너지 합성부; 및
상기 평준화된 전대역 데이터 및 상기 전대역 에너지를 처리하여 상기 고품질 전대역 데이터를 추정하는 전대역데이터 추정부
를 포함하는 것을 특징으로 하는 인공 대역 변환장치.
The method of claim 1,
The reconstruction unit,
A normalization unit for generating leveled low-band data by processing the low-band energy and data in the frequency domain;
A frequency band replicating unit generating leveled full-band data by using the leveled low-band data;
An energy synthesis unit for synthesizing the high-band energy and the low-band energy to generate full-band energy; And
A full-band data estimating unit for estimating the high-quality full-band data by processing the leveled full-band data and the full-band energy
Artificial band converter comprising a.
제7항에 있어서,
상기 주파수대역 복제부는,
상기 평준화된 저대역 데이터 간의 상관도에 기반하여 상기 고대역 데이터를 복원한 후, 복원된 고대역 데이터와 상기 평준화된 저대역 데이터를 합성하여 상기 평준화된 전대역 데이터를 생성하는 것을 특징으로 하는 인공 대역 변환장치.
The method of claim 7,
The frequency band replicating unit,
An artificial band, characterized in that after restoring the high-band data based on a correlation between the leveled low-band data, and synthesizing the restored high-band data and the leveled low-band data to generate the leveled full-band data. Inverter.
제7항에 있어서,
상기 에너지 합성부는,
상기 대역에너지 추정부가 추정한 고대역 에너지와 상기 특성추출부에서 추출한 저대역 에너지를 합성하여 상기 전대역 에너지를 생성하는 것을 특징으로 하는 인공 대역 변환장치.
The method of claim 7,
The energy synthesis unit,
And generating the full-band energy by synthesizing the high-band energy estimated by the band energy estimating unit and the low-band energy extracted by the feature extracting unit.
제7항에 있어서,
상기 전대역데이터 추정부는,
주파수 영역에서의 곱셈을 이용하여 상기 평준화된 전대역 데이터를 상기 전대역 에너지로 마스킹(masking)함으로써 상기 고품질 전대역 데이터를 추정하는 것을 특징으로 하는 인공 대역 변환장치.
The method of claim 7,
The full-band data estimation unit,
By masking the normalized full-band data with the full-band energy using multiplication in the frequency domain, And estimating the high-quality full-band data.
인공 대역 변환장치의 인공 대역 변환방법에 있어서,
저품질의 주파수 영역 데이터를 이용하여 부대역(sub-band) 별로 저대역(low frequency band) 에너지를 추출하는 과정:
상기 저대역 에너지를 사전에 트레이닝된 학습 모델에 입력하여 고대역 에너지(high frequency band)를 추정하는 과정;
상기 저대역 에너지 및 상기 주파수 영역의 데이터를 이용하여 평준화된 전대역(full frequency band) 데이터를 생성하는 과정; 및
상기 고대역 에너지와 상기 저대역 에너지를 합성하여 전대역 에너지를 생성한 후, 상기 평준화된 전대역 데이터와 상기 전대역 에너지를 처리하여 고품질 전대역 데이터를 추정하는 과정
을 포함하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 인공 대역 변환방법.
In the artificial band conversion method of the artificial band conversion device,
Process of extracting low frequency band energy for each sub-band using low quality frequency domain data:
Estimating a high frequency band by inputting the low band energy into a pre-trained learning model;
Generating normalized full frequency band data by using the low-band energy and data in the frequency domain; And
The process of estimating high-quality full-band data by synthesizing the high-band energy and the low-band energy to generate full-band energy, and then processing the leveled full-band data and the full-band energy
Characterized in that it comprises a, artificial band conversion method implemented on a computer.
제11항에 있어서,
상기 고대역 에너지를 추정하는 과정은,
동일 음원 신호로부터 추출된 주파수 영역의 고품질 전대역 에너지 및 주파수 영역의 저품질 저대역 에너지를 기반으로 사전에 트레이닝되는 상기 학습 모델을 이용하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 인공 대역 변환방법.
The method of claim 11,
The process of estimating the high-band energy,
An artificial band transformation method implemented on a computer, characterized by using the learning model that is pre-trained based on high-quality full-band energy in the frequency domain and low-quality low-band energy in the frequency domain extracted from the same sound source signal.
제11항 및 제12항에 따른 인공 대역 변환방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는, 비휘발성 또는 비일시적인 기록매체에 저장된 컴퓨터프로그램.
A computer program stored in a computer-readable, nonvolatile or non-transitory recording medium to execute each step of the artificial band conversion method according to claims 11 and 12.
KR1020190115686A 2019-09-19 2019-09-19 Method and Apparatus for Artificial Band Conversion Based on Learning Model KR102308077B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190115686A KR102308077B1 (en) 2019-09-19 2019-09-19 Method and Apparatus for Artificial Band Conversion Based on Learning Model
KR1020210126252A KR102427874B1 (en) 2019-09-19 2021-09-24 Method and Apparatus for Artificial Band Conversion Based on Learning Model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190115686A KR102308077B1 (en) 2019-09-19 2019-09-19 Method and Apparatus for Artificial Band Conversion Based on Learning Model

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020210126252A Division KR102427874B1 (en) 2019-09-19 2021-09-24 Method and Apparatus for Artificial Band Conversion Based on Learning Model

Publications (2)

Publication Number Publication Date
KR20210033852A true KR20210033852A (en) 2021-03-29
KR102308077B1 KR102308077B1 (en) 2021-10-01

Family

ID=75250021

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020190115686A KR102308077B1 (en) 2019-09-19 2019-09-19 Method and Apparatus for Artificial Band Conversion Based on Learning Model
KR1020210126252A KR102427874B1 (en) 2019-09-19 2021-09-24 Method and Apparatus for Artificial Band Conversion Based on Learning Model

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020210126252A KR102427874B1 (en) 2019-09-19 2021-09-24 Method and Apparatus for Artificial Band Conversion Based on Learning Model

Country Status (1)

Country Link
KR (2) KR102308077B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102308077B1 (en) * 2019-09-19 2021-10-01 에스케이텔레콤 주식회사 Method and Apparatus for Artificial Band Conversion Based on Learning Model

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180002910A (en) * 2014-02-07 2018-01-08 코닌클리케 필립스 엔.브이. Improved frequency band extension in an audio signal decoder

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102308077B1 (en) * 2019-09-19 2021-10-01 에스케이텔레콤 주식회사 Method and Apparatus for Artificial Band Conversion Based on Learning Model

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180002910A (en) * 2014-02-07 2018-01-08 코닌클리케 필립스 엔.브이. Improved frequency band extension in an audio signal decoder

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
비특허문헌 1: ITU-T (January 2007). "G.729: Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (CS-ACELP)"

Also Published As

Publication number Publication date
KR20210133170A (en) 2021-11-05
KR102427874B1 (en) 2022-08-01
KR102308077B1 (en) 2021-10-01

Similar Documents

Publication Publication Date Title
Qian et al. Speech Enhancement Using Bayesian Wavenet.
Huang et al. Singing-Voice Separation from Monaural Recordings using Deep Recurrent Neural Networks.
CN108447495B (en) Deep learning voice enhancement method based on comprehensive feature set
JP4810422B2 (en) Encoding device, decoding device, and methods thereof
JP5127754B2 (en) Signal processing device
WO2011128723A1 (en) Audio communication device, method for outputting an audio signal, and communication system
CN107293306B (en) A kind of appraisal procedure of the Objective speech quality based on output
Dubey et al. Non-intrusive speech quality assessment using several combinations of auditory features
Karbasi et al. Twin-HMM-based non-intrusive speech intelligibility prediction
JP6439682B2 (en) Signal processing apparatus, signal processing method, and signal processing program
Seo et al. A maximum a posterior-based reconstruction approach to speech bandwidth expansion in noise
Valente Multi-stream speech recognition based on Dempster–Shafer combination rule
Pandey et al. Monoaural Audio Source Separation Using Variational Autoencoders.
Dwijayanti et al. Enhancement of speech dynamics for voice activity detection using DNN
KR102427874B1 (en) Method and Apparatus for Artificial Band Conversion Based on Learning Model
Selvi et al. Hybridization of spectral filtering with particle swarm optimization for speech signal enhancement
Zhou et al. A novel BNMF-DNN based speech reconstruction method for speech quality evaluation under complex environments
JP5443547B2 (en) Signal processing device
Raj et al. Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients
KR20210033853A (en) Method and Apparatus for Audio Band Conversion Based on U-Net
CN103971697B (en) Sound enhancement method based on non-local mean filtering
JP4766559B2 (en) Band extension method for music signals
You et al. Sparse representation with optimized learned dictionary for robust voice activity detection
Venkatesan et al. Deep recurrent neural networks based binaural speech segregation for the selection of closest target of interest
Razani et al. A reduced complexity MFCC-based deep neural network approach for speech enhancement

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant