KR101986905B1

KR101986905B1 - 신호 분석 및 딥 러닝 기반의 오디오 음량 제어 방법 및 시스템

Info

Publication number: KR101986905B1
Application number: KR1020170143038A
Authority: KR
Inventors: 조충상; 이영한
Original assignee: 전자부품연구원
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2019-06-07
Also published as: US10819301B2; US20190131948A1; KR20190048248A

Abstract

신호 분석 및 딥 러닝 기반의 오디오 음량 제어 방법 및 시스템이 제공된다. 본 발명의 실시예에 따른 오디오 음량 제어 방법은, 신호 분석 기반으로 오디오 특성을 프레임 단위로 분석하고, 학습 기반으로 오디오 특성을 프레임 단위로 분석하며, 분석결과들을 조합하여 프레임 단위로 오디오의 음량을 제어한다. 이에 의해, 오디오 특성 분석의 신뢰성을 높여 오디오 음량 제어의 최적화가 가능해진다.

Description

신호 분석 및 딥 러닝 기반의 오디오 음량 제어 방법 및 시스템{Audio Loudness Control Method and System based on Signal Analysis and Deep Learning}

본 발명은 오디오 신호 처리 기술에 관한 것으로, 더욱 상세하게는 방송 컨텐츠를 구성하는 오디오의 음량을 자동으로 제어하는 방법 및 시스템에 관한 것이다.

도 1은 종래의 오디오 음량 자동 제어 시스템을 도시한 도면이다. 종래의 오디오 음량 제어 시스템은, 도 1에 도시된 바와 같이, 음량(LouDness) 측정부(10) 및 음량 제어부(20)를 포함한다.

음량 측정부(10)는 신호 분석을 통해 입력된 오디오의 음량을 측정하고, 음량 제어부(20)는 음량 측정부(10)에서 측정된 음량과 목표 음량을 비교하여 입력된 오디오의 음량을 자동으로 제어한다.

하지만, 오디오 신호가 독특한 특성을 갖는 경우에는, 신호 분석을 통해서도 오디오 특성을 정확하게 파악하지 못할 수 있으며, 이는 부적절한 음량 제어의 결과로 이어진다.

이에, 다양한 오디오 신호에 대해 적정의 특성 분석을 통한, 최적의 음량 제어를 위한 방안의 모색이 요청된다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 오디오 특성 분석의 신뢰성을 높여 최적으로 오디오 음량을 제어하기 위한 방안으로, 신호 분석 및 딥 러닝 기반의 오디오 음량 제어 방법 및 시스템을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 오디오 음량 제어 방법은, 신호 분석 기반으로 오디오 특성을 프레임 단위로 분석하는 제1 분석단계; 학습 기반으로 오디오 특성을 프레임 단위로 분석하는 제2 분석단계; 및 제1 분석단계에서의 분석결과와 제2 분석단계에서의 분석결과를 조합하여, 프레임 단위로 오디오의 음량을 제어하는 단계;를 포함한다.

그리고, 제2 분석단계에서 분석되는 오디오 프레임 특성의 종류는, 제1 분석단계에서 분석되는 오디오 프레임 특성의 종류 보다 많을 수 있다.

또한, 제1 분석단계에서 분석되는 오디오 프레임 특성은, 유음 및 묵음을 포함할 수 있다.

그리고, 제1 분석단계는, 오디오 프레임의 음량을 기준 값과 비교하여, 오디오 프레임 특성을 음성 및 묵음으로 구분할 수 있다.

또한, 기준값은, 오디오 데이터에 따라 가변할 수 있다.

그리고, 제2 분석단계에서 분석되는 오디오 프레임 특성은, 전경음, 배경음 및 묵음을 포함할 수 있다.

또한, 제어 단계는, 제1 분석단계에서의 분석결과와 제2 분석단계에서의 분석결과를 조합하여, 오디오를 구성하는 프레임들의 중요도들을 각각 결정하는 단계; 및 결정된 중요도들을 기초로, 프레임들의 음량들을 각각 조절하는 단계;를 포함할 수 있다.

그리고, 조절 단계는, 결정된 중요도들을 기초로, 프레임들에 대한 가중치들을 각각 결정하는 단계; 결정된 가중치들을 스무딩 처리하는 단계; 및 스무딩 처리된 가중치들을 기초로, 프레임들의 음량들을 각각 결정하는 단계;를 포함할 수 있다.

또한, 제어 단계는, 출력되는 오디오의 음량을 측정하는 단계; 및 측정된 음량과 목표 음량을 기초로, 프레임들의 음량들을 추가로 조절하는 단계;를 더 포함할 수 있다.

한편, 본 발명의 다른 실시예에 따른, 오디오 음량 제어 방법은, 신호 분석 기반으로 오디오 특성을 프레임 단위로 분석하는 제1 분석부; 학습 기반으로 오디오 특성을 프레임 단위로 분석하는 제2 분석부; 및 제1 분석부에서의 분석결과와 제2 분석부에서의 분석결과를 조합하여, 프레임 단위로 오디오의 음량을 제어하는 제어부;를 포함한다.

한편, 본 발명의 다른 실시예에 따른, 오디오 음량 제어 방법은, 오디오를 입력받는 단계; 입력된 오디오에 대해, 신호 분석 기반으로 오디오 특성을 프레임 단위로 분석하는 제1 분석단계; 입력된 오디오에 대해, 학습 기반으로 오디오 특성을 프레임 단위로 분석하는 제2 분석단계; 및 제1 분석단계에서의 분석결과와 제2 분석단계에서의 분석결과를 조합하여, 프레임 단위로 오디오의 음량을 제어하는 단계;를 포함한다.

한편, 본 발명의 다른 실시예에 따른, 오디오 음량 제어 시스템은, 오디오를 입력받는 입력부; 입력된 오디오에 대해, 신호 분석 기반으로 오디오 특성을 프레임 단위로 분석하는 제1 분석부; 입력된 오디오에 대해, 학습 기반으로 오디오 특성을 프레임 단위로 분석하는 제2 분석부; 및 제1 분석부에서의 분석결과와 제2 분석부에서의 분석결과를 조합하여, 프레임 단위로 오디오의 음량을 제어하는 제어부;를 포함한다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 신호 분석 및 딥 러닝 기반의 오디오 음량 제어를 통해, 오디오 특성 분석의 신뢰성을 높여 오디오 음량 제어의 최적화가 가능해진다.

특히, 본 발명의 실시예들에 따르면, 독특한 특성을 갖고 있어 신호 분석만으로 정확한 특성 파악이 부적절한 오디오에 대해서도, 정확한 특성 파악에 의한 적정의 음량 제어가 가능해진다.

도 1은 종래의 오디오 음량 자동 제어 시스템을 도시한 도면,
도 2는 본 발명의 일 실시예에 따른 오디오 음량 제어 시스템의 블럭도,
도 3은, 도 2에 도시된 신호 분석부의 상세 설명에 제공되는 도면,
도 4는, 도 2에 도시된 딥 러닝 기반 분석부의 상세 설명에 제공되는 도면, 그리고,
도 5는 본 발명의 다른 실시예에 따른 오디오 음량 제어 방법의 설명에 제공되는 흐름도이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

도 2는 본 발명의 일 실시예에 따른 오디오 음량 제어 시스템의 블럭도이다. 본 발명의 실시예에 따른 오디오 음량 제어 시스템은, 신호 분석 및 딥 러닝 기반으로 오디오 특성을 파악하여, 이를 기초로 오디오 음량을 제어한다.

이와 같은 기능을 수행하는 본 발명의 실시예에 따른 오디오 음량 제어 시스템은, 도 2에 도시된 바와 같이, 오디오 입력부(110), 신호 분석부(120), 딥 러닝 기반 분석부(130), 가중치 계산부(140), 음량 제어부(150) 및 오디오 출력부(160)를 포함한다.

오디오 입력부(110)는 방송, 네트워크, 외부기기, 기록매체 등을 통해 오디오 신호를 입력받는 수단이다.

신호 분석부(120)는 오디오 입력부(110)를 통해 입력되는 오디오 신호를 신호 분석하여, 프레임 단위로 오디오 특성을 분석한다.

신호 분석을 통해, 신호 분석부(120)는 입력 오디오의 프레임들을 유음(Loudness) 프레임과 묵음(Silence) 프레임으로 각각 구분한다. 유음 프레임은 음성, 음악 등이 존재하는 프레임이고, 묵음 프레임은 그렇지 않은 프레임이다.

이를 위해, 신호 분석부(120)는, 도 3에 도시된 바와 같이, 입력된 오디오 프레임들의 음량들을 각각 측정하고(121), 측정된 음량을 기준 값과 비교하여 오디오 프레임을 유음 프레임과 묵음 프레임으로 구분한다(122).

"121"의 음량 측정에서는, 오디오 신호 분석을 통해 Momentary, Short, Integrates Loudness을 측정한다. "122"의 유음/묵음 판단에서는, 측정된 음량이 기준 값(Threshold)을 초과한 경우에는 유음 프레임으로, 기준 값 이하인 경우에는 묵음 프레임으로 판단한다.

여기서, 기준 값은 가변적일 수 있다. 일 예로, 오디오의 장르에 따라 가변적일 수 있는데, 오디오의 장르에 따라 기준 값을 각기 다르게 적용하는 것을 의미할 수 있다. 오디오의 장르는 후술할 딥 러닝 기반 분석부(130)에 의해 파악된다.

딥 러닝 기반 분석부(130)는 오디오 입력부(110)를 통해 입력되는 오디오 신호를 딥 러닝 기반으로 분석하여, 프레임 단위로 오디오 특성을 분석한다. 이를 통해, 딥 러닝 기반 분석부(130)는 입력 오디오의 프레임들을 전경음 프레임, 배경음 프레임, 묵음 프레임으로 각각 구분한다.

전경음 프레임은 전경음으로 설정된 음, 이를 테면, 음성의 비중이 큰 프레임이고, 배경음 프레임은 배경음으로 설정된 음, 이를 테면, 음악, 환경 소음 등의 비중이 큰 프레임이며, 묵음 프레임은 전경음 프레임과 배경음 프레임을 제외한 프레임으로, 음량이 매우 작은 프레임이다.

또한, 딥 러닝 기반 분석부(130)는 오디오 입력부(110)를 통해 입력되는 오디오의 장르가 무엇인지 분석한다.

이와 같이, 딥 러닝 기반 분석부(130)에서 분석을 통해 파악되는 오디오 특성은, 신호 분석부(120)에서 분석을 통해 파악되는 오디오 특성 보다 다양하고 세분화되어 있다.

이를 위해, 딥 러닝 기반 분석부(130)는, 도 4에 도시된 바와 같이, 사전 학습된 모델 파라미터(131)와 이를 기준으로 입력되는 오디오에 대한 특성 정보를 출력하는 딥 러닝 추론 엔진(132)을 이용한다.

가중치 계산부(140)는 신호 분석부(120)에서의 분석 결과와 딥 러닝 기반 분석부(130)의 분석 결과를 조합하여, 오디오를 구성하는 프레임들의 중요도들을 각각 결정한다.

이를 테면, 1) 신호 분석부(120)에서의 유음으로, 딥 러닝 기반 분석부(130)에서 전경음으로, 각각 분석된 오디오 프레임의 중요도는 "상"으로, 2) 신호 분석부(120)에서의 유음으로, 딥 러닝 기반 분석부(130)에서 배경음으로, 각각 분석된 오디오 프레임의 중요도는 "중상"으로, 3) 신호 분석부(120)에서의 묵음으로, 딥 러닝 기반 분석부(130)에서 배경음으로, 각각 분석된 오디오 프레임의 중요도는 "중하"로, 4) 신호 분석부(120)와 딥 러닝 기반 분석부(130) 모두에서 묵음으로 분석된 오디오 프레임의 중요도는 "하"로, 중요도를 결정할 수 있다.

그리고, 가중치 계산부(140)는 결정된 중요도를 기초로, 오디오 프레임들에 대한 가중치들을 각각 결정한다.

이를 테면, 1) 중요도가 "상"인 오디오 프레임의 가중치는 "1.3"으로, 2) 중요도가 "중상"인 오디오 프레임의 가중치는 "1.1"로, 3) 중요도가 "중하"인 오디오 프레임의 가중치는 "0.9"로, 4) 중요도가 "하"인 오디오 프레임의 가중치는 "0.7"로, 각각 결정할 수 있다.

다음, 가중치 계산부(140)는 결정된 가중치들을 시간 축을 따라 스무딩(Smoothing) 처리한다. 구체적으로, 가중치 계산부(140)는 이동 평균(Moving Average) 기법으로 스무딩 처리가 가능하다.

이는, 다음의 수학식과 같이, 현재 오디오 프레임을 기준으로, 현재 프레임의 가중치, n개의 이전 프레임들의 가중치들 및 n개의 이후 프레임들의 가중치들을 평균하여 현재 오디오 프레임의 가중치를 스무딩 처리하는 것이다. 수학식에 나타난 것처럼 각각의 오디오 프레임의 가중치 a()에 가중치 w()를 각각 적용할 수 있는데, 현재 오디오 프레임에 인접한 오디오 프레임에 대해 w()를 크게 구현한다.

음량 제어부(150)는 가중치 계산부(140)에서 출력되는 스무딩 처리된 가중치들을 이용하여, 오디오 프레임들의 음량들을 각각 제어한다. 이에, 중요도가 높은 오디오 프레임의 음량은 더 커지고, 중요도가 낮은 오디오 프레임의 음량은 더 작아진다.

오디오 출력부(160)는 음량 제어부(150)에서 음량 제어된 오디오를 출력한다.

한편, 음량 제어부(150)는 오디오 출력부(160)에서 출력되는 오디오의 음량을 측정하고, 측정된 출력 음량을 기초로 오디오 프레임들의 음량들을 제한할 수 있다.

오디오 프레임들의 음량들이 제한되는 경우는, 정해진 시간 동안의 출력 음량 평균이 목표 음량을 초과하였거나, 잔여 시간 동안 초과할 가능성이 있는 경우이다.

이하에서, 도 2에 도시된 시스템에 의해 오디오 음량 제어가 수행되는 과정에 대해 도 5를 참조하여 상세히 설명한다. 도 5는 본 발명의 다른 실시예에 따른 오디오 음량 제어 방법의 설명에 제공되는 흐름도이다.

오디오 음량 제어를 위해, 먼저 신호 분석부(120)가 오디오 입력부(110)를 통해 입력되는 오디오 신호를 신호 분석하여, 프레임 단위로 오디오 특성을 분석한다(S210).

그리고, 딥 러닝 기반 분석부(130)도 오디오 입력부(110)를 통해 입력되는 오디오 신호를 딥 러닝 기반으로 분석하여, 프레임 단위로 오디오 특성을 분석한다(S220).

그러면, 가중치 계산부(140)는 S210단계에서의 분석 결과와 S220단계에서의 분석 결과를 조합하여, 오디오를 구성하는 프레임들의 중요도들을 각각 결정하여, 오디오 프레임들에 대한 가중치들을 각각 결정한다(S230).

다음, 가중치 계산부(140)는 S230단계에서 결정된 가중치들을 시간 축을 따라 스무딩 처리한다(S240).

그리고, 음량 제어부(150)는 S240단계에서 스무딩 처리된 가중치들을 입력되는 오디오 프레임들에 각각 적용하여, 오디오 프레임들의 음량들을 각각 제어한다(S250).

한편, 음량 제어부(150)는, 오디오 출력부(160)에서 출력되는 오디오의 음량을 측정하고(S260), 측정된 출력 음량과 목표 음량을 기초로, 오디오 프레임들의 음량들을 추가로 제어한다(S270).

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

110 : 오디오 입력부
120 : 신호 분석부
130 : 딥 러닝 기반 분석부
140 : 가중치 계산부
150 : 음량 제어부
160 : 오디오 출력부

Claims

신호 분석 기반으로 오디오 특성을 프레임 단위로 분석하는 제1 분석단계;
학습 기반으로 오디오 특성을 프레임 단위로 분석하는 제2 분석단계; 및
제1 분석단계에서의 분석결과와 제2 분석단계에서의 분석결과를 조합하여, 프레임 단위로 오디오의 음량을 제어하는 단계;를 포함하고,
제어 단계는,
제1 분석단계에서의 분석결과와 제2 분석단계에서의 분석결과를 조합하여, 오디오를 구성하는 프레임들 마다 중요도들을 각각 결정하는 단계; 및
결정된 중요도들을 기초로, 프레임들 마다 음량들을 각각 조절하는 단계;를 포함하며,
조절 단계는,
제1 분석단계에서의 분석결과와 제2 분석단계에서의 분석결과를 조합하여 결정된 프레임들의 중요도들을 기초로, 오디오를 구성하는 프레임들에 대한 가중치들을 각각 결정하는 단계;
결정된 가중치들을 스무딩 처리하는 단계; 및
스무딩 처리된 가중치들을 기초로, 프레임들의 음량들을 각각 결정하는 단계;를 포함하고,
제어 단계는,
출력되는 오디오의 음량을 측정하는 단계; 및
측정된 음량으로부터 잔여 시간 동안 목표 음량을 초과할 가능성이 있다고 판단되면, 프레임들의 음량들을 추가로 조절하는 단계;를 더 포함하는 것을 특징으로 하는 오디오 음량 제어 방법.
청구항 1에 있어서,
제2 분석단계에서 분석되는 오디오 프레임 특성의 종류는,
제1 분석단계에서 분석되는 오디오 프레임 특성의 종류 보다 많은 것을 특징으로 하는 오디오 음량 제어 방법.
청구항 2에 있어서,
제1 분석단계에서 분석되는 오디오 프레임 특성은,
유음 및 묵음을 포함하는 것을 특징으로 하는 오디오 음량 제어 방법.
청구항 3에 있어서,
제1 분석단계는,
오디오 프레임의 음량을 기준 값과 비교하여, 오디오 프레임 특성을 음성 및 묵음으로 구분하는 것을 특징으로 하는 오디오 음량 제어 방법.
청구항 4에 있어서,
기준값은,
오디오 데이터에 따라 가변하는 것을 특징으로 하는 오디오 음량 제어 방법.
청구항 3에 있어서,
제2 분석단계에서 분석되는 오디오 프레임 특성은,
전경음, 배경음 및 묵음을 포함하는 것을 특징으로 하는 오디오 음량 제어 방법.
삭제
삭제
삭제
신호 분석 기반으로 오디오 특성을 프레임 단위로 분석하는 제1 분석부;
학습 기반으로 오디오 특성을 프레임 단위로 분석하는 제2 분석부; 및
제1 분석부에서의 분석결과와 제2 분석부에서의 분석결과를 조합하여, 프레임 단위로 오디오의 음량을 제어하는 제어부;를 포함하고,
제어부는,
제1 분석부의 분석결과와 제2 분석부의 분석결과를 조합하여 오디오를 구성하는 프레임들 마다 중요도들을 각각 결정하며, 결정된 중요도들을 기초로 프레임들 마다 음량들을 각각 조절하며,
제어부는,
제1 분석부에서의 분석결과와 제2 분석부에서의 분석결과를 조합하여 결정된 프레임들의 중요도들을 기초로 오디오를 구성하는 프레임들에 대한 가중치들을 각각 결정하고, 결정된 가중치들을 스무딩 처리하며, 스무딩 처리된 가중치들을 기초로 프레임들의 음량들을 각각 결정하고,
출력되는 오디오의 음량을 측정하고, 측정된 음량으로부터 잔여 시간 동안 목표 음량을 초과할 가능성이 있다고 판단되면 프레임들의 음량들을 추가로 조절하는 것을 특징으로 하는 오디오 음량 제어 장치.
오디오를 입력받는 단계;
입력된 오디오에 대해, 신호 분석 기반으로 오디오 특성을 프레임 단위로 분석하는 제1 분석단계;
입력된 오디오에 대해, 학습 기반으로 오디오 특성을 프레임 단위로 분석하는 제2 분석단계; 및
제1 분석단계에서의 분석결과와 제2 분석단계에서의 분석결과를 조합하여, 프레임 단위로 오디오의 음량을 제어하는 단계;를 포함하고,
제어 단계는,
제1 분석단계에서의 분석결과와 제2 분석단계에서의 분석결과를 조합하여, 오디오를 구성하는 프레임들 마다 중요도들을 각각 결정하는 단계; 및
결정된 중요도들을 기초로, 프레임들 마다 음량들을 각각 조절하는 단계;를 포함하며,
조절 단계는,
제1 분석단계에서의 분석결과와 제2 분석단계에서의 분석결과를 조합하여 결정된 프레임들의 중요도들을 기초로, 오디오를 구성하는 프레임들에 대한 가중치들을 각각 결정하는 단계;
결정된 가중치들을 스무딩 처리하는 단계; 및
스무딩 처리된 가중치들을 기초로, 프레임들의 음량들을 각각 결정하는 단계;를 포함하고,
제어 단계는,
출력되는 오디오의 음량을 측정하는 단계; 및
측정된 음량으로부터 잔여 시간 동안 목표 음량을 초과할 가능성이 있다고 판단되면, 프레임들의 음량들을 추가로 조절하는 단계;를 더 포함하는 것을 특징으로 하는 오디오 음량 제어 방법.
오디오를 입력받는 입력부;
입력된 오디오에 대해, 신호 분석 기반으로 오디오 특성을 프레임 단위로 분석하는 제1 분석부;
입력된 오디오에 대해, 학습 기반으로 오디오 특성을 프레임 단위로 분석하는 제2 분석부; 및
제1 분석부에서의 분석결과와 제2 분석부에서의 분석결과를 조합하여, 프레임 단위로 오디오의 음량을 제어하는 제어부;를 포함하고,
제어부는,
제1 분석부의 분석결과와 제2 분석부의 분석결과를 조합하여 오디오를 구성하는 프레임들 마다 중요도들을 각각 결정하며, 결정된 중요도들을 기초로 프레임들 마다 음량들을 각각 조절하며,
제어부는,
제1 분석부에서의 분석결과와 제2 분석부에서의 분석결과를 조합하여 결정된 프레임들의 중요도들을 기초로 오디오를 구성하는 프레임들에 대한 가중치들을 각각 결정하고, 결정된 가중치들을 스무딩 처리하며, 스무딩 처리된 가중치들을 기초로 프레임들의 음량들을 각각 결정하고,
출력되는 오디오의 음량을 측정하고, 측정된 음량으로부터 잔여 시간 동안 목표 음량을 초과할 가능성이 있다고 판단되면 프레임들의 음량들을 추가로 조절하는 것을 특징으로 하는 오디오 음량 제어 시스템.