KR101986905B1 - 신호 분석 및 딥 러닝 기반의 오디오 음량 제어 방법 및 시스템 - Google Patents

신호 분석 및 딥 러닝 기반의 오디오 음량 제어 방법 및 시스템 Download PDF

Info

Publication number
KR101986905B1
KR101986905B1 KR1020170143038A KR20170143038A KR101986905B1 KR 101986905 B1 KR101986905 B1 KR 101986905B1 KR 1020170143038 A KR1020170143038 A KR 1020170143038A KR 20170143038 A KR20170143038 A KR 20170143038A KR 101986905 B1 KR101986905 B1 KR 101986905B1
Authority
KR
South Korea
Prior art keywords
audio
analysis
frames
frame
analysis result
Prior art date
Application number
KR1020170143038A
Other languages
English (en)
Other versions
KR20190048248A (ko
Inventor
조충상
이영한
Original Assignee
전자부품연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전자부품연구원 filed Critical 전자부품연구원
Priority to KR1020170143038A priority Critical patent/KR101986905B1/ko
Priority to US16/163,860 priority patent/US10819301B2/en
Publication of KR20190048248A publication Critical patent/KR20190048248A/ko
Application granted granted Critical
Publication of KR101986905B1 publication Critical patent/KR101986905B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • H03G3/3026Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers the gain being discontinuously variable, e.g. controlled by switching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

신호 분석 및 딥 러닝 기반의 오디오 음량 제어 방법 및 시스템이 제공된다. 본 발명의 실시예에 따른 오디오 음량 제어 방법은, 신호 분석 기반으로 오디오 특성을 프레임 단위로 분석하고, 학습 기반으로 오디오 특성을 프레임 단위로 분석하며, 분석결과들을 조합하여 프레임 단위로 오디오의 음량을 제어한다. 이에 의해, 오디오 특성 분석의 신뢰성을 높여 오디오 음량 제어의 최적화가 가능해진다.

Description

신호 분석 및 딥 러닝 기반의 오디오 음량 제어 방법 및 시스템{Audio Loudness Control Method and System based on Signal Analysis and Deep Learning}
본 발명은 오디오 신호 처리 기술에 관한 것으로, 더욱 상세하게는 방송 컨텐츠를 구성하는 오디오의 음량을 자동으로 제어하는 방법 및 시스템에 관한 것이다.
도 1은 종래의 오디오 음량 자동 제어 시스템을 도시한 도면이다. 종래의 오디오 음량 제어 시스템은, 도 1에 도시된 바와 같이, 음량(LouDness) 측정부(10) 및 음량 제어부(20)를 포함한다.
음량 측정부(10)는 신호 분석을 통해 입력된 오디오의 음량을 측정하고, 음량 제어부(20)는 음량 측정부(10)에서 측정된 음량과 목표 음량을 비교하여 입력된 오디오의 음량을 자동으로 제어한다.
하지만, 오디오 신호가 독특한 특성을 갖는 경우에는, 신호 분석을 통해서도 오디오 특성을 정확하게 파악하지 못할 수 있으며, 이는 부적절한 음량 제어의 결과로 이어진다.
이에, 다양한 오디오 신호에 대해 적정의 특성 분석을 통한, 최적의 음량 제어를 위한 방안의 모색이 요청된다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 오디오 특성 분석의 신뢰성을 높여 최적으로 오디오 음량을 제어하기 위한 방안으로, 신호 분석 및 딥 러닝 기반의 오디오 음량 제어 방법 및 시스템을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 오디오 음량 제어 방법은, 신호 분석 기반으로 오디오 특성을 프레임 단위로 분석하는 제1 분석단계; 학습 기반으로 오디오 특성을 프레임 단위로 분석하는 제2 분석단계; 및 제1 분석단계에서의 분석결과와 제2 분석단계에서의 분석결과를 조합하여, 프레임 단위로 오디오의 음량을 제어하는 단계;를 포함한다.
그리고, 제2 분석단계에서 분석되는 오디오 프레임 특성의 종류는, 제1 분석단계에서 분석되는 오디오 프레임 특성의 종류 보다 많을 수 있다.
또한, 제1 분석단계에서 분석되는 오디오 프레임 특성은, 유음 및 묵음을 포함할 수 있다.
그리고, 제1 분석단계는, 오디오 프레임의 음량을 기준 값과 비교하여, 오디오 프레임 특성을 음성 및 묵음으로 구분할 수 있다.
또한, 기준값은, 오디오 데이터에 따라 가변할 수 있다.
그리고, 제2 분석단계에서 분석되는 오디오 프레임 특성은, 전경음, 배경음 및 묵음을 포함할 수 있다.
또한, 제어 단계는, 제1 분석단계에서의 분석결과와 제2 분석단계에서의 분석결과를 조합하여, 오디오를 구성하는 프레임들의 중요도들을 각각 결정하는 단계; 및 결정된 중요도들을 기초로, 프레임들의 음량들을 각각 조절하는 단계;를 포함할 수 있다.
그리고, 조절 단계는, 결정된 중요도들을 기초로, 프레임들에 대한 가중치들을 각각 결정하는 단계; 결정된 가중치들을 스무딩 처리하는 단계; 및 스무딩 처리된 가중치들을 기초로, 프레임들의 음량들을 각각 결정하는 단계;를 포함할 수 있다.
또한, 제어 단계는, 출력되는 오디오의 음량을 측정하는 단계; 및 측정된 음량과 목표 음량을 기초로, 프레임들의 음량들을 추가로 조절하는 단계;를 더 포함할 수 있다.
한편, 본 발명의 다른 실시예에 따른, 오디오 음량 제어 방법은, 신호 분석 기반으로 오디오 특성을 프레임 단위로 분석하는 제1 분석부; 학습 기반으로 오디오 특성을 프레임 단위로 분석하는 제2 분석부; 및 제1 분석부에서의 분석결과와 제2 분석부에서의 분석결과를 조합하여, 프레임 단위로 오디오의 음량을 제어하는 제어부;를 포함한다.
한편, 본 발명의 다른 실시예에 따른, 오디오 음량 제어 방법은, 오디오를 입력받는 단계; 입력된 오디오에 대해, 신호 분석 기반으로 오디오 특성을 프레임 단위로 분석하는 제1 분석단계; 입력된 오디오에 대해, 학습 기반으로 오디오 특성을 프레임 단위로 분석하는 제2 분석단계; 및 제1 분석단계에서의 분석결과와 제2 분석단계에서의 분석결과를 조합하여, 프레임 단위로 오디오의 음량을 제어하는 단계;를 포함한다.
한편, 본 발명의 다른 실시예에 따른, 오디오 음량 제어 시스템은, 오디오를 입력받는 입력부; 입력된 오디오에 대해, 신호 분석 기반으로 오디오 특성을 프레임 단위로 분석하는 제1 분석부; 입력된 오디오에 대해, 학습 기반으로 오디오 특성을 프레임 단위로 분석하는 제2 분석부; 및 제1 분석부에서의 분석결과와 제2 분석부에서의 분석결과를 조합하여, 프레임 단위로 오디오의 음량을 제어하는 제어부;를 포함한다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 신호 분석 및 딥 러닝 기반의 오디오 음량 제어를 통해, 오디오 특성 분석의 신뢰성을 높여 오디오 음량 제어의 최적화가 가능해진다.
특히, 본 발명의 실시예들에 따르면, 독특한 특성을 갖고 있어 신호 분석만으로 정확한 특성 파악이 부적절한 오디오에 대해서도, 정확한 특성 파악에 의한 적정의 음량 제어가 가능해진다.
도 1은 종래의 오디오 음량 자동 제어 시스템을 도시한 도면,
도 2는 본 발명의 일 실시예에 따른 오디오 음량 제어 시스템의 블럭도,
도 3은, 도 2에 도시된 신호 분석부의 상세 설명에 제공되는 도면,
도 4는, 도 2에 도시된 딥 러닝 기반 분석부의 상세 설명에 제공되는 도면, 그리고,
도 5는 본 발명의 다른 실시예에 따른 오디오 음량 제어 방법의 설명에 제공되는 흐름도이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 2는 본 발명의 일 실시예에 따른 오디오 음량 제어 시스템의 블럭도이다. 본 발명의 실시예에 따른 오디오 음량 제어 시스템은, 신호 분석 및 딥 러닝 기반으로 오디오 특성을 파악하여, 이를 기초로 오디오 음량을 제어한다.
이와 같은 기능을 수행하는 본 발명의 실시예에 따른 오디오 음량 제어 시스템은, 도 2에 도시된 바와 같이, 오디오 입력부(110), 신호 분석부(120), 딥 러닝 기반 분석부(130), 가중치 계산부(140), 음량 제어부(150) 및 오디오 출력부(160)를 포함한다.
오디오 입력부(110)는 방송, 네트워크, 외부기기, 기록매체 등을 통해 오디오 신호를 입력받는 수단이다.
신호 분석부(120)는 오디오 입력부(110)를 통해 입력되는 오디오 신호를 신호 분석하여, 프레임 단위로 오디오 특성을 분석한다.
신호 분석을 통해, 신호 분석부(120)는 입력 오디오의 프레임들을 유음(Loudness) 프레임과 묵음(Silence) 프레임으로 각각 구분한다. 유음 프레임은 음성, 음악 등이 존재하는 프레임이고, 묵음 프레임은 그렇지 않은 프레임이다.
이를 위해, 신호 분석부(120)는, 도 3에 도시된 바와 같이, 입력된 오디오 프레임들의 음량들을 각각 측정하고(121), 측정된 음량을 기준 값과 비교하여 오디오 프레임을 유음 프레임과 묵음 프레임으로 구분한다(122).
"121"의 음량 측정에서는, 오디오 신호 분석을 통해 Momentary, Short, Integrates Loudness을 측정한다. "122"의 유음/묵음 판단에서는, 측정된 음량이 기준 값(Threshold)을 초과한 경우에는 유음 프레임으로, 기준 값 이하인 경우에는 묵음 프레임으로 판단한다.
여기서, 기준 값은 가변적일 수 있다. 일 예로, 오디오의 장르에 따라 가변적일 수 있는데, 오디오의 장르에 따라 기준 값을 각기 다르게 적용하는 것을 의미할 수 있다. 오디오의 장르는 후술할 딥 러닝 기반 분석부(130)에 의해 파악된다.
딥 러닝 기반 분석부(130)는 오디오 입력부(110)를 통해 입력되는 오디오 신호를 딥 러닝 기반으로 분석하여, 프레임 단위로 오디오 특성을 분석한다. 이를 통해, 딥 러닝 기반 분석부(130)는 입력 오디오의 프레임들을 전경음 프레임, 배경음 프레임, 묵음 프레임으로 각각 구분한다.
전경음 프레임은 전경음으로 설정된 음, 이를 테면, 음성의 비중이 큰 프레임이고, 배경음 프레임은 배경음으로 설정된 음, 이를 테면, 음악, 환경 소음 등의 비중이 큰 프레임이며, 묵음 프레임은 전경음 프레임과 배경음 프레임을 제외한 프레임으로, 음량이 매우 작은 프레임이다.
또한, 딥 러닝 기반 분석부(130)는 오디오 입력부(110)를 통해 입력되는 오디오의 장르가 무엇인지 분석한다.
이와 같이, 딥 러닝 기반 분석부(130)에서 분석을 통해 파악되는 오디오 특성은, 신호 분석부(120)에서 분석을 통해 파악되는 오디오 특성 보다 다양하고 세분화되어 있다.
이를 위해, 딥 러닝 기반 분석부(130)는, 도 4에 도시된 바와 같이, 사전 학습된 모델 파라미터(131)와 이를 기준으로 입력되는 오디오에 대한 특성 정보를 출력하는 딥 러닝 추론 엔진(132)을 이용한다.
가중치 계산부(140)는 신호 분석부(120)에서의 분석 결과와 딥 러닝 기반 분석부(130)의 분석 결과를 조합하여, 오디오를 구성하는 프레임들의 중요도들을 각각 결정한다.
이를 테면, 1) 신호 분석부(120)에서의 유음으로, 딥 러닝 기반 분석부(130)에서 전경음으로, 각각 분석된 오디오 프레임의 중요도는 "상"으로, 2) 신호 분석부(120)에서의 유음으로, 딥 러닝 기반 분석부(130)에서 배경음으로, 각각 분석된 오디오 프레임의 중요도는 "중상"으로, 3) 신호 분석부(120)에서의 묵음으로, 딥 러닝 기반 분석부(130)에서 배경음으로, 각각 분석된 오디오 프레임의 중요도는 "중하"로, 4) 신호 분석부(120)와 딥 러닝 기반 분석부(130) 모두에서 묵음으로 분석된 오디오 프레임의 중요도는 "하"로, 중요도를 결정할 수 있다.
그리고, 가중치 계산부(140)는 결정된 중요도를 기초로, 오디오 프레임들에 대한 가중치들을 각각 결정한다.
이를 테면, 1) 중요도가 "상"인 오디오 프레임의 가중치는 "1.3"으로, 2) 중요도가 "중상"인 오디오 프레임의 가중치는 "1.1"로, 3) 중요도가 "중하"인 오디오 프레임의 가중치는 "0.9"로, 4) 중요도가 "하"인 오디오 프레임의 가중치는 "0.7"로, 각각 결정할 수 있다.
다음, 가중치 계산부(140)는 결정된 가중치들을 시간 축을 따라 스무딩(Smoothing) 처리한다. 구체적으로, 가중치 계산부(140)는 이동 평균(Moving Average) 기법으로 스무딩 처리가 가능하다.
이는, 다음의 수학식과 같이, 현재 오디오 프레임을 기준으로, 현재 프레임의 가중치, n개의 이전 프레임들의 가중치들 및 n개의 이후 프레임들의 가중치들을 평균하여 현재 오디오 프레임의 가중치를 스무딩 처리하는 것이다. 수학식에 나타난 것처럼 각각의 오디오 프레임의 가중치 a()에 가중치 w()를 각각 적용할 수 있는데, 현재 오디오 프레임에 인접한 오디오 프레임에 대해 w()를 크게 구현한다.
Figure 112017107644914-pat00001
음량 제어부(150)는 가중치 계산부(140)에서 출력되는 스무딩 처리된 가중치들을 이용하여, 오디오 프레임들의 음량들을 각각 제어한다. 이에, 중요도가 높은 오디오 프레임의 음량은 더 커지고, 중요도가 낮은 오디오 프레임의 음량은 더 작아진다.
오디오 출력부(160)는 음량 제어부(150)에서 음량 제어된 오디오를 출력한다.
한편, 음량 제어부(150)는 오디오 출력부(160)에서 출력되는 오디오의 음량을 측정하고, 측정된 출력 음량을 기초로 오디오 프레임들의 음량들을 제한할 수 있다.
오디오 프레임들의 음량들이 제한되는 경우는, 정해진 시간 동안의 출력 음량 평균이 목표 음량을 초과하였거나, 잔여 시간 동안 초과할 가능성이 있는 경우이다.
이하에서, 도 2에 도시된 시스템에 의해 오디오 음량 제어가 수행되는 과정에 대해 도 5를 참조하여 상세히 설명한다. 도 5는 본 발명의 다른 실시예에 따른 오디오 음량 제어 방법의 설명에 제공되는 흐름도이다.
오디오 음량 제어를 위해, 먼저 신호 분석부(120)가 오디오 입력부(110)를 통해 입력되는 오디오 신호를 신호 분석하여, 프레임 단위로 오디오 특성을 분석한다(S210).
그리고, 딥 러닝 기반 분석부(130)도 오디오 입력부(110)를 통해 입력되는 오디오 신호를 딥 러닝 기반으로 분석하여, 프레임 단위로 오디오 특성을 분석한다(S220).
그러면, 가중치 계산부(140)는 S210단계에서의 분석 결과와 S220단계에서의 분석 결과를 조합하여, 오디오를 구성하는 프레임들의 중요도들을 각각 결정하여, 오디오 프레임들에 대한 가중치들을 각각 결정한다(S230).
다음, 가중치 계산부(140)는 S230단계에서 결정된 가중치들을 시간 축을 따라 스무딩 처리한다(S240).
그리고, 음량 제어부(150)는 S240단계에서 스무딩 처리된 가중치들을 입력되는 오디오 프레임들에 각각 적용하여, 오디오 프레임들의 음량들을 각각 제어한다(S250).
한편, 음량 제어부(150)는, 오디오 출력부(160)에서 출력되는 오디오의 음량을 측정하고(S260), 측정된 출력 음량과 목표 음량을 기초로, 오디오 프레임들의 음량들을 추가로 제어한다(S270).
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
110 : 오디오 입력부
120 : 신호 분석부
130 : 딥 러닝 기반 분석부
140 : 가중치 계산부
150 : 음량 제어부
160 : 오디오 출력부

Claims (12)

  1. 신호 분석 기반으로 오디오 특성을 프레임 단위로 분석하는 제1 분석단계;
    학습 기반으로 오디오 특성을 프레임 단위로 분석하는 제2 분석단계; 및
    제1 분석단계에서의 분석결과와 제2 분석단계에서의 분석결과를 조합하여, 프레임 단위로 오디오의 음량을 제어하는 단계;를 포함하고,
    제어 단계는,
    제1 분석단계에서의 분석결과와 제2 분석단계에서의 분석결과를 조합하여, 오디오를 구성하는 프레임들 마다 중요도들을 각각 결정하는 단계; 및
    결정된 중요도들을 기초로, 프레임들 마다 음량들을 각각 조절하는 단계;를 포함하며,
    조절 단계는,
    제1 분석단계에서의 분석결과와 제2 분석단계에서의 분석결과를 조합하여 결정된 프레임들의 중요도들을 기초로, 오디오를 구성하는 프레임들에 대한 가중치들을 각각 결정하는 단계;
    결정된 가중치들을 스무딩 처리하는 단계; 및
    스무딩 처리된 가중치들을 기초로, 프레임들의 음량들을 각각 결정하는 단계;를 포함하고,
    제어 단계는,
    출력되는 오디오의 음량을 측정하는 단계; 및
    측정된 음량으로부터 잔여 시간 동안 목표 음량을 초과할 가능성이 있다고 판단되면, 프레임들의 음량들을 추가로 조절하는 단계;를 더 포함하는 것을 특징으로 하는 오디오 음량 제어 방법.
  2. 청구항 1에 있어서,
    제2 분석단계에서 분석되는 오디오 프레임 특성의 종류는,
    제1 분석단계에서 분석되는 오디오 프레임 특성의 종류 보다 많은 것을 특징으로 하는 오디오 음량 제어 방법.
  3. 청구항 2에 있어서,
    제1 분석단계에서 분석되는 오디오 프레임 특성은,
    유음 및 묵음을 포함하는 것을 특징으로 하는 오디오 음량 제어 방법.
  4. 청구항 3에 있어서,
    제1 분석단계는,
    오디오 프레임의 음량을 기준 값과 비교하여, 오디오 프레임 특성을 음성 및 묵음으로 구분하는 것을 특징으로 하는 오디오 음량 제어 방법.
  5. 청구항 4에 있어서,
    기준값은,
    오디오 데이터에 따라 가변하는 것을 특징으로 하는 오디오 음량 제어 방법.
  6. 청구항 3에 있어서,
    제2 분석단계에서 분석되는 오디오 프레임 특성은,
    전경음, 배경음 및 묵음을 포함하는 것을 특징으로 하는 오디오 음량 제어 방법.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 신호 분석 기반으로 오디오 특성을 프레임 단위로 분석하는 제1 분석부;
    학습 기반으로 오디오 특성을 프레임 단위로 분석하는 제2 분석부; 및
    제1 분석부에서의 분석결과와 제2 분석부에서의 분석결과를 조합하여, 프레임 단위로 오디오의 음량을 제어하는 제어부;를 포함하고,
    제어부는,
    제1 분석부의 분석결과와 제2 분석부의 분석결과를 조합하여 오디오를 구성하는 프레임들 마다 중요도들을 각각 결정하며, 결정된 중요도들을 기초로 프레임들 마다 음량들을 각각 조절하며,
    제어부는,
    제1 분석부에서의 분석결과와 제2 분석부에서의 분석결과를 조합하여 결정된 프레임들의 중요도들을 기초로 오디오를 구성하는 프레임들에 대한 가중치들을 각각 결정하고, 결정된 가중치들을 스무딩 처리하며, 스무딩 처리된 가중치들을 기초로 프레임들의 음량들을 각각 결정하고,
    출력되는 오디오의 음량을 측정하고, 측정된 음량으로부터 잔여 시간 동안 목표 음량을 초과할 가능성이 있다고 판단되면 프레임들의 음량들을 추가로 조절하는 것을 특징으로 하는 오디오 음량 제어 장치.
  11. 오디오를 입력받는 단계;
    입력된 오디오에 대해, 신호 분석 기반으로 오디오 특성을 프레임 단위로 분석하는 제1 분석단계;
    입력된 오디오에 대해, 학습 기반으로 오디오 특성을 프레임 단위로 분석하는 제2 분석단계; 및
    제1 분석단계에서의 분석결과와 제2 분석단계에서의 분석결과를 조합하여, 프레임 단위로 오디오의 음량을 제어하는 단계;를 포함하고,
    제어 단계는,
    제1 분석단계에서의 분석결과와 제2 분석단계에서의 분석결과를 조합하여, 오디오를 구성하는 프레임들 마다 중요도들을 각각 결정하는 단계; 및
    결정된 중요도들을 기초로, 프레임들 마다 음량들을 각각 조절하는 단계;를 포함하며,
    조절 단계는,
    제1 분석단계에서의 분석결과와 제2 분석단계에서의 분석결과를 조합하여 결정된 프레임들의 중요도들을 기초로, 오디오를 구성하는 프레임들에 대한 가중치들을 각각 결정하는 단계;
    결정된 가중치들을 스무딩 처리하는 단계; 및
    스무딩 처리된 가중치들을 기초로, 프레임들의 음량들을 각각 결정하는 단계;를 포함하고,
    제어 단계는,
    출력되는 오디오의 음량을 측정하는 단계; 및
    측정된 음량으로부터 잔여 시간 동안 목표 음량을 초과할 가능성이 있다고 판단되면, 프레임들의 음량들을 추가로 조절하는 단계;를 더 포함하는 것을 특징으로 하는 오디오 음량 제어 방법.
  12. 오디오를 입력받는 입력부;
    입력된 오디오에 대해, 신호 분석 기반으로 오디오 특성을 프레임 단위로 분석하는 제1 분석부;
    입력된 오디오에 대해, 학습 기반으로 오디오 특성을 프레임 단위로 분석하는 제2 분석부; 및
    제1 분석부에서의 분석결과와 제2 분석부에서의 분석결과를 조합하여, 프레임 단위로 오디오의 음량을 제어하는 제어부;를 포함하고,
    제어부는,
    제1 분석부의 분석결과와 제2 분석부의 분석결과를 조합하여 오디오를 구성하는 프레임들 마다 중요도들을 각각 결정하며, 결정된 중요도들을 기초로 프레임들 마다 음량들을 각각 조절하며,
    제어부는,
    제1 분석부에서의 분석결과와 제2 분석부에서의 분석결과를 조합하여 결정된 프레임들의 중요도들을 기초로 오디오를 구성하는 프레임들에 대한 가중치들을 각각 결정하고, 결정된 가중치들을 스무딩 처리하며, 스무딩 처리된 가중치들을 기초로 프레임들의 음량들을 각각 결정하고,
    출력되는 오디오의 음량을 측정하고, 측정된 음량으로부터 잔여 시간 동안 목표 음량을 초과할 가능성이 있다고 판단되면 프레임들의 음량들을 추가로 조절하는 것을 특징으로 하는 오디오 음량 제어 시스템.
KR1020170143038A 2017-10-31 2017-10-31 신호 분석 및 딥 러닝 기반의 오디오 음량 제어 방법 및 시스템 KR101986905B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170143038A KR101986905B1 (ko) 2017-10-31 2017-10-31 신호 분석 및 딥 러닝 기반의 오디오 음량 제어 방법 및 시스템
US16/163,860 US10819301B2 (en) 2017-10-31 2018-10-18 Audio loudness control method and system based on signal analysis and deep learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170143038A KR101986905B1 (ko) 2017-10-31 2017-10-31 신호 분석 및 딥 러닝 기반의 오디오 음량 제어 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20190048248A KR20190048248A (ko) 2019-05-09
KR101986905B1 true KR101986905B1 (ko) 2019-06-07

Family

ID=66244440

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170143038A KR101986905B1 (ko) 2017-10-31 2017-10-31 신호 분석 및 딥 러닝 기반의 오디오 음량 제어 방법 및 시스템

Country Status (2)

Country Link
US (1) US10819301B2 (ko)
KR (1) KR101986905B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190105538A (ko) * 2019-08-26 2019-09-17 엘지전자 주식회사 엔진음 합성 장치 및 엔진음 합성 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11347470B2 (en) 2018-11-16 2022-05-31 Roku, Inc. Detection of media playback loudness level and corresponding adjustment to audio during media replacement event
KR20210100368A (ko) 2020-02-06 2021-08-17 삼성전자주식회사 전자장치 및 그 제어방법
KR102400903B1 (ko) * 2020-03-13 2022-05-24 주식회사 코클 오디오 데이터 식별장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016032199A (ja) 2014-07-29 2016-03-07 株式会社ビデオリサーチ 音量制御装置及び方法、視聴調査システム及び方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4351983A (en) * 1979-03-05 1982-09-28 International Business Machines Corp. Speech detector with variable threshold
KR101583294B1 (ko) * 2013-04-03 2016-01-07 인텔렉추얼디스커버리 주식회사 오디오 신호 크기 제어 방법 및 장치
CN104080024B (zh) * 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
CN103945062B (zh) * 2014-04-16 2017-01-18 华为技术有限公司 一种用户终端的音量调节方法、装置及终端

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016032199A (ja) 2014-07-29 2016-03-07 株式会社ビデオリサーチ 音量制御装置及び方法、視聴調査システム及び方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190105538A (ko) * 2019-08-26 2019-09-17 엘지전자 주식회사 엔진음 합성 장치 및 엔진음 합성 방법
KR102225975B1 (ko) 2019-08-26 2021-03-10 엘지전자 주식회사 엔진음 합성 장치 및 엔진음 합성 방법
US10997962B2 (en) 2019-08-26 2021-05-04 Lg Electronics Inc. Apparatus and method for synthesizing engine sound

Also Published As

Publication number Publication date
US10819301B2 (en) 2020-10-27
US20190131948A1 (en) 2019-05-02
KR20190048248A (ko) 2019-05-09

Similar Documents

Publication Publication Date Title
US11218126B2 (en) Volume leveler controller and controlling method
KR101986905B1 (ko) 신호 분석 및 딥 러닝 기반의 오디오 음량 제어 방법 및 시스템
US10803879B2 (en) Apparatuses and methods for audio classifying and processing
US10044337B2 (en) Equalizer controller and controlling method
US20180082703A1 (en) Suitability score based on attribute scores

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)