KR20230156156A - 라우드니스 레벨을 제어하는 오디오 신호 처리 방법 및 장치 - Google Patents

라우드니스 레벨을 제어하는 오디오 신호 처리 방법 및 장치 Download PDF

Info

Publication number
KR20230156156A
KR20230156156A KR1020237037252A KR20237037252A KR20230156156A KR 20230156156 A KR20230156156 A KR 20230156156A KR 1020237037252 A KR1020237037252 A KR 1020237037252A KR 20237037252 A KR20237037252 A KR 20237037252A KR 20230156156 A KR20230156156 A KR 20230156156A
Authority
KR
South Korea
Prior art keywords
loudness
audio signal
processing device
input audio
signal processing
Prior art date
Application number
KR1020237037252A
Other languages
English (en)
Inventor
전상배
박규태
권영훈
오현오
서정훈
이태규
정현주
Original Assignee
가우디오랩 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가우디오랩 주식회사 filed Critical 가우디오랩 주식회사
Publication of KR20230156156A publication Critical patent/KR20230156156A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

오디오 신호 처리 장치는 입력 오디오 신호를 수신하는 수신부, 상기 입력 오디오 신호에 대응하는 라우드니스(loudness) 메타데이터(metadata)를 생성하는 프로세서 및 상기 프로세서에서 생성된 라우드니스 메타데이터를 전송하는 출력부를 포함한다. 상기 프로세서는, 상기 입력 컨텐츠로부터 분석된 라우드니스 정보를 획득하고, 상기 입력 오디오 신호의 라우드니스를 측정하여 상기 입력 오디오 신호의 라우드니스 정보를 획득하고, 상기 라우드니스 정보를 변환하여 상기 라우드니스 메타데이터를 생성하고, 상기 출력부를 통해, 상기 생성된 라우드니스 메타데이터를 상기 입력 오디오 신호를 출력하는 출력 장치로 전송한다.

Description

라우드니스 레벨을 제어하는 오디오 신호 처리 방법 및 장치{AUDIO SIGNAL PROCESSING METHOD AND DEVICE FOR CONTROLLING LOUDNESS LEVEL}
본 발명은 오디오 신호를 효과적으로 재생하기 위한 오디오 신호 처리 방법 및 장치에 관한 것으로, 더욱 상세하게는 컨텐츠의 오디오 신호가 출력되는 라우드니스 레벨을 조정하여 사용자에게 보다 몰입감이 높은 오디오 신호를 제공하기 위한 오디오 신호 처리 방법 및 장치에 관한 것이다.
사용자에게 오디오를 제공하는 방법이 아날로그 방식에서 디지털화되면서, 더 넓은 음량 영역에 대한 표현이 가능하게 되었다. 또한, 오디오 신호의 음량은 오디오 신호에 대응하는 컨텐츠에 따라 다양화되고 있는 추세이다. 오디오 컨텐츠 제작 과정에서, 오디오 컨텐츠 별로 의도하는 라우드니스가 서로 다르게 설정될 수 있기 때문이다. 이에 따라, 국제 전기 통신 연합(International Telecommunication Union, ITU), 유럽 방송 연합(European Broadcasting Union, EBU)과 같은 국제 표준 단체에서는 오디오의 라우드니스에 대한 표준을 발행하였다. 그러나 국가 별로 라우드니스를 측정하는 방법과 기준이 상이하기 때문에, 국제 표준 단체에 의해 발행된 표준을 적용하기 어려운 문제점이 있다.
컨텐츠의 제작자들은 상대적으로 라우드니스가 크게 믹싱된 컨텐츠를 제작하여 사용자에게 제공하려 한다. 오디오 신호의 음향 크기가 증가하는 경우 해당 오디오 신호의 음질이 향상된 것으로 인지하는 심리적 음향 특성 때문이다. 이에 따라, 라우드니스 전쟁(Loudness War)이라 일컫는 경쟁 구도가 형성되고 있다. 이로 인해, 컨텐츠 내부적으로 또는 복수의 컨텐츠 간의 라우드니스 차이가 발생하게 되고, 사용자는 해당 컨텐츠들이 재생되는 기기의 볼륨을 반복적으로 조정해야 하는 불편함을 겪을 수 있다. 따라서, 컨텐츠 재생 기기를 사용하는 사용자의 편의를 위해 오디오 컨텐츠의 라우드니스를 정규화하는 기술이 요구된다.
본 발명의 일 실시예는 오디오 신호를 포함하는 컨텐츠를 재생하는 오디오 신호 처리 방법에 있어서, 해당 컨텐츠의 출력 라우드니스 레벨을 효율적으로 조정하는 것을 목적으로 한다.
본 발명의 일 실시예에 따르면, 오디오 신호 처리 장치는 입력 오디오 신호를 수신하는 수신부, 상기 입력 오디오 신호에 대응하는 라우드니스(loudness) 메타데이터(metadata)를 생성하는 프로세서, 및 상기 프로세서에서 생성된 라우드니스 메타데이터를 전송하는 출력부를 포함한다. 상기 프로세서는, 상기 입력 오디오 신호의 라우드니스를 측정하여 상기 입력 오디오 신호의 라우드니스 정보를 획득하고, 상기 라우드니스 정보를 변환하여 상기 라우드니스 메타데이터를 생성하고, 상기 출력부를 통해, 상기 생성된 라우드니스 메타데이터를 상기 입력 오디오 신호를 출력하는 출력 장치로 전송할 수 있다. 상기 라우드니스 정보는 상기 입력 오디오 신호의 품질 보장 히스토그램 지표(Quality Secure Histogram Index, QSHI)를 나타내는 정보를 포함하고, 상기 QSHI는 인지적 음질 손상이 발생하지 않는 문턱 라우드니스 레벨을 나타낸다.
상기 프로세서는, 상기 입력 오디오 신호의 라우드니스 히스토그램에 기초하여 상기 QSHI를 획득할 수 있다.
상기 프로세서는, 상기 입력 오디오 신호의 적어도 하나의 단구간 라우드니스 레벨의 분포에 기초하여 상기 라우드니스 히스토그램을 획득하고, 상기 라우드니스 히스토그램에 기초하여 상기 QSHI를 획득할 수 있다. 상기 단구간 라우드니스 레벨은 상기 입력 오디오 신호의 전체 구간 보다 짧은 구간에서 측정될 수 있다.
상기 라우드니스 히스토그램은 상기 입력 오디오 신호의 구간 별 피크 값 또는 RMS(root-mean-square)에 관한 크기 히스토그램일 수 있다.
상기 프로세서는, 상기 입력 오디오 신호의 라우드니스 히스토그램을 기초로 상기 입력 오디오 신호가 타겟 라우드니스 레벨에 따라 출력되는 경우의 라우드니스 파라미터를 예측하고, 상기 예측된 라우드니스 파라미터에 기초하여 상기 입력 오디오 신호의 예측 라우드니스 히스토그램을 획득하고, 상기 예측된 라우드니스 예측 히스토그램에 기초하여 상기 QSHI를 획득할 수 있다.
상기 라우드니스 정보는 상기 입력 오디오 신호의 누적 라우드니스 레벨을 포함하고, 상기 QSHI는 상기 입력 오디오 신호의 누적 라우드니스 레벨 보다 크고, 상기 누적 라우드니스 레벨은 오디오 신호 처리 장치에서 설정된 셋업 시점으로부터 획득된 라우드니스 측정치에 기초하여 산출된 라우드니스 레벨일 수 있다.
상기 QSHI는 상기 출력 장치에서 상기 입력 오디오 신호에 대한 후처리(post processing) 여부에 따라 보정되는 파라미터일 수 있다.
상기 프로세서는, 상기 출력 장치에서 출력되는 상기 입력 오디오 신호의 전체 구간의 단구간 라우드니스 레벨들이 기 설정된 레벨 이하가 되도록 QSHI를 설정할 수 있다.
본 발명의 다른 측면에 따르면, 오디오 신호 처리 장치는 입력 오디오 신호의 출력 라우드니스(loudness) 레벨을 조정하는 프로세서를 포함한다. 상기 프로세서는, 상기 입력 오디오 신호에 대응하는 라우드니스 메타데이터(metadata)를 수신하고, 상기 라우드니스 메타데이터를 파싱(parsing)하여 상기 입력 오디오 신호의 라우드니스 정보를 획득하고, 상기 라우드니스 정보 및 타겟 라우드니스 레벨에 기초하여 상기 입력 오디오 신호의 라우드니스 게인을 결정하고, 상기 입력 오디오 신호의 출력 라우드니스 레벨을 상기 라우드니스 게인에 기초하여 조정할 수 있다. 상기 라우드니스 정보는 상기 입력 오디오 신호의 품질 보장 히스토그램 지표(Quality Secure Histogram Index, QSHI)를 나타내는 정보를 포함하고, 상기 QSHI는 인지적 음질 손상이 발생하지 않는 문턱 라우드니스 레벨을 나타낼 수 있다.
상기 프로세서는, 상기 입력 오디오 신호의 타겟 라우드니스 레벨과 상기 QSHI를 비교하고, 상기 비교 결과에 기초하여 상기 라우드니스 게인을 결정할 수 있다.
상기 프로세서는, 상기 입력 오디오 신호의 타겟 라우드니스 레벨과 상기 QSHI 중에서 더 작은 값에 기초하여 상기 라우드니스 게인을 결정할 수 있다.
상기 프로세서는, 상기 입력 오디오 신호의 누적 라우드니스 레벨을 수신하고, 상기 입력 오디오 신호의 누적 라우드니스 레벨, 상기 QSHI 및 상기 타겟 라우드니스 레벨에 기초하여 상기 라우드니스 게인을 결정할 수 있다. 상기 누적 라우드니스 레벨은 상기 입력 오디오 신호의 라우드니스를 측정하는 장치에서 설정된 셋업 시점으로부터 획득된 라우드니스 측정치에 기초하여 산출된 라우드니스 레벨일 수 있다.
상기 QSHI는 상기 입력 오디오 신호의 라우드니스 히스토그램에 기초하여 산출된 라우드니스 파라미터일 수 있다.
상기 라우드니스 히스토그램은, 상기 입력 오디오 신호의 시간 별 단구간 라우드니스 레벨들의 크기 히스토그램이고, 상기 단구간 라우드니스 레벨은 상기 입력 오디오 신호의 전체 구간 보다 짧은 구간에서 측정될 수 있다.
상기 라우드니스 히스토그램은 상기 입력 오디오 신호의 구간 별 피크 값 또는 RMS(root-mean-square)에 관한 크기 히스토그램일 수 있다.
상기 QSHI는 상기 입력 오디오 신호의 라우드니스 히스토그램으로부터 예측된 예측 라우드니스 히스토그램에 기초하여 산출된 파라미터이고, 상기 예측 라우드니스 히스토그램은 상기 입력 오디오 신호가 상기 타겟 라우드니스 레벨에 따라 출력되는 경우 예측되는 라우드니스 파라미터에 기초하여 생성된 히스토그램일 수 있다.
상기 QSHI는 상기 입력 오디오 신호의 누적 라우드니스 레벨 보다 크고, 상기 누적 라우드니스 레벨은 상기 입력 오디오 신호의 라우드니스를 측정하는 장치에서 설정된 셋업 시점으로부터 획득된 라우드니스 측정치에 기초하여 산출된 라우드니스 레벨일 수 있다.
상기 프로세서는, 상기 입력 오디오 신호의 출력 라우드니스 레벨을 상기 라우드니스 게인에 따라 조정하여 출력 오디오 신호를 생성하고, 상기 출력 오디오 신호에 출력 오디오 신호의 라우드니스 레벨을 제한하는 라우드니스 리미터(limiter)를 적용하여 출력할 수 있다.
상기 QSHI는 상기 오디오 신호 처리 장치에서 리미터가 구동되는 횟수에 기초하여 결정된 라우드니스 파라미터일 수 있다.
상기 프로세서는, 상기 입력 오디오 신호에 대한 후처리(post processing)를 수행하고, 상기 입력 오디오 신호에 대한 후처리(post processing)의 특성을 나타내는 후처리 정보를 수신하고, 상기 후처리 정보에 기초하여 상기 획득된 QSHI를 보정하고, 상기 보정된 QSHI에 기초하여 상기 라우드니스 게인을 결정할 수 있다.
상기 프로세서는, 상기 후처리 정보 및 기 저장된 함수에 기초하여 상기 QSHI를 보정할 수 있다.
상기 프로세서는, 상기 후처리 정보 및 기 저장된 룩업 테이블(look-up table)에 기초하여 상기 QSHI를 보정할 수 있다. 상기 기 저장된 룩업 테이블은 후처리의 특성에 따른 QSHI 보정에 관한 정보를 포함할 수 있다.
상기 QSHI 보정에 관한 정보는 후처리의 특성에 따른 QSHI 보정 값을 나타내는 정보를 포함할 수 있다. 상기 프로세서는, 상기 기 저장된 룩업 테이블에 기초하여 상기 입력 오디오 신호에 대한 후처리에 대응하는 QSHI 보정 값을 획득하고, 상기 획득된 QSHI에 상기 QSHI 보정 값을 더해 상기 QSHI를 보정할 수 있다.
상기 라우드니스 게인은 상기 입력 오디오 신호의 전체 구간에서 고정된 값을 가지는 고정 게인일 수 있다.
상기 라우드니스 게인은 상기 입력 오디오 신호가 재생되는 시간 동안 시간에 따라 변화하는 게인일 수 있다.
상기 프로세서는, 상기 입력 오디오 신호의 출력 라우드니스 레벨을 상기 라우드니스 게인에 따라 조정하여 출력 오디오 신호를 생성할 수 있다. 상기 QSHI는 상기 출력 오디오 신호의 전체 구간의 단구간 라우드니스 레벨들이 기 설정된 레벨 이하가 되도록 설정된 파라미터일 수 있다.
본 발명의 일 실시예에 따른 장치 및 방법은 오디오 신호를 포함하는 컨텐츠를 재생하는데 있어서, 오디오 신호의 라우드니스 레벨을 효과적으로 정규화할 수 있다. 또한, 본 발명의 일 실시예에 따른 장치 및 방법은 사용자에게 음질 향상 및 음량 조절에 대한 편의를 제공할 수 있다.
특히, 본 발명의 일 실시예에 따르면, 음질 훼손을 발생시키지 않고 라우드니스 레벨을 제어할 수 있다. 또한 본 발명의 일 실시예에 따른 오디오 신호 처리 장치는 라우드니스 메타데이터를 이용하여 보다 안정적인 출력 라우드니스 레벨을 가지는 출력 컨텐츠를 제공할 수 있다. 또한, 청취자가 실제로 인지하는 라우드니스에 가까운 라우드니스 정규화를 수행할 수 있다.
도 1은 본 발명의 일 실시예에 따라 복수의 컨텐츠가 재생되는 동안 시간에 따라 변화하는 라우드니스 레벨을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따라 제1 오디오 신호 처리 장치 및 제2 오디오 신호 처리 장치를 포함하는 시스템을 나타내는 개략도이다.
도 3 은 본 발명의 일 실시예에 따라 입력 오디오 신호의 라우드니스 레벨이 조정되는 방법을 나타내는 흐름도이다.
도 4는 본 발명의 일 실시예에 따라 오디오 신호 처리 장치가 입력 오디오 신호의 라우드니스 정보를 추출하는 방법을 구체적으로 나타내는 블록도이다.
도 5는 ITU-R BS.1770-4에서 정의하는 1차 사전 필터의 주파수 응답을 나타낸다.
도 6은 2차 사전 필터의 주파수 응답을 나타낸다.
도 7은 본 발명의 일 실시예에 따른 서버가 입력 오디오 신호의 라우드니스 메타데이터를 생성하는 방법을 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따른 클라이언트가 라우드니스 메타데이터를 사용하여 입력 오디오 신호를 출력하는 방법을 나타내는 도면이다.
도 9는 본 발명의 일 실시예에 따라 입력 오디오 신호의 단구간 라우드니스 크기 별 히스토그램을 나타내는 도면이다.
도 10은 본 발명의 일 실시예에 따라 오디오 신호 처리 장치가 타겟 라우드니스 레벨 및 인지적 음질 열화를 고려하여 입력 오디오 신호의 라우드니스 게인을 최적화하는 시스템을 나타내는 블록도이다.
도 11 및 도 12는 시간 별 입력 오디오 신호의 라우드니스 레벨 및 타겟 라우드니스 레벨을 위한 고정 게인을 나타내는 도면이다.
도 13 및 도 14는 본 개시의 일 실시예에 따라 입력 오디오 신호의 출력 라우드니스 레벨이 조정되는 방법을 나타내는 개략도이다.
도 15는 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 입력 오디오 신호의 라우드니스 정보를 획득하는 방법을 나타내는 도면이다.
도 16은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 입력 오디오 신호의 출력 라우드니스 레벨을 조정하는 방법을 나타내는 도면이다.
도 17은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 타겟 라우드니스 범위에 기초하여 입력 오디오 신호의 출력 라우드니스 레벨을 조정하는 방법을 나타내는 도면이다.
도 18은 본 발명의 일 실시예에 따라 오디오 신호 처리 장치가 입력 컨텐츠의 라우드니스를 측정하는 방법을 나타내는 도면이다.
도 19는 본 발명의 일 실시예에 따른 오디오 신호 처리 장치의 동작을 나타내는 흐름도이다.
도 20은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치(2000)의 구성을 나타내는 블록도이다.
도 21은 본 발명의 일 실시예에 따른 입력 오디오 신호의 시간 구간 별 피크 값을 나타내는 도면이다.
도 22는 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 스무딩을 이용하여 입력 오디오 신호의 출력 라우드니스 레벨을 조정하는 방법을 설명하는 도면이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 개시는 오디오 신호 처리 장치가 입력 컨텐츠의 출력 라우드니스(loudness) 레벨을 조정하는 방법에 관한 것이다. 본 개시에서, 입력 컨텐츠는 오디오 신호를 포함하는 컨텐츠일 수 있다. 본 개시에서, 입력 컨텐츠는 입력 오디오 신호로 지칭될 수도 있다. 또한, 라우드니스는 청각을 통해 인지되는 음향의 크기를 나타낼 수 있다. 라우드니스 레벨은 라우드니스를 나타내는 수치일 수 있다. 예를 들어, 라우드니스 레벨은 LKFS(Loudness K-Weighted relative to Full Scale) 또는 LUFS(Loudness Unit relative to Full Scale)와 같은 단위를 사용하여 표시될 수 있다. 또한, 라우드니스 레벨은 sone 또는 phon과 같은 단위를 사용하여 표시될 수도 있다.
이하에서는, 도 1을 참조하여 오디오 신호의 라우드니스에 대해 설명하도록 한다. 도 1은 본 발명의 일 실시예에 따라 복수의 컨텐츠가 재생되는 동안 시간에 따라 변화하는 라우드니스 레벨을 나타내는 도면이다. 도 1을 참조하면, 시간에 따라 변화하는 평균 라우드니스(average loudness), 단구간 라우드니스(short-term loudness) 및 라우드니스 동적 범위(dynamic range)가 도시된다. 평균 라우드니스 레벨은 하나의 컨텐츠에 대응하는 단일의 라우드니스 값일 수 있다. 평균 라우드니스 레벨은 컨텐츠(content1, content2, content3) 별로 상이할 수 있다. 도 1에서, 실선은 각 컨텐츠(content1, content2, content3) 별 평균 라우드니스 레벨을 나타낸다. 도 1의 평균 라우드니스는 누적 라우드니스(integrated loudness)를 나타낼 수 있다. 전술한, 누적 라우드니스 및 단구간 라우드니스는 ITU-R BS.1770-4, EBU R 128, EBU TECH 3341, EBU TECH 3342와 같은 라우드니스 표준의 정의를 따를 수 있다.
일 실시예에 따라, 단구간 라우드니스 레벨은 입력 오디오 신호의 전체 구간 보다 짧은 구간에서 측정된 라우드니스 레벨일 수 있다. 단구간 라우드니스 레벨은 컨텐츠의 일부분에 대한 라우드니스 측정치일 수 있다. 이때, 컨텐츠의 일부분은 하나의 측정 윈도우에 포함된 부분일 수 있다. 오디오 신호 처리 장치는 하나의 컨텐츠에 대해 복수의 단구간 라우드니스 레벨들을 획득할 수 있다. 또한, 평균 라우드니스 레벨은 복수의 단구간 라우드니스 레벨들의 평균일 수 있다.
도 1에서, 재생 및 전환되는 복수의 컨텐츠들 각각은 서로 다른 라우드니스 특성을 가진다. 예를 들어, 영상 제공 서비스를 제공하는 플랫폼에서 서로 다른 컨텐츠들이 전환되는 경우, 전환되는 컨텐츠들 사이에 광고 컨텐츠가 삽입될 수 있다. 이 경우, 오디오 신호 처리 장치는 일정한 범위 내의 라우드니스 레벨을 유지하기 어려울 수 있다. 또한, 서로 다른 컨텐츠 간에 라우드니스 동적 범위의 차이가 클 수 있다. 이러한 환경에서, 오디오 신호 처리 장치는 청취자가 원하는 범위 내의 라우드니스 레벨을 제공하기 어려울 수 있다.
구체적으로, 컨텐츠가 전환되는 경우, 청취자는 먼저 단구간 라우드니스 레벨이 급격히 변화되는 것을 인지할 수 있다. 이에 따라, 청취자는 오디오 신호를 출력하는 기기의 볼륨을 조절해야 할 수 있다. 또한, 청취자는 전환된 컨텐츠가 재생되면서 평균 라우드니스에 따른 적정 게인을 설정하기 위해 볼륨을 다시 조절해야 할 수 있다. 예를 들어, 전환된 컨텐츠의 초기 구간의 라우드니스에 기반하여 조절된 볼륨에 따라 전환된 컨텐츠가 재생되는 경우, 컨텐츠 특성에 따라 라우드니스 레벨이 급격히 증가하거나 급격히 감소하는 상황이 발생할 수 있다. 라우드니스 레벨이 급격히 증가하거나 급격히 감소하여 컨텐츠의 내용을 파악할 수 없는 경우, 청취자는 오디오 신호를 출력하는 기기의 볼륨을 또 다시 조절해야 할 수 있다.
이에 따라, 본 발명의 일 실시예에 따른 오디오 신호 처리 장치는 입력 컨텐츠의 출력 라우드니스 레벨을 제어하여 청취자의 편의성을 높일 수 있다. 구체적으로, 오디오 신호 처리 장치는 입력 컨텐츠의 라우드니스 게인에 기초하여 라우드니스 레벨을 조정할 수 있다. 이때, 오디오 신호 처리 장치는 입력 오디오 신호의 라우드니스 정보를 포함하는 라우드니스 메타데이터를 이용할 수 있다.
본 발명의 일 실시예에 따르면, 서로 다른 기준으로 생성되었거나, 특정한 기준 없이 생성된 입력 컨텐츠의 라우드니스 레벨을 타겟 라우드니스(target loudness) 레벨을 기준으로 정규화할 수 있다. 여기에서, 타겟 라우드니스 레벨은 오디오 신호 처리 장치가 출력하고자 하는 라우드니스 레벨일 수 있다. 예를 들어, 타겟 라우드니스 레벨은 입력 컨텐츠의 컨텐츠 제작자에 의해 설정될 수 있다. 이 경우, 오디오 신호 처리 장치는 입력 컨텐츠와 함께 타겟 라우드니스에 대한 정보를 수신할 수 있다. 또한, 타겟 라우드니스 레벨은 입력 컨텐츠의 장르에 따라 서로 다른 값으로 설정될 수도 있다. 이 경우, 오디오 신호 처리 장치는 입력 컨텐츠의 장르에 기초하여 타겟 라우드니스 레벨을 결정할 수 있다. 타겟 라우드니스 레벨은 오디오 신호 처리 장치에 기 저장된 디폴트 값으로 설정될 수도 있다. 이 경우, 타겟 라우드니스 레벨은 입력 컨텐츠 또는 입력 컨텐츠의 장르와 무관한 값으로 설정될 수 있다. 오디오 신호 처리 장치는 타겟 라우드니스 레벨에 기초하여 입력 컨텐츠의 출력 라우드니스 레벨을 조정할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치는 입력 컨텐츠의 라우드니스 레벨과 타겟 라우드니스 레벨 사이의 관계에 기초하여 라우드니스 게인을 획득할 수 있다. 입력 컨텐츠의 라우드니스 레벨과 타겟 라우드니스 레벨 사이의 관계는 입력 컨텐츠의 라우드니스 레벨과 타겟 라우드니스 레벨 간의 차이 또는 비율을 포함할 수 있다.
예를 들어, 오디오 신호 처리 장치는 입력 컨텐츠의 대표 라우드니스 레벨과 타겟 라우드니스 레벨 사이의 관계에 기초하여 라우드니스 게인을 획득할 수 있다. 여기에서, 대표 라우드니스 레벨은 입력 컨텐츠 전 구간에 대한 라우드니스 레벨을 대표하는 라우드니스 레벨일 수 있다. 오디오 신호 처리 장치는 입력 컨텐츠와 함께 입력 컨텐츠의 대표 라우드니스 레벨을 수신할 수 있다. 또는 오디오 신호 처리 장치는 입력 컨텐츠로부터 분석된 라우드니스 정보에 기초하여 대표 라우드니스 레벨을 획득할 수도 있다. 이 경우, 오디오 신호 처리 장치는 입력 컨텐츠에 대한 라우드니스 측정치에 기초하여 라우드니스 정보를 획득할 수 있다. 본 개시에서, 입력 오디오 신호의 라우드니스 정보는 메타데이터 형식으로 변환된 라우드니스 메타데이터를 포함할 수 있다.
또한, 오디오 신호 처리 장치는 라우드니스 게인에 기초하여 입력 컨텐츠의 출력 라우드니스 레벨을 조정할 수 있다. 구체적으로, 오디오 신호 처리 장치는 입력 컨텐츠에 라우드니스 게인을 적용하여 라우드니스 레벨이 조정된 출력 오디오 신호를 획득할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 처리 장치는 입력 오디오 신호의 라우드니스 메타데이터를 이용하여 입력 오디오 신호의 출력 라우드니스 레벨을 조정할 수 있다. 이를 통해, 오디오 신호 처리 장치는 입력 컨텐츠가 포함하는 입력 오디오 신호의 음질 훼손을 발생시키지 않고 입력 컨텐츠의 라우드니스 레벨을 제어할 수 있다.
예를 들어, 기 설정된 타겟 라우드니스 레벨이 입력 오디오 신호의 대표 라우드니스 레벨에 비해 클 수 있다. 이 경우, 입력 오디오 신호가 기 설정된 타겟 라우드니스 레벨에 따라 출력되면 음질 훼손이 발생할 수 있다. 이에 따라, 오디오 신호 처리 장치는 라우드니스 특성 및 기 설정된 타겟 라우드니스에 기초하여 라우드니스 게인을 획득할 수 있다. 오디오 신호 처리 장치는 라우드니스 특성에 기초하여 입력 오디오 신호의 음질 훼손이 발생하지 않게 하는 라우드니스 게인을 획득할 수 있다. 오디오 신호 처리 장치는 획득된 라우드니스 게인에 기초하여 입력 오디오 신호의 출력 라우드니스 레벨을 조정할 수 있다.
이때, 오디오 신호 처리 장치는 입력 오디오 신호의 라우드니스 메타데이터를 이용하여 라우드니스 정보를 획득할 수 있다. 구체적으로, 오디오 신호 처리 장치는 오디오 신호 처리 장치 외부의 장치로부터 입력 오디오 신호의 라우드니스 메타데이터를 수신할 수 있다. 외부의 장치는 입력 오디오 신호의 라우드니스 특성을 분석하고, 분석된 라우드니스 특성을 기초로 입력 오디오 신호의 라우드니스 메타데이터를 생성할 수 있다. 또한, 외부의 장치는 입력 오디오 신호의 라우드니스 메타데이터를 오디오 신호 처리 장치에게 전송할 수 있다.
이하에서는, 본 발명의 일 실시예에 따라 입력 컨텐츠의 출력 라우드니스 레벨이 조정되는 방법에 관하여 도 2를 참조하여 설명하도록 한다. 도 2는 본 발명의 일 실시예에 따라 제1 오디오 신호 처리 장치(210) 및 제2 오디오 신호 처리 장치(220)를 포함하는 시스템(200)을 나타내는 개략도이다. 도 2에서 제1 오디오 신호 처리 장치(210)는 서버일 수 있다. 도 2에서 제2 오디오 신호 처리 장치(220)는 클라이언트 장치일 수 있다.
도 2에서는 입력 컨텐츠의 라우드니스 정규화를 위한 일련의 동작들이 서버-클라이언트 구조의 시스템에 의해 수행되는 것으로 도시하였으나, 본 개시가 이에 제한되는 것은 아니다. 예를 들어, 도 2를 통해 설명되는 일련의 동작들은 단일의 오디오 신호 처리 장치에 의해 수행될 수도 있다.
본 발명의 일 실시예에 따라, 제1 오디오 신호 처리 장치(210)는 입력 오디오 신호의 라우드니스 메타데이터 생성할 수 있다. 제1 오디오 신호 처리 장치(210)는 생성된 라우드니스 메타데이터를 해당 입력 오디오 신호를 출력하려는 제2 오디오 신호 처리 장치(220)에게 전송할 수 있다. 제2 오디오 신호 처리 장치(220)는 제1 오디오 신호 처리 장치(210)로부터 라우드니스 메타데이터를 수신할 수 있다. 또한, 제2 오디오 신호 처리 장치(220)는 수신된 라우드니스 메타데이터에 기초하여 입력 오디오 신호의 출력 라우드니스 레벨을 조정할 수 있다. 구체적으로, 제2 오디오 신호 처리 장치(220)는 라우드니스 메타데이터에 기초하여 입력 오디오 신호에 적용될 라우드니스 게인을 결정할 수 있다. 또한, 제2 오디오 신호 처리 장치(220)는 결정된 라우드니스 게인에 기초하여 입력 오디오 신호의 라우드니스 레벨을 조정할 수 있다.
구체적으로, 제1 오디오 신호 처리 장치(210)는 입력 컨텐츠를 수신할 수 있다. 본 개시에서 입력 컨텐츠는 복수의 프레임들로 구성된 입력 오디오 신호일 수 있다. 다음으로, 제1 오디오 신호 처리 장치(210)는 입력 컨텐츠의 라우드니스 레벨을 측정할 수 있다. 제1 오디오 신호 처리 장치(210)는 청각 척도에 기반한 라우드니스 필터를 사용하여 오디오 신호의 라우드니스 측정치를 획득할 수 있다. 구체적으로, 라우드니스 필터는 등-라우드니스 곡선(equal-loudness contours)의 역필터, 또는 이를 근사화시킨 케이-가중(K-weighting) 필터 중 적어도 하나일 수 있다.
예를 들어, 제1 오디오 신호 처리 장치(210)는 기 수신된 입력 컨텐츠의 적어도 일부 구간에 라우드니스 필터를 적용하여 라우드니스 측정치를 획득할 수 있다. 여기에서, 일부 구간은 하나의 라우드니스 측정치 획득에 사용되는 단위 시간일 수 있다. 일부 구간은 적어도 하나의 프레임을 포함할 수 있다. 본 개시에서, 하나의 라우드니스 측정치 획득에 사용되는 단위 시간은 측정 윈도우로 지칭될 수 있다.
제1 오디오 신호 처리 장치(210)는 입력 컨텐츠에 대한 측정 윈도우 별 라우드니스 측정치를 획득할 수 있다. 이때, 획득된 라우드니스 측정치는 측정 윈도우의 길이에 따라 순간 라우드니스 레벨 또는 단구간 라우드니스 레벨일 수 있다. 순간 라우드니스 레벨은 단구간 라우드니스 레벨에 비해 짧은 시간 구간동안 측정된 라우드니스 측정치일 수 있다. 예를 들어, 하나의 순간 라우드니스 레벨 획득에 사용되는 측정 윈도우의 길이는 400밀리초(ms)일 수 있다. 또한, 하나의 단구간 라우드니스 레벨 획득에 사용되는 측정 윈도우의 길이는 3초일 수 있다. 그러나 본 개시가 이에 제한되는 것은 아니다. 라우드니스 분석을 위한 측정 윈도우의 길이는 입력 컨텐츠 별로 다를 수 있다. 일 실시예에 따라, 측정 윈도우의 길이는 입력 컨텐츠의 부가 정보에 기초하여 결정될 수도 있다. 오디오 신호 처리 장치가 측정 윈도우의 길이를 결정하는 방법에 대해서는 도 18을 통해 후술하도록 한다.
다음으로, 제1 오디오 신호 처리 장치(210)는 입력 컨텐츠에 대한 라우드니스 측정치에 기초하여 입력 컨텐츠의 라우드니스 정보를 획득할 수 있다. 라우드니스 정보는 입력 컨텐츠에 대한 적어도 하나의 라우드니스 측정치를 포함할 수 있다. 또한, 라우드니스 정보는 입력 컨텐츠에 대한 라우드니스 측정치에 기반하여 연산된 정보를 포함할 수 있다. 제1 오디오 신호 처리 장치(210)는 라우드니스 정보를 실시간으로 업데이트할 수 있다. 예를 들어, 라우드니스 정보는 누적 라우드니스 레벨, 단구간 라우드니스 레벨, 순간 라우드니스 레벨 중 적어도 하나를 포함할 수 있다. 제1 오디오 신호 처리 장치(210)는 입력 컨텐츠에 대한 라우드니스 측정이 시작된 시점부터 현재 시점까지 누적된 복수의 라우드니스 측정치들을 대표하는 누적 라우드니스 레벨을 획득할 수 있다.
본 개시에서, 누적 라우드니스 레벨은 라우드니스 레벨을 측정하는 장치에서 설정된 셋업 시점으로부터 누적된 라우드니스 레벨을 나타낼 수 있다. 일 실시예에 따라, 누적 라우드니스 레벨은 제1 오디오 신호 처리 장치(210)에서 설정된 셋업 시점으로부터 측정된 라우드니스 측정치에 기초하여 산출된 라우드니스 레벨일 수 있다. 예를 들어, 누적 라우드니스 레벨은 셋업 시점으로부터 획득된 구간 별 라우드니스 측정치를 기반으로 계산된 평균 라우드니스 레벨일 수 있다. 이때, 구간 별 라우드니스 측정치는 단구간 라우드니스 레벨 및 순간 라우드니스 레벨 중 어느 하나를 나타낼 수 있다.
일 실시예에 따라, 누적 라우드니스 레벨은 셋업 시점과 현재 시점 사이에서 측정된 유효 라우드니스 측정치들의 평균에 기초하여 획득될 수 있다. 여기에서, 유효 라우드니스 측정치들은 셋업 시점과 현재 시점 사이에서 측정된 복수의 라우드니스 측정치들 중에서 적어도 하나의 기준 요건을 만족하는 라우드니스 측정치들일 수 있다.
예를 들어, 유효 라우드니스 측정치들은 라우드니스 레벨이 특정 레벨 이상인 라우드니스 측정치들일 수 있다. 먼저, 제1 오디오 신호 처리 장치(210)는 복수의 라우드니스 측정치들 중에서 라우드니스 레벨이 제1 임계값 이상인 라우드니스 측정치들에 대한 제1 평균을 연산할 수 있다. 이때, 제1 임계값은 최소 가청 크기에 기초하여 설정된 값일 수 있다. 다음으로, 제1 오디오 신호 처리 장치(210)는 제1 평균의 연산에 이용된 라우드니스 측정치들 중에서 라우드니스 레벨이 제2 임계값 이상인 라우드니스 측정치들에 대한 제2 평균을 연산할 수 있다. 이때, 제2 임계값은 제1 평균으로부터 기 설정된 값을 뺀 값일 수 있다. 또한, 제1 오디오 신호 처리 장치(210)는 제2 평균을 입력 컨텐츠의 누적 라우드니스 레벨로 사용할 수 있다. 한편, 제1 오디오 신호 처리 장치(210)는 특정 요건에 따라 누적 라우드니스 레벨을 위한 셋업 시점을 재설정할 수 있다.
다음으로, 제1 오디오 신호 처리 장치(210)는 라우드니스 정보를 기초로 라우드니스 메타데이터를 생성할 수 있다. 예를 들어, 제1 오디오 신호 처리 장치(210)는 라우드니스 정보로부터 불필요한 정보를 제거하고 제2 오디오 신호 처리 장치(220)가 이해할 수 있는 신택스(Syntax) 형태의 라우드니스 메타데이터를 생성할 수 있다. 추가적으로, 제1 오디오 신호 처리 장치(210)는 입력 오디오 신호와 관련된 부가 정보를 포함하는 라우드니스 메타데이터를 생성할 수 있다. 입력 오디오 신호와 관련된 부가 정보는 입력 오디오 신호의 길이, 장르, 컨텐츠 제공자, 컨텐츠 제작자, 인기도, 시청 횟수, 앨범, 채널 각각을 나타내는 정보 중 적어도 하나를 포함할 수 있다. 이를 통해, 제1 오디오 신호 처리 장치(210)는 입력 오디오 신호를 출력하는 다른 장치가 부가 정보를 이용하여 입력 오디오 신호의 출력 라우드니스 레벨을 조정할 수 있게 한다.
예를 들어, 입력 오디오 신호가 기 재생된 오디오 신호와 동일한 컨텐츠 제작자의 음원일 수 있다. 이 경우, 입력 오디오 신호와 기 재생된 오디오 신호는 유사한 스타일/음색 등 소리적 특성을 가지고 있을 수 있다. 이에 따라, 입력 오디오 신호를 출력하는 장치(예를 들어, 제2 오디오 신호 처리 장치(220)는 기 재생된 오디오 신호의 타겟 라우드니스 레벨을 기초로 입력 오디오 신호의 라우드니스 게인을 결정할 수 있다. 이때, 제2 오디오 신호 처리 장치(220)는 부가 정보를 포함하는 라우드니스 메타데이터에 사용할 수 있다.
다음으로, 제1 오디오 신호 처리 장치(210)에 의해 생성된 라우드니스 메타데이터는 메타데이터 데이터베이스(database, 이하, 'DB')에 저장될 수 있다. 제1 오디오 신호 처리 장치(210)는 제2 오디오 신호 처리 장치(220)로부터 입력 오디오 신호의 라우드니스 메타데이터 요청을 수신할 수 있다. 이 경우, 제1 오디오 신호 처리 장치(210)는 해당 입력 오디오 신호의 라우드니스 메타데이터를 제2 오디오 신호 처리 장치에게 전송할 수 있다.
본 발명의 일 실시예에 따른, 제2 오디오 신호 처리 장치(220)는 제1 오디오 신호 처리 장치(210)로부터 입력 오디오 신호의 라우드니스 정보를 획득할 수 있다. 구체적으로, 제2 오디오 신호 처리 장치(220)는 제1 오디오 신호 처리 장치(210)에게 입력 오디오 신호의 라우드니스 메타데이터를 요청할 수 있다. 또한, 제2 오디오 신호 처리 장치(220)는 제1 오디오 신호 처리 장치(210)로부터 입력 오디오 신호의 라우드니스 메타데이터를 수신할 수 있다. 제2 오디오 신호 처리 장치(220)는 수신된 라우드니스 메타데이터에 기초하여 입력 오디오 신호의 라우드니스 정보를 획득할 수 있다.
제2 오디오 신호 처리 장치(220)는 라우드니스 정보에 기초하여 입력 컨텐츠에 적용되는 라우드니스 게인을 획득할 수 있다. 구체적으로, 제2 오디오 신호 처리 장치(220)는 라우드니스 정보 및 타겟 라우드니스 레벨에 기초하여 라우드니스 게인을 획득할 수 있다. 일 실시예에 따라, 제2 오디오 신호 처리 장치(220)는 입력 컨텐츠의 특정 프레임에 적용되는 라우드니스 게인을 획득할 수 있다. 입력 컨텐츠의 일부 특정 구간에서 프레임 별로 적용되는 라우드니스 게인은 시간에 따라 동적으로 조정될 수도 있다. 특정 구간을 제외한 나머지 구간에서 프레임 별로 적용되는 라우드니스 게인은 동적으로 조정되지 않는 정적 게인일 수 있다. 또한, 입력 컨텐츠의 일부 특정 구간에서 라우드니스 게인은 특정 범위 내의 값으로 제한될 수 있다.
다음으로, 제2 오디오 신호 처리 장치(220)는 라우드니스 게인에 기초하여 입력 컨텐츠의 출력 라우드니스 레벨을 조정할 수 있다. 예를 들어, 제2 오디오 신호 처리 장치(220)는 입력 컨텐츠에 라우드니스 게인을 적용하여 출력 라우드니스 레벨을 조정할 수 있다. 일 실시예에 따라, 라우드니스 게인은 입력 컨텐츠를 구성하는 프레임 별로 적용될 수 있다. 이 경우, 제2 오디오 신호 처리 장치(220)는 각각의 프레임에 대응하는 오디오 신호에 라우드니스 게인을 곱하여 입력 컨텐츠의 출력 라우드니스 레벨을 조정할 수 있다. 제2 오디오 신호 처리 장치(220)는 입력 컨텐츠로부터 라우드니스 게인에 의해 출력 라우드니스 레벨이 조정된 출력 컨텐츠를 획득할 수 있다. 또한, 제2 오디오 신호 처리 장치(220)는 획득된 출력 컨텐츠를 출력할 수 있다. 예를 들어, 제2 오디오 신호 처리 장치(220)는 출력 컨텐츠를 재생할 수 있다. 또는 제2 오디오 신호 처리 장치(220)는 출력 컨텐츠를 유/무선 인터페이스를 통해 재생기기로 전달할 수도 있다.
추가적으로, 제2 오디오 신호 처리 장치(220)는 조정된 출력 라우드니스 레벨의 동적 범위를 제어할 수 있다. 입력 컨텐츠의 특정 프레임에 대한 출력 라우드니스 레벨이 기 설정된 동적 범위를 벗어나는 경우, 클리핑(clipping)에 의한 음질 왜곡이 발생할 수 있기 때문이다. 제2 오디오 신호 처리 장치(220)는 기 설정된 동적 범위에 기초하여 출력 라우드니스 레벨의 동적 범위를 제어할 수 있다. 예를 들어, 제2 오디오 신호 처리 장치(220)는 리미터(limiter) 및 동적 범위 제한기(Dynamic Range Compressor, DRC)와 같은 프로세싱을 사용하여 출력 라우드니스 레벨의 동적 범위를 제어할 수 있다.
도 3은 본 발명의 일 실시예에 따라 입력 오디오 신호의 라우드니스 레벨이 조정되는 방법을 나타내는 흐름도이다. 도 3에서는 설명의 편의를 위해 입력 오디오 신호의 출력 라우드니스 레벨 조정을 위한 일련의 동작들이 단일의 오디오 신호 처리 장치에 의해 수행되는 것으로 설명하고 있으나, 본 개시가 이에 제한되는 것은 아니다. 예를 들어, 도 3을 통해 설명되는 동작들 중 일부는 서버를 통해 수행되고, 나머지 일부는 클라이언트에 의해 수행될 수도 있다.
도 3의 단계 S301에서, 오디오 신호 처리 장치는 입력 오디오 신호에 대한 후처리(Post Processing) 동작을 수행할 수 있다. 예를 들어, 오디오 신호 처리 장치는 입력 오디오 신호에 대한 이퀄라이제이션(equalization) 및 음장 모드 중 적어도 하나의 동작을 수행할 수 있다. 이때, 오디오 신호 처리 장치에 의해 수행되는 이퀄라이제이션 및 음장 모드는 일반적인 미디어 재생 시스템의 동작일 수 있다.
단계 S303에서, 오디오 신호 처리 장치는 입력 오디오 신호의 라우드니스 정보를 추출할 수 있다. 일 실시예에 따라, 단계 S301이 수행되는 경우, 단계 S303에서, 오디오 신호 처리 장치는 후처리의 주파수 특성에 기초하여 라우드니스 정보를 추출할 수 있다. 오디오 신호 처리 장치는 후처리의 주파수 특성에 기초하여 후처리에 의해 변화하는 밴드 별 라우드니스 레벨 정보(weight of post processing, w_Proc)를 획득할 수 있다. 또한, 오디오 신호 처리 장치는 w_Proc를 이용하여 라우드니스 정보를 추출할 수 있다.
예를 들어, 입력 오디오 신호에 대해 전술한 이퀄라이제이션이 수행되는 경우, w_Proc는 해당 주파수 영역에서의 이퀄라이제이션 커브(equalization curve) 정보를 포함할 수 있다. 오디오 신호 처리 장치는 상기 이퀄라이제이션 커브 정보에 기초하여 입력 오디오 신호의 라우드니스 정보를 추출할 수 있다. 입력 오디오 신호에 대해 전술한 음장 모드가 적용되는 경우, w_Proc는 해당 음장 모드에 사용되는 필터의 특성 정보 및 리버브(reverb) 정보 중 적어도 하나를 포함할 수 있다.
다른 일 실시예에 따라, 입력 오디오 신호가 출력되는 환경이 휴대폰에서 사용되는 소형 스피커와 같이 주파수 특성이 균등하지 않고 저주파에 대한 응답이 작은 환경일 수 있다. 이 경우, w_Proc는 해당 출력 환경의 주파수 특성 정보를 포함할 수 있다. 최종적으로, 오디오 신호 처리 장치는 w_Proc에 기초하여 입력 오디오 신호의 출력 라우드니스 레벨을 조정할 수 있다. 이를 통해, 오디오 신호 처리 장치는 입력 오디오 신호가 출력되는 기기의 특성을 반영하는 출력 라우드니스 레벨 조정을 제공할 수 있다.
본 개시의 일 실시예에 따라, 단계 S303에서 추출된 라우드니스 정보는 누적 라우드니스 정보(Integrated Loudness, L_Integ), 품질보장 히스토그램 지표(Quality Secure Histogram Index, QSHI) 및 라우드니스 변화 예측 값(Difference in Loudness by post-Processing, dL_Proc) 중 적어도 하나를 포함할 수 있다. 이때, L_Integ는 ITU-R BS. 1770-4 표준 규격을 따를 수 있다. 또한, QSHI는 출력단 리미터에 의해 인지적 음질 손상이 발생하지 않는 문턱 라우드니스 레벨을 나타낼 수 있다. 본 개시에서, QSHI는 타겟 라우드니스 최대 허용치(maximum target loudness, Max_TL)을 포함할 수 있다. QSHI는 자동 알고리즘에 기초하여 계산되거나 컨텐츠 제작자에 의해 정의될 수 있다. QSHI가 획득되는 구체적인 방법에 대해서는 도 4를 통해 후술하도록 한다. 또한, dL_Proc는 후처리 이후의 입력 오디오 신호의 라우드니스 변화에 대한 예측 값일 수 있다. 오디오 신호 처리 장치는 사용자에 의해 설정된 후처리 정보에 기초하여 dL_Proc를 획득할 수 있다. 오디오 신호 처리 장치는 입력 오디오 신호의 주파수 별 특성 및 w_Proc 중 적어도 하나에 기초하여 dL_Proc를 획득할 수 있다.
단계 S305에서, 오디오 신호 처리 장치는 입력 오디오 신호의 라우드니스 게인(G_target)을 결정할 수 있다. 예를 들어, 오디오 신호 처리 장치는 기 설정된 타겟 라우드니스 레벨(L_target) 및 단계 S303에서 추출된 라우드니스 정보에 기초하여 라우드니스 게인(G_target)을 결정할 수 있다. 이때, 기 설정된 타겟 라우드니스 레벨은 사용자에 의해 설정된 값일 수 있다. 단계 S307에서, 오디오 신호 처리 장치는 단계 S301에서 후처리된 입력 오디오 신호에 최종 라우드니스 게인을 적용하여 출력 오디오 신호를 출력할 수 있다.
이때, 출력 오디오 신호는 리미터를 거친 신호일 수 있다. 예를 들어, 오디오 신호 처리 장치는 후처리된 입력 오디오 신호에 최종 라우드니스 게인을 적용하여 제1 출력 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 제1 출력 오디오 신호에 리미터를 적용하여 제2 출력 오디오 신호를 생성할 수 있다. 최종적으로, 오디오 신호 처리 장치는 리미터가 적용된 제2 출력 오디오 신호를 출력할 수 있다.
이하, 오디오 신호 처리 장치가 라우드니스 정보를 추출하는 방법에 대해 도 4를 통해 구체적으로 설명하도록 한다. 도 4는 본 발명의 일 실시예에 따라 오디오 신호 처리 장치가 입력 오디오 신호의 라우드니스 정보를 추출하는 방법을 구체적으로 나타내는 블록도이다. 도 4에서 설명의 편의를 위해 각각의 유닛/부가 각각의 동작을 수행하는 것으로 기재되어 있으나, 본 개시가 이에 제한되는 것은 아니다. 예를 들어, 도 4의 라우드니스 정보 추출부(400)의 유닛/부들 각각의 동작들은 오디오 신호 처리 장치가 포함하는 프로세서에 의해 수행되는 일련의 동작들일 수 있다.
도 4를 참조하면, 라우드니스 정보 추출부(400)는 라우드니스 측정부(401), 주파수 별 라우드니스 분석부(402), 후처리 라우드니스 예측부(403), 및 QSHI 추출부(404)를 포함할 수 있다. 라우드니스 정보 추출부(400)는 도 3의 단계 S303을 통해 설명한 동작들을 수행할 수 있다.
일 실시예에 따라, 라우드니스 측정부(401)는 입력 오디오 신호의 라우드니스 측정치를 획득할 수 있다. 예를 들어, 라우드니스 측정부(401)는 입력 오디오 신호의 단구간 라우드니스 레벨 및 누적 라우드니스 레벨 중 적어도 하나를 획득할 수 있다. 구체적으로, 라우드니스 측정부(401)는 표준 규격 ITU-R BS. 1770-4에서의 예와 같은 과정을 통해 입력 오디오 신호로부터 누적 라우드니스 정보(L_Integ) 및 단구간 라우드니스 정보(L_ShortTerm)를 획득할 수 있다.
일 실시예에 따라, 주파수 별 라우드니스 분석부(402)는 입력 오디오 신호 전체의 주파수 별 라우드니스 비율 (Multi-band Weight in loudness, WLoud_MB)를 획득할 수 있다. 예를 들어, 주파수 별 라우드니스 분석부(402)는 입력 오디오 신호에 케이-가중 필터를 적용하여 WLoud_MB를 획득할 수 있다. 주파수 별 라우드니스 분석부(402)는 케이-가중 필터가 적용된 신호를 주파수 변환하여 WLoud_MB를 계산할 수 있다.
이하에서는, 수학식 1 내지 수학식 8을 참조하여 주파수 별 라우드니스 분석부(402)가 WLoud_MB를 계산하는 구체적인 방법에 대해 설명하도록 한다.
[수학식 1]
x_k = filter ( h_kweight, x_in ),
또는
x_k = filter ( h_pre2_kweight, filter ( h_pre1_kweight, x_in ) )
*수학식 1에서, x_k는 입력 오디오 신호(x_in)에 대해 케이-가중 필터가 적용된 신호를 나타낸다. 수학식 1에서, “filter(A,B)”는 입력 오디오 신호 B를 필터 계수 A로 필터링하는 연산을 나타낸다. 수학식 1에서, h_kweight는 단일의 케이-가중 필터를 나타낼 수 있다. 또한, h_pre2_kweight 및 h_pre1_kweight 각각은 ITU-R BS.1770-4에서 정의하는 1차 사전 필터(pre-filter)와 2차 사전 필터를 나타낼 수 있다. 주파수 별 라우드니스 분석부(402)는 입력 오디오 신호에 케이-가중 필터 계수를 필터링하여 적용할 수 있다. 도 5는 ITU-R BS.1770-4에서 정의하는 1차 사전 필터의 주파수 응답을 나타낸다. 또한, 도 6은 2차 사전 필터의 주파수 응답을 나타낸다.
수학식 1을 통해 얻어진 신호 x_k의 프레임(frame) 별 신호는 수학식 2와 같이 표현될 수 있다. 수학식 2에서, x_frame[l]는 신호 x_k의 l-번째 프레임의 신호를 나타낸다. 여기에서, NF는 프레임의 길이를 나타내고, NH는 홉 사이즈를 나타낼 수 있다.
[수학식 2]
x_frame[l] = x_k[ ((l-1)*NH+1) : ((l-1)*NH+NF) ]
다음으로, 수학식 3을 참조하면, 주파수 별 라우드니스 분석부(402)는 x_frame[l]를 윈도우 연산(windowing)하여 xw_frame[l][-]을 획득할 수 있다. 이때, 주파수별 라우드니스 분석부(402)는 윈도우 함수의 모든 계수가 1인 직사각형 윈도우(rectangular window) 함수를 사용하여 xw_frame[l][-]을 획득할 수 있다. 또는 주파수별 라우드니스 분석부(402)는 해밍 윈도우(hamming window) 함수 또는 해닝 윈도우(hanning window) 함수와 같은 다양한 윈도우 함수를 사용하여 xw_frame[l][-]을 획득할 수 있다. 윈도우 연산은 입력 오디오 신호의 주파수 분석을 위한 동작일 수 있다. 수학식 3에서, wind[n]는 윈도우 함수의 n-번째 계수를 나타내고, n은 윈도우의 샘플 넘버가 될 수 있다. 예를 들어, NF가 512인 경우, n의 값은 1부터 512 중 어느 하나일 수 있다.
[수학식 3]
xw_frame[l][n] = x_frame[l][n] * wind[n] for n=1, 2, …NF
또한, 주파수 별 라우드니스 분석부(402)는 xw_frame[l][-]을 이산 푸리에 변환(Discrete Fourier Transform, DFT)할 수 있다. xw_frame[l][-]로부터 이산 푸리에 변환된 주파수 영역 신호(XW_frame[l])는 수학식 4와 같이 표현될 수 있다. XW_frame[l]는 수학식 4에서 DFT{x}는 시간 영역의 신호 'x'의 이산 푸리에 변환을 나타낸다.
[수학식 4]
XW_frame[l] = DFT { xw_frame[l][1:NF] }
다음으로, 수학식 5를 참조하면, 주파수 별 라우드니스 분석부(402)는 변환된 주파수 신호 XW_frame[l]의 주파수 빈(bin) 별 파워(power)를 획득할 수 있다. 수학식 5에서, P_frame_bin[l][k]는 l-번째 프레임의 k-번째 주파수 빈에서의 파워를 나타낸다. 또한, conj(x)는 'x'의 켤레 함수(conjugation function)를 나타낸다.
[수학식 5]
P_frame_bin[l][k] = XW_frame[l][k] * conj(XW_frame[l][k]) for k=1, 2, …NF
다음으로, 수학식 6을 참조하면, 주파수 별 라우드니스 분석부(402)는 P_frame_bin[l][k]를 기 설정된 주파수 밴드에 매핑하여 l-번째 프레임의 주파수 밴드 별 파워(P_frame_band[l][b])를 획득할 수 있다. 수학식 6에서, band[b]는 b-주파수 밴드의 시작 주파수 빈의 인덱스를 나타낸다. 즉, 주파수 별 라우드니스 분석부(402)는 band[b]부터 band[b+1]-1까지의 주파수 빈 별 파워들을 합하여 주파수 밴드 별 파워를 획득할 수 있다. 수학식 6에서, sum_{y} (x)는 인덱스 k를 인자로 가지는 함수 'x' 인덱스 별 합을 나타낼 수 있다. 이때, 'y'는 해당 연산을 위한 인덱스의 범위를 나타낼 수 있다.
[수학식 6]
P_frame_band[l][b]
= sum_{k from band[b] to band[b+1]-1} (P_frame_bin[l][k])
수학식 7을 참조하면, 주파수 별 라우드니스 분석부(402)는 l-번째 프레임의 주파수 밴드 별 파워(P_frame_band[l][b])에 기초하여 입력 오디오 신호 전 구간의 주파수 밴드 별 파워(P_band[b])를 획득할 수 있다. 주파수 별 라우드니스 분석부(402)는 프레임 별로 획득된 주파수 밴드 별 파워(P_frame_band[l][b])를 동일한 주파수 밴드끼리 합하여 입력 오디오 신호의 전체 구간의 주파수 밴드 별 파워(P_band[b]) 획득할 수 있다. 수학식 7에서, NumberOfFrames는 전체 frame의 개수를 나타낸다. 또한, 프레임 인덱스를 나타내는 l은 1부터 NumberOfFrames까지의 범위 내에서 정의된다.
[수학식 7]
P_band[b] = sum_{l from 1 to NumberOfFrames} (P_frame_band[l][b])
다음으로, 수학식 8을 참조하면, 주파수 별 라우드니스 분석부(402)는 주파수 밴드 별 파워(P_band[b])에 기초하여 주파수 밴드 별 라우드니스 비율(WLoud_MB[b])를 획득할 수 있다. 구체적으로, 주파수 별 라우드니스 분석부(402)는 특정 주파수 밴드 별 파워(P_band[b])를 전체 주파수 밴드 별 파워들 각각의 합에 기초하여 정규화(normalize)할 수 있다. 수학식 8에서, NumberOfBands는 분할된 주파수 밴드의 전체 개수를 나타낸다. 또한, 밴드 인덱스를 나타내는 b는 1부터 NumberOfBands까지의 범위 내에서 정의된다.
[수학식 8]
WLoud_MB[b] = P_band[b]/ [sum_{b from 1 to NumberOfBands} (P_band[b])]
수학식 8을 통해서 계산된 WLoud_MB[b]는 입력 오디오 신호의 주파수 밴드 별 누적 라우드니스 레벨의 비율을 나타낸다. 예를 들어, 입력 오디오 신호가 2-밴드 신호이고, 입력 오디오 신호의 누적 라우드니스 레벨이 L_Integ=-20 LKFS 이고, WLoud_MB[10] = 0.8, WLoud_MB[1] = 0.2일 수 있다. 이 경우, 입력 오디오 신호의 첫 번째 주파수 밴드에 대한 라우드니스 레벨은 -20 + 10*log10(0.8) = -20.97 LKFS 이고, 두 번째 주파수 밴드에 대한 라우드니스 레벨은 -20 + 10*log10(0.2) = -26.99 LKFS로 예측될 수 있다.
일 실시예에 따라, 후처리 라우드니스 예측부(403)는 후처리에 의해 변화하는 밴드 별 라우드니스 레벨 정보(w_Proc) 및 입력 오디오 신호 전체의 주파수 별 라우드니스 비율(WLoud_MB) 중 적어도 하나에 기초하여 라우드니스 변화 예측 값을 획득할 수 있다.
이때, 후처리 라우드니스 예측부(403)는 주파수별 라우드니스 분석부(402)를 통해 획득된 입력 오디오 신호 전체의 주파수 별 라우드니스 비율(WLoud_MB)를 사용할 수 있다. 또한, 후처리에 의해 변화하는 밴드 별 라우드니스 레벨 정보(w_Proc)는 입력 오디오 신호에 대한 후처리의 특성에 따라 획득될 수 있다. 입력 오디오 신호에 대한 후처리의 특성은 사용자에 의해 입력된 정보에 기초하여 결정될 수 있다.
구체적으로, 입력 오디오 신호에 사용자에 의해 설정된 이퀄라이제이션이 적용되고, NumberOfBands개의 주파수 밴드 각각에 대하여 해당 이퀄라이제이션의 주파수 밴드 별 게인이 데시벨(decibel) 단위에서 w_ProcBand_dB로 설정되고, 해당 이퀄라이제이션의 전체 게인은 w_ProcGain_dB로 설정될 수 있다. 이 경우, 주파수 별 라우드니스 분석부(402)는 주파수 밴드 별 게인(w_ProcBand_dB) 및 전체 게인(w_ProcGain_dB)에 기초하여 주파수 밴드 별 라우드니스 비율을 획득할 수 있다. 주파수 별 라우드니스 분석부(402)가 주파수 밴드 별 라우드니스 비율을 획득하기 위해 연산하는 방법은 수학식 9와 같이 나타낼 수 있다.
[수학식 9]
w_Proc[b] = 10^((w_ProcBand_dB[b] + 0.5*w_ProcGain_dB)/10)
for 1=<b=<NumberOfBands
또한, 후처리 라우드니스 예측부(403)가 라우드니스 변화 예측 값(dL_Proc)을 획득하는 방법은 수학식 10과 같이 나타낼 수 있다.
[수학식 10]
dL_Proc = 10 * log10 ( sum_{b from 1 to NumberOfBands} (WLoud_MB[b] * w_Proc[b]) )
일 실시예에 따라, QSHI 추출부(404)는 단구간 라우드니스 정보(L_ShortTerm)에 기초하여 품질보장 히스토그램 지표(QSHI)를 추출할 수 있다. 전술한 바와 같이 품질보장 히스토그램 지표(이하, 'QSHI')는 인지적 음질 손상이 발생하지 않는 문턱 라우드니스 레벨일 수 있다. QSHI 추출부(404)는 라우드니스 측정부(401)를 통해 획득한 단구간 라우드니스 정보(L_ShortTerm)를 기초로 QSHI를 획득할 수 있다.
예를 들어, QSHI 추출부(404)는 단구간 라우드니스 정보(L_ShortTerm)를 분석하여 QSHI를 획득할 수 있다. 이때, 단구간 라우드니스 정보(L_ShortTerm)는 입력 오디오 신호의 하나 이상의 단구간 라우드니스 레벨을 포함할 수 있다. 구체적으로, QSHI 추출부(404)는 하나 이상의 단구간 라우드니스 레벨에 기초하여 입력 오디오 신호의 단구간 라우드니스 크기 별 히스토그램을 획득할 수 있다. 또한, QSHI 추출부(404)는 획득된 단구간 라우드니스 크기 별 히스토그램에 기초하여 입력 오디오 신호의 QSHI를 획득할 수 있다.
이하에서는, 수학식 11 및 수학식 12를 참조하여 QSHI 추출부(404)가 입력 오디오 신호의 단구간 라우드니스 정보(L_ShortTerm)로부터 QSHI를 추출하는 구체적인 방법을 설명하도록 한다. 수학식 11에서, L_ShortTerm_Sorted는 입력 오디오 신호의 단구간 라우드니스 정보(L_ShortTerm)가 포함하는 하나 이상의 단구간 라우드니스 레벨이 크기 순으로 정렬된 정보를 나타낸다. 예를 들어, QSHI 추출부(404)는 하나 이상의 단구간 라우드니스 레벨을 내림차순('descending')으로 정렬할 수 있다.
[수학식 11]
L_ShortTerm_Sorted = sort ( L_ShortTerm, 'descending' )
또한, QSHI 추출부(404)는 L_ShortTerm_Sorted를 기초로 입력 오디오 신호의 하나 이상의 단구간 라우드니스 레벨 중에서 기 설정된 인덱스에 대응하는 라우드니스 레벨을 획득할 수 있다. 수학식 12에서, EffectiveIndex는 기 설정된 유효 인덱스를 나타낼 수 있다. 구체적으로, 기 설정된 유효 인덱스(EffectiveIndex)는 입력 오디오 신호의 하나 이상의 단구간 라우드니스 레벨 중에서 크기 순으로 기 설정된 순서의 단구간 라우드니스 레벨을 지시할 수 있다. 즉, QSHI 추출부(404)는 입력 오디오 신호의 하나 이상의 단구간 라우드니스 레벨 중에서 EffectiveIndex-번째로 큰 단구간 라우드니스 레벨을 획득할 수 있다. 이때, 입력 오디오 신호의 하나 이상의 단구간 라우드니스 레벨 중에서 EffectiveIndex번째로 큰 단구간 라우드니스 레벨은 입력 오디오 신호의 유효 단구간 라우드니스 레벨(L_ShortTerm_Effective)로 지칭될 수 있다.
[수학식 12]
L_ShortTerm_Effective = L_ShortTerm_Sorted[EffectiveIndex]
다음으로, QSHI 추출부(404)는 입력 오디오 신호의 유효 단구간 라우드니스 레벨(L_ShortTerm_Effective) 및 누적 라우드니스 레벨 중 적어도 하나에 기초하여 QSHI를 획득할 수 있다. 또한, QSHI는 누적 라우드니스 레벨보다 크거나 동일한 값일 수 있다.
추가적으로, QSHI 추출부(404)는 입력 오디오 신호가 기 설정된 타겟 라우드니스 레벨에 따라 출력되는 경우의 변경될 유효 단구간 라우드니스 레벨(L_ShortTerm_Effective_Shift)을 획득할 수 있다. 구체적으로, QSHI 추출부(404)는 입력 오디오 신호의 단구간 라우드니스 정보(L_ShortTerm)를 기초로 변경될 단구간 라우드니스 정보(L_ShortTerm_Shft)를 예측할 수 있다. 이때, 변경될 단구간 라우드니스 정보(L_ShortTerm_Shft)는 입력 오디오 신호가 기 설정된 타겟 라우드니스 레벨에 따라 출력되는 경우의 하나 이상의 변경될 단구간 라우드니스 레벨을 포함할 수 있다. 이 경우, QSHI 추출부(404)는 획득된 L_ShortTerm_Effective_Shift를 기초로 QSHI를 획득할 수 있다. 예를 들어, QSHI는 L_ShortTerm_Effective_Shift[EffectiveIndex] 단구간 라우드니스 레벨의 역치 값 이하가 되도록 제한하는 경우의 타겟 라우드니스 최대 허용치일 수 있다.
예를 들어, 입력 오디오 신호의 L_ShortTerm_Effective_Shift는 단구간 라우드니스 레벨의 역치 값(L_Threshold)으로 사용될 수 있다. QSHI 추출부(404)는 L_ShortTerm_Effective_Shift에 기초하여 타겟 라우드니스 최대 허용치를 보정할 수 있다. QSHI 추출부(404)는 보정된 타겟 라우드니스 최대 허용치를 QSHI의 값으로 사용할 수 있다. 또는 QSHI 추출부(404)는 상기 방식으로 보정된 타겟 라우드니스 최대 허용치와 입력 오디오 신호의 누적 라우드니스 중 큰 값을 QSHI의 값으로 선택할 수 있다.
상기 방법을 통해, 오디오 신호 처리 장치는 상대적으로 리미터에 의한 입력 오디오 신호의 음질 저하를 효과적으로 방지할 수 있다. 입력 오디오 신호의 전체 구간 중에서 상대적으로 음량이 크게 설정된 부분은 리미터에 의해 음질 저하가 발생할 수 있기 때문이다.
일 실시예에 따라, QSHI는 입력 오디오 신호의 하나 이상의 단구간 라우드니스 레벨 중에서 특정 값 보다 큰 단구간 라우드니스 레벨의 개수가 EffectiveIndex보다 작도록 설정된 값일 수 있다. 이때, EffectiveIndex는 오디오 신호 처리 장치의 리미터의 특성을 기초로 결정된 값일 수 있다. 예를 들어, EffectiveIndex는 리미터의 동작에 의해 발생하는 음질 저하의 정도에 따라 변경될 수 있다. 추가적으로, 단구간 라우드니스 역치 값(L_Threshold)은 오디오 신호 처리 장치의 리미터의 특성을 기초로 결정된 값일 수 있다. 예를 들어, 단구간 라우드니스 역치 값(L_Threshold) 는 리미터의 동작에 의해 발생하는 음질 저하의 정도에 따라 변경될 수 있다.
구체적인 실시예에 따라, 입력 오디오 신호가 상대적으로 큰 동적 범위를 가질 수 있다. 예를 들어, 입력 오디오 신호의 누적 라우드니스 레벨이 L_Integ = -24LKFS이고, 유효 단구간 라우드니스 레벨이 L_ShortTerm_Effective = -10LKFS으로 추출될 수 있다. 이 경우, EffectiveIndex = 10, 단구간 라우드니스 역치 값= -7LKFS로 설정했을 때, QSHI는 -21LKFS로 계산될 수 있다.
전술한 실시예에서는 입력 오디오 신호의 QSHI가 단구간 라우드니스 크기 별 히스토그램에 기초하여 추출되는 방법에 대하여 서술하였으나, 본 개시가 이에 제한되는 것은 아니다. 예를 들어, 입력 오디오 신호의 QSHI는 입력 오디오 신호를 포함하는 컨텐츠의 제작자 또는 입력 오디오 신호를 출력하는 음향 시스템의 운영자에 의해 임의로 설정된 값으로 정의될 수도 있다. 또한, 오디오 신호 처리 장치는 단구간 라우드니스 레벨 외에 입력 오디오 신호의 피크 값(peak envelope), RMS 중 적어도 하나에 대한 히스토그램 분석을 수행하여 QSHI를 획득할 수 있다.
일 실시예에 따라, 입력 오디오 신호의 QSHI는 단구간 라우드니스 크기 별 히스토그램의 변화에 따라 달라질 수 있다. 예를 들어, 전술한 단구간 라우드니스 크기 별 히스토그램은 사용자의 입력에 따라 결정된 후처리 여부에 따라 변화할 수 있다. 이 경우, 입력 오디오 신호의 QSHI는 기 설정된 테이블에 기초하여 다른 값으로 변경될 수 있다. 또는 입력 오디오 신호의 QSHI는 후처리의 특성에 기초하여 연산된 값으로 변경될 수도 있다.
추가적으로, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 전술한 라우드니스 정보에 기초하여 입력 오디오 신호의 라우드니스 게인을 결정하는 방법에 대해 설명하도록 한다. 수학식 13은 입력 오디오 신호에 대한 후처리 과정이 수행된 경우, 입력 오디오 신호의 변화된 누적 라우드니스 레벨(L_IntegProc)을 나타낸다. 오디오 신호 처리 장치는 후처리에 의한 라우드니스 변화 예측 값(dL_Proc)을 기초로 입력 오디오 신호의 변화된 누적 라우드니스 레벨(L_IntegProc)을 획득할 수 있다. 수학식 13을 참조하면, 오디오 신호 처리 장치는 입력 오디오 신호의 누적 라우드니스 레벨에 후처리에 의한 라우드니스 변화 예측 값(dL_Proc)을 더해 변화된 누적 라우드니스 레벨(L_IntegProc)을 획득할 수 있다.
[수학식 13]
L_IntegProc = L_Integ + dL_Proc
오디오 신호 처리 장치는 전술한 QSHI, 기 설정된 타겟 라우드니스 레벨(L_Target) 및 후처리에 의해 변화된 누적 라우드니스 레벨을 기반으로 출력 라우드니스 레벨 조정을 위한 라우드니스 게인을 계산할 수 있다.
전술한 실시예에서, 타겟 라우드니스 레벨(L_Target)을 사용자에 의해 설정된 값일 수 있다. 그러나 본 개시가 이에 제한되는 것은 아니다. 예를 들어, 기 설정된 타겟 라우드니스 레벨(L_Target)은 입력 오디오 신호를 출력하는 재생 시스템에서 제공하는 디폴트 값일 수 있다. 또는 기 설정된 타겟 라우드니스 레벨(L_Target)은 입력 오디오 신호를 출력하는 재생 환경에 기초하여 설정된 값일 수 있다. 오디오 신호 처리 장치는 입력 오디오 신호로부터 후처리된 제1 중간 오디오 신호에 라우드니스 게인(G_Target)을 적용할 수 있다. 실질적인 구현상의 편이상, 후처리 이전의 입력 오디오 신호에 라우드니스 게인(G_Target)이 곱해진 후 후처리 과정이 수행될 수도 있다. 또한, 오디오 신호 처리 장치는 라우드니스 게인(G_Target)이 적용된 제2 중간 오디오 신호를 리미터에 통과시켜 출력할 수 있다.
한편, 멀티미디어 스트리밍 서비스(multimedia streaming service)는 현재 미디어 시장에서 널리 쓰이는 방식이다. 멀티미디어 스트리밍 서비스를 제공하는 시스템은 일반적으로 스트리밍의 대상이 되는 컨텐츠를 저장하는 서버와 사용자 기기(즉, 클라이언트)로 구성될 수 있다. 이때, 클라이언트 측에서 멀티미디어 스트리밍 서비스는 어플리케이션(application) 내 재생 또는 웹(web) 내 재생 형태로 제공될 수 있다. 서버 및 클라이언트 각각은 본 개시에서 설명하는 동작들을 수행하는 오디오 신호 처리 장치일 수 있다. 이와 같은 서버-클라이언트 구조에서, 서버는 입력 컨텐츠 분석을 수행하여 라우드니스 정보를 제공할 수 있다. 또한, 클라이언트는 서버로부터 제공된 라우드니스 정보에 기초하여 입력 컨텐츠의 출력 라우드니스 레벨을 조정할 수 있다. 구체적으로, 서버는 입력 오디오 신호의 라우드니스 정보를 포함하는 라우드니스 메타데이터를 클라이언트에게 전송할 수 있다. 클라이언트는 서버로부터 입력 오디오 신호의 라우드니스 메타데이터를 수신할 수 있다. 또한, 클라이언트는 입력 오디오 신호의 라우드니스 메타데이터에 기초하여 입력 오디오 신호에 적용되는 라우드니스 게인을 획득할 수 있다.
도 7은 본 발명의 일 실시예에 따른 서버가 입력 오디오 신호의 라우드니스 메타데이터를 생성하는 방법을 나타내는 도면이다. 본 발명의 일 실시예에 따른 서버는 입력오디오 신호를 인코딩하여 오디오 스트림을 생성 및/또는 출력할 수 있다. 본 발명의 일 실시예에 따른 서버는 입력 오디오 신호의 라우드니스 정보를 추출할 수 있다. 예를 들어, 도 7의 서버는 도 3의 라우드니스 정보 추출(단계 S303)을 참조하여 설명된 동작들 및 도 4의 라우드니스 정보 추출부(400)를 참조하여 설명된 동작들을 수행할 수 있다. 또한, 서버는 추출된 라우드니스 정보를 포함하는 라우드니스 메타데이터를 생성할 수 있다. 서버는 생성된 라우드니스 메타데이터를 외부의 장치로 출력할 수 있다. 예를 들어, 서버는 생성된 라우드니스 메타데이터를 메타데이터 스트림의 형태로 클라이언트에게 전송할 수 있다.
도 8은 본 발명의 일 실시예에 따른 클라이언트가 라우드니스 메타데이터를 사용하여 입력 오디오 신호를 출력하는 방법을 나타내는 도면이다. 본 발명의 일 실시예에 따른 클라이언트는 오디오 스트림을 수신할 수 있다. 또한, 클라이언트는 수신된 오디오 스트림은 디코딩하여 입력 오디오 신호를 획득할 수 있다. 클라이언트는 입력 오디오 신호에 대한 후처리 과정을 수행할 수 있다. 이때, 후처리 과정의 수행 여부 및 특성은 사용자로부터 수신된 입력 또는 시스템에 기 저장된 설정 값에 기초하여 결정될 수 있다.
본 발명의 일 실시예에 따른 클라이언트는 입력 오디오 신호의 라우드니스 메타데이터에 기초하여 입력 오디오 신호의 라우드니스 게인을 결정할 수 있다. 예를 들어, 클라이언트는 메타데이터 스트림 형태의 라우드니스 메타데이터를 수신할 수 있다. 클라이언트는 입력 오디오 신호의 라우드니스 메타데이터를 파싱하여 입력 오디오 신호의 라우드니스 정보를 획득할 수 있다. 구체적으로, 클라이언트는 입력 오디오 신호의 라우드니스 메타데이터로부터 도 3 및 도 4를 통해 전술한 WLoud_MB, L_Integ 및 QSHI 중 적어도 하나를 획득할 수 있다. 클라이언트는 획득된 라우드니스 정보에 기초하여 입력 오디오 신호의 라우드니스 게인을 결정할 수 있다. 클라이언트는 입력 오디오 신호에 라우드니스 게인을 적용하여 출력 라우드니스 레벨을 조정할 수 있다. 클라이언트는 출력 라우드니스 레벨이 조정된 중간 오디오 신호에 리미터를 적용하여 출력 오디오 신호를 생성할 수 있다. 또한, 클라이언트는 출력 오디오 신호를 출력할 수 있다.
일 실시예에 따라, 도 8의 클라이언트는 도 3의 후처리(단계 S301), 라우드니스 게인 결정(단계 S305), 라우드니스 게인 적용(단계 S307)을 참조하여 설명된 동작들 및 도 4의 후처리 라우드니스 예측부(403)를 참조하여 설명된 동작들을 수행할 수 있다.
한편, 음악 컨텐츠는 시대 및/또는 장르에 따라 다양한 라우드니스를 가질 수 있다. 예를 들어, 클래식 음악의 누적 라우드니스 레벨은 넓은 동적 범위를 제공하기 위해 상대적으로 낮은 반면, 2000년대의 팝음악의 누적 라우드니스 레벨은 상대적으로 크다. 구체적으로, 2000년대의 팝음악의 누적 라우드니스 레벨은 -13~-8 LKFS이고, 클래식 음악 중 조용한 악장의 누적 라우드니스 레벨은 -30 LKFS 정도일 수 있다.
타겟 라우드니스 레벨을 결정함에 있어서, 방송 표준에서 정의하고 있는 -23~-24LKFS를 활용할 수 있다. 그러나, 이는 지하철과 같은 시끄러운 환경에서는 외부 잡음 대비 충분한 음량을 제공하지 않을 수 있다. 이에 따라, 본 발명의 일 실시예에 따른 오디오 신호 처리 장치는 재생 환경에 따라 서로 다른 타겟 라우드니스 레벨을 결정할 수 있다. 2000년대의 팝음악의 타겟 라우드니스 레벨을 -10으로 설정하는 경우, 2000년대의 팝음악의 음량은 큰 변화가 없을 수 있다. 반면, 클래식이나 1970~80년대의 음악과 같이 상대적으로 낮은 통합 라우드니스 레벨을 가지는 음악의 타겟 라우드니스 레벨을 -10으로 설정하는 경우, 음량의 변화가 클 수 있다.
도 9는 본 발명의 일 실시예에 따라 입력 오디오 신호의 단구간 라우드니스 크기 별 히스토그램을 나타내는 도면이다. 도 9를 통해 설명되는 실시예에서, 입력 오디오 신호의 장르는 클래식일 수 있다. 또한, 도 9를 통해 설명되는 실시예에서, 입력 오디오 신호의 누적 라우드니스는 -21 LKFS일 수 있다. 예를 들어, 해당 입력 오디오 신호의 타겟 라우드니스 레벨은 L_Target = -10 LKFS일 수 있다. 이 경우, 단구간 라우드니스 크기 별 히스토그램은 우측으로 +11 LKFS 이동한다. 이때, -7 LKFS보다 큰 단구간 라우드니스 레벨을 갖는 구간이 발생하게 된다.
일 실시예에 따라, -7 LKFS보다 큰 단구간 라우드니스 레벨을 가지는 구간에서 리미터에 의한 음질을 열화가 발생할 수 있다. 이에 따라, 본 발명의 일 실시예에 따른 오디오 신호 처리 장치는 전술한 바와 같이 QSHI에 기초하여 입력 오디오 신호의 라우드니스 정규화를 수행할 수 있다. 이 경우, 라우드니스 정규화 성능이 상대적으로 감소할 수 있으나 음질 훼손을 방지하는 내에서 가장 적극적으로 맞추는 베스트-에포트(Best-effort) 방법을 사용할 수 있다.
본 발명의 일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호의 라우드니스 정보에 기초하여 타겟 라우드니스 레벨에 최대한 가깝게 하는 라우드니스 게인 보정 방식을 사용할 수 있다. 오디오 신호 처리 장치는 해당 방식을 이용하여 라우드니스 레벨이 변화하지 않는 이퀄라이제이션을 제공할 수 있다.
이퀄라이제이션은 입력 오디오 신호의 주파수 별 에너지를 조절하여 사용자가 원하는 음색을 가지도록 하는 것이다. 이때, 입력 오디오 신호의 조절 정도에 따라서 전체적인 에너지가 커지는 현상이 발생할 수 있다. 이 경우, 입력 오디오 신호가 클리핑(Clipping)될 수 있다. 또한, 리미터에 의해 입력 오디오 신호 대비 음질 훼손이 발생하기도 한다. 이에 따라, 본 발명의 일 실시예에 따른 오디오 신호 처리 장치는 기 설정된 타겟 라우드니스 레벨(L_Target), 누적 라우드니스 레벨(L_Integ), 및 QSHI를 동일한 임의의 값으로 설정할 수 있다. 이 경우, 입력 오디오 신호의 라우드니스 게인(G_Target)은 수학식 14와 같이 표현될 수 있다. 즉, 오디오 신호 처리 장치는 선형의 라우드니스 게인(G_Target)을 획득할 수 있다. 타겟 라우드니스 레벨(L_Target), 누적 라우드니스 레벨(L_Integ), 및 QSHI이 서로 상쇄되기 때문이다.
[수학식 14]
G_Target = power ( 10, -dL_Proc) / 20
오디오 신호 처리 장치는 수학식 14의 라우드니스 게인(G_Target)을 입력 오디오 신호에 적용시킬 수 있다. 오디오 신호 처리 장치는 후처리에 의한 라우드니스 변화를 보정하여 입력 오디오 신호의 라우드니스 레벨과 동일한 출력 라우드니스 레벨을 제공할 수 있다. 오디오 신호 처리 장치는 후처리에 의한 라우드니스 변화를 보정하여 입력 오디오 신호의 라우드니스 레벨을 유지할 수 있다. 오디오 신호 처리 장치는 후처리에 의한 라우드니스 변화 예측 값을 이용하여 중간 오디오 신호의 라우드니스 레벨을 입력 오디오 신호의 라우드니스 레벨과 동일하게 설정할 수 있다. 이때, 중간 오디오 신호는 입력 오디오 신호로부터 후처리된 신호일 수 있다. 이는 오디오 신호 처리 장치가 후처리 과정을 통해 입력 오디오 신호 대비 톤(tone)이 변경되지만 본래 입력 오디오 신호의 라우드니스 레벨과 동일하게 제공함을 의미한다. 한편, 후처리에 의한 라우드니스 변화 예측 값은 도 3 및 도 4를 통해 전술한 방법으로 획득될 수 있다. 후처리에 의한 라우드니스 변화 예측 값은 분석에 의하여 제공된 WLoud_MB 또는 컨텐츠의 특성에 기반한 WLoud_MB에 기초하여 획득될 수 있다.
도 10은 본 발명의 일 실시예에 따라 오디오 신호 처리 장치가 타겟 라우드니스 레벨 및 인지적 음질 열화를 고려하여 입력 오디오 신호의 라우드니스 게인을 최적화하는 시스템을 나타내는 블록도이다. 오디오 신호 처리 장치는 입력 오디오 신호의 타겟 라우드니스 레벨 및 라우드니스 정보에 기초하여 동적 프로세서가 수용할 수 있는 타게 라우드니스 게인을 결정할 수 있다. 여기에서, 동적 프로세서는 전술한 리미터(limiter) 또는 컴프레서(compressor)와 같이 라우드니스 레벨에 따라 신호를 클리핑하는 처리 과정을 나타낼 수 있다. 입력 오디오 신호의 라우드니스 정보는 누적 라우드니스 레벨, 단구간 라우드니스 레벨, 순간 라우드니스 레벨, 샘플 피크, 트루 피크, 라우드니스 범위, 및 RMS(root- mean-square) 중 적어도 하나를 포함할 수 있다.
이하에서는, 오디오 신호 처리 장치가 입력 오디오 신호의 라우드니스 게인을 결정하는 구체적인 실시예에 대해 설명하도록 한다. 일 실시예에 따라 사용자가 설정 할 수 있는 타겟 라우드니스 레벨의 최대값은 -10LKFS이고, 입력 오디오 신호의 누적 라우드니스는 -22LKFS일 수 있다. 또한, 입력 오디오 신호의 복수의 단구간 라우드니스 레벨 중에서 열 번째에 해당하는 단구간 라우드니스 레벨은 -18LKFS일 수 있다. 이때, 열 번째에 해당하는 단구간 라우드니스 레벨은 전술한 도 4의 QSHI 추출부(404)를 참조하여 설명한 유효 단구간 라우드니스 레벨(L_ShortTerm_Effective)의 구체적인 실시예일 수 있다. 즉, -18LKFS은 DRC에 의한 음질 열화 여부를 판별하는 지표로 활용될 수 있다. 타겟 라우드니스 레벨의 최대값이 -10LKFS인 경우, 최대 증폭량은 12 LU (Loudness Unit)일 수 있다. 이 경우, 오디오 신호 처리 장치는 최대 증폭량 만큼 증폭시킨 열 번째 단구간 라우드니스 레벨을 기초로 QSHI를 획득할 수 있다.
오디오 신호 처리 장치는 사용자에 의해 입력된 기 설정된 타겟 라우드니스 레벨과 QSHI를 비교할 수 있다. 오디오 신호 처리 장치는 비교 결과에 기초하여 입력 오디오 신호의 라우드니스 게인을 결정할 수 있다. 예를 들어, 오디오 신호 처리 장치는 기 설정된 타겟 라우드니스 레벨과 QSHI 중 더 작은 값에 기초하여 입력 오디오 신호의 라우드니스 게인을 결정할 수 있다. 전술한 실시예에서는 DRC 음질 열화 여부를 판별하는 지표를 구하기 위한 단구간 라우드니스 레벨들을 내림차순 정렬시 상위 열번째로 선택하였으나, 본 개시가 이에 제한되는 것은 아니다. 또한, 오디오 신호 처리 장치는 단구간 라우드니스 레벨 외에 신호의 피크 값, RMS 중 적어도 하나에 대한 히스토그램 분석을 수행하여 QSHI를 획득할 수 있다.
도 11 및 도 12는 시간 별 입력 오디오 신호의 라우드니스 레벨 및 타겟 라우드니스 레벨을 위한 고정 게인을 나타내는 도면이다. 도 11은 타겟 라우드니스 레벨보다 작은 라우드니스 분포를 가지는 제1 입력 오디오 신호의 라우드니스 레벨을 타겟 라우드니스 레벨로 조정하기 위한 고정 게인을 나타낸다. 이 경우, 0dBFS보다 큰 구간에서 제1 입력 오디오 신호가 클리핑되어 과도한 음색 왜곡이 발생할 수 있다. 이와 같이, 타겟 라우드니스 레벨에 근접한 값을 얻기 위해서는 고정 게인을 통한 라우드니스 레벨 조정 방법에는 한계가 있다. 이에 따라, 오디오 신호 처리 장치는 제1 입력 오디오 신호의 구간 (2) 및 구간 (4)에 대해서는 고정 게인 값 보다 작은 게인을 적용할 수 있다.
도 12를 참조하면 제2 입력 오디오 신호는 도 11의 제1 입력 오디오 신호에 비래 동적 범위가 크다. 이에 따라, 오디오 신호 처리 장치가 제2 입력 오디오 신호에 타겟 라우드니스 레벨을 위한 고정 게인을 적용하는 경우 일부 구간은 상대적으로 라우드니스 레벨이 작을 수 있다. 이에 따라, 오디오 신호 처리 장치는 제2 입력 오디오 신호의 구간 (1) 및 구간 (3)에 대해서는 고정 게인 값 보다 큰 게인을 적용할 수 있다.
추가적인 실시예에 따라, 오디오 신호 처리 장치는 게인 부스트(Gain Boost)를 적용할 수 있다. 예를 들어, 오디오 신호 처리 장치는 타겟 라우드니스 범위를 획득할 수 있다. 오디오 신호 처리 장치는 획득된 타겟 라우드니스 범위에 기초하여 입력 오디오 신호의 구간 별 추가 게인을 설정할 수 있다. 구체적으로, 오디오 신호 처리 장치는 입력 오디오 신호의 시간 별 전체 구간 중에서 타겟 라우드니스 범위 밖의 라우드니스 레벨을 가지는 구간에 대해 설정된 추가 게인을 적용시킬 수 있다.
전술한 바와 같이, 본 발명의 일 실시예에 따른 오디오 신호 처리 장치는 입력 오디오 신호에 대해 시간에 따라 다른 게인을 적용하여 입력 오디오 신호의 출력 라우드니스 레벨을 조정할 수 있다. 오디오 신호 처리 장치는 입력 오디오 신호의 라우드니스 메타데이터에 기초하여 입력 오디오 신호출력 라우드니스 레벨을 조정할 수 있다. 이때, 입력 오디오 신호의 라우드니스 메타데이터는 시간의 따라 변경되는 정보를 포함할 수 있다. 오디오 신호 처리 장치는 시간에 따라 다른 게인을 적용하기 위해 시간에 따라 다른 메타데이터를 참고하여 타겟 라우드니스 레벨, 타게 라우드니스 범위에 따라 입력 오디오 신호의 출력 라우드니스 레벨을 정규화할 수 있다. 이를 통해, 본 개시에서 오디오 신호 처리 장치는 라우드니스 정규화를 위해 입력 오디오 신호에 고정 게인을 적용하여 보상할 경우 전술한 바와 같은 문제점을 해결할 수 있다.
도 13 및 도 14는 본 개시의 일 실시예에 따라 입력 오디오 신호의 출력 라우드니스 레벨이 조정되는 방법을 나타내는 개략도이다. 도 13은 단일의 오디오 신호 처리 장치 내에서 입력 오디오 신호의 라우드니스 정보가 추출되고 입력 오디오 신호의 출력 라우드니스 레벨이 조정되는 실시예를 나타낸다. 이 경우, 오디오 신호 처리 장치는 입력 오디오 신호의 라우드니스 레벨을 측정할 수 있다. 오디오 신호 처리 장치는 라우드니스 측정치에 입력 컨텐츠의 라우드니스 정보를 획득할 수 있다. 오디오 신호 처리 장치가 실시간으로 입력 오디오 신호의 라우드니스 레벨을 측정하는 방법에 대해서는 도 19를 통해 구체적으로 설명하도록 한다.
도 14는 도 7 및 도 8을 통해 전술한 서버-클라이언트 구조를 나타낸다. 먼저, 서버는 입력 오디오신호를 분석하여 입력 오디오 신호의 라우드니스 정보를 추출할 수 있다. 또한, 서버는 입력 오디오 신호의 라우드니스 정보를 메타데이터 포맷으로 변환하여 라우드니스 메타데이터를 생성할 수 있다. 다음으로, 클라이언트는 입력 오디오 신호를 수신하고, 입력 오디오 신호와 별도로 입력 오디오 신호의 라우드니스 메타데이터를 수신할 수 있다. 또한, 클라이언트는 라우드니스 메타데이터를 파싱하여 입력 오디오 신호의 출력 라우드니스 레벨 조정에 사용되는 라우드니스 정보를 획득할 수 있다. 또한, 클라이언트는 라우드니스 정보 및 기 설정된 타겟 라우드니스 레벨에 기초하여 입력 오디오 신호의 라우드니스 게인을 획득할 수 있다. 클라이언트는 입력 오디오 신호의 출력 라우드니스 레벨을 입력 오디오 신호의 라우드니스 게인에 기초하여 조정할 수 있다.
도 15는 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 입력 오디오 신호의 라우드니스 정보를 획득하는 방법을 나타내는 도면이다. 오디오 신호 처리 장치는 입력 오디오 신호를 분석하여 라우드니스 정보를 획득할 수 있다. 예를 들어, 도 15의 방법은 전술한 도 7의 서버에서 수행될 수 있다. 오디오 신호 처리 장치는 라우드니스 정보를 라우드니스 메타데이터 형태로 출력할 수 있다.
일 실시예에 따라, 라우드니스 정보는 정적 라우드니스 메타데이터 및 동적 라우드니스 메타데이터를 포함할 수 있다. 정적 라우드니스 메타데이터는 적어도 하나의 정적 라우드니스 파라미터를 포함할 수 있다. 예를 들어, 정적 라우드니스 메타데이터는 입력 오디오 신호의 누적 라우드니스 레벨, 샘플 최대 피크(Max. Sample Peak), 라우드니스 범위(Loudness Range, LRA), 피크-to-라우드니스 범위(Peak to Loudness Range, PLR), 앨범 누적 라우드니스(Album Integrated Loudness), 상대 임계치(Relative Threshold), 최소 순간 라우드니스(Min. Momentary Loudness), 최대 순간 라우드니스(Max. Momentary Loudness), 프레임 당 샘플(Sample Per Frame) 중 적어도 하나를 포함할 수 있다.
오디오 신호 처리 장치는 입력 오디오 신호의 정적 라우드니스 메타데이터를 획득할 수 있다. 구체적으로, 오디오 신호 처리 장치는 청각 척도에 기반한 라우드니스 필터를 사용하여 입력 오디오 신호의 순간 라우드니스 레벨 및 입력 오디오 신호의 단구간 라우드니스 레벨 중 적어도 하나를 측정할 수 있다. 오디오 신호 처리 장치는 적어도 하나의 정적 라우드니스 파라미터를 포함하는 정적 라우드니스 메타데이터를 생성할 수 있다.
동적 라우드니스 메타데이터는 시간에 따라 변화하는 라우드니스 정보를 나타낼 수 있다. 동적 라우드니스 메타데이터는 적어도 하나의 동적 라우드니스 파라미터를 포함할 수 있다. 예를 들어, 동적 라우드니스 메타데이터는 입력 오디오 신호의 시간 별 단구간 라우드니스 레벨 및 피크 값(Peak Envelope) 중 적어도 하나를 포함할 수 있다. 오디오 신호 처리 장치가 피크 값을 획득하는 방법에 대해서는 도 21을 통해 구체적으로 설명하도록 한다.
일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호의 동적 라우드니스 메타데이터를 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치는 입력 오디오 신호의 특정 구간에 대한 단구간 라우드니스 측정치를 획득할 수 있다. 오디오 신호 처리 장치는 해당 구간에 대한 입력 오디오 신호의 피크 값을 획득할 수 있다. 오디오 신호 처리 장치는 적어도 하나의 동적 라우드니스 파라미터를 포함하는 동적 라우드니스 메타데이터를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 단구간 라우드니스 측정치 및 피크 값과 같은 동적 라우드니스 파라미터의 시간 지연 또는 앞섬을 보정할 수 있다. 예를 들어, 오디오 신호 처리 장치는 동적 라우드니스 파라미터를 쉬프트(shift)할 수 있다. 이에 대해서는, 도 21을 참조하여 구체적으로 설명하도록 한다.
오디오 신호 처리 장치는 특정 시점을 기준으로 과거의 샘플 값과 이후에 입력될 샘플 값에 대한 단구간 라우드니스 레벨을 획득할 수 있다. 이를 통해, 오디오 신호 처리 장치는 입력 오디오 신호의 라우드니스 변화에 보다 안정적으로 라우드니스 레벨을 제어할 수 있다. 예를 들어, 오디오 신호 처리 장치가 이미 획득된 동적 라우드니스 파라미터의 시간 기준 값을 쉬프트하여 과거의 샘플 값과 이후에 입력될 샘플 값에 대한 단구간 라우드니스 레벨을 획득할 수 있다. 또한, 오디오 신호 처리 장치는 버퍼를 이용하여 과거의 샘플 값과 이후에 입력될 샘플 값에 대한 단구간 라우드니스 레벨을 획득할 수 있다. 이때, 오디오 신호 처리 장치는 충분한 룩-어헤드(Look-ahead) 시간을 설정할 수 있다.
도 16은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 입력 오디오 신호의 출력 라우드니스 레벨을 조정하는 방법을 나타내는 도면이다. 오디오 신호 처리 장치는 입력 오디오 신호의 타겟 라우드니스 레벨 및 라우드니스 메타데이터에 기초하여 입력 오디오 신호의 라우드니스 게인을 획득할 수 있다. 구체적으로, 오디오 신호 처리 장치는 타겟 라우드니스 레벨 및 정적 라우드니스 메타데이터에 기초하여 게인 파라미터를 계산할 수 있다. 오디오 신호 처리 장치는 계산된 게인 파라미터 및 동적 라우드니스 메타데이터에 기초하여 입력 오디오 신호의 특정 프레임에 적용되는 라우드니스 게인을 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치는 동적 라우드니스 메타데이터를 파싱하여 해당 프레임에 대응하는 단구간 라우드니스 레벨 및 피크 값 중 적어도 하나를 획득할 수 있다. 오디오 신호 처리 장치는 해당 프레임에 대응하는 단구간 라우드니스 레벨 및 피크 값 중 적어도 하나에 기초하여 해당 프레임에 적용되는 라우드니스 게인을 획득할 수 있다. 구체적으로, 오디오 신호 처리 장치는 계산된 게인 파라미터 및 해당 프레임에 대응하는 단구간 라우드니스 레벨에 기초하여 해당 프레임에 적용되는 라우드니스 게인을 획득할 수 있다. 이때, 해당 프레임에 적용되는 라우드니스 게인은 해당 프레임 내에서 라우드니스 레벨에 따른 클리핑이 발생하지 않도록 제한될 수 있다. 오디오 신호 처리 장치는 피크 값에 기초하여 해당 프레임 내에서 라우드니스 레벨에 따른 클리핑이 발생하지 않도록 해당 프레임에 적용되는 라우드니스 게인을 보정할 수 있다. 오디오 신호 처리 장치는 입력 오디오 신호에 최종 라우드니스 게인을 적용하여 중간 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 중간 오디오 신호에 리미터를 적용하여 출력 오디오 신호를 생성할 수 있다. 오디오 신호 처리 장치는 출력 오디오 신호를 출력할 수 있다.추가적인 실시예에 따라, 인접한 프레임 간의 프레임 별 라우드니스 게인의 차이가 기 설정된 크기 이상인 경우, 오디오 신호 처리 장치는 프레임 별 라우드니스 게인을 보정할 수 있다. 이때, 오디오 신호 처리 장치는 스무딩(Smoothing) 방법을 사용하여 라우드니스 게인이 완만하게 변하도록 조정할 수 있다. 이를 통해, 오디오 신호 처리 장치는 프레임 별 라우드니스 게인의 변화에 따른 음색 왜곡이나 갑자기 레벨이 크게 바뀌는 볼륨 펌핑(pumping)을 방지할 수 있다. 오디오 신호 처리 장치가 라우드니스 게인을 스무딩하는 방법과 관련하여서는 도 22를 통해 구체적으로 설명하도록 한다.
도 17은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 타겟 라우드니스 범위에 기초하여 입력 오디오 신호의 출력 라우드니스 레벨을 조정하는 방법을 나타내는 도면이다. 오디오 신호 처리 장치는 전술한 도 16의 게인 파라미터를 계산하는 과정에서 타게 라우드니스 범위를 추가적으로 고려할 수 있다. 도 12를 통해 설명한 바와 같이, 타겟 라우드니스 범위는 입력 오디오 신호의 동적 범위에 비해 좁을 수 있다. 환경에 따라 작은 볼륨으로 영상/음향을 청취하는 경우나, 지하철 또는 길거리와 같이 시끄러운 환경에서 음악을 듣는 경우 입력 오디오 신호의 동적 범위를 감소시켜 재생할 필요가 있다.
이에 따라, 오디오 신호 처리 장치는 입력 오디오 신호의 타겟 라우드니스 범위에 기초하여 입력 오디오 신호의 게인 파라미터를 계산할 수 있다. 이때, 게인 파라미터는 라우드니스 압축에 사용되는 게인 비율(gain ratio)를 포함할 수 있다. 오디오 신호 처리 장치는 게인 비율에 기초하여 입력 오디오 신호가 포함하는 복수의 프레임 중에서 기 설정된 크기 보다 작은 단구간 라우드니스를 가지는 프레임에 대해 추가적인 부스트(boost) 게인를 적용할 수 있다. 오디오 신호 처리 장치는 게인 비율에 기초하여 입력 오디오 신호가 포함하는 복수의 프레임 중에서 기 설정된 크기 보다 큰 단구간 라우드니스를 가지는 프레임에 대해 추가적인 컷(cut) 게인을 적용할 수 있다. 이를 통해, 오디오 신호 처리 장치는 입력 오디오 신호의 전 구간의 출력 라우드니스 레벨이 타겟 라우드니스 레벨에 근사하도록 조정할 수 있다.
추가적인 실시예에 따라, 오디오 신호 처리 장치는 시간 구간 별로 다르게 측정된 라우드니스 파라미터에 기초하여 시간 구간 별 라우드니스 정규화를 수행할 수 있다. 구체적으로, 오디오 신호 처리 장치는 타겟 라우드니스 레벨(L_T), 누적 라우드니스 레벨(L_I), 단구간 라우드니스 레벨(L_S), 상대적인 문턱 값(relative threshold, L_Rel), 노이즈 플로어 레벨(noise floor level, L_Noise), 피크 값(P)에 기초하여 입력 오디오 신호의 시간 구간 별 라우드니스 게인(G_loud)을 결정할 수 있다. 여기에서, L_Rel은 입력 오디오 신호의 전구간에서 유효한 동적 라우드니스 파라미터의 평균에 기 설정되 값이 더해진 값일 수 있다. 이때, 기 설정된 값은 -20 LU일 수 있다. 또한, 동적 라우드니스 파라미터는 순간 라우드니스 레벨 또는 단구간 라우드니스 레벨일 수 있다.
예를 들어, L_Rel은 입력 오디오 신호의 구간 별 단구간 라우드니스 레벨들 중에서 적어도 유효 라우드니스 레벨 보다 큰 값을 가지는 단구간 라우드니스 레벨들의 평균에 기초하여 산출된 값일 수 있다. L_Rel은 입력 오디오 신호의 구간 별 순간 라우드니스 레벨들 중에서 적어도 유효 라우드니스 레벨 보다 큰 값을 가지는 순간 라우드니스 레벨들의 평균에 기초하여 산출된 값일 수 있다. 여기에서, 유효 라우드니스 레벨은 청각적으로 인지되기 어려운 라우드니스 레벨에 기초하여 설정된 값일 수 있다. 유효 라우드니스 레벨은 소리가 거의 존재하지 않는 오디오 신호의 라우드니스 레벨에 기초하여 설정된 값일 수 있다. 예를 들어, 유효 라우드니스 레벨은 -70LKFS에 기초하여 설정된 값일 수 있다.
또한, L_Noise는 입력 오디오 신호에서 소리가 거의 존재하지 않는 구간 라우드니스 레벨 또는 입력 오디오 신호에서 매우 낮은 레벨의 배경 잡음(background noise)에 대응하는 구간의 라우드니스 레벨 중 적어도 하나에 기초하여 산출된 값일 수 있다.
일 실시예에 따라, L_T, L_I, L_S, L_Rel, L_Noise 및 P 각각은 전술한 라우드니스 메타데이터를 통해 획득될 수 있다. 또한, 시간 구간은 프레임을 포함할 수 있다. 전술한 실시예에서 단구간 라우드니스 레벨(L_S)은 특정 시간 구간을 대표하는 라우드니스 대표 값으로 대체될 수 있다. 예를 들어, 단구간 라우드니스 레벨(L_S)은 입력 오디오 신호의 순간 라우드니스 레벨로 대체될 수 있다. 오디오 신호 처리 장치가 L_T, L_I, L_S, L_Rel, L_Noise 및 P에 기초하여 시간 구간 별 라우드니스 게인(G_loud)을 획득하는 방법을 수학식으로 나타내면 아래 수학식 16과 같다.
[수학식 16]
수학식 16에서, r_1 및 r_2은 입력 오디오 신호 대비 출력 오디오 신호의 동적 범위를 제어하기 위한 라우드니스 압축 비율을 나타낼 수 있다. r1은 입력 오디오 신호의 입력 라우드니스 레벨이 적어도 누적 라우드니스 레벨보다 작은 구간에서 해당 구간의 라우드니스 게인을 획득하기 위해 사용되는 라우드니스 압축 비율일 수 있다. r_1은 입력 오디오 신호의 라우드니스 범위를 나타내는 LRA, PLR, 또는 순간 라우드니스 최대치 중 적어도 하나에 기초하여 설정될 수 있다. r_1은 0과 1사이 임의의 상수일 수 있다. r_2는 입력 오디오 신호의 입력 라우드니스 레벨이 누적 라우드니스 레벨보다 작고, 입력 라우드니스 레벨이 L_Rel 보다도 작은 구간에서 해당 구간의 라우드니스 게인을 획득하기 위해 사용되는 압축 비율일 수 있다. 이때, r_2는 노이즈 성분의 부스트를 최소화하기 위해 적어도 r_1 보다 작은 값으로 설정될 수 있다. 오디오 신호 처리 장치는 G_loud[n]를 스무딩하여 입력 오디오 신호에 적용할 수 있다. 또한, clippingThreshold는 최대 허용 샘플 피크 값을 나타낼 수 있다. clippingThreshold는 전술한 QSHI, 최대 트루 피크(truePeak) 및 최대 샘플 피크 값 중 적어도 하나를 기초로 설정된 값일 수 있다. 예를 들어, clippingThreshold는 QSHI와 동일한 값일 수 있다. 또는 clippingThreshold는 오디오 신호 처리 장치 또는 오디오 제공 시스템에서 임의로 설정되는 값일 수 있다.
이하에서는, 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 라우드니스 측정치를 획득하는 방법에 대해 도 18을 참조하여 구체적으로 설명하도록 한다. 도 18은 본 발명의 일 실시예에 따라 오디오 신호 처리 장치가 입력 컨텐츠의 라우드니스를 측정하는 방법을 나타내는 도면이다. 일 실시예에 따라, 오디오 신호 처리 장치는 전술한 측정 윈도우에 기초하여 입력 컨텐츠의 라우드니스를 측정할 수 있다. 또한, 오디오 신호 처리 장치는 입력 컨텐츠의 측정 윈도우 별 라우드니스 측정치를 획득할 수 있다. 오디오 신호 처리 장치는 측정 윈도우 별 라우드니스 측정치에 기초하여 라우드니스 정보를 획득할 수 있다.
도 18의 실시예에서, 오디오 신호 처리 장치는 측정 윈도우(801)의 길이에 기초하여 측정 윈도우 별 측정치를 획득할 수 있다. 이때, 측정 윈도우(801)의 길이는 오디오 신호 처리 장치에 기 저장된 디폴트 값일 수 있다. 본 발명의 일 실시예에 따라, 측정 윈도우(801)의 길이는 입력 컨텐츠에 따라 달라질 수도 있다. 예를 들어, 오디오 신호 처리 장치는 입력 컨텐츠의 부가 정보에 기초하여 입력 컨텐츠에 대응하는 측정 윈도우의 길이를 획득할 수 있다. 도 18의 실시예에서, 입력 컨텐츠에 대응하는 측정 윈도우의 길이는 400ms일 수 있다. 오디오 신호 처리 장치는 입력 컨텐츠 전체 구간 중에서 특정 400ms 길이의 구간에 대응하는 라우드니스 측정치를 획득할 수 있다.
일 실시예에 따라, 측정 윈도우의 길이는 부가 정보에 기초하여 획득될 수 있다. 예를 들어, 측정 윈도우의 길이는 입력 컨텐츠의 라우드니스 범위에 기초하여 획득될 수 있다. 여기에서, 라우드니스 범위는 컨텐츠의 전체 구간에 대한 라우드니스 레벨 분포를 나타내는 값일 수 있다. 라우드니스 범위는 LU와 같은 상대적인 측정량을 나타내는 단위를 이용하여 표시될 수 있다. 오디오 신호 처리 장치는 부가 정보로부터 입력 컨텐츠의 라우드니스 범위에 대한 정보를 획득할 수 있다. 다음으로, 오디오 신호 처리 장치는 입력 컨텐츠의 라우드니스 범위에 기초하여 측정 윈도우의 길이를 결정할 수 있다. 이때, 입력 컨텐츠의 측정 윈도우의 길이는 입력 컨텐츠의 라우드니스 범위 보다 넓은 라우드니스 범위의 폭을 가지는 다른 컨텐츠의 측정 윈도우 길이 보다 짧은 값으로 설정될 수 있다. 예를 들어, 제1 입력 컨텐츠의 라우드니스 범위가 제2 입력 컨텐츠의 라우드니스 범위 보다 큰 경우, 제1 입력 컨텐츠에 대한 측정 윈도우의 길이는 제2 입력 컨텐츠에 대한 측정 윈도우의 길이보다 길 수 있다.
또한, 오디오 신호 처리 장치는 입력 컨텐츠에 대한 측정치를 획득하는 측정 주기에 따라 측정 윈도우 별 라우드니스 측정치를 획득할 수 있다. 본 개시에서, 측정 주기는 측정 윈도우가 이동되는 시간적 거리를 나타낼 수 있다. 도 18을 참조하면, 제1 측정치(802)는 입력 컨텐츠가 재생되기 시작한 시점을 기준으로 (300ms~ 700ms) 구간에 대응하는 라우드니스 측정치일 수 있다. 또한, 제2 측정치(803)는 입력 컨텐츠가 재생되기 시작한 시점을 기준으로 (400ms~800ms) 구간에 대응하는 라우드니스 측정치일 수 있다. 입력 컨텐츠가 재생되기 시작한 시점으로부터 현재 시점까지의 시간 길이가 측정 윈도우의 길이 보다 작은 경우, 오디오 신호 처리 장치는 현재 시점 이후 도래하는 가장 가까운 측정 주기에 라우드니스 측정치를 획득할 수 있다. 이 경우, 오디오 신호 처리 장치는 측정 윈도우의 길이 보다 짧은 구간에 대응하는 라우드니스 측정치를 획득할 수 있다.
구체적으로, 오디오 신호 처리 장치는 부가 정보에 기초하여 측정 주기를 결정할 수 있다. 예를 들어, 측정 주기는 입력 컨텐츠의 길이에 기초하여 결정될 수 있다. 예를 들어, 제1 입력 컨텐츠의 길이 보다 제2 입력 컨텐츠의 길이가 긴 경우, 제1 입력 컨텐츠의 측정 주기는 제2 입력 컨텐츠의 측정 주기 보다 짧을 수 있다. 또한, 오디오 신호 처리 장치는 결정된 측정 주기에 기초하여 측정 윈도우 별 라우드니스 측정치를 획득할 수 있다. 도 18의 실시예에서 측정 주기는 100ms일 수 있다. 오디오 신호 처리 장치는 측정 윈도우를 100ms 마다 이동시켜, 측정 윈도우 별 라우드니스 측정치를 획득할 수 있다. 또한, 오디오 신호 처리 장치는 도 18을 통해 측정된 복수의 라우드니스 측정치들에 기초하여 전술한 라우드니스 정보를 획득할 수 있다.
도 19는 본 발명의 일 실시예에 따른 오디오 신호 처리 장치의 동작을 나타내는 흐름도이다. 본 발명의 일 실시예에 따른 오디오 신호 처리 장치는 입력 오디오 신호를 수신할 수 있다(단계 S1901). 이때, 입력 오디오 신호는 도 2를 통해 설명한 입력 컨텐츠를 포함할 수 있다. 다음으로, 오디오 신호 처리 장치는 입력 오디오 신호에 대응하는 라우드니스 메타데이터를 수신할 수 있다(단계 S1902).
다음으로, 오디오 신호 처리 장치는 라우드니스 메타데이터를 파싱하여 입력 오디오 신호의 라우드니스 정보를 획득할 수 있다(단계 S1903). 본 발명의 일 실시예에 따라, 라우드니스 정보는 입력 오디오 신호의 누적 라우드니스 레벨, 적어도 하나의 단구간 라우드니스 레벨, 품질 보장 히스토그램 지표(Quality Secure Histogram Index, QSHI), 입력 오디오 신호의 동적 범위(dynamic range), 주파수 별 라우드니스 에너지, 주파수 별 라우드니스 비율, 및 피크 값(peak envelope) 각각을 나타내는 정보 중 적어도 하나를 포함할 수 있다. 오디오 신호 처리 장치가 라우드니스 정보가 포함하는 각각의 정보들을 획득하는 방법에는 전술한 도 2 내지 도 18을 참조하여 설명될 실시예들이 적용될 수 있다.
QSHI는 인지적 음질 손상이 발생하지 않는 문턱 라우드니스 레벨을 나타낼 수 있다. QSHI는 전술한 도 3의 단계 S303, 도 4의 QSHI 추출부(404) 및 도 10을 통해 설명한 실시예들에 따라 획득될 수 있다. 예를 들어, QSHI는 입력 오디오 신호의 라우드니스 히스토그램에 기초하여 산출된 라우드니스 파라미터일 수 있다. 이때, 라우드니스 히스토그램은 입력 오디오 신호의 시간 별 단구간 라우드니스 레벨들의 크기 히스토그램일 수 있다. 또는 라우드니스 히스토그램은 입력 오디오 신호의 구간 별 피크 값 또는 RMS(root-mean-square)에 관한 크기 히스토그램일 수 있다. QSHI는 상기 입력 오디오 신호의 누적 라우드니스 레벨 보다 클 수 있다.
일 실시예에 따라, QSHI는 입력 오디오 신호의 라우드니스 히스토그램으로부터 예측된 예측 라우드니스 히스토그램에 기초하여 산출된 파라미터일 수 있다. 이때, 예측 라우드니스 히스토그램은 입력 오디오 신호가 타겟 라우드니스 레벨에 따라 출력되는 경우 예측되는 라우드니스 파라미터에 기초하여 생성된 히스토그램일 수 있다.
일 실시예에 따라, QSHI는 오디오 신호 처리 장치에서 리미터가 구동되는 횟수에 기초하여 결정될 수 있다. 이 경우, 오디오 신호 처리 장치는 출력 오디오 신호에 출력 오디오 신호의 라우드니스 레벨을 제한하는 라우드니스 리미터(limiter)를 적용하여 출력할 수 있다. 이때, 출력 오디오 신호는 입력 오디오 신호의 출력 라우드니스 레벨이 라우드니스 게인에 따라 조정된 신호일 수 있다. QSHI는 출력 오디오 신호의 전체 구간의 단구간 라우드니스 레벨들이 기 설정된 레벨 이하가 되도록 설정된 파라미터일 수 있다.
다음으로, 오디오 신호 처리 장치는 라우드니스 정보 및 타겟 라우드니스 레벨에 기초하여 입력 오디오 신호의 라우드니스 게인을 획득할 수 있다(S1904). 일 실시예에 따라, 입력 오디오 신호의 라우드니스 게인은 상기 입력 오디오 신호의 전체 구간에서 고정된 값을 가지는 고정 게인일 수 있다. 다른 일 실시예에 따라, 입력 오디오 신호의 라우드니스 게인은 상기 입력 오디오 신호가 재생되는 시간 동안 시간에 따라 변화하는 게인일 수 있다.
본 발명의 일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호의 누적 라우드니스를 수신할 수 있다. 또한, 오디오 신호 처리 장치는 입력 오디오 신호의 누적 라우드니스, QSHI 및 상기 타겟 라우드니스 레벨에 기초하여 라우드니스 게인을 결정할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호의 타겟 라우드니스 레벨과 QSHI를 비교할 수 있다. 또한, 오디오 신호 처리 장치는 비교 결과에 기초하여 라우드니스 게인을 결정할 수 있다. 오디오 신호 처리 장치는 입력 오디오 신호의 타겟 라우드니스 레벨과 QSHI 중에서 더 작은 값에 기초하여 라우드니스 게인을 결정할 수 있다. 이에 대해서는, 도 10을 통해 설명한 구체적인 실시예들이 적용될 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호의 QSHI로부터 보정된 QSHI를 기초로 입력 오디오 신호의 라우드니스 게인을 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치는 입력 오디오 신호에 대한 후처리(post processing)를 수행할 수 있다. 이 경우, 오디오 신호 처리 장치는 입력 오디오 신호에 대한 후처리의 특성을 나타내는 후처리 정보를 수신할 수 있다. 또한, 오디오 신호 처리 장치는 후처리 정보에 기초하여 기 획득된 QSHI를 보정할 수 있다. 일 실시예에 따라, 오디오 신호 처리 장치는 후처리 정보 및 기 저장된 함수에 기초하여 기 획득된 QSHI를 보정할 수 있다. 오디오 신호 처리 장치는 후처리 정보 및 기 저장된 룩업 테이블(look-up table)에 기초하여 기 획득된 QSHI를 보정할 수 있다. 이때, 기 저장된 룩업 테이블은 후처리의 특성에 따른 QSHI 보정에 관한 정보를 포함하는 테이블일 수 있다. 또한, QSHI 보정에 관한 정보는 후처리의 특성에 따른 QSHI 보정 값을 나타내는 정보를 포함할 수 있다. 오디오 신호 처리 장치는 기 저장된 룩업 테이블에 기초하여 입력 오디오 신호에 대한 후처리에 대응하는 QSHI 보정 값을 획득할 수 있다. 오디오 신호 처리 장치는 획득된 QSHI에 QSHI 보정 값을 더해 상기 QSHI를 보정할 수 있다. 오디오 신호 처리 장치는 전술한 방법으로 보정된 QSHI에 기초하여 입력 오디오 신호의 라우드니스 게인을 결정할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치는 주파수 별 라우드니스 에너지 및 입력 오디오 신호에 대한 후처리의 특성을 나타내는 후처리 정보에 기초하여 입력 오디오 신호의 라우드니스 게인을 결정할 수 있다. 오디오 신호 처리 장치는 후처리에 의해 변화하는 밴드 별 라우드니스 레벨에 기초하여 입력 오디오 신호의 라우드니스 게인을 결정할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치는 주파수 별 라우드니스 에너지 및 입력 오디오 신호에 대한 후처리의 특성을 나타내는 후처리 정보에 기초하여 후처리에 의해 변화하는 밴드 별 라우드니스 레벨을 획득할 수 있다. 오디오 신호 처리 장치는 주파수 별 라우드니스 비율 및 입력 오디오 신호의 후처리 정보에 기초하여 후처리에 의해 변화하는 밴드 별 라우드니스 레벨을 획득할 수 있다. 후처리에 의해 변화하는 밴드 별 라우드니스 레벨은 입력 오디오 신호의 주파수 별 라우드니스 비율의 내적에 기반하여 계산될 수 있다. 후처리에 의해 변화하는 밴드 별 라우드니스 레벨은 또한, 인지적 라우드니스 특성에 기반하여 획득된 파라미터일 수 있다. 오디오 신호 처리 장치는 청각 척도에 기반한 라우드니스 필터를 기초로 입력 오디오 신호의 후처리에 의해 변화하는 밴드 별 라우드니스 레벨을 획득할 수 있다. 구체적으로, 라우드니스 필터는 등-라우드니스 곡선(equal-loudness contours)의 역필터, 또는 이를 근사화시킨 케이-가중(K-weighting) 필터 중 적어도 하나일 수 있다. 입력 오디오 신호가 포함하는 복수의 프레임 중에서 특정 프레임의 라우드니스 레벨이 상대적인 문턱 값 보다 작거나 동일한 경우, 오디오 신호처리 장치는 해당 프레임에 대응하는 후처리에 의해 변화하는 밴드 별 라우드니스 레벨을 연산하지 않을 수 있다. 다른 예로, 입력 오디오 신호의 후처리에 의해 변화하는 밴드 별 라우드니스 레벨은 입력 오디오 신호의 장르, 및 사용자의 입력 중 적어도 하나의 기초하여 설정된 파라미터일 수 있다.
입력 오디오 신호의 주파수 별 라우드니스 비율 및/또는 주파수 별 라우드니스 에너지는 입력 오디오 신호에 대한 라우드니스 측정치에 기초하여 산출된 값일 수 있다. 주파수 별 라우드니스 비율은 인지적 라우드니스 특성에 기반하여 획득된 파라미터일 수 있다. 오디오 신호 처리 장치는 청각 척도에 기반한 라우드니스 필터를 기초로 입력 오디오 신호의 주파수 별 라우드니스 비율을 획득할 수 있다. 구체적으로, 라우드니스 필터는 등-라우드니스 곡선(equal-loudness contours)의 역필터, 또는 이를 근사화시킨 케이-가중(K-weighting) 필터 중 적어도 하나일 수 있다. 입력 오디오 신호가 포함하는 복수의 프레임 중에서 특정 프레임의 라우드니스 레벨이 상대적인 문턱 값 보다 작거나 동일한 경우, 오디오 신호처리 장치는 해당 프레임에 대응하는 주파수 별 라우드니스 비율을 연산하지 않을 수 있다. 주파수 별 라우드니스 비율은 도 4의 주파수 별 라우드니스 분석부(402)를 참조하여 설명된 실시예에 따라 획득될 수 있다. 다른 예로, 입력 오디오 신호의 주파수 별 라우드니스 비율은 입력 오디오 신호의 장르, 및 사용자의 입력 중 적어도 하나의 기초하여 설정된 파라미터일 수 있다.
오디오 신호 처리 장치는 사용자 입력에 기초하여 입력 오디오 신호에 대한 후처리 정보를 획득할 수 있다. 이때, 사용자 입력은 입력 오디오 신호와 관련된 입력일 수 있다. 또한, 사용자는 오디오 신호 처리 장치를 사용하는 사용자일 수 있다. 후처리 정보는 오디오 신호 처리 장치의 출력 특성, 입력 오디오 신호의 장르, 사용자 입력에 따른 후처리 모드, 이퀄라이제이션 종류, 리벌버레이션(reverberation), 공간 보상(room compensation) 각각을 나타내는 정보 중 적어도 하나를 포함할 수 있다. 오디오 신호 처리 장치가 후처리에 의해 변화하는 밴드 별 라우드니스 레벨에 기초하여 입력 오디오 신호의 라우드니스 게인을 결정하는 방법에는 도 3의 단계 S303을 통해 설명한 실시예들이 적용될 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치는 라우드니스 변화 예측 값에 기초하여 입력 오디오 신호의 라우드니스 게인을 결정할 수 있다. 라우드니스 변화 예측 값은 후처리에 의한 입력 오디오 신호의 라우드니스 변화에 대한 예측 값일 수 있다. 오디오 신호 처리 장치는 사용자에 의해 설정된 후처리 정보에 기초하여 라우드니스 변화 예측 값을 획득할 수 있다. 오디오 신호 처리 장치는 입력 오디오 신호의 주파수 별 특성 및 후처리에 의해 변화하는 밴드 별 라우드니스 레벨 중 적어도 하나에 기초하여 라우드니스 변화 예측 값을 획득할 수 있다. 라우드니스 변화 예측 값은 입력 오디오 신호의 주파수 별 라우드니스 비율의 내적에 기반하여 계산될 수 있다. 라우드니스 변화 예측 값은 인지적 라우드니스 특성에 기반하여 획득된 파라미터일 수 있다. 오디오 신호 처리 장치는 청각 척도에 기반한 라우드니스 필터를 기초로 입력 오디오 신호의 라우드니스 변화 예측 값을 획득할 수 있다. 구체적으로, 라우드니스 필터는 등-라우드니스 곡선(equal-loudness contours)의 역필터, 또는 이를 근사화시킨 케이-가중(K-weighting) 필터 중 적어도 하나일 수 있다. 입력 오디오 신호가 포함하는 복수의 프레임 중에서 특정 프레임의 라우드니스 레벨이 상대적인 문턱 값 보다 작거나 동일한 경우, 오디오 신호처리 장치는 해당 프레임에 대응하는 라우드니스 변화 예측 값을 연산하지 않을 수 있다. 오디오 신호 처리 장치가 라우드니스 변화 예측 값을 획득하는 방법에는 도 4의 주파수 별 라우드니스 분석부(402) 및 후처리 라우드니스 예측부(403)를 참조하여 설명된 실시예들이 적용될 수 있다.
본 발명의 일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호의 프레임 별 라우드니스 정보에 기초하여 입력 오디오 신호의 라우드니스 게인을 결정할 수 있다. 오디오 신호 처리 장치는 입력 오디오 신호의 프레임 별 라우드니스 정보에 기초하여 입력 오디오 신호의 프레임 별 라우드니스 게인을 획득할 수 있다. 입력 오디오 신호의 라우드니스 게인은 상기 입력 오디오 신호가 재생되는 시간 동안 시간에 따라 변화하는 게인일 수 있다. 일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호의 프레임 별 라우드니스 정보를 포함하는 라우드니스 메타데이터를 수신할 수 있다. 오디오 신호 처리 장치는 라우드니스 메타데이터를 파싱하여 입력 오디오 신호의 프레임 별 라우드니스 정보를 획득할 수 있다. 프레임 별 라우드니스 정보는 동적 라우드니스 파라미터를 포함할 수 있다. 일 실시예에 따라, 프레임 별 라우드니스 정보는 프레임 별 피크 값을 나타내는 정보를 포함할 수 있다. 프레임 별 피크 값은 기 설정된 길이의 프레임에 포함된 오디오 신호의 최대 절대 값에 기초하여 획득될 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호의 프레임 별 피크 값에 기초하여 입력 오디오 신호의 프레임 별 라우드니스 게인을 결정할 수 있다. 오디오 신호 처리 장치는 타겟 라우드니스 레벨 및 입력 오디오 신호의 프레임 별 피크 값에 기초하여 입력 오디오 신호의 프레임 별 라우드니스 게인을 결정할 수 있다. 예를 들어, 오디오 신호 처리 장치는 타겟 라우드니스 레벨에 기초하여 프레임 별 피크 값을 초과하지 않도록 프레임 별 라우드니스 게인을 설정할 수 있다. 또한, 오디오 신호 처리 장치는 프레임 별 라우드니스 게인에 기초하여 입력 오디오 신호의 해당 프레임의 출력 라우드니스 레벨을 조정할 수 있다. 오디오 신호 처리 장치가 프레임 별 라우드니스 정보에 기초하여 라우드니스 게인을 결정하는 방법에는 전술한 도 17을 참조하여 설명한 실시예들이 적용될 수 있다.
다음으로, 오디오 신호 처리 장치는 입력 오디오 신호의 출력 라우드니스 레벨을 라우드니스 게인에 기초하여 조정할 수 있다(S1905). 일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호의 출력 라우드니스 레벨을 조정하여 출력 오디오 신호를 생성할 수 있다. 이때, 오디오 신호 처리 장치는 결정된 라우드니스 게인을 사용할 수 있다. 일 실시예에 따라, 오디오 신호 처리 장치는 생성된 출력 오디오 신호에 라우드니스 리미터(limiter)를 적용하여 출력할 수 있다.
본 발명의 추가적인 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호의 전체 구간 중에서 일부 구간에 대한 구간 라우드니스 게인에 기초하여 입력 오디오 신호의 출력 라우드니스 레벨을 조정할 수 있다. 일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호의 특정 구간에 대응하는 라우드니스 파라미터에 기초하여 해당 구간에 대응하는 라우드니스 게인을 획득할 수 있다. 예를 들어, 입력 오디오 신호의 특정 구간에 대응하는 라우드니스 파라미터는 해당 구간에 대한 적어도 하나의 대표 값을 포함할 수 있다. 이때, 대표 값은 해당 구간에 대응하는 입력 오디오 신호의 라우드니스 레벨의 절대값의 최대값, 및 단구간 라우드니스 레벨 중 적어도 하나를 포함할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치는 타겟 라우드니스 레벨, 누적 라우드니스 레벨, 및 입력 라우드니스 레벨에 기초하여 입력 오디오 신호의 시간 구간 별 라우드니스 게인을 결정할 수 있다. 이때, 입력 라우드니스 레벨은 특정 구간을 대표하는 라우드니스 레벨일 수 있다. 예를 들어, 입력 라우드니스 레벨은 단구간 라우드니스 레벨일 수 있다. 오디오 신호 처리 장치는 타겟 라우드니스 레벨, 누적 라우드니스 레벨, 입력 라우드니스 레벨, 상대적인 문턱 값(relative threshold), 노이즈 플로어 레벨(noise floor level), 피크 값 중 적어도 둘 이상을 서로 비교할 수 있다. 또한, 오디오 신호 처리 장치는 비교 결과에 기초하여 입력 오디오 신호의 시간 구간 별 라우드니스 게인을 결정할 수 있다.
예를 들어, 오디오 신호 처리 장치는 타겟 라우드니스 레벨과 누적 라우드니스 레벨을 비교할 수 있다. 오디오 신호 처리 장치는 입력 라우드니스 레벨과 누적 라우드니스 레벨을 비교할 수 있다. 타겟 라우드니스 레벨이 누적 라우드니스 레벨 보다 작고, 입력 라우드니스 레벨이 누적 라우드니스 레벨 보다 큰 경우, 오디오 신호 처리 장치는 제1 구간 별 라우드니스 게인을 해당 구간의 입력 오디오 신호에 적용할 수 있다.
다른 예로, 타겟 라우드니스 레벨이 누적 라우드니스 레벨 보다 크고, 입력 라우드니스 레벨이 누적 라우드니스 레벨 보다 작고, 입력 라우드니스 레벨이 상대적인 문턱 값 보다 큰 경우, 오디오 신호 처리 장치는 제2 구간 별 라우드니스 게인을 해당 구간의 입력 오디오 신호에 적용할 수 있다.
또 다른 예로, 타겟 라우드니스 레벨이 누적 라우드니스 레벨 보다 크고, 입력 라우드니스 레벨이 누적 라우드니스 레벨 보다 작고, 입력 라우드니스 레벨이 상대적인 문턱 값 보다 작고, 입력 라우드니스 레벨이 노이즈 플로어 레벨 보다 큰 경우, 오디오 신호 처리 장치는 제3 구간 별 라우드니스 게인을 해당 구간의 입력 오디오 신호에 적용할 수 있다.
또 다른 예로, 타겟 라우드니스 레벨이 누적 라우드니스 레벨 보다 크고, 입력 라우드니스 레벨이 누적 라우드니스 레벨 보다 작고, 입력 라우드니스 레벨이 상대적인 문턱 값 보다 작고, 입력 라우드니스 레벨이 노이즈 플로어 레벨 보다 작은 경우, 오디오 신호 처리 장치는 제4 구간 별 라우드니스 게인을 해당 구간의 입력 오디오 신호에 적용할 수 있다. 이때, 제4 구간 별 라우드니스 게인은 해당 프레임보다 앞선 프레임의 라우드니스 게인일 수 있다. 예를 들어, 타겟 라우드니스 레벨이 누적 라우드니스 레벨 보다 크고, N-번째 프레임에 대응하는 입력 라우드니스 레벨이 누적 라우드니스 레벨 보다 작고, N-번째 프레임에 대응하는 입력 라우드니스 레벨이 상대적인 문턱 값 보다 작고, N-번째 프레임에 대응하는 입력 라우드니스 레벨이 노이즈 플로어 레벨 보다 작은 경우, 오디오 신호 처리 장치는 N-1-번째 프레임에 대응하는 라우드니스 게인을 N-번째 프레임에 대응하는 라우드니스 게인으로 사용할 수 있다.
다른 실시예에 따라, 제4 구간 별 라우드니스 게인은 입력 오디오 신호 전체에 적용되는 고정 게인을 나타낼 수 있다. 또한, 제1 구간 별 라우드니스 게인, 제2 구간 별 라우드니스 게인, 및 제3 구간 별 라우드니스 게인들은 각각 제4 구간 별 라우드니스 게인을 기준으로 서로 다른 방법으로 보정된 게인일 수 있다. 또한, 제1 구간 별 라우드니스 게인, 제2 구간 별 라우드니스 게인, 및 제3 구간 별 라우드니스 게인들은 서로 다른 값을 가지는 게인일 수 있다.
일 실시예에 따라, 입력 오디오 신호의 N-번째 구간의 라우드니스 대표 값은 입력 오디오 신호의 N-번째 구간에 인접한 구간에 대응하는 대표 값일 수 있다. 예를 들어, 입력 오디오 신호의 N-번째 특정 구간의 라우드니스 대표 값은 N+L-번째 또는 N-L-번째 구간에 대응하는 대표 값일 수 있다. 이때, L은 대표 값을 획득하기 위한 시간 구간 보다 작은 구간에 해당하는 인덱스 값일 수 있다. 예를 들어, 대표 값을 획득하기 위한 시간 구간은 3초일 수 있다. 또한, 오디오 신호 처리 장치는 시간 지연된 입력 오디오 신호를 기반으로 입력 오디오 신호의 특정 구간의 대표 값을 획득할 수 있다. 이때, 오디오 신호 처리 장치는 기 설정된 지연 시간에 기초하여 입력 오디오 신호를 시간 지연시켜 대표 값 획득에 사용되는 적어도 하나의 라우드니스 측정치를 획득할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호 전체에 적용되는 라우드니스 고정 게인을 획득할 수 있다. 이 경우, 오디오 신호 처리 장치는 입력 오디오 신호의 특정 구간에 대응하는 라우드니스 파라미터에 기초하여 라우드니스 고정 게인을 보정할 수 있다. 또한, 오디오 신호 처리 장치는 보정된 게인에 기초하여 해당 구간의 입력 오디오 신호의 출력 라우드니스 레벨을 조정할 수 있다. 입력 오디오 신호 처리 장치가 입력 오디오 신호의 전체 구간 중에서 일부 구간에 대한 구간 라우드니스 게인에 기초하여 입력 오디오 신호의 출력 라우드니스 레벨을 조정하는 방법에는 전술한 도 17을 참조하여 설명한 실시예들이 적용될 수 있다.
도 20은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치(2000)의 구성을 나타내는 블록도이다. 일 실시예에 따라, 오디오 신호 처리 장치(2000)는 수신부(2100), 프로세서(2200), 및 출력부(2300)를 포함할 수 있다. 그러나 도 10에 도시된 구성 요소 모두가 오디오 신호 처리 장치의 필수 구성 요소인 것은 아니다. 오디오 신호 처리 장치(2000)는 도 20에 도시되지 않은 구성 요소를 추가로 포함할 수 있다. 예를 들어, 일 실시예에 따른 오디오 신호 처리 장치는 저장부(미도시)를 더 포함할 수 있다. 뿐만 아니라 도 20에 도시된 오디오 신호 처리 장치(2000)의 구성 요소 중 적어도 일부가 생략될 수도 있다. 예를 들어, 일 실시예에 따른 오디오 신호 처리 장치는 수신부(2100) 및 출력부(2300) 중 적어도 하나를 포함하지 않을 수도 있다.
수신부(2100)는 오디오 신호 처리 장치(2000)로 입력되는 입력 컨텐츠를 수신할 수 있다. 수신부(2100)는 프로세서(2200)에 의한 출력 라우드니스 레벨이 조정되는 입력 컨텐츠를 수신할 수 있다. 전술한 바와 같이, 입력 컨텐츠는 오디오 신호를 포함할 수 있다. 이때, 오디오 신호는 앰비소닉 신호, 오브젝트 신호 또는 채널 신호 중 적어도 하나를 포함할 수 있다. 또한, 오디오 신호는 1개의 오브젝트 신호 또는 모노 신호일 수 있다. 오디오 신호는 멀티 오브젝트 또는 멀티 채널 신호일 수도 있다. 일 실시예에 따라, 수신부(2100)는 유선으로 전송되는 입력 컨텐츠를 수신하는 입력 단자를 포함할 수 있다. 또한, 수신부(2100)는 무선으로 전송되는 입력 컨텐츠를 수신하는 무선 수신 모듈을 포함할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(2000)는 별도의 디코더를 포함할 수 있다. 이 경우, 수신부(2100)는 입력 컨텐츠의 부호화된 비트스트림을 수신할 수도 있다. 또한, 부호화된 비트스트림은 디코더를 통해 입력 컨텐츠로 복호화될 수 있다. 추가적으로, 수신부(2100)는 입력 컨텐츠와 관련된 부가 정보를 수신할 수 있다.
일 실시예에 따라, 수신부(2100)는 네트워크를 통해 외부의 장치들과 데이터를 송수신하기 위한 송수신 수단을 구비할 수 있다. 이때, 데이터는 입력 컨텐츠의 비트스트림 또는 부가 정보 중 적어도 하나를 포함할 수 있다. 수신부(2100)는 유선으로 전송되는 데이터를 수신하기 위한 유선 송수신 단자를 포함할 있다. 또한, 수신부(2100)는 무선으로 전송되는 데이터를 수신하기 위한 무선 송수신 모듈을 포함할 수 있다. 이 경우, 수신부(2100)는 블루투스(bluetooth) 또는 와이파이(Wi-Fi) 통신 방법을 이용하여 무선으로 전송되는 데이터를 수신할 수 있다. 또한, 수신부(2100)는 LTE(long term evolution), LTE-advanced와 같은 이동 통신 규격에 따라 전송되는 데이터를 수신할 수 있으며, 본 개시가 이에 한정되는 것은 아니다. 수신부(2100)는 다양한 유무선 통신 규격에 따라 전송되는 다양한 형태의 데이터를 수신할 수 있다.
프로세서(2200)는 오디오 신호 처리 장치(2000)의 전반적인 동작을 제어할 수 있다. 프로세서(2200)는 오디오 신호 처리 장치(2000)의 각 구성 요소를 제어할 수 있다. 프로세서(2200)는 각종 데이터와 신호의 연산 및 처리를 수행할 수 있다. 프로세서(2200)는 반도체 칩 또는 전자 회로 형태의 하드웨어로 구현되거나 하드웨어를 제어하는 소프트웨어로 구현될 수 있다. 프로세서(2200)는 하드웨어와 상기 소프트웨어가 결합된 형태로 구현될 수도 있다. 예를 들어, 프로세서(2200)는 적어도 하나의 프로그램을 실행함으로써, 수신부(2100), 및 출력부(2300)의 동작을 제어할 수 있다. 또한, 프로세서(2200)는 적어도 하나의 프로그램을 실행하여 전술한 도 1 내지 도 19를 통해 설명된 동작을 수행할 수 있다.
일 실시예에 따라, 프로세서(2200)는 입력 컨텐츠의 출력 라우드니스 레벨을 조정할 수 있다. 예를 들어, 프로세서(2200)는 라우드니스 게인에 기초하여 입력 컨텐츠의 출력 라우드니스 레벨을 조정할 수 있다. 라우드니스 정보는 입력 컨텐츠로부터 분석된 입력 컨텐츠의 라우드니스 특성일 수 있다. 이때, 라우드니스 게인은 라우드니스 정보에 기초하여 획득될 수 있다. 또한, 프로세서(2200)는 입력 컨텐츠로부터 출력 라우드니스 레벨이 조정된 출력 컨텐츠를 출력할 수 있다. 이때, 프로세서(2200)는 후술할 출력부(2300)를 통해 출력 컨텐츠를 출력할 수 있다.
출력부(2300)는 출력 컨텐츠를 출력할 수 있다. 출력부(2300)는 프로세서(2200)에 의해 입력 컨텐츠로부터 출력 라우드니스 레벨이 조정된 출력 컨텐츠를 출력할 수 있다. 여기에서, 출력 컨텐츠는 출력 오디오 신호를 포함할 수 있다. 이 경우, 출력 오디오 신호는 앰비소닉 신호, 오브젝트 신호 또는 채널 신호 중 적어도 하나를 포함할 수 있다. 출력 오디오 신호는 멀티 오브젝트 또는 멀티 채널 신호일 수도 있다. 또한, 출력 오디오 신호는 청취자의 양이에 각각 대응하는 2-채널 출력 오디오 신호를 포함할 수 있다. 출력 오디오 신호는 바이노럴 2-채널 출력 오디오 신호를 포함할 수 있다. 출력부(2300)는 프로세서(2200)에 의해 출력 라우드니스 레벨이 조정된 오디오 헤드폰 신호를 출력할 수 있다.
일 실시예에 따라, 출력부(2300)는 출력 컨텐츠를 출력하는 출력 수단을 구비할 수 있다. 예를 들어, 출력부(2300)는 출력 오디오 신호를 외부로 출력하는 출력 단자를 포함할 수 있다. 이때, 오디오 신호 처리 장치(2000)는 출력 단자에 연결된 외부 장치로 출력 오디오 신호를 출력할 수 있다. 출력부(2300)는 출력 오디오 신호를 외부로 출력하는 무선 오디오 송신 모듈을 포함할 수 있다. 이 경우, 출력부(2300)는 블루투스 또는 와이파이와 같은 무선 통신 방법을 이용하여 외부 장치로 출력 오디오 신호를 출력할 수 있다.
또한, 출력부(2300)는 스피커를 포함할 수 있다. 이 경우, 오디오 신호 처리 장치(2000)는 스피커를 통해 출력 오디오 신호를 출력할 수 있다. 또한, 출력부(2300)는 디지털 오디오 신호를 아날로그 오디오 신호로 변환하는 컨버터(예를 들어, digital-to-analog converter, DAC)를 추가적으로 포함할 수 있다. 추가적으로, 출력부(2300)는 출력 컨텐츠가 포함하는 비디오 신호를 출력하는 디스플레이 수단을 구비할 수 있다.
전술한 바와 같이 오디오 신호 처리 장치(2000)는 저장부(미도시)를 더 포함할 수 있다. 저장부는 프로세서(2200)의 처리 및 제어를 위한 데이터 또는 프로그램 중 적어도 하나를 저장할 수 있다. 또한, 저장부는 라우드니스 정보를 저장할 수 있다. 저장부는 수신된 라우드니스 메타데이터로부터 추출된 라우드니스 정보를 저장할 수 있다. 저장부는 수신된 타겟 라우드니스 레벨을 저장할 수 있다. 또는 저장부는 프로세서(2200)를 통해 획득된 라우드니스 측정치를 저장할 수도 있다. 또한, 저장부는 프로세서(2200)에서 연산된 결과를 저장할 수 있다. 예를 들어, 저장부는 라우드니스 정보를 기반으로 결정된 라우드니스 게인을 저장할 수 있다. 또한, 저장부는 오디오 신호 처리 장치(2000)로 입력되거나 오디오 신호 처리 장치(2000)로부터 출력되는 데이터를 저장할 수도 있다.
저장부는 적어도 하나의 메모리를 구비할 수 있다. 이때, 메모리는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
도 21은 본 발명의 일 실시예에 따른 입력 오디오 신호의 시간 구간 별 피크 값을 나타내는 도면이다. 도 21의 실시예에서, 시간 구간 별 피크 값은 입력 오디오 신호로부터 측정된 라우드니스 측정치를 기반으로 획득된 값일 수 있다. 도 21에서, 실선으로 표시된 값들은 입력 오디오 신호의 시간 별 라우드니스 측정치를 나타낸다. 또한, 제1 파쇄선(-*-)으로 표시된 값들은 입력 오디오 신호의 시간 별 라우드니스 측정치들의 시간 구간 별 대표 값을 나타낸다. 오디오 신호 처리 장치는 시간 구간 별 대표 값을 기초로 시간 구간 별 피크 값을 획득할 수 있다. 이때, 해당 대표 값들은 라우드니스 측정기의 입력 버퍼에 입력된 값을 기준으로 계산되기 때문에 실제 입력 오디오 신호를 기준으로는 오차가 발생할 수 있다.
도 21에서, 제2 파쇄선(-△-)으로 표시된 값들은 15ms 정도의 시간 지연을 통해 획득한 시간 구간 별 대표 값일 수 있다. 오디오 신호 처리 장치는 입력 오디오 신호에 시간 지연을 적용하여 시간 구간 별 대표 값을 획득할 수 있다. 이를 통해, 오디오 신호 처리 장치는 획득된 피크 값이 입력 오디오 신호의 라우드니스 변화에 더 잘 대응할 수 있게 보정할 수 있다. 이때, 시간 지연에 사용되는 지연 듀레이션(duration)은 입력 오디오 신호의 측정 프레임의 길이를 기준으로 설정될 수 있다. 도 21을 통해 설명한 피크 값의 시간 지연 보정 방법은 도 15를 통해 설명한 다른 동적 라우드니스 파라미터에 대해서도 적용될 수 있다. 예를 들어, 오디오 신호 처리 장치는 시간 지연을 이용하여 단구간 라우드니스 레벨을 획득할 수 있다.
도 22는 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 스무딩을 이용하여 입력 오디오 신호의 출력 라우드니스 레벨을 조정하는 방법을 설명하는 도면이다. 본 발명의 일 실시예에 따라, 오디오 신호 처리 장치는 스무딩을 통해 라우드니스 게인이 완만하게 변하도록 입력 오디오 신호의 출력 라우드니스 레벨을 조정할 수 있다. 이 경우, 스무딩은 입력 오디오 신호의 라우드니스 측정치를 기준으로 수행(Causal Processing)되기 때문에, 오디오 신호 처리 장치는 실제 라우드니스 변화 대비 해당 프레임에서 필요한 파라미터를 제대로 제공하기 어려울 수 있다.
이에 따라, 오디오 신호 처리 장치는 시간 지연을 통해 획득한 라우드니스 파라미터를 사용하여 입력 오디오 신호의 라우드니스 게인에 대한 스무딩 동작을 수행할 수 있다. 이때, 시간 지연을 통해 획득한 라우드니스 파라미터는 도 21을 통해 전술한 방법으로 획득된 파라미터일 수 있다.
도 22에서, 실선으로 표시된 값들은 입력 오디오 신호의 프레임 별 라우드니스 게인을 나타낼 수 있다. 이때, 실선으로 표시된 값들은 스무딩이 적용되지 않은 라우드니스 게인을 나타낼 수 있다. 또한, 제3 파쇄선(--) 및 제4 파쇄선(-·-) 각각으로 표시된 값들은 프레임 별 라우드니스 게인으로부터 스무딩이 적용된 라우드니스 게인일 수 있다. 이때, 제3 파쇄선(--)으로 표시된 프레임 별 라우드니스 게인들 각각은 시간 지연이 적용된 측정치들을 기초로 획득된 제1 프레임 별 라우드니스 게인(smoothing from shifted input)을 나타낼 수 있다. 반면, 제4 파쇄선(-·-)으로 표시된 프레임 별 라우드니스 게인들 각각은 시간 지연이 적용되지 않은 측정치들을 기초로 획득된 제2 프레임 별 라우드니스 게인(smoothing from org. input)을 나타낼 수 있다.
도 22를 참조하면, 제1 프레임 별 라우드니스 게인에 비해 제2 프레임 별 라우드니스 게인은 입력 오디오 신호의 라우드니스 레벨과 더 유사하게 변화할 수 있다. 도 22의 가로축인 프레임 인덱스가 110~130인 구간을 참조하면, 입력 오디오 신호의 스무딩이 적용되지 않은 프레임 별 라우드니스 게인이 급격하게 감소한다. 해당 구간에서, 제1 프레임 별 라우드니스 게인은 제2 프레임 별 라우드니스 게인에 비해 점진적으로 감소된다. 제2 프레임 별 라우드니스 게인은 제1 프레임 별 라우드니스 게인에 비해 급격히 감소된다. 또한, 제1 프레임 별 라우드니스 게인은 제2 프레임 별 라우드니스 게인에 비해 일정 프레임 더 먼저 감소되기 시작한다. 이에 따라, 오디오 신호 처리 장치는 시간 지연이 적용된 측정치들을 기초로 획득된 제1 프레임 별 라우드니스 게인을 사용하여 청취자가 급격한 라우드니스 변화를 느끼는 것을 방지할 수 있다.
본 발명의 일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호의 특성을 타겟 라우드니스 레벨에 맞게 처리하기 위해 입력 오디오 신호에 대해 구간 별로 결정된 라우드니스 게인을 적용할 수 있다. 이 경우, 특정 구간에서는 과도한 라우드니스 게인 값이 적용될 수 있다. 이로 인해, 0dBFS보다 커지는 클리핑이 발생하거나, 사전에 정의된 수치(Threshold)값 보다 더 커지는 결과가 나타날 수 있다. 이에 따라, 오디오 신호 처리 장치는 출력 오디오 신호에 리미터를 적용할 수 있다. 이를 통해, 오디오 신호 처리 장치는 입력 오디오 신호로부터 출력 라우드니스 레벨이 조정된 출력 오디오 신호의 라우드니스 레벨이 기 설정된 라우드니스 레벨보다 커지는 구간에 대해 리미터를 적용할 수 있다.
이 경우, 리미터에서 출력 오디오 신호가 처리되는 방식은 리미터와 관련된 리미터 파라미터에 따라 실시간으로 또는 시간 순서에 따라(Causal Processing) 처리될 수 있다. 오디오 신호 처리 장치가 리미터를 사용하는 경우, 오디오 신호 처리 장치는 의도하지 않은 음색 왜곡을 발생시킬 수 있다. 전술한 바와 같이, 오디오 신호 처리 장치는 구간 별로 결정된 라우드니스 게인을 사용하여 입력 오디오 신호의 출력 라우드니스 레벨을 조정할 수 있다. 이때, 구간 별로 결정된 라우드니스 게인은 구간 별 피크 값을 고려한 게인일 수 있다. 오디오 신호 처리 장치는 구간 별 피크 값에 기초하여 해당 구간에서 발생하는 클리핑 또는 타겟 라우드니스 레벨을 초과하는 레벨을 가지는 구간의 발생을 예측할 수 있다. 또한, 오디오 신호 처리 장치는 상기 예측에 기초하여 입력 오디오 신호의 구간 별 라우드니스 게인을 결정할 수 있다. 즉, 오디오 신호 처리 장치는 예측를 토대로 역으로 라우드니스 게인을 보정할 수 있다. 이를 통해, 오디오 신호 처리 장치는 리미터에 의해 발생하는 출력 오디오 신호의 음색 왜곡을 방지할 수 있다.
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다.
이상에서는 본 개시를 구체적인 실시예를 통하여 설명하였으나, 본 개시가 속하는 기술분야의 통상의 지식을 가진 당업자라면 본 개시의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있다. 즉, 본 개시는 오디오 신호에 대한 라우드니스 레벨 조정의 실시예에 대하여 설명하였지만, 본 개시는 오디오 신호뿐만 아니라 비디오 신호를 포함하는 다양한 멀티미디어 신호에도 동일하게 적용 및 확장 가능하다. 따라서 본 개시의 상세한 설명 및 실시예로부터 본 개시가 속하는 기술분야에 속한 사람이 용이하게 유추할 수 있는 것은 본 개시의 권리범위에 속하는 것으로 해석된다.

Claims (17)

  1. 오디오 신호 처리 장치에서,
    입력 오디오 신호를 수신하는 수신부;
    상기 입력 오디오 신호에 대응하는 라우드니스(loudness) 메타데이터(metadata)를 생성하는 프로세서; 및
    상기 프로세서에서 생성된 라우드니스 메타데이터를 전송하는 출력부를 포함하고,
    상기 프로세서는,
    상기 입력 오디오 신호의 라우드니스를 측정하여 상기 입력 오디오 신호의 라우드니스 정보를 획득하고,
    상기 라우드니스 정보를 변환하여 상기 라우드니스 메타데이터를 생성하고,
    상기 생성된 라우드니스 메타데이터를 상기 입력 오디오 신호를 출력하기 위한 출력 장치에 상기 출력부를 사용하여 출력하고,
    상기 라우드니스 정보는 상기 입력 오디오 신호의 각 주파수 별 라우드니스 비율을 나타내는 정보를 포함하고,
    상기 입력 오디오 신호의 각 주파수 별 라우드니스 비율은 상기 라우드니스 메타데이터를 사용하여 후처리에 의해 변화되는 라우드니스의 차이를 획득하여 상기 입력 오디오 신호의 라우드니스 레벨을 조정하는 오디오 신호 처리 장치에 의해 사용되는 것인
    오디오 신호 처리 장치.
  2. 제1항에서,
    상기 후처리는 이퀄라이제이션, 리벌버레이션 및 공간 보상 중 적어도 어느 하나를 포함하는
    오디오 신호 처리 장치.
  3. 제1항에서,
    상기 후처리는 상기 입력 오디오 신호의 라우드니스 레벨을 조정하는 오디오 신호 처리 장치의 출력 특성을 적용하는 것을 포함하는
    오디오 신호 처리 장치.
  4. 제1항에서,
    상기 후처리에 의해 변화되는 라우드니스의 차이는 상기 후처리에 의해 변화되는, 각 밴드의 라우드니스 레벨을 나타내는 정보를 기초로 상기 입력 오디오 신호의 라우드니스 레벨을 조정하는 오디오 신호 처리 장치에 의해 획득되는
    오디오 신호 처리 장치.
  5. 제4항에서,
    상기 후처리에 의해 변화되는 라우드니스의 차이는 상기 후처리에 의해 변화되는, 각 밴드의 라우드니스 레벨과 상기 입력 오디오 신호의 각 주파수 별 라우드니스 비율의 내적을 기초로 상기 입력 오디오 신호의 라우드니스 레벨을 조정하는 오디오 신호 처리 장치에 의해 획득되는
    오디오 신호 처리 장치.
  6. 제5항에서,
    상기 후처리에 의해 변화되는 라우드니스의 차이는 인지적 라우드니스 특성을 기초로 상기 입력 오디오 신호의 라우드니스 레벨을 조정하는 오디오 신호 처리 장치에 의해 획득되는 파라미터인
    오디오 신호 처리 장치.
  7. 제6항에서,
    상기 후처리에 의해 변화되는 라우드니스의 차이는 케이-가중(K-weighting) 필터를 기초로 상기 입력 오디오 신호의 라우드니스 레벨을 조정하는 오디오 신호 처리 장치에 의해 획득되는
    오디오 신호 처리 장치.
  8. 오디오 신호 처리 장치에 있어서,
    입력 오디오 신호의 출력 라우드니스(loudness) 레벨을 조정하는 프로세서를 포함하고,
    상기 프로세서는,
    상기 입력 오디오 신호에 대응하는 라우드니스 메타데이터(metadata)를 수신하고,
    상기 라우드니스 메타데이터를 파싱하여 상기 입력 오디오 신호의 라우드니스 정보를 획득하고, 상기 라우드니스 정보는 상기 입력 오디오 신호의 각 주파수 별 라우드니스 비율을 나타내는 정보를 포함하고,
    상기 입력 오디오 신호의 각 주파수 별 라우드니스 비율을 기초로 후처리에 의해 변화되는 라우드니스의 차이를 획득하고,
    상기 후처리에 의해 변화되는 라우드니스의 차이와 타겟 라우드니스 레벨을 기초로 라우드니스 게인을 결정하고,
    상기 라우드니스 게인을 기초로 상기 입력 오디오 신호의 출력 라우드니스 레벨을 조정하는
    오디오 신호 처리 장치.
  9. 제8항에서,
    상기 프로세서는 라우드니스 리미터를 상기 입력 오디오 신호에 적용하여 상기 생성된 출력 오디오 신호를 출력하는
    오디오 신호 처리 장치.
  10. 제8항에서,
    상기 후처리는 이퀄라이제이션, 리벌버레이션 및 공간 보상 중 적어도 어느 하나를 포함하는
    오디오 신호 처리 장치.
  11. 제8항에서,
    상기 후처리는 상기 오디오 신호 처리 장치의 출력 특성을 적용하는 것을 포함하는
    오디오 신호 처리 장치.
  12. 제8항에서,
    상기 프로세서는
    상기 후처리에 의해 변화되는, 각 밴드의 라우드니스 레벨을 나타내는 정보를 기초로, 상기 후처리에 의해 변화되는 라우드니스 차이를 획득하는
    오디오 신호 처리 장치.
  13. 제12항에서,
    상기 프로세서는
    상기 후처리에 의해 변화되는, 각 밴드의 라우드니스 레벨과 상기 입력 오디오 신호의 각 주파수 별 라우드니스 비율의 내적을 기초로 상기 후처리에 의해 변화되는 라우드니스의 차이를 획득하는
    오디오 신호 처리 장치.
  14. 제13항에서,
    상기 프로세서는
    상기 후처리에 의해 변화되는 라우드니스의 차이는 인지적 라우드니스 특성을 기초로 상기 입력 오디오 신호의 라우드니스 레벨을 조정하는 오디오 신호 처리 장치에 의해 획득되는 파라미터인
    오디오 신호 처리 장치.
  15. 제14항에서,
    상기 프로세서는
    케이-가중(K-weighting) 필터를 기초로 상기 후처리에 의해 변화되는 라우드니스의 차이를 획득하는
    오디오 신호 처리 장치.
  16. 오디오 신호 처리에 의하여 입력 오디오 신호의 출력 라우드니스 레벨을 조정하는 방법에서
    입력 상기 입력 오디오 신호에 대응하는 라우드니스 메타데이터(metadata)를 수신하는 단계;
    상기 라우드니스 메타데이터를 파싱(parsing)하여 상기 입력 오디오 신호의 라우드니스 정보를 획득하고, 상기 라우드니스 정보는 상기 입력 오디오 신호의 각 주파수 별 라우드니스 비율을 나타내는 정보를 포함하는 단계;
    상기 입력 오디오 신호의 각 주파수 별 라우드니스 비율을 기초로 후처리에 의해 변화되는 라우드니스의 차이를 획득하는 단계;
    상기 후처리에 의해 변화되는 라우드니스의 차이와 타겟 라우드니스 레벨을 기초로 라우드니스 게인을 결정하는 단계; 및
    상기 라우드니스 게인을 기초로 상기 입력 오디오 신호의 출력 라우드니스 레벨을 조정하는 단계를 포함하는
    조정 방법.
  17. 오디오 신호 처리 장치에 의하여 입력 오디오 신호를 위한 라우드니스 메타데이터를 생성하는 방법에서,
    상기 입력 오디오 신호의 라우드니스를 측정하는 단계;
    상기 입력 오디오 신호의 라우드니스 정보를 획득하는 단계; 및
    상기 생성된 라우드니스 메타데이터를 상기 입력 오디오 신호를 출력하기 위한 출력 장치에 상기 출력부를 사용하여 출력하는 단계를 포함하고,
    상기 라우드니스 정보는 상기 입력 오디오 신호의 각 주파수 별 라우드니스 비율을 나타내는 정보를 포함하고,
    상기 입력 오디오 신호의 각 주파수 별 라우드니스 비율은 상기 라우드니스 메타데이터를 사용하여 후처리에 의해 변화되는 라우드니스의 차이를 획득하여 상기 입력 오디오 신호의 라우드니스 레벨을 조정하는 오디오 신호 처리 장치에 의해 사용되는 것인
    생성 방법.
KR1020237037252A 2019-03-14 2020-03-12 라우드니스 레벨을 제어하는 오디오 신호 처리 방법 및 장치 KR20230156156A (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR1020190029517 2019-03-14
KR20190029517 2019-03-14
KR1020190124150 2019-10-07
KR20190124150 2019-10-07
KR1020237005676A KR20230027333A (ko) 2019-03-14 2020-03-12 라우드니스 레벨을 제어하는 오디오 신호 처리 방법 및 장치
PCT/KR2020/003489 WO2020185025A1 (ko) 2019-03-14 2020-03-12 라우드니스 레벨을 제어하는 오디오 신호 처리 방법 및 장치

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020237005676A Division KR20230027333A (ko) 2019-03-14 2020-03-12 라우드니스 레벨을 제어하는 오디오 신호 처리 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20230156156A true KR20230156156A (ko) 2023-11-13

Family

ID=72427865

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020237005676A KR20230027333A (ko) 2019-03-14 2020-03-12 라우드니스 레벨을 제어하는 오디오 신호 처리 방법 및 장치
KR1020237037252A KR20230156156A (ko) 2019-03-14 2020-03-12 라우드니스 레벨을 제어하는 오디오 신호 처리 방법 및 장치
KR1020207033746A KR102502521B1 (ko) 2019-03-14 2020-03-12 라우드니스 레벨을 제어하는 오디오 신호 처리 방법 및 장치

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020237005676A KR20230027333A (ko) 2019-03-14 2020-03-12 라우드니스 레벨을 제어하는 오디오 신호 처리 방법 및 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020207033746A KR102502521B1 (ko) 2019-03-14 2020-03-12 라우드니스 레벨을 제어하는 오디오 신호 처리 방법 및 장치

Country Status (5)

Country Link
US (3) US11316490B2 (ko)
JP (2) JP7266916B2 (ko)
KR (3) KR20230027333A (ko)
CN (3) CN113647120B (ko)
WO (1) WO2020185025A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113647120B (zh) 2019-03-14 2023-08-08 高迪奥实验室公司 用于控制响度级的音频信号处理装置
EP4128226A1 (en) * 2020-03-27 2023-02-08 Dolby Laboratories Licensing Corp. Automatic leveling of speech content
KR20240043809A (ko) * 2021-08-26 2024-04-03 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 데이터의 메타데이터 기반 동적 프로세싱을 위한 방법 및 장치
CN116156041A (zh) * 2021-11-22 2023-05-23 北京荣耀终端有限公司 音量调节方法及电子设备
WO2024079625A1 (en) * 2022-10-10 2024-04-18 Wetweak Sa A computer assisted method for classifying digital audio files

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7755526B2 (en) * 2008-10-31 2010-07-13 At&T Intellectual Property I, L.P. System and method to modify a metadata parameter
TWI525987B (zh) * 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
JP5909100B2 (ja) * 2012-01-26 2016-04-26 日本放送協会 ラウドネスレンジ制御システム、伝送装置、受信装置、伝送用プログラム、および受信用プログラム
US9565508B1 (en) * 2012-09-07 2017-02-07 MUSIC Group IP Ltd. Loudness level and range processing
US9413322B2 (en) * 2012-11-19 2016-08-09 Harman International Industries, Incorporated Audio loudness control system
IL287218B (en) 2013-01-21 2022-07-01 Dolby Laboratories Licensing Corp Audio encoder and decoder with program loudness and boundary metada
US9559651B2 (en) * 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
CN117767898A (zh) * 2013-09-12 2024-03-26 杜比实验室特许公司 用于各种回放环境的动态范围控制
MX358483B (es) * 2013-10-22 2018-08-22 Fraunhofer Ges Forschung Concepto para la comprensión combinada del rango dinámico y prevención guiada de recortes para dispositivos de audio.
US9590580B1 (en) * 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
US10341770B2 (en) * 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC
CN108432130B (zh) * 2015-10-28 2022-04-01 Dts(英属维尔京群岛)有限公司 基于对象的音频信号平衡
US10389323B2 (en) * 2017-12-18 2019-08-20 Tls Corp. Context-aware loudness control
US11347470B2 (en) * 2018-11-16 2022-05-31 Roku, Inc. Detection of media playback loudness level and corresponding adjustment to audio during media replacement event
CN113647120B (zh) 2019-03-14 2023-08-08 高迪奥实验室公司 用于控制响度级的音频信号处理装置

Also Published As

Publication number Publication date
CN116962954A (zh) 2023-10-27
JP7266916B2 (ja) 2023-05-01
US20240030881A1 (en) 2024-01-25
CN113647120B (zh) 2023-08-08
JP2023103223A (ja) 2023-07-26
WO2020185025A1 (ko) 2020-09-17
CN113647120A (zh) 2021-11-12
JP2022526271A (ja) 2022-05-24
KR20230027333A (ko) 2023-02-27
US11791789B2 (en) 2023-10-17
US20210367574A1 (en) 2021-11-25
CN116866816A (zh) 2023-10-10
US11316490B2 (en) 2022-04-26
KR20210019415A (ko) 2021-02-22
US20220231649A1 (en) 2022-07-21
KR102502521B1 (ko) 2023-02-23

Similar Documents

Publication Publication Date Title
US10956121B2 (en) Dynamic range control for a wide variety of playback environments
KR102502521B1 (ko) 라우드니스 레벨을 제어하는 오디오 신호 처리 방법 및 장치
US11727948B2 (en) Efficient DRC profile transmission
US9647624B2 (en) Adaptive loudness levelling method for digital audio signals in frequency domain
KR102346669B1 (ko) 라우드니스 레벨을 제어하는 오디오 신호 처리 방법 및 장치
US20070291960A1 (en) Sound Electronic Circuit and Method for Adjusting Sound Level Thereof
KR102642727B1 (ko) 메타데이터를 이용하여 오디오 신호의 라우드니스 레벨을 제어하는 방법 및 이를 이용하는 장치
KR20220071954A (ko) 오디오 신호의 정규화를 수행하는 방법 및 이를 위한 장치
KR102508413B1 (ko) 주파수 스펙트럼 보정을 위한 오디오 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
A107 Divisional application of patent