KR102390643B1

KR102390643B1 - 오디오 라우드니스 메타데이터 생성 방법 및 이를 위한 장치

Info

Publication number: KR102390643B1
Application number: KR1020200128915A
Authority: KR
Inventors: 전상배; 오지원; 오현오; 서정훈; 이태규
Original assignee: 가우디오랩 주식회사
Priority date: 2019-10-10
Filing date: 2020-10-06
Publication date: 2022-04-27
Also published as: US20210111686A1; KR20210042820A; US11336248B2

Abstract

오디오 라우드니스(Loudness) 생성 장치가 수행하는, 오디오 라우드니스를 생성하는 방법은, 하나의 그룹에 포함되는 복수의 오디오 트랙 각각에 대한 라우드니스 정보를 수신하는 단계; 상기 복수의 오디오 트랙 각각에 대한 라우드니스 정보에 기초하여 상기 하나의 그룹에 대한 라우드니스 분포인 중간 라우드니스 분포를 예측하는 단계; 및 상기 중간 라우드니스 분포에 기초하여, 상기 하나의 그룹에 대한 통합 라우드니스(Integrated Loudness)를 생성하는 단계;를 포함하는 것을 특징으로 한다.

Description

오디오 라우드니스 메타데이터 생성 방법 및 이를 위한 장치{METHOD FOR GENERATING AUDIO LOUDNESS METADATA AND DEVICE THEREFOR}

본 발명은 오디오 라우드니스 메타데이터를 효과적으로 생성하기 위한 방법 및 장치에 관한 것으로써, 더욱 상세하게는 방송, 스트리밍 등의 오디오에서 라우드니스 정보를 손쉽게 생성하는 방법 및 장치에 관한 것이다.

주류를 이루는 오디오 기술이 아날로그에서 디지털로 변화하면서 좀 더 넓은 음량을 표현할 수 있게 되었고, 콘텐츠의 음량 또한 제각기 달라지는 추세가 되었다. ITU(International Telecommunication Union)와 EBU(European Broadcasting Union) 등의 국제 표준 단체에서 표준을 발표했지만 콘텐츠 제작 과정에서 목표 음량이 모두 다를 수 있기 때문에 잘 이행되고 있지 않은 것이 현실이다. 또한 각 국가별로 라우드니스를 측정하는 방법 및 기준이 상이할 수 있어서 해당 라우드니스 정보를 직접적으로 사용하기 어렵다는 문제점이 있다.

음량이 커지면 음질이 좋게 느껴지는 심리 음향 특성에 기대어 콘텐츠 제작자는 좀 더 큰 소리로 믹싱된 콘텐츠를 사용자에게 제공하고 음량전쟁(Loudness War)이라 일컫는 경쟁구도가 형성되고 있는 추세이다. 이로 인해 사용자는 콘텐츠와 콘텐츠 혹은 콘텐츠 내부에서도 서로 다른 음량으로 인해 수시로 볼륨을 조절해야 하는 번거로움이 존재한다. 따라서, 최종 사용자의 편의를 위해 목표 음량이 잘 지켜지지 않은 콘텐츠들에 대해서 목표 음량에 통일시켜주는 해결책으로서, 라우드니스 정규화(Loudness Normalization)가 등장하였다.

이에 다양한 방식을 통해 라우드니스 정규화(Loudness Normalization)가 수행되고 있다. 하나의 콘텐츠에 대해 복수개의 클립(Clip)화가 이루어질 경우, 각각의 클립 간 라우드니스는 보정되지만, 전체 콘텐츠의 맥락은 훼손되는 경우가 발생한다. 예를 들어, 총 4악장으로 구성되는 클래식 교향곡은, 악장별로 별도의 클립으로 관리되어 총 4개의 클립으로 구성될 수 있다. 이때, 클래식 교향곡의 3악장은 조용한 구간이고 4악장은 웅장한 구간을 가질 수 있다. 이때, 각 악장에 독립적으로 라우드니스 보정이 수행되면, 3악장의 소리가 커지고 4악장의 소리가 줄어들어 작곡자와 연주자의 악장 별 예술적 의도(Artistic Intent)가 왜곡되는 현상이 발생한다. 예술적 의도가 왜곡되는 현상을 피하기 위해, 1~4악장 전체를 하나의 콘텐츠로 하여, 이에 대한 라우드니스 정규화가 필요하다. 또 다른 예로, 2시간가량의 동영상은 각 12분의 길이를 가지는 10개의 클립으로 구성될 수 있고, 상기 동영상에서도 전체 구간에 대한 라우드니스 정규화가 필요하다. 이러한 라우드니스 정규화는 앨범 모드(Album Mode) 또는 그룹 모드(Group Mode)로 지칭될 수 있다. 따라서 하나의 클립 자체의 통합 라우드니스(Integrated Loudness)와 함께 전체 콘텐츠의 그룹 통합 라우드니스(Group Integrated Loudness) 정보가 추출될 필요가 있다. 즉, 하나의 클립을 최종 재생할 때 상기 하나의 클립 자체의 통합 라우드니스와 전체 콘텐츠의 그룹 통합 라우드니스 중 맥락에 맞는 라우드니스에 맞춰서 재생이 가능하도록 메타데이터가 제공될 필요가 있다.

본 발명은 콘텐츠를 구성하는 트랙 별 라우드니스 정보를 활용하여 콘텐츠 전체의 라우드니스를 예측하는 방법을 제공함에 목적이 있다.

본 명세서는 오디오 라우드니스(Loudness)를 생성하는 방법을 제공한다.

구체적으로, 오디오 라우드니스(Loudness)를 생성하는 방법에 있어서, 오디오 라우드니스 생성 장치에 의해 수행되는 방법은, 하나의 그룹에 포함되는 복수의 오디오 트랙 각각에 대한 라우드니스 정보를 수신하는 단계; 상기 복수의 오디오 트랙 각각에 대한 라우드니스 정보에 기초하여 상기 하나의 그룹에 대한 라우드니스 분포인 중간 라우드니스 분포를 예측하는 단계; 및 상기 중간 라우드니스 분포에 기초하여, 상기 하나의 그룹에 대한 통합 라우드니스(Integrated Loudness)를 생성하는 단계; 를 포함하고, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 정보는, 상기 복수의 오디오 트랙 각각에 대한 통합 라우드니스, 라우드니스 레인지(Loudness Range), 및 길이 중 적어도 어느 하나를 포함하는 것을 특징으로 한다.

또한 본 명세서에 있어서, 상기 하나의 그룹에 대한 통합 라우드니스에 기초하여, 상기 하나의 그룹에 대한 라우드니스 정규화를 수행하는 단계;를 더 포함할 수 있다.

또한 본 명세서에 있어서, 오디오 라우드니스(Loudness)를 생성하는 방법을 수행하는 오디오 라우드니스 생성 장치는, 하나의 그룹에 포함되는 복수의 오디오 트랙 각각에 대한 라우드니스 정보를 수신하는 입력단; 및 프로세서를 포함하며, 상기 프로세서는, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 정보에 기초하여 상기 하나의 그룹에 대한 라우드니스 분포인 중간 라우드니스 분포를 예측하고, 상기 중간 라우드니스 분포에 기초하여, 상기 하나의 그룹에 대한 통합 라우드니스(Integrated Loudness)를 생성하고, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 정보는, 상기 복수의 오디오 트랙 각각에 대한 통합 라우드니스, 라우드니스 레인지(Loudness Range), 및 길이 중 적어도 어느 하나를 포함하는 것을 특징으로 한다.

또한 본 명세서에 있어서, 상기 프로세서는, 상기 하나의 그룹에 대한 통합 라우드니스에 기초하여, 상기 하나의 그룹에 대한 라우드니스 정규화를 수행하는 것을 특징으로 한다.

또한 본 명세서에 있어서, 상기 중간 라우드니스 분포는, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포에 기초하여 예측되고, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포는, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 정보에 기초하여 생성되는 것을 특징으로 한다.

또한 본 명세서에 있어서, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포는, 히스토그램인 것을 특징으로 한다.

또한 본 명세서에 있어서, 상기 중간 라우드니스 분포는, 히스토그램인 것을 특징으로 한다.

또한 본 명세서에 있어서, 상기 복수의 오디오 트랙 각각에 대한 길이는, 상대적 길이인 것을 특징으로 한다.

또한 본 명세서에 있어서, 상기 중간 라우드니스 분포는, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포를 모두 합하여 예측되는 것을 특징으로 한다.

또한 본 명세서에 있어서, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포는, 아래 수학식을 통해 생성되는 것을 특징으로 한다.

[수학식]

D_n은, 상기 복수의 오디오 트랙 중 n번째 트랙의 길이, LRA_n은, 상기 복수의 오디오 트랙 중 n번째 트랙의 라우드니스 레인지, L_n은, 상기 복수의 오디오 트랙 중 n번째 트랙의 통합 라우드니스, res는 상기 복수의 오디오 트랙 중 n번째 트랙의 순간 라우드니스 해상도를 나타내고, dist_n[k]는, 상기 복수의 오디오 트랙 중 n번째 트랙의 중간 라우드니스 분포를 나타내고, k는 res 간격에 따른 라우드니스 인덱스를 나타낸다.

또한 본 명세서에 있어서, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포는, 기 설정된 시구간에서 측정되는 라우드니스 분포인 것을 특징으로 한다.

본 발명은 콘텐츠를 구성하는 트랙 별 라우드니스 정보를 통해 콘텐츠 전체의 라우드니스를 빠르고 효율적으로 예측하여 라우드니스 정규화를 할 수 있다는 효과가 있다.

본 발명은 라우드니스 정규화를 위해 콘텐츠 전체의 라우드니스를 사용함으로써, 콘텐츠를 구성하는 각 트랙 간의 라우드니스 변화를 유지시켜, 최종 콘텐츠 재생 시 원작자의 의도를 재현할 수 있다는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 그룹 트랙에 대한 라우드니스를 측정하는 방법을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 그룹 트랙에 대한 라우드니스를 측정한 결과를 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 그룹 트랙에 대한 라우드니스를 예측하는 방법을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 트랙 별 히스토그램에 따른 그룹 트랙에 대한 히스토그램을 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 그룹 트랙에 대한 라우드니스를 예측하는 방법을 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 그룹 트랙에 대한 라우드니스 측정 결과를 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 그룹 트랙에 대한 라우드니스를 생성하기 위한 순서도를 나타낸 도면이다.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도, 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가진 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.

본 발명에서 사용되는 라우드니스라 함은, EBU-R 128 표준에서 정의된 프로그램 라우드니스(Programme Loudness)를 의미할 수 있다. 라우드니스는 프로그램의 전체 시간에 대한 라우드니스를 의미할 수 있다. 라우드니스 레인지(Loudness Range)는 한 프로그램에서의 라우드니스의 분포를 의미하는 파라미터일 수 있고, 구체적인 계산법은 EBU Tech 3342 표준을 따를 수 있다. 순간 라우드니스와 단구간 라우드니스는 프로그램 라우드니스(Programme Loudness)를 계산하기 위한 프로그램의 시간에 따른 라우드니스를 의미할 수 있다. 구체적으로, 순간 라우드니스는 0.4초, 단구간 라우드니스는 3초의 시간 슬라이딩(Time Sliding)을 수행하며 EBU Tech 3341 표준에 따른 계산법으로 선출될 수 있다.

라우드니스 정규화라 함은, 하나 이상의 프로그램들에 대하여, 각기 다른 통합 라우드니스를 갖는 입력신호를, 특정 값인 타겟 라우드니스를 가질 수 있도록 그 크기를 변화하는 작업을 의미할 수 있고, 기본적으로 타겟 라우드니와 통합 라우드니스의 차를 보상하는 형태로 구현될 수 있다.

그룹 트랙 생성을 통한 그룹 트랙에 대한 라우드니스 측정

도 1은 본 발명의 일 실시예에 따른 그룹 트랙에 대한 라우드니스를 측정하는 방법을 나타낸 도면이다.

도 1을 살펴보면, 하나의 콘텐츠는, N개의 트랙(track 1, track 2, …, track N)으로 구성될 수 있다. 이때, 하나의 콘텐츠에 대한 라우드니스를 생성하기 위한 장치(이하, 라우드니스 생성 장치)는, N개의 트랙에 대한 음원 s_1(n), s_2(n), …, s_N(n)을 모두 통합하여 그룹 트랙(Group track)으로 구성할 수 있다. 그리고, 라우드니스 생성 장치는 그룹 트랙에 대한 통합 라우드니스(Integrated Loudness)를 미터링(metering)할 수 있다. 그룹 트랙은, 하나의 콘텐츠와 동일할 수 있다. 본 명세서에서 기술하는 하나의 콘텐츠는, 연속성이 있는 콘텐츠일 수 있다. 예를 들어, 하나의 콘텐츠는 복수 개의 악장으로 구성된 교향곡일 수 있다. 이때, 복수 개의 악장 각각이 하나의 트랙(음원)일 수 있다.

통합 라우드니스를 미터링하는 방법은 표준(ITU-R BS.1770-4, EBU R 128, EBU TECH 3341, EBU TECH 3342 등)에서 정의하는 방법일 수 있다.

도 2는 본 발명의 일 실시예에 따른 그룹 트랙에 대한 라우드니스를 측정한 결과를 나타낸 도면이다.

도 2를 살펴보면, Track 1은, 길이가 7분 22초인 음원이고 Track 2는, 길이가 10분인 음원이고 Track 3은, 길이가 5분 9초인 음원이고 Track 4는, 길이가 11분 1초인 음원이다. 라우드니스 생성 장치는 Track 1 내지 Track 4를 하나로 통합하여 총 33분 32초의 그룹 트랙을 생성하고, 생성된 총 33분 32초의 그룹 트랙에 대한 통합 라우드니스를 측정할 수 있다. 이때, 그룹 트랙에 대한 통합 라우드니스를 측정한 결과는 -15.19 LKFS이다.

다만, 도 1 및 도 2를 통해 설명한 복수 개의 트랙을 합하여 그룹 트랙(하나의 콘텐츠)로 구성한 후 그룹 트랙에 대한 통합 라우드니스를 측정하는 방법은, 그룹 트랙 전체의 길이에 대한 음원을 처음부터 분석해야하여 연산량이 높다는 문제점이 있다.

이하, 그룹 라우드니스를 계산함에 있어, 각 트랙 별 라우드니스 정보를 활용하여 전체 그룹 트랙에 대한 라우드니스를 계산하는 방법에 대해 설명한다.

트랙 별 단 구간 라우드니스(Short Term Loudness)의 분포를 활용한 그룹 트랙에 대한 라우드니스 예측

통합 라우드니스와 순간 라우드니스는 표준(ITU-R BS.1770-4, EBU R 128, EBU TECH 3341, EBU TECH 3342 등)에 정의되어 있다. 통합 라우드니스는 순간 라우드니스(Momentary loudness) 히스토그램(Histogram)으로부터 정의될 수 있다.

도 3은 본 발명의 일 실시예에 따른 그룹 트랙에 대한 라우드니스를 예측하는 방법을 나타낸 도면이다.

라우드니스 생성 장치는, 하나의 콘텐츠(그룹 트랙)를 구성하는 각각의 트랙에 대한 라우드니스 분포를 측정할 수 있다. 또한 라우드니스 생성 장치는, 측정된 각각의 트랙에 대한 라우드니스 분포를 활용하여 하나의 콘텐츠(그룹 트랙)에 대한 라우드니스를 예측하여 생성할 수 있다. 이때, 각각의 트랙에 대한 라우드니스 분포는, 임의의 길이를 가지는 타임 윈도우(time window)에 기반하여 측정되는 라우드니스 분포일 수 있다. 이러한 라우드니스 분포의 일 예로, 단 구간 라우드니스 분포, 순간 라우드니스 분포가 있을 수 있고, 이때 임의의 길이는 각각 0.4초, 3초일 수 있다.

도 3을 살펴보면, 라우드니스 생성 장치는, 하나의 콘텐츠(그룹 트랙)를 구성하는 각각의 트랙에 대한 단 구간 라우드니스 분포를 측정할 수 있다. 측정된 각각의 트랙에 대한 단 구간 라우드니스 분포를 활용하여 하나의 콘텐츠(그룹 트랙)에 대한 라우드니스를 예측하여 생성할 수 있다. 이때, 단 구간 라우드니스 분포는 순간 라우드니스 히스토그램일 수 있다. 순간 라우드니스 히스토그램은 각각의 트랙에 대한 통합 라우드니스를 측정하는 과정에서 획득될 수 있다.

도 4는 본 발명의 일 실시예에 따른 트랙 별 히스토그램에 따른 그룹 트랙에 대한 히스토그램을 나타낸 도면이다.

도 4를 살펴보면, 하나의 콘텐츠(그룹 트랙)이 4개의 트랙(Track 1, Track 2, Track 3, Track 4)으로 구성될 수 있다. 예를 들어, Track 1 내지 Track 4의 각각의 히스토그램은 다음과 같다. Track 1은, 길이가 7분 22초인 음원이고 통합 라우드니스(L_Int)는 -15.42 LKFS이고 동적 레인지(Dynamic Range, DR)은 51.6 LKFS이다 음원이고 Track 2는, 길이가 10분인 음원이고 통합 라우드니스는 -15.97 LKFS이고 동적 레인지는 62.5 LKFS이다. Track 3은, 길이가 10분인 음원이고 통합 라우드니스는 -17.31 LKFS이고 동적 레인지는 60.12 LKFS이다. Track 4는, 길이가 11분 01초인 음원이고 통합 라우드니스는 -14.61 LKFS이고 동적 레인지는 51.25 LKFS이다

이때, 라우드니스 생성 장치는, 4개의 트랙 각각에 대한 순간 라우드니스 히스토그램을 측정하고, 이를 기초로 하나의 콘텐츠(그룹 트랙)에 대한 순간 라우드니스 히스토그램을 예측할 수 있다. 즉, 하나의 콘텐츠(그룹 트랙)에 대한 히스토그램은 하나의 콘텐츠를 구성하는 각각의 트랙에 대한 순간 라우드니스 히스토그램에 기초하여, 예측되고 생성될 수 있다. 하나의 콘텐츠(그룹 트랙)에 대한 히스토그램이 생성되면, 하나의 콘텐츠(그룹 트랙)에 대한 통합 라우드니스는 표준(ITU-R BS.1770-4 등)에서 정의하는 방법을 이용하여 계산될 수 있다.

상술한 하나의 콘텐츠(그룹 트랙)에 대한 히스토그램은, 하나의 콘텐츠(그룹 트랙)의 라우드니스 분포의 일 예시이다. 이때, 하나의 콘텐츠(그룹 트랙)에 대한 라우드니스 분포는, 임의의 길이를 가지는 타임 윈도우(time window)에 기반하여 측정되는 라우드니스 분포일 수 있다. 이러한 라우드니스 분포의 일 예로, 단 구간 라우드니스 분포, 순간 라우드니스 분포가 있을 수 있고, 이때 임의의 길이는 각각 0.4초, 3초일 수 있다.

도 3 및 도 4에서는 각각의 트랙에 대한 순간 라우드니스 히스토그램, 하나의 콘텐츠(그룹 트랙)에 대한 순간 라우드니스 히스토그램을 중심으로 설명하였으나, 이는 일 예시에 불과하다. 각각의 트랙에 대한 순간 라우드니스 히스토그램, 하나의 콘텐츠(그룹 트랙)에 대한 순간 라우드니스 히스토그램은 단 구간 라우드니스 분포, 단구간 RMS(Root-mean-square) 등과 같이 시간에 따른 신호 크기의 분포를 나타내는 것으로 대체될 수 있다.

트랙 별 통합 라우드니스와 라우드니스 레인지(Loudness Range, LRA)를 활용한 그룹 트랙에 대한 라우드니스 측정

도 3 및 도 4에서 설명한 히스토그램을 이용하는 방법은, 하나의 콘텐츠(그룹 트랙)를 구성하는 각각의 트랙 전부에 대한 순간 라우드니스 분포와 같은 정보가 필요하다. 그러나, 이러한 정보가 저장되지 않는 경우가 있을 수 있다. 따라서, 이하에서는 각각의 트랙 별 정보를 이용하여 하나의 콘텐츠(그룹 트랙)에 대한 라우드니스 분포를 예측하여 생성하는 방법에 대해 설명한다.

도 5는 본 발명의 일 실시예에 따른 그룹 트랙에 대한 라우드니스를 예측하는 방법을 나타낸 도면이다.

도 5를 참조하면, 하나의 콘텐츠(그룹 트랙)는 N개의 트랙(Track 1, Track 2, …, Track N)으로 구성될 수 있다. 라우드니스 생성 장치는 각각의 트랙 별 정보를 입력 받을 수 있다. 라우드니스 생성 장치는 N개의 트랙 각각에 대한 통합 라우드니스 L_1, L_2, …, L_N을 입력 받을 수 있다. 라우드니스 생성 장치는, N개의 트랙 각각에 대한 소리의 크고 작은 정도를 나타내는 다이나믹 레인지에 대한 정보를 입력 받을 수 있다. 구체적으로, 라우드니스 레인지 LRA_1, LRA_2, …, LRA_N을 입력 받을 수 있다. 라우드니스 생성 장치는, N개의 트랙 각각에 대한 길이 D_1, D_2, …, D_N를 입력 받을 수 있다. 이때, N개의 트랙 각각에 대한 길이는 정확한 시간(예: 초 단위)일 수 있으나, 이에 한정되지 않고 N개의 트랙 각각에 대한 상대적 길이에 대한 것일 수 있다.

라우드니스 생성 장치는, 입력 받은 N개의 트랙 각각에 대한 통합 라우드니스, 라우드니스 레인지, 길이 중 적어도 어느 하나를 이용하여 N개의 트랙 각각에 대한 순간 라우드니스 분포를 예측할 수 있다. 이때, 측정된 N개의 트랙 각각에 대한 순간 라우드니스 분포는 상기 라우드니스 레인지 사이에서 정의될 수 있다. 예를 들어, N개의 트랙 각각에 대한 순간 라우드니스 분포는, 다양한 방법을 통해 모델링 될 수 있다. 구체적으로, N개의 트랙 각각에 대한 순간 라우드니스 분포는, L_n을 중심으로 하고 LRA_n 폭을 갖는 백색 분포(White Distribution)로 정의될 수 있다. 이러한 분포는 res LFKS의 해상도를 가질 수 있다. N개의 트랙 각각에 대한 순간 라우드니스 분포(dist_n[k])는 res 간격에 따른 라우드니스 인덱스인 k에 대하여 수학식 1과 같이 정의될 수 있다. 수학식 1에서 dist_n[k]는 Track n의 순간 라우드니스 분포를 의미하고, D_n은 Track n의 길이를 의미하고, LRA_n은 Track n의 라우드니스 레인지를 의미한다.

라우드니스 생성 장치는 수학식 1을 통해 예측된 N개의 트랙 각각에 대한 순간 라우드니스 분포를 모두 더하여, 하나의 콘텐츠(그룹 트랙)에 대한 순간 라우드니스 분포를 예측할 수 있다. 이때 하나의 콘텐츠(그룹 트랙)에 대한 순간 라우드니스 분포(dist_group[k])는 수학식 2와 같이 계산될 수 있다.

라우드니스 생성 장치는, 수학식 2를 통해 예측된 하나의 콘텐츠(그룹 트랙)에 대한 순간 라우드니스 분포에 기초하여 하나의 콘텐츠(그룹 트랙)에 대한 통합 라우드니스를 생성할 수 있다. 이때, 하나의 콘텐츠(그룹 트랙)에 대한 통합 라우드니스는 표준(ITU-R BS.1770-4 등)에서 정의된 방법을 통해 계산될 수 있다.

도 6은 본 발명의 일 실시예에 따른 그룹 트랙에 대한 라우드니스 측정 결과를 나타낸 도면이다.

구체적으로, 도 6은, 수학식 2를 통해 계산된 하나의 콘텐츠(그룹 트랙)의 순간 라우드니스 분포에 기초하여 생성된 하나의 콘텐츠(그룹 트랙)에 대한 통합 라우드니스 측정 값을 나타낸 도면이다.

도 6을 살펴보면 하나의 콘텐츠는 Track 1 내지 Track 4 총 4 개의 트랙으로 구성될 수 있다. 이때, 라우드니스 생성 장치는, Track 1 내지 Track 4 각각의 트랙에 대응되는 트랙 별 통합 라우드니스(-15.42, -15.97, -17.31, -14.61 LKFS), 라우드니스 레인지 (16.6, 27.5, 25.2, 16.3 LKFS), 트랙 길이 (442, 600, 309, 661초)를 res=0.1LKFS로 모델링하여 하나의 콘텐츠(그룹 트랙)에 대한 순간 라우드니스 분포를 예측할 수 있다. 그리고, 라우드니스 생성 장치는 예측된 하나의 콘텐츠(그룹 트랙)에 대한 순간 라우드니스 분포에 기초하여 하나의 콘텐츠(그룹 트랙)에 대한 통합 라우드니스를 -15.4 LKFS로 추정할 수 있다.

다시 말하면, 라우드니스 생성 장치는, 각각의 트랙에 대응되는 트랙 별 통합 라우드니스, 라우드니스 레인지, 트랙 길이를 모델링하여 트랙 별 순간 라우드니스 분포를 예측할 수 있다. 라우드니스 생성 장치는, 측정된 트랙 별 순간 라우드니스 분포에 기초하여 하나의 콘텐츠(그룹 트랙)에 대한 순간 라우드니스 분포를 예측할 수 있다. 라우드니스 생성 장치는, 하나의 콘텐츠(그룹 트랙)에 대한 순간 라우드니스 분포에 기초하여 하나의 콘텐츠(그룹 트랙)에 대한 통합 라우드니스를 예측하여 생성할 수 있다.

하나의 콘텐츠(그룹 트랙)가 출력(재생)될 때, 상기 하나의 콘텐츠(그룹 트랙)에 대한 통합 라우드니스와 관련된 메타데이터가 이용될 수 있다. 또한, 하나의 콘텐츠(그룹 트랙)에 대한 통합 라우드니스에 기초하여, 라우드니스 정규화(Loudness Normalization)가 수행될 수 있다.

다시 말하면, 하나의 콘텐츠(그룹 트랙)에 대한 통합 라우드니스는, 하나의 콘텐츠(그룹 트랙)에 대한 분포인, 라우드니스 분포(중간 라우드니스 분포)로부터 예측될 수 있다. 이때, 중간 라우드니스 분포는 각각의 트랙에 대한 정보(트랙 별 통합 라우드니스, 트랙 별 라우드니스 레인지, 트랙 별 길이 등)에 기초하여 생성될 수 있다. 구체적으로, 중간 라우드니스 분포는 상기 각각의 트랙에 대한 정보에 기초하여 생성되는 라우드니스 분포로부터 생성될 수 있다. 이때, 상기 각각의 트랙에 대한 정보에 기초하여 생성되는 라우드니스 분포 및 상기 중간 라우드니스 분포는 전술한대로, 임의의 길이를 가지는 타임 윈도우(time window)에 기반하여 측정되는 라우드니스 분포 즉, 시간에 따른 신호 크기의 분포를 나타낸 것일 수 있다. 예를 들어, 단구간 라우드니스 분포, 순간 라우드니스 분포, RMS일 수 있고, 히스토그램 일 수 있다.

도 7은 본 발명의 일 실시예에 따른 그룹 트랙에 대한 라우드니스를 생성하기 위한 순서도를 나타낸 도면이다.

오디오 라우드니스 생성 장치는, 하나의 그룹에 포함되는 복수의 오디오 트랙 각각에 대한 라우드니스 정보를 수신하기 위한 입력단을 포함하여 구성될 수 있다. 더하여, 오디오 라우드니스 생성 장치는 하나의 그룹에 대한 통합 라우드니스를 예측하여 생성하는 방법을 수행하기 위한 프로세서를 포함하여 구성될 수 있다. 오디오 라우드니스 생성 장치는 전술한 라우드니스 생성 장치와 동일하고, 전술한 하나의 그룹은 하나의 콘텐츠(그룹 트랙)과 동일한 의미일 수 있다.

도 7을 참조하여 오디오 라우드니스 생성 장치가 전술한 방법에 기초하여 하나의 콘텐츠(그룹 트랙)에 대한 통합 라우드니스를 예측하여 생성하는 방법에 대해 살펴본다.

오디오 라우드니스 생성 장치는, 하나의 그룹에 포함되는 복수의 오디오 트랙 각각에 대한 라우드니스 정보를 수신할 수 있다(S710). 이때, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 정보는, 상기 복수의 오디오 트랙 각각의 통합 라우드니스(Integrated Loudness), 라우드니스 레인지(Loudness Range), 및 길이 중 적어도 어느 하나를 포함할 수 있다. 상기 복수의 오디오 트랙 각각에 대한 길이는, 상대적 길이일 수 있다.

오디오 라우드니스 생성 장치는, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 정보에 기초하여 상기 하나의 그룹에 대한 라우드니스 분포인 중간 라우드니스 분포를 예측할 수 있다(S720).

오디오 라우드니스 생성 장치는, 상기 중간 라우드니스 분포에 기초하여, 상기 하나의 그룹에 대한 통합 라우드니스(Integrated Loudness)를 생성할 수 있다(S730).

오디오 라우드니스 생성 장치는, 상기 하나의 그룹에 대한 순간 라우드니스 분포에 기초하여, 상기 하나의 그룹에 대한 통합 라우드니스를 생성할 수 있다(S740).

상기 중간 라우드니스 분포는, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포에 기초하여 예측되고, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포는, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 정보에 기초하여 생성될 수 있다.

상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포는 히스토그램일 수 있다. 또한, 상기 중간 라우드니스 분포는 히스토그램일 수 있다.

상기 중간 라우드니스 분포는, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포를 모두 합하여 예측될 수 있고, 이를 위해 상기 수학식 2가 이용될 수 있다.

상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포는 상기 수학식 1을 이용하여 생성될 수 있다.

상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포는 기 설정된 시구간에서 측정되는 라우드니스 분포일 수 있다. 또한, 중간 라우드니스 분포는 기 설정된 시구간에서 측정되는 라우드니스 분포일 수 있다. 전술한 바와 같이 상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포 및 상기 중간 라우드니스 분포는, 임의의 길이를 가지는 타임 윈도우(time window)에 기반하여 측정되는 라우드니스 분포일 수 있다. 예를 들어, 단 구간 라우드니스 분포, 순간 라우드니스 분포 등이 될 수 있다.

상술한 본 발명의 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.

하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.

펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리는 프로세서의 내부 또는 외부에 위치할 수 있으며, 이미 공지된 다양한 수단에 의해 프로세서와 데이터를 주고받을 수 있다.

일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조 또는 프로그램 모듈과 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아는 것으로 해석해야 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

Claims

오디오 라우드니스(Loudness)를 생성하는 방법에 있어서, 오디오 라우드니스 생성 장치에 의해 수행되는 방법은,
하나의 그룹에 포함되는 복수의 오디오 트랙 각각에 대한 라우드니스 정보를 수신하는 단계;
상기 복수의 오디오 트랙 각각에 대한 라우드니스 정보에 기초하여 상기 하나의 그룹에 대한 라우드니스 분포인 중간 라우드니스 분포를 예측하는 단계; 및
상기 중간 라우드니스 분포에 기초하여, 상기 하나의 그룹에 대한 통합 라우드니스(Integrated Loudness)를 생성하는 단계; 를 포함하고,
상기 복수의 오디오 트랙 각각에 대한 라우드니스 정보는, 상기 복수의 오디오 트랙 각각에 대한 통합 라우드니스, 라우드니스 레인지(Loudness Range), 및 길이 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서,
상기 하나의 그룹에 대한 통합 라우드니스에 기초하여, 상기 하나의 그룹에 대한 라우드니스 정규화를 수행하는 단계; 를 더 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서,
상기 중간 라우드니스 분포는, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포에 기초하여 예측되고,
상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포는, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 정보에 기초하여 생성되는 것을 특징으로 하는 방법.
제 3항에 있어서,
상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포는, 히스토그램인 것을 특징으로 하는 방법.
제 4항에 있어서,
상기 중간 라우드니스 분포는, 히스토그램인 것을 특징으로 하는 방법.
제 1항에 있어서,
상기 복수의 오디오 트랙 각각에 대한 길이는, 상대적 길이인 것을 특징으로 하는 방법.
제 3항에 있어서,
상기 중간 라우드니스 분포는, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포를 모두 합하여 예측되는 것을 특징으로 하는 방법.
제 3항에 있어서,
상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포는, 아래 수학식을 통해 생성되는 것을 특징으로 하는 방법.
[수학식]

D_n은, 상기 복수의 오디오 트랙 중 n번째 트랙의 길이, LRA_n은, 상기 복수의 오디오 트랙 중 n번째 트랙의 라우드니스 레인지, L_n은, 상기 복수의 오디오 트랙 중 n번째 트랙의 통합 라우드니스, res는 상기 복수의 오디오 트랙 중 n번째 트랙의 순간 라우드니스 해상도를 나타내고, dist_n[k]는, 상기 복수의 오디오 트랙 중 n번째 트랙의 중간 라우드니스 분포를 나타내고, k는 res 간격에 따른 라우드니스 인덱스를 나타낸다.
제 3항에 있어서,
상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포는, 기 설정된 시구간에서 측정되는 라우드니스 분포인 것을 특징으로 하는 방법.
오디오 라우드니스(Loudness)를 생성하는 방법을 수행하는 오디오 라우드니스 생성 장치는,
하나의 그룹에 포함되는 복수의 오디오 트랙 각각에 대한 라우드니스 정보를 수신하는 입력단; 및
프로세서를 포함하며,
상기 프로세서는,
상기 복수의 오디오 트랙 각각에 대한 라우드니스 정보에 기초하여 상기 하나의 그룹에 대한 라우드니스 분포인 중간 라우드니스 분포를 예측하고,
상기 중간 라우드니스 분포에 기초하여, 상기 하나의 그룹에 대한 통합 라우드니스(Integrated Loudness)를 생성하고,
상기 복수의 오디오 트랙 각각에 대한 라우드니스 정보는, 상기 복수의 오디오 트랙 각각에 대한 통합 라우드니스, 라우드니스 레인지(Loudness Range), 및 길이 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 장치.
제 10항에 있어서, 상기 프로세서는,
상기 하나의 그룹에 대한 통합 라우드니스에 기초하여, 상기 하나의 그룹에 대한 라우드니스 정규화를 수행하는 것을 특징으로 하는 장치.
제 10항에 있어서,
상기 중간 라우드니스 분포는, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포에 기초하여 예측되고,
상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포는, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 정보에 기초하여 생성되는 것을 특징으로 하는 장치.
제 12항에 있어서,
상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포는, 히스토그램인 것을 특징으로 하는 장치.
제 13항에 있어서,
상기 중간 라우드니스 분포는, 히스토그램인 것을 특징으로 하는 장치.
제 10항에 있어서,
상기 복수의 오디오 트랙 각각에 대한 길이는, 상대적 길이인 것을 특징으로 하는 장치.
제 12항에 있어서,
상기 중간 라우드니스 분포는, 상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포를 모두 합하여 예측되는 것을 특징으로 하는 장치.
제 12항에 있어서,
상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포는, 아래 수학식을 통해 생성되는 것을 특징으로 하는 장치.
[수학식]

D_n은, 상기 복수의 오디오 트랙 중 n번째 트랙의 길이, LRA_n은, 상기 복수의 오디오 트랙 중 n번째 트랙의 라우드니스 레인지, L_n은, 상기 복수의 오디오 트랙 중 n번째 트랙의 통합 라우드니스, res는 상기 복수의 오디오 트랙 중 n번째 트랙의 순간 라우드니스 해상도를 나타내고, dist_n[k]는, 상기 복수의 오디오 트랙 중 n번째 트랙의 중간 라우드니스 분포를 나타내고, k는 res 간격에 따른 라우드니스 인덱스를 나타낸다.
제 12항에 있어서,
상기 복수의 오디오 트랙 각각에 대한 라우드니스 분포는, 기 설정된 시구간에서 측정되는 라우드니스 분포인 것을 특징으로 하는 장치.