KR102584779B1 - 오디오 분류를 통한 동적 볼륨 조절을 위한 방법 및 장치 - Google Patents

오디오 분류를 통한 동적 볼륨 조절을 위한 방법 및 장치 Download PDF

Info

Publication number
KR102584779B1
KR102584779B1 KR1020217010095A KR20217010095A KR102584779B1 KR 102584779 B1 KR102584779 B1 KR 102584779B1 KR 1020217010095 A KR1020217010095 A KR 1020217010095A KR 20217010095 A KR20217010095 A KR 20217010095A KR 102584779 B1 KR102584779 B1 KR 102584779B1
Authority
KR
South Korea
Prior art keywords
audio signal
volume
audio
classification
input
Prior art date
Application number
KR1020217010095A
Other languages
English (en)
Other versions
KR20210082440A (ko
Inventor
마커스 크레머
로버트 쿠버
스티븐 디 쉐프
카메론 오브리 서머스
Original Assignee
그레이스노트, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 그레이스노트, 인코포레이티드 filed Critical 그레이스노트, 인코포레이티드
Priority to KR1020237032871A priority Critical patent/KR20230144650A/ko
Publication of KR20210082440A publication Critical patent/KR20210082440A/ko
Application granted granted Critical
Publication of KR102584779B1 publication Critical patent/KR102584779B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03FAMPLIFIERS
    • H03F3/00Amplifiers with only discharge tubes or only semiconductor devices as amplifying elements
    • H03F3/181Low frequency amplifiers, e.g. audio preamplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

본 발명에 따르면, 오디오 분류를 통해 동적 볼륨 조절을 위한 방법, 장치, 시스템 및 제조물품이 개시된다. 예시적인 방법은, 신경망 훈련 모델을 사용하여, 오디오 신호와 관련된 분류 그룹을 결정하 기 위해 제 1 볼륨 레벨과 관련된 오디오 신호의 파라미터를 분석하는 단계, 오디오 신호와 관련된 분류 그룹을 기초로 선택해 오디오 신호의 입력 볼륨을 결정하는 단계, 분류 그룹 및 입력 볼륨에 기초하고, 제 1 볼륨 레벨을 제 2 볼륨 레벨로 수정하기 위한 게인값을 오디오 신호에 적용하는 단계, 및 제 2 볼륨 레벨을 타켓 볼륨 임계치를 만족하는 제 3 볼륨 레벨로 수정하기 위해 압축값을 오디오 신호에 적용하는 단계를 포함한다.

Description

오디오 분류를 통한 동적 볼륨 조절을 위한 방법 및 장치
본 출원은 2018년 9월 7일자로 출원된 미국 가출원 제62/728,677호 및 2018년 10월 12일자로 출원된 미국 가출원 제62/745,148호의 우선권을 주장한다. 미국 가출원 제62/702,734호 및 미국 가출원 제62/745,148호도 그 전체가 본 명세서에 참조로 포함되어 있다.
본 개시는 일반적으로 볼륨 조절에 관한 것으로, 보다 상세하게는, 오디오 분류를 통한 동적 볼륨 조절을 위한 방법 및 장치에 관한 것이다.
최근 몇 년 동안, 늘어난 채널 수를 이용해 다양한 특성의 다수의 미디어가 전달되고 있다. 상기 미디어는 보다 전통적인 채널(예를 들어, 라디오)을 사용하거나 인터넷에 연결된 스트리밍 디바이스를 사용하는 것과 같이 최근에 개발된 채널을 사용하여 수신될 수 있다. 이러한 채널이 개발됨에 따라, 여러 소스에서 오디오를 처리 및 출력할 수 있는 시스템도 또한 개발되었다. 예를 들어, 일부 자동차 미디어 시스템은 컴팩트 디스크(CD), 블루투스 연결 디바이스, 범용직렬버스(USB) 연결 디바이스, Wi-Fi 연결 디바이스, 보조 입력장치 및 기타 소스에서 미디어를 전달할 수 있다.
본 발명의 내용에 포함됨.
본 발명의 내용에 포함됨.
본 발명의 내용에 포함됨.
도 1은 오디오 분류를 통한 동적 볼륨 조절을 위해 본 개시의 교시에 따라 구성된 예시적인 시스템의 개략도이다.
도 2는 도 1의 미디어 유닛의 추가 세부 사항을 보여주는 블록도이다.
도 3은 도 1 및 도 2의 미디어 유닛에서 사용하기 위해 훈련된 모델을 제공할 수 있는 오디오 분류 엔진을 보여주는 블록도이다.
도 4 및 도 5는 오디오 분류를 통해 동적 볼륨 조절을 수행하도록 도 1 및 도 2의 미디어 유닛(106)을 구현하는 데 사용될 수 있는 예시적인 기계 판독 가능 명령어를 나타내는 흐름도이다.
도 6은 도 1 및 도 2의 예시적인 미디어 유닛(106)을 구현하도록 도 4 및 도 5의 명령어를 실행할 수 있는 예시적인 프로세서 플랫폼의 개략도이다.
도면은 비례에 따라 도시하지 않았다. 가능하다면, 도면(들) 및 첨부된 명세서 전체에 걸쳐 동일하거나 유사한 부분을 지칭하기 위해 동일한 참조 번호를 사용할 것이다.
종래의 오디오 미디어 구현에서, 다른 미디어와 관련된 오디오 신호는 볼륨이 다를 수 있다. 예를 들어, 한 CD의 미디어는 다른 CD의 미디어와는 상당히 다른 볼륨으로 레코딩 및/또는 마스터링될 수 있다. 마찬가지로, 스트리밍 디바이스에서 검색된 미디어는 다른 디바이스에서 검색된 미디어 또는 다른 응용 프로그램을 통해 동일한 디바이스에서 검색된 미디어와 볼륨 레벨이 상당히 다를 수 있다. 사용자가 다양한 상이한 소스들의 미디어를 점점 더 많이 듣게 됨에 따라, 소스 간 및 동일한 소스의 미디어 간 볼륨 레벨 차이가 매우 눈에 띄고, 잠정적으로 청취자가 짜증날 수 있다.
볼륨 조절에 대한 일부 종래의 접근법에서, 다이나믹 레인지 컴프레서(dynamic range compressors)는 볼륨 임계치를 만족시키기 위해 오디오 신호의 전체 동적 범위를 압축하도록 사용된다. 일부 종래의 구현에서, 그러한 동적 범위 압축은 오디오 신호에 대한 볼륨 임계치를 만족시키기 위해 오디오 신호의 볼륨을 지속적으로 모니터링하고 조절한다. 이러한 지속적인 조절은 트랙의 원래 다이나믹스가 크게 변경됨에 따라 청취자의 오디오 신호 인식에 지각할 수 있는 영향을 미친다. 일부 예들에서, 동적 범위 압축은 (예를 들어, 오디오에 아티팩트를 도입함으로써) 인지된 오디오 신호의 품질을 상당히 저하시킨다.
본 명세서에 개시된 예시적인 방법, 장치, 시스템 및 제조물품에서, 오디오 분류는 오디오 신호의 카테고리를 결정하는 데 사용되며, 이어서 타켓 볼륨 범위 내로 오디오 신호를 가져 오는 데 필요한 동적 범위의 압축양을 최소화하기 위해 볼륨 조절을 수행한다. 본 명세서에 개시된 예시적인 방법, 장치, 시스템 및 제조물품은 오디오 신호에 적용될 수 있는 타켓 게인값을 결정하기 위해 오디오 신호의 분류 및 실시간 입력 오디오 측정의 조합을 이용한다. 예를 들어, 오디오 신호와 관련된 분류 그룹을 결정한 후, (예를 들어, 볼륨 게인 조정값을 분류 그룹과 연관시키는 룩업 테이블로부터) 분류 게인값을 검색할 수 있다. 오디오 신호에 대한 입력 볼륨을 추가로 결정할 수 있다. 그런 다음, 입력 볼륨 및 권장 분류 게인값을 기반으로, 타켓 게인값을 결정할 수 있다. 타켓 게인값은 볼륨을 타켓 볼륨 범위(예를 들어, -21dbFS의 +/- 1dbFS 이내)에 가깝게 가져오기 위해 입력 오디오 신호에 적용되는 볼륨 조절이므로, 게인 조정 신호가 타겟 볼륨 범위 내에서 게인 조정 신호를 가져오는 데 필요한 압축양이 줄어든다.
본 명세서에 개시된 예시적인 방법, 장치, 시스템 및 제조물품에서, 타겟 게인값은 입력 오디오 신호의 분류 및 오디오 신호의 입력 볼륨을 기초로 계산되어 타겟 볼륨 범위 내에 오디오 신호의 볼륨을 가져오는 데 필요한 압축량을 줄인다. 일부 예들에서, 입력 오디오 신호가 처음 감지될 때, 오디오 신호의 동적 범위는 입력 오디오 신호가 분류되고 입력 오디오의 볼륨이 결정될 때까지 오디오 신호의 볼륨을 타켓 볼륨 범위 내로 가져오기 위해 초기에 압축된다. 일부 예들에서, 오디오 신호가 처음 감지될 때 오디오 신호를 조정하기 위해 압축만을 사용함으로써, 청취자는 수동 볼륨 조절으로 인한 것이 아닌 오디오 레벨의 감소로서 잠시 압축을 알아차릴 수 있다. 그러나, 오디오 신호의 초기 볼륨과 오디오 신호의 분류가 결정되면, 타켓 볼륨 범위 내에 오디오 신호의 볼륨을 가져오는 데 필요한 압축량을 줄이기 위해 타켓 게인값이 계산된다. 일부 예들에서, 분류 및 초기 볼륨 결정은 압축의 초기 사용이 청취자에 의해 눈에 띄지 않을 정도로 충분히 빠르게(예를 들어, 5 초 이내, 1 초 이내 등) 발생할 수 있다.
본 명세서에 개시된 일부 예시적인 방법, 장치, 시스템 및 제조물품은 오디오 신호의 소스의 변화를 결정하고 이에 반응한다. 일부 예들에서, 초기 볼륨 조절은 압축의 사용에 추가로 또는 대안으로 수행된다. 예를 들어, 오디오 신호 입력 변경(예를 들어, 오디오 신호 없음에서 프리젠테이션된 오디오 신호로의 변경, 하나의 오디오 신호 입력 소스에서 다른 오디오 신호 입력 소스로의 변경 등)에 응답하여, (예를 들어, 오디오 신호의 소스에 특정한 이전 볼륨 조절 설정을 기초로) 초기 볼륨 레벨을 결정할 수 있고 초기 볼륨 레벨 조정을 수행할 수 있다. 일부 예에서, 초기 볼륨 레벨 조정은 입력 신호 변경 후 오디오 볼륨 레벨을 점차적으로 증가시키는 "페이드-인(fade-in)"기술을 사용하여 수행된다. 일부 예에서, 초기 볼륨 레벨 조정은 오디오 입력 신호의 유형(예를 들어, FM 라디오, AM 라디오, CD, 보조 오디오 소스 등)과 관련된 저장된 설정에 기초할 수 있다.
본 명세서에 개시된 예시적인 방법, 장치, 시스템 및 제조물품은 오디오 신호를 복수의 분류 그룹 중 하나 이상으로 분류한다. 분류 그룹을 결정할 때, 분류 그룹의 특성(예를 들어, 사용 가능한 헤드룸의 양, 일반적인 동적 범위 등)을 사용하여 손실을 최소화하면서 (예를 들어, 최소 동적 범위 압축을 활용해) 오디오 신호의 볼륨을 조정할 수 있다. 일부 예에서, 분류 그룹은 트레이닝 데이터에서 패턴 인식을 사용하여 식별될 수 있다. 예를 들어, 오디오 신호는 신호에 표현되는 악기, 오디오 신호가 생성된 연도, 음악 장르 등과 같은 요소를 기반으로 그룹화될 수 있다. 일단 트레이닝 데이터가 그룹화되면, 동적 범위 값의 분포, 볼륨값의 분포와 같은 특성, 또는 임의의 다른 오디오 특성이 (예를 들어, 룩업 테이블에) 분류 그룹과 관련하여 저장된다. 일부 예들에서, 오디오 신호를 분류할 때, (예를 들어, 오디오 신호가 속하는 하나의 특정 분류 그룹을 출력하는 것과 반대로) 확률 분포가 결정될 수 있다. 예를 들어, 분류 프로세스는 오디오 신호가 1976 년부터 1995 년까지 드럼이 없는 음악을 나타내는 그룹에 속할 확률이 50 %, 오디오 신호가 1996 년부터 현재까지 드럼이 없는 음악을 나타내는 그룹에 속할 확률이 30 %, 오디오 신호가 1976 년부터 1995 년까지 신디 드럼으로 음악을 나타내는 그룹에 속할 확률이 18 %, 또는 다른 그룹에 속할 확률이 2 %임을 출력할 수 있다. 이러한 일부 예들에서, 볼륨 조절을 수행하기 위해 분류 그룹과 연관된 게인값을 선택하는 것은 평균화 기술(예를 들어, 각각의 그룹과 연관된 게인값을 결정하고, 오디오 신호가 각 그룹에 속하는 확률에 따라 각각의 값에 가중치를 부여하는 기술)을 포함할 수 있다.
본 명세서에 개시된 일부 예시적인 방법, 장치, 시스템 및 제조물품에서, (예를 들어, 수많은 장르, 다수의 기간 등을 나타내는) 대표적인 다양한 오디오 신호의 대규모 볼륨 프로파일을 사용하여 오디오 신호 분류기가 오디오 신호 분류를 수행하도록 훈련시킨다. 예를 들어, 볼륨 프로파일에는 노래에 가끔 볼륨값이 포함된다. 일부 예에서, 다른 프로파일 및/또는 오디오 신호의 표현이, 볼륨 프로파일에 추가로 또는 대안으로, 오디오 신호 분류기를 훈련시키기 위해 이용될 수 있다. 일부 예에서, 오디오 신호 분류기를 훈련하기 위해 볼륨 프로파일에 대해 클러스터링이 수행된다. 일부 예들에서, 오디오 신호 분류기는 볼륨, 동적 범위 및/또는 볼륨 프로파일의 임의의 다른 속성에 기초하여 볼륨 프로파일의 클러스터를 결정하도록 훈련된다. 오디오 신호 분류기는 동적 범위 그룹에서 볼륨 프로파일을 클러스터링할 수 있으며 그런 후 오디오 신호 분류기는 입력 오디오(예를 들어, 입력 오디오 신호)를 하나 이상의 분류 그룹에 할당할 수 있다.
본 명세서에 개시된 예시적인 방법, 장치, 시스템 및 제조물품에서, 오디오 신호에 대한 분류 그룹을 결정한 후, 오디오 신호에 게인값을 적용함으로써 오디오 신호의 볼륨 레벨을 조정할 수 있다. 게인값은 분류 그룹에 따라 다를 수 있다. 예를 들어, 분류 그룹이 (예를 들어, 일부 팝 음악에서와 같이) 상대적으로 작고 정규화된 동적 범위를 가진 오디오 신호와 연관되는 경우, (예를 들어, 트랙 전체에서 대략적인 볼륨 편차를 결정할 수 있기 때문에) 오디오 신호의 볼륨 레벨을 거의 타켓 볼륨 범위로 가져오게 상당한 볼륨 조절을 할 수 있다. 반대로, 분류 그룹이 상대적으로 넓은 동적 범위를 갖는 오디오 신호와 연관되는 경우, 오디오 신호를 가청 레벨 내로 유지하기 위해 더 작은 볼륨 조절을 할 수 있다.
오디오 신호와 관련된 분류 그룹에 기초한 게인값을 적용한 후, 압축을 이용하여 오디오 신호의 볼륨을 타켓 볼륨 범위 내로 가져올 수 있다. 동적 범위 압축으로 전체 오디오 품질이 저하(예를 들어, 오디오 신호의 일부 손실)될 수 있으므로, 여기에 개시된 예시적인 방법, 장치, 시스템 및 제조물품은 먼저 (예컨대, 분류 그룹에 특화된) 표현되는 오디오의 유형에 특정한 게인값을 적용함으로써 볼륨 조절 기술을 개선하고, 따라서 오디오 신호의 볼륨 레벨을 타켓 볼륨 범위 내에 있도록 조정하는 데 필요한 동적 범위 압축의 양을 줄인다.
본 명세서에 개시된 일부 예시적인 방법, 장치, 시스템 및 제조물품에서, 오디오 신호가 동적 볼륨 조절 설정으로 분류되면, 오디오 신호의 특성은 그 분류 그룹으로부터 추론되고 최소 또는 압축없이 오디오 신호의 볼륨을 타켓 볼륨 임계치 근처로 가져오게 타켓 게인값을 결정하는 데 사용된다.
본 명세서에 개시된 일부 예시적인 방법, 장치, 시스템 및 제조 물품에서, 타켓 게인값을 결정할 때 입력 볼륨 측정이 고려된다. 예를 들어, 입력 볼륨이 -15dbFS로 결정되고 타겟 볼륨 범위가 -21dbFS 내에서 +/- 1dbFS(예를 들어, -20dbFS 내지 -22dbFS)인 경우, 타켓 게인값은 분류 그룹이 변하지않더라도 입력 볼륨이 -10dbFS로 결정되면 보다 작은 음의 게인값이어야 한다. 이러한 일부 예에서, 타켓 게인값을 결정할 때, 궁극적으로 특정 오디오 신호의 실제 입력 볼륨 레벨이 클래스에 기초한 예측보다 볼륨이 조정될 수 있는 양을 더 잘 나타 내기 때문에, 입력 볼륨 측정은 분류 게인값보다 더 많이 가중치가 부여된다(예를 들어, 실시간 측정은 오디오 신호의 클래스와 관련된 예측보다 더 정확할 수 있다). 일부 예에서, 분류 게인값과 입력 볼륨 사이의 평균을 결정하여 타켓 게인값을 계산한다. 예를 들어, 입력 볼륨이 -15dbFS로 결정되고 (예를 들어, 분류 그룹 오디오 신호의 평균 동적 범위를 기반으로 결정된) 분류 게인값은 볼륨이 -6dbFS로 조정할 수 있음을 나타내지만, 타켓은 볼륨 범위는 -21dbFS의 +/- 1dbFS인 경우, 분류 게인값에만 의존하면 에러가 발생할 여지가 극히 적을 수 있다(예를 들어, 동적 범위가 예상보다 크면, 볼륨이 -020dbFS 내지 22dbFS 타켓 볼륨 범위를 벗어나는 경우가 자주 발생한다). 대신, 타켓 게인값이 입력 볼륨과 분류 게인값 사이의 매개(예를 들어, 평균)로 계산되는 경우, 타켓 게인값은 여전히 에러가 발생할 여지를 남기면서 오디오 신호의 볼륨을 타켓 게인값에 가깝게 가져온다.
본 명세서에 개시된 일부 예시적인 방법, 장치, 시스템 및 제조 물품에서, 입력 볼륨 레벨은 규칙적인 간격(예를 들어, 3 초마다, 10 초마다 등)으로 측정되고 분류는 규칙적인 간격으로 수행된다. 입력 볼륨의 변화(예를 들어, 간격 동안의 평균 입력 볼륨의 변화, 간격 동안의 입력 볼륨의 편차의 변화) 및/또는 분류 그룹의 변화에 대한 응답으로, 새로운 타켓 게인값을 결정할 수 있다. 일부 예들에서, 타켓 게인값들 간에 전이할 때, 스무딩 필터(smoothing filter)가 각 간격에서 볼륨의 눈에 띄는 변동을 피하기 위해 2 개의 게인값들 사이에서 부드럽게 전이하는데 이용될 수 있다. 일부 예에서, 타켓 게인값의 더 큰 변화는 타켓 게인값의 상대적으로 사소한 변화보다 느린 속도로 증가된다.
본 명세서에 개시된 예시적인 방법, 장치, 시스템 및 제조물품은 오디오 신호의 볼륨 레벨을 타겟 볼륨 범위 내에 있도록 조정한다. 일부 예에서, 청취자는 (예를 들어, 볼륨 손잡이를 돌리거나, 볼륨 레벨을 변경하기 위한 음성 명령을 제공하는 등으로) 볼륨 레벨을 수동으로 조정할 수 있으며, 이는 볼륨 조절된 오디오 신호에 게인값을 적용함으로써 발생한다. 따라서, 청취자는 오디오 신호를 들을 때 볼륨을 선택할 수 있지만, 서로 다른 소스 간의 차이를 조정하는 것과는 반대로, 일관된 표준 볼륨 레벨(예를 들어, 타켓 볼륨 범위)에서 선택할 수 있다. 따라서, 본 명세서에 개시된 기술은 입력 오디오가 일관된 볼륨 범위 내에서 고정되도록 조정될 수 있게 한다. 본 명세서에 개시된 일부 예시적인 방법, 장치, 시스템 및 제조 물품에서, 동적 볼륨 조절은 수동 볼륨 조절시에 중단될 수 있다. 예를 들어, 사용자가 (예를 들어, 볼륨 손잡이를 돌리거나, 볼륨 레벨을 변경하는 음성 명령을 제공하는 등으로) 볼륨 레벨을 수동으로 조정하는 경우, (예를 들어, 오디오 분류, 분류에 따른 게인값 선택, 오디오 레벨 모니터링 등에 의한) 오디오 레벨의 자동 조정이 중지되어, 사용자가 오디오 레벨을 완전히 제어할 수 있다.
본 명세서에 개시된 일부 예시적인 방법, 장치, 시스템 및 제조물품에서, 오디오 신호는 볼륨 조절을 더 개선하기 위해 식별될 수 있다. 예를 들어, 본 명세서에 개시된 일부 예시적인 기술에서, 오디오 핑거프린트를 이용해 미디어를 식별하여 오디오 신호에 관한 메타 데이터를 검색한다. 오디오 핑거프린팅은 텔레비전 방송, 라디오 방송, 광고(텔레비전 및/또는 라디오), 다운로드된 미디어, 스트리밍 미디어, 사전 패키징된 미디어 등과 같은 미디어를 식별하는 데 사용되는 기술이다. 기존 오디오 워터마킹 기술은 가령 미디어 식별 정보 및/또는 미디어 식별 정보에 매핑될 수 있는 식별자와 같은 하나 이상의 오디오 코드(예를 들어, 하나 이상의 핑거프린트)를 오디오 및/또는 비디오 컴포넌트에 삽입하여 미디어를 식별한다. 일부 예들에서, 오디오 또는 비디오 컴포넌트는 워터마크를 숨기기에 충분한 신호 특성을 갖도록 선택된다. 본 명세서에 사용된 "핑거프린트", "코드", "서명"또는 "워터마크"라는 용어는 상호 교환해 사용되며, 미디어를 식별하기 위한 목적의 또는 튜닝(예를 들어, 패킷 식별 헤더)과 같은 다른 목적을 위해 미디어(예를 들어, 프로그램 또는 광고)의 오디오 또는 비디오에 삽입되거나 내장될 수 있는 임의의 식별 정보(예를 들어, 식별자)를 의미하도록 정의된다. 본 명세서에서 사용된 "미디어"는 오디오 및/또는 비주얼 (정지 또는 동영상) 콘텐츠 및/또는 광고를 의미한다. 핑거프린팅 미디어를 식별하기 위해, 핑거프린트(들)이 추출되고, 미디어 식별 정보에 매핑된 참조 핑거프린트의 테이블에 액세스하는 데 사용된다.
본 명세서에 개시된 예들에서, 볼륨 조절은 차량의 오디오 시스템의 구성요소 또는 그와 통신하는 구성요소에 의해 수행될 수 있다. 일부 예들에서, 동적 볼륨 조절기 또는 동적 볼륨 조절의 다른 구성요소 능력을 포함하는 미디어 유닛이 차량의 헤드 유닛에 포함될 수 있다. 이러한 예에서, 차량 헤드 유닛은 보조 입력, CD 입력, 무선 신호 수신기 입력, 스마트 디바이스의 외부 스트림, 블루투스 입력, 네트워크 연결(예를 들어, 인터넷 연결)로부터 또는 임의의 다른 소스를 통해 오디오 신호를 수신할 수 있다. 예를 들어, 동적 볼륨 조절은 홈 엔터테인먼트 시스템의 미디어 시스템에서 수행될 수 있으며, 다수의 소스(예를 들어, DVD 플레이어, 셋톱 박스 등)가 소스와 미디어 간의 볼륨 레벨을 정규화하도록 시도하기 위해 동적으로 조정된 오디오 신호를 전달할 수 있다. 다른 예들에서, 동적 볼륨 조절은 임의의 설정에서 또는 임의의 미디어 디바이스(들)에 대해 수행될 수 있다.
오디오 분류를 통한 동적 볼륨 조절을 위한 예시적인 절차에서, 정규화된 대용량 팝 음악에 대응하는 오디오 신호가 액세스된다. 오디오 신호와 관련된 오디오 신호 입력 변경을 감지한 후, 다이나믹 레인지 컴프레서는 오디오를 타겟 볼륨 범위(예를 들어, -21dbFS)로 압축한다. 이 압축과 병행하여, 오디오 신호 분류기는 상기 오디오 신호에 해당하는 분류 그룹을 결정한다. 예를 들어, 분류 그룹은 1996 년부터 현재까지의 기간 동안 신디 드럼(synthetic drum)과 베이스가 있는 음악에 해당할 수 있다. 이 분류 그룹은 특정 볼륨 조절 레벨(예를 들어, -15dbFS)과 연관될 수 있다. 일부 예들에서, 분류 그룹과 연관된 이 볼륨 조절 레벨은 현재 오디오 볼륨 레벨에 기초하여 결정되는 볼륨 레벨 조정에 추가로 또는 대안으로 고려될 수 있다. 이 볼륨 조절 레벨과 관련된 볼륨 조절 후에, 타겟 볼륨 범위에 도달하기 위해 약간의 오디오 압축만 수행하면 된다. 예를 들어, 볼륨 조절 단계에서 볼륨을 제 1 값(예를 들어, -17.50dbFS)으로 낮추고 타겟 볼륨 범위가 제 1 값(예를 들어, -21dbFS)보다 큰 제 2 값 근처에 있는 경우, 오디오 신호를 제 1 값으로 (예를 들어, 약 -21dbFS 및 타켓 볼륨 범위 내로) 가져오기 위해 소량의 오디오 압축이 수행될 수 있다. 따라서, 신호를 소량(예를 들어, 3.5dbFS)으로 낮추기 위해서만 동적 범위 압축을 수행하면, 원래 오디오 입력에서 타겟 볼륨 범위로 압축(예를 들어, -21dbFS에 대한 오디오 신호 압축)해야 하는 신호를 낮추는 것보다 오디오 품질이 훨씬 좋다.
도 1은 동적 볼륨 조절을 위해 본 개시의 교시에 따라 구성된 예시적인 시스템(100)의 개략도이다. 예시적인 시스템(100)은 오디오 신호를 미디어 유닛(106)에 전송하는 미디어 디바이스(102, 104)를 포함한다. 미디어 유닛(106)은 오디오 신호를 처리하고 상기 오디오 신호를 오디오 증폭기(108)로 전송하며, 상기 오디오 증폭기는 이어서 출력 장치(110)를 통해 표현될 증폭된 오디오 신호를 출력한다.
도 1의 예시된 예의 예시적인 미디어 디바이스(102)는 휴대용 미디어 플레이어(예를 들어, MP3 플레이어)이다. 예시적인 미디어 디바이스(102)는 미디어에 해당하는 오디오 신호를 저장하거나 수신하고 오디오 신호를 다른 디바이스로 전송할 수 있다. 도 1의 예시된 예에서, 미디어 디바이스(102)는 보조 케이블을 통해 오디오 신호를 미디어 유닛(106)으로 전송한다. 일부 예들에서, 미디어 디바이스(102)는 임의의 다른 인터페이스를 통해 오디오 신호를 미디어 유닛(106)으로 전송할 수 있다.
도 1의 예시된 예의 예시적인 미디어 디바이스(104)는 모바일 디바이스(예를 들어, 휴대폰)이다. 예시적인 미디어 디바이스(104)는 미디어에 해당하는 오디오 신호를 저장 또는 수신하고 오디오 신호를 다른 디바이스로 전송할 수 있다. 도 1의 예시된 예에서, 미디어 디바이스(104)는 오디오 신호를 미디어 유닛(106)에 무선 전송한다. 일부 예들에서, 미디어 디바이스(104)는 오디오 신호를 미디어 유닛(106)으로 전송하기 위해 Wi-Fi, 블루투스 및/또는 임의의 다른 기술을 사용할 수 있다. 일부 예들에서, 미디어 디바이스(104)는 청취자가 차량에서 프레젠테이션하기 위한 미디어를 선택하기 위해 차량 또는 다른 디바이스의 구성요소와 상호 작용할 수 있다. 미디어 디바이스(102, 104)는 오디오 신호를 저장 및/또는 액세스할 수 있는 임의의 디바이스일 수 있다. 일부 예에서, 미디어 디바이스(102, 104)는 차량(예를 들어, CD 플레이어, 라디오 등)에 통합될 수 있다.
도 1의 예시된 예의 예시적인 미디어 유닛(106)은 오디오 신호를 수신하고 처리할 수 있다. 도 1의 예시된 예에서, 예시적인 미디어 유닛(106)은 미디어 디바이스(102, 104)로부터 미디어 신호를 수신하고 이를 처리하여 동적 볼륨 조절을 수행한다. 예시적인 미디어 유닛(106)은 미디어에 내장된 식별자(예를 들어, 핑거프린트, 워터마크, 서명 등)에 기초하여 오디오 신호를 식별할 수 있다. 예시적인 미디어 유닛(106)은 추가로 오디오 신호와 관련된 미디어에 해당하는 메타 데이터에 액세스할 수 있다. 일부 예에서, 메타 데이터는 미디어 유닛(106)의 저장 장치에 저장된다. 일부 예에서, 메타 데이터는 다른 위치(예를 들어, 네트워크를 통해 서버로부터)로부터 액세스된다. 또한, 예시적인 미디어 유닛(106)은 볼륨 임계치를 만족하도록 오디오 신호의 평균 볼륨을 조정하기 위해 메타 데이터에 기초하여 평균 게인값을 결정하고 적용함으로써 동적 볼륨 조절을 수행할 수 있다. 예시적인 미디어 유닛(106)은 또한 실시간으로 오디오 세그먼트의 평균 볼륨 레벨을 결정하기 위해 출력 장치(110)에 의해 출력되는 오디오를 모니터링할 수 있다. 오디오 신호가 미디어에 해당하는 것으로 식별되지 않는 경우 및/또는 볼륨 정보를 포함하는 메타 데이터가 오디오 신호에 대해 이용 가능하지 않은 경우, 예시적인 미디어 유닛(106)은 원하는 볼륨 레벨을 달성하기 위해 오디오 신호의 압축을 제공하도록 동적 범위 압축을 할 수 있다. 일부 예들에서, 예시적인 미디어 유닛(106)은 차량의 다른 장치(예를 들어, 자동차 라디오 헤드 유닛)의 일부로서 포함된다. 일부 예들에서, 예시적인 미디어 유닛(106)은 소프트웨어로서 구현되고 직접 연결(예를 들어, 유선 연결)을 통해 또는 (예를 들어, 클라우드에서 이용 가능한) 네트워크를 통해 다른 디바이스의 일부로서 포함된다. 일부 예들에서, 예시적인 미디어 유닛(106)은 오디오 증폭기(108) 및 출력 장치(110)와 통합될 수 있고 오디오 신호의 처리 후에 오디오 신호 자체를 출력할 수 있다.
도 1의 예시된 예의 예시적인 오디오 증폭기(108)는 미디어 유닛(106)에 의해 처리된 오디오 신호를 수신하고 출력 장치(110)에 의해 출력하기 위한 신호의 적절한 증폭을 수행할 수 있는 디바이스이다. 일부 예에서, 오디오 증폭기(108)는 출력 장치(110)에 통합될 수 있다. 일부 예들에서, 오디오 증폭기(108)는 미디어 유닛(106)으로부터의 증폭 출력값에 기초하여 오디오 신호를 증폭한다. 일부 예들에서, 오디오 증폭기(108)는 청취자(예를 들어, 볼륨 선택기를 조정하는 차량의 승객 또는 운전자)로부터의 입력에 기초하여 오디오 신호를 증폭한다.
도 1의 예시된 예의 예시적인 출력 장치(110)는 스피커이다. 일부 예에서, 출력 장치(110)는 다중 스피커, 헤드폰, 또는 청취자에게 오디오 신호를 표현할 수 있는 임의의 다른 장치일 수 있다. 일부 예에서, 출력 장치(110)는 시각적 요소(예를 들어, 스피커가 있는 텔레비전)도 출력할 수 있다.
도 1의 예시된 예시적인 시스템(100)은 차량에서의 동적 볼륨 조절 구현을 참조하여 설명되며, 예시적인 시스템(100)에 포함된 디바이스의 일부 또는 전부는 임의의 환경 및 임의의 조합으로 구현될 수 있다. 예를 들어, 시스템(100)은 집의 오락실에 있을 수 있으며, 미디어 디바이스(102, 104)는 게임 콘솔, 가상 현실 디바이스, 셋톱 박스 또는 미디어에 액세스 및/또는 미디어를 전송할 수 있는 임의의 다른 디바이스일 수 있다. 추가로, 일부 예에서, 미디어는 시각적 요소(예를 들어, 텔레비전 쇼, 영화 등)도 포함할 수 있다.
도 2는 도 1에 도시된 미디어 유닛(106)의 예시적인 구현의 추가 세부 사항을 제공하는 블록도(200)이다. 예시적인 미디어 유닛(106)은 오디오 신호를 수신하고 오디오 신호를 처리하여 타겟 볼륨 범위 내에 있도록 오디오 신호의 볼륨을 동적으로 조정할 수 있다. 동적 볼륨 조절 후에, 예시적인 미디어 유닛(106)은 출력 장치(110)에 의해 출력되기 전에 증폭을 위해 볼륨 조절된 오디오 신호(228)를 오디오 증폭기(108)로 전송한다.
예시적인 미디어 유닛(106)은 예시적인 입력 오디오 신호(202), 예시적인 입력 신호 검출기(204)를 포함한다. 이 신호 검출기는 예시적인 컴프레서 게인 비교기(206), 예시적인 오디오 볼륨/출력 비교기(208), 예시적인 오디오 샘플 비교기(210)를 포함하며, 이들 모두는 오디오 소스가 변경되었는지 여부)를 결정(212)하는 데 사용된다. 예시적인 미디어 유닛(106)은 예시적인 입력 볼륨 검출기(214), 예시적인 오디오 신호 분류기(216), 예시적인 분류 데이터베이스(218), 예시적인 볼륨 조절기(220), 예시적인 오디오 신호 식별자(222), 예시적인 다이나믹 레인지 컴프레서(224) 및 예시적인 실시간 오디오 모니터(226)를 더 포함한다. 시스템으로부터의 결과적인 출력은 예시적인 볼륨 조절된 오디오 신호(228)이다.
예시적인 입력 오디오 신호(202)는 프리젠테이션을 위해 처리 및 출력될 오디오 신호이다. 입력 오디오 신호(202)는 라디오 신호(예를 들어, FM 신호, AM 신호, 위성 라디오 신호 등), 컴팩트 디스크, (예를 들어, 미디어 디바이스에 연결된) 보조 케이블, Bluetooth 신호, Wi-Fi 신호 또는 임의의 기타 매체에서 액세스될 수 있다. 입력 오디오 신호(202)는 입력 신호 검출기(204), 오디오 신호 분류기(216) 및/또는 실시간 오디오 모니터(226)에 의해 액세스된다. 입력 오디오 신호(202)는 볼륨 조절기(220) 및/또는 다이나믹 레인지 컴프레서(224)에 의해 변환된다.
예시적인 입력 신호 검출기(204)가 입력 오디오 신호(202)를 검출한다. 일부 예에서, 입력 신호 검출기(204)는 입력 오디오 신호(202)가 새로운 입력 오디오 신호 또는 새로운 입력 오디오 신호 소스(예를 들어, FM 신호로 전환되는 AM 신호, CD로 전환되는 보조 장치 신호 등)와 관련 있는지 여부를 검출한다. 일부 예들에서, 입력 신호 검출기(204)는 미디어 유닛(106)이 오프 상태에 있은 후 시작될 때(예를 들어, 미디어 유닛(106)의 전원이 켜지고 입력 오디오 신호(202)가 시작될 때) 입력 오디오 신호(202)를 검출한다. 일부 예들에서, 입력 신호 검출기(204)는 입력 오디오 신호(202)가 (예를 들어, 변경 입력을 나타내는 입력 오디오 신호의 새로운 유형을 나타내거나, 미디어 유닛이 이전에 오디오 신호를 전혀 프리젠테이션하지 않은 후에 시작된 신호를 나타내는 등) 새로운 경우에 분류 프로세스를 개시하도록 오디오 신호 분류기(216)와 통신한다. 일부 예들에서, 입력 신호 검출기(204)는 오디오 소스가 변경되었는지를 결정한다. 예를 들어, 입력 신호 검출기(204)는 오디오 소스 신호가 변경되었는지 여부를 결정하기 위해 예시적인 소스 변경 결정기(212)에 의해 사용되는 예시적인 컴프레서 게인 비교기(206), 예시적인 볼륨/출력 비교기(208) 및 예시적인 오디오 샘플 비교기(210)를 통해 오디오 입력 소스가 변경되었는지를 결정할 수 있다.
예시적인 컴프레서 게인 비교기(206)는 다이나믹 레인지 컴프레서(224)의 현재 게인을 다이나믹 레인지 컴프레서(224)의 이전 게인과 비교한다. 예를 들어, 컴프레서 게인 비교기(206)는 입력 오디오 신호(202)의 현재 샘플 블록과 관련된 다이나믹 레인지 컴프레서(224)의 게인을 이전 샘플 블록(예를 들어, 이전 3 초의 샘플, 이전 5 초의 샘플, 이전 10초의 샘플 등)과 관련된 다이나믹 레인지 컴프레서(224)의 평균(예를 들어, 평균, 중앙값 등) 게인과 비교할 수 있다. 일부 예에서, 컴프레서 게인 비교기(206)는 다이나믹 레인지 컴프레서(224)의 이전 게인의 평균에 대한 다이나믹 레인지 컴프레서(224)의 현재 게인의 비(比)를 출력할 수 있다. 다른 예에서, 컴프레서 게인 비교기(206)는 다이나믹 레인지 컴프레서(224)의 현재 게인과 다이나믹 레인지 컴프레서(224)의 이전 동적 게인의 평균에 대한 비교(예를 들어, 차(差) 등)와 관련된 임의의 다른 적절한 값을 출력할 수 있다.
예시적인 볼륨/출력 비교기(208)는 입력 오디오 신호(202)의 현재 출력을 입력 오디오 신호(202)의 이전 출력과 비교한다. 예를 들어, 출력 비교기(208)는 입력 오디오 신호(202)의 현재 출력을 이전 샘플 블록(예를 들어, 이전 3 초 샘플, 이전 5 초 샘플, 이전 10 초 샘플 등)과 관련된 입력 오디오 신호(202)의 평균(예를 들어, 평균, 중앙값 등) 출력과 비교할 수 있다. 일부 예들에서, 출력 비교기(208)는 입력 오디오 신호(202)의 현재 샘플의 RMS(root mean square) 출력을 입력 오디오 신호(202)의 이전 샘플과 연관된 RMS 출력(들)과 비교할 수 있다. 일부 예들에서, 출력 비교기(208)는 오디오 샘플의 RMS 출력을 결정하기 위해 미디어 유닛(106)의 피크 출력을 질의할 수 있다. 일부 예들에서, 출력 비교기(208)는 K-가중이 적용된 후 이전 RMS 출력(들)의 평균에 대한 현재 RMS 출력의 비(比)를 출력할 수 있다. 다른 예들에서, 출력 비교기(208)는 입력 오디오 신호(202)의 이전 RMS 출력(들)의 평균에 대한 입력 오디오 신호(202)의 현재 RMS 출력의 비교(예를 들어, 차(差) 등)와 관련된 임의의 다른 적절한 값을 출력할 수 있다.
예시적인 오디오 샘플 비교기(210)는 입력 오디오 신호(202)의 샘플의 현재 값을 입력 오디오 신호(202)의 이전 값과 비교한다. 일부 예들에서, 오디오 샘플 비교기(210)는 입력 오디오 신호(202)의 현재 블록으로부터 샘플의 최대 진폭을 기초로 오디오 샘플의 값을 결정한다. 일부 예들에서, 오디오 샘플 비교기(210)는 오디오 샘플의 값을 정규화된 값(예를 들어, 1과 -1 사이 등)으로 결정한다. 다른 예들에서, 오디오 샘플 비교기(210)는 임의의 적절한 스케일에 기초하여 오디오 샘플의 값을 결정할 수 있다. 일부 예들에서, 오디오 샘플 비교기(210)는 결정된 오디오 샘플값의 절대값을 결정한다. 예를 들어, 오디오 샘플 비교기(210)는 입력 오디오 신호(202)의 현재 최대 오디오 샘플값을 이전 샘플 블록(예를 들어, 샘플의 이전 3 초, 샘플의 이전 5 초, 샘플의 이전 10 초 등)과 관련된 입력 오디오 신호(202)의 평균(예를 들어, 평균, 중앙값 등) 오디오 샘플값과 비교할 수 있다. 일부 예들에서, 오디오 샘플 비교기(210)는 이전 오디오 샘플 블록의 평균에 대한 현재 최대 오디오 샘플값의 비를 출력할 수 있다. 다른 예들에서, 오디오 샘플 비교기(210)는 입력 오디오 신호(202)의 이전 오디오 샘플 블록의 평균에 대한 입력 오디오 신호(202)의 현재 오디오 샘플의 비교(예를 들어, 차 등)와 관련된 임의의 다른 적절한 값을 출력할 수 있다.
예시적인 소스 변경 결정기(212)는 예시적인 컴프레서 게인 비교기(206), 예시적인 출력 비교기(208) 및/또는 예시적인 오디오 샘플 비교기의 출력(들)에 기초하여 입력 오디오 신호(202)의 오디오 소스가 변경되었는지를 결정한다. 예를 들어, 소스 변경 결정기(212)는 소스 변경이 발생했는지를 결정하기 위해 회귀 분석(예를 들어, 선형 회귀, 이항 회귀, 최소 제곱, 로지스틱 회귀 등)을 사용할 수 있다. 이러한 예들에서, 소스 변경 결정기(212)는 라벨링된 입력 데이터에 기초하여 회귀 분석에 더 기초할 수 있다. 예를 들어, 라벨링된 입력 데이터는 출력 비교, 컴프레서 게인 비교 및/또는 오디오 샘플 비교에 해당하는 값으로부터 분류 결과로로서 소스 변경 또는 소스 변경 없음의 이진 결정을 통해 오디오 소스가 변경되었는지 여부를 표시할 수 있다. 다른 예들에서, 소스 변경 결정기(212)는 오디오 소스 변경이 발생했는지를 결정하기 위해 임의의 다른 적절한 예측 모델(예를 들어, 머신러닝, 신경망 등)을 사용할 수 있다. 일부 예들에서, 소스 변경 결정기(212)는 소스 변경이 시간 프레임(예를 들어, 이전 3 초 등)에서 발생했는지를 나타내는 이진 값을 출력할 수 있다. 예를 들어, 소스 변경 결정기(212)는 소스 변경이 발생하지 않았음을 나타내는 "0"을 출력하고 소스 변경이 발생했음을 나타내는 "1"을 출력할 수 있다. 다른 예들에서, 소스 변경 결정기(212)는 오디오 소스 변경이 발생했음을 나타내는 임의의 다른 적절한 표시를 출력할 수 있다.
예시적인 입력 볼륨 검출기(214)는 입력 오디오 신호(202)와 관련된 볼륨 레벨을 결정한다. 일부 예들에서, 입력 볼륨 검출기(214)는 입력 오디오 신호(202)가 새로운 입력 오디오 신호임을 입력 신호 검출기(204)가 나타낼 때 입력 오디오 신호(202)와 관련된 초기 입력 볼륨 레벨값을 결정한다. 일부 예들에서, 입력 볼륨 검출기(214)는 입력 오디오 신호가 처음 수신될 때 입력 오디오 신호(202)의 동적 범위 압축을 가능하게 하기 위해 다이나믹 레인지 컴프레서(224)에 볼륨 레벨을 제공한다. 예를 들어, 입력 볼륨 검출기(214)는 입력 오디오 신호(202)에 대한 초기 볼륨 레벨을 다이나믹 레인지 컴프레서(224)에 제공할 수 있고, 다이나믹 레인지 컴프레서(224)는 입력 오디오 신호(202)에 대한 볼륨 레벨이 타켓 볼륨 범위 내에 있도록 동적 범위를 조정할 수 있다. 예시된 예의 입력 볼륨 검출기(214)는 일정한 간격(예를 들어, 3 초 간격, 5 초 간격 등)으로 볼륨 레벨을 결정한다. 일부 예들에서, 입력 볼륨 검출기(214)는 간격에 대한 평균(예를 들어, 평균, 중앙값 등) 볼륨 레벨을 결정한다. 일부 예에서, 입력 볼륨 검출기(214)는 간격에 대한 볼륨 레벨의 편차를 결정한다.
예시적인 오디오 신호 분류기(216)는 입력 오디오 신호에 대한 분류를 결정한다. 일부 예에서, 오디오 신호 분류기(216)는 입력 오디오 신호(202)가 속하는 분류 그룹을 결정하기 위해 입력 오디오 신호(202)의 특성을 분석한다. 일부 예들에서, 오디오 신호 분류기(216)는 신경망을 이용해 동적 범위의 예측을 돕고 입력 오디오 신호(202)에 적용될 볼륨 컷의 양을 볼륨 조절기(220)에 통지한다. 예를 들어, 신경망을 이용해 오디오 신호 분류기(216)에 의해 이용될 수 있고/있거나 이에 통합될 수 있는 분류 모델을 훈련하고 출력할 수 있다. 미디어 유닛(106)(예를 들어 오디오 신호 분류기(216) 등)에 의해 사용하기 위해 훈련 모델을 제공할 수 있는 예시적인 오디오 분류 엔진을 보여주는 블록도가 도 3에 도시되어 있다. 일부 예에서, 분류 그룹과 관련하여 저장된 분류 그룹을 식별하기 위해 트레이닝 데이터와 관련된 오디오 특성이 신경망에 의해 사용된다. 예를 들어, 평균 동적 범위, 동적 범위의 편차, 평균 볼륨, 볼륨의 평균 편차 등과 같은 오디오 특성이 분류 그룹에 대해 결정되고 분류 데이터베이스(218) 및/또는 다른 접근 가능한 위치에 (예를 들어, 룩업 테이블에) 저장될 수 있다.
일부 예들에서, 오디오 신호 분류기(216) 및/또는 도 3의 오디오 분류 엔진(300)이 (예를 들어, 다양한 악기, 다양한 장르 등을 나타내는) 대표적인 다양한 오디오 신호의 볼륨 프로파일 및/또는 다른 프리젠테이션에 액세스하고 (예를 들어, 클러스터링을 사용하여) 오디오 신호 분류기(216)의 모델을 훈련시켜 볼륨 프로파일 및/또는 대표적인 다양한 오디오 신호의 기타 프리젠테이션을 기반으로 클래스를 식별한다. 예를 들어, 볼륨 프로파일 및/또는 다른 프리젠테이션은 볼륨 및/또는 동적 범위를 기반으로 클러스터링될 수 있다. 오디오 신호 분류기(216)는 입력 오디오 신호(202)를 분석함으로써 입력 오디오 신호(202)를 분류해 볼륨, 동적 범위 및/또는 클래스와 연관된 하나 이상의 속성과 비교할 수 있는 입력 오디오 신호(202)의 다른 속성을 결정할 수 있다.
예시된 예의 오디오 신호 분류기(216)는 다양한 유형의 오디오 신호와 연관된 복수의 분류 그룹(예를 들어, 9 개의 분류 그룹, 10 개의 분류 그룹 등)으로부터 하나 이상의 분류 그룹을 결정한다. 예를 들어, 분류 그룹은 입력 오디오 신호(202)에 의해 표현되는 음악의 장르, 입력 오디오 신호(202)에 의해 표현되는 음악의 기간, 입력 오디오 신호(202)에서 식별된 상이한 악기 등과 연관될 수 있다. 일부 예에서, 분류 그룹은 음성 콘텐츠, 팝 음악, 락 음악, 힙합 음악 등과 연관될 수 있다. 일부 예시적인 분류 그룹에는 스피치, 1975 년 이전의 드럼이 없는 음악, 1976 - 1995 년의 드럼이 없는 음악, 1996 년부터 현재까지의 드럼이 없는 음악, 1976 - 1995 년의 신디 드럼이 있는 음악, 1996 - 현재의 신디 드럼이 있는 음악, 1975 년 이전의 실제 드럼이 있는 음악, 1976 - 1995 년의 실제 드럼이 있는 음악 및/또는 1996 년부터 현재까지의 실제 드럼이 있는 음악이 포함된다. 따라서, 분류 그룹은 사운드 녹음 및/또는 재생 능력의 기술적 차이가 제작된 음악/사운드의 볼륨 및/또는 동적 범위의 차이에 해당하는 음악/사운드 제작의 뚜렷한 시대에 해당 할 수 있다. 분류 그룹은 추가로 또는 대안으로 오디오 콘텐츠의 볼륨 및/또는 동적 범위의 관찰된 (예를 들어, 휴리스틱적으로 유도된) 특성에 기반할 수 있다.
오디오 신호 분류기(216)는 입력 오디오 신호(202)를 분류하기 위해 입력 오디오 신호(202)의 임의의 특성을 이용할 수 있다. 예를 들어, 오디오 신호 분류기(216)는 입력 오디오 신호(202)의 스펙트럼 특성, 입력 오디오 신호(202)에 대한 상수 Q 변환(CQT) 특성 또는 임의의 다른 파라미터를 사용할 수 있다. 일부 예에서, 오디오 신호의 시간 샘플, 스펙트로그램(들), 요약, 변환 및/또는 설명은 오디오 신호 분류기(216)에 대한 입력으로 사용된다. 이러한 특성은 입력 오디오 신호용의 분류 그룹을 결정하기 위해 신경망 모델에 입력될 수 있다. 일부 예들에서, 신경망 모델은 분류 데이터베이스(218)로부터 액세스될 수 있다.
예시된 예의 오디오 신호 분류기(216)는 단일 클래스(예를 들어, 스피치, 1996 이후 드럼이 있는 음악 등)를 출력하거나 다중 클래스와 관련된 확률 분포를 출력할 수 있다. 일부 예들에서, 오디오 신호 분류기(216)는 오디오 신호에 해당할 확률이 가장 높은 클래스를 결정하고 오디오 신호가 이 클래스에 속한다는 표시를 출력한다. 다른 예들에서, 오디오 신호 분류기(216)는 클래스들 각각에 속하는 오디오 신호와 관련된 확률(예를 들어, 오디오 신호가 "스피치" 클래스에 속할 확률이 60 %)을 출력한다. 일부 예에서, 임계 퍼센트를 이용해 확률 분포가 출력되고 나서의 비교로 단일 클래스가 출력된 경우임을 결정할 수 있다. 예를 들어, 오디오 신호가 스피치 클래스에 속할 확률이 90 %임을 오디오 신호 분류기(216)가 식별한다면, 이는 임계 퍼센트를 초과해 오디오 신호 분류기(216)가 오디오 신호를 스피치 클래스에 속하는 것으로 식별하게 할 수 있다. 일부 예들에서, 임계 퍼센트가 만족되지 않으면, 확률 분포가 출력될 수 있거나, 오디오 신호 분류기(216)가 오디오 신호와 관련된 클래스를 식별할 수 없음을 나타낼 수 있다.
입력 오디오 신호(202)에 대한 분류 그룹을 결정한 것에 응답하여, 오디오 신호 분류기(216)는 분류 그룹과 연관된 분류 게인값을 선택할 수 있으며, 이는 볼륨 조절기(220) 및/또는 다이나믹 레인지 컴프레서에 전달될 수 있다. 일부 예들에서, 오디오 신호 분류기(216)는 분류 그룹과 연관된 하나 이상의 룩업 테이블로부터 분류 게인값에 액세스한다. 일부 예에서, 분류 게인값은 하나 이상의 분류 그룹과 연관된 하나 이상의 테이블로부터의 값의 조합으로 결정된다. 예를 들어, 오디오 신호가 각각의 분류 그룹에 속할 확률을 나타내는 확률 분포를 오디오 신호 분류기(216)가 출력하면, 각 그룹과 관련된 테이블이 검색될 수 있고, 게인값 또는 다른 조정값(예를 들어, EQ 값)이 각 분류 그룹의 상대 확률에 따라 결합되고 가중치를 부여할 수 있다.
일부 예들에서, 오디오 신호 분류기(216)는 분류 그룹을 볼륨 조절기(220) 및/또는 다이나믹 레인지 컴프레서(224)에 제공하고, 그 다음 분류 그룹과 연관된 조절 파라미터에 액세스하고/하거나 이를 결정한다. 일부 예들에서, 오디오 신호 분류기(216)는 (1) 분류 게인값 및/또는 (2) 오디오의 볼륨 레벨이 재분석되어야하는 시간에 해당하는 기간을 출력한다.
예시적인 분류 데이터베이스(218)는 오디오 신호 분류와 관련된 데이터용 저장 위치이다. 일부 예들에서, 분류 데이터베이스(218)는 오디오 신호를 분류하는데 사용될 모델(예를 들어, 신경망 모델)을 저장한다. 일부 예들에서, 모델은 오디오 분류 엔진으로부터 액세스 및/또는 검색되고, 이는 도 3에 더 상세히 예시되고 설명되어 있다. 일부 예들에서, 분류 데이터베이스(218)는 오디오 신호, 오디오 핑거프린트, 및/또는 미디어 유닛(106)에 의해 사용되는 임의의 다른 데이터를 저장할 수 있다. 분류 데이터베이스(218)는 분류 그룹과 관련된 오디오 파라미터를 저장하기 위한 것을 포함하는 룩업 테이블을 저장하거나 다른 저장 장치 기구를 수용한다. 예시적인 분류 데이터베이스(218)는 휘발성 메모리(예를 들어, SDRAM(Synchronous Dynamic Random Access Memory), DRAM(Dynamic Random Access Memory), RAMBUS Dynamic Random Access Memory(RDRAM) 등) 및/또는 비휘발성 메모리(예를 들어, 플래시 메모리)에 의해 구현될 수 있다. 분류 데이터베이스(218)는 추가로 또는 대안으로 DDR, DDR2, DDR3, 모바일 DDR(mDDR) 등과 같은 하나 이상의 DDR(double data rate) 메모리에 의해 구현될 수 있다. 분류 데이터베이스(218)는 추가로 또는 대안으로 하드 디스크 드라이브(들), 컴팩트 디스크 드라이브(들), 디지털 다목적 디스크 드라이브(들) 등과 같은 하나 이상의 대용량 저장 장치에 의해 구현될 수 있다. 예시된 예에서 분류 데이터베이스(218)는 단일 데이터베이스로 예시되지만, 분류 데이터베이스(218)는 임의의 개수 및/또는 유형의 데이터베이스에 의해 구현될 수 있다. 또한, 분류 데이터베이스(218)에 저장된 데이터는, 예를 들어, 이진 데이터, 콤마 구분 데이터, 탭 구분 데이터, SQL(structured query language) 구조 등과 같은 임의의 데이터 형식일 수 있다.
도 2의 예시된 예의 예시적인 볼륨 조절기(220)는 오디오 신호의 볼륨 레벨을 조정한다. 일부 예들에서, 예시적인 볼륨 조절기(220)는 (예를 들어, 입력 볼륨 검출기(214)에 의해 결정된) 알려진 볼륨값으로부터 원하는 볼륨값(예를 들어, 타켓 볼륨 범위 주변의 값)으로 오디오 신호의 볼륨을 변환할 단일 평균 게인값을 결정한다. 예시된 예의 볼륨 조절기(220)는 타겟 게인값을 결정하기 위해 입력 볼륨 검출기(214) 및/또는 오디오 신호 분류기(216)와 통신한다. 볼륨 조절기(220)는 오디오 신호 분류기(216)에 의해 식별된 하나 이상의 분류 그룹에 대응하는 분류 게인값 및 입력 볼륨 검출기(214)에 의해 검출된 입력 볼륨 레벨에 기초하여 (예를 들어, 분류 게인값 및 입력 볼륨 간의 평균을 계산함으로써) 타겟 게인을 계산한다. 일부 예에서, 볼륨 조절기(220)는 오디오 신호 분류기(216)로부터 액세스된 분류 게인값 및 입력 볼륨 검출기(214)로부터 액세스된 입력 볼륨에 하나 이상의 가중치를 적용한다.
일부 예들에서, 볼륨 조절기(220)는 소스의 변경이 검출될 때(예를 들어, 소스가 FM 스테이션에서 보조 입력으로 변경될 때) 오디오 신호에 적용되는 게인값을 재설정한다. 이러한 일부 예들에서, 볼륨 조절기(220)는 게인값을 0으로 설정하고 다이나믹 레인지 컴프레서(224)는 입력 볼륨 검출기(214) 및 오디오 신호 분류기(216)가 새롭게 검출된 오디오 신호에 대한 정보를 볼륨 조절기(220)에 제공하여 타켓 게인값을 결정할 때까지 오디오 신호의 볼륨이 타켓 볼륨 범위 내에 있도록 조정하기 위해 압축을 수행한다.
예시된 예시의 볼륨 조절기(220)는 (예를 들어, 평활화 필터, 평균화 필터 등을 사용하여) 상이한 볼륨 조절들 사이에서 완만하게 전환된다. 일부 예들에서, 볼륨 조절기(220)가 타켓 게인값의 큰 변화가 필요하다고 결정하면, 볼륨 조절기(220)는 새로운 타켓 게인값으로 천천히 천이한다. 반대로, 볼륨 조절기(220)는 타켓 게인값에서 더 작고, 덜 인지할 수 있는 변화 사이에서 더 빠르게 전환할 수 있다. 예시된 예의 볼륨 조절기(220)는 타켓 게인값 사이를 전환하기 위해 단극 평활화 필터를 사용한다.
일부 예들에서, 볼륨 조절기(220)는 입력 볼륨 검출기(214)로부터의 업데이트된 입력 볼륨값 및/또는 오디오 신호 분류기(216)로부터 업데이트된 분류 출력이 이전 입력 볼륨값 및/또는 이전 분류 출력에 대한 차(差) 임계치를 만족하는지 여부를 결정한다. 이러한 일부 예에서, 볼륨 조절기(220)는 업데이트된 입력 볼륨값 및/또는 업데이트된 분류 출력이 타켓 게인값을 계산하는 데 사용되는 이전 값에 비해 차 임계치를 만족하는 경우에만 새로운 타켓 게인값을 결정한다.
예시된 예의 예시적인 볼륨 조절기(220)는 오디오 신호를 변환하기 위해 타겟 게인값을 오디오 신호에 적용한다. 일부 예들에서, 볼륨 조절기(220)는 입력 신호 검출기(204)가 페이드-인 볼륨 조절을 사용하여 입력 오디오 신호(202)를 감지 할 경우 (예를 들어, 볼륨을 최소화한 다음 새로운 신호가 감지될 때 볼륨을 점차적으로 증가시킴으로써) 초기 볼륨 조절을 수행한다. 일부 예에서, 볼륨 조절기(220)는 액세스되고 있는 입력 신호의 유형에 대한 이전 볼륨값에 기초하여 초기 볼륨값을 설정할 수 있다. 예를 들어, 입력 오디오 신호(202)가 FM 오디오 신호이면, 볼륨 조절기(220)는 FM 오디오 신호에 사용된 이전 볼륨 레벨을 결정하고 현재 초기 볼륨을 이 값으로 설정할 수 있다. 볼륨 조절기(220)는 입력 오디오 신호(202)의 초기 볼륨을 독립적으로 조절할 수 있거나, 다이나믹 레인지 컴프레서(224)와 함께 작동하여 최초로 감지될 때 입력 오디오 신호(202)를 조절할 수 있다.
도 2의 예시된 예의 예시적인 오디오 신호 식별자(222)는 입력 오디오 신호(202)에 대응하는 미디어를 식별한다. 일부 예들에서, 미디어 유닛(106)은 오디오 신호 식별자(222)를 포함하지 않을 수 있고, 오디오 신호 분류기(216)에 의한 분류만을 기반으로 입력 오디오 신호(202)를 수정할 수 있다. 예를 들어, 오디오 신호 식별자(222)는 오디오 신호의 미디어를 결정하기 위해 알려진 또는 참조 오디오 서명과 오디오 신호에 내장된 미디어 식별자(예를 들어, 핑거프린트)의 비교를 수행한다. 일부 예들에서, 예시적인 오디오 신호 식별자(222)는 매칭되는 참조 미디어 식별자를 찾을 수 있다. 이러한 예들에서, 오디오 신호 식별자(222)는 입력 오디오 신호(202)에 포함된 미디어에 특정한 입력 오디오 신호(202)를 조정하기 위해 식별 정보를 볼륨 조절기(220) 및/또는 다이나믹 레인지 컴프레서(224)에 전달할 수 있다. 일부 예에서, 오디오 신호 식별자(222)는 (예를 들어, 중앙 설비에서) 외부 데이터베이스와 상호 작용하여 일치하는 참조 서명을 찾을 수 있다. 일부 예에서, 오디오 신호 식별자(222)는 내부 데이터베이스(예를 들어, 분류 데이터베이스(218) 등)와 상호 작용하여 일치하는 참조 서명을 찾을 수 있다.
도 2의 예시된 예의 예시적인 다이나믹 레인지 컴프레서(224)는 입력 오디오 신호(202)를 압축할 수 있다. 일부 예들에서, 다이나믹 레인지 컴프레서(224)는 입력 오디오 신호(202)가 (예를 들어, 원하는 볼륨 레벨과 관련된) 타켓 볼륨 임계치를 만족하는 평균 볼륨 레벨을 갖도록 오디오 압축을 수행한다. 일부 예들에서, 다이나믹 레인지 컴프레서(224)는 지속적으로 활성화되고, 입력 오디오 신호(202)를 타겟 볼륨 임계치(예를 들어, -21dbFS의 +/- .5dbFS)) 내로 가져 오기 위해 볼륨 조절기(220)에 의해 이루어진 임의의 볼륨 조절 후에 입력 오디오 신호(202)의 압축을 수행한다. 일부 예에서, 다이나믹 레인지 컴프레서(224)는 입력 오디오 신호(202)가 타켓 볼륨 임계치 내에 속하도록 조정되는 것을 보장하는 최종 단계로서 작용한다. 일부 예들에서, 입력 오디오 신호(202)에 대해 수행되는 동적 범위 압축의 양은 볼륨 조절 오디오 신호(228)의 출력 품질에 반비례한다(예를 들어, 더 많은 동적 볼륨 압축을 더 많이 하면, 손실이 더 많듯이 볼륨 조절 오디오 신호(228)의 품질이 더 낮아진다).
도 2의 예시된 예의 예시적인 실시간 오디오 모니터(226)는 실시간 볼륨 측정 데이터를 수집한다. 예를 들어, 실시간 오디오 모니터(226)는 기간(예를 들어, 750ms)에 걸친 평균으로서 현재 오디오 볼륨 레벨을 결정할 수 있다. 일부 예들에서, 실시간 오디오 모니터(226)는 모니터링 기간(예를 들어, 10 초, 1 분 등) 동안 입력 오디오 신호(202)를 지속적으로 모니터링한다. 이러한 예들에서, 실시간 오디오 모니터(226)는 볼륨 조절기(220) 또는 다이나믹 레인지 컴프레서(224)에 의한 후속 조절이 필요한지 여부를 결정하기 위해 모니터링 기간 동안 볼륨 레벨을 분석 할 수 있다. 일부 예들에서, 실시간 오디오 모니터(226)는 입력 오디오 신호(202)의 지속 기간 동안 입력 오디오 신호(202)를 지속적으로 모니터링한다. 일부 예들에서, 실시간 오디오 모니터(226)는 기간(예를 들어, 750ms)에 걸쳐 평균 볼륨 레벨이 타겟 볼륨 범위 내에 (예를 들어, -21dbFS의 +/- .5dbFS 이내) 있는지 결정한다. 볼륨 레벨이 타켓 볼륨 범위 내에 속하지 않는다고 응답하면, 오디오 신호 분류기(216)는 입력 오디오 신호(202)를 재분류하기 위해 입력 오디오 신호(202)의 특성을 재분석하려고 시도할 수 있다. 일부 예들에서, 볼륨 조절기(220) 및/또는 다이나믹 레인지 컴프레서(224)는 기간 동안 평균 볼륨 레벨이 타켓 볼륨 범위에 속하지 않는다고 결정한 실시간 오디오 모니터(226)에 응답하여 입력 오디오 신호(202)를 더 조정한다.
예시된 예의 실시간 오디오 모니터(226)는 오디오 신호 분류기(216)에 의해 출력된 이전 분류 이후의 지속 기간이 업데이트 시간 임계치를 만족하는지 여부를 결정하기 위해 타이머를 포함하고/하거나 이에 액세스한다. 일부 예에서, 업데이트 시간 임계치는 조작자에 의해 구성된다. 예를 들어, 실시간 오디오 모니터(226)는 3 초의 업데이트 시간 임계치으로 구성될 수 있는데, 이는 오디오 신호 분류기(216)가 3 초 간격으로 오디오 신호를 재분류(예를 들어, 3 초마다, 지난 3 초 때의 분류를 수행)한다는 것을 의미한다. 추가로 또는 대안으로, 예시된 예의 입력 볼륨 검출기(214)는 마지막 분류 이후 및/또는 마지막 입력 볼륨 계산 이후(예를 들어, 3 초 이전 예) 지속 기간 동안 오디오 신호의 입력 볼륨(예를 들어, 평균 입력 볼륨)을 결정한다. 이러한 일부 예들에서, 오디오 신호를 재분류하고/하거나 새로운 입력 볼륨을 결정한 후에, 볼륨 조절기(220)는 새로운 분류 및/또는 새로운 입력 볼륨에 기초하여 새로운 타켓 게인값을 결정할 수 있다.
도 2의 미디어 유닛(106)을 구현하는 예시적인 방식이 도 4에 도시되어 있으나, 도 2에 도시된 요소, 프로세스 및/또는 디바이스 중 하나 이상이 결합, 분할, 재배열, 생략, 제거 및/또는 임의의 다른 방식으로 구현될 수 있다. 또한, 예시적인 소스 변경 결정기(212), 예시적인 입력 볼륨 검출기(214), 예시적인 오디오 신호 분류기(216), 예시적인 분류 데이터베이스(218), 예시적인 볼륨 조절기(220), 예시적인 오디오 신호 식별자(222), 예시적인 다이나믹 레인지 컴프레서(224), 예시적인 실시간 오디오 모니터(226) 및/또는, 보다 일반적으로, 도 2의 예시적인 미디어 유닛(106)에 의해 사용되는 예시적인 입력 신호 검출기(204), 예시적인 컴프레서 게인 비교기(206), 예시적인 볼륨/출력 비교기(208) 및 예시적인 오디오 샘플 비교기(210)가 하드웨어, 소프트웨어, 펌웨어 및/또는 하드웨어, 소프트웨어 및/또는 펌웨어의 임의의 조합으로 구현될 수 있다. 따라서, 예를 들어, 예시적인 소스 변경 결정기(212), 예시적인 입력 볼륨 검출기(214), 예시적인 오디오 신호 분류기(216), 예시적인 분류 데이터베이스(218), 예시적인 볼륨 조절기(220), 예시적인 오디오 신호 식별자(222), 예시적인 다이나믹 레인지 컴프레서(224), 예시적인 실시간 오디오 모니터(226) 및/또는, 보다 일반적으로, 도 2의 예시적인 미디어 유닛(106)에 의해 사용되는 예시적인 입력 신호 검출기(204), 예시적인 컴프레서 게인 비교기(206), 예시적인 볼륨/출력 비교기(208) 및 예시적인 오디오 샘플 비교기(210)가 하나 이상의 아날로그 또는 디지털 회로(들), 논리 회로, 프로그램 가능 프로세서(들), 프로그램 가능 컨트롤러(들), 그래픽 처리 장치(들)(GPU(s)), 디지털 신호 프로세서(들)(DSP(s)), 주문형 집적 회로(들)(ASIC(s)), 프로그래밍 가능 논리 장치(들)(PLD(s)) 및/또는 필드 프로그래밍 가능 논리 장치(들)(FPLD(s))에 의해 구현될 수 있다. 순전히 소프트웨어 및/또는 펌웨어 구현을 포함하기 위해 본 출원의 장치 또는 시스템 청구항 중 어느 하나를 읽을 때, 예시적인 소스 변경 결정기(212), 예시적인 입력 볼륨 검출기(214), 예시적인 오디오 신호 분류기(216), 예시적인 분류 데이터베이스(218), 예시적인 볼륨 조절기(220), 예시적인 오디오 신호 식별자(222), 예시적인 다이나믹 레인지 컴프레서(224), 예시적인 실시간 오디오 모니터(226) 및/또는, 보다 일반적으로, 도 2의 예시적인 미디어 유닛(106)에 의해 사용되는 예시적인 입력 신호 검출기(204), 예시적인 컴프레서 게인 비교기(206), 예시적인 볼륨/출력 비교기(208), 및 예시적인 오디오 샘플 비교기(210)가 소프트웨어 및/또는 펌웨어를 포함한 메모리, 디지털 다용도 디스크(DVD), 컴팩트 디스크(CD), Blu-ray 디스크 등과 같은 비일시적 컴퓨터 판독 가능 저장 장치 또는 저장 디스크를 포함하도록 본 명세서에서 명시적으로 정의된다. 더 나아가, 도 1의 예시적인 미디어 유닛(106)은 도 2에 도시된 것들에 추가하거나 그 대신에 하나 이상의 요소, 프로세스 및/또는 디바이스를 포함할 수 있고/있거나 예시된 요소, 프로세스 및 디바이스 중 어느 하나 또는 전부 중 하나 이상을 포함할 수 있다. 본 명세서에 사용된 바와 같이, "통신 중"이라는 문구는 변형을 포함하여 하나 이상의 매개 구성요소를 통한 직접 통신 및/또는 간접 통신을 포함하며 직접적인 물리적(예를 들어, 유선) 통신 및/또는 지속적인 통신을 필요로하지 않고, 오히려 주기적 간격, 예약된 간격, 비주기적 간격 및/또는 일회성 이벤트에서의 선택적 통신을 추가로 포함한다.
도 3은 도 1 및 도 2의 미디어 유닛(106)에 의해 사용하기 위해 훈련된 모델을 제공할 수 있는 오디오 분류 엔진(300)을 보여주는 블록도이다. 머신러닝 기술은 딥러닝 네트워크이든 다른 경험적/관찰적 학습 시스템이든 간에 결과를 최적화하고, 이미지에서 객체를 찾고, 음성을 이해하고, 음성을 텍스트로 변환하고, 검색 엔진 결과의 관련성을 개선하는 데 사용할 수 있다. 예를 들어, 많은 머신러닝 시스템에는 머신러닝 네트워크의 학습 및 업데이트를 통해 수정될 초기 피처 및/또는 네트워크 가중치가 시드되지만, 딥러닝 네트워크는 분석을 위해 "좋은" 피처를 식별하도록 자체적으로 학습한다. 다층 아키텍처를 사용한, 딥러닝 기술을 이용하는 기계는 기존 머신러닝 기술을 사용하는 기계보다 원시 데이터를 더 잘 처리할 수 있다. 서로 다른 평가 또는 추상화 계층을 사용하여 고도로 상관된 값 또는 독특한 주제의 그룹에 대한 데이터 검사가 용이해진다.
신경망, 딥러닝 네트워크 및/또는 기타 경험/관측 학습 시스템이든 간에 머신러닝 기술을 사용하여 최적의 결과를 생성할 수 있고, 이미지에서 객체를 찾고, 음성을 이해하고, 음성을 텍스트로 변환할 수 있고, 예를 들어 검색 엔진 결과의 관련성을 개선한다. 딥러닝은 일련의 알고리즘을 사용하여 선형 및 비선형 변환을 포함한 여러 처리 계층이 있는 딥 그래프를 사용하여 데이터의 고도의 추상화를 모델링하는 머신러닝의 서브세트이다. 많은 머신러닝 시스템에는 머신러닝 네트워크의 학습 및 업데이트를 통해 수정될 초기 피처 및/또는 네트워크 가중치가 시드되지만, 딥러닝 네트워크는 분석을 위한 "좋은" 피처를 식별하도록 자체적으로 학습한다. 다층 아키텍처를 사용한, 딥러닝 기술을 이용하는 기계는 기존 머신러닝 기술을 사용하는 기계보다 원시 데이터를 더 잘 처리할 수 있다. 서로 다른 평가 또는 추상화 계층을 사용하여 고도로 상관된 값 또는 독특한 주제의 그룹에 대한 데이터 검사가 용이해진다.
예를 들어, 컨볼루션 신경망(CNN)을 사용하는 딥러닝은 컨볼루션 필터를 사용하여 데이터를 분할하여 데이터에서 학습되고 관찰 가능한 특징을 찾아 식별한다. CNN 아키텍처의 각 필터 또는 계층은 입력 데이터를 변환하여 데이터의 선택 성과 불변성을 높이다. 이러한 데이터 추상화를 통해 기계는 관련없는 배경 정보를 분류하고 무시하려고 시도해 데이터의 기능에 집중할 수 있다.
딥러닝은 많은 데이터 세트가 로우레벨 피처를 포함하는 하이레벨 특징을 포함한다는 이해를 바탕으로 작동한다. 예를 들어, 이미지를 조사하는 동안, 물체를 찾기 보다, 부분을 형성하는 모티프를 형성하는 모서리를 찾는 것이 더 효율적이다. 이러한 피처의 계층은 많은 다양한 형태의 데이터에서 찾을 수 있다.
학습된 관찰 가능한 피처는 지도 학습 동안 기계에 의해 학습된 객체 및 정량화 가능한 규칙성을 포함한다. 잘 분류된 대규모 데이터 세트가 제공되는 기계는 새로운 데이터의 성공적인 분류와 관련된 피처를 구별하고 추출하는 데 더 적합하다.
전이 학습을 활용하는 딥러닝 머신은 데이터 피처를 인간 전문가가 확인한 특정 분류에 적절하게 연결할 수 있다. 반대로, 동일한 기계는, 인간 전문가가 잘못된 분류를 알려주면, 분류를 위해 파라미터를 업데이트할 수 있다. 예를 들어, 설정 및/또는 기타 구성 정보는 설정 및/또는 기타 구성 정보의 학습된 사용에 의해 가이드될 수 있으며, 시스템이 (예를 들어, 반복적으로 및/또는 여러 사용자에 의해) 더 많이 사용됨에 따라, 설정 및/또는 기타 구성 정보에 대한 많은 변형 및/또는 다른 가능성이 주어진 상황에 대해 감소될 수 있다.
예시적인 딥러닝 신경망은, 예를 들어, 전문가 분류 데이터 세트에 대해 훈련될 수 있다. 이 데이터 세트는 신경망의 제 1 파라미터를 구축하며, 이것이 지도 학습의 단계가 될 것이다. 지도 학습 단계에서 원하는 행동이 달성되었는지 신경망을 테스트할 수 있다.
원하는 신경망 동작이 달성되면(예를 들어, 기계가 지정된 임계치 등에 따라 작동하도록 훈련된 경우), 기계는 (예를 들어, "실제" 데이터로 기계를 테스트하는 등) 사용을 위해 배치될 수 있다. 동작 중에, (예를 들어, 전문 사용자, 전문가 시스템, 참조 데이터베이스 등에 의해) 신경망 분류를 확인하거나 거부하여 신경망 동작을 지속적으로 개선할 수 있다. 그런 다음, 신경망 동작을 결정하는 분류용 파라미터가 진행중인 상호 작용을 기반으로 업데이트되므로, 예시적인 신경망은 전이 학습 상태가 된다. 특정 예들에서, 신경망(302)과 같은 신경망은 오디오 분류 스코어링 엔진(304) 등과 같은 다른 프로세스에 직접 피드백을 제공할 수 있다. 특정 예들에서, 신경망(302)은 (예를 들어, 클라우드 등을 통해) 버퍼링되고 다른 프로세스에 제공되기 전에 검증된 데이터를 출력한다
도 3의 예에서, 신경망(302)은 분류 트레이닝 데이터와 연관된 이전 결과 데이터로부터 입력을 수신하고, 오디오 신호와 연관된 분류 그룹을 예측하는 알고리즘을 출력한다. 네트워크(302)는 몇 가지 초기 상관관계로 시드될 수 있고 그 후 진행중인 경험으로부터 학습할 수 있다. 일부 예에서, 신경망(302)은 적어도 하나의 분류 트레이닝 데이터로부터 지속적으로 피드백을 수신한다. 도 3의 예에서, 오디오 분류 엔진(300)의 작동 수명 내내, 신경망(302)은 피드백을 통해 지속적으로 훈련되고 예시적인 오디오 분류 스코어링 엔진(304)은 원하는대로 신경망(302) 및/또는 추가 분류 트레이닝 데이터에 기초하여 업데이트될 수 있다. 네트워크(302)는 역할, 위치, 상황 등에 기초하여 학습하고 진화할 수 있다.
일부 예들에서, 신경망(302)에 의해 생성된 모델의 정확도 레벨은 예시적인 오디오 분류 스코어링 엔진 검증기(306)에 의해 결정될 수 있다. 이러한 예들에서, 오디오 분류 스코어링 엔진(304) 및 오디오 분류 스코어링 엔진 검증기(306) 중 적어도 하나가 분류 트레이닝 데이터 세트를 수신한다. 또한 이러한 예들에서, 오디오 분류 스코어링 엔진(304)은 분류 검증 데이터와 연관된 입력을 수신하고 상기 분류 검증 데이터와 연관된 하나 이상의 오디오 분류를 예측한다. 예측된 결과가 오디오 분류 스코어링 엔진 검증기(306)에 분배된다. 오디오 분류 스코어링 엔진 검증기(306)는 분류 검증 데이터와 연관된 알려진 오디오 분류를 추가로 수신하고 알려진 오디오 분류를 오디오 분류 스코어링 엔진(304)으로부터 수신한 예측된 분류와 비교한다. 일부 예들에서, 비교는 신경망(302)에 의해 생성된 모델의 정확도 레벨을 산출할 것이다(예를 들어, 95개의 비교 산출이 일치하고 5개가 에러인 경우, 모델은 95 % 정확도이다 등등). 신경망(302)이 원하는 정확도 레벨에 도달하면(예를 들어, 네트워크(302)가 훈련되고 배치 준비가 되면), 분류 트레이닝 데이터 및/또는 분류 검증 데이터 이외의 오디오 분류에 사용하기 위해 오디오 분류 스코어링 엔진 검증기(306)가 모델을 도 2의 오디오 신호 분류기(216)에 출력할 수 있다.
도 3의 미디어 유닛(106)을 구현하기 위한 예시적인 하드웨어 로직, 기계 판독 가능 명령어, 하드웨어 구현 상태 머신, 및/또는 이들의 임의의 조합을 나타내는 흐름도가 도 4 및 도 5에 도시되어 있다. 기계 판독 가능 명령어는 실행 가능한 프로그램 또는 도 6과 관련하여 아래에서 논의된 예시적인 프로세서 플랫폼(600)에 도시된 프로세서(612)와 같은 컴퓨터 프로세서에 의해 실행되는 실행 프로그램의 일부일 수 있다. 프로그램은 CD-ROM, 플로피 디스크, 하드 드라이브, DVD, Blu-ray 디스크 또는 프로세서와 관련된 메모리와 같은 비일시적 컴퓨터 판독 가능 저장 매체에 저장된 소프트웨어로 구현될 수 있으나, 전체 프로그램 및/또는 그 일부는 대안으로 프로세서(612) 이외의 장치에 의해 실행되고/되거나 펌웨어 또는 전용 하드웨어로 구현될 수 있다. 또한, 예시적인 프로그램은 도 4 및 도 5에 도시된 흐름도를 참조하여 설명되나, 예시적인 미디어 유닛(106)을 구현하는 많은 다른 방법이 대안으로 사용될 수 있다. 예를 들어, 블록의 실행 순서가 변경될 수 있고/있거나 설명된 블록 중 일부가 변경, 제거 또는 조합될 수 있다. 추가로 또는 대안으로, 블록의 일부 또는 전부가 소프트웨어나 펌웨어를 실행하지 않고 해당 작업을 수행하도록 구성된 하나 이상의 하드웨어 회로(예를 들어, 개별 및/또는 통합 아날로그 및/또는 디지털 회로, FPGA, ASIC, 비교기, 연산 증폭기(op-amp), 논리 회로 등)에 의해 구현될 수 있다.
위에서 언급한 바와 같이, 도 4 및 도 5의 예시적인 프로세스는 비일시적 컴퓨터 및/또는 하드 디스크 드라이브, 플래시 메모리, 읽기 전용 메모리, 컴팩트 디스크, 디지털 다목적 디스크, 캐시, 랜덤 액세스 메모리 및/또는 정보가 임의의 기간 동안(예를 들어, 장기간, 영구적으로, 짧은 인스턴스 동안, 임시 버퍼링 동안 및/또는 정보 캐싱 동안) 저장되는 기타 저장 장치 또는 저장 디스크와 같은 기계 판독 가능 매체에 저장된 실행 가능 명령어(예를 들어, 컴퓨터 및/또는 기계 판독 가능 명령어)를 사용하여 구현될 수 있다. 본 명세서에서 사용되는 바와 같이, 비일시적 컴퓨터 판독 가능 매체라는 용어는 임의의 유형의 컴퓨터 판독 가능 저장 장치 및/또는 저장 디스크를 포함하고 전파 신호를 배제하고 전송 매체를 배제하도록 명시적으로 정의된다.
"포함하는" 및 "구비하는"(및 이의 모든 형태 및 시제)은 본 명세서에서 개방형 용어로 사용된다. 따라서, 청구항이 "포함하다" 또는 "구비하다"의 어떤 형태(예를 들어, 구비한다, 포함한다, 구비하는, 포함하는, 갖는 등)도 전제부로서 또는 모든 종류의 인용 청구항 내에서 사용할 때마다, 추가 요소, 용어 등이 해당 청구항 또는 인용항의 범위를 벗어나지 않고 있을 수 있음을 알아야 한다. 본 명세서에 사용된 바와 같이, "적어도"라는 어구가 예를 들어 청구항의 전제에서 전환 용어로 사용되는 경우, "구비하는" 및 "포함하는"이라는 용어와 동일한 방식으로 개방형으로 종료된다. 예를 들어, A, B 및/또는 C와 같은 형태로 사용될 때 "및/또는"이라는 용어는 (1) A 단독으로, (2) B 단독으로, (3) C 단독으로, (4) A와 B, (5) A와 C, (6) B와 C, 및 (7) A와 B 및 C와 같은 A, B, C의 임의의 조합 또는 서브세트를 지칭한다. 구조, 구성 요소, 항목, 객체 및/또는 사물을 설명하는 맥락에서 본원에 사용된 바와 같이, "A 및 B 중 적어도 하나"라는 문구는 (1) 적어도 하나의 A, (2) 적어도 하나의 B 및 (3) 적어도 하나의 A 및 적어도 하나의 B 중 어느 하나를 포함하는 구현을 의미하도록 되어 있다. 마찬가지로, 구조, 구성 요소, 항목, 객체 및/또는 사물을 설명하는 맥락에서 본 명세서에서 사용된 바와 같이, "A 또는 B 중 적어도 하나"라는 문구는 (1) 적어도 하나의 A, (2) 적어도 하나의 B, (3) 적어도 하나의 A 및 적어도 하나의 B 중 어느 하나를 포함하는 구현을 지칭하도록 의도된다. 프로세스, 명령, 동작, 활동 및/또는 단계의 수행 또는 실행을 설명하는 맥락에서 본 명세서에서 사용된 바와 같이, "A 및 B 중 적어도 하나"라는 문구는 (1) 적어도 하나의 A, (2) 적어도 하나의 B 및 (3) 적어도 하나의 A 및 적어도 하나의 B 중 어느 하나를 포함하는 구현을 의미하도록 되어 있다. 마찬가지로, 프로세스의 성능 또는 실행, 명령, 동작, 활동 및/또는 단계를 설명하는 맥락에서 본 명세서에서 사용된 바와 같이 "A 또는 B 중 적어도 하나"라는 문구는 (1) 적어도 하나의 A, (2) 적어도 하나의 B 및 (3) 적어도 하나의 A 및 적어도 하나의 B 중 어느 하나를 포함하는 구현을 의미하도록 되어 있다.
도 1 및 도 2의 미디어 유닛(106)을 구현하기 위해 오디오 분류를 통해 동적 볼륨 조절을 수행하기 위해 실행될 수 있는 예시적인 기계 판독 가능 명령어가 도 4 및 도 5에 도시되어 있다. 이전 도면 및 관련 설명을 참조하면, 예시적인 기계 판독 가능 명령어(400)는 블록(402)에서 시작한다. 블록(402)에서, 예시적인 미디어 유닛(106)은 오디오 신호 입력 변화를 검출한다. 일부 예들에서, 입력 신호 검출기(204)는 오디오 신호 입력 변화를 검출한다. 예를 들어, 오디오 신호가 시작(예를 들어, 미디어 유닛(106)이 이전에 오디오 신호에 액세스하지 않았고 새로운 신호가 시작)되었을 수 있거나 오디오 신호가 변경(예를 들어, FM 무선 신호가 AM 무선 신호로 변경)되었을 수 있다. 도 5와 관련하여 블록(402)의 실행을 아래에서 더 상세히 논의한다.
블록(404)에서, 예시적인 미디어 유닛(106)은 타겟 볼륨 범위를 만족시키기 위해 입력 오디오 신호(202)를 압축한다. 일부 예에서, 다이나믹 레인지 컴프레서(224)는 타켓 볼륨 범위를 만족시키기 위해 입력 오디오 신호(202)를 압축한다.
블록(406)에서, 예시적인 미디어 유닛(106)은 입력 오디오 신호(202)에 대한 분류 그룹을 결정한다. 일부 예들에서, 오디오 신호 분류기(216)는 입력 오디오 신호에 대한 분류 그룹을 결정한다. 일부 예들에서, 오디오 신호 분류기(216)는 훈련된 머신러닝 모델과 입력 오디오 신호의 하나 이상의 특성(예를 들어, CQT 값)의 비교에 기초하여 분류 그룹을 결정한다. 오디오 신호 분류기(216)는 추가로 또는 대안으로 하나 이상의 분류 그룹과 연관된 확률 분포를 결정할 수 있다.
블록(408)에서, 예시적인 미디어 유닛(106)은 입력 오디오 신호(202)의 입력 볼륨을 결정한다. 일부 예들에서, 입력 볼륨 검출기(214)는 입력 오디오 신호(202)의 입력 볼륨을 결정한다. 일부 예들에서, 입력 볼륨 검출기(214)는 일정 기간(예를 들어, 3 초, 5 초 등)에 걸쳐 입력 오디오 신호(202)의 평균 입력 볼륨을 결정한다. 일부 예들에서, 입력 볼륨 검출기(214)는 일정 기간 동안 입력 오디오 신호(202)의 볼륨의 편차를 결정한다. 일부 예에서, 입력 볼륨 검출기(214)는 하나 이상의 순간 볼륨값을 결정한다.
블록(410)에서, 예시적인 미디어 유닛(106)은 분류 게인값을 결정하기 위해 입력 오디오 신호(202)에 대한 분류 그룹과 연관된 룩업 테이블을 이용한다. 일부 예들에서, 오디오 신호 분류기(216)는 분류 게인값을 결정하기 위해 입력 오디오 신호(202)와 연관된 것으로 오디오 신호 분류기(216)에 의해 결정된 하나 이상의 분류 그룹과 연관된 룩업 테이블이다. 일부 예들에서, 분류 게인값은 (예를 들어, 분류 그룹에 대한 트레이닝 데이터에서 관찰된 평균 볼륨에 기초하여 분류 그룹에 대한 트레이닝 데이터에서 관찰된 평균 동적 범위에 기초하는 등의) 분류 그룹을 나타내는 단일 값이다. 일부 예들에서, 분류 게인값은 오디오 신호 분류기(216)에 의해 출력된 확률 분포에 기초하여 결정된다(예를 들어, 하나 이상의 게인값은 분류 그룹 중 하나 이상에 속하는 입력 오디오 신호(202)의 확률에 기초하여 계산된다).
블록(412)에서, 예시적인 미디어 유닛(106)은 타켓 게인값을 결정하기 위해 입력 볼륨 및 분류 게인값에 가중치를 부여한다. 일부 예들에서, 볼륨 조절기(220)는 제 1 가중치를 입력 볼륨에 적용하고 제 2 가중치를 분류 게인값에 적용하며, 이어서 가중 입력 볼륨 및 가중 분류 게인값에 기초하여 타켓 게인값을 결정한다. 일부 예들에서, 볼륨 조절기(220)는 입력 볼륨이 분류 게인값의 예측과 반대되는 오디오 신호의 실제 상태를 나타냄에 따라 분류 게인값보다 더 큰 가중치를 입력에 적용한다. 일부 예들에서, 볼륨 조절기(220)는 입력 볼륨 측정과 타겟 볼륨 범위 사이의 값으로서 타겟 게인값을 결정한다. 일부 예들에서, 볼륨 조절기(220)는 분류 게인값을 적용함으로써 발생하는 입력 볼륨과 볼륨 레벨 사이의 평균을 계산하고, 타겟 분류 게인값은 입력 오디오 신호(202)의 볼륨을 이 평균 볼륨 수준으로 가져오는 데 필요한 게인으로 결정된다.
블록(414)에서, 예시적인 미디어 유닛(106)은 평활화 필터를 사용하여 오디오 신호에 타겟 게인값을 적용한다. 일부 예들에서, 볼륨 조절기(220)는 평활화 필터를 사용하여 타켓 게인값을 입력 오디오 신호(202)에 적용한다. 볼륨 조절기(220)는 제 1 게인값과 (예를 들어, 분류 및/또는 입력 볼륨이 업데이트될 때) 업데이트된 게인값 간의 전환 또는 게인값 없음과 (예를 들어, 새 오디오 신호가 감지되는 경우) 게인값 간의 전환을 부드럽게하기 위해 다른 유형의 필터(예를 들어, 중앙값 필터, 칼만 필터 등)를 사용할 수 있다.
블록(416)에서, 예시적인 미디어 유닛(106)은 타겟 볼륨 범위를 만족시키기 위해 압축값을 조정한다. 일부 예에서, 다이나믹 레인지 컴프레서(224)는 타켓 볼륨 범위를 만족하도록 압축값을 조정한다. 예를 들어, 볼륨 조절기(220)가 입력 오디오 신호(202)에 적용되는 게인값을 증가 시키면, 다이나믹 레인지 컴프레서(224)는 입력 오디오 신호(202)를 타켓 볼륨 범위 내로 가져오기 위해 더 적은 동적 범위 압축이 요구되기 때문에 압축값을 감소시킬 수 있다. 반대로, 볼륨 조절기(220)가 입력 오디오 신호(202)에 적용되는 게인값을 감소시키면, 다이나믹 레인지 컴프레서(224)는 입력 오디오 신호(202)를 타겟 볼륨 범위 내로 가져오기 위해 더 많은 동적 범위 압축이 필요하기 때문에 압축값을 증가시킬 수 있다.
블록(418)에서, 예시적인 미디어 유닛(106)은 마지막 분류 이후의 시간이 업데이트 시간 임계치를 충족하거나 초과하는지를 결정한다. 일부 예들에서, 실시간 오디오 모니터(226)는 마지막 분류가 수행된 이후의 시간이 업데이트 시간 임계치를 충족하거나 초과하는지를 결정한다. 일부 예들에서, 실시간 오디오 모니터(226)는 마지막 입력 볼륨 계산 이후의 시간 및/또는 볼륨 조절기(220)에 의해 마지막 볼륨 조절이 수행된 이후의 시간이 업데이트 시간 임계치를 충족하거나 초과하는지를 결정한다. 마지막 분류 이후 시간이 업데이트 시간 임계치를 충족하거나 초과하면, 처리는 블록(424)으로 이동한다. 반대로, 마지막 분류 이후의 시간이 업데이트 시간 임계치를 충족하지 않거나 초과하면, 처리는 블록(420)으로 이동한다.
블록(420)에서, 예시적인 미디어 유닛(106)은 오디오 입력 소스 변경이 발생했는지를 결정한다. 일부 예들에서, 입력 신호 검출기(204)는 오디오 입력 소스 변경이 발생했는지(예를 들어, 입력 소스가 FM 라디오에서 보조 입력으로 변경되었는지, 입력 소스가 CD에서 AM 라디오로 변경되었는지 등)를 결정한다. 오디오 입력 소스 변경이 발생하면, 처리는 블록(422)으로 이동한다. 반대로, 오디오 입력 소스 변경이 발생하지 않는 경우, 처리는 블록(418)으로 이동한다. 블록(420)의 실행은 도 5와 관련하여 아래에서 더 자세히 설명된다.
블록(422)에서, 예시적인 미디어 유닛(106)은 게인값을 재설정한다. 일부 예에서, 볼륨 조절기(220)는 게인값을 재설정한다. 예를 들어, 볼륨 조절기(220)는(다른 입력 소스로부터의 이전 오디오 신호에 대해 결정된) 이전 타겟 게인값이 더 이상 새로운 오디오 신호에 대해 유효하지 않을 수 있기 때문에 게인값을 0으로 설정할 수 있다. 따라서, (예를 들어, 분류 및 입력 볼륨 결정에 이어) 새로운 타켓 게인값이 결정될 때까지, 게인값은 1로 재설정되고 다이나믹 레인지 컴프레서(224)는 타켓 볼륨 범위를 만족하도록 입력 오디오 신호(202)를 압축한다.
블록(424)에서, 예시적인 미디어 유닛(106)은 마지막 분류 이후 지속 기간 동안 입력 볼륨을 결정한다. 일부 예들에서, 입력 볼륨 검출기(214)는 마지막 분류 이후 지속 기간 동안 입력 볼륨을 결정한다. 예를 들어, 실시간 오디오 모니터(226)가 3 초 업데이트 간격으로 구성되면, (예를 들어, 블록(418)에서) 업데이트 간격의 전체 기간이 경과하면, 입력 볼륨 검출기(214)는 업데이트 간격에 대한 입력 볼륨을 결정한다. 일부 예에서, 평균 입력 볼륨이 업데이트 간격에 대해 결정된다.
블록(426)에서, 예시적인 미디어 유닛(106)은 마지막 분류 이후의 지속 기간 동안 오디오 신호에 기초하여 업데이트된 분류 그룹을 결정한다. 일부 예들에서, 오디오 신호 분류기(216)는 마지막 분류 이후 지속 기간 동안 오디오 신호에 기초하여 업데이트된 분류 그룹을 결정한다. 예를 들어, 실시간 오디오 모니터(226)가 3 초 업데이트 간격으로 구성되면, 마지막 분류 이후 3 초가 지나면, 오디오 신호 분류기(216)는 업데이트된 분류 그룹을 결정하기 위해 오디오 신호의 하나 이상의 특성을 분석한다. 일부 예에서, 업데이트된 분류 그룹은 이전에 결정된 분류 그룹과 동일하다.
블록(428)에서, 예시적인 미디어 유닛(106)은 동적 볼륨이 활성화되는지를 결정한다. 예를 들어, 미디어 유닛(106)의 조작자는 (예를 들어, 스위치를 통해, 미디어 유닛(106)상의 설정 등을 통해 등등) 동적 볼륨을 활성화 또는 비활성화할 수 있다. 동적 볼륨이 활성화되는 것에 응답하여, 처리는 블록(410)으로 이동한다. 반대로, 동적 볼륨이 활성화되지 않은 것에 응답하여, 처리는 종료된다.
도 5는 도 4의 블록(402) 및/또는 블록(420)의 실행을 위한 예시적인 프로세스(500)를 예시하는 흐름도이다. 예시적인 프로세스(500)는 블록(502)에서 시작한다. 블록(502)에서, 컴프레서 게인 비교기(206)는 현재 컴프레서 게인을 최근의 과거 컴프레서 게인과 비교한다. 예를 들어, 컴프레서 게인 비교기(206)는 입력 오디오 신호(202)의 현재 샘플과 연관된 다이나믹 레인지 컴프레서(224)의 게인을 이전 샘플 블록(예를 들어, 샘플의 이전 3 초, 샘플의 이전 5 초, 샘플의 이전 10 초 등)과 연관된 다이나믹 레인지 컴프레서(224)의 평균(예를 들어, 평균, 중앙값 등) 게인과 비교할 수 있다. 일부 예에서, 컴프레서 게인 비교기(206)는 입력 오디오 신호(202)의 현재 샘플 블록과 관련된 다이나믹 레인지 컴프레서(224)의 현재 게인 대 이전 샘플 블록(예를 들어, 이전 3 초 샘플, 이전 5 초 샘플, 이전 10 초 샘플 등)과 관련된 다이나믹 레인지 컴프레서(224)의 평균(예를 들어, 평균, 중앙값 등) 게인의 비(比)를 출력할 수 있다.
블록(504)에서, 출력 비교기(208)는 입력 오디오 신호(202)의 현재 볼륨/출력을 오디오 신호의 최근 과거 볼륨/출력(들)과 비교한다. 예를 들어, 출력 비교기(208)는 입력 오디오 신호(202)의 현재 RMS 출력을 이전 샘플 블록(이전 3 초의 샘플, 이전 5 초의 샘플, 이전 10 초의 샘플 등)과 연관된 입력 오디오 신호(202)의 평균(예를 들어, 평균, 중앙값 등) 출력과 비교할 수 있다. 일부 예에서, 출력 비교기(208)는 RMS 출력을 결정하기 위해 피크 미터 출력을 질의할 수 있다. 일부 예들에서, 출력 비교기(208)는 현재 RMS 출력 대 이전 RMS 출력(들)의 평균의 비를 출력할 수 있다.
블록(506)에서, 오디오 샘플 비교기(210)는 현재 오디오 샘플 블록의 최대 값을 최근 오디오 샘플값(들)과 비교한다. 예를 들어, 오디오 샘플 비교기(210)는 입력 오디오 신호(202)의 현재 오디오 샘플값을 이전 샘플 블록(예를 들어, 예를 들어, 샘플의 이전 3 초, 샘플의 이전 5 초, 샘플의 이전 10 초 등)과 연관된 입력 오디오 신호(202)의 평균(예를 들어, 평균, 중앙값 등)) 오디오 샘플값과 비교할 수 있다. 일부 예들에서, 오디오 샘플 비교기(210)는 현재 오디오 샘플값 대 이전 샘플 블록의 평균의 비를 출력할 수 있다.
블록(508)에서, 소스 변경 결정기(212)는 소스 변경이 발생했는지를 결정하기 위해 오디오 샘플 비교, 컴프레서 게인 비교 및 출력 비교를 분석한다. 예를 들어, 소스 변경 결정기(212)는 소스 변경이 발생했는지를 결정하기 위해 회귀 분석(예를 들어, 선형 회귀, 이항 회귀, 최소 제곱, 로지스틱 회귀 등)을 사용할 수 있다. 다른 예들에서, 소스 변경 결정기(212)는 소스 변경이 발생했는지를 결정하기 위해 임의의 다른 적절한 수단(예를 들어, 신경망 등)을 사용할 수 있다.
블록(510)에서, 소스 변경 결정기(212)는 RMS 비교, 컴프레서 게인 비교 및/또는 오디오 샘플 압축이 소스 변경이 발생했음을 나타내는지를 결정한다. 소스 변경 결정기(212)가 RMS 비교, 컴프레서 게인 비교 및/또는 오디오 샘플 압축이 소스 변경이 로지스틱 회귀 또는 다른 분류 방법을 통해 발생했음을 나타내는 경우, 프로세스(500)는 블록(512)로 진행한다. RMS 비교, 컴프레서 게인 비교 및/또는 오디오 샘플 압축이 소스 변경이 발생하지 않았음을 소스 변경 결정기(212)가 나타내며, 프로세스(500)는 블록(514)으로 진행한다.
블록(512)에서, 소스 변경 결정기(212)는 소스 변경이 발생했음을 나타낸다. 예를 들어, 소스 변경 결정기(212)는 입력 신호 검출기(204)가 소스 변경이 발생했음을 미디어 유닛(106)에 표시하게 할 수 있다.
블록(514)에서, 소스 변경 결정기(212)는 소스 변경이 발생하지 않았음을 나타낸다. 예를 들어, 소스 변경 결정기(212)는 입력 신호 검출기(204)가 소스 변경이 발생하지 않았음을 미디어 유닛(106)에 표시하게 할 수 있다. 그 후, 프로세스(500)가 종료된다.
도 6은 도 1-2의 미디어 유닛(106)을 구현하기 위해 도 4의 명령어를 실행하도록 구성된 예시적인 프로세서 플랫폼(600)의 블록도이다. 프로세서 플랫폼(600)은 예를 들어 서버, 개인용 컴퓨터, 워크스테이션, 자가 학습 기계(예를 들어, 신경망), 모바일 디바이스(예를 들어, 휴대 전화, 스마트 폰, iPadTM와 같은 태블릿), PDA(Personal Digital Assistant), 인터넷 기기, DVD 플레이어, CD 플레이어, 디지털 비디오 레코더, Blu-ray 플레이어, 게임 콘솔, 개인용 비디오 레코더, 셋톱 박스, 헤드셋 또는 기타 웨어러블 장치 또는 임의의 다른 유형의 컴퓨팅 장치일 수 있다.
예시된 예의 프로세서 플랫폼(600)은 프로세서(612)를 포함한다. 예시된 예의 프로세서(612)는 하드웨어이다. 예를 들어, 프로세서(612)는 임의의 원하는 제품군 또는 제조업체의 하나 이상의 집적 회로, 논리 회로, 마이크로 프로세서, GPU, DSP 또는 컨트롤러에 의해 구현될 수 있다. 하드웨어 프로세서는 반도체 기반(예를 들어, 실리콘 기반) 디바이스일 수 있다. 이 예에서, 프로세서는 예시적인 소스 변경 결정기(212), 예시적인 입력 볼륨 검출기(214), 예시적인 오디오 신호 분류기(216), 예시적인 분류 데이터베이스(218), 예시적인 볼륨 조절기(220), 예시적인 오디오 신호 식별자(222), 예시적인 다이나믹 레인지 컴프레서(224), 예시적인 실시간 오디오 모니터(226) 및/또는, 보다 일반적으로, 도 2의 예시적인 미디어 유닛(106)에 의해 사용되는 예시적인 입력 신호 검출기(204), 예시적인 컴프레서 게인 비교기(206), 예시적인 볼륨/출력 비교기(208) 및 예시적인 오디오 샘플 비교기(210)를 구현한다.
예시된 예의 프로세서(612)는 로컬 메모리(613)(예를 들어, 캐시)를 포함한다. 예시된 예의 프로세서(612)는 버스(618)를 통해 휘발성 메모리(614) 및 비휘발성 메모리(616)를 포함하는 메인 메모리와 통신한다. 휘발성 메모리(614)는 SDRAM(Synchronous Dynamic Random Access Memory), DRAM(Dynamic Random Access Memory), RAMBUS® Dynamic Random Access Memory(RDRAM®) 및/또는 임의의 기타 유형의 랜덤 액세스 메모리 장치에 의해 구현될 수 있다. 비휘발성 메모리(616)는 플래시 메모리 및/또는 임의의 다른 원하는 유형의 메모리 장치에 의해 구현될 수 있다. 메인 메모리(614, 616)에 대한 액세스는 메모리 컨트롤러에 의해 제어된다.
예시된 예의 프로세서 플랫폼(600)은 또한 인터페이스 회로(620)를 포함한다. 인터페이스 회로(620)는 이더넷 인터페이스, 범용 직렬 버스(USB), Bluetooth®인터페이스, NFC(근거리 통신) 인터페이스 및/또는 PCI 익스프레스 인터페이스와 같은 임의 유형의 인터페이스 표준에 의해 구현될 수 있다.
예시된 예에서, 하나 이상의 입력 장치(622)가 인터페이스 회로(620)에 연결된다. 입력 장치(622)는 사용자가 데이터 및/또는 명령을 프로세서(1012)에 입력하는 것을 허용한다. 입력 장치(s)는 예를 들어 오디오 센서, 마이크, 카메라(정지 또는 동영상), 키보드, 버튼, 마우스, 터치 스크린, 트랙 패드, 트랙볼, 아이소포인트 및/또는 음성 인식 시스템에 의해 구현될 수 있다.
하나 이상의 출력 장치(624)가 또한 예시된 예의 인터페이스 회로(620)에 연결된다. 출력 장치(1024)는, 예를 들어, 디스플레이 장치(예를 들어, 발광 다이오드(LED), 유기 발광 다이오드(OLED), 액정 디스플레이(LCD), 음극선관 디스플레이(CRT), 인플레이스 스위칭(IPS) 디스플레이, 터치 스크린 등), 촉각 출력 장치, 프린터 및/또는 스피커에 의해 구현될 수 있다. 따라서, 예시된 예의 인터페이스 회로(620)는 일반적으로 그래픽 드라이버 카드, 그래픽 드라이버 칩 및/또는 그래픽 드라이버 프로세서를 포함한다.
예시된 예의 인터페이스 회로(620)는 또한 송신기, 수신기, 트랜시버, 모뎀, 주거용 게이트웨이, 무선 액세스 포인트 및/또는 네트워크(626)를 통해 외부 기계(가령, 임의의 종류의 컴퓨팅 디바이스)와 데이터 교환을 용이하게하는 네트워크 인터페이스와 같은 통신 장치를 포함한다. 통신은 예를 들어 이더넷 연결, DSL(디지털 가입자 회선)(DSL) 연결, 전화선 연결, 동축 케이블 시스템, 위성 시스템, 현장 무선 시스템, 이동전화 시스템 등을 통해 수행될 수 있다.
예시된 예의 프로세서 플랫폼(600)은 또한 소프트웨어 및/또는 데이터를 저장하기 위한 하나 이상의 대용량 저장 장치(628)를 포함한다. 이러한 대용량 저장 장치(628)의 예는 플로피 디스크 드라이브, 하드 드라이브 디스크, 컴팩트 디스크 드라이브, Blu-ray 디스크 드라이브, RAID(redundant array of independent disks) 시스템 및 DVD(digital versatile disk) 드라이브를 포함한다.
도 4의 기계 실행 가능 명령어(632)는 대용량 저장 장치(628), 휘발성 메모리(614), 비휘발성 메모리(616) 및/또는 CD 또는 DVD와 같은 이동식 비일시적 컴퓨터 판독 가능 저장 매체에 저장될 수 있다.
전술한 바로부터, 이 볼륨을 달성하는 데 필요한 압축량을 최소화하면서 서로 다른 특성을 갖는 미디어가 거의 동일한 볼륨으로 재생될 수 있도록 미디어의 볼륨을 조정하는 예시적인 방법, 장치 및 제조물품이 개시되었음을 알 수 있을 것이다. 볼륨 이퀄라이제이션의 종래의 구현은 오로지 압축에만 의존하고 결과적으로 오디오 신호에 인지할 수 있는 변화를 야기하지만, 본 명세에 개시된 예는 예를 들어 게인값으로 크게 변경될 수 있는 상대적으로 작은 동적 범위를 가진 신호와 더 많은 압축이 필요할 수 있는 더 큰 동적 범위를 가진 신호를 식별하기 위해 오디오 신호를 지능적으로 분류하고 상기 오디오 신호와 관련된 분류를 기초로 평균 게인값을 결정할 수 있게 한다. 실시간으로 입력 오디오 신호의 볼륨을 지능적으로 조정하기 위해 오디오 신호의 분류와 관련된 입력 볼륨 측정 및 파라미터의 조합을 사용한 예시적인 기술이 본 명세서에 개시되어 있다. 본 명세서에 개시된 예는 (예를 들어, 오디오 신호의 분류의 변경, 관찰된 입력 볼륨의 변경 등으로 인해) 초기 분석 후에 볼륨 조절이 수정되어야 하는 경우에 볼륨 레벨을 지속적으로 조정하는 기술을 설명한다. 본 명세서에 개시된 예시적인 기술은 오디오 신호 입력 변화에 따라 오디오 신호의 볼륨 레벨을 초기에 조정하는 기술을 더 포함한다. 이러한 기술은 사용자가 인식할 수 없고 서로 다른 또는 유사한 소스의 서로 다른 미디어가 끊김없는 미디어 프레젠테이션 경험을 위해 실질적으로 동일한 볼륨으로 재생될 수 있도록 하므로 기존 구현에 비해 유리한다.
일부 예들에서, 예시적인 오디오 다이나믹 레인지 컴프레서는 현재 동적 볼륨에서와 같이 특정 범위(예를 들어, -21dbFS)로 신호를 낮추기 위해 항상 활성화될 수 있다. 다른 예들에서, 오디오 다이나믹 레인지 컴프레서는 시간의 일부 동안 활성화될 수 있다.
일부 예들에서, 예시적인 실시간 볼륨 검출기는 현재 동적 볼륨에서와 같이 하나 이상의 간격(예를 들어, 750ms 간격)에 걸쳐 현재 평균 레벨을 측정하기 위해 입력에 적용될 수 있다. 이러한 예에서, 현재 평균 수준은 볼륨을 얼마나 줄일 수 있는지를 가이드하기 위한 초기 및 지속적인 추측으로 사용할 수 있다.
일부 예들에서, 신경망 기반 분류기가 또한 동적 범위의 예측을 도울 수 있고 적용될 수 있는 볼륨 감소를 알릴 것이다. 이는 초기에 잠재적인 개선이 있는 현재 카테고리 분류기(예를 들어, 9 개의 분류기, 15 개의 분류기 등)를 기반으로 할 수 있다. 일부 예에서, 현재 카테고리 분류기의 수량을 늘리면 다른 실시간 피처 및 신경망 접근 방식을 사용한 보다 정확한 동적 범위 예측기가 수월해질 수 있다. 각 예에서, 볼륨이 감소될 수 있는 양과 관련된 정확도가 증가될 수 있다.
일부 예에서, 목표는 컴프레서가 도달할 수 있는 특정 레벨(예를 들어, -12dbFS)에 더 가까운 것으로 볼륨을 줄이는 것이다. 감소량이 결정되면 단극 평활화 필터를 사용하여 입력시 현재의 전체 볼륨에서 결정된 양으로 이동할 수 있다. 컴프레서는 평균적으로 특정 레벨(예를 들어, -21dbFS)로 볼륨을 계속 유지하지만 입력을 낮추는 데 필요한 양은 상기 양이 타켓으로 감소함에 따라 더 작아질 수 있다.
본 명세서에 개시된 방법, 장치 및 시스템의 동작의 설명된 예에서, 완전히 정규화되고 시끄러운 팝 음악이 입력을 통해 배포될 수 있다. 컴프레서는 0.0dbFS 자료를 -21dbFS로 낮출 수 있다. 실질적으로 나란히, 입력 볼륨 감지기는 입력이 평균 -1dbFS로 실행되고 있음을 결정하고, 분류기는 1996 년부터 현재까지 신디 드럼 및 베이스가있는 음악이 제공되는지 결정한다. 이 카테고리는 -15dbFS의 컷 양을 산출하고, 볼륨 감지기는 -20dbFS를 산출한다. 두 값은 평균화되고 신호는 -17.50dbFS만큼 감소될 수 있으며, 베이스라인 -21dbFS에 도달하기 위해 다른 3.5 데시벨만큼 감소될 수 있다. (예를 들어, 위에서 설명한 감소를 기반으로) 컴프레서가 임계치보다 3.5 데시벨 더 큰 신호를 낮추기 때문에, 임계치보다 21 데시벨 높은 신호를 낮추는 것에 비해 오디오 품질이 향상되며, 이는 컴프레서만 사용되는 경우에 발생할 수 있다.
오디오 분류를 통한 동적 볼륨 조절을 위한 예시적인 방법, 장치, 시스템 및 제조물품이 본 명세서에 개시되어 있다. 추가 예들 및 이들의 조합은 다음을 포함한다: 예 1은 오디오 신호와 연관된 분류 그룹을 결정하기 위해 제 1 볼륨 레벨과 연관된 오디오 신호의 파라미터를, 신경망을 사용하여, 분석하는 오디오 신호 분류기; 오디오 신호의 입력 볼륨을 결정하는 입력 볼륨 검출기; 분류 그룹 및 입력 볼륨에 기초하고, 제 1 볼륨 레벨을 제 2 볼륨 레벨로 수정하기 위한 게인값을 오디오 신호에 적용하는 볼륨 조절기; 및 제 2 볼륨 레벨을 타켓 볼륨 임계치를 만족하는 제 3 볼륨 레벨로 수정하는 압축값을 오디오 신호에 적용하기 위한 다이나믹 레인지 컴프레서를 구비하는 장치를 포함한다.
예 2는 예 1의 장치를 포함하고, 오디오 신호의 소스가 변경되었는지를 결정하기 위한 소스 변경 결정기를 더 포함한다.
예 3은 예 2의 장치를 포함하고, 소스 변경 결정기는 (1) 오디오 신호와 관련된 현재 컴프레서 게인과 오디오 신호와 관련된 이전 컴프레서 게인의 비교, (2) 오디오 신호와 관련된 RMS 출력과 오디오 신호와 관련된 이전 RMS 출력의 비교, 또는 (3) 오디오 신호와 관련된 현재 오디오 샘플값과 오디오 신호와 관련된 이전 오디오 샘플값의 비교 중 적어도 하나에 기초하여 오디오 신호의 소스가 변경되었는지를 결정한다.
예 4는 예 2의 장치를 포함하고, 볼륨 조절기는, 오디오 신호의 소스가 변경되었다는 결정에 응답하여, 상기 오디오 신호의 게인값을 더 재설정한다.
예 5는 예 1의 장치를 포함하고, 분류 그룹은 (1) 오디오 신호로 표현되는 음악 장르, (2) 오디오 신호로 표현되는 음악의 기간, 또는 (3) 오디오 신호로 표현되는 음악에서 악기의 유무 중 적어도 하나와 연관 있다.
예 6은 예 1의 장치를 포함하고, 입력 볼륨 검출기는 제 1 기간에 걸쳐 제 4 볼륨 레벨이 타켓 볼륨 임계치 내에 속하지 않는 것을 더 결정하고, 제 1 기간은 제 2 기간 이후에 발생하며, 제 3 볼륨 레벨은 제 2 기간와 연관된다고 결정하고; 다이나믹 레인지 컴프레서는 제 4 볼륨 레벨을 타켓 볼륨 임계치를 만족하는 제 5 볼륨 레벨로 수정하는 압축값을 제 5 볼륨 레벨로 더 조정한다.
예 7은 예 1의 장치를 포함하고, 타겟 볼륨 임계치는 풀 스케일(dBFS) 내지 21 dBFS에 대해 5 데시벨 이내이다.
예 8은 실행시, 프로세서가 적어도: 오디오 신호와 연관된 분류 그룹을 결정하기 위해 제 1 볼륨 레벨과 연관된 오디오 신호의 파라미터를, 신경망을 사용하여, 분석하고; 오디오 신호의 입력 볼륨을 결정하며; 분류 그룹 및 입력 볼륨에 기초하고, 제 1 볼륨 레벨을 제 2 볼륨 레벨로 수정하기 위한 게인값을 오디오 신호에 적용하고, 제 2 볼륨 레벨을 타켓 볼륨 임계치를 만족하는 제 3 볼륨 레벨로 수정하는 압축값을 오디오 신호에 적용하게 하는 명령어를 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체를 포함한다.
예 9는 예 8의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어로 인해, 실행시, 프로세서가 오디오 신호의 소스가 변경되었는지를 결정하게 한다.
예 10은 예 9의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 오디오 신호의 소스가 변경되었는 지의 결정은 (1) 오디오 신호와 연관된 현재 컴프레서 게인와 오디오 신호와 연관된 이전 컴프레서 게인의 비교, (2) 오디오 신호와 연관된 RMS 출력과 오디오 신호와 연관된 이전 RMS 출력의 비교, 또는 (3) 오디오 신호와 연관된 현재 오디오 샘플값과 오디오 신호와 관련된 이전 오디오 샘플값의 비교 중 적어도 하나에 기초한다.
예 11은 예 9의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어로 인해, 실행시, 오디오 신호의 소스가 변경되었다는 결정에 응답하여, 프로세서가 오디오 신호의 게인값을 재설정하게 한다.
예 12는 예 11의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 분류 그룹은 (1) 오디오 신호로 표현되는 음악 장르, (2) 오디오 신호로 표현되는 음악의 기간, 또는 (3) 오디오 신호로 표현되는 음악에서 악기의 유무 중 적어도 하나와 연관 된다.
예 13은 예 8의 비일시적 컴퓨터 판독 가능 저장 매체를 포함하고, 명령어로 인해, 실행시, 프로세서가: 제 1 기간에 걸쳐 제 4 볼륨 레벨이 타켓 볼륨 임계치 내에 속하지 않는 다고 결정하고, 제 4 볼륨 레벨을 타켓 볼륨 임계치를 충족하는 제 5 볼륨 레벨로 수정하는 압축값을 제 5 볼륨 레벨로 조정하게 하며, 상기 제 1 기간은 제 2 기간 이후에 발생하고, 제 3 볼륨 레벨은 상기 제 2 기간와 연관 있다.
예 14는 예 1의 방법을 포함하고, 타겟 볼륨 임계치는 풀 스케일(dBFS) 내지 21 dBFS에 대해 5 데시벨 이내이다.
예 15는 오디오 신호와 연관된 분류 그룹을 결정하기 위해 제 1 볼륨 레벨과 연관된 오디오 신호의 파라미터를, 신경망을 사용하여, 분석하는 단계; 오디오 신호의 입력 볼륨을 결정하는 단계; 분류 그룹 및 입력 볼륨에 기초하고, 제 1 볼륨 레벨을 제 2 볼륨 레벨로 수정하기 위한 게인값을 오디오 신호에 적용하는 단계; 및 제 2 볼륨 레벨을 타켓 볼륨 임계치를 만족하는 제 3 볼륨 레벨로 수정하는 압축값을 오디오 신호에 적용하는 단계를 포함하는 방법을 포함한다.
예 16은 예 15의 방법을 포함하고, 오디오 신호의 소스가 변경되었는지를 결정하는 단계를 더 포함한다.
예 17은 예 16의 방법을 포함하고, 오디오 신호의 소스가 변경되었는지를 결정하는 단계는 (1) 오디오 신호와 연관된 현재 컴프레서 게인와 오디오 신호와 연관된 이전 컴프레서 게인의 비교, (2) 오디오 신호와 연관된 RMS 출력과 오디오 신호와 연관된 이전 RMS 출력의 비교, 또는 (3) 오디오 신호와 연관된 현재 오디오 샘플값과 오디오 신호와 관련된 이전 오디오 샘플값의 비교 중 적어도 하나에 기초한다.
예 18은 예 16의 방법을 포함하고, 오디오 신호의 소스가 변경되었다는 결정에 응답하여, 상기 오디오 신호의 게인값을 재설정하는 단계를 더 포함한다.
예 19는 예 15의 방법을 포함하고, 분류 그룹은 (1) 오디오 신호로 표시되는 음악 장르, (2) 오디오 신호로 표시되는 음악의 기간, 또는 (3) 오디오 신호로 표현되는 음악에서 악기의 유무 중 적어도 하나와 연관 있다.
예 20은 예 15의 방법을 포함하고, 제 1 기간에 걸쳐 제 4 볼륨 레벨이 타켓 볼륨 임계치 내에 속하지 않는 것으로 결정하는 단계; 및 제 4 볼륨 레벨을 타켓 볼륨 임계치를 만족하는 제 5 볼륨 레벨로 수정하기 위해 압축값을 조정하는 단계를 더 포함하고, 제 1 기간은 제 2 기간 후에 발생하고, 제 3 볼륨 레벨은 제 2 시간 주기와 연관 있다.
특정 예시적인 방법, 장치 및 제조물품이 본 명세서에 개시되어 있으나, 본 발명의 범위는 이에 국한되지는 않는다. 반대로, 본 발명은 본 특허의 청구 범위에 속하는 모든 방법, 장치 및 제조품을 포함한다.

Claims (20)

  1. 오디오 신호와 연관된 분류 그룹을 결정하기 위해 제 1 볼륨 레벨과 연관된 오디오 신호의 파라미터를, 신경망을 사용하여, 분석하는 오디오 신호 분류기;
    오디오 신호의 입력 볼륨을 결정하는 입력 볼륨 검출기;
    타겟 게인값을 결정하기 위해 분류 게인값에 제 1 가중치 및 입력 볼륨에 제 2 가중치를 적용하고, 타겟 게인값을 오디오 신호에 적용하는 볼륨 조절기; 및
    제 2 볼륨 레벨을 타켓 볼륨 임계치를 만족하는 제 3 볼륨 레벨로 수정하는 압축값을 오디오 신호에 적용하기 위한 다이나믹 레인지 컴프레서를 포함하고,
    오디오 신호 분류기는 분류 그룹 및 결정된 입력 볼륨에 기반하여 분류 게인값을 결정하도록 구성되고,
    타겟 게인값은 분류 그룹 및 입력 볼륨에 기초하고, 게인값은 제 1 볼륨 레벨을 제 2 볼륨 레벨로 수정하기 위한 것인 장치.
  2. 제 1 항에 있어서,
    오디오 신호의 소스가 변경되었는지를 결정하기 위한 소스 변경 결정기를 더 포함하는 장치.
  3. 제 2 항에 있어서,
    소스 변경 결정기는 (1) 오디오 신호와 관련된 현재 컴프레서 게인과 오디오 신호와 관련된 이전 컴프레서 게인의 비교, (2) 오디오 신호와 관련된 RMS 출력과 오디오 신호와 관련된 이전 RMS 출력의 비교, 또는 (3) 오디오 신호와 관련된 현재 오디오 샘플값과 오디오 신호와 관련된 이전 오디오 샘플값의 비교 중 적어도 하나에 기초하여 오디오 신호의 소스가 변경되었는지를 결정하는 장치.
  4. 제 2 항에 있어서,
    볼륨 조절기는, 오디오 신호의 소스가 변경되었다는 결정에 응답하여, 상기 오디오 신호의 게인값을 재설정하는 장치.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    분류 그룹은 (1) 오디오 신호로 표현되는 음악 장르, (2) 오디오 신호로 표현되는 음악의 기간, 또는 (3) 오디오 신호로 표현되는 음악에서 악기의 유무 중 적어도 하나와 연관 있는 장치.
  6. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    입력 볼륨 검출기는 제 1 기간에 걸쳐 제 4 볼륨 레벨이 타켓 볼륨 임계치 내에 속하지 않는 것을 더 결정하고, 제 1 기간은 제 2 기간 이후에 발생하며, 제 3 볼륨 레벨은 제 2 기간와 연관된다고 결정하고;
    다이나믹 레인지 컴프레서는 제 4 볼륨 레벨을 타켓 볼륨 임계치를 만족하는 제 5 볼륨 레벨로 수정하는 압축값을 제 5 볼륨 레벨로 더 조절하는 장치.
  7. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    타겟 볼륨 임계치는 풀 스케일(dBFS) 내지 21 dBFS에 대해 5 데시벨 이내인 장치.
  8. 오디오 신호 분류기에 의하여, 오디오 신호와 연관된 분류 그룹을 결정하기 위해 제 1 볼륨 레벨과 연관된 오디오 신호의 파라미터를, 신경망을 사용하여, 분석하는 단계;
    입력 볼륨 검출기에 의하여, 오디오 신호의 입력 볼륨을 결정하는 단계;
    볼륨 조절기에 의하여, 분류 그룹 및 결정된 입력 볼륨에 기반하여 분류 게인값을 결정하는 단계;
    볼륨 조절기에 의하여, 분류 그룹에 제 1 가중치 및 입력 볼륨에 제 2 가중치를 적용함으로써 타겟 게인값을 결정하는 단계;
    볼륨 조절기에 의하여, 타겟 게인값을 오디오 신호에 적용하는 단계; 및
    다이나믹 레인지 컴프레서에 의하여, 제 2 볼륨 레벨을 타켓 볼륨 임계치를 만족하는 제 3 볼륨 레벨로 수정하는 압축값을 오디오 신호에 적용하는 단계를 포함하고,
    타겟 게인값은 분류 그룹 및 입력 볼륨에 기초하고, 타겟 게인값은 제 1 볼륨 레벨을 제 2 볼륨 레벨로 수정하기 위한 것인 오디오 분류를 통한 동적 볼륨 조절을 위한 방법.
  9. 제 8 항에 있어서,
    소스 변경 결정기에 의하여, 오디오 신호의 소스가 변경되었는지를 결정하는 단계를 더 포함하는 오디오 분류를 통한 동적 볼륨 조절을 위한 방법.
  10. 제 9 항에 있어서,
    오디오 신호의 소스가 변경되었는지를 결정하는 단계는 (1) 오디오 신호와 연관된 현재 컴프레서 게인와 오디오 신호와 연관된 이전 컴프레서 게인의 비교, (2) 오디오 신호와 연관된 RMS 출력과 오디오 신호와 연관된 이전 RMS 출력의 비교, 또는 (3) 오디오 신호와 연관된 현재 오디오 샘플값과 오디오 신호와 관련된 이전 오디오 샘플값의 비교 중 적어도 하나에 기초하는 오디오 분류를 통한 동적 볼륨 조절을 위한 방법.
  11. 제 9 항에 있어서,
    볼륨 조절기에 의하여, 오디오 신호의 소스가 변경되었다는 결정에 응답하여, 상기 오디오 신호의 게인값을 재설정하는 단계를 더 포함하는 오디오 분류를 통한 동적 볼륨 조절을 위한 방법.
  12. 제 8 항에 있어서,
    분류 그룹은 (1) 오디오 신호로 표시되는 음악 장르, (2) 오디오 신호로 표시되는 음악의 기간, 또는 (3) 오디오 신호로 표현되는 음악에서 악기의 유무 중 적어도 하나와 연관 있는 오디오 분류를 통한 동적 볼륨 조절을 위한 방법.
  13. 제 8 항에 있어서,
    입력 볼륨 검출기에 의하여, 제 1 기간에 걸쳐 제 4 볼륨 레벨이 타켓 볼륨 임계치 내에 속하지 않는 것으로 결정하는 단계; 및
    다이나믹 레인지 컴프레서에 의하여, 제 4 볼륨 레벨을 타켓 볼륨 임계치를 만족하는 제 5 볼륨 레벨로 수정하기 위해 압축값을 조절하는 단계를 더 포함하고,
    제 1 기간은 제 2 기간 후에 발생하고, 제 3 볼륨 레벨은 제 2 시간 주기와 연관 있는 오디오 분류를 통한 동적 볼륨 조절을 위한 방법.
  14. 제 8 항에 있어서,
    타겟 볼륨 임계치는 풀 스케일(dBFS) 내지 21dBFS에 대해 5 데시벨 이내인 오디오 분류를 통한 동적 볼륨 조절을 위한 방법.
  15. 실행시, 기계가 제 8 항 내지 제 14 항 중 어느 한 항에 따른 방법을 적어도 수행하게 하는 명령어를 수록한 컴퓨터 프로그램을 저장한 비일시적 컴퓨터 판독가능한 저장매체.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
KR1020217010095A 2018-09-07 2019-09-06 오디오 분류를 통한 동적 볼륨 조절을 위한 방법 및 장치 KR102584779B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020237032871A KR20230144650A (ko) 2018-09-07 2019-09-06 오디오 분류를 통한 동적 볼륨 조절을 위한 방법 및 장치

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862728677P 2018-09-07 2018-09-07
US62/728,677 2018-09-07
US201862745148P 2018-10-12 2018-10-12
US62/745,148 2018-10-12
PCT/US2019/050080 WO2020051544A1 (en) 2018-09-07 2019-09-06 Methods and apparatus for dynamic volume adjustment via audio classification

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020237032871A Division KR20230144650A (ko) 2018-09-07 2019-09-06 오디오 분류를 통한 동적 볼륨 조절을 위한 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20210082440A KR20210082440A (ko) 2021-07-05
KR102584779B1 true KR102584779B1 (ko) 2023-10-05

Family

ID=69719145

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020237032871A KR20230144650A (ko) 2018-09-07 2019-09-06 오디오 분류를 통한 동적 볼륨 조절을 위한 방법 및 장치
KR1020217010095A KR102584779B1 (ko) 2018-09-07 2019-09-06 오디오 분류를 통한 동적 볼륨 조절을 위한 방법 및 장치

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020237032871A KR20230144650A (ko) 2018-09-07 2019-09-06 오디오 분류를 통한 동적 볼륨 조절을 위한 방법 및 장치

Country Status (6)

Country Link
US (1) US11086591B2 (ko)
EP (1) EP3847542A4 (ko)
JP (2) JP7397066B2 (ko)
KR (2) KR20230144650A (ko)
CN (1) CN113614684A (ko)
WO (1) WO2020051544A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11048472B2 (en) * 2019-01-27 2021-06-29 Listen AS Dynamically adjustable sound parameters
US11126398B2 (en) 2019-03-13 2021-09-21 Listen AS Smart speaker
US11517815B2 (en) * 2019-08-19 2022-12-06 Cirrus Logic, Inc. System and method for use in haptic signal generation
US11557307B2 (en) 2019-10-20 2023-01-17 Listen AS User voice control system
US11295496B2 (en) * 2019-11-08 2022-04-05 Adobe Inc. Intelligent exporting of images using an image editing application
FR3106008B1 (fr) * 2020-01-03 2022-01-14 Faurecia Services Groupe Procédé de commande d’équipements d’un habitacle d’un véhicule et dispositifs associés
FR3111005B1 (fr) * 2020-06-02 2022-12-09 Renault Procede de controle du volume sonore
KR20220034516A (ko) * 2020-09-11 2022-03-18 삼성전자주식회사 전자 장치 및 그 제어 방법
US11809996B2 (en) * 2020-09-21 2023-11-07 University Of Central Florida Research Foundation, Inc. Adjusting parameters in an adaptive system
CN112017698B (zh) * 2020-10-30 2021-01-29 北京淇瑀信息科技有限公司 语音机器人采用的人工录音的优化方法、装置及电子设备
CN112397084B (zh) * 2020-11-04 2022-12-06 佛吉亚歌乐电子(丰城)有限公司 自适应调整多媒体音量方法、车载终端及计算机存储介质
CN114822587B (zh) * 2021-01-19 2023-07-14 四川大学 一种基于常数q变换的音频特征压缩方法
CN115641870A (zh) * 2021-07-19 2023-01-24 北京荣耀终端有限公司 一种音频信号的处理方法及相关电子设备
CN117041858B (zh) * 2023-08-14 2024-04-09 央广云听文化传媒有限公司 空间音频播放优化方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090220109A1 (en) 2006-04-27 2009-09-03 Dolby Laboratories Licensing Corporation Audio Gain Control Using Specific-Loudness-Based Auditory Event Detection
JP2016519784A (ja) 2013-03-26 2016-07-07 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ分類および処理のための装置および方法
KR101726208B1 (ko) * 2013-03-26 2017-04-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 볼륨 레벨러 제어기 및 제어 방법
US20170264738A1 (en) 2015-05-18 2017-09-14 Baidu Online Network Technology (Beijing) Co., Ltd. Volume adjusting method, system, apparatus and computer storage medium

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001052444A (ja) 1999-08-04 2001-02-23 Fujitsu Ten Ltd 音響再生装置
JP3812837B2 (ja) * 2003-02-26 2006-08-23 ソニー株式会社 音量調節装置、音量調節方法及びテレビジョン装置
US7272235B2 (en) * 2003-06-26 2007-09-18 Microsoft Corporation Method and apparatus for audio normalization
GB2413745A (en) * 2004-04-30 2005-11-02 Axeon Ltd Classifying audio content by musical style/genre and generating an identification signal accordingly to adjust parameters of an audio system
KR100746010B1 (ko) 2005-11-17 2007-08-06 삼성전자주식회사 수신된 음성 신호의 크기를 제어하는 장치 및 방법
KR101459319B1 (ko) * 2008-01-29 2014-11-07 삼성전자주식회사 오디오 볼륨 자동 조절 방법 및 장치
EP2149983A1 (en) * 2008-07-29 2010-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal
EP2352225A1 (en) * 2008-10-17 2011-08-03 Sharp Kabushiki Kaisha Audio signal adjustment device and audio signal adjustment method
US9031243B2 (en) * 2009-09-28 2015-05-12 iZotope, Inc. Automatic labeling and control of audio algorithms by audio recognition
TWI525987B (zh) * 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
US20120262233A1 (en) * 2011-04-15 2012-10-18 Fairchild Semiconductor Corporation Mixed signal dynamic range compression
JP5702666B2 (ja) * 2011-05-16 2015-04-15 富士通テン株式会社 音響装置および音量補正方法
US10003873B2 (en) * 2011-09-06 2018-06-19 Kohler Co. Speaker and shower
US9312829B2 (en) * 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9565508B1 (en) 2012-09-07 2017-02-07 MUSIC Group IP Ltd. Loudness level and range processing
JP6336830B2 (ja) * 2014-06-23 2018-06-06 ローム株式会社 レベル調節回路、デジタルサウンドプロセッサ、オーディオアンプ集積回路、電子機器、オーディオ信号の自動レベル調節方法
US9423997B2 (en) * 2014-11-25 2016-08-23 Htc Corporation Electronic device and method for analyzing and playing sound signal
KR102371004B1 (ko) * 2015-08-12 2022-03-07 삼성전자 주식회사 오디오 신호 처리 방법 및 이를 지원하는 전자 장치
KR101689332B1 (ko) * 2015-09-11 2016-12-23 충남대학교산학협력단 정보 기반 소리 음량 조절 장치 및 그 방법
CN107526568A (zh) * 2017-08-18 2017-12-29 广东欧珀移动通信有限公司 音量调节方法、装置、终端设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090220109A1 (en) 2006-04-27 2009-09-03 Dolby Laboratories Licensing Corporation Audio Gain Control Using Specific-Loudness-Based Auditory Event Detection
JP2016519784A (ja) 2013-03-26 2016-07-07 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ分類および処理のための装置および方法
KR101726208B1 (ko) * 2013-03-26 2017-04-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 볼륨 레벨러 제어기 및 제어 방법
US20180068670A1 (en) 2013-03-26 2018-03-08 Dolby Laboratories Licensing Corporation Apparatuses and Methods for Audio Classifying and Processing
US20170264738A1 (en) 2015-05-18 2017-09-14 Baidu Online Network Technology (Beijing) Co., Ltd. Volume adjusting method, system, apparatus and computer storage medium

Also Published As

Publication number Publication date
US11086591B2 (en) 2021-08-10
JP2021536705A (ja) 2021-12-27
US20200081683A1 (en) 2020-03-12
KR20210082440A (ko) 2021-07-05
CN113614684A (zh) 2021-11-05
JP2024037766A (ja) 2024-03-19
EP3847542A4 (en) 2022-06-01
EP3847542A1 (en) 2021-07-14
KR20230144650A (ko) 2023-10-16
WO2020051544A1 (en) 2020-03-12
JP7397066B2 (ja) 2023-12-12

Similar Documents

Publication Publication Date Title
KR102584779B1 (ko) 오디오 분류를 통한 동적 볼륨 조절을 위한 방법 및 장치
KR102510899B1 (ko) 볼륨 조절을 위한 방법 및 장치
KR102477001B1 (ko) 오디오 특성의 분석을 기반으로 오디오 재생 설정을 조정하는 방법 및 장치
US20230054864A1 (en) Methods and Apparatus for Audio Equalization Based on Variant Selection
US11902760B2 (en) Methods and apparatus for audio equalization based on variant selection
US20240045649A1 (en) Methods and apparatus for dynamic volume adjustment via audio classification
KR102663452B1 (ko) 볼륨 조절을 위한 방법 및 장치
WO2021108664A1 (en) Methods and apparatus for audio equalization based on variant selection

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant