RU2417514C2 - Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий - Google Patents

Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий Download PDF

Info

Publication number
RU2417514C2
RU2417514C2 RU2008146747/09A RU2008146747A RU2417514C2 RU 2417514 C2 RU2417514 C2 RU 2417514C2 RU 2008146747/09 A RU2008146747/09 A RU 2008146747/09A RU 2008146747 A RU2008146747 A RU 2008146747A RU 2417514 C2 RU2417514 C2 RU 2417514C2
Authority
RU
Russia
Prior art keywords
time
signal
audio signal
event
acoustic
Prior art date
Application number
RU2008146747/09A
Other languages
English (en)
Other versions
RU2008146747A (ru
Inventor
Бретт Грехем КРОКЕТТ (US)
Бретт Грехем Крокетт
Алан Джеффри СИФЕЛЬДТ (US)
Алан Джеффри Сифельдт
Original Assignee
Долби Лэборетериз Лайсенсинг Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Лэборетериз Лайсенсинг Корпорейшн filed Critical Долби Лэборетериз Лайсенсинг Корпорейшн
Publication of RU2008146747A publication Critical patent/RU2008146747A/ru
Application granted granted Critical
Publication of RU2417514C2 publication Critical patent/RU2417514C2/ru

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G1/00Details of arrangements for controlling amplification
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing

Abstract

Изобретение относится к регулировке динамического диапазона звука. Техническим результатом является регулировка ключевых параметров динамической обработки звукового сигнала с использованием результатов анализа акустических сцен. Результат достигается тем, что в одном раскрытом аспекте изменения динамического усиления применяют к звуковому сигналу, по меньшей мере, частично в ответ на акустические события и/или степень изменения характеристик сигнала, связанных с границами акустического события. В другом аспекте звуковой сигнал делят на акустические события, сравнивая разницу между конкретными громкостями между последовательными блоками времени звукового сигнала. 3 н. и 10 з.п. ф-лы, 11 ил.

Description

Область техники, к которой относится изобретение
Изобретение относится к способам регулировки динамического диапазона звука и аппаратуре, в которой устройство обработки звука анализирует звуковой сигнал и изменяет уровень, коэффициент усиления или динамический диапазон звука, и все или некоторые параметры усиления звука и динамической обработки генерируются в виде функции акустических событий. Изобретение также относится к компьютерным программам для осуществления на практике таких способов или управления такой аппаратурой.
Настоящее изобретение также относится к способам и аппаратуре, использующим основанное на конкретной громкости обнаружение акустических событий. Изобретение также относится к компьютерным программам для осуществления на практике таких способов или управления такой аппаратурой.
ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ ИЗОБРЕТЕНИЯ
Динамическая обработка звука
Технологии автоматической регулировки усиления (AGC) и регулировки динамического диапазона (DRC) хорошо известны и являются обычным элементом многих путей звукового сигнала. В абстрактном смысле обе технологии неким образом измеряют уровень звукового сигнала и затем изменяют коэффициент усиления сигнала на величину, которая является функцией измеренного уровня. В линейной динамической системе со степенью компрессии (сжатия) 1:1 входной сигнал не обрабатывается, и выходной сигнал идеально совпадает с входным звуковым сигналом. Дополнительно, если имеет место динамическая система обработки звука, которая автоматически измеряет характеристики входного сигнала и использует это измерение для регулировки выходного сигнала, если уровень входного сигнала увеличивается на 6 дБ, а выходной сигнал обрабатывается таким образом, что его уровень увеличивается только на 3 дБ, степень компрессии для выходного сигнала составляет 2:1 по отношению к входному сигналу. Международная публикация под номером WO 2006/047600 A1 (“Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal”, Alan Jeffrey Seefeldt (“Вычисление и настройка воспринимаемой громкости и/или воспринимаемый спектральный баланс звукового сигнала”, Алан Джеффри Сифелдт)) обеспечивает подробный обзор пяти основных типов динамической обработки звука: компрессия, ограничение, автоматическая регулировка усиления (AGC), расширение и пропускание.
АКУСТИЧЕСКИЕ СОБЫТИЯ И ОБНАРУЖЕНИЕ АКУСТИЧЕСКИХ СОБЫТИЙ
Разделение звуков на блоки или сегменты, которые воспринимаются как отдельные и различные, иногда называют “анализом акустических событий” или “анализом акустических сцен” (ASA), и сегменты иногда называются “акустическими событиями” или “звуковыми событиями”. Подробное обсуждение анализа акустических сцен изложено Альбертом С. Брегманом в его книге Auditory Scene Analysis-The Perceptual Organization of Sound (Анализ акустических сцен - воспринимаемая организация звука), Институт технологии Массачусетса, 1991, четвертая печать, 2001, второе издание в бумажном переплете MIT Press. Дополнительно патент США №6002776, выданный Bhadkamkar (Бхадкамкар) и др. 14 декабря 1999, ссылается на публикации, относящиеся к 1976, как на “работу предшествующего уровня техники, относящуюся к выделению звука посредством анализа акустических сцен”. Тем не менее, патент Бхадкамкар и др. не одобряет практического использования анализа акустических сцен, заключая, что “технологии, включающие анализ акустических сцен, хотя и интересны с научной точки зрения в качестве моделей обработки человеческого слуха, в настоящее время требуют слишком много вычислений и могут рассматриваться как практические технологии для выделения звука до достижения фундаментального прогресса”.
Полезный способ идентификации акустических событий изложен Crockett и Crocket и др. (Крокетт и Крокет и др.) в различных патентных заявках и статьях, перечисленных ниже под заголовком “Включение посредством ссылки”. Согласно этим документам звуковой сигнал делится на акустические события, каждое из которых стремится к тому, что оно воспринимается как отдельное и отличное от других событие, посредством обнаружения изменений спектрального состава (амплитуды как функции частоты) со временем. Это можно сделать, например, вычисляя спектральный состав последовательных временных блоков звукового сигнала и идентифицируя границу акустического события как границу между последовательными временными блоками, если разница в спектральном составе между такими последовательными временными блоками превышает пороговую величину. Альтернативно вместо изменений спектрального состава со временем или дополнительно к ним могут быть вычислены изменения амплитуды со временем.
При реализации, требующей минимальных вычислений, процесс делит звуковой сигнал на временные сегменты, анализируя всю полосу частот (полную полосу пропускания звукового сигнала) или, по существу, целую полосу частот (в конкретных реализациях часто используется фильтр ограничения полосы частот на концах спектра) и придавая набольшее значение самым громким компонентам звукового сигнала. Этот подход использует преимущество явления, относящегося к психологии слухового восприятия, при котором при меньшей шкале времени (20 миллисекунд (мсек) и меньше) ухо может иметь склонность к фокусировке на одном акустическом событии за заданное время. Это подразумевает, что хотя одновременно может происходить несколько событий, одна компонента стремится к большему выделению при восприятии и может быть обработана индивидуально, как если бы она была единственным событием, которое имело место. Использование преимущества этого эффекта также допускает обнаружение акустического события, сопоставимое со сложностью обработанного звукового сигнала. Например, если обработанным входным звуковым сигналом является звук сольного инструмента, идентифицированными акустическими событиями вероятнее всего будут отдельные сыгранные ноты. Подобным образом, для входного речевого сигнала скорее всего будут идентифицированы отдельные компоненты речи, гласные звуки и согласные звуки в качестве отдельных звуковых элементов. С увеличением сложности звукового сигнала, например музыки с барабанным боем или несколькими инструментами и голосом, обнаружение акустического события идентифицирует “самый выделяющийся” (т.е. самый громкий) звуковой элемент в любой заданный момент.
За счет большей вычислительной сложности процесс может также учесть изменения спектрального состава со временем в дискретных частотных поддиапазонах (постоянных или динамически определенных поддиапазонах или постоянных и динамически определенных поддиапазонах), а не на полной полосе пропускания. Этот альтернативный подход учитывает более одного звукового потока в разных частотных поддиапазонах, а не предполагает, что только один поток может быть воспринят в конкретный момент времени.
Обнаружение акустического события может быть реализовано разделением звукового сигнала временной области на временные интервалы или блоки и затем преобразованием данных из каждого блока в частотную область, используя либо гребенку фильтров, либо частотно-временное преобразование, например FFT. Амплитуда спектральных составляющих каждого блока может быть нормирована для исключения или уменьшения эффекта амплитудных изменений. Каждое результирующее представление частотной области обеспечивает индикацию спектрального состава звука в конкретном блоке. Спектральный состав последовательных блоков сравнивается, и изменения, которые превышают пороговое значение, могут быть взяты для индикации временного начала или временного конца акустического события.
Предпочтительно данные частотной области нормируются, как описано ниже. Степень, до которой данные частотной области должны быть нормированы, дает индикацию амплитуды. Следовательно, если изменение в этой степени превышает заранее заданное пороговое значение, это также может быть принято за индикацию границ события. Начальные и конечные точки события, которые являются результатом спектральных изменений и амплитудных изменений, могут быть логически сложены вместе, чтобы границы события, полученные в результате изменений обоих типов, были идентифицированы.
Хотя технологии, описанные в упомянутых публикациях и статьях Крокетт и Крокет и др., являются, в частности, полезными вместе с аспектами настоящего изобретения, другие технологии для идентификации акустических событий и границ события могут быть использованы в аспектах настоящего изобретения.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
Традиционная динамическая обработка звукового сигнала предшествующего уровня техники задействует умножение звукового сигнала на зависящий от времени управляющий сигнал, который настраивает усиление звукового сигнала, получая требуемый результат. “Усилением” является масштабный коэффициент, который изменяет масштаб амплитуды звукового сигнала. Этот управляющий сигнал может генерироваться на постоянной основе или из блоков звуковых данных, но обычно его производит некоторая форма измерения обработанного звукового сигнала, и скорость его изменения определяют сглаживающие фильтры, иногда с постоянными характеристиками, а иногда с характеристиками, которые изменяются с динамикой звукового сигнала. Например, время отклика можно настроить в соответствии с изменениями магнитуды или мощности звукового сигнала. Способы предшествующего уровня техники, такие как автоматическая регулировка усиления (AGC) и компрессия динамического диапазона (DRC), не определяют каким-либо относящимся к психологии слухового восприятия способом временные интервалы, в течение которых изменения усиления могут быть восприняты как ухудшение и когда они могут быть применены без передачи слышимых артефактов. Следовательно, традиционные звуковые динамические процессы могут часто вносить слышимые артефакты, т.е. эффекты динамической обработки могут внести нежелательные воспринимаемые изменения в звуковой сигнал.
Анализ акустических сцен идентифицирует воспринимаемые дискретные акустические события, причем каждое событие происходит между двумя последовательными границами акустических событий. Акустические ухудшения, вызванные изменением усиления, могут быть значительно уменьшены обеспечением того, что в пределах акустического события усиление остается почти постоянным, и ограничением большей части изменения по соседству с границей события. В контексте компрессоров (средств сжатия) и расширителей (средств расширения) отклик на увеличение уровня звукового сигнала (часто называемое атакой) может быть быстрым, сравнимым с минимальной продолжительностью акустических событий или короче, но отклик на уменьшение (отпускание или возврат) может быть медленнее, так что звуки, которые должны казаться постоянными или должны постепенно ослабляться, могут быть явно нарушены. При таких обстоятельствах очень выгодно задержать возврат усиления до следующей границы или замедлить скорость изменения усиления во время события. Для приложений автоматической регулировки усиления, когда уровень громкости звука с продолжительностью от средней до длительной нормируется и оба времени атаки и возврата могут, следовательно, быть длительными по сравнению с минимальной продолжительностью акустического события, выгодно во время событий задержать изменения или замедлить скорости изменения усиления до границы следующего события для увеличивающего усиления и для уменьшающего усиления.
Согласно одному аспекту настоящего изобретения система обработки звукового сигнала принимает звуковой сигнал и анализирует, и изменяет характеристики усиления и/или динамического диапазона звукового сигнала. Изменением динамического диапазона звукового сигнала часто управляют параметры динамической системы обработки (время атаки и возврата, степень компрессии и т.д.), которые значительно влияют на воспринимаемые артефакты, вносимые динамической обработкой. Изменения характеристик сигнала со временем в звуковом сигнале обнаруживаются и идентифицируются как границы акустического события, так что звуковой сегмент между последовательными границами составляет акустическое событие в звуковом сигнале. Представляющие интерес характеристики акустических событий могут включать в себя такие характеристики событий, как сила и продолжительность восприятия. Некоторые из упомянутых одного или более параметров динамической обработки генерируются, по меньшей мере, частично в ответ на акустические события и/или степень изменения характеристик сигнала, связанных с упомянутыми границами акустического события.
Обычно акустическим событием является сегмент звукового сигнала, который имеет склонность к тому, что он воспринимается как отдельный и отличный от других сегмент. Одно используемое измерение характеристик сигнала включает в себя измерение спектрального состава звукового сигнала, например, как описано в упомянутых документах Крокетт и Крокет и др. Все или некоторые из одного или более параметров динамической обработки звукового сигнала могут генерироваться, по меньшей мере, частично в ответ на наличие или отсутствие и характеристики одного или более акустического события. Граница акустического события может быть идентифицирована как изменение характеристик сигнала со временем, которое превышает пороговое значение. Альтернативно все или некоторые из одного или более параметров могут генерироваться, по меньшей мере, частично в ответ на продолжающееся измерение степени изменения характеристик сигнала, связанных с упомянутыми границами акустического события. Хотя в принципе аспекты изобретения могут быть реализованы в аналоговых и/или цифровых областях, практические реализации вероятнее всего должны быть реализованы в цифровой области, в которой каждый из звуковых сигналов представлен отдельными выборками или выборками в пределах блоков данных. В этом случае характеристиками сигнала может быть спектральный состав звукового сигнала в пределах блока, обнаружением изменений в характеристиках сигнала со временем может быть обнаружение изменений спектрального состава звукового сигнала от блока к блоку, и начальная и конечная границы акустического события, каждая, совпадает с границами блока данных. Следует заметить, что для более традиционного случая выполнения динамических изменений усиления на основе выборок описанный анализ акустических сцен может быть выполнен на основе блока и результирующей информации об акустическом событии, используемой для выполнения динамических изменений усиления, которые были применены к выборкам.
Регулируя ключевые параметры динамической обработки звукового сигнала с использованием результатов анализа акустических сцен, можно получить внезапное уменьшение слышимых артефактов, вносимых динамической обработкой.
Настоящее изобретение представляет два способа выполнения анализа акустических сцен. Первый способ выполняет спектральный анализ и идентифицирует положение воспринимаемых звуковых событий, которые используются для регулировки параметров динамического усиления, идентифицируя изменения в спектральном составе. Второй способ преобразует звуковой сигнал в область воспринимаемой громкости (которая может обеспечить более релевантную, относящуюся к психологии слухового восприятия, информацию, чем первый способ) и идентифицирует положение акустических событий, которые потом используются для регулировки параметров динамического усиления. Следует заметить, что второй способ требует, чтобы обработка звукового сигнала знала об уровнях абсолютного воспроизведения звука, которые могут быть невозможны при некоторых реализациях. Представление обоих способов анализа акустических сцен допускает реализации изменения динамического усиления, регулируемого на основе ASA, с использованием процессов или устройств, которые могут или не могут быть откалиброваны для учета уровней абсолютного воспроизведения.
Аспекты настоящего изобретения описаны здесь в условиях динамической обработки звукового сигнала, которая включает аспекты других изобретений. Такие другие изобретения описаны в различных рассматриваемых патентных заявках США и международных патентных заявках Dolby Laboratories Licensing Corporation владельцем настоящей заявки, причем эти заявки установлены здесь.
ПЕРЕЧЕНЬ ЧЕРТЕЖЕЙ
Фиг.1 является логической блок-схемой, показывающей пример этапов обработки для выполнения анализа акустических сцен.
Фиг.2 показывает пример обработки блока, применения окна и выполнения DFT в отношении звукового сигнала во время выполнения анализа акустических сцен.
Фиг.3 является в своем роде логической блок-схемой или функциональной блок-схемой, показывающей параллельную обработку, при которой звуковой сигнал используют для идентификации акустических событий и для идентификации характеристик акустических событий из условия, чтобы события и их характеристики были использованы для изменения параметров динамической обработки.
Фиг.4 является в своем роде логической блок-схемой или функциональной блок-схемой, показывающей обработку, при которой звуковой сигнал используют только для идентификации акустических событий, а характеристики события определяют из обнаружения акустического события из условия, чтобы события и их характеристики были использованы для изменения параметров динамической обработки.
Фиг.5 является в своем роде логической блок-схемой или функциональной блок-схемой, показывающей обработку, при которой звуковой сигнал используют только для идентификации акустических событий, а характеристики события определяют из обнаружения акустического события из условия, чтобы только характеристики акустических событий были использованы для изменения параметров динамической обработки.
Фиг.6 показывает набор идеализированных характеристических характеристик звукового фильтра, который аппроксимирует критическую полосность шкалы ERB. По горизонтальной шкале отмечена частота в герцах, а по вертикальной шкале - уровень в децибелах.
Фиг.7 показывает контуры одинаковой громкости ISO 226. По горизонтальной шкале отмечена частота в герцах (шкала десятичных логарифмов), а по вертикальной шкале отмечен уровень звукового давления в децибелах.
Фиг.8,а-с показывают идеализированные входные/выходные характеристики и входные характеристики усиления компрессора динамического диапазона звука.
Фиг.9,a-f показывают пример использования акустических событий для регулировки времени возврата при цифровой реализации традиционного контроллера динамического диапазона (DRC), при которой регулировку усиления извлекают из среднеквадратического (RMS) значения мощности сигнала.
Фиг.10,a-f показывают пример использования акустических событий для регулировки времени возврата при цифровой реализации традиционного контроллера динамического диапазона (DRC), при которой регулировку усиления извлекают из среднеквадратического (RMS) значения мощности сигнала для сигнала, альтернативного используемому на Фиг.9 сигналу.
Фиг.11 изображает соответствующий набор идеализированных кривых AGC и DRC для применения AGC, за которой следует DRC, в системе динамической обработки области громкости. Задачей комбинации является получение приблизительно одинаковой воспринимаемой громкости для всех обработанных звуковых сигналов, сохраняя при этом, по меньшей мере, некоторые из исходных динамических характеристик звукового сигнала.
ЛУЧШИЙ РЕЖИМ ДЛЯ ВЫПОЛНЕНИЯ ИЗОБРЕТЕНИЯ
АНАЛИЗ АКУСТИЧЕСКИХ СЦЕН (ПЕРВОНАЧАЛЬНЫЙ СПОСОБ, ПРИ КОТОРОМ ОТСУТСТВУЕТ ОБЛАСТЬ ГРОМКОСТИ)
Согласно воплощению одного аспекта настоящего изобретения анализ акустических сцен может состоять из четырех общих этапов обработки, как показано на участке Фиг.1. На первом этапе 1-1 (“Выполнить спектральный анализ”) берут звуковой сигнал временной области, делят его на блоки и вычисляют спектральный профиль или спектральный состав для каждого из блоков. Спектральным анализом преобразуют звуковой сигнал в короткопериодную частотную область. Это можно выполнить, используя любую гребенку фильтров, основанную либо на преобразованиях, либо на блоках полосовых фильтров, и либо в линейном, либо искаженном частотном пространстве (например, шкале Барка (Bark) или критической полосе, которые лучше аппроксимируют характеристики человеческого уха). При наличии любой гребенки фильтров имеет место компромисс между временем и частотой. Большее разрешение по времени и, следовательно, более короткие интервалы времени приводят к меньшему разрешению по частоте. Большее разрешение по частоте и, следовательно, более узкие поддиапазоны приводят к более длительным интервалам времени.
На первом этапе, проиллюстрированном по существу на Фиг.1, вычисляют спектральный состав последовательных сегментов времени звукового сигнала. В практическом воплощении размер блока ASA может состоять из любого числа выборок входного звукового сигнала, хотя 512 выборок обеспечивают хороший компромисс между разрешениями по времени и частоте. На втором этапе 1-2 определяют разницу между спектральными составами от блока к блоку («Выполнить измерения разницы спектральных профилей»). Таким образом, на втором этапе вычисляют разницу спектральных составов между последовательными сегментами времени звукового сигнала. Как обсуждалось выше, изменение спектрального состава считается эффективным индикатором начала или конца воспринятого акустического события. На третьем этапе 1-3 ("Идентифицировать положение границ акустического события"), когда разница спектральных составов между одним блоком спектрального профиля и следующим превышает пороговую величину, за границу акустического события принимают границу блока. Звуковой сегмент между последовательными границами составляет акустическое событие. Таким образом, на третьем этапе устанавливают границы акустического события между последовательными сегментами времени, когда разница спектральных профилей между такими последовательными сегментами времени превышает пороговую величину, определяя, таким образом, акустические события. В этом воплощении границы акустического события определяют акустические события, имеющие длину, которая является целым кратным длине блоков спектрального профиля при минимальной длине одного блока спектрального профиля (512 выборок в данном примере). В принципе границы события необязательно должны быть так ограничены. В качестве альтернативы обсужденным здесь практическим воплощениям размер входного блока может меняться, например, чтобы быть равным, по существу, размеру акустического события.
После идентификации границ события определяют ключевые характеристики акустического события, как показано на этапе 1-4.
Перекрывающиеся или неперекрывающиеся сегменты звукового сигнала могут быть реализованы посредством применения окна и использованы для вычисления спектральных профилей входящего звукового сигнала. Перекрытие приводит к более хорошему разрешению в отношении положения акустических событий и уменьшает вероятность пропуска события, такого как короткий одиночный импульс. Тем не менее, перекрытие также увеличивает вычислительную сложность. Таким образом, перекрытие можно исключить. Фиг.2 показывает принципиальное представление неперекрывающихся N блоков выборок, реализованных посредством применения окна и преобразованных в частотную область посредством дискретного преобразования Фурье (DFT). Каждый блок может быть реализован посредством применения окна и преобразован в частотную область, например посредством DFT, предпочтительно реализованным как быстрое преобразование Фурье (FFT) для скорости.
Следующие переменные могут быть использованы для вычисления спектрального профиля входного блока:
М = число выборок, охватываемых окном, в блоке, используемом для вычисления спектрального профиля;
Р = число перекрывающихся выборок при спектральном вычислении.
В общем для вышеупомянутых переменных могут быть использованы любые целые числа. Тем не менее, реализация будет более эффективной, если установить М, равным степени числа 2, чтобы можно было использовать стандартные преобразования FFT для вычислений спектрального профиля. В практическом воплощении процесса анализа акустических сцен перечисленные параметры можно установить равными:
М = 512 выборок (или 11,6 мсек при 44,1 кГц);
Р = 0 выборок (без перекрытия).
Вышеперечисленные значения были определены экспериментально и было обнаружено, что они с достаточной точностью идентифицируют положение и продолжительность акустических событий. Тем не менее, было обнаружено, что установка значения Р, равного 256 выборкам (50% перекрытия), а не нулю выборок (без перекрытия), полезна при идентификации некоторых труднообнаруживаемых событий. Хотя для минимизации спектральных артефактов вследствие применений окон могут быть использованы многие различные типы окон, используемым при вычислениях спектрального профиля окном является окно типа M-точечное Hanning, Kaiser-Bessel или другое подходящее, предпочтительно, непрямоугольное окно. Вышеуказанные значения и окно типа Hanning были выбраны после продолжительного анализа экспериментов, так как было показано, что они обеспечивают превосходные результаты для широкого диапазона звуковых материалов. Применение непрямоугольных окон предпочтительно для обработки звуковых сигналов с преимущественно низкочастотным содержанием. Применение прямоугольных окон производит спектральные артефакты, которые могут стать причиной некорректного обнаружения событий. В отличие от определенных кодирующих/декодирующих приложений (кодеков), где процесс полного перекрытия/суммирования должен обеспечивать постоянный уровень, такое ограничение неприменимо здесь, и окно может быть выбрано из-за его характеристик, таких как разрешение по времени/частоте и подавление с помощью полосы задерживания.
На этапе 1-1 (Фиг.1) спектр каждого блока М-выборки может быть вычислен получением данных посредством применения окна, такого как M-точечное Hanning, Kaiser-Bessel или другого подходящего окна, преобразованием в частотную область, используя M-точечное быстрое преобразование Фурье, и вычислением величины комплексных коэффициентов FFT. Результирующие данные нормируют, принимая наибольшую величину за единицу, и нормированный массив из М чисел преобразуют в логарифмическую область. Данные могут быть также нормированы на некоторые другие показатели, такие как значение средней величины или значение средней мощности данных. Преобразование массива в логарифмическую область необязательно, но оно упрощает вычисление значения разницы на этапе 1-2. Кроме того, логарифмическая область ближе соответствует природе человеческой зрительной системы. Значения результирующей логарифмической области имеют диапазон от минус бесконечности до нуля. В практическом воплощении на диапазон значений может накладываться нижний предел; ограничение может быть постоянным, например -60 дБ, или может зависеть от частоты для отражения более низкой слышимости тихих звуков при низких и очень высоких частотах. (Заметим, что можно было бы уменьшить размер массива до M/2 по той причине, что FFT представляет отрицательные, так же как и положительные частоты).
На этапе 1-2 вычисляют меру разницы между спектрами соседних блоков. Для каждого блока каждый из М (логарифмических) спектральных коэффициентов, вычисленных на этапе 1-1, вычитают из соответствующего коэффициента для предшествующего блока, и вычисляют значение разницы (не учитывая знак). Эти М разницы затем складывают в одно число. Эту меру значение разницы можно также выразить как среднюю разницу, приходящуюся на спектральный коэффициент, делением меры разницы на количество спектральных коэффициентов, используемых в сложении (в данном случае - М коэффициентов).
На этапе 1-3 идентифицируют положение границ акустических событий применением пороговой величины к массиву мер разницы, вычисленных на этапе 1-2. Когда мера разницы превышает пороговую величину, изменение спектра считают достаточным для сигнализации о новом событии, и номер блока с изменением регистрируют как границу события. Для значений М и Р, данных выше, и для значений логарифмической области (полученных на этапе 1-1), выраженных в единицах дБ, пороговая величина может быть установлена равной 2500, если сравнивается вся величина FFT (включая отрицательную часть), или 1250, если сравнивается половина FFT (как отмечено выше, FFT представляет отрицательные, так же как и положительные частоты, для величины FFT одна частота является зеркальным отображением другой). Это значение может быть выбрано экспериментально, и оно обеспечивает хорошее обнаружение границ акустического события. Это значение параметра может быть изменено для уменьшения (увеличив пороговую величину) или увеличения (уменьшив пороговую величину) обнаружения событий.
Процесс на Фиг.1 может быть представлен в более обычном виде эквивалентными выполнениями, представленными на Фиг.3-5. На Фиг.3 к звуковому сигналу параллельно применяют функцию “Идентифицировать акустические события” или этап 3-1, который делит звуковой сигнал на акустические события, каждое из которых стремится к тому, чтобы оно воспринималось как отдельное и отличное от других событие, и необязательную функцию “Идентифицировать характеристики акустических событий” или этап 3-2. Процесс по Фиг.1 может быть использован для разделения звукового сигнала на акустические события и идентификации их характеристик или может быть использован некоторый другой процесс. Информацию об акустическом событии, которой может быть идентификация границ акустического события, определяемая функцией или этапом 3-1, затем используют для изменения параметров динамической обработки звукового сигнала (таких как, атака, возврат, степень и т.д.), как требуется, с помощью функции “Изменить динамические параметры” или этапа 3-3. Необязательная функция “Идентифицировать характеристики” или этап 3-3 также принимает информацию об акустическом событии. Функция “Идентифицировать характеристики” или этап 3-3 может характеризовать некоторые или все акустические события одной или более характеристиками. Такие характеристики могут включать идентификацию преобладающего поддиапазона акустического события, как описано в связи с процессом на Фиг.1. Характеристики могут также включать одну или более звуковых характеристик, включая, например, величину мощности акустического события, величину амплитуды акустического события, величину спектральной неравномерности акустического события и информацию о том, является ли акустическое событие, по существу, бесшумным, или другие характеристики, которые помогают изменить динамические параметры, чтобы уменьшить или удалить слышимые артефакты обработки. Характеристики могут также включать другие характеристики, например информацию о том, включает ли акустическое событие короткий одиночный импульс.
Альтернативы выполнению по Фиг.3 показаны на Фиг.4 и 5. На Фиг.4 к входному звуковому сигналу не применяют непосредственно функцию “Идентифицировать характеристики” или этап 4-3, но он принимает информацию от функции “Идентифицировать акустические события” или этапа 4-1. Выполнение по Фиг.1 является конкретным примером такого выполнения. На Фиг.5 функции или этапы 5-1, 5-2 и 5-3 выполнены последовательно.
Детали этого конкретного воплощения не являются критическими. Могут быть использованы другие способы вычисления спектрального состава последовательных сегментов времени звукового сигнала, вычисления разницы между последовательными сегментами времени и установки границ акустического события на соответствующих границах между последовательными сегментами времени, когда разница спектральных профилей между такими последовательными сегментами времени превышает пороговую величину.
АНАЛИЗ АКУСТИЧЕСКИХ СЦЕН (НОВЫЙ СПОСОБ С ОБЛАСТЬЮ ГРОМКОСТИ)
Международная заявка согласно Договору о патентной кооперации с номером PCT/US2005/038579, поданная 25 октября 2005, опубликованная как Международная публикация под номером WO 2006/047600 A1, озаглавленная “Вычисление и настройка воспринимаемой громкости и/или воспринимаемый спектральный баланс звукового сигнала”, Алан Джеффри Сифелдт, раскрывает помимо всего прочего объективную меру воспринимаемой громкости, основанной на модели, относящейся к психологии слухового восприятия. Упомянутая заявка посредством ссылки включена в настоящую заявку во всей полноте. Как описано в упомянутой заявке, из звукового сигнала x[n] вычисляют сигнал E[b,t] возбуждения, который аппроксимирует распределение энергии вдоль базилярной мембраны внутреннего уха в критической полосе b в течение временного блока t. Это возбуждение может быть вычислено из кратковременного дискретного преобразования Фурье (STDFT) звукового сигнала следующим образом:
Figure 00000001
где X[k,t] представляет STDFT сигнала x[n] во временном блоке t и элементе дискретизации k. Заметим, что в уравнении 1 t представляет время в дискретных единицах блоков преобразования в отличие от непрерывной меры, такой как секунды. T[k] представляет частотную характеристику фильтра, имитирующего передачу звукового сигнала через внешнее и среднее ухо, и Cb[k] представляет частотную характеристику базилярной мембраны в положении, соответствующем критической полосе b. Фиг.6 изображает соответствующий набор характеристик фильтра критической полосы, в котором 40 полос равномерно разнесены вдоль шкалы эквивалентных прямоугольных полос частот (ERB), определенной Moor и Glasberg (Муром и Глазбергом). Форма каждого фильтра описывается закругленной экспоненциальной функцией, и полосы распределены с использованием расстояния 1 ERB. Наконец, сглаживающая временная константа λb в уравнении 1 может быть предпочтительно выбрана пропорциональной времени интегрирования человеческого восприятия громкости в пределах полосы b.
Используя контуры одинаковой громкости, такие как контуры, изображенные на Фиг.7, возбуждение каждой полосы преобразуется в уровень возбуждения, который генерировал бы такую же воспринимаемую громкость при 1 кГц. Конкретную громкость, меру воспринимаемой громкости, распределенной по частоте и времени, затем вычисляют из преобразованного возбуждения E1kHz[b,t] посредством компрессионной нелинейности. Одна такая подходящая функция для вычисления конкретной громкости N[b,t] задается следующим образом:
Figure 00000002
где TQ1kHz является пороговой величиной в тишине при 1 кГц, а константы β и α выбирают для соответствия росту данных о громкости, накапливаемых при экспериментах по прослушиванию. В абстрактном смысле это преобразование из возбуждения в конкретную громкость может быть представлено функцией Ψ {}, такой как:
Figure 00000003
В результате общую громкость L[t], представленную в сонах, вычисляют суммированием конкретной громкости по полосам:
Figure 00000004
Конкретная громкость N[b,t] является спектральным представлением, предназначенным для имитации способа восприятия человеком звукового сигнала как функции частоты и времени. Она улавливает изменения чувствительности к различным частотам, изменения чувствительности к уровню и изменения разрешения по частоте. По этой причине она является спектральным представлением, хорошо соответствующим обнаружению акустических событий. Сравнение разницы N[b,t] по полосам между последовательными блоками времени может во многих случаях привести к более точно воспринимаемому обнаружению акустических событий по сравнению с описанным выше непосредственным использованием последовательных спектров FFT, хотя оно более сложно для вычисления.
В упомянутой патентной заявке раскрыто несколько вариантов применения для изменения звукового сигнала на основе этой модели громкости, относящейся к психологии слухового восприятия (психоакустической модели). Среди этих применений раскрыты несколько алгоритмов динамической обработки, например AGC и DRC. Эти раскрытые алгоритмы могут использовать преимущества использования акустических событий для регулировки различных связанных с ними параметров. Так как конкретная громкость уже вычислена, она легкодоступна для целей обнаружения упомянутых событий. Подробности предпочтительного воплощения обсуждаются ниже.
РЕГУЛИРОВКА ПАРАМЕТРА ДИНАМИЧЕСКОЙ ОБРАБОТКИ ЗВУКОВОГО СИГНАЛА ПРИ НАЛИЧИИ АКУСТИЧЕСКИХ СОБЫТИЙ
Далее представлены два примера воплощений изобретения. Первый пример описывает использование акустических событий для регулировки времени возврата при цифровой реализации регулировки динамического диапазона (DRC), при которой регулировку усиления извлекают из среднеквадратического (RMS) значения мощности сигнала. Второе воплощение описывает использование акустических событий для управления определенными аспектами более сложной комбинации AGC и DRC, реализованных в контексте модели громкости, относящейся к психологии слухового восприятия, описанной выше. Эти два воплощения служат только примерами изобретения, и следует понимать, что использование акустических событий для параметров регулировки алгоритма динамической обработки не ограничено описанными ниже конкретными примерами.
РЕГУЛИРОВКА ДИНАМИЧЕСКОГО ДИАПАЗОНА
Описанная цифровая реализация DRC сегментирует звуковой сигнал x[n] на реализуемые посредством применения окна, наполовину перекрывающиеся блоки, и для каждого блока вычисляется усиление модифицирования на основе меры локальной мощности сигнала и выбранной кривой компрессии. Усиление сглаживают по блокам и затем умножают с каждым блоком. К измененным блокам в результате добавляют перекрытие для генерации измененного звукового сигнала y[n].
Следует заметить, что хотя анализ акустических сцен и цифровая реализация DRC, описываемые здесь, делят звуковой сигнал временной области на блоки для выполнения анализа и обработки, обработку DRC необязательно выполнять с использованием сегментации на блоки. Например, анализ акустических сцен может быть выполнен с использованием сегментации на блоки, а спектральный анализ, описанный выше, и результирующие положения, и характеристики акустических событий могут быть использованы для обеспечения регулирующей информации для цифровой реализации традиционной реализации DRC, которая обычно работает на основе последовательных выборок. Здесь, тем не менее, для DRC применяется такая же структура разделения на блоки, используемая для анализа акустических сцен, чтобы упростить описание их комбинации.
Приступая к описанию, основанной на блоках реализации DRC, перекрывающиеся блоки звукового сигнала могут быть представлены в виде:
Figure 00000005
для 0<n<M-1 (4)
где М является длиной блока, размер скачка равен М/2, w[n] является окном, n является индексом выборки в пределах блока, а t является индексом блока (заметим, что здесь t используется таким же образом, как и для STDFT в уравнении 1; т.е. представляет время в дискретных единицах блоков, а не в секундах, например). В идеальном варианте окно w[n] сужается до нуля на обоих концах и равно в сумме единице, когда наполовину перекрывает само себя; обычно используемое синусоидальное окно, например, соответствует этим критериям.
Для каждого блока можно затем вычислить RMS мощности для генерации значения P[t] мощности в дБ, приходящегося на каждый блок:
Figure 00000006
Как упоминалось ранее, можно сгладить это значение мощности быстрой атакой и медленным возвратом до обработки с помощью кривой компрессии, но в качестве альтернативы обрабатывается мгновенная мощность P[t] и сглаживается результирующее усиление. Этот альтернативный подход имеет преимущество в том, что может быть использована простая кривая компрессии с острыми точками загиба, но результирующие усиления остаются по-прежнему гладкими при прохождении мощности через точки загиба. Представляя кривую компрессии так, как показано на Фиг.8с в виде функции F уровня сигнала, который генерирует усиление, усиление G[t] блока задается следующим образом:
Figure 00000007
(6)
Предполагая, что кривая компрессии налагает большее ослабление с увеличением уровня сигнала, усиление будет уменьшаться, когда сигнал находится в “режиме атаки”, и увеличиваться, когда сигнал находится в “режиме возврата”. Следовательно, сглаженное усиление
Figure 00000008
может быть вычислено в соответствии с формулой
Figure 00000009
Figure 00000010
где
Figure 00000011
Figure 00000012
и
αrelease >> αattach (7c)
Наконец, сглаженное усиление
Figure 00000013
, выраженное в дБ, применяют к каждому блоку сигнала, и измененные блоки суммируются с перекрытием для получения измененного звукового сигнала:
Figure 00000014
для 0<n<M/2 (8)
Заметим, что вследствие того, что блоки умножены на сужающееся окно, как показано в уравнении (4), синтез по суммированию с перекрытием, показанный выше, эффективно сглаживает усиления по выборкам обработанного сигнала y[n]. Таким образом, управляющий сигнал усиления получает сглаживание дополнительно к показанному в уравнении (7а) сглаживанию. При более традиционной реализации DRC, работающего по последовательным выборкам, а не по последовательным блокам, может потребоваться более сложное сглаживание усиления, чем простой однополюсный фильтр, показанный в уравнении (7а), для предотвращения слышимого искажения обработанного сигнала. Также использование основанной на блоках обработки вносит в систему характерную задержку в М/2 выборок, и до тех пор, пока время спада, связанное с αattack, близко к этой задержке, сигнал x[n] не требуется дополнительно задерживать до применения усилений с целью предотвращения выброса.
Фиг.9,а-с изображает результат применения описанной обработки DRC к звуковому сигналу. Для этой конкретной реализации используется длина блока М=512 при частоте дискретизации, равной 44,1 кГц. Используется кривая компрессии, аналогичная показанной на Фиг.8,b:
выше -20 дБ относительно полномасштабной цифры сигнал ослабляется с соотношением 5:1, а ниже -30 дБ сигнал усиливается с соотношением 5:1. Усиление сглаживается с коэффициентом αattack атаки, соответствующим времени полуспада в 500 мсек. Исходный звуковой сигнал, изображенный на Фиг.9,а, состоит из шести последовательных аккордов для фортепьяно, причем конечный аккорд, расположенный вокруг выборки 1,75×105, затухает до тишины. Изучая график усиления
Figure 00000015
на Фиг.9,b, следует заметить, что усиление остается близким к 0 дБ во время проигрывания шести аккордов. Это результат сохранения большей части энергии в диапазоне от -30 до -20 дБ, области, в пределах которой кривая DRC не требует изменений. Тем не менее, после достижения последнего аккорда энергия сигнала падает ниже -30 дБ, и усиление начинает расти в конечном итоге до значения свыше 15 дБ по мере затухания аккордов. Фиг.9,с изображает результирующий измененный звуковой сигнал, и можно видеть, что шлейф конечного аккорда значительно усилен. На слух это усиление естественного низкоуровневого затухающего звука аккорда дает чрезвычайно неестественный результат. Целью настоящего изобретения является предотвращение проблем такого типа, связанных с традиционной динамической обработкой.
Фиг.10,а-с изображают результаты применения точно такой же системы DRC к другому звуковому сигналу. В этом случае первая половина сигнала состоит из музыкального отрезка быстрого темпа при высоком уровне, а затем при приблизительной выборке 10×104 сигнал переключается на второй музыкальный отрезок быстрого темпа, но при значительно более низком уровне. Изучая усиление по Фиг.10,b, можно видеть, что сигнал ослабляется приблизительно на 10 дБ в течение первой половины, а затем усиление обратно возрастает вплоть до 0 дБ в течение второй половины, когда проигрывается более мягкий отрезок. В этом случае усиление работает так, как требуется. Желательно усилить второй отрезок относительно первого, и усиление должно быстро возрасти после перехода на второй отрезок, чтобы быть малозаметным на слух. Видно, что поведение усиления аналогично обсужденному поведению в случае первого сигнала, но в данном случае это поведение является желательным. Следовательно, желательно исправить первый случай, не затрагивая второй. Использование акустических событий для регулировки времени возврата этой системы DRC обеспечивает такое решение.
В первом сигнале, который был исследован на Фиг.9, усиление затухания последнего аккорда кажется неестественным, так как аккорд и его затухание воспринимаются как одно акустическое событие, сохранения целостности которого ожидают. Во втором случае, тем не менее, во время увеличения усиления происходит много акустических событий, означая, что каждому отдельному событию придается маленькое изменение. Следовательно, общее изменение усиления не является таким нежелательным. Следовательно, можно рассуждать о том, что изменение усиления следует допускать только в ближайшей временной окрестности границы акустического события. Можно применить этот принцип к усилению, когда оно находится либо в режиме атаки, либо в режиме возврата, но для большинства практических реализаций DRC усиление так быстро переходит в режим атаки по сравнению с разрешением по времени восприятия человеком события, что регулировки не требуется. Следовательно, можно использовать события для регулировки сглаживания усиления DRC только когда оно находится в режиме возврата.
Далее будет описано соответствующее поведение регулировки возврата. В качественных показателях, если обнаружено событие, усиление сглаживают в зависимости от константы времени возврата, определенной выше в уравнении (7а). С течением времени после обнаруженного события, и если не обнаружены следующие события, константа времени возврата непрерывно увеличивается, так что в конечном итоге сглаженное усиление “замораживается” на месте. Если обнаружено другое событие, сглаживающую константу времени повторно устанавливают на исходное значение, и процесс повторяется. Для модуляции времени возврата можно сначала сгенерировать управляющий сигнал на основе границ обнаруженного события.
Как обсуждалось ранее, границы события могут быть обнаружены поиском изменений в последовательных спектрах звукового сигнала. При этой конкретной реализации DFT каждого перекрывающегося блока x[n,t] может быть вычислено для генерации STDFT звукового сигнала x[n]:
Figure 00000016
Далее разница между нормированными логарифмическими величинами спектров последовательных блоков может быть вычислена в соответствии с формулой
Figure 00000017
где
Figure 00000018
Здесь максимальное значение
Figure 00000019
по элементам дискретизации k используется для нормирования, хотя можно использовать другие нормировочные множители; например, среднее значение
Figure 00000020
по элементам дискретизации. Если разница
Figure 00000021
превышает пороговую величину Dmin, считают, что событие случилось. Дополнительно данному событию можно присвоить силу, которая лежит в интервале от нуля до единицы, на основе размера
Figure 00000022
по сравнению с максимальной пороговой величиной Dmax. Результирующий сигнал
Figure 00000023
силы акустического события может быть вычислен как:
Figure 00000024
Figure 00000025
Присваивая силу акустическому событию, пропорциональную величине изменения спектра, связанного с этим событием, достигают лучшей регулировки динамической обработки по сравнению с принятием решения о бинарном событии. Авторы изобретения обнаружили, что более значительные изменения усиления допустимы во время более сильных событий, и сигнал в уравнении (11) допускает такую изменяемую регулировку.
Сигнал
Figure 00000023
является импульсным сигналом, причем импульсы происходят в положениях границы событий. В целях регулировки времени возврата можно дополнительно сглаживать сигнал
Figure 00000023
, так чтобы он плавно спадал до нуля после обнаружения границы события. Сглаженный управляющий сигнал
Figure 00000026
события может быть вычислен из
Figure 00000023
в соответствии с формулой
Figure 00000027
Здесь
Figure 00000028
регулирует время спадания управляющего сигнала события. Фиг.9,d и 10,d изображают управляющий сигнал
Figure 00000026
события для двух соответствующих звуковых сигналов, причем время полуспада более гладкой из них установлено на 250 мсек. В первом случае видно, что граница события обнаружена для каждого из шести аккордов для фортепьяно и что управляющий сигнал события плавно спадал до нуля после каждого события. Для второго сигнала обнаружено много событий, очень близких друг к другу по времени, и, следовательно, управляющий сигнал события никогда не спадает полностью до нуля.
Теперь можно использовать управляющий сигнал
Figure 00000029
события для изменения константы времени возврата, используемой для сглаживания усиления. Когда управляющий сигнал равен единице, сглаживающий коэффициент
Figure 00000030
из уравнения (7а) равен
Figure 00000031
, как и ранее, а когда управляющий сигнал равен нулю, коэффициент равен единице, так что предотвращается изменение сглаженного усиления. Сглаживающий коэффициент интерполируют между этими двумя пределами, используя управляющий сигнал, в соответствии с формулой
Figure 00000032
Figure 00000033
При непрерывной интерполяции сглаживающего коэффициента как функции управляющего сигнала события время возврата повторно устанавливается на значение, пропорциональное силе события в начале события, и затем плавно увеличивается до бесконечности после происшествия события. Скорость этого увеличения диктует коэффициент
Figure 00000028
, используемый для генерации сглаженного управляющего сигнала события.
Фиг.9,е и 10,е показывают результат сглаживания усиления с помощью регулируемого событием коэффициента из уравнения (13) в противоположность не регулируемому событием коэффициенту из уравнения (7b). В первом случае управляющий сигнал события падает до нуля после последнего аккорда для фортепьяно, предотвращая тем самым движение усиления вверх. В результате соответствующий измененный звуковой сигнал, изображенный на Фиг.9,f, не страдает от неестественного усиления затухания аккорда. Во втором случае управляющий сигнал события никогда не достигает нуля, и, следовательно, сглаженный сигнал усиления очень мало задерживается вследствие применения регулировки события. Траектория сглаженного усиления почти идентична траектории не регулируемого событием усиления на Фиг.10,b. Это в точности соответствует требуемому эффекту.
ОСНОВАННЫЕ НА ГРОМКОСТИ AGC И DRC
В качестве альтернативы традиционной технологии динамической обработки, при которой изменения сигнала являются прямой функцией простых измерений сигнала, например, амплитуды или RMS мощности, Международная патентная заявка с номером PCT/US2005/038579 раскрывает использование модели громкости, относящейся к психологии слухового восприятия, описанной ранее в виде окружения, в котором должна выполняться динамическая обработка. Приведены несколько преимуществ. Во-первых, измерения и изменения определены в сонах, что является более точной мерой восприятия громкости, чем более фундаментальные значения, такие как амплитуда или RMS мощности. Во-вторых, звуковой сигнал может быть изменен из условия, чтобы воспринимаемый спектральный баланс исходного звукового сигнала был сохранен при изменении общей громкости. Таким образом, изменения общей громкости становятся менее очевидными на слух по сравнению с динамической обработкой, которая использует широкополосное усиление, например, для изменения звукового сигнала. И, наконец, модель, относящаяся к психологии слухового восприятия, является, в сущности, многополосной, и, следовательно, система легко конфигурируется для выполнения многополосной динамической обработки для уменьшения хорошо известных проблем межспектральной подкачки, связанных с многополосной динамической обработкой.
Хотя выполнение динамической обработки в данной области громкости уже имеет несколько преимуществ перед традиционной динамической обработкой, технология может быть дополнительно улучшена посредством использования акустических событий для регулировки различных параметров. Рассмотрим звуковой сегмент, содержащий аккорды для фортепьяно, как изображено на Фиг.10,а, и соответствующую DRC, показанную на Фиг.10,b и с. Можно выполнить подобную DRC в области громкости, и в этом случае, когда затухание громкости конечного аккорда для фортепьяно усиливается, усиление будет менее очевидным, так как спектральный баланс затухающей ноты будет сохранен при применении усиления. Тем не менее, лучшим решением будет не усиливать затухание совсем, и, следовательно, можно выгодно применить тот же принцип регулировки времени атаки и возврата при наличии акустических событий в области громкости, как описывалось ранее, для традиционной DRC.
Система динамической обработки с областью громкости, которая будет сейчас описана, состоит из AGC, за которой следует DRC. Задачей этой комбинации является получение приблизительно одинаковой воспринимаемой громкости для всех обработанных звуковых сигналов, сохраняя при этом, по меньшей мере, некоторые из исходных динамических характеристик звукового сигнала. Фиг.11 изображает соответствующий набор кривых AGC и DRC для этого приложения. Заметим, что входные и выходные данные обеих кривых представлены в сонах, так как обработка выполняется в области громкости. Кривая AGC стремится донести выходной звуковой сигнал ближе к определенному целевому уровню и, как упоминалось ранее, это происходит при относительно медленных константах времени. Можно подумать, что AGC создает долгосрочную громкость звукового сигнала, которая равна целевой, но в течение коротких периодов времени громкость может сильно колебаться вокруг этой целевой громкости. Следовательно, можно использовать более быстродействующую DRC для ограничения этих колебаний в некотором диапазоне, который считается приемлемым для конкретного приложения. Фиг.11 показывает такую кривую DRC, где цель AGC попадает в пределы “нулевой полосы” DRC, участка кривой, который не требует изменений. При такой комбинации кривых AGC устанавливает долгосрочную громкость звукового сигнала в пределах нулевой полосы кривой DRC, так что необходимо применение минимальных изменений быстродействующей DRC. Если краткосрочная громкость все еще колеблется вне нулевой полосы, DRC работает таким образом, чтобы сместить громкость звукового сигнала к этой нулевой полосе. В качестве последнего общего замечания можно применить медленнодействующую AGC из условия, чтобы на каждую полосу модели громкости приходилось одинаковое количество изменений громкости, посредством чего сохраняется воспринимаемый спектральный баланс, и можно применить быстродействующую DRC таким образом, чтобы допустить изменение модификации громкости по полосам для уменьшения межспектральной подкачки, которая в противном случае может появиться в результате быстродействующей, не зависящей от полос модификации громкости.
Акустические события могут быть использованы для регулировки атаки и возврата обеих регулировок AGC и DRC. В случае AGC оба времени атаки и возврата являются большими по сравнению с разрешением по времени восприятия события, и, следовательно, регулировку события можно выгодно применять в обоих случаях. При DRC атака является относительно короткой, и, следовательно, регулировка события может потребоваться только для возврата, как при DRC, описанной выше.
Как обсуждалось ранее, можно использовать спектр конкретной громкости, связанный с применяемой моделью громкости, с целью обнаружения события. Разностный сигнал
Figure 00000034
, аналогичный сигналу в уравнениях 10,а и b, можно вычислить из конкретной громкости
Figure 00000035
, определенной в уравнении (2), следующим образом:
Figure 00000036
где
Figure 00000037
Здесь максимальное значение
Figure 00000038
по полосам b частот используется для нормирования, хотя можно использовать другие нормировочные множители; например, среднее значение
Figure 00000039
по полосам частот. Если разница
Figure 00000021
превышает пороговую величину Dmin, считают, что событие случилось. Разностный сигнал может быть затем обработан способом, аналогичным показанному в уравнениях (11) и (12) для генерации сглаженного управляющего сигнала
Figure 00000040
события, используемого для регулировки времени атаки и возврата.
Кривая AGC, изображенная на Фиг.11, может быть представлена в виде функции, которая в качестве своего входного значения берет значение громкости и генерирует требуемую выходную громкость:
Figure 00000041
(15а)
Кривая DRC может быть представлена аналогичным образом
Figure 00000042
(15b)
Для AGC входная громкость является мерой долгосрочной громкости звукового сигнала. Можно вычислить такую меру сглаживанием мгновенной громкости
Figure 00000043
, определенной в уравнении (3), используя относительно длинные константы времени (порядка нескольких секунд). Показано, что при оценке долгосрочной громкости звукового сегмента людям тяжелее анализировать более громкие участки, чем более тихие, и можно использовать более быструю атаку вместо возврата при сглаживании, чтобы имитировать этот эффект. При включении регулировки события в атаку и возврат долгосрочную громкость, используемую для определения модификации AGC, можно, следовательно, вычислить в соответствии с формулой
Figure 00000044
(16а),
где
Figure 00000045
Figure 00000046
Дополнительно можно вычислить соответствующий спектр долгосрочной конкретной громкости, который позже будет использован для многополосной DRC:
Figure 00000047
(16с)
На практике можно выбрать сглаживающие коэффициенты из условия, чтобы время атаки было равно приблизительно половине времени возврата. Задавая значение долгосрочной громкости, можно затем вычислить масштабирование модификации громкости, связанное с AGC, в виде отношения выходной громкости к входной громкости:
Figure 00000048
(17)
Теперь можно вычислить модификацию DRC из громкости после применения изменения масштаба AGC. Вместо сглаживания значения громкости до применения кривой DRC можно, в качестве альтернативы, применить кривую DRC к мгновенной громкости и затем впоследствии сгладить результирующую модификацию. Это аналогично технологии, описанной ранее для сглаживания усиления традиционной DRC. Дополнительно DRC можно применить в многополосном режиме, что означает, что модификация DRC является функцией конкретной громкости
Figure 00000049
в каждой полосе b, а не общей громкости
Figure 00000050
. Тем не менее, для сохранения среднего спектрального баланса исходного звукового сигнала можно применить DRC к каждой полосе из условия, чтобы результирующие модификации имели такой же средний эффект, какой был бы в результате применения DRC к общей громкости. Этого можно достигнуть, масштабируя каждую полосу отношением долгосрочной общей громкости (после применения масштабирования AGC) к долгосрочной конкретной громкости и используя это значение в качестве аргумента функции DRC. Результат затем повторно масштабируют с помощью обратной величины упомянутого отношения для получения выходной конкретной громкости. Таким образом, масштабирование DRC в каждой полосе может быть вычислено в соответствии с формулой
Figure 00000051
Модификации AGC и DRC можно затем объединить для получения общего масштабирования, приходящегося на каждую полосу:
Figure 00000052
(19)
Это общее масштабирование затем может быть сглажено по времени независимо для каждой полосы быстрой атакой и медленным возвратом и регулировкой события, примененной только к возврату. В идеальном варианте сглаживание выполняют по логарифму масштабирования по аналогии с усилениями традиционной DRC при сглаживании их представления в децибелах, хотя это несущественно. Чтобы гарантировать, что сглаженное общее масштабирование движется синхронно с конкретной громкостью в каждой полосе, режимы атаки и возврата могут быть определены одновременным сглаживанием самой конкретной громкости:
Figure 00000053
(20а)
Figure 00000054
(20b)
где
Figure 00000055
Figure 00000056
В итоге можно вычислить целевую конкретную громкость, основываясь на сглаженном изменении масштаба, который был применен к исходной конкретной громкости
Figure 00000057
(21)
и затем найти усиления
Figure 00000058
, которые при применении к исходному возбуждению приводят к конкретной громкости, равной целевой:
Figure 00000059
(22)
Усиления можно применить к каждой полосе гребенки фильтров, используемой для вычисления возбуждения, и затем измененный звуковой сигнал может быть сгенерирован инвертированием гребенки фильтров для получения измененного звукового сигнала временной области.
РЕГУЛИРОВКА ДОПОЛНИТЕЛЬНЫХ ПАРАМЕТРОВ
Хотя вышеприведенное обсуждение сфокусировано на регулировке параметров атаки и возврата AGC и DRC посредством анализа акустических сцен обрабатываемого звукового сигнала, преимуществом регулировки посредством результатов ASA могут быть другие важные параметры. Например, управляющий сигнал
Figure 00000060
события из уравнения (12) может быть использован для изменения значения параметра отношения DRC, который используется для динамической настройки усиления звукового сигнала. Параметр отношения, аналогичный параметрам времени атаки и возврата, может вносить значительный вклад в слышимые артефакты, производимые динамическими настройками усиления.
РЕАЛИЗАЦИЯ
Изобретение может быть реализовано посредством аппаратных или программных средств или их комбинации (например, программируемой логической матрицы). Если иное не установлено, алгоритмы, включенные как часть изобретения, по существу не связаны с каким-либо конкретным компьютером или другой аппаратурой. В частности, различные машины общего назначения могут быть использованы с программами, написанными в соответствии с изложенными здесь идеями, или может быть более удобным конструирование более специализированного прибора (например, интегральных схем) для выполнения требуемых этапов способа. Таким образом, изобретение может быть реализовано в одной или более компьютерных программах, исполняемых в одной или более программируемых компьютерных системах, каждая из которых содержит по меньшей мере один процессор, по меньшей мере одну систему для хранения данных (включая энергозависимую и энергонезависимую память и/или элементы хранения), по меньшей мере одно устройство ввода или порт и по меньшей мере одно устройство вывода или порт. Программный код применяют к входным данным для выполнения функций, описываемых здесь, и генерации выходной информации. Выходную информацию применяют к одному или более выходным устройствам известным способом.
Каждая такая программа может быть реализована на любом требуемом языке программирования (включая машинный язык, язык ассемблера или высокоуровневые процедурные, логические или объектно-ориентированные языки программирования) для взаимодействия с компьютерной системой. В любом случае язык может быть транслируемым или интерпретируемым языком.
Каждую такую компьютерную программу предпочтительно сохраняют или загружают на запоминающий носитель или устройство (например, твердотельную память или носитель либо магнитный или оптический носитель), считываемую программируемым компьютером общего или специального назначения для конфигурирования и работы компьютера при считывании компьютерной системой запоминающего носителя или устройства для выполнения описанных здесь процедур. Систему согласно изобретению можно также рассматривать как систему, реализуемую в виде считываемой компьютером запоминающего носителя, на котором записана компьютерная программа, причем сконфигурированная таким образом запоминающая среда предписывает компьютерной системе работать конкретным и заданным образом для выполнения описанных здесь функций.
Описано определенное количество воплощений изобретения. Тем не менее, следует понимать, что могут быть сделаны различные модификации без отклонения от сущности и объема изобретения. Например, некоторые из описанных здесь этапов могут не зависеть от порядка выполнения и, таким образом, могут быть выполнены в порядке, отличном от описанного.
Следует понимать, что реализация других вариантов и модификаций изобретения и его различных аспектов будет очевидна специалистам в данной области техники и что изобретение не ограничено этими конкретными описанными воплощениями. Следовательно, предусмотрен охват настоящим изобретением любых и всех модификаций, вариантов или эквивалентов, которые подпадают под подлинные сущность и объем раскрытых и заявленных здесь основных преимущественных принципов.
ВКЛЮЧЕНИЕ ПОСРЕДСТВОМ ССЫЛКИ
Следующие патенты, патентные заявки и публикации включены в настоящую заявку посредством ссылки во всей полноте.
ДИНАМИЧЕСКАЯ ОБРАБОТКА ЗВУКОВОГО СИГНАЛА
Audio Engineer's Reference Book, под редакцией Michael Talbot-Smith, второе издание. Limiters and Compressors, Alan Tutton, 2-1492-165. Focal Press, Reed Educational and Professional Publishing, Ltd., 1999.
ОБНАРУЖЕНИЕ И ИСПОЛЬЗОВАНИЕ АКУСТИЧЕСКИХ СОБЫТИЙ
Патентная заявка США 10/474,387, “High Quality Time-Scaling and Pitch-Scaling of Audio Signals”, Brett Graham Crockett, опубликованная 24 июня 2004 как US 2004/0122662 A1.
Патентная заявка США 10/478,398, “Method for Time Aligning Audio Signals Using Characterizations Based on Auditory Events”, Brett G. Crockett и др., опубликованная 29 июля 2004 как US 2004/0148159 A1.
Патентная заявка США 10/478,538, “Segmenting Audio Signals Into Auditory Events”, Brett G. Crockett, опубликованная 26 августа 2004 как US 2004/0165730 A1. Аспекты настоящего изобретения обеспечивают способ обнаружения акустических событий дополнительно к способам, раскрытым в упомянутой заявке Crockett.
Патентная заявка США 10/478,397, “Comparing Audio Using Characterizations Based on Auditory Events”, Brett G. Crockett и др., опубликованная 2 сентября 2004 как US 2004/0172240 A1.
Международная заявка согласно Договору о патентной кооперации PCT/US 05/24630, поданная 13 июля 2005, озаглавленная “Method for Combining Audio Signals Using Auditory Scene Analysis”, Michael John Smithers, опубликованная 9 марта 2006 как WO 2006/026161.
Международная заявка согласно Договору о патентной кооперации PCT/US2004/016964, поданная 27 мая 2004, озаглавленная “ Method, Apparatus and Computer Program for Calculating and Adjusting the Perceived Loudness of an Audio Signal ”, Alan Jeffrey Seefeldt и др., опубликованная 23 декабря 2004 как WO 2004/111994 A2.
Международная заявка согласно Договору о патентной кооперации PCT/US2005/038579, поданная 25 октября 2005, озаглавленная “Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal”, Alan Jeffrey Seefeldt, и опубликованная как Международная публикация под номером WO 2006/047600.
“A Method for Characterizing and Identifying Audio Based on Auditory Scene Analysis”, Brett Crockett и Michael Smithers, Audio Engineering Society Convention Paper 6416, 118й Съезд, Барселона, 28-31 мая 2005.
“High Quality Multichannel Time Scaling and Pitch-Shifting using Auditory Scene Analysis”, Brett Crockett, Audio Engineering Society Convention Paper 5948, Нью-Йорк, октябрь 2003.
“A New Objective Measure of Perceived Loudness”, Alan Seefeldt и др., Audio Engineering Society Convention Paper 6236, Сан-Франциско, 28 октября 2004.
Handbook for Sound Engineers, The New Audio Cyclopedia, под редакцией Glen M. Ballou, второе издание. Dynamics, 850-851. Focal Press an imprint of Butterworth-Heinemann, 1998.
Audio Engineer's Reference Book, под редакцией Michael Talbot-Smith, второе издание, раздел 2.9 (“Limiters and Compressors”, Alan Tutton), cc. 2-1492-165. Focal Press, Reed Educational and Professional Publishing, Ltd., 1999.

Claims (13)

1. Способ изменения параметра динамической обработки звукового сигнала, содержащий этапы, на которых
обнаруживают изменения спектральных характеристик со временем в звуковом сигнале,
идентифицируют, что границы акустического события изменяются сильнее, чем пороговая величина в спектральных характеристиках со временем в упомянутом звуковом сигнале, причем звуковой сегмент между последовательными границами составляет акустическое событие,
генерируют управляющий сигнал, изменяющий параметр, на основе упомянутых идентифицированных границ события и
изменяют параметр динамической обработки звукового сигнала в зависимости от управляющего сигнала.
2. Способ по п.1, в котором параметром является одно из времени атаки, времени возврата и отношения.
3. Способ по п.1, в котором изменяемым параметром является сглаживающая усиление постоянная времени.
4. Способ по п.3, в котором сглаживающей усиление постоянной времени является сглаживающая усиление постоянная времени атаки.
5. Способ по п.3, в котором сглаживающей усиление постоянной времени является сглаживающая усиление постоянная времени возврата.
6. Способ по п.1, в котором упомянутый управляющий сигнал, изменяющий параметр, основан на положении упомянутых идентифицированных границ акустического события и степени изменения спектральных характеристик, связанных с каждой из упомянутых границ акустического события.
7. Способ по п.6, в котором при генерации управляющего сигнала, изменяющего параметр:
обеспечивают импульс на каждой границе акустического события, причем каждый такой импульс имеет амплитуду, пропорциональную степени упомянутых изменений спектральных характеристик, и
сглаживают по времени каждый такой импульс, чтобы его амплитуда плавно спадала до нуля.
8. Способ по п.1, в котором изменения спектральных характеристик со временем обнаруживают, сравнивая разницы в конкретной громкости.
9. Способ по п.8, в котором упомянутый звуковой сигнал представляют дискретной временной последовательностью х[n], которая получена взятием выборок в отношении источника звукового сигнала при частоте fs дискретизации, и изменения спектральных характеристик со временем вычисляют, сравнивая разницу в конкретной громкости N[b,t] по полосам b частот между последовательными блоками t времени.
10. Способ по п.9, в котором разницу в спектральном составе между последовательными блоками времени звукового сигнала вычисляют в соответствии с
Figure 00000061

где
Figure 00000062
11. Способ по п.9, в котором разницу в спектральном составе между последовательными блоками времени звукового сигнала вычисляют в соответствии с
Figure 00000063

где
Figure 00000064
12. Аппаратура для изменения параметра динамической обработки звукового сигнала, содержащая
средство для обнаружения изменений спектральных характеристик со временем в звуковом сигнале,
средство для идентификации того, что границы акустического события изменяются сильнее, чем пороговая величина в спектральных характеристиках со временем в упомянутом звуковом сигнале, причем звуковой сегмент между последовательными границами составляет акустическое событие,
средство для генерации управляющего сигнала, изменяющего параметр, на основе упомянутых идентифицированных границ события
и
средство для изменения параметра динамической обработки звукового сигнала в зависимости от управляющего сигнала.
13. Считываемый компьютером носитель, на котором сохранена компьютерная программа для предписания компьютеру выполнять способ по п.1.
RU2008146747/09A 2006-04-27 2007-03-30 Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий RU2417514C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US79580806P 2006-04-27 2006-04-27
US60/795,808 2006-04-27

Publications (2)

Publication Number Publication Date
RU2008146747A RU2008146747A (ru) 2010-06-10
RU2417514C2 true RU2417514C2 (ru) 2011-04-27

Family

ID=38445597

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2008146747/09A RU2417514C2 (ru) 2006-04-27 2007-03-30 Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий

Country Status (22)

Country Link
US (22) US8144881B2 (ru)
EP (1) EP2011234B1 (ru)
JP (2) JP5129806B2 (ru)
KR (2) KR101041665B1 (ru)
CN (2) CN101432965B (ru)
AT (1) ATE493794T1 (ru)
AU (2) AU2007243586B2 (ru)
BR (1) BRPI0711063B1 (ru)
CA (1) CA2648237C (ru)
DE (1) DE602007011594D1 (ru)
DK (1) DK2011234T3 (ru)
ES (1) ES2359799T3 (ru)
HK (2) HK1126902A1 (ru)
IL (1) IL194430A (ru)
MX (1) MX2008013753A (ru)
MY (1) MY141426A (ru)
NO (13) NO345590B1 (ru)
PL (1) PL2011234T3 (ru)
RU (1) RU2417514C2 (ru)
TW (1) TWI455481B (ru)
UA (1) UA93243C2 (ru)
WO (1) WO2007127023A1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2628219C2 (ru) * 2012-02-24 2017-08-15 Долби Интернэшнл Аб Вещественное-в-комплексное преобразование с малой задержкой в банках фильтров с перекрытием для частично комплексной обработки

Families Citing this family (106)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
BRPI0410740A (pt) 2003-05-28 2006-06-27 Dolby Lab Licensing Corp método, aparelho e programa de computador para calcular e ajustar o volume percebido de um sinal de áudio
EP2065885B1 (en) 2004-03-01 2010-07-28 Dolby Laboratories Licensing Corporation Multichannel audio decoding
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
CN101048935B (zh) 2004-10-26 2011-03-23 杜比实验室特许公司 控制音频信号的单位响度或部分单位响度的方法和设备
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
CN101228575B (zh) 2005-06-03 2012-09-26 杜比实验室特许公司 利用侧向信息的声道重新配置
CN101410892B (zh) 2006-04-04 2012-08-08 杜比实验室特许公司 改进的离散余弦变换域中的音频信号响度测量及修改
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
RU2417514C2 (ru) 2006-04-27 2011-04-27 Долби Лэборетериз Лайсенсинг Корпорейшн Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий
JP4940308B2 (ja) 2006-10-20 2012-05-30 ドルビー ラボラトリーズ ライセンシング コーポレイション リセットを用いるオーディオダイナミクス処理
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
ATE493731T1 (de) 2007-06-08 2011-01-15 Dolby Lab Licensing Corp Hybridableitung von surround-sound-audiokanälen durch steuerbares kombinieren von umgebungs- und matrixdekodierten signalkomponenten
EP2168122B1 (en) 2007-07-13 2011-11-30 Dolby Laboratories Licensing Corporation Audio processing using auditory scene analysis and spectral skewness
WO2009086174A1 (en) 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals
US9275652B2 (en) * 2008-03-10 2016-03-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for manipulating an audio signal having a transient event
CA2720636C (en) * 2008-04-18 2014-02-18 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
US9253560B2 (en) * 2008-09-16 2016-02-02 Personics Holdings, Llc Sound library and method
WO2010033387A2 (en) 2008-09-19 2010-03-25 Dolby Laboratories Licensing Corporation Upstream signal processing for client devices in a small-cell wireless network
EP2329492A1 (en) 2008-09-19 2011-06-08 Dolby Laboratories Licensing Corporation Upstream quality enhancement signal processing for resource constrained client devices
CN102257728B (zh) * 2008-10-17 2014-11-26 夏普株式会社 音频信号调节设备及音频信号调节方法
EP2362996B1 (en) * 2008-11-14 2012-10-24 THAT Corporation Dynamic volume control and multi-spatial processing protection
WO2010075377A1 (en) 2008-12-24 2010-07-01 Dolby Laboratories Licensing Corporation Audio signal loudness determination and modification in the frequency domain
EP2401872A4 (en) * 2009-02-25 2012-05-23 Conexant Systems Inc SYSTEM AND METHOD FOR REDUCING SPEAKER DISTORTION
US8422699B2 (en) * 2009-04-17 2013-04-16 Linear Acoustic, Inc. Loudness consistency at program boundaries
US8938313B2 (en) 2009-04-30 2015-01-20 Dolby Laboratories Licensing Corporation Low complexity auditory event boundary detection
WO2010127024A1 (en) 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Controlling the loudness of an audio signal in response to spectral localization
TWI503816B (zh) 2009-05-06 2015-10-11 Dolby Lab Licensing Corp 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
US8249275B1 (en) * 2009-06-26 2012-08-21 Cirrus Logic, Inc. Modulated gain audio control and zipper noise suppression techniques using modulated gain
US8554348B2 (en) * 2009-07-20 2013-10-08 Apple Inc. Transient detection using a digital audio workstation
WO2011015237A1 (en) * 2009-08-04 2011-02-10 Nokia Corporation Method and apparatus for audio signal classification
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
CN102577113A (zh) * 2009-10-07 2012-07-11 日本电气株式会社 多带域压缩器及其调节方法
EP2367286B1 (en) * 2010-03-12 2013-02-20 Harman Becker Automotive Systems GmbH Automatic correction of loudness level in audio signals
US9172956B2 (en) 2010-11-23 2015-10-27 Lg Electronics Inc. Encoding and decoding images using inter-prediction
US8855322B2 (en) * 2011-01-12 2014-10-07 Qualcomm Incorporated Loudness maximization with constrained loudspeaker excursion
JP5707219B2 (ja) * 2011-05-13 2015-04-22 富士通テン株式会社 音響制御装置
US9232321B2 (en) * 2011-05-26 2016-01-05 Advanced Bionics Ag Systems and methods for improving representation by an auditory prosthesis system of audio signals having intermediate sound levels
DE102011085036A1 (de) * 2011-10-21 2013-04-25 Siemens Medical Instruments Pte. Ltd. Verfahren zum Ermitteln einer Kompressionskennlinie
WO2013154868A1 (en) 2012-04-12 2013-10-17 Dolby Laboratories Licensing Corporation System and method for leveling loudness variation in an audio signal
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
JP5527827B2 (ja) * 2012-04-17 2014-06-25 Necエンジニアリング株式会社 ラウドネス調整装置、ラウドネス調整方法、及びプログラム
US9685921B2 (en) 2012-07-12 2017-06-20 Dts, Inc. Loudness control with noise detection and loudness drop detection
US20140025230A1 (en) 2012-07-17 2014-01-23 Elwha LLC, a limited liability company of the State of Delaware Unmanned device interaction methods and systems
US20140025233A1 (en) 2012-07-17 2014-01-23 Elwha Llc Unmanned device utilization methods and systems
US9991861B2 (en) * 2012-08-10 2018-06-05 Bellevue Investments Gmbh & Co. Kgaa System and method for controlled dynamics adaptation for musical content
WO2014046941A1 (en) * 2012-09-19 2014-03-27 Dolby Laboratories Licensing Corporation Method and system for object-dependent adjustment of levels of audio objects
KR102473260B1 (ko) * 2013-01-21 2022-12-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화
WO2014151813A1 (en) 2013-03-15 2014-09-25 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN104079247B (zh) 2013-03-26 2018-02-09 杜比实验室特许公司 均衡器控制器和控制方法以及音频再现设备
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
JP6216553B2 (ja) * 2013-06-27 2017-10-18 クラリオン株式会社 伝搬遅延補正装置及び伝搬遅延補正方法
CN105531759B (zh) * 2013-09-12 2019-11-26 杜比实验室特许公司 用于下混合音频内容的响度调整
US10095468B2 (en) * 2013-09-12 2018-10-09 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
US9608588B2 (en) * 2014-01-22 2017-03-28 Apple Inc. Dynamic range control with large look-ahead
US10063207B2 (en) 2014-02-27 2018-08-28 Dts, Inc. Object-based audio loudness management
JP6224850B2 (ja) 2014-02-28 2017-11-01 ドルビー ラボラトリーズ ライセンシング コーポレイション 会議における変化盲を使った知覚的連続性
CN105142067B (zh) 2014-05-26 2020-01-07 杜比实验室特许公司 音频信号响度控制
US10013992B2 (en) 2014-07-11 2018-07-03 Arizona Board Of Regents On Behalf Of Arizona State University Fast computation of excitation pattern, auditory pattern and loudness
WO2016011288A1 (en) 2014-07-16 2016-01-21 Eariq, Inc. System and method for calibration and reproduction of audio signals based on auditory feedback
CN113257275A (zh) 2014-10-01 2021-08-13 杜比国际公司 高效drc配置文件传输
WO2016057530A1 (en) 2014-10-10 2016-04-14 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
JP6228100B2 (ja) * 2014-11-17 2017-11-08 Necプラットフォームズ株式会社 ラウドネス調整装置、ラウドネス調整方法及びラウドネス調整用プログラム
US20160171987A1 (en) * 2014-12-16 2016-06-16 Psyx Research, Inc. System and method for compressed audio enhancement
EP3275208B1 (en) * 2015-03-25 2019-12-25 Dolby Laboratories Licensing Corporation Sub-band mixing of multiple microphones
EP3286757B1 (en) * 2015-04-24 2019-10-23 Cyber Resonance Corporation Methods and systems for performing signal analysis to identify content types
US10109288B2 (en) * 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
GB2539875B (en) 2015-06-22 2017-09-20 Time Machine Capital Ltd Music Context System, Audio Track Structure and method of Real-Time Synchronization of Musical Content
US9837086B2 (en) * 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
MX2018001819A (es) 2015-08-28 2018-05-17 Procter & Gamble Catalizadores para la deshidratacion de acido hidroxipropionico y sus derivados.
US9590580B1 (en) 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
US10341770B2 (en) * 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC
CN105404654A (zh) * 2015-10-30 2016-03-16 魅族科技(中国)有限公司 一种音频文件播放方法及装置
WO2017079334A1 (en) 2015-11-03 2017-05-11 Dolby Laboratories Licensing Corporation Content-adaptive surround sound virtualization
US9756281B2 (en) 2016-02-05 2017-09-05 Gopro, Inc. Apparatus and method for audio based video synchronization
WO2017142916A1 (en) * 2016-02-19 2017-08-24 Dolby Laboratories Licensing Corporation Diffusivity based sound processing method and apparatus
US10923132B2 (en) 2016-02-19 2021-02-16 Dolby Laboratories Licensing Corporation Diffusivity based sound processing method and apparatus
CN105845151B (zh) * 2016-05-30 2019-05-31 百度在线网络技术(北京)有限公司 应用于语音识别前端的音频增益调整方法和装置
US10657983B2 (en) * 2016-06-15 2020-05-19 Intel Corporation Automatic gain control for speech recognition
US9697849B1 (en) 2016-07-25 2017-07-04 Gopro, Inc. Systems and methods for audio based synchronization using energy vectors
US9640159B1 (en) * 2016-08-25 2017-05-02 Gopro, Inc. Systems and methods for audio based synchronization using sound harmonics
US9653095B1 (en) 2016-08-30 2017-05-16 Gopro, Inc. Systems and methods for determining a repeatogram in a music composition using audio features
GB201615538D0 (en) * 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
US9916822B1 (en) 2016-10-07 2018-03-13 Gopro, Inc. Systems and methods for audio remixing using repeated segments
TWI590239B (zh) * 2016-12-09 2017-07-01 宏碁股份有限公司 語音信號處理裝置及語音信號處理方法
CN108281148B (zh) * 2016-12-30 2020-12-22 宏碁股份有限公司 语音信号处理装置及语音信号处理方法
US10374564B2 (en) 2017-04-20 2019-08-06 Dts, Inc. Loudness control with noise detection and loudness drop detection
US10491179B2 (en) 2017-09-25 2019-11-26 Nuvoton Technology Corporation Asymmetric multi-channel audio dynamic range processing
CN111183476B (zh) * 2017-10-06 2024-03-22 索尼欧洲有限公司 基于子窗口序列内的rms功率的音频文件包络
US11011180B2 (en) * 2018-06-29 2021-05-18 Guoguang Electric Company Limited Audio signal dynamic range compression
EP3827429A4 (en) 2018-07-25 2022-04-20 Dolby Laboratories Licensing Corporation COMPRESSOR TARGET CURVE TO AVOID AMPLIFICATION NOISE
JP7397066B2 (ja) * 2018-09-07 2023-12-12 グレースノート インコーポレイテッド オーディオ分類を介した動的な音量調整のための方法、コンピュータ可読記憶媒体及び装置
US11775250B2 (en) 2018-09-07 2023-10-03 Gracenote, Inc. Methods and apparatus for dynamic volume adjustment via audio classification
JP7031543B2 (ja) * 2018-09-21 2022-03-08 株式会社Jvcケンウッド 処理装置、処理方法、再生方法、及びプログラム
WO2020069120A1 (en) * 2018-09-28 2020-04-02 Dolby Laboratories Licensing Corporation Distortion reducing multi-band compressor with dynamic thresholds based on scene switch analyzer guided distortion audibility model
EP3871217A4 (en) * 2018-10-24 2022-08-17 Gracenote, Inc. METHODS AND APPARATUS FOR ADJUSTING AUDIO PLAYBACK SETTINGS BASED ON ANALYSIS OF AUDIO CHARACTERISTICS
US11347470B2 (en) 2018-11-16 2022-05-31 Roku, Inc. Detection of media playback loudness level and corresponding adjustment to audio during media replacement event
CN109889170B (zh) * 2019-02-25 2021-06-04 珠海格力电器股份有限公司 音频信号的控制方法和装置
JP7275711B2 (ja) * 2019-03-20 2023-05-18 ヤマハ株式会社 オーディオ信号の処理方法
US11133787B2 (en) * 2019-06-25 2021-09-28 The Nielsen Company (Us), Llc Methods and apparatus to determine automated gain control parameters for an automated gain control protocol
US11019301B2 (en) 2019-06-25 2021-05-25 The Nielsen Company (Us), Llc Methods and apparatus to perform an automated gain control protocol with an amplifier based on historical data corresponding to contextual data
WO2021183916A1 (en) * 2020-03-13 2021-09-16 Immersion Networks, Inc. Loudness equalization system
EP3961624A1 (de) * 2020-08-28 2022-03-02 Sivantos Pte. Ltd. Verfahren zum betrieb einer hörvorrichtung in abhängigkeit eines sprachsignals

Family Cites Families (168)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2808475A (en) 1954-10-05 1957-10-01 Bell Telephone Labor Inc Loudness indicator
DE1736966U (de) 1956-09-28 1956-12-27 Heinz Schulze Luftschraube fuer spiel- und modell-flugzeuge.
SU720691A1 (ru) 1978-04-27 1980-03-05 Предприятие П/Я Р-6609 Устройство дл автоматического регулировани усилени
US4281218A (en) 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
US4624009A (en) 1980-05-02 1986-11-18 Figgie International, Inc. Signal pattern encoder and classifier
DE3314570A1 (de) 1983-04-22 1984-10-25 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zur einstellung der verstaerkung
US4739514A (en) 1986-12-22 1988-04-19 Bose Corporation Automatic dynamic equalizing
US4887299A (en) 1987-11-12 1989-12-12 Nicolet Instrument Corporation Adaptive, programmable signal processing hearing aid
US4882762A (en) * 1988-02-23 1989-11-21 Resound Corporation Multi-band programmable compression system
KR940003351B1 (ko) 1988-03-31 1994-04-20 주식회사 금성사 조도에 따른 자동이득 제어증폭기 이득 제어회로
US4953112A (en) 1988-05-10 1990-08-28 Minnesota Mining And Manufacturing Company Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model
US5027410A (en) 1988-11-10 1991-06-25 Wisconsin Alumni Research Foundation Adaptive, programmable signal processing and filtering for hearing aids
JPH02118322U (ru) 1989-03-08 1990-09-21
US5097510A (en) 1989-11-07 1992-03-17 Gs Systems, Inc. Artificial intelligence pattern-recognition-based noise reduction system for speech processing
US5369711A (en) 1990-08-31 1994-11-29 Bellsouth Corporation Automatic gain control for a headset
ATE138238T1 (de) 1991-01-08 1996-06-15 Dolby Lab Licensing Corp Kodierer/dekodierer für mehrdimensionale schallfelder
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
EP0517233B1 (en) 1991-06-06 1996-10-30 Matsushita Electric Industrial Co., Ltd. Music/voice discriminating apparatus
US5278912A (en) 1991-06-28 1994-01-11 Resound Corporation Multiband programmable compression system
US5175769A (en) 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
KR940003351Y1 (ko) 1991-10-17 1994-05-23 삼성전관 주식회사 편광판 부착장치
US5363147A (en) 1992-06-01 1994-11-08 North American Philips Corporation Automatic volume leveler
KR940003351A (ko) 1992-07-15 1994-02-21 강진구 온 스크린 그래픽 표시 제어 장치 및 방법
GB2272615A (en) 1992-11-17 1994-05-18 Rudolf Bisping Controlling signal-to-noise ratio in noisy recordings
DE4335739A1 (de) 1992-11-17 1994-05-19 Rudolf Prof Dr Bisping Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen
US5457769A (en) 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
US5706352A (en) 1993-04-07 1998-01-06 K/S Himpp Adaptive gain and filtering circuit for a sound reproduction system
US5434922A (en) 1993-04-08 1995-07-18 Miller; Thomas E. Method and apparatus for dynamic sound optimization
BE1007355A3 (nl) 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
IN184794B (ru) 1993-09-14 2000-09-30 British Telecomm
JP2986345B2 (ja) 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
TW247390B (en) 1994-04-29 1995-05-11 Audio Products Int Corp Apparatus and method for adjusting levels between channels of a sound system
US5463695A (en) * 1994-06-20 1995-10-31 Aphex Systems, Ltd. Peak accelerated compressor
US5500902A (en) 1994-07-08 1996-03-19 Stockham, Jr.; Thomas G. Hearing aid device incorporating signal processing techniques
GB9419388D0 (en) 1994-09-26 1994-11-09 Canon Kk Speech analysis
US5548538A (en) 1994-12-07 1996-08-20 Wiltron Company Internal automatic calibrator for vector network analyzers
US5682463A (en) 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
CA2167748A1 (en) 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
DE59510501D1 (de) 1995-03-13 2003-01-23 Phonak Ag Staefa Verfahren zur Anpassung eines Hörgerätes, Vorrichtung hierzu und Hörgerät
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US6041295A (en) 1995-04-10 2000-03-21 Corporate Computer Systems Comparing CODEC input/output to adjust psycho-acoustic parameters
US6301555B2 (en) 1995-04-10 2001-10-09 Corporate Computer Systems Adjustable psycho-acoustic parameters
US5601617A (en) 1995-04-26 1997-02-11 Advanced Bionics Corporation Multichannel cochlear prosthesis with flexible control of stimulus waveforms
JPH08328599A (ja) 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpegオーディオ復号器
US5663727A (en) 1995-06-23 1997-09-02 Hearing Innovations Incorporated Frequency response analyzer and shaping apparatus and digital hearing enhancement apparatus and method utilizing the same
US5712954A (en) 1995-08-23 1998-01-27 Rockwell International Corp. System and method for monitoring audio power level of agent speech in a telephonic switch
US6002776A (en) 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5907622A (en) 1995-09-21 1999-05-25 Dougherty; A. Michael Automatic noise compensation system for audio reproduction equipment
WO1997027578A1 (en) * 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
US6327366B1 (en) 1996-05-01 2001-12-04 Phonak Ag Method for the adjustment of a hearing device, apparatus to do it and a hearing device
US6108431A (en) 1996-05-01 2000-08-22 Phonak Ag Loudness limiter
US6430533B1 (en) 1996-05-03 2002-08-06 Lsi Logic Corporation Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation
JPH09312540A (ja) 1996-05-23 1997-12-02 Pioneer Electron Corp ラウドネスボリュームコントロール装置
JP3765622B2 (ja) 1996-07-09 2006-04-12 ユナイテッド・モジュール・コーポレーション オーディオ符号化復号化システム
DK0820212T3 (da) 1996-07-19 2010-08-02 Bernafon Ag Lydstyrkestyret bearbejdning af akustiske signaler
JPH1074097A (ja) 1996-07-26 1998-03-17 Ind Technol Res Inst オーディオ信号のパラメータを変更する方法及び装置
JP2953397B2 (ja) 1996-09-13 1999-09-27 日本電気株式会社 ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器
US6049766A (en) 1996-11-07 2000-04-11 Creative Technology Ltd. Time-domain time/pitch scaling of speech or audio signals with transient handling
JP2991982B2 (ja) 1996-11-29 1999-12-20 日本イーライリリー株式会社 注射練習器具
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US5862228A (en) 1997-02-21 1999-01-19 Dolby Laboratories Licensing Corporation Audio matrix encoding
US6125343A (en) 1997-05-29 2000-09-26 3Com Corporation System and method for selecting a loudest speaker by comparing average frame gains
US6272360B1 (en) 1997-07-03 2001-08-07 Pan Communications, Inc. Remotely installed transmitter and a hands-free two-way voice terminal device using same
US6185309B1 (en) 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
KR100261904B1 (ko) 1997-08-29 2000-07-15 윤종용 헤드폰 사운드 출력장치
US6088461A (en) 1997-09-26 2000-07-11 Crystal Semiconductor Corporation Dynamic volume control system
US6330672B1 (en) 1997-12-03 2001-12-11 At&T Corp. Method and apparatus for watermarking digital bitstreams
US6233554B1 (en) 1997-12-12 2001-05-15 Qualcomm Incorporated Audio CODEC with AGC controlled by a VOCODER
US6298139B1 (en) 1997-12-31 2001-10-02 Transcrypt International, Inc. Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control
US6182033B1 (en) 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US6353671B1 (en) 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
US6311155B1 (en) 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US6498855B1 (en) 1998-04-17 2002-12-24 International Business Machines Corporation Method and system for selectively and variably attenuating audio data
DE69910780T3 (de) 1998-06-08 2012-06-06 Cochlear Ltd. Hörhilfevorrichtung
EP0980064A1 (de) 1998-06-26 2000-02-16 Ascom AG Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen
GB2340351B (en) 1998-07-29 2004-06-09 British Broadcasting Corp Data transmission
US6351731B1 (en) 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6823303B1 (en) 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6411927B1 (en) 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
FI113935B (fi) 1998-09-25 2004-06-30 Nokia Corp Menetelmä äänitason kalibroimiseksi monikanavaisessa äänentoistojärjestelmässä ja monikanavainen äänentoistojärjestelmä
US6266644B1 (en) 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
DE19848491A1 (de) 1998-10-21 2000-04-27 Bosch Gmbh Robert Rundfunkempfänger zum Empfang von Radio-Daten und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals in einem Rundfunkempfänger
US6314396B1 (en) 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
GB9824776D0 (en) 1998-11-11 1999-01-06 Kemp Michael J Audio dynamic control effects synthesiser
AU761865B2 (en) 1999-02-05 2003-06-12 Hearworks Pty Ltd Adaptive dynamic range optimisation sound processor
DE69933929T2 (de) 1999-04-09 2007-06-06 Texas Instruments Inc., Dallas Bereitstellen von digitalen Audio- und Videoprodukten
AU4278300A (en) 1999-04-26 2000-11-10 Dspfactory Ltd. Loudness normalization control for a digital hearing aid
US6263371B1 (en) 1999-06-10 2001-07-17 Cacheflow, Inc. Method and apparatus for seaming of streaming content
US6442278B1 (en) 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US6985594B1 (en) 1999-06-15 2006-01-10 Hearing Enhancement Co., Llc. Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment
US7212640B2 (en) 1999-11-29 2007-05-01 Bizjak Karl M Variable attack and release system and method
FR2802329B1 (fr) 1999-12-08 2003-03-28 France Telecom Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
DE10018666A1 (de) 2000-04-14 2001-10-18 Harman Audio Electronic Sys Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals
US6651040B1 (en) 2000-05-31 2003-11-18 International Business Machines Corporation Method for dynamic adjustment of audio input gain in a speech system
US6889186B1 (en) 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
CN100431355C (zh) 2000-08-16 2008-11-05 多尔拜实验特许公司 响应补充信息修改音频或视频感知编码系统的一个或多个参数
AUPQ952700A0 (en) 2000-08-21 2000-09-14 University Of Melbourne, The Sound-processing strategy for cochlear implants
JP3448586B2 (ja) 2000-08-29 2003-09-22 独立行政法人産業技術総合研究所 聴覚障害を考慮した音の測定方法およびシステム
US20040013272A1 (en) * 2001-09-07 2004-01-22 Reams Robert W System and method for processing audio data
US6625433B1 (en) 2000-09-29 2003-09-23 Agere Systems Inc. Constant compression automatic gain control circuit
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
US6807525B1 (en) 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
DE60029453T2 (de) 2000-11-09 2007-04-12 Koninklijke Kpn N.V. Messen der Übertragungsqualität einer Telefonverbindung in einem Fernmeldenetz
US7457422B2 (en) 2000-11-29 2008-11-25 Ford Global Technologies, Llc Method and implementation for detecting and characterizing audible transients in noise
WO2002056558A2 (en) 2001-01-10 2002-07-18 Univ Columbia Active filter circuit with dynamically modifiable internal gain
FR2820573B1 (fr) 2001-02-02 2003-03-28 France Telecom Methode et dispositif de traitement d'une pluralite de flux binaires audio
WO2004019656A2 (en) 2001-02-07 2004-03-04 Dolby Laboratories Licensing Corporation Audio channel spatial translation
EP1233509A1 (en) * 2001-02-14 2002-08-21 Thomson Licensing S.A. Digital audio processor
DE10107385A1 (de) 2001-02-16 2002-09-05 Harman Audio Electronic Sys Vorrichtung zum geräuschabhängigen Einstellen der Lautstärken
US6915264B2 (en) 2001-02-22 2005-07-05 Lucent Technologies Inc. Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding
EP1290914B1 (de) 2001-04-10 2004-05-26 Phonak Ag Verfahren zur anpassung eines hörgerätes an ein individuum
WO2002084645A2 (en) 2001-04-13 2002-10-24 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
WO2002097790A1 (en) * 2001-05-25 2002-12-05 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
EP1251715B2 (en) 2001-04-18 2010-12-01 Sound Design Technologies Ltd. Multi-channel hearing instrument with inter-channel communication
US20020173864A1 (en) * 2001-05-17 2002-11-21 Crystal Voice Communications, Inc Automatic volume control for voice over internet
MXPA03010751A (es) * 2001-05-25 2005-03-07 Dolby Lab Licensing Corp Segmentacion de senales de audio en eventos auditivos.
US7177803B2 (en) 2001-10-22 2007-02-13 Motorola, Inc. Method and apparatus for enhancing loudness of an audio signal
US20040037421A1 (en) 2001-12-17 2004-02-26 Truman Michael Mead Parital encryption of assembled bitstreams
US7068723B2 (en) 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
JP4714416B2 (ja) 2002-04-22 2011-06-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 空間的オーディオのパラメータ表示
US7155385B2 (en) 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
US20030223597A1 (en) 2002-05-29 2003-12-04 Sunil Puria Adapative noise compensation for dynamic signal enhancement
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
JP4257079B2 (ja) 2002-07-19 2009-04-22 パイオニア株式会社 周波数特性調整装置および周波数特性調整方法
DE10236694A1 (de) 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7454331B2 (en) 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
ATE447755T1 (de) 2003-02-06 2009-11-15 Dolby Lab Licensing Corp Kontinuierliche audiodatensicherung
DE10308483A1 (de) 2003-02-26 2004-09-09 Siemens Audiologische Technik Gmbh Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät
US7551745B2 (en) 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
JP2004356894A (ja) 2003-05-28 2004-12-16 Mitsubishi Electric Corp 音質調整装置
BRPI0410740A (pt) 2003-05-28 2006-06-27 Dolby Lab Licensing Corp método, aparelho e programa de computador para calcular e ajustar o volume percebido de um sinal de áudio
JP4226395B2 (ja) 2003-06-16 2009-02-18 アルパイン株式会社 音声補正装置
US8918316B2 (en) 2003-07-29 2014-12-23 Alcatel Lucent Content identification system
WO2005069679A2 (en) 2004-01-13 2005-07-28 Koninklijke Philips Electronics N.V. Audio signal enhancement
EP2065885B1 (en) 2004-03-01 2010-07-28 Dolby Laboratories Licensing Corporation Multichannel audio decoding
GB2413906A (en) 2004-04-21 2005-11-09 Imagination Tech Ltd Radio volume control system
US7574010B2 (en) 2004-05-28 2009-08-11 Research In Motion Limited System and method for adjusting an audio signal
EP1601171B1 (en) 2004-05-28 2008-04-30 Research In Motion Limited System And Method For Adjusting An Audio Signal
JP4168976B2 (ja) 2004-05-28 2008-10-22 ソニー株式会社 オーディオ信号符号化装置及び方法
US20080095385A1 (en) * 2004-06-30 2008-04-24 Koninklijke Philips Electronics, N.V. Method of and System for Automatically Adjusting the Loudness of an Audio Signal
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7508947B2 (en) * 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
CN101048935B (zh) 2004-10-26 2011-03-23 杜比实验室特许公司 控制音频信号的单位响度或部分单位响度的方法和设备
WO2006058361A1 (en) 2004-12-04 2006-06-08 Dynamic Hearing Pty Ltd Method and apparatus for adaptive sound processing parameters
US20060126865A1 (en) 2004-12-13 2006-06-15 Blamey Peter J Method and apparatus for adaptive sound processing parameters
US8265295B2 (en) 2005-03-11 2012-09-11 Rane Corporation Method and apparatus for identifying feedback in a circuit
TWI397903B (zh) 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
TW200638335A (en) 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
TWI396188B (zh) 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
BRPI0709877B1 (pt) 2006-04-04 2019-12-31 Dolby Laboratories Licensing Corp método e aparelho para controlar uma característica de intensidade acústica particular de um sinal de áudio
CN101410892B (zh) 2006-04-04 2012-08-08 杜比实验室特许公司 改进的离散余弦变换域中的音频信号响度测量及修改
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
RU2417514C2 (ru) * 2006-04-27 2011-04-27 Долби Лэборетериз Лайсенсинг Корпорейшн Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий
US8750538B2 (en) 2006-05-05 2014-06-10 Creative Technology Ltd Method for enhancing audio signals
JP4940308B2 (ja) 2006-10-20 2012-05-30 ドルビー ラボラトリーズ ライセンシング コーポレイション リセットを用いるオーディオダイナミクス処理
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
KR101106031B1 (ko) 2007-01-03 2012-01-17 돌비 레버러토리즈 라이쎈싱 코오포레이션 하이브리드 디지털/아날로그 음향 세기―보상 볼륨 제어 장치 및 그 제어 방법
EP2137867B1 (en) 2007-03-15 2014-10-15 InterDigital Technology Corporation Method and apparatus for reordering data in an evolved high speed packet access system
KR101163411B1 (ko) 2007-03-19 2012-07-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 지각 모델을 사용한 스피치 개선
US8213624B2 (en) 2007-06-19 2012-07-03 Dolby Laboratories Licensing Corporation Loudness measurement with spectral modifications
US8054948B1 (en) 2007-06-28 2011-11-08 Sprint Communications Company L.P. Audio experience for a communications device user
WO2009086174A1 (en) 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals
JP4823352B2 (ja) 2009-12-24 2011-11-24 株式会社東芝 情報処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2628219C2 (ru) * 2012-02-24 2017-08-15 Долби Интернэшнл Аб Вещественное-в-комплексное преобразование с малой задержкой в банках фильтров с перекрытием для частично комплексной обработки

Also Published As

Publication number Publication date
NO339346B1 (no) 2016-11-28
NO344362B1 (no) 2019-11-18
NO20180272A1 (no) 2008-11-17
NO20084336L (no) 2008-11-17
US20220394380A1 (en) 2022-12-08
US9866191B2 (en) 2018-01-09
US20170179903A1 (en) 2017-06-22
CN101432965B (zh) 2012-07-04
US10284159B2 (en) 2019-05-07
MY141426A (en) 2010-04-30
US20120321096A1 (en) 2012-12-20
NO20190024A1 (no) 2008-11-17
NO20161439A1 (no) 2008-11-17
CN102684628A (zh) 2012-09-19
JP5129806B2 (ja) 2013-01-30
NO20161296A1 (no) 2008-11-17
US20230318555A1 (en) 2023-10-05
US9685924B2 (en) 2017-06-20
US9742372B2 (en) 2017-08-22
UA93243C2 (ru) 2011-01-25
US8428270B2 (en) 2013-04-23
NO342160B1 (no) 2018-04-09
KR101200615B1 (ko) 2012-11-12
JP2011151811A (ja) 2011-08-04
US11962279B2 (en) 2024-04-16
TW200803161A (en) 2008-01-01
PL2011234T3 (pl) 2011-05-31
US8144881B2 (en) 2012-03-27
US20170179900A1 (en) 2017-06-22
US20130243222A1 (en) 2013-09-19
NO344363B1 (no) 2019-11-18
ATE493794T1 (de) 2011-01-15
US20210126606A1 (en) 2021-04-29
US9768749B2 (en) 2017-09-19
NO20161295A1 (no) 2008-11-17
EP2011234A1 (en) 2009-01-07
ES2359799T3 (es) 2011-05-27
JP2009535897A (ja) 2009-10-01
US20170179904A1 (en) 2017-06-22
JP5255663B2 (ja) 2013-08-07
NO342164B1 (no) 2018-04-09
US20170179905A1 (en) 2017-06-22
HK1176177A1 (en) 2013-07-19
US20170179902A1 (en) 2017-06-22
AU2007243586B2 (en) 2010-12-23
DE602007011594D1 (de) 2011-02-10
HK1126902A1 (en) 2009-09-11
CN101432965A (zh) 2009-05-13
NO20180271A1 (no) 2008-11-17
TWI455481B (zh) 2014-10-01
DK2011234T3 (da) 2011-03-14
AU2011201348B2 (en) 2013-04-18
US20170179908A1 (en) 2017-06-22
US9787269B2 (en) 2017-10-10
KR20090005225A (ko) 2009-01-12
NO344655B1 (no) 2020-02-24
NO345590B1 (no) 2021-05-03
US20170179907A1 (en) 2017-06-22
US20120155659A1 (en) 2012-06-21
CN102684628B (zh) 2014-11-26
KR20110022058A (ko) 2011-03-04
NO20190022A1 (no) 2008-11-17
US20170179906A1 (en) 2017-06-22
AU2007243586A1 (en) 2007-11-08
CA2648237C (en) 2013-02-05
NO344658B1 (no) 2020-03-02
IL194430A0 (en) 2009-08-03
NO20191310A1 (no) 2008-11-17
US20190222186A1 (en) 2019-07-18
NO342157B1 (no) 2018-04-09
US9774309B2 (en) 2017-09-26
EP2011234B1 (en) 2010-12-29
NO20180266A1 (no) 2008-11-17
US9762196B2 (en) 2017-09-12
WO2007127023A1 (en) 2007-11-08
US20160359465A1 (en) 2016-12-08
US20170179909A1 (en) 2017-06-22
US20190013786A1 (en) 2019-01-10
US20090220109A1 (en) 2009-09-03
NO344013B1 (no) 2019-08-12
US9450551B2 (en) 2016-09-20
NO20190025A1 (no) 2008-11-17
US11711060B2 (en) 2023-07-25
US20180069517A1 (en) 2018-03-08
US9698744B1 (en) 2017-07-04
US10103700B2 (en) 2018-10-16
US9768750B2 (en) 2017-09-19
US10523169B2 (en) 2019-12-31
KR101041665B1 (ko) 2011-06-15
US9780751B2 (en) 2017-10-03
US20170179901A1 (en) 2017-06-22
NO20190018A1 (no) 2008-11-17
RU2008146747A (ru) 2010-06-10
BRPI0711063B1 (pt) 2023-09-26
US20200144979A1 (en) 2020-05-07
MX2008013753A (es) 2009-03-06
US9136810B2 (en) 2015-09-15
AU2011201348A1 (en) 2011-04-14
IL194430A (en) 2013-05-30
BRPI0711063A2 (pt) 2011-08-23
CA2648237A1 (en) 2007-11-08
US9787268B2 (en) 2017-10-10
NO20190002A1 (no) 2008-11-17
US11362631B2 (en) 2022-06-14
NO344361B1 (no) 2019-11-18
NO344364B1 (no) 2019-11-18
US10833644B2 (en) 2020-11-10
NO343877B1 (no) 2019-06-24

Similar Documents

Publication Publication Date Title
RU2417514C2 (ru) Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20210331