RU2417514C2 - Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий - Google Patents
Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий Download PDFInfo
- Publication number
- RU2417514C2 RU2417514C2 RU2008146747/09A RU2008146747A RU2417514C2 RU 2417514 C2 RU2417514 C2 RU 2417514C2 RU 2008146747/09 A RU2008146747/09 A RU 2008146747/09A RU 2008146747 A RU2008146747 A RU 2008146747A RU 2417514 C2 RU2417514 C2 RU 2417514C2
- Authority
- RU
- Russia
- Prior art keywords
- time
- signal
- audio signal
- event
- acoustic
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers without distortion of the input signal
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3005—Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers without distortion of the input signal
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3089—Control of digital or coded signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers without distortion of the input signal
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G1/00—Details of arrangements for controlling amplification
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G7/00—Volume compression or expansion in amplifiers
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G7/00—Volume compression or expansion in amplifiers
- H03G7/007—Volume compression or expansion in amplifiers of digital or coded signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/005—Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/03—Synergistic effects of band splitting and sub-band processing
Abstract
Изобретение относится к регулировке динамического диапазона звука. Техническим результатом является регулировка ключевых параметров динамической обработки звукового сигнала с использованием результатов анализа акустических сцен. Результат достигается тем, что в одном раскрытом аспекте изменения динамического усиления применяют к звуковому сигналу, по меньшей мере, частично в ответ на акустические события и/или степень изменения характеристик сигнала, связанных с границами акустического события. В другом аспекте звуковой сигнал делят на акустические события, сравнивая разницу между конкретными громкостями между последовательными блоками времени звукового сигнала. 3 н. и 10 з.п. ф-лы, 11 ил.
Description
Область техники, к которой относится изобретение
Изобретение относится к способам регулировки динамического диапазона звука и аппаратуре, в которой устройство обработки звука анализирует звуковой сигнал и изменяет уровень, коэффициент усиления или динамический диапазон звука, и все или некоторые параметры усиления звука и динамической обработки генерируются в виде функции акустических событий. Изобретение также относится к компьютерным программам для осуществления на практике таких способов или управления такой аппаратурой.
Настоящее изобретение также относится к способам и аппаратуре, использующим основанное на конкретной громкости обнаружение акустических событий. Изобретение также относится к компьютерным программам для осуществления на практике таких способов или управления такой аппаратурой.
ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ ИЗОБРЕТЕНИЯ
Динамическая обработка звука
Технологии автоматической регулировки усиления (AGC) и регулировки динамического диапазона (DRC) хорошо известны и являются обычным элементом многих путей звукового сигнала. В абстрактном смысле обе технологии неким образом измеряют уровень звукового сигнала и затем изменяют коэффициент усиления сигнала на величину, которая является функцией измеренного уровня. В линейной динамической системе со степенью компрессии (сжатия) 1:1 входной сигнал не обрабатывается, и выходной сигнал идеально совпадает с входным звуковым сигналом. Дополнительно, если имеет место динамическая система обработки звука, которая автоматически измеряет характеристики входного сигнала и использует это измерение для регулировки выходного сигнала, если уровень входного сигнала увеличивается на 6 дБ, а выходной сигнал обрабатывается таким образом, что его уровень увеличивается только на 3 дБ, степень компрессии для выходного сигнала составляет 2:1 по отношению к входному сигналу. Международная публикация под номером WO 2006/047600 A1 (“Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal”, Alan Jeffrey Seefeldt (“Вычисление и настройка воспринимаемой громкости и/или воспринимаемый спектральный баланс звукового сигнала”, Алан Джеффри Сифелдт)) обеспечивает подробный обзор пяти основных типов динамической обработки звука: компрессия, ограничение, автоматическая регулировка усиления (AGC), расширение и пропускание.
АКУСТИЧЕСКИЕ СОБЫТИЯ И ОБНАРУЖЕНИЕ АКУСТИЧЕСКИХ СОБЫТИЙ
Разделение звуков на блоки или сегменты, которые воспринимаются как отдельные и различные, иногда называют “анализом акустических событий” или “анализом акустических сцен” (ASA), и сегменты иногда называются “акустическими событиями” или “звуковыми событиями”. Подробное обсуждение анализа акустических сцен изложено Альбертом С. Брегманом в его книге Auditory Scene Analysis-The Perceptual Organization of Sound (Анализ акустических сцен - воспринимаемая организация звука), Институт технологии Массачусетса, 1991, четвертая печать, 2001, второе издание в бумажном переплете MIT Press. Дополнительно патент США №6002776, выданный Bhadkamkar (Бхадкамкар) и др. 14 декабря 1999, ссылается на публикации, относящиеся к 1976, как на “работу предшествующего уровня техники, относящуюся к выделению звука посредством анализа акустических сцен”. Тем не менее, патент Бхадкамкар и др. не одобряет практического использования анализа акустических сцен, заключая, что “технологии, включающие анализ акустических сцен, хотя и интересны с научной точки зрения в качестве моделей обработки человеческого слуха, в настоящее время требуют слишком много вычислений и могут рассматриваться как практические технологии для выделения звука до достижения фундаментального прогресса”.
Полезный способ идентификации акустических событий изложен Crockett и Crocket и др. (Крокетт и Крокет и др.) в различных патентных заявках и статьях, перечисленных ниже под заголовком “Включение посредством ссылки”. Согласно этим документам звуковой сигнал делится на акустические события, каждое из которых стремится к тому, что оно воспринимается как отдельное и отличное от других событие, посредством обнаружения изменений спектрального состава (амплитуды как функции частоты) со временем. Это можно сделать, например, вычисляя спектральный состав последовательных временных блоков звукового сигнала и идентифицируя границу акустического события как границу между последовательными временными блоками, если разница в спектральном составе между такими последовательными временными блоками превышает пороговую величину. Альтернативно вместо изменений спектрального состава со временем или дополнительно к ним могут быть вычислены изменения амплитуды со временем.
При реализации, требующей минимальных вычислений, процесс делит звуковой сигнал на временные сегменты, анализируя всю полосу частот (полную полосу пропускания звукового сигнала) или, по существу, целую полосу частот (в конкретных реализациях часто используется фильтр ограничения полосы частот на концах спектра) и придавая набольшее значение самым громким компонентам звукового сигнала. Этот подход использует преимущество явления, относящегося к психологии слухового восприятия, при котором при меньшей шкале времени (20 миллисекунд (мсек) и меньше) ухо может иметь склонность к фокусировке на одном акустическом событии за заданное время. Это подразумевает, что хотя одновременно может происходить несколько событий, одна компонента стремится к большему выделению при восприятии и может быть обработана индивидуально, как если бы она была единственным событием, которое имело место. Использование преимущества этого эффекта также допускает обнаружение акустического события, сопоставимое со сложностью обработанного звукового сигнала. Например, если обработанным входным звуковым сигналом является звук сольного инструмента, идентифицированными акустическими событиями вероятнее всего будут отдельные сыгранные ноты. Подобным образом, для входного речевого сигнала скорее всего будут идентифицированы отдельные компоненты речи, гласные звуки и согласные звуки в качестве отдельных звуковых элементов. С увеличением сложности звукового сигнала, например музыки с барабанным боем или несколькими инструментами и голосом, обнаружение акустического события идентифицирует “самый выделяющийся” (т.е. самый громкий) звуковой элемент в любой заданный момент.
За счет большей вычислительной сложности процесс может также учесть изменения спектрального состава со временем в дискретных частотных поддиапазонах (постоянных или динамически определенных поддиапазонах или постоянных и динамически определенных поддиапазонах), а не на полной полосе пропускания. Этот альтернативный подход учитывает более одного звукового потока в разных частотных поддиапазонах, а не предполагает, что только один поток может быть воспринят в конкретный момент времени.
Обнаружение акустического события может быть реализовано разделением звукового сигнала временной области на временные интервалы или блоки и затем преобразованием данных из каждого блока в частотную область, используя либо гребенку фильтров, либо частотно-временное преобразование, например FFT. Амплитуда спектральных составляющих каждого блока может быть нормирована для исключения или уменьшения эффекта амплитудных изменений. Каждое результирующее представление частотной области обеспечивает индикацию спектрального состава звука в конкретном блоке. Спектральный состав последовательных блоков сравнивается, и изменения, которые превышают пороговое значение, могут быть взяты для индикации временного начала или временного конца акустического события.
Предпочтительно данные частотной области нормируются, как описано ниже. Степень, до которой данные частотной области должны быть нормированы, дает индикацию амплитуды. Следовательно, если изменение в этой степени превышает заранее заданное пороговое значение, это также может быть принято за индикацию границ события. Начальные и конечные точки события, которые являются результатом спектральных изменений и амплитудных изменений, могут быть логически сложены вместе, чтобы границы события, полученные в результате изменений обоих типов, были идентифицированы.
Хотя технологии, описанные в упомянутых публикациях и статьях Крокетт и Крокет и др., являются, в частности, полезными вместе с аспектами настоящего изобретения, другие технологии для идентификации акустических событий и границ события могут быть использованы в аспектах настоящего изобретения.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
Традиционная динамическая обработка звукового сигнала предшествующего уровня техники задействует умножение звукового сигнала на зависящий от времени управляющий сигнал, который настраивает усиление звукового сигнала, получая требуемый результат. “Усилением” является масштабный коэффициент, который изменяет масштаб амплитуды звукового сигнала. Этот управляющий сигнал может генерироваться на постоянной основе или из блоков звуковых данных, но обычно его производит некоторая форма измерения обработанного звукового сигнала, и скорость его изменения определяют сглаживающие фильтры, иногда с постоянными характеристиками, а иногда с характеристиками, которые изменяются с динамикой звукового сигнала. Например, время отклика можно настроить в соответствии с изменениями магнитуды или мощности звукового сигнала. Способы предшествующего уровня техники, такие как автоматическая регулировка усиления (AGC) и компрессия динамического диапазона (DRC), не определяют каким-либо относящимся к психологии слухового восприятия способом временные интервалы, в течение которых изменения усиления могут быть восприняты как ухудшение и когда они могут быть применены без передачи слышимых артефактов. Следовательно, традиционные звуковые динамические процессы могут часто вносить слышимые артефакты, т.е. эффекты динамической обработки могут внести нежелательные воспринимаемые изменения в звуковой сигнал.
Анализ акустических сцен идентифицирует воспринимаемые дискретные акустические события, причем каждое событие происходит между двумя последовательными границами акустических событий. Акустические ухудшения, вызванные изменением усиления, могут быть значительно уменьшены обеспечением того, что в пределах акустического события усиление остается почти постоянным, и ограничением большей части изменения по соседству с границей события. В контексте компрессоров (средств сжатия) и расширителей (средств расширения) отклик на увеличение уровня звукового сигнала (часто называемое атакой) может быть быстрым, сравнимым с минимальной продолжительностью акустических событий или короче, но отклик на уменьшение (отпускание или возврат) может быть медленнее, так что звуки, которые должны казаться постоянными или должны постепенно ослабляться, могут быть явно нарушены. При таких обстоятельствах очень выгодно задержать возврат усиления до следующей границы или замедлить скорость изменения усиления во время события. Для приложений автоматической регулировки усиления, когда уровень громкости звука с продолжительностью от средней до длительной нормируется и оба времени атаки и возврата могут, следовательно, быть длительными по сравнению с минимальной продолжительностью акустического события, выгодно во время событий задержать изменения или замедлить скорости изменения усиления до границы следующего события для увеличивающего усиления и для уменьшающего усиления.
Согласно одному аспекту настоящего изобретения система обработки звукового сигнала принимает звуковой сигнал и анализирует, и изменяет характеристики усиления и/или динамического диапазона звукового сигнала. Изменением динамического диапазона звукового сигнала часто управляют параметры динамической системы обработки (время атаки и возврата, степень компрессии и т.д.), которые значительно влияют на воспринимаемые артефакты, вносимые динамической обработкой. Изменения характеристик сигнала со временем в звуковом сигнале обнаруживаются и идентифицируются как границы акустического события, так что звуковой сегмент между последовательными границами составляет акустическое событие в звуковом сигнале. Представляющие интерес характеристики акустических событий могут включать в себя такие характеристики событий, как сила и продолжительность восприятия. Некоторые из упомянутых одного или более параметров динамической обработки генерируются, по меньшей мере, частично в ответ на акустические события и/или степень изменения характеристик сигнала, связанных с упомянутыми границами акустического события.
Обычно акустическим событием является сегмент звукового сигнала, который имеет склонность к тому, что он воспринимается как отдельный и отличный от других сегмент. Одно используемое измерение характеристик сигнала включает в себя измерение спектрального состава звукового сигнала, например, как описано в упомянутых документах Крокетт и Крокет и др. Все или некоторые из одного или более параметров динамической обработки звукового сигнала могут генерироваться, по меньшей мере, частично в ответ на наличие или отсутствие и характеристики одного или более акустического события. Граница акустического события может быть идентифицирована как изменение характеристик сигнала со временем, которое превышает пороговое значение. Альтернативно все или некоторые из одного или более параметров могут генерироваться, по меньшей мере, частично в ответ на продолжающееся измерение степени изменения характеристик сигнала, связанных с упомянутыми границами акустического события. Хотя в принципе аспекты изобретения могут быть реализованы в аналоговых и/или цифровых областях, практические реализации вероятнее всего должны быть реализованы в цифровой области, в которой каждый из звуковых сигналов представлен отдельными выборками или выборками в пределах блоков данных. В этом случае характеристиками сигнала может быть спектральный состав звукового сигнала в пределах блока, обнаружением изменений в характеристиках сигнала со временем может быть обнаружение изменений спектрального состава звукового сигнала от блока к блоку, и начальная и конечная границы акустического события, каждая, совпадает с границами блока данных. Следует заметить, что для более традиционного случая выполнения динамических изменений усиления на основе выборок описанный анализ акустических сцен может быть выполнен на основе блока и результирующей информации об акустическом событии, используемой для выполнения динамических изменений усиления, которые были применены к выборкам.
Регулируя ключевые параметры динамической обработки звукового сигнала с использованием результатов анализа акустических сцен, можно получить внезапное уменьшение слышимых артефактов, вносимых динамической обработкой.
Настоящее изобретение представляет два способа выполнения анализа акустических сцен. Первый способ выполняет спектральный анализ и идентифицирует положение воспринимаемых звуковых событий, которые используются для регулировки параметров динамического усиления, идентифицируя изменения в спектральном составе. Второй способ преобразует звуковой сигнал в область воспринимаемой громкости (которая может обеспечить более релевантную, относящуюся к психологии слухового восприятия, информацию, чем первый способ) и идентифицирует положение акустических событий, которые потом используются для регулировки параметров динамического усиления. Следует заметить, что второй способ требует, чтобы обработка звукового сигнала знала об уровнях абсолютного воспроизведения звука, которые могут быть невозможны при некоторых реализациях. Представление обоих способов анализа акустических сцен допускает реализации изменения динамического усиления, регулируемого на основе ASA, с использованием процессов или устройств, которые могут или не могут быть откалиброваны для учета уровней абсолютного воспроизведения.
Аспекты настоящего изобретения описаны здесь в условиях динамической обработки звукового сигнала, которая включает аспекты других изобретений. Такие другие изобретения описаны в различных рассматриваемых патентных заявках США и международных патентных заявках Dolby Laboratories Licensing Corporation владельцем настоящей заявки, причем эти заявки установлены здесь.
ПЕРЕЧЕНЬ ЧЕРТЕЖЕЙ
Фиг.1 является логической блок-схемой, показывающей пример этапов обработки для выполнения анализа акустических сцен.
Фиг.2 показывает пример обработки блока, применения окна и выполнения DFT в отношении звукового сигнала во время выполнения анализа акустических сцен.
Фиг.3 является в своем роде логической блок-схемой или функциональной блок-схемой, показывающей параллельную обработку, при которой звуковой сигнал используют для идентификации акустических событий и для идентификации характеристик акустических событий из условия, чтобы события и их характеристики были использованы для изменения параметров динамической обработки.
Фиг.4 является в своем роде логической блок-схемой или функциональной блок-схемой, показывающей обработку, при которой звуковой сигнал используют только для идентификации акустических событий, а характеристики события определяют из обнаружения акустического события из условия, чтобы события и их характеристики были использованы для изменения параметров динамической обработки.
Фиг.5 является в своем роде логической блок-схемой или функциональной блок-схемой, показывающей обработку, при которой звуковой сигнал используют только для идентификации акустических событий, а характеристики события определяют из обнаружения акустического события из условия, чтобы только характеристики акустических событий были использованы для изменения параметров динамической обработки.
Фиг.6 показывает набор идеализированных характеристических характеристик звукового фильтра, который аппроксимирует критическую полосность шкалы ERB. По горизонтальной шкале отмечена частота в герцах, а по вертикальной шкале - уровень в децибелах.
Фиг.7 показывает контуры одинаковой громкости ISO 226. По горизонтальной шкале отмечена частота в герцах (шкала десятичных логарифмов), а по вертикальной шкале отмечен уровень звукового давления в децибелах.
Фиг.8,а-с показывают идеализированные входные/выходные характеристики и входные характеристики усиления компрессора динамического диапазона звука.
Фиг.9,a-f показывают пример использования акустических событий для регулировки времени возврата при цифровой реализации традиционного контроллера динамического диапазона (DRC), при которой регулировку усиления извлекают из среднеквадратического (RMS) значения мощности сигнала.
Фиг.10,a-f показывают пример использования акустических событий для регулировки времени возврата при цифровой реализации традиционного контроллера динамического диапазона (DRC), при которой регулировку усиления извлекают из среднеквадратического (RMS) значения мощности сигнала для сигнала, альтернативного используемому на Фиг.9 сигналу.
Фиг.11 изображает соответствующий набор идеализированных кривых AGC и DRC для применения AGC, за которой следует DRC, в системе динамической обработки области громкости. Задачей комбинации является получение приблизительно одинаковой воспринимаемой громкости для всех обработанных звуковых сигналов, сохраняя при этом, по меньшей мере, некоторые из исходных динамических характеристик звукового сигнала.
ЛУЧШИЙ РЕЖИМ ДЛЯ ВЫПОЛНЕНИЯ ИЗОБРЕТЕНИЯ
АНАЛИЗ АКУСТИЧЕСКИХ СЦЕН (ПЕРВОНАЧАЛЬНЫЙ СПОСОБ, ПРИ КОТОРОМ ОТСУТСТВУЕТ ОБЛАСТЬ ГРОМКОСТИ)
Согласно воплощению одного аспекта настоящего изобретения анализ акустических сцен может состоять из четырех общих этапов обработки, как показано на участке Фиг.1. На первом этапе 1-1 (“Выполнить спектральный анализ”) берут звуковой сигнал временной области, делят его на блоки и вычисляют спектральный профиль или спектральный состав для каждого из блоков. Спектральным анализом преобразуют звуковой сигнал в короткопериодную частотную область. Это можно выполнить, используя любую гребенку фильтров, основанную либо на преобразованиях, либо на блоках полосовых фильтров, и либо в линейном, либо искаженном частотном пространстве (например, шкале Барка (Bark) или критической полосе, которые лучше аппроксимируют характеристики человеческого уха). При наличии любой гребенки фильтров имеет место компромисс между временем и частотой. Большее разрешение по времени и, следовательно, более короткие интервалы времени приводят к меньшему разрешению по частоте. Большее разрешение по частоте и, следовательно, более узкие поддиапазоны приводят к более длительным интервалам времени.
На первом этапе, проиллюстрированном по существу на Фиг.1, вычисляют спектральный состав последовательных сегментов времени звукового сигнала. В практическом воплощении размер блока ASA может состоять из любого числа выборок входного звукового сигнала, хотя 512 выборок обеспечивают хороший компромисс между разрешениями по времени и частоте. На втором этапе 1-2 определяют разницу между спектральными составами от блока к блоку («Выполнить измерения разницы спектральных профилей»). Таким образом, на втором этапе вычисляют разницу спектральных составов между последовательными сегментами времени звукового сигнала. Как обсуждалось выше, изменение спектрального состава считается эффективным индикатором начала или конца воспринятого акустического события. На третьем этапе 1-3 ("Идентифицировать положение границ акустического события"), когда разница спектральных составов между одним блоком спектрального профиля и следующим превышает пороговую величину, за границу акустического события принимают границу блока. Звуковой сегмент между последовательными границами составляет акустическое событие. Таким образом, на третьем этапе устанавливают границы акустического события между последовательными сегментами времени, когда разница спектральных профилей между такими последовательными сегментами времени превышает пороговую величину, определяя, таким образом, акустические события. В этом воплощении границы акустического события определяют акустические события, имеющие длину, которая является целым кратным длине блоков спектрального профиля при минимальной длине одного блока спектрального профиля (512 выборок в данном примере). В принципе границы события необязательно должны быть так ограничены. В качестве альтернативы обсужденным здесь практическим воплощениям размер входного блока может меняться, например, чтобы быть равным, по существу, размеру акустического события.
После идентификации границ события определяют ключевые характеристики акустического события, как показано на этапе 1-4.
Перекрывающиеся или неперекрывающиеся сегменты звукового сигнала могут быть реализованы посредством применения окна и использованы для вычисления спектральных профилей входящего звукового сигнала. Перекрытие приводит к более хорошему разрешению в отношении положения акустических событий и уменьшает вероятность пропуска события, такого как короткий одиночный импульс. Тем не менее, перекрытие также увеличивает вычислительную сложность. Таким образом, перекрытие можно исключить. Фиг.2 показывает принципиальное представление неперекрывающихся N блоков выборок, реализованных посредством применения окна и преобразованных в частотную область посредством дискретного преобразования Фурье (DFT). Каждый блок может быть реализован посредством применения окна и преобразован в частотную область, например посредством DFT, предпочтительно реализованным как быстрое преобразование Фурье (FFT) для скорости.
Следующие переменные могут быть использованы для вычисления спектрального профиля входного блока:
М = число выборок, охватываемых окном, в блоке, используемом для вычисления спектрального профиля;
Р = число перекрывающихся выборок при спектральном вычислении.
В общем для вышеупомянутых переменных могут быть использованы любые целые числа. Тем не менее, реализация будет более эффективной, если установить М, равным степени числа 2, чтобы можно было использовать стандартные преобразования FFT для вычислений спектрального профиля. В практическом воплощении процесса анализа акустических сцен перечисленные параметры можно установить равными:
М = 512 выборок (или 11,6 мсек при 44,1 кГц);
Р = 0 выборок (без перекрытия).
Вышеперечисленные значения были определены экспериментально и было обнаружено, что они с достаточной точностью идентифицируют положение и продолжительность акустических событий. Тем не менее, было обнаружено, что установка значения Р, равного 256 выборкам (50% перекрытия), а не нулю выборок (без перекрытия), полезна при идентификации некоторых труднообнаруживаемых событий. Хотя для минимизации спектральных артефактов вследствие применений окон могут быть использованы многие различные типы окон, используемым при вычислениях спектрального профиля окном является окно типа M-точечное Hanning, Kaiser-Bessel или другое подходящее, предпочтительно, непрямоугольное окно. Вышеуказанные значения и окно типа Hanning были выбраны после продолжительного анализа экспериментов, так как было показано, что они обеспечивают превосходные результаты для широкого диапазона звуковых материалов. Применение непрямоугольных окон предпочтительно для обработки звуковых сигналов с преимущественно низкочастотным содержанием. Применение прямоугольных окон производит спектральные артефакты, которые могут стать причиной некорректного обнаружения событий. В отличие от определенных кодирующих/декодирующих приложений (кодеков), где процесс полного перекрытия/суммирования должен обеспечивать постоянный уровень, такое ограничение неприменимо здесь, и окно может быть выбрано из-за его характеристик, таких как разрешение по времени/частоте и подавление с помощью полосы задерживания.
На этапе 1-1 (Фиг.1) спектр каждого блока М-выборки может быть вычислен получением данных посредством применения окна, такого как M-точечное Hanning, Kaiser-Bessel или другого подходящего окна, преобразованием в частотную область, используя M-точечное быстрое преобразование Фурье, и вычислением величины комплексных коэффициентов FFT. Результирующие данные нормируют, принимая наибольшую величину за единицу, и нормированный массив из М чисел преобразуют в логарифмическую область. Данные могут быть также нормированы на некоторые другие показатели, такие как значение средней величины или значение средней мощности данных. Преобразование массива в логарифмическую область необязательно, но оно упрощает вычисление значения разницы на этапе 1-2. Кроме того, логарифмическая область ближе соответствует природе человеческой зрительной системы. Значения результирующей логарифмической области имеют диапазон от минус бесконечности до нуля. В практическом воплощении на диапазон значений может накладываться нижний предел; ограничение может быть постоянным, например -60 дБ, или может зависеть от частоты для отражения более низкой слышимости тихих звуков при низких и очень высоких частотах. (Заметим, что можно было бы уменьшить размер массива до M/2 по той причине, что FFT представляет отрицательные, так же как и положительные частоты).
На этапе 1-2 вычисляют меру разницы между спектрами соседних блоков. Для каждого блока каждый из М (логарифмических) спектральных коэффициентов, вычисленных на этапе 1-1, вычитают из соответствующего коэффициента для предшествующего блока, и вычисляют значение разницы (не учитывая знак). Эти М разницы затем складывают в одно число. Эту меру значение разницы можно также выразить как среднюю разницу, приходящуюся на спектральный коэффициент, делением меры разницы на количество спектральных коэффициентов, используемых в сложении (в данном случае - М коэффициентов).
На этапе 1-3 идентифицируют положение границ акустических событий применением пороговой величины к массиву мер разницы, вычисленных на этапе 1-2. Когда мера разницы превышает пороговую величину, изменение спектра считают достаточным для сигнализации о новом событии, и номер блока с изменением регистрируют как границу события. Для значений М и Р, данных выше, и для значений логарифмической области (полученных на этапе 1-1), выраженных в единицах дБ, пороговая величина может быть установлена равной 2500, если сравнивается вся величина FFT (включая отрицательную часть), или 1250, если сравнивается половина FFT (как отмечено выше, FFT представляет отрицательные, так же как и положительные частоты, для величины FFT одна частота является зеркальным отображением другой). Это значение может быть выбрано экспериментально, и оно обеспечивает хорошее обнаружение границ акустического события. Это значение параметра может быть изменено для уменьшения (увеличив пороговую величину) или увеличения (уменьшив пороговую величину) обнаружения событий.
Процесс на Фиг.1 может быть представлен в более обычном виде эквивалентными выполнениями, представленными на Фиг.3-5. На Фиг.3 к звуковому сигналу параллельно применяют функцию “Идентифицировать акустические события” или этап 3-1, который делит звуковой сигнал на акустические события, каждое из которых стремится к тому, чтобы оно воспринималось как отдельное и отличное от других событие, и необязательную функцию “Идентифицировать характеристики акустических событий” или этап 3-2. Процесс по Фиг.1 может быть использован для разделения звукового сигнала на акустические события и идентификации их характеристик или может быть использован некоторый другой процесс. Информацию об акустическом событии, которой может быть идентификация границ акустического события, определяемая функцией или этапом 3-1, затем используют для изменения параметров динамической обработки звукового сигнала (таких как, атака, возврат, степень и т.д.), как требуется, с помощью функции “Изменить динамические параметры” или этапа 3-3. Необязательная функция “Идентифицировать характеристики” или этап 3-3 также принимает информацию об акустическом событии. Функция “Идентифицировать характеристики” или этап 3-3 может характеризовать некоторые или все акустические события одной или более характеристиками. Такие характеристики могут включать идентификацию преобладающего поддиапазона акустического события, как описано в связи с процессом на Фиг.1. Характеристики могут также включать одну или более звуковых характеристик, включая, например, величину мощности акустического события, величину амплитуды акустического события, величину спектральной неравномерности акустического события и информацию о том, является ли акустическое событие, по существу, бесшумным, или другие характеристики, которые помогают изменить динамические параметры, чтобы уменьшить или удалить слышимые артефакты обработки. Характеристики могут также включать другие характеристики, например информацию о том, включает ли акустическое событие короткий одиночный импульс.
Альтернативы выполнению по Фиг.3 показаны на Фиг.4 и 5. На Фиг.4 к входному звуковому сигналу не применяют непосредственно функцию “Идентифицировать характеристики” или этап 4-3, но он принимает информацию от функции “Идентифицировать акустические события” или этапа 4-1. Выполнение по Фиг.1 является конкретным примером такого выполнения. На Фиг.5 функции или этапы 5-1, 5-2 и 5-3 выполнены последовательно.
Детали этого конкретного воплощения не являются критическими. Могут быть использованы другие способы вычисления спектрального состава последовательных сегментов времени звукового сигнала, вычисления разницы между последовательными сегментами времени и установки границ акустического события на соответствующих границах между последовательными сегментами времени, когда разница спектральных профилей между такими последовательными сегментами времени превышает пороговую величину.
АНАЛИЗ АКУСТИЧЕСКИХ СЦЕН (НОВЫЙ СПОСОБ С ОБЛАСТЬЮ ГРОМКОСТИ)
Международная заявка согласно Договору о патентной кооперации с номером PCT/US2005/038579, поданная 25 октября 2005, опубликованная как Международная публикация под номером WO 2006/047600 A1, озаглавленная “Вычисление и настройка воспринимаемой громкости и/или воспринимаемый спектральный баланс звукового сигнала”, Алан Джеффри Сифелдт, раскрывает помимо всего прочего объективную меру воспринимаемой громкости, основанной на модели, относящейся к психологии слухового восприятия. Упомянутая заявка посредством ссылки включена в настоящую заявку во всей полноте. Как описано в упомянутой заявке, из звукового сигнала x[n] вычисляют сигнал E[b,t] возбуждения, который аппроксимирует распределение энергии вдоль базилярной мембраны внутреннего уха в критической полосе b в течение временного блока t. Это возбуждение может быть вычислено из кратковременного дискретного преобразования Фурье (STDFT) звукового сигнала следующим образом:
где X[k,t] представляет STDFT сигнала x[n] во временном блоке t и элементе дискретизации k. Заметим, что в уравнении 1 t представляет время в дискретных единицах блоков преобразования в отличие от непрерывной меры, такой как секунды. T[k] представляет частотную характеристику фильтра, имитирующего передачу звукового сигнала через внешнее и среднее ухо, и Cb[k] представляет частотную характеристику базилярной мембраны в положении, соответствующем критической полосе b. Фиг.6 изображает соответствующий набор характеристик фильтра критической полосы, в котором 40 полос равномерно разнесены вдоль шкалы эквивалентных прямоугольных полос частот (ERB), определенной Moor и Glasberg (Муром и Глазбергом). Форма каждого фильтра описывается закругленной экспоненциальной функцией, и полосы распределены с использованием расстояния 1 ERB. Наконец, сглаживающая временная константа λb в уравнении 1 может быть предпочтительно выбрана пропорциональной времени интегрирования человеческого восприятия громкости в пределах полосы b.
Используя контуры одинаковой громкости, такие как контуры, изображенные на Фиг.7, возбуждение каждой полосы преобразуется в уровень возбуждения, который генерировал бы такую же воспринимаемую громкость при 1 кГц. Конкретную громкость, меру воспринимаемой громкости, распределенной по частоте и времени, затем вычисляют из преобразованного возбуждения E1kHz[b,t] посредством компрессионной нелинейности. Одна такая подходящая функция для вычисления конкретной громкости N[b,t] задается следующим образом:
где TQ1kHz является пороговой величиной в тишине при 1 кГц, а константы β и α выбирают для соответствия росту данных о громкости, накапливаемых при экспериментах по прослушиванию. В абстрактном смысле это преобразование из возбуждения в конкретную громкость может быть представлено функцией Ψ {}, такой как:
В результате общую громкость L[t], представленную в сонах, вычисляют суммированием конкретной громкости по полосам:
Конкретная громкость N[b,t] является спектральным представлением, предназначенным для имитации способа восприятия человеком звукового сигнала как функции частоты и времени. Она улавливает изменения чувствительности к различным частотам, изменения чувствительности к уровню и изменения разрешения по частоте. По этой причине она является спектральным представлением, хорошо соответствующим обнаружению акустических событий. Сравнение разницы N[b,t] по полосам между последовательными блоками времени может во многих случаях привести к более точно воспринимаемому обнаружению акустических событий по сравнению с описанным выше непосредственным использованием последовательных спектров FFT, хотя оно более сложно для вычисления.
В упомянутой патентной заявке раскрыто несколько вариантов применения для изменения звукового сигнала на основе этой модели громкости, относящейся к психологии слухового восприятия (психоакустической модели). Среди этих применений раскрыты несколько алгоритмов динамической обработки, например AGC и DRC. Эти раскрытые алгоритмы могут использовать преимущества использования акустических событий для регулировки различных связанных с ними параметров. Так как конкретная громкость уже вычислена, она легкодоступна для целей обнаружения упомянутых событий. Подробности предпочтительного воплощения обсуждаются ниже.
РЕГУЛИРОВКА ПАРАМЕТРА ДИНАМИЧЕСКОЙ ОБРАБОТКИ ЗВУКОВОГО СИГНАЛА ПРИ НАЛИЧИИ АКУСТИЧЕСКИХ СОБЫТИЙ
Далее представлены два примера воплощений изобретения. Первый пример описывает использование акустических событий для регулировки времени возврата при цифровой реализации регулировки динамического диапазона (DRC), при которой регулировку усиления извлекают из среднеквадратического (RMS) значения мощности сигнала. Второе воплощение описывает использование акустических событий для управления определенными аспектами более сложной комбинации AGC и DRC, реализованных в контексте модели громкости, относящейся к психологии слухового восприятия, описанной выше. Эти два воплощения служат только примерами изобретения, и следует понимать, что использование акустических событий для параметров регулировки алгоритма динамической обработки не ограничено описанными ниже конкретными примерами.
РЕГУЛИРОВКА ДИНАМИЧЕСКОГО ДИАПАЗОНА
Описанная цифровая реализация DRC сегментирует звуковой сигнал x[n] на реализуемые посредством применения окна, наполовину перекрывающиеся блоки, и для каждого блока вычисляется усиление модифицирования на основе меры локальной мощности сигнала и выбранной кривой компрессии. Усиление сглаживают по блокам и затем умножают с каждым блоком. К измененным блокам в результате добавляют перекрытие для генерации измененного звукового сигнала y[n].
Следует заметить, что хотя анализ акустических сцен и цифровая реализация DRC, описываемые здесь, делят звуковой сигнал временной области на блоки для выполнения анализа и обработки, обработку DRC необязательно выполнять с использованием сегментации на блоки. Например, анализ акустических сцен может быть выполнен с использованием сегментации на блоки, а спектральный анализ, описанный выше, и результирующие положения, и характеристики акустических событий могут быть использованы для обеспечения регулирующей информации для цифровой реализации традиционной реализации DRC, которая обычно работает на основе последовательных выборок. Здесь, тем не менее, для DRC применяется такая же структура разделения на блоки, используемая для анализа акустических сцен, чтобы упростить описание их комбинации.
Приступая к описанию, основанной на блоках реализации DRC, перекрывающиеся блоки звукового сигнала могут быть представлены в виде:
где М является длиной блока, размер скачка равен М/2, w[n] является окном, n является индексом выборки в пределах блока, а t является индексом блока (заметим, что здесь t используется таким же образом, как и для STDFT в уравнении 1; т.е. представляет время в дискретных единицах блоков, а не в секундах, например). В идеальном варианте окно w[n] сужается до нуля на обоих концах и равно в сумме единице, когда наполовину перекрывает само себя; обычно используемое синусоидальное окно, например, соответствует этим критериям.
Для каждого блока можно затем вычислить RMS мощности для генерации значения P[t] мощности в дБ, приходящегося на каждый блок:
Как упоминалось ранее, можно сгладить это значение мощности быстрой атакой и медленным возвратом до обработки с помощью кривой компрессии, но в качестве альтернативы обрабатывается мгновенная мощность P[t] и сглаживается результирующее усиление. Этот альтернативный подход имеет преимущество в том, что может быть использована простая кривая компрессии с острыми точками загиба, но результирующие усиления остаются по-прежнему гладкими при прохождении мощности через точки загиба. Представляя кривую компрессии так, как показано на Фиг.8с в виде функции F уровня сигнала, который генерирует усиление, усиление G[t] блока задается следующим образом:
Предполагая, что кривая компрессии налагает большее ослабление с увеличением уровня сигнала, усиление будет уменьшаться, когда сигнал находится в “режиме атаки”, и увеличиваться, когда сигнал находится в “режиме возврата”. Следовательно, сглаженное усиление может быть вычислено в соответствии с формулой
где
и
αrelease >> αattach (7c)
Наконец, сглаженное усиление , выраженное в дБ, применяют к каждому блоку сигнала, и измененные блоки суммируются с перекрытием для получения измененного звукового сигнала:
Заметим, что вследствие того, что блоки умножены на сужающееся окно, как показано в уравнении (4), синтез по суммированию с перекрытием, показанный выше, эффективно сглаживает усиления по выборкам обработанного сигнала y[n]. Таким образом, управляющий сигнал усиления получает сглаживание дополнительно к показанному в уравнении (7а) сглаживанию. При более традиционной реализации DRC, работающего по последовательным выборкам, а не по последовательным блокам, может потребоваться более сложное сглаживание усиления, чем простой однополюсный фильтр, показанный в уравнении (7а), для предотвращения слышимого искажения обработанного сигнала. Также использование основанной на блоках обработки вносит в систему характерную задержку в М/2 выборок, и до тех пор, пока время спада, связанное с αattack, близко к этой задержке, сигнал x[n] не требуется дополнительно задерживать до применения усилений с целью предотвращения выброса.
Фиг.9,а-с изображает результат применения описанной обработки DRC к звуковому сигналу. Для этой конкретной реализации используется длина блока М=512 при частоте дискретизации, равной 44,1 кГц. Используется кривая компрессии, аналогичная показанной на Фиг.8,b:
выше -20 дБ относительно полномасштабной цифры сигнал ослабляется с соотношением 5:1, а ниже -30 дБ сигнал усиливается с соотношением 5:1. Усиление сглаживается с коэффициентом αattack атаки, соответствующим времени полуспада в 500 мсек. Исходный звуковой сигнал, изображенный на Фиг.9,а, состоит из шести последовательных аккордов для фортепьяно, причем конечный аккорд, расположенный вокруг выборки 1,75×105, затухает до тишины. Изучая график усиления на Фиг.9,b, следует заметить, что усиление остается близким к 0 дБ во время проигрывания шести аккордов. Это результат сохранения большей части энергии в диапазоне от -30 до -20 дБ, области, в пределах которой кривая DRC не требует изменений. Тем не менее, после достижения последнего аккорда энергия сигнала падает ниже -30 дБ, и усиление начинает расти в конечном итоге до значения свыше 15 дБ по мере затухания аккордов. Фиг.9,с изображает результирующий измененный звуковой сигнал, и можно видеть, что шлейф конечного аккорда значительно усилен. На слух это усиление естественного низкоуровневого затухающего звука аккорда дает чрезвычайно неестественный результат. Целью настоящего изобретения является предотвращение проблем такого типа, связанных с традиционной динамической обработкой.
Фиг.10,а-с изображают результаты применения точно такой же системы DRC к другому звуковому сигналу. В этом случае первая половина сигнала состоит из музыкального отрезка быстрого темпа при высоком уровне, а затем при приблизительной выборке 10×104 сигнал переключается на второй музыкальный отрезок быстрого темпа, но при значительно более низком уровне. Изучая усиление по Фиг.10,b, можно видеть, что сигнал ослабляется приблизительно на 10 дБ в течение первой половины, а затем усиление обратно возрастает вплоть до 0 дБ в течение второй половины, когда проигрывается более мягкий отрезок. В этом случае усиление работает так, как требуется. Желательно усилить второй отрезок относительно первого, и усиление должно быстро возрасти после перехода на второй отрезок, чтобы быть малозаметным на слух. Видно, что поведение усиления аналогично обсужденному поведению в случае первого сигнала, но в данном случае это поведение является желательным. Следовательно, желательно исправить первый случай, не затрагивая второй. Использование акустических событий для регулировки времени возврата этой системы DRC обеспечивает такое решение.
В первом сигнале, который был исследован на Фиг.9, усиление затухания последнего аккорда кажется неестественным, так как аккорд и его затухание воспринимаются как одно акустическое событие, сохранения целостности которого ожидают. Во втором случае, тем не менее, во время увеличения усиления происходит много акустических событий, означая, что каждому отдельному событию придается маленькое изменение. Следовательно, общее изменение усиления не является таким нежелательным. Следовательно, можно рассуждать о том, что изменение усиления следует допускать только в ближайшей временной окрестности границы акустического события. Можно применить этот принцип к усилению, когда оно находится либо в режиме атаки, либо в режиме возврата, но для большинства практических реализаций DRC усиление так быстро переходит в режим атаки по сравнению с разрешением по времени восприятия человеком события, что регулировки не требуется. Следовательно, можно использовать события для регулировки сглаживания усиления DRC только когда оно находится в режиме возврата.
Далее будет описано соответствующее поведение регулировки возврата. В качественных показателях, если обнаружено событие, усиление сглаживают в зависимости от константы времени возврата, определенной выше в уравнении (7а). С течением времени после обнаруженного события, и если не обнаружены следующие события, константа времени возврата непрерывно увеличивается, так что в конечном итоге сглаженное усиление “замораживается” на месте. Если обнаружено другое событие, сглаживающую константу времени повторно устанавливают на исходное значение, и процесс повторяется. Для модуляции времени возврата можно сначала сгенерировать управляющий сигнал на основе границ обнаруженного события.
Как обсуждалось ранее, границы события могут быть обнаружены поиском изменений в последовательных спектрах звукового сигнала. При этой конкретной реализации DFT каждого перекрывающегося блока x[n,t] может быть вычислено для генерации STDFT звукового сигнала x[n]:
Далее разница между нормированными логарифмическими величинами спектров последовательных блоков может быть вычислена в соответствии с формулой
где
Здесь максимальное значение по элементам дискретизации k используется для нормирования, хотя можно использовать другие нормировочные множители; например, среднее значение по элементам дискретизации. Если разница превышает пороговую величину Dmin, считают, что событие случилось. Дополнительно данному событию можно присвоить силу, которая лежит в интервале от нуля до единицы, на основе размера по сравнению с максимальной пороговой величиной Dmax. Результирующий сигнал силы акустического события может быть вычислен как:
Присваивая силу акустическому событию, пропорциональную величине изменения спектра, связанного с этим событием, достигают лучшей регулировки динамической обработки по сравнению с принятием решения о бинарном событии. Авторы изобретения обнаружили, что более значительные изменения усиления допустимы во время более сильных событий, и сигнал в уравнении (11) допускает такую изменяемую регулировку.
Сигнал является импульсным сигналом, причем импульсы происходят в положениях границы событий. В целях регулировки времени возврата можно дополнительно сглаживать сигнал , так чтобы он плавно спадал до нуля после обнаружения границы события. Сглаженный управляющий сигнал события может быть вычислен из в соответствии с формулой
Здесь регулирует время спадания управляющего сигнала события. Фиг.9,d и 10,d изображают управляющий сигнал события для двух соответствующих звуковых сигналов, причем время полуспада более гладкой из них установлено на 250 мсек. В первом случае видно, что граница события обнаружена для каждого из шести аккордов для фортепьяно и что управляющий сигнал события плавно спадал до нуля после каждого события. Для второго сигнала обнаружено много событий, очень близких друг к другу по времени, и, следовательно, управляющий сигнал события никогда не спадает полностью до нуля.
Теперь можно использовать управляющий сигнал события для изменения константы времени возврата, используемой для сглаживания усиления. Когда управляющий сигнал равен единице, сглаживающий коэффициент из уравнения (7а) равен , как и ранее, а когда управляющий сигнал равен нулю, коэффициент равен единице, так что предотвращается изменение сглаженного усиления. Сглаживающий коэффициент интерполируют между этими двумя пределами, используя управляющий сигнал, в соответствии с формулой
При непрерывной интерполяции сглаживающего коэффициента как функции управляющего сигнала события время возврата повторно устанавливается на значение, пропорциональное силе события в начале события, и затем плавно увеличивается до бесконечности после происшествия события. Скорость этого увеличения диктует коэффициент , используемый для генерации сглаженного управляющего сигнала события.
Фиг.9,е и 10,е показывают результат сглаживания усиления с помощью регулируемого событием коэффициента из уравнения (13) в противоположность не регулируемому событием коэффициенту из уравнения (7b). В первом случае управляющий сигнал события падает до нуля после последнего аккорда для фортепьяно, предотвращая тем самым движение усиления вверх. В результате соответствующий измененный звуковой сигнал, изображенный на Фиг.9,f, не страдает от неестественного усиления затухания аккорда. Во втором случае управляющий сигнал события никогда не достигает нуля, и, следовательно, сглаженный сигнал усиления очень мало задерживается вследствие применения регулировки события. Траектория сглаженного усиления почти идентична траектории не регулируемого событием усиления на Фиг.10,b. Это в точности соответствует требуемому эффекту.
ОСНОВАННЫЕ НА ГРОМКОСТИ AGC И DRC
В качестве альтернативы традиционной технологии динамической обработки, при которой изменения сигнала являются прямой функцией простых измерений сигнала, например, амплитуды или RMS мощности, Международная патентная заявка с номером PCT/US2005/038579 раскрывает использование модели громкости, относящейся к психологии слухового восприятия, описанной ранее в виде окружения, в котором должна выполняться динамическая обработка. Приведены несколько преимуществ. Во-первых, измерения и изменения определены в сонах, что является более точной мерой восприятия громкости, чем более фундаментальные значения, такие как амплитуда или RMS мощности. Во-вторых, звуковой сигнал может быть изменен из условия, чтобы воспринимаемый спектральный баланс исходного звукового сигнала был сохранен при изменении общей громкости. Таким образом, изменения общей громкости становятся менее очевидными на слух по сравнению с динамической обработкой, которая использует широкополосное усиление, например, для изменения звукового сигнала. И, наконец, модель, относящаяся к психологии слухового восприятия, является, в сущности, многополосной, и, следовательно, система легко конфигурируется для выполнения многополосной динамической обработки для уменьшения хорошо известных проблем межспектральной подкачки, связанных с многополосной динамической обработкой.
Хотя выполнение динамической обработки в данной области громкости уже имеет несколько преимуществ перед традиционной динамической обработкой, технология может быть дополнительно улучшена посредством использования акустических событий для регулировки различных параметров. Рассмотрим звуковой сегмент, содержащий аккорды для фортепьяно, как изображено на Фиг.10,а, и соответствующую DRC, показанную на Фиг.10,b и с. Можно выполнить подобную DRC в области громкости, и в этом случае, когда затухание громкости конечного аккорда для фортепьяно усиливается, усиление будет менее очевидным, так как спектральный баланс затухающей ноты будет сохранен при применении усиления. Тем не менее, лучшим решением будет не усиливать затухание совсем, и, следовательно, можно выгодно применить тот же принцип регулировки времени атаки и возврата при наличии акустических событий в области громкости, как описывалось ранее, для традиционной DRC.
Система динамической обработки с областью громкости, которая будет сейчас описана, состоит из AGC, за которой следует DRC. Задачей этой комбинации является получение приблизительно одинаковой воспринимаемой громкости для всех обработанных звуковых сигналов, сохраняя при этом, по меньшей мере, некоторые из исходных динамических характеристик звукового сигнала. Фиг.11 изображает соответствующий набор кривых AGC и DRC для этого приложения. Заметим, что входные и выходные данные обеих кривых представлены в сонах, так как обработка выполняется в области громкости. Кривая AGC стремится донести выходной звуковой сигнал ближе к определенному целевому уровню и, как упоминалось ранее, это происходит при относительно медленных константах времени. Можно подумать, что AGC создает долгосрочную громкость звукового сигнала, которая равна целевой, но в течение коротких периодов времени громкость может сильно колебаться вокруг этой целевой громкости. Следовательно, можно использовать более быстродействующую DRC для ограничения этих колебаний в некотором диапазоне, который считается приемлемым для конкретного приложения. Фиг.11 показывает такую кривую DRC, где цель AGC попадает в пределы “нулевой полосы” DRC, участка кривой, который не требует изменений. При такой комбинации кривых AGC устанавливает долгосрочную громкость звукового сигнала в пределах нулевой полосы кривой DRC, так что необходимо применение минимальных изменений быстродействующей DRC. Если краткосрочная громкость все еще колеблется вне нулевой полосы, DRC работает таким образом, чтобы сместить громкость звукового сигнала к этой нулевой полосе. В качестве последнего общего замечания можно применить медленнодействующую AGC из условия, чтобы на каждую полосу модели громкости приходилось одинаковое количество изменений громкости, посредством чего сохраняется воспринимаемый спектральный баланс, и можно применить быстродействующую DRC таким образом, чтобы допустить изменение модификации громкости по полосам для уменьшения межспектральной подкачки, которая в противном случае может появиться в результате быстродействующей, не зависящей от полос модификации громкости.
Акустические события могут быть использованы для регулировки атаки и возврата обеих регулировок AGC и DRC. В случае AGC оба времени атаки и возврата являются большими по сравнению с разрешением по времени восприятия события, и, следовательно, регулировку события можно выгодно применять в обоих случаях. При DRC атака является относительно короткой, и, следовательно, регулировка события может потребоваться только для возврата, как при DRC, описанной выше.
Как обсуждалось ранее, можно использовать спектр конкретной громкости, связанный с применяемой моделью громкости, с целью обнаружения события. Разностный сигнал , аналогичный сигналу в уравнениях 10,а и b, можно вычислить из конкретной громкости , определенной в уравнении (2), следующим образом:
Здесь максимальное значение по полосам b частот используется для нормирования, хотя можно использовать другие нормировочные множители; например, среднее значение по полосам частот. Если разница превышает пороговую величину Dmin, считают, что событие случилось. Разностный сигнал может быть затем обработан способом, аналогичным показанному в уравнениях (11) и (12) для генерации сглаженного управляющего сигнала события, используемого для регулировки времени атаки и возврата.
Кривая AGC, изображенная на Фиг.11, может быть представлена в виде функции, которая в качестве своего входного значения берет значение громкости и генерирует требуемую выходную громкость:
Кривая DRC может быть представлена аналогичным образом
Для AGC входная громкость является мерой долгосрочной громкости звукового сигнала. Можно вычислить такую меру сглаживанием мгновенной громкости , определенной в уравнении (3), используя относительно длинные константы времени (порядка нескольких секунд). Показано, что при оценке долгосрочной громкости звукового сегмента людям тяжелее анализировать более громкие участки, чем более тихие, и можно использовать более быструю атаку вместо возврата при сглаживании, чтобы имитировать этот эффект. При включении регулировки события в атаку и возврат долгосрочную громкость, используемую для определения модификации AGC, можно, следовательно, вычислить в соответствии с формулой
где
Дополнительно можно вычислить соответствующий спектр долгосрочной конкретной громкости, который позже будет использован для многополосной DRC:
На практике можно выбрать сглаживающие коэффициенты из условия, чтобы время атаки было равно приблизительно половине времени возврата. Задавая значение долгосрочной громкости, можно затем вычислить масштабирование модификации громкости, связанное с AGC, в виде отношения выходной громкости к входной громкости:
Теперь можно вычислить модификацию DRC из громкости после применения изменения масштаба AGC. Вместо сглаживания значения громкости до применения кривой DRC можно, в качестве альтернативы, применить кривую DRC к мгновенной громкости и затем впоследствии сгладить результирующую модификацию. Это аналогично технологии, описанной ранее для сглаживания усиления традиционной DRC. Дополнительно DRC можно применить в многополосном режиме, что означает, что модификация DRC является функцией конкретной громкости в каждой полосе b, а не общей громкости . Тем не менее, для сохранения среднего спектрального баланса исходного звукового сигнала можно применить DRC к каждой полосе из условия, чтобы результирующие модификации имели такой же средний эффект, какой был бы в результате применения DRC к общей громкости. Этого можно достигнуть, масштабируя каждую полосу отношением долгосрочной общей громкости (после применения масштабирования AGC) к долгосрочной конкретной громкости и используя это значение в качестве аргумента функции DRC. Результат затем повторно масштабируют с помощью обратной величины упомянутого отношения для получения выходной конкретной громкости. Таким образом, масштабирование DRC в каждой полосе может быть вычислено в соответствии с формулой
Модификации AGC и DRC можно затем объединить для получения общего масштабирования, приходящегося на каждую полосу:
Это общее масштабирование затем может быть сглажено по времени независимо для каждой полосы быстрой атакой и медленным возвратом и регулировкой события, примененной только к возврату. В идеальном варианте сглаживание выполняют по логарифму масштабирования по аналогии с усилениями традиционной DRC при сглаживании их представления в децибелах, хотя это несущественно. Чтобы гарантировать, что сглаженное общее масштабирование движется синхронно с конкретной громкостью в каждой полосе, режимы атаки и возврата могут быть определены одновременным сглаживанием самой конкретной громкости:
где
В итоге можно вычислить целевую конкретную громкость, основываясь на сглаженном изменении масштаба, который был применен к исходной конкретной громкости
и затем найти усиления , которые при применении к исходному возбуждению приводят к конкретной громкости, равной целевой:
Усиления можно применить к каждой полосе гребенки фильтров, используемой для вычисления возбуждения, и затем измененный звуковой сигнал может быть сгенерирован инвертированием гребенки фильтров для получения измененного звукового сигнала временной области.
РЕГУЛИРОВКА ДОПОЛНИТЕЛЬНЫХ ПАРАМЕТРОВ
Хотя вышеприведенное обсуждение сфокусировано на регулировке параметров атаки и возврата AGC и DRC посредством анализа акустических сцен обрабатываемого звукового сигнала, преимуществом регулировки посредством результатов ASA могут быть другие важные параметры. Например, управляющий сигнал события из уравнения (12) может быть использован для изменения значения параметра отношения DRC, который используется для динамической настройки усиления звукового сигнала. Параметр отношения, аналогичный параметрам времени атаки и возврата, может вносить значительный вклад в слышимые артефакты, производимые динамическими настройками усиления.
РЕАЛИЗАЦИЯ
Изобретение может быть реализовано посредством аппаратных или программных средств или их комбинации (например, программируемой логической матрицы). Если иное не установлено, алгоритмы, включенные как часть изобретения, по существу не связаны с каким-либо конкретным компьютером или другой аппаратурой. В частности, различные машины общего назначения могут быть использованы с программами, написанными в соответствии с изложенными здесь идеями, или может быть более удобным конструирование более специализированного прибора (например, интегральных схем) для выполнения требуемых этапов способа. Таким образом, изобретение может быть реализовано в одной или более компьютерных программах, исполняемых в одной или более программируемых компьютерных системах, каждая из которых содержит по меньшей мере один процессор, по меньшей мере одну систему для хранения данных (включая энергозависимую и энергонезависимую память и/или элементы хранения), по меньшей мере одно устройство ввода или порт и по меньшей мере одно устройство вывода или порт. Программный код применяют к входным данным для выполнения функций, описываемых здесь, и генерации выходной информации. Выходную информацию применяют к одному или более выходным устройствам известным способом.
Каждая такая программа может быть реализована на любом требуемом языке программирования (включая машинный язык, язык ассемблера или высокоуровневые процедурные, логические или объектно-ориентированные языки программирования) для взаимодействия с компьютерной системой. В любом случае язык может быть транслируемым или интерпретируемым языком.
Каждую такую компьютерную программу предпочтительно сохраняют или загружают на запоминающий носитель или устройство (например, твердотельную память или носитель либо магнитный или оптический носитель), считываемую программируемым компьютером общего или специального назначения для конфигурирования и работы компьютера при считывании компьютерной системой запоминающего носителя или устройства для выполнения описанных здесь процедур. Систему согласно изобретению можно также рассматривать как систему, реализуемую в виде считываемой компьютером запоминающего носителя, на котором записана компьютерная программа, причем сконфигурированная таким образом запоминающая среда предписывает компьютерной системе работать конкретным и заданным образом для выполнения описанных здесь функций.
Описано определенное количество воплощений изобретения. Тем не менее, следует понимать, что могут быть сделаны различные модификации без отклонения от сущности и объема изобретения. Например, некоторые из описанных здесь этапов могут не зависеть от порядка выполнения и, таким образом, могут быть выполнены в порядке, отличном от описанного.
Следует понимать, что реализация других вариантов и модификаций изобретения и его различных аспектов будет очевидна специалистам в данной области техники и что изобретение не ограничено этими конкретными описанными воплощениями. Следовательно, предусмотрен охват настоящим изобретением любых и всех модификаций, вариантов или эквивалентов, которые подпадают под подлинные сущность и объем раскрытых и заявленных здесь основных преимущественных принципов.
ВКЛЮЧЕНИЕ ПОСРЕДСТВОМ ССЫЛКИ
Следующие патенты, патентные заявки и публикации включены в настоящую заявку посредством ссылки во всей полноте.
ДИНАМИЧЕСКАЯ ОБРАБОТКА ЗВУКОВОГО СИГНАЛА
Audio Engineer's Reference Book, под редакцией Michael Talbot-Smith, второе издание. Limiters and Compressors, Alan Tutton, 2-1492-165. Focal Press, Reed Educational and Professional Publishing, Ltd., 1999.
ОБНАРУЖЕНИЕ И ИСПОЛЬЗОВАНИЕ АКУСТИЧЕСКИХ СОБЫТИЙ
Патентная заявка США 10/474,387, “High Quality Time-Scaling and Pitch-Scaling of Audio Signals”, Brett Graham Crockett, опубликованная 24 июня 2004 как US 2004/0122662 A1.
Патентная заявка США 10/478,398, “Method for Time Aligning Audio Signals Using Characterizations Based on Auditory Events”, Brett G. Crockett и др., опубликованная 29 июля 2004 как US 2004/0148159 A1.
Патентная заявка США 10/478,538, “Segmenting Audio Signals Into Auditory Events”, Brett G. Crockett, опубликованная 26 августа 2004 как US 2004/0165730 A1. Аспекты настоящего изобретения обеспечивают способ обнаружения акустических событий дополнительно к способам, раскрытым в упомянутой заявке Crockett.
Патентная заявка США 10/478,397, “Comparing Audio Using Characterizations Based on Auditory Events”, Brett G. Crockett и др., опубликованная 2 сентября 2004 как US 2004/0172240 A1.
Международная заявка согласно Договору о патентной кооперации PCT/US 05/24630, поданная 13 июля 2005, озаглавленная “Method for Combining Audio Signals Using Auditory Scene Analysis”, Michael John Smithers, опубликованная 9 марта 2006 как WO 2006/026161.
Международная заявка согласно Договору о патентной кооперации PCT/US2004/016964, поданная 27 мая 2004, озаглавленная “ Method, Apparatus and Computer Program for Calculating and Adjusting the Perceived Loudness of an Audio Signal ”, Alan Jeffrey Seefeldt и др., опубликованная 23 декабря 2004 как WO 2004/111994 A2.
Международная заявка согласно Договору о патентной кооперации PCT/US2005/038579, поданная 25 октября 2005, озаглавленная “Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal”, Alan Jeffrey Seefeldt, и опубликованная как Международная публикация под номером WO 2006/047600.
“A Method for Characterizing and Identifying Audio Based on Auditory Scene Analysis”, Brett Crockett и Michael Smithers, Audio Engineering Society Convention Paper 6416, 118й Съезд, Барселона, 28-31 мая 2005.
“High Quality Multichannel Time Scaling and Pitch-Shifting using Auditory Scene Analysis”, Brett Crockett, Audio Engineering Society Convention Paper 5948, Нью-Йорк, октябрь 2003.
“A New Objective Measure of Perceived Loudness”, Alan Seefeldt и др., Audio Engineering Society Convention Paper 6236, Сан-Франциско, 28 октября 2004.
Handbook for Sound Engineers, The New Audio Cyclopedia, под редакцией Glen M. Ballou, второе издание. Dynamics, 850-851. Focal Press an imprint of Butterworth-Heinemann, 1998.
Audio Engineer's Reference Book, под редакцией Michael Talbot-Smith, второе издание, раздел 2.9 (“Limiters and Compressors”, Alan Tutton), cc. 2-1492-165. Focal Press, Reed Educational and Professional Publishing, Ltd., 1999.
Claims (13)
1. Способ изменения параметра динамической обработки звукового сигнала, содержащий этапы, на которых
обнаруживают изменения спектральных характеристик со временем в звуковом сигнале,
идентифицируют, что границы акустического события изменяются сильнее, чем пороговая величина в спектральных характеристиках со временем в упомянутом звуковом сигнале, причем звуковой сегмент между последовательными границами составляет акустическое событие,
генерируют управляющий сигнал, изменяющий параметр, на основе упомянутых идентифицированных границ события и
изменяют параметр динамической обработки звукового сигнала в зависимости от управляющего сигнала.
обнаруживают изменения спектральных характеристик со временем в звуковом сигнале,
идентифицируют, что границы акустического события изменяются сильнее, чем пороговая величина в спектральных характеристиках со временем в упомянутом звуковом сигнале, причем звуковой сегмент между последовательными границами составляет акустическое событие,
генерируют управляющий сигнал, изменяющий параметр, на основе упомянутых идентифицированных границ события и
изменяют параметр динамической обработки звукового сигнала в зависимости от управляющего сигнала.
2. Способ по п.1, в котором параметром является одно из времени атаки, времени возврата и отношения.
3. Способ по п.1, в котором изменяемым параметром является сглаживающая усиление постоянная времени.
4. Способ по п.3, в котором сглаживающей усиление постоянной времени является сглаживающая усиление постоянная времени атаки.
5. Способ по п.3, в котором сглаживающей усиление постоянной времени является сглаживающая усиление постоянная времени возврата.
6. Способ по п.1, в котором упомянутый управляющий сигнал, изменяющий параметр, основан на положении упомянутых идентифицированных границ акустического события и степени изменения спектральных характеристик, связанных с каждой из упомянутых границ акустического события.
7. Способ по п.6, в котором при генерации управляющего сигнала, изменяющего параметр:
обеспечивают импульс на каждой границе акустического события, причем каждый такой импульс имеет амплитуду, пропорциональную степени упомянутых изменений спектральных характеристик, и
сглаживают по времени каждый такой импульс, чтобы его амплитуда плавно спадала до нуля.
обеспечивают импульс на каждой границе акустического события, причем каждый такой импульс имеет амплитуду, пропорциональную степени упомянутых изменений спектральных характеристик, и
сглаживают по времени каждый такой импульс, чтобы его амплитуда плавно спадала до нуля.
8. Способ по п.1, в котором изменения спектральных характеристик со временем обнаруживают, сравнивая разницы в конкретной громкости.
9. Способ по п.8, в котором упомянутый звуковой сигнал представляют дискретной временной последовательностью х[n], которая получена взятием выборок в отношении источника звукового сигнала при частоте fs дискретизации, и изменения спектральных характеристик со временем вычисляют, сравнивая разницу в конкретной громкости N[b,t] по полосам b частот между последовательными блоками t времени.
12. Аппаратура для изменения параметра динамической обработки звукового сигнала, содержащая
средство для обнаружения изменений спектральных характеристик со временем в звуковом сигнале,
средство для идентификации того, что границы акустического события изменяются сильнее, чем пороговая величина в спектральных характеристиках со временем в упомянутом звуковом сигнале, причем звуковой сегмент между последовательными границами составляет акустическое событие,
средство для генерации управляющего сигнала, изменяющего параметр, на основе упомянутых идентифицированных границ события
и
средство для изменения параметра динамической обработки звукового сигнала в зависимости от управляющего сигнала.
средство для обнаружения изменений спектральных характеристик со временем в звуковом сигнале,
средство для идентификации того, что границы акустического события изменяются сильнее, чем пороговая величина в спектральных характеристиках со временем в упомянутом звуковом сигнале, причем звуковой сегмент между последовательными границами составляет акустическое событие,
средство для генерации управляющего сигнала, изменяющего параметр, на основе упомянутых идентифицированных границ события
и
средство для изменения параметра динамической обработки звукового сигнала в зависимости от управляющего сигнала.
13. Считываемый компьютером носитель, на котором сохранена компьютерная программа для предписания компьютеру выполнять способ по п.1.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US79580806P | 2006-04-27 | 2006-04-27 | |
US60/795,808 | 2006-04-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2008146747A RU2008146747A (ru) | 2010-06-10 |
RU2417514C2 true RU2417514C2 (ru) | 2011-04-27 |
Family
ID=38445597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2008146747/09A RU2417514C2 (ru) | 2006-04-27 | 2007-03-30 | Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий |
Country Status (22)
Country | Link |
---|---|
US (22) | US8144881B2 (ru) |
EP (1) | EP2011234B1 (ru) |
JP (2) | JP5129806B2 (ru) |
KR (2) | KR101041665B1 (ru) |
CN (2) | CN101432965B (ru) |
AT (1) | ATE493794T1 (ru) |
AU (2) | AU2007243586B2 (ru) |
BR (1) | BRPI0711063B1 (ru) |
CA (1) | CA2648237C (ru) |
DE (1) | DE602007011594D1 (ru) |
DK (1) | DK2011234T3 (ru) |
ES (1) | ES2359799T3 (ru) |
HK (2) | HK1126902A1 (ru) |
IL (1) | IL194430A (ru) |
MX (1) | MX2008013753A (ru) |
MY (1) | MY141426A (ru) |
NO (13) | NO345590B1 (ru) |
PL (1) | PL2011234T3 (ru) |
RU (1) | RU2417514C2 (ru) |
TW (1) | TWI455481B (ru) |
UA (1) | UA93243C2 (ru) |
WO (1) | WO2007127023A1 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2628219C2 (ru) * | 2012-02-24 | 2017-08-15 | Долби Интернэшнл Аб | Вещественное-в-комплексное преобразование с малой задержкой в банках фильтров с перекрытием для частично комплексной обработки |
Families Citing this family (106)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
BRPI0410740A (pt) | 2003-05-28 | 2006-06-27 | Dolby Lab Licensing Corp | método, aparelho e programa de computador para calcular e ajustar o volume percebido de um sinal de áudio |
EP2065885B1 (en) | 2004-03-01 | 2010-07-28 | Dolby Laboratories Licensing Corporation | Multichannel audio decoding |
US7508947B2 (en) | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
CN101048935B (zh) | 2004-10-26 | 2011-03-23 | 杜比实验室特许公司 | 控制音频信号的单位响度或部分单位响度的方法和设备 |
US8199933B2 (en) | 2004-10-26 | 2012-06-12 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
CN101228575B (zh) | 2005-06-03 | 2012-09-26 | 杜比实验室特许公司 | 利用侧向信息的声道重新配置 |
CN101410892B (zh) | 2006-04-04 | 2012-08-08 | 杜比实验室特许公司 | 改进的离散余弦变换域中的音频信号响度测量及修改 |
TWI517562B (zh) | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
RU2417514C2 (ru) | 2006-04-27 | 2011-04-27 | Долби Лэборетериз Лайсенсинг Корпорейшн | Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий |
JP4940308B2 (ja) | 2006-10-20 | 2012-05-30 | ドルビー ラボラトリーズ ライセンシング コーポレイション | リセットを用いるオーディオダイナミクス処理 |
US8521314B2 (en) | 2006-11-01 | 2013-08-27 | Dolby Laboratories Licensing Corporation | Hierarchical control path with constraints for audio dynamics processing |
ATE493731T1 (de) | 2007-06-08 | 2011-01-15 | Dolby Lab Licensing Corp | Hybridableitung von surround-sound-audiokanälen durch steuerbares kombinieren von umgebungs- und matrixdekodierten signalkomponenten |
EP2168122B1 (en) | 2007-07-13 | 2011-11-30 | Dolby Laboratories Licensing Corporation | Audio processing using auditory scene analysis and spectral skewness |
WO2009086174A1 (en) | 2007-12-21 | 2009-07-09 | Srs Labs, Inc. | System for adjusting perceived loudness of audio signals |
US9275652B2 (en) * | 2008-03-10 | 2016-03-01 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Device and method for manipulating an audio signal having a transient event |
CA2720636C (en) * | 2008-04-18 | 2014-02-18 | Dolby Laboratories Licensing Corporation | Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience |
US9253560B2 (en) * | 2008-09-16 | 2016-02-02 | Personics Holdings, Llc | Sound library and method |
WO2010033387A2 (en) | 2008-09-19 | 2010-03-25 | Dolby Laboratories Licensing Corporation | Upstream signal processing for client devices in a small-cell wireless network |
EP2329492A1 (en) | 2008-09-19 | 2011-06-08 | Dolby Laboratories Licensing Corporation | Upstream quality enhancement signal processing for resource constrained client devices |
CN102257728B (zh) * | 2008-10-17 | 2014-11-26 | 夏普株式会社 | 音频信号调节设备及音频信号调节方法 |
EP2362996B1 (en) * | 2008-11-14 | 2012-10-24 | THAT Corporation | Dynamic volume control and multi-spatial processing protection |
WO2010075377A1 (en) | 2008-12-24 | 2010-07-01 | Dolby Laboratories Licensing Corporation | Audio signal loudness determination and modification in the frequency domain |
EP2401872A4 (en) * | 2009-02-25 | 2012-05-23 | Conexant Systems Inc | SYSTEM AND METHOD FOR REDUCING SPEAKER DISTORTION |
US8422699B2 (en) * | 2009-04-17 | 2013-04-16 | Linear Acoustic, Inc. | Loudness consistency at program boundaries |
US8938313B2 (en) | 2009-04-30 | 2015-01-20 | Dolby Laboratories Licensing Corporation | Low complexity auditory event boundary detection |
WO2010127024A1 (en) | 2009-04-30 | 2010-11-04 | Dolby Laboratories Licensing Corporation | Controlling the loudness of an audio signal in response to spectral localization |
TWI503816B (zh) | 2009-05-06 | 2015-10-11 | Dolby Lab Licensing Corp | 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術 |
US9055374B2 (en) * | 2009-06-24 | 2015-06-09 | Arizona Board Of Regents For And On Behalf Of Arizona State University | Method and system for determining an auditory pattern of an audio segment |
US8249275B1 (en) * | 2009-06-26 | 2012-08-21 | Cirrus Logic, Inc. | Modulated gain audio control and zipper noise suppression techniques using modulated gain |
US8554348B2 (en) * | 2009-07-20 | 2013-10-08 | Apple Inc. | Transient detection using a digital audio workstation |
WO2011015237A1 (en) * | 2009-08-04 | 2011-02-10 | Nokia Corporation | Method and apparatus for audio signal classification |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
CN102577113A (zh) * | 2009-10-07 | 2012-07-11 | 日本电气株式会社 | 多带域压缩器及其调节方法 |
EP2367286B1 (en) * | 2010-03-12 | 2013-02-20 | Harman Becker Automotive Systems GmbH | Automatic correction of loudness level in audio signals |
US9172956B2 (en) | 2010-11-23 | 2015-10-27 | Lg Electronics Inc. | Encoding and decoding images using inter-prediction |
US8855322B2 (en) * | 2011-01-12 | 2014-10-07 | Qualcomm Incorporated | Loudness maximization with constrained loudspeaker excursion |
JP5707219B2 (ja) * | 2011-05-13 | 2015-04-22 | 富士通テン株式会社 | 音響制御装置 |
US9232321B2 (en) * | 2011-05-26 | 2016-01-05 | Advanced Bionics Ag | Systems and methods for improving representation by an auditory prosthesis system of audio signals having intermediate sound levels |
DE102011085036A1 (de) * | 2011-10-21 | 2013-04-25 | Siemens Medical Instruments Pte. Ltd. | Verfahren zum Ermitteln einer Kompressionskennlinie |
WO2013154868A1 (en) | 2012-04-12 | 2013-10-17 | Dolby Laboratories Licensing Corporation | System and method for leveling loudness variation in an audio signal |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
JP5527827B2 (ja) * | 2012-04-17 | 2014-06-25 | Necエンジニアリング株式会社 | ラウドネス調整装置、ラウドネス調整方法、及びプログラム |
US9685921B2 (en) | 2012-07-12 | 2017-06-20 | Dts, Inc. | Loudness control with noise detection and loudness drop detection |
US20140025230A1 (en) | 2012-07-17 | 2014-01-23 | Elwha LLC, a limited liability company of the State of Delaware | Unmanned device interaction methods and systems |
US20140025233A1 (en) | 2012-07-17 | 2014-01-23 | Elwha Llc | Unmanned device utilization methods and systems |
US9991861B2 (en) * | 2012-08-10 | 2018-06-05 | Bellevue Investments Gmbh & Co. Kgaa | System and method for controlled dynamics adaptation for musical content |
WO2014046941A1 (en) * | 2012-09-19 | 2014-03-27 | Dolby Laboratories Licensing Corporation | Method and system for object-dependent adjustment of levels of audio objects |
KR102473260B1 (ko) * | 2013-01-21 | 2022-12-05 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화 |
WO2014151813A1 (en) | 2013-03-15 | 2014-09-25 | Dolby Laboratories Licensing Corporation | Normalization of soundfield orientations based on auditory scene analysis |
CN104078050A (zh) | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
CN104079247B (zh) | 2013-03-26 | 2018-02-09 | 杜比实验室特许公司 | 均衡器控制器和控制方法以及音频再现设备 |
CN104080024B (zh) | 2013-03-26 | 2019-02-19 | 杜比实验室特许公司 | 音量校平器控制器和控制方法以及音频分类器 |
JP6216553B2 (ja) * | 2013-06-27 | 2017-10-18 | クラリオン株式会社 | 伝搬遅延補正装置及び伝搬遅延補正方法 |
CN105531759B (zh) * | 2013-09-12 | 2019-11-26 | 杜比实验室特许公司 | 用于下混合音频内容的响度调整 |
US10095468B2 (en) * | 2013-09-12 | 2018-10-09 | Dolby Laboratories Licensing Corporation | Dynamic range control for a wide variety of playback environments |
US9608588B2 (en) * | 2014-01-22 | 2017-03-28 | Apple Inc. | Dynamic range control with large look-ahead |
US10063207B2 (en) | 2014-02-27 | 2018-08-28 | Dts, Inc. | Object-based audio loudness management |
JP6224850B2 (ja) | 2014-02-28 | 2017-11-01 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 会議における変化盲を使った知覚的連続性 |
CN105142067B (zh) | 2014-05-26 | 2020-01-07 | 杜比实验室特许公司 | 音频信号响度控制 |
US10013992B2 (en) | 2014-07-11 | 2018-07-03 | Arizona Board Of Regents On Behalf Of Arizona State University | Fast computation of excitation pattern, auditory pattern and loudness |
WO2016011288A1 (en) | 2014-07-16 | 2016-01-21 | Eariq, Inc. | System and method for calibration and reproduction of audio signals based on auditory feedback |
CN113257275A (zh) | 2014-10-01 | 2021-08-13 | 杜比国际公司 | 高效drc配置文件传输 |
WO2016057530A1 (en) | 2014-10-10 | 2016-04-14 | Dolby Laboratories Licensing Corporation | Transmission-agnostic presentation-based program loudness |
JP6228100B2 (ja) * | 2014-11-17 | 2017-11-08 | Necプラットフォームズ株式会社 | ラウドネス調整装置、ラウドネス調整方法及びラウドネス調整用プログラム |
US20160171987A1 (en) * | 2014-12-16 | 2016-06-16 | Psyx Research, Inc. | System and method for compressed audio enhancement |
EP3275208B1 (en) * | 2015-03-25 | 2019-12-25 | Dolby Laboratories Licensing Corporation | Sub-band mixing of multiple microphones |
EP3286757B1 (en) * | 2015-04-24 | 2019-10-23 | Cyber Resonance Corporation | Methods and systems for performing signal analysis to identify content types |
US10109288B2 (en) * | 2015-05-27 | 2018-10-23 | Apple Inc. | Dynamic range and peak control in audio using nonlinear filters |
GB2539875B (en) | 2015-06-22 | 2017-09-20 | Time Machine Capital Ltd | Music Context System, Audio Track Structure and method of Real-Time Synchronization of Musical Content |
US9837086B2 (en) * | 2015-07-31 | 2017-12-05 | Apple Inc. | Encoded audio extended metadata-based dynamic range control |
MX2018001819A (es) | 2015-08-28 | 2018-05-17 | Procter & Gamble | Catalizadores para la deshidratacion de acido hidroxipropionico y sus derivados. |
US9590580B1 (en) | 2015-09-13 | 2017-03-07 | Guoguang Electric Company Limited | Loudness-based audio-signal compensation |
US10341770B2 (en) * | 2015-09-30 | 2019-07-02 | Apple Inc. | Encoded audio metadata-based loudness equalization and dynamic equalization during DRC |
CN105404654A (zh) * | 2015-10-30 | 2016-03-16 | 魅族科技(中国)有限公司 | 一种音频文件播放方法及装置 |
WO2017079334A1 (en) | 2015-11-03 | 2017-05-11 | Dolby Laboratories Licensing Corporation | Content-adaptive surround sound virtualization |
US9756281B2 (en) | 2016-02-05 | 2017-09-05 | Gopro, Inc. | Apparatus and method for audio based video synchronization |
WO2017142916A1 (en) * | 2016-02-19 | 2017-08-24 | Dolby Laboratories Licensing Corporation | Diffusivity based sound processing method and apparatus |
US10923132B2 (en) | 2016-02-19 | 2021-02-16 | Dolby Laboratories Licensing Corporation | Diffusivity based sound processing method and apparatus |
CN105845151B (zh) * | 2016-05-30 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 应用于语音识别前端的音频增益调整方法和装置 |
US10657983B2 (en) * | 2016-06-15 | 2020-05-19 | Intel Corporation | Automatic gain control for speech recognition |
US9697849B1 (en) | 2016-07-25 | 2017-07-04 | Gopro, Inc. | Systems and methods for audio based synchronization using energy vectors |
US9640159B1 (en) * | 2016-08-25 | 2017-05-02 | Gopro, Inc. | Systems and methods for audio based synchronization using sound harmonics |
US9653095B1 (en) | 2016-08-30 | 2017-05-16 | Gopro, Inc. | Systems and methods for determining a repeatogram in a music composition using audio features |
GB201615538D0 (en) * | 2016-09-13 | 2016-10-26 | Nokia Technologies Oy | A method , apparatus and computer program for processing audio signals |
US9916822B1 (en) | 2016-10-07 | 2018-03-13 | Gopro, Inc. | Systems and methods for audio remixing using repeated segments |
TWI590239B (zh) * | 2016-12-09 | 2017-07-01 | 宏碁股份有限公司 | 語音信號處理裝置及語音信號處理方法 |
CN108281148B (zh) * | 2016-12-30 | 2020-12-22 | 宏碁股份有限公司 | 语音信号处理装置及语音信号处理方法 |
US10374564B2 (en) | 2017-04-20 | 2019-08-06 | Dts, Inc. | Loudness control with noise detection and loudness drop detection |
US10491179B2 (en) | 2017-09-25 | 2019-11-26 | Nuvoton Technology Corporation | Asymmetric multi-channel audio dynamic range processing |
CN111183476B (zh) * | 2017-10-06 | 2024-03-22 | 索尼欧洲有限公司 | 基于子窗口序列内的rms功率的音频文件包络 |
US11011180B2 (en) * | 2018-06-29 | 2021-05-18 | Guoguang Electric Company Limited | Audio signal dynamic range compression |
EP3827429A4 (en) | 2018-07-25 | 2022-04-20 | Dolby Laboratories Licensing Corporation | COMPRESSOR TARGET CURVE TO AVOID AMPLIFICATION NOISE |
JP7397066B2 (ja) * | 2018-09-07 | 2023-12-12 | グレースノート インコーポレイテッド | オーディオ分類を介した動的な音量調整のための方法、コンピュータ可読記憶媒体及び装置 |
US11775250B2 (en) | 2018-09-07 | 2023-10-03 | Gracenote, Inc. | Methods and apparatus for dynamic volume adjustment via audio classification |
JP7031543B2 (ja) * | 2018-09-21 | 2022-03-08 | 株式会社Jvcケンウッド | 処理装置、処理方法、再生方法、及びプログラム |
WO2020069120A1 (en) * | 2018-09-28 | 2020-04-02 | Dolby Laboratories Licensing Corporation | Distortion reducing multi-band compressor with dynamic thresholds based on scene switch analyzer guided distortion audibility model |
EP3871217A4 (en) * | 2018-10-24 | 2022-08-17 | Gracenote, Inc. | METHODS AND APPARATUS FOR ADJUSTING AUDIO PLAYBACK SETTINGS BASED ON ANALYSIS OF AUDIO CHARACTERISTICS |
US11347470B2 (en) | 2018-11-16 | 2022-05-31 | Roku, Inc. | Detection of media playback loudness level and corresponding adjustment to audio during media replacement event |
CN109889170B (zh) * | 2019-02-25 | 2021-06-04 | 珠海格力电器股份有限公司 | 音频信号的控制方法和装置 |
JP7275711B2 (ja) * | 2019-03-20 | 2023-05-18 | ヤマハ株式会社 | オーディオ信号の処理方法 |
US11133787B2 (en) * | 2019-06-25 | 2021-09-28 | The Nielsen Company (Us), Llc | Methods and apparatus to determine automated gain control parameters for an automated gain control protocol |
US11019301B2 (en) | 2019-06-25 | 2021-05-25 | The Nielsen Company (Us), Llc | Methods and apparatus to perform an automated gain control protocol with an amplifier based on historical data corresponding to contextual data |
WO2021183916A1 (en) * | 2020-03-13 | 2021-09-16 | Immersion Networks, Inc. | Loudness equalization system |
EP3961624A1 (de) * | 2020-08-28 | 2022-03-02 | Sivantos Pte. Ltd. | Verfahren zum betrieb einer hörvorrichtung in abhängigkeit eines sprachsignals |
Family Cites Families (168)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2808475A (en) | 1954-10-05 | 1957-10-01 | Bell Telephone Labor Inc | Loudness indicator |
DE1736966U (de) | 1956-09-28 | 1956-12-27 | Heinz Schulze | Luftschraube fuer spiel- und modell-flugzeuge. |
SU720691A1 (ru) | 1978-04-27 | 1980-03-05 | Предприятие П/Я Р-6609 | Устройство дл автоматического регулировани усилени |
US4281218A (en) | 1979-10-26 | 1981-07-28 | Bell Telephone Laboratories, Incorporated | Speech-nonspeech detector-classifier |
US4624009A (en) | 1980-05-02 | 1986-11-18 | Figgie International, Inc. | Signal pattern encoder and classifier |
DE3314570A1 (de) | 1983-04-22 | 1984-10-25 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Verfahren und anordnung zur einstellung der verstaerkung |
US4739514A (en) | 1986-12-22 | 1988-04-19 | Bose Corporation | Automatic dynamic equalizing |
US4887299A (en) | 1987-11-12 | 1989-12-12 | Nicolet Instrument Corporation | Adaptive, programmable signal processing hearing aid |
US4882762A (en) * | 1988-02-23 | 1989-11-21 | Resound Corporation | Multi-band programmable compression system |
KR940003351B1 (ko) | 1988-03-31 | 1994-04-20 | 주식회사 금성사 | 조도에 따른 자동이득 제어증폭기 이득 제어회로 |
US4953112A (en) | 1988-05-10 | 1990-08-28 | Minnesota Mining And Manufacturing Company | Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model |
US5027410A (en) | 1988-11-10 | 1991-06-25 | Wisconsin Alumni Research Foundation | Adaptive, programmable signal processing and filtering for hearing aids |
JPH02118322U (ru) | 1989-03-08 | 1990-09-21 | ||
US5097510A (en) | 1989-11-07 | 1992-03-17 | Gs Systems, Inc. | Artificial intelligence pattern-recognition-based noise reduction system for speech processing |
US5369711A (en) | 1990-08-31 | 1994-11-29 | Bellsouth Corporation | Automatic gain control for a headset |
ATE138238T1 (de) | 1991-01-08 | 1996-06-15 | Dolby Lab Licensing Corp | Kodierer/dekodierer für mehrdimensionale schallfelder |
US5632005A (en) | 1991-01-08 | 1997-05-20 | Ray Milton Dolby | Encoder/decoder for multidimensional sound fields |
EP0517233B1 (en) | 1991-06-06 | 1996-10-30 | Matsushita Electric Industrial Co., Ltd. | Music/voice discriminating apparatus |
US5278912A (en) | 1991-06-28 | 1994-01-11 | Resound Corporation | Multiband programmable compression system |
US5175769A (en) | 1991-07-23 | 1992-12-29 | Rolm Systems | Method for time-scale modification of signals |
KR940003351Y1 (ko) | 1991-10-17 | 1994-05-23 | 삼성전관 주식회사 | 편광판 부착장치 |
US5363147A (en) | 1992-06-01 | 1994-11-08 | North American Philips Corporation | Automatic volume leveler |
KR940003351A (ko) | 1992-07-15 | 1994-02-21 | 강진구 | 온 스크린 그래픽 표시 제어 장치 및 방법 |
GB2272615A (en) | 1992-11-17 | 1994-05-18 | Rudolf Bisping | Controlling signal-to-noise ratio in noisy recordings |
DE4335739A1 (de) | 1992-11-17 | 1994-05-19 | Rudolf Prof Dr Bisping | Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen |
US5457769A (en) | 1993-03-30 | 1995-10-10 | Earmark, Inc. | Method and apparatus for detecting the presence of human voice signals in audio signals |
US5706352A (en) | 1993-04-07 | 1998-01-06 | K/S Himpp | Adaptive gain and filtering circuit for a sound reproduction system |
US5434922A (en) | 1993-04-08 | 1995-07-18 | Miller; Thomas E. | Method and apparatus for dynamic sound optimization |
BE1007355A3 (nl) | 1993-07-26 | 1995-05-23 | Philips Electronics Nv | Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling. |
IN184794B (ru) | 1993-09-14 | 2000-09-30 | British Telecomm | |
JP2986345B2 (ja) | 1993-10-18 | 1999-12-06 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声記録指標化装置及び方法 |
TW247390B (en) | 1994-04-29 | 1995-05-11 | Audio Products Int Corp | Apparatus and method for adjusting levels between channels of a sound system |
US5463695A (en) * | 1994-06-20 | 1995-10-31 | Aphex Systems, Ltd. | Peak accelerated compressor |
US5500902A (en) | 1994-07-08 | 1996-03-19 | Stockham, Jr.; Thomas G. | Hearing aid device incorporating signal processing techniques |
GB9419388D0 (en) | 1994-09-26 | 1994-11-09 | Canon Kk | Speech analysis |
US5548538A (en) | 1994-12-07 | 1996-08-20 | Wiltron Company | Internal automatic calibrator for vector network analyzers |
US5682463A (en) | 1995-02-06 | 1997-10-28 | Lucent Technologies Inc. | Perceptual audio compression based on loudness uncertainty |
CA2167748A1 (en) | 1995-02-09 | 1996-08-10 | Yoav Freund | Apparatus and methods for machine learning hypotheses |
DE59510501D1 (de) | 1995-03-13 | 2003-01-23 | Phonak Ag Staefa | Verfahren zur Anpassung eines Hörgerätes, Vorrichtung hierzu und Hörgerät |
US5727119A (en) | 1995-03-27 | 1998-03-10 | Dolby Laboratories Licensing Corporation | Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase |
US6041295A (en) | 1995-04-10 | 2000-03-21 | Corporate Computer Systems | Comparing CODEC input/output to adjust psycho-acoustic parameters |
US6301555B2 (en) | 1995-04-10 | 2001-10-09 | Corporate Computer Systems | Adjustable psycho-acoustic parameters |
US5601617A (en) | 1995-04-26 | 1997-02-11 | Advanced Bionics Corporation | Multichannel cochlear prosthesis with flexible control of stimulus waveforms |
JPH08328599A (ja) | 1995-06-01 | 1996-12-13 | Mitsubishi Electric Corp | Mpegオーディオ復号器 |
US5663727A (en) | 1995-06-23 | 1997-09-02 | Hearing Innovations Incorporated | Frequency response analyzer and shaping apparatus and digital hearing enhancement apparatus and method utilizing the same |
US5712954A (en) | 1995-08-23 | 1998-01-27 | Rockwell International Corp. | System and method for monitoring audio power level of agent speech in a telephonic switch |
US6002776A (en) | 1995-09-18 | 1999-12-14 | Interval Research Corporation | Directional acoustic signal processor and method therefor |
US5907622A (en) | 1995-09-21 | 1999-05-25 | Dougherty; A. Michael | Automatic noise compensation system for audio reproduction equipment |
WO1997027578A1 (en) * | 1996-01-26 | 1997-07-31 | Motorola Inc. | Very low bit rate time domain speech analyzer for voice messaging |
US6327366B1 (en) | 1996-05-01 | 2001-12-04 | Phonak Ag | Method for the adjustment of a hearing device, apparatus to do it and a hearing device |
US6108431A (en) | 1996-05-01 | 2000-08-22 | Phonak Ag | Loudness limiter |
US6430533B1 (en) | 1996-05-03 | 2002-08-06 | Lsi Logic Corporation | Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation |
JPH09312540A (ja) | 1996-05-23 | 1997-12-02 | Pioneer Electron Corp | ラウドネスボリュームコントロール装置 |
JP3765622B2 (ja) | 1996-07-09 | 2006-04-12 | ユナイテッド・モジュール・コーポレーション | オーディオ符号化復号化システム |
DK0820212T3 (da) | 1996-07-19 | 2010-08-02 | Bernafon Ag | Lydstyrkestyret bearbejdning af akustiske signaler |
JPH1074097A (ja) | 1996-07-26 | 1998-03-17 | Ind Technol Res Inst | オーディオ信号のパラメータを変更する方法及び装置 |
JP2953397B2 (ja) | 1996-09-13 | 1999-09-27 | 日本電気株式会社 | ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器 |
US6049766A (en) | 1996-11-07 | 2000-04-11 | Creative Technology Ltd. | Time-domain time/pitch scaling of speech or audio signals with transient handling |
JP2991982B2 (ja) | 1996-11-29 | 1999-12-20 | 日本イーライリリー株式会社 | 注射練習器具 |
US6570991B1 (en) | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
US5862228A (en) | 1997-02-21 | 1999-01-19 | Dolby Laboratories Licensing Corporation | Audio matrix encoding |
US6125343A (en) | 1997-05-29 | 2000-09-26 | 3Com Corporation | System and method for selecting a loudest speaker by comparing average frame gains |
US6272360B1 (en) | 1997-07-03 | 2001-08-07 | Pan Communications, Inc. | Remotely installed transmitter and a hands-free two-way voice terminal device using same |
US6185309B1 (en) | 1997-07-11 | 2001-02-06 | The Regents Of The University Of California | Method and apparatus for blind separation of mixed and convolved sources |
KR100261904B1 (ko) | 1997-08-29 | 2000-07-15 | 윤종용 | 헤드폰 사운드 출력장치 |
US6088461A (en) | 1997-09-26 | 2000-07-11 | Crystal Semiconductor Corporation | Dynamic volume control system |
US6330672B1 (en) | 1997-12-03 | 2001-12-11 | At&T Corp. | Method and apparatus for watermarking digital bitstreams |
US6233554B1 (en) | 1997-12-12 | 2001-05-15 | Qualcomm Incorporated | Audio CODEC with AGC controlled by a VOCODER |
US6298139B1 (en) | 1997-12-31 | 2001-10-02 | Transcrypt International, Inc. | Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control |
US6182033B1 (en) | 1998-01-09 | 2001-01-30 | At&T Corp. | Modular approach to speech enhancement with an application to speech coding |
US6353671B1 (en) | 1998-02-05 | 2002-03-05 | Bioinstco Corp. | Signal processing circuit and method for increasing speech intelligibility |
US6311155B1 (en) | 2000-02-04 | 2001-10-30 | Hearing Enhancement Company Llc | Use of voice-to-remaining audio (VRA) in consumer applications |
US6498855B1 (en) | 1998-04-17 | 2002-12-24 | International Business Machines Corporation | Method and system for selectively and variably attenuating audio data |
DE69910780T3 (de) | 1998-06-08 | 2012-06-06 | Cochlear Ltd. | Hörhilfevorrichtung |
EP0980064A1 (de) | 1998-06-26 | 2000-02-16 | Ascom AG | Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen |
GB2340351B (en) | 1998-07-29 | 2004-06-09 | British Broadcasting Corp | Data transmission |
US6351731B1 (en) | 1998-08-21 | 2002-02-26 | Polycom, Inc. | Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor |
US6823303B1 (en) | 1998-08-24 | 2004-11-23 | Conexant Systems, Inc. | Speech encoder using voice activity detection in coding noise |
US6411927B1 (en) | 1998-09-04 | 2002-06-25 | Matsushita Electric Corporation Of America | Robust preprocessing signal equalization system and method for normalizing to a target environment |
FI113935B (fi) | 1998-09-25 | 2004-06-30 | Nokia Corp | Menetelmä äänitason kalibroimiseksi monikanavaisessa äänentoistojärjestelmässä ja monikanavainen äänentoistojärjestelmä |
US6266644B1 (en) | 1998-09-26 | 2001-07-24 | Liquid Audio, Inc. | Audio encoding apparatus and methods |
DE19848491A1 (de) | 1998-10-21 | 2000-04-27 | Bosch Gmbh Robert | Rundfunkempfänger zum Empfang von Radio-Daten und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals in einem Rundfunkempfänger |
US6314396B1 (en) | 1998-11-06 | 2001-11-06 | International Business Machines Corporation | Automatic gain control in a speech recognition system |
GB9824776D0 (en) | 1998-11-11 | 1999-01-06 | Kemp Michael J | Audio dynamic control effects synthesiser |
AU761865B2 (en) | 1999-02-05 | 2003-06-12 | Hearworks Pty Ltd | Adaptive dynamic range optimisation sound processor |
DE69933929T2 (de) | 1999-04-09 | 2007-06-06 | Texas Instruments Inc., Dallas | Bereitstellen von digitalen Audio- und Videoprodukten |
AU4278300A (en) | 1999-04-26 | 2000-11-10 | Dspfactory Ltd. | Loudness normalization control for a digital hearing aid |
US6263371B1 (en) | 1999-06-10 | 2001-07-17 | Cacheflow, Inc. | Method and apparatus for seaming of streaming content |
US6442278B1 (en) | 1999-06-15 | 2002-08-27 | Hearing Enhancement Company, Llc | Voice-to-remaining audio (VRA) interactive center channel downmix |
US6985594B1 (en) | 1999-06-15 | 2006-01-10 | Hearing Enhancement Co., Llc. | Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment |
US7212640B2 (en) | 1999-11-29 | 2007-05-01 | Bizjak Karl M | Variable attack and release system and method |
FR2802329B1 (fr) | 1999-12-08 | 2003-03-28 | France Telecom | Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames |
US6351733B1 (en) | 2000-03-02 | 2002-02-26 | Hearing Enhancement Company, Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
DE10018666A1 (de) | 2000-04-14 | 2001-10-18 | Harman Audio Electronic Sys | Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals |
US6651040B1 (en) | 2000-05-31 | 2003-11-18 | International Business Machines Corporation | Method for dynamic adjustment of audio input gain in a speech system |
US6889186B1 (en) | 2000-06-01 | 2005-05-03 | Avaya Technology Corp. | Method and apparatus for improving the intelligibility of digitally compressed speech |
CN100431355C (zh) | 2000-08-16 | 2008-11-05 | 多尔拜实验特许公司 | 响应补充信息修改音频或视频感知编码系统的一个或多个参数 |
AUPQ952700A0 (en) | 2000-08-21 | 2000-09-14 | University Of Melbourne, The | Sound-processing strategy for cochlear implants |
JP3448586B2 (ja) | 2000-08-29 | 2003-09-22 | 独立行政法人産業技術総合研究所 | 聴覚障害を考慮した音の測定方法およびシステム |
US20040013272A1 (en) * | 2001-09-07 | 2004-01-22 | Reams Robert W | System and method for processing audio data |
US6625433B1 (en) | 2000-09-29 | 2003-09-23 | Agere Systems Inc. | Constant compression automatic gain control circuit |
US6947888B1 (en) * | 2000-10-17 | 2005-09-20 | Qualcomm Incorporated | Method and apparatus for high performance low bit-rate coding of unvoiced speech |
US6807525B1 (en) | 2000-10-31 | 2004-10-19 | Telogy Networks, Inc. | SID frame detection with human auditory perception compensation |
DE60029453T2 (de) | 2000-11-09 | 2007-04-12 | Koninklijke Kpn N.V. | Messen der Übertragungsqualität einer Telefonverbindung in einem Fernmeldenetz |
US7457422B2 (en) | 2000-11-29 | 2008-11-25 | Ford Global Technologies, Llc | Method and implementation for detecting and characterizing audible transients in noise |
WO2002056558A2 (en) | 2001-01-10 | 2002-07-18 | Univ Columbia | Active filter circuit with dynamically modifiable internal gain |
FR2820573B1 (fr) | 2001-02-02 | 2003-03-28 | France Telecom | Methode et dispositif de traitement d'une pluralite de flux binaires audio |
WO2004019656A2 (en) | 2001-02-07 | 2004-03-04 | Dolby Laboratories Licensing Corporation | Audio channel spatial translation |
EP1233509A1 (en) * | 2001-02-14 | 2002-08-21 | Thomson Licensing S.A. | Digital audio processor |
DE10107385A1 (de) | 2001-02-16 | 2002-09-05 | Harman Audio Electronic Sys | Vorrichtung zum geräuschabhängigen Einstellen der Lautstärken |
US6915264B2 (en) | 2001-02-22 | 2005-07-05 | Lucent Technologies Inc. | Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding |
EP1290914B1 (de) | 2001-04-10 | 2004-05-26 | Phonak Ag | Verfahren zur anpassung eines hörgerätes an ein individuum |
WO2002084645A2 (en) | 2001-04-13 | 2002-10-24 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
WO2002097790A1 (en) * | 2001-05-25 | 2002-12-05 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7283954B2 (en) | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7711123B2 (en) * | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
EP1251715B2 (en) | 2001-04-18 | 2010-12-01 | Sound Design Technologies Ltd. | Multi-channel hearing instrument with inter-channel communication |
US20020173864A1 (en) * | 2001-05-17 | 2002-11-21 | Crystal Voice Communications, Inc | Automatic volume control for voice over internet |
MXPA03010751A (es) * | 2001-05-25 | 2005-03-07 | Dolby Lab Licensing Corp | Segmentacion de senales de audio en eventos auditivos. |
US7177803B2 (en) | 2001-10-22 | 2007-02-13 | Motorola, Inc. | Method and apparatus for enhancing loudness of an audio signal |
US20040037421A1 (en) | 2001-12-17 | 2004-02-26 | Truman Michael Mead | Parital encryption of assembled bitstreams |
US7068723B2 (en) | 2002-02-28 | 2006-06-27 | Fuji Xerox Co., Ltd. | Method for automatically producing optimal summaries of linear media |
JP4714416B2 (ja) | 2002-04-22 | 2011-06-29 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 空間的オーディオのパラメータ表示 |
US7155385B2 (en) | 2002-05-16 | 2006-12-26 | Comerica Bank, As Administrative Agent | Automatic gain control for adjusting gain during non-speech portions |
US20030223597A1 (en) | 2002-05-29 | 2003-12-04 | Sunil Puria | Adapative noise compensation for dynamic signal enhancement |
US7447631B2 (en) | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
JP4257079B2 (ja) | 2002-07-19 | 2009-04-22 | パイオニア株式会社 | 周波数特性調整装置および周波数特性調整方法 |
DE10236694A1 (de) | 2002-08-09 | 2004-02-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren |
US7454331B2 (en) | 2002-08-30 | 2008-11-18 | Dolby Laboratories Licensing Corporation | Controlling loudness of speech in signals that contain speech and other types of audio material |
ATE447755T1 (de) | 2003-02-06 | 2009-11-15 | Dolby Lab Licensing Corp | Kontinuierliche audiodatensicherung |
DE10308483A1 (de) | 2003-02-26 | 2004-09-09 | Siemens Audiologische Technik Gmbh | Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät |
US7551745B2 (en) | 2003-04-24 | 2009-06-23 | Dolby Laboratories Licensing Corporation | Volume and compression control in movie theaters |
JP2004356894A (ja) | 2003-05-28 | 2004-12-16 | Mitsubishi Electric Corp | 音質調整装置 |
BRPI0410740A (pt) | 2003-05-28 | 2006-06-27 | Dolby Lab Licensing Corp | método, aparelho e programa de computador para calcular e ajustar o volume percebido de um sinal de áudio |
JP4226395B2 (ja) | 2003-06-16 | 2009-02-18 | アルパイン株式会社 | 音声補正装置 |
US8918316B2 (en) | 2003-07-29 | 2014-12-23 | Alcatel Lucent | Content identification system |
WO2005069679A2 (en) | 2004-01-13 | 2005-07-28 | Koninklijke Philips Electronics N.V. | Audio signal enhancement |
EP2065885B1 (en) | 2004-03-01 | 2010-07-28 | Dolby Laboratories Licensing Corporation | Multichannel audio decoding |
GB2413906A (en) | 2004-04-21 | 2005-11-09 | Imagination Tech Ltd | Radio volume control system |
US7574010B2 (en) | 2004-05-28 | 2009-08-11 | Research In Motion Limited | System and method for adjusting an audio signal |
EP1601171B1 (en) | 2004-05-28 | 2008-04-30 | Research In Motion Limited | System And Method For Adjusting An Audio Signal |
JP4168976B2 (ja) | 2004-05-28 | 2008-10-22 | ソニー株式会社 | オーディオ信号符号化装置及び方法 |
US20080095385A1 (en) * | 2004-06-30 | 2008-04-24 | Koninklijke Philips Electronics, N.V. | Method of and System for Automatically Adjusting the Loudness of an Audio Signal |
US7617109B2 (en) | 2004-07-01 | 2009-11-10 | Dolby Laboratories Licensing Corporation | Method for correcting metadata affecting the playback loudness and dynamic range of audio information |
US7508947B2 (en) * | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
CN101048935B (zh) | 2004-10-26 | 2011-03-23 | 杜比实验室特许公司 | 控制音频信号的单位响度或部分单位响度的方法和设备 |
WO2006058361A1 (en) | 2004-12-04 | 2006-06-08 | Dynamic Hearing Pty Ltd | Method and apparatus for adaptive sound processing parameters |
US20060126865A1 (en) | 2004-12-13 | 2006-06-15 | Blamey Peter J | Method and apparatus for adaptive sound processing parameters |
US8265295B2 (en) | 2005-03-11 | 2012-09-11 | Rane Corporation | Method and apparatus for identifying feedback in a circuit |
TWI397903B (zh) | 2005-04-13 | 2013-06-01 | Dolby Lab Licensing Corp | 編碼音訊之節約音量測量技術 |
TW200638335A (en) | 2005-04-13 | 2006-11-01 | Dolby Lab Licensing Corp | Audio metadata verification |
TWI396188B (zh) | 2005-08-02 | 2013-05-11 | Dolby Lab Licensing Corp | 依聆聽事件之函數控制空間音訊編碼參數的技術 |
BRPI0709877B1 (pt) | 2006-04-04 | 2019-12-31 | Dolby Laboratories Licensing Corp | método e aparelho para controlar uma característica de intensidade acústica particular de um sinal de áudio |
CN101410892B (zh) | 2006-04-04 | 2012-08-08 | 杜比实验室特许公司 | 改进的离散余弦变换域中的音频信号响度测量及修改 |
TWI517562B (zh) | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
RU2417514C2 (ru) * | 2006-04-27 | 2011-04-27 | Долби Лэборетериз Лайсенсинг Корпорейшн | Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий |
US8750538B2 (en) | 2006-05-05 | 2014-06-10 | Creative Technology Ltd | Method for enhancing audio signals |
JP4940308B2 (ja) | 2006-10-20 | 2012-05-30 | ドルビー ラボラトリーズ ライセンシング コーポレイション | リセットを用いるオーディオダイナミクス処理 |
US8521314B2 (en) | 2006-11-01 | 2013-08-27 | Dolby Laboratories Licensing Corporation | Hierarchical control path with constraints for audio dynamics processing |
KR101106031B1 (ko) | 2007-01-03 | 2012-01-17 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 하이브리드 디지털/아날로그 음향 세기―보상 볼륨 제어 장치 및 그 제어 방법 |
EP2137867B1 (en) | 2007-03-15 | 2014-10-15 | InterDigital Technology Corporation | Method and apparatus for reordering data in an evolved high speed packet access system |
KR101163411B1 (ko) | 2007-03-19 | 2012-07-12 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 지각 모델을 사용한 스피치 개선 |
US8213624B2 (en) | 2007-06-19 | 2012-07-03 | Dolby Laboratories Licensing Corporation | Loudness measurement with spectral modifications |
US8054948B1 (en) | 2007-06-28 | 2011-11-08 | Sprint Communications Company L.P. | Audio experience for a communications device user |
WO2009086174A1 (en) | 2007-12-21 | 2009-07-09 | Srs Labs, Inc. | System for adjusting perceived loudness of audio signals |
JP4823352B2 (ja) | 2009-12-24 | 2011-11-24 | 株式会社東芝 | 情報処理装置 |
-
2007
- 2007-03-30 RU RU2008146747/09A patent/RU2417514C2/ru not_active IP Right Cessation
- 2007-03-30 NO NO20191310A patent/NO345590B1/no unknown
- 2007-03-30 ES ES07754779T patent/ES2359799T3/es active Active
- 2007-03-30 MX MX2008013753A patent/MX2008013753A/es active IP Right Grant
- 2007-03-30 CN CN2007800147428A patent/CN101432965B/zh not_active Expired - Fee Related
- 2007-03-30 KR KR1020087029070A patent/KR101041665B1/ko active IP Right Grant
- 2007-03-30 UA UAA200813668A patent/UA93243C2/ru unknown
- 2007-03-30 BR BRPI0711063-4A patent/BRPI0711063B1/pt not_active IP Right Cessation
- 2007-03-30 MY MYPI20084037A patent/MY141426A/en unknown
- 2007-03-30 AT AT07754779T patent/ATE493794T1/de active
- 2007-03-30 DE DE602007011594T patent/DE602007011594D1/de active Active
- 2007-03-30 AU AU2007243586A patent/AU2007243586B2/en not_active Ceased
- 2007-03-30 TW TW096111338A patent/TWI455481B/zh not_active IP Right Cessation
- 2007-03-30 CA CA2648237A patent/CA2648237C/en not_active Expired - Fee Related
- 2007-03-30 EP EP07754779A patent/EP2011234B1/en active Active
- 2007-03-30 JP JP2009507694A patent/JP5129806B2/ja active Active
- 2007-03-30 PL PL07754779T patent/PL2011234T3/pl unknown
- 2007-03-30 US US12/226,698 patent/US8144881B2/en not_active Expired - Fee Related
- 2007-03-30 KR KR1020117001302A patent/KR101200615B1/ko active IP Right Grant
- 2007-03-30 DK DK07754779.2T patent/DK2011234T3/da active
- 2007-03-30 WO PCT/US2007/008313 patent/WO2007127023A1/en active Application Filing
- 2007-03-30 CN CN201210148962.2A patent/CN102684628B/zh not_active Expired - Fee Related
-
2008
- 2008-09-28 IL IL194430A patent/IL194430A/en active IP Right Grant
- 2008-10-16 NO NO20084336A patent/NO339346B1/no not_active IP Right Cessation
-
2009
- 2009-07-03 HK HK09106026.6A patent/HK1126902A1/xx not_active IP Right Cessation
-
2011
- 2011-02-09 JP JP2011025711A patent/JP5255663B2/ja active Active
- 2011-03-24 AU AU2011201348A patent/AU2011201348B2/en not_active Ceased
-
2012
- 2012-02-28 US US13/406,929 patent/US9136810B2/en active Active
- 2012-05-04 US US13/464,102 patent/US8428270B2/en active Active
-
2013
- 2013-03-19 HK HK13103397.8A patent/HK1176177A1/xx not_active IP Right Cessation
- 2013-03-26 US US13/850,380 patent/US9450551B2/en active Active
-
2016
- 2016-08-12 NO NO20161296A patent/NO342157B1/no unknown
- 2016-08-12 NO NO20161295A patent/NO342160B1/no not_active IP Right Cessation
- 2016-08-17 US US15/238,820 patent/US9685924B2/en not_active Expired - Fee Related
- 2016-09-12 NO NO20161439A patent/NO342164B1/no unknown
-
2017
- 2017-03-02 US US15/447,518 patent/US9780751B2/en not_active Expired - Fee Related
- 2017-03-02 US US15/447,543 patent/US9787268B2/en not_active Expired - Fee Related
- 2017-03-02 US US15/447,482 patent/US9742372B2/en not_active Expired - Fee Related
- 2017-03-02 US US15/447,529 patent/US9774309B2/en not_active Expired - Fee Related
- 2017-03-02 US US15/447,456 patent/US9698744B1/en not_active Expired - Fee Related
- 2017-03-02 US US15/447,503 patent/US9768750B2/en not_active Expired - Fee Related
- 2017-03-02 US US15/447,564 patent/US9866191B2/en not_active Expired - Fee Related
- 2017-03-02 US US15/447,493 patent/US9762196B2/en not_active Expired - Fee Related
- 2017-03-02 US US15/447,469 patent/US9768749B2/en not_active Expired - Fee Related
- 2017-03-02 US US15/447,556 patent/US9787269B2/en not_active Expired - Fee Related
- 2017-11-10 US US15/809,413 patent/US10103700B2/en active Active
-
2018
- 2018-02-21 NO NO20180266A patent/NO343877B1/no unknown
- 2018-02-21 NO NO20180271A patent/NO344655B1/no unknown
- 2018-02-21 NO NO20180272A patent/NO344658B1/no unknown
- 2018-09-12 US US16/128,642 patent/US10284159B2/en active Active
-
2019
- 2019-01-07 NO NO20190018A patent/NO344363B1/no unknown
- 2019-01-07 NO NO20190002A patent/NO344364B1/no unknown
- 2019-01-07 NO NO20190022A patent/NO344013B1/no unknown
- 2019-01-08 NO NO20190024A patent/NO344362B1/no unknown
- 2019-01-08 NO NO20190025A patent/NO344361B1/no unknown
- 2019-03-27 US US16/365,947 patent/US10523169B2/en active Active
- 2019-12-29 US US16/729,468 patent/US10833644B2/en active Active
-
2020
- 2020-11-09 US US17/093,178 patent/US11362631B2/en active Active
-
2022
- 2022-06-13 US US17/839,099 patent/US11711060B2/en active Active
-
2023
- 2023-06-01 US US18/327,585 patent/US11962279B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2628219C2 (ru) * | 2012-02-24 | 2017-08-15 | Долби Интернэшнл Аб | Вещественное-в-комплексное преобразование с малой задержкой в банках фильтров с перекрытием для частично комплексной обработки |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2417514C2 (ru) | Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20210331 |