RU2417514C2

RU2417514C2 - Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий

Info

Publication number: RU2417514C2
Application number: RU2008146747/09A
Authority: RU
Inventors: Бретт Грехем КРОКЕТТ (US); Бретт Грехем Крокетт; Алан Джеффри СИФЕЛЬДТ (US); Алан Джеффри Сифельдт
Original assignee: Долби Лэборетериз Лайсенсинг Корпорейшн
Priority date: 2006-04-27
Filing date: 2007-03-30
Publication date: 2011-04-27
Also published as: NO339346B1; NO344362B1; NO20180272A1; NO20084336L; US20220394380A1; US9866191B2; US20170179903A1; CN101432965B; US10284159B2; MY141426A; US20120321096A1; NO20190024A1; NO20161439A1; CN102684628A; JP5129806B2; NO20161296A1; US20230318555A1; US9685924B2; US9742372B2; UA93243C2

Abstract

Изобретение относится к регулировке динамического диапазона звука. Техническим результатом является регулировка ключевых параметров динамической обработки звукового сигнала с использованием результатов анализа акустических сцен. Результат достигается тем, что в одном раскрытом аспекте изменения динамического усиления применяют к звуковому сигналу, по меньшей мере, частично в ответ на акустические события и/или степень изменения характеристик сигнала, связанных с границами акустического события. В другом аспекте звуковой сигнал делят на акустические события, сравнивая разницу между конкретными громкостями между последовательными блоками времени звукового сигнала. 3 н. и 10 з.п. ф-лы, 11 ил.

Description

Область техники, к которой относится изобретение

Изобретение относится к способам регулировки динамического диапазона звука и аппаратуре, в которой устройство обработки звука анализирует звуковой сигнал и изменяет уровень, коэффициент усиления или динамический диапазон звука, и все или некоторые параметры усиления звука и динамической обработки генерируются в виде функции акустических событий. Изобретение также относится к компьютерным программам для осуществления на практике таких способов или управления такой аппаратурой.

Настоящее изобретение также относится к способам и аппаратуре, использующим основанное на конкретной громкости обнаружение акустических событий. Изобретение также относится к компьютерным программам для осуществления на практике таких способов или управления такой аппаратурой.

ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ ИЗОБРЕТЕНИЯ

Динамическая обработка звука

Технологии автоматической регулировки усиления (AGC) и регулировки динамического диапазона (DRC) хорошо известны и являются обычным элементом многих путей звукового сигнала. В абстрактном смысле обе технологии неким образом измеряют уровень звукового сигнала и затем изменяют коэффициент усиления сигнала на величину, которая является функцией измеренного уровня. В линейной динамической системе со степенью компрессии (сжатия) 1:1 входной сигнал не обрабатывается, и выходной сигнал идеально совпадает с входным звуковым сигналом. Дополнительно, если имеет место динамическая система обработки звука, которая автоматически измеряет характеристики входного сигнала и использует это измерение для регулировки выходного сигнала, если уровень входного сигнала увеличивается на 6 дБ, а выходной сигнал обрабатывается таким образом, что его уровень увеличивается только на 3 дБ, степень компрессии для выходного сигнала составляет 2:1 по отношению к входному сигналу. Международная публикация под номером WO 2006/047600 A1 (“Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal”, Alan Jeffrey Seefeldt (“Вычисление и настройка воспринимаемой громкости и/или воспринимаемый спектральный баланс звукового сигнала”, Алан Джеффри Сифелдт)) обеспечивает подробный обзор пяти основных типов динамической обработки звука: компрессия, ограничение, автоматическая регулировка усиления (AGC), расширение и пропускание.

АКУСТИЧЕСКИЕ СОБЫТИЯ И ОБНАРУЖЕНИЕ АКУСТИЧЕСКИХ СОБЫТИЙ

Разделение звуков на блоки или сегменты, которые воспринимаются как отдельные и различные, иногда называют “анализом акустических событий” или “анализом акустических сцен” (ASA), и сегменты иногда называются “акустическими событиями” или “звуковыми событиями”. Подробное обсуждение анализа акустических сцен изложено Альбертом С. Брегманом в его книге Auditory Scene Analysis-The Perceptual Organization of Sound (Анализ акустических сцен - воспринимаемая организация звука), Институт технологии Массачусетса, 1991, четвертая печать, 2001, второе издание в бумажном переплете MIT Press. Дополнительно патент США №6002776, выданный Bhadkamkar (Бхадкамкар) и др. 14 декабря 1999, ссылается на публикации, относящиеся к 1976, как на “работу предшествующего уровня техники, относящуюся к выделению звука посредством анализа акустических сцен”. Тем не менее, патент Бхадкамкар и др. не одобряет практического использования анализа акустических сцен, заключая, что “технологии, включающие анализ акустических сцен, хотя и интересны с научной точки зрения в качестве моделей обработки человеческого слуха, в настоящее время требуют слишком много вычислений и могут рассматриваться как практические технологии для выделения звука до достижения фундаментального прогресса”.

Полезный способ идентификации акустических событий изложен Crockett и Crocket и др. (Крокетт и Крокет и др.) в различных патентных заявках и статьях, перечисленных ниже под заголовком “Включение посредством ссылки”. Согласно этим документам звуковой сигнал делится на акустические события, каждое из которых стремится к тому, что оно воспринимается как отдельное и отличное от других событие, посредством обнаружения изменений спектрального состава (амплитуды как функции частоты) со временем. Это можно сделать, например, вычисляя спектральный состав последовательных временных блоков звукового сигнала и идентифицируя границу акустического события как границу между последовательными временными блоками, если разница в спектральном составе между такими последовательными временными блоками превышает пороговую величину. Альтернативно вместо изменений спектрального состава со временем или дополнительно к ним могут быть вычислены изменения амплитуды со временем.

При реализации, требующей минимальных вычислений, процесс делит звуковой сигнал на временные сегменты, анализируя всю полосу частот (полную полосу пропускания звукового сигнала) или, по существу, целую полосу частот (в конкретных реализациях часто используется фильтр ограничения полосы частот на концах спектра) и придавая набольшее значение самым громким компонентам звукового сигнала. Этот подход использует преимущество явления, относящегося к психологии слухового восприятия, при котором при меньшей шкале времени (20 миллисекунд (мсек) и меньше) ухо может иметь склонность к фокусировке на одном акустическом событии за заданное время. Это подразумевает, что хотя одновременно может происходить несколько событий, одна компонента стремится к большему выделению при восприятии и может быть обработана индивидуально, как если бы она была единственным событием, которое имело место. Использование преимущества этого эффекта также допускает обнаружение акустического события, сопоставимое со сложностью обработанного звукового сигнала. Например, если обработанным входным звуковым сигналом является звук сольного инструмента, идентифицированными акустическими событиями вероятнее всего будут отдельные сыгранные ноты. Подобным образом, для входного речевого сигнала скорее всего будут идентифицированы отдельные компоненты речи, гласные звуки и согласные звуки в качестве отдельных звуковых элементов. С увеличением сложности звукового сигнала, например музыки с барабанным боем или несколькими инструментами и голосом, обнаружение акустического события идентифицирует “самый выделяющийся” (т.е. самый громкий) звуковой элемент в любой заданный момент.

За счет большей вычислительной сложности процесс может также учесть изменения спектрального состава со временем в дискретных частотных поддиапазонах (постоянных или динамически определенных поддиапазонах или постоянных и динамически определенных поддиапазонах), а не на полной полосе пропускания. Этот альтернативный подход учитывает более одного звукового потока в разных частотных поддиапазонах, а не предполагает, что только один поток может быть воспринят в конкретный момент времени.

Обнаружение акустического события может быть реализовано разделением звукового сигнала временной области на временные интервалы или блоки и затем преобразованием данных из каждого блока в частотную область, используя либо гребенку фильтров, либо частотно-временное преобразование, например FFT. Амплитуда спектральных составляющих каждого блока может быть нормирована для исключения или уменьшения эффекта амплитудных изменений. Каждое результирующее представление частотной области обеспечивает индикацию спектрального состава звука в конкретном блоке. Спектральный состав последовательных блоков сравнивается, и изменения, которые превышают пороговое значение, могут быть взяты для индикации временного начала или временного конца акустического события.

Предпочтительно данные частотной области нормируются, как описано ниже. Степень, до которой данные частотной области должны быть нормированы, дает индикацию амплитуды. Следовательно, если изменение в этой степени превышает заранее заданное пороговое значение, это также может быть принято за индикацию границ события. Начальные и конечные точки события, которые являются результатом спектральных изменений и амплитудных изменений, могут быть логически сложены вместе, чтобы границы события, полученные в результате изменений обоих типов, были идентифицированы.

Хотя технологии, описанные в упомянутых публикациях и статьях Крокетт и Крокет и др., являются, в частности, полезными вместе с аспектами настоящего изобретения, другие технологии для идентификации акустических событий и границ события могут быть использованы в аспектах настоящего изобретения.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

Традиционная динамическая обработка звукового сигнала предшествующего уровня техники задействует умножение звукового сигнала на зависящий от времени управляющий сигнал, который настраивает усиление звукового сигнала, получая требуемый результат. “Усилением” является масштабный коэффициент, который изменяет масштаб амплитуды звукового сигнала. Этот управляющий сигнал может генерироваться на постоянной основе или из блоков звуковых данных, но обычно его производит некоторая форма измерения обработанного звукового сигнала, и скорость его изменения определяют сглаживающие фильтры, иногда с постоянными характеристиками, а иногда с характеристиками, которые изменяются с динамикой звукового сигнала. Например, время отклика можно настроить в соответствии с изменениями магнитуды или мощности звукового сигнала. Способы предшествующего уровня техники, такие как автоматическая регулировка усиления (AGC) и компрессия динамического диапазона (DRC), не определяют каким-либо относящимся к психологии слухового восприятия способом временные интервалы, в течение которых изменения усиления могут быть восприняты как ухудшение и когда они могут быть применены без передачи слышимых артефактов. Следовательно, традиционные звуковые динамические процессы могут часто вносить слышимые артефакты, т.е. эффекты динамической обработки могут внести нежелательные воспринимаемые изменения в звуковой сигнал.

Анализ акустических сцен идентифицирует воспринимаемые дискретные акустические события, причем каждое событие происходит между двумя последовательными границами акустических событий. Акустические ухудшения, вызванные изменением усиления, могут быть значительно уменьшены обеспечением того, что в пределах акустического события усиление остается почти постоянным, и ограничением большей части изменения по соседству с границей события. В контексте компрессоров (средств сжатия) и расширителей (средств расширения) отклик на увеличение уровня звукового сигнала (часто называемое атакой) может быть быстрым, сравнимым с минимальной продолжительностью акустических событий или короче, но отклик на уменьшение (отпускание или возврат) может быть медленнее, так что звуки, которые должны казаться постоянными или должны постепенно ослабляться, могут быть явно нарушены. При таких обстоятельствах очень выгодно задержать возврат усиления до следующей границы или замедлить скорость изменения усиления во время события. Для приложений автоматической регулировки усиления, когда уровень громкости звука с продолжительностью от средней до длительной нормируется и оба времени атаки и возврата могут, следовательно, быть длительными по сравнению с минимальной продолжительностью акустического события, выгодно во время событий задержать изменения или замедлить скорости изменения усиления до границы следующего события для увеличивающего усиления и для уменьшающего усиления.

Согласно одному аспекту настоящего изобретения система обработки звукового сигнала принимает звуковой сигнал и анализирует, и изменяет характеристики усиления и/или динамического диапазона звукового сигнала. Изменением динамического диапазона звукового сигнала часто управляют параметры динамической системы обработки (время атаки и возврата, степень компрессии и т.д.), которые значительно влияют на воспринимаемые артефакты, вносимые динамической обработкой. Изменения характеристик сигнала со временем в звуковом сигнале обнаруживаются и идентифицируются как границы акустического события, так что звуковой сегмент между последовательными границами составляет акустическое событие в звуковом сигнале. Представляющие интерес характеристики акустических событий могут включать в себя такие характеристики событий, как сила и продолжительность восприятия. Некоторые из упомянутых одного или более параметров динамической обработки генерируются, по меньшей мере, частично в ответ на акустические события и/или степень изменения характеристик сигнала, связанных с упомянутыми границами акустического события.

Обычно акустическим событием является сегмент звукового сигнала, который имеет склонность к тому, что он воспринимается как отдельный и отличный от других сегмент. Одно используемое измерение характеристик сигнала включает в себя измерение спектрального состава звукового сигнала, например, как описано в упомянутых документах Крокетт и Крокет и др. Все или некоторые из одного или более параметров динамической обработки звукового сигнала могут генерироваться, по меньшей мере, частично в ответ на наличие или отсутствие и характеристики одного или более акустического события. Граница акустического события может быть идентифицирована как изменение характеристик сигнала со временем, которое превышает пороговое значение. Альтернативно все или некоторые из одного или более параметров могут генерироваться, по меньшей мере, частично в ответ на продолжающееся измерение степени изменения характеристик сигнала, связанных с упомянутыми границами акустического события. Хотя в принципе аспекты изобретения могут быть реализованы в аналоговых и/или цифровых областях, практические реализации вероятнее всего должны быть реализованы в цифровой области, в которой каждый из звуковых сигналов представлен отдельными выборками или выборками в пределах блоков данных. В этом случае характеристиками сигнала может быть спектральный состав звукового сигнала в пределах блока, обнаружением изменений в характеристиках сигнала со временем может быть обнаружение изменений спектрального состава звукового сигнала от блока к блоку, и начальная и конечная границы акустического события, каждая, совпадает с границами блока данных. Следует заметить, что для более традиционного случая выполнения динамических изменений усиления на основе выборок описанный анализ акустических сцен может быть выполнен на основе блока и результирующей информации об акустическом событии, используемой для выполнения динамических изменений усиления, которые были применены к выборкам.

Регулируя ключевые параметры динамической обработки звукового сигнала с использованием результатов анализа акустических сцен, можно получить внезапное уменьшение слышимых артефактов, вносимых динамической обработкой.

Настоящее изобретение представляет два способа выполнения анализа акустических сцен. Первый способ выполняет спектральный анализ и идентифицирует положение воспринимаемых звуковых событий, которые используются для регулировки параметров динамического усиления, идентифицируя изменения в спектральном составе. Второй способ преобразует звуковой сигнал в область воспринимаемой громкости (которая может обеспечить более релевантную, относящуюся к психологии слухового восприятия, информацию, чем первый способ) и идентифицирует положение акустических событий, которые потом используются для регулировки параметров динамического усиления. Следует заметить, что второй способ требует, чтобы обработка звукового сигнала знала об уровнях абсолютного воспроизведения звука, которые могут быть невозможны при некоторых реализациях. Представление обоих способов анализа акустических сцен допускает реализации изменения динамического усиления, регулируемого на основе ASA, с использованием процессов или устройств, которые могут или не могут быть откалиброваны для учета уровней абсолютного воспроизведения.

Аспекты настоящего изобретения описаны здесь в условиях динамической обработки звукового сигнала, которая включает аспекты других изобретений. Такие другие изобретения описаны в различных рассматриваемых патентных заявках США и международных патентных заявках Dolby Laboratories Licensing Corporation владельцем настоящей заявки, причем эти заявки установлены здесь.

ПЕРЕЧЕНЬ ЧЕРТЕЖЕЙ

Фиг.1 является логической блок-схемой, показывающей пример этапов обработки для выполнения анализа акустических сцен.

Фиг.2 показывает пример обработки блока, применения окна и выполнения DFT в отношении звукового сигнала во время выполнения анализа акустических сцен.

Фиг.3 является в своем роде логической блок-схемой или функциональной блок-схемой, показывающей параллельную обработку, при которой звуковой сигнал используют для идентификации акустических событий и для идентификации характеристик акустических событий из условия, чтобы события и их характеристики были использованы для изменения параметров динамической обработки.

Фиг.4 является в своем роде логической блок-схемой или функциональной блок-схемой, показывающей обработку, при которой звуковой сигнал используют только для идентификации акустических событий, а характеристики события определяют из обнаружения акустического события из условия, чтобы события и их характеристики были использованы для изменения параметров динамической обработки.

Фиг.5 является в своем роде логической блок-схемой или функциональной блок-схемой, показывающей обработку, при которой звуковой сигнал используют только для идентификации акустических событий, а характеристики события определяют из обнаружения акустического события из условия, чтобы только характеристики акустических событий были использованы для изменения параметров динамической обработки.

Фиг.6 показывает набор идеализированных характеристических характеристик звукового фильтра, который аппроксимирует критическую полосность шкалы ERB. По горизонтальной шкале отмечена частота в герцах, а по вертикальной шкале - уровень в децибелах.

Фиг.7 показывает контуры одинаковой громкости ISO 226. По горизонтальной шкале отмечена частота в герцах (шкала десятичных логарифмов), а по вертикальной шкале отмечен уровень звукового давления в децибелах.

Фиг.8,а-с показывают идеализированные входные/выходные характеристики и входные характеристики усиления компрессора динамического диапазона звука.

Фиг.9,a-f показывают пример использования акустических событий для регулировки времени возврата при цифровой реализации традиционного контроллера динамического диапазона (DRC), при которой регулировку усиления извлекают из среднеквадратического (RMS) значения мощности сигнала.

Фиг.10,a-f показывают пример использования акустических событий для регулировки времени возврата при цифровой реализации традиционного контроллера динамического диапазона (DRC), при которой регулировку усиления извлекают из среднеквадратического (RMS) значения мощности сигнала для сигнала, альтернативного используемому на Фиг.9 сигналу.

Фиг.11 изображает соответствующий набор идеализированных кривых AGC и DRC для применения AGC, за которой следует DRC, в системе динамической обработки области громкости. Задачей комбинации является получение приблизительно одинаковой воспринимаемой громкости для всех обработанных звуковых сигналов, сохраняя при этом, по меньшей мере, некоторые из исходных динамических характеристик звукового сигнала.

ЛУЧШИЙ РЕЖИМ ДЛЯ ВЫПОЛНЕНИЯ ИЗОБРЕТЕНИЯ

АНАЛИЗ АКУСТИЧЕСКИХ СЦЕН (ПЕРВОНАЧАЛЬНЫЙ СПОСОБ, ПРИ КОТОРОМ ОТСУТСТВУЕТ ОБЛАСТЬ ГРОМКОСТИ)

Согласно воплощению одного аспекта настоящего изобретения анализ акустических сцен может состоять из четырех общих этапов обработки, как показано на участке Фиг.1. На первом этапе 1-1 (“Выполнить спектральный анализ”) берут звуковой сигнал временной области, делят его на блоки и вычисляют спектральный профиль или спектральный состав для каждого из блоков. Спектральным анализом преобразуют звуковой сигнал в короткопериодную частотную область. Это можно выполнить, используя любую гребенку фильтров, основанную либо на преобразованиях, либо на блоках полосовых фильтров, и либо в линейном, либо искаженном частотном пространстве (например, шкале Барка (Bark) или критической полосе, которые лучше аппроксимируют характеристики человеческого уха). При наличии любой гребенки фильтров имеет место компромисс между временем и частотой. Большее разрешение по времени и, следовательно, более короткие интервалы времени приводят к меньшему разрешению по частоте. Большее разрешение по частоте и, следовательно, более узкие поддиапазоны приводят к более длительным интервалам времени.

На первом этапе, проиллюстрированном по существу на Фиг.1, вычисляют спектральный состав последовательных сегментов времени звукового сигнала. В практическом воплощении размер блока ASA может состоять из любого числа выборок входного звукового сигнала, хотя 512 выборок обеспечивают хороший компромисс между разрешениями по времени и частоте. На втором этапе 1-2 определяют разницу между спектральными составами от блока к блоку («Выполнить измерения разницы спектральных профилей»). Таким образом, на втором этапе вычисляют разницу спектральных составов между последовательными сегментами времени звукового сигнала. Как обсуждалось выше, изменение спектрального состава считается эффективным индикатором начала или конца воспринятого акустического события. На третьем этапе 1-3 ("Идентифицировать положение границ акустического события"), когда разница спектральных составов между одним блоком спектрального профиля и следующим превышает пороговую величину, за границу акустического события принимают границу блока. Звуковой сегмент между последовательными границами составляет акустическое событие. Таким образом, на третьем этапе устанавливают границы акустического события между последовательными сегментами времени, когда разница спектральных профилей между такими последовательными сегментами времени превышает пороговую величину, определяя, таким образом, акустические события. В этом воплощении границы акустического события определяют акустические события, имеющие длину, которая является целым кратным длине блоков спектрального профиля при минимальной длине одного блока спектрального профиля (512 выборок в данном примере). В принципе границы события необязательно должны быть так ограничены. В качестве альтернативы обсужденным здесь практическим воплощениям размер входного блока может меняться, например, чтобы быть равным, по существу, размеру акустического события.

После идентификации границ события определяют ключевые характеристики акустического события, как показано на этапе 1-4.

Перекрывающиеся или неперекрывающиеся сегменты звукового сигнала могут быть реализованы посредством применения окна и использованы для вычисления спектральных профилей входящего звукового сигнала. Перекрытие приводит к более хорошему разрешению в отношении положения акустических событий и уменьшает вероятность пропуска события, такого как короткий одиночный импульс. Тем не менее, перекрытие также увеличивает вычислительную сложность. Таким образом, перекрытие можно исключить. Фиг.2 показывает принципиальное представление неперекрывающихся N блоков выборок, реализованных посредством применения окна и преобразованных в частотную область посредством дискретного преобразования Фурье (DFT). Каждый блок может быть реализован посредством применения окна и преобразован в частотную область, например посредством DFT, предпочтительно реализованным как быстрое преобразование Фурье (FFT) для скорости.

Следующие переменные могут быть использованы для вычисления спектрального профиля входного блока:

М = число выборок, охватываемых окном, в блоке, используемом для вычисления спектрального профиля;

Р = число перекрывающихся выборок при спектральном вычислении.

В общем для вышеупомянутых переменных могут быть использованы любые целые числа. Тем не менее, реализация будет более эффективной, если установить М, равным степени числа 2, чтобы можно было использовать стандартные преобразования FFT для вычислений спектрального профиля. В практическом воплощении процесса анализа акустических сцен перечисленные параметры можно установить равными:

М = 512 выборок (или 11,6 мсек при 44,1 кГц);

Р = 0 выборок (без перекрытия).

Вышеперечисленные значения были определены экспериментально и было обнаружено, что они с достаточной точностью идентифицируют положение и продолжительность акустических событий. Тем не менее, было обнаружено, что установка значения Р, равного 256 выборкам (50% перекрытия), а не нулю выборок (без перекрытия), полезна при идентификации некоторых труднообнаруживаемых событий. Хотя для минимизации спектральных артефактов вследствие применений окон могут быть использованы многие различные типы окон, используемым при вычислениях спектрального профиля окном является окно типа M-точечное Hanning, Kaiser-Bessel или другое подходящее, предпочтительно, непрямоугольное окно. Вышеуказанные значения и окно типа Hanning были выбраны после продолжительного анализа экспериментов, так как было показано, что они обеспечивают превосходные результаты для широкого диапазона звуковых материалов. Применение непрямоугольных окон предпочтительно для обработки звуковых сигналов с преимущественно низкочастотным содержанием. Применение прямоугольных окон производит спектральные артефакты, которые могут стать причиной некорректного обнаружения событий. В отличие от определенных кодирующих/декодирующих приложений (кодеков), где процесс полного перекрытия/суммирования должен обеспечивать постоянный уровень, такое ограничение неприменимо здесь, и окно может быть выбрано из-за его характеристик, таких как разрешение по времени/частоте и подавление с помощью полосы задерживания.

На этапе 1-1 (Фиг.1) спектр каждого блока М-выборки может быть вычислен получением данных посредством применения окна, такого как M-точечное Hanning, Kaiser-Bessel или другого подходящего окна, преобразованием в частотную область, используя M-точечное быстрое преобразование Фурье, и вычислением величины комплексных коэффициентов FFT. Результирующие данные нормируют, принимая наибольшую величину за единицу, и нормированный массив из М чисел преобразуют в логарифмическую область. Данные могут быть также нормированы на некоторые другие показатели, такие как значение средней величины или значение средней мощности данных. Преобразование массива в логарифмическую область необязательно, но оно упрощает вычисление значения разницы на этапе 1-2. Кроме того, логарифмическая область ближе соответствует природе человеческой зрительной системы. Значения результирующей логарифмической области имеют диапазон от минус бесконечности до нуля. В практическом воплощении на диапазон значений может накладываться нижний предел; ограничение может быть постоянным, например -60 дБ, или может зависеть от частоты для отражения более низкой слышимости тихих звуков при низких и очень высоких частотах. (Заметим, что можно было бы уменьшить размер массива до M/2 по той причине, что FFT представляет отрицательные, так же как и положительные частоты).

На этапе 1-2 вычисляют меру разницы между спектрами соседних блоков. Для каждого блока каждый из М (логарифмических) спектральных коэффициентов, вычисленных на этапе 1-1, вычитают из соответствующего коэффициента для предшествующего блока, и вычисляют значение разницы (не учитывая знак). Эти М разницы затем складывают в одно число. Эту меру значение разницы можно также выразить как среднюю разницу, приходящуюся на спектральный коэффициент, делением меры разницы на количество спектральных коэффициентов, используемых в сложении (в данном случае - М коэффициентов).

На этапе 1-3 идентифицируют положение границ акустических событий применением пороговой величины к массиву мер разницы, вычисленных на этапе 1-2. Когда мера разницы превышает пороговую величину, изменение спектра считают достаточным для сигнализации о новом событии, и номер блока с изменением регистрируют как границу события. Для значений М и Р, данных выше, и для значений логарифмической области (полученных на этапе 1-1), выраженных в единицах дБ, пороговая величина может быть установлена равной 2500, если сравнивается вся величина FFT (включая отрицательную часть), или 1250, если сравнивается половина FFT (как отмечено выше, FFT представляет отрицательные, так же как и положительные частоты, для величины FFT одна частота является зеркальным отображением другой). Это значение может быть выбрано экспериментально, и оно обеспечивает хорошее обнаружение границ акустического события. Это значение параметра может быть изменено для уменьшения (увеличив пороговую величину) или увеличения (уменьшив пороговую величину) обнаружения событий.

Процесс на Фиг.1 может быть представлен в более обычном виде эквивалентными выполнениями, представленными на Фиг.3-5. На Фиг.3 к звуковому сигналу параллельно применяют функцию “Идентифицировать акустические события” или этап 3-1, который делит звуковой сигнал на акустические события, каждое из которых стремится к тому, чтобы оно воспринималось как отдельное и отличное от других событие, и необязательную функцию “Идентифицировать характеристики акустических событий” или этап 3-2. Процесс по Фиг.1 может быть использован для разделения звукового сигнала на акустические события и идентификации их характеристик или может быть использован некоторый другой процесс. Информацию об акустическом событии, которой может быть идентификация границ акустического события, определяемая функцией или этапом 3-1, затем используют для изменения параметров динамической обработки звукового сигнала (таких как, атака, возврат, степень и т.д.), как требуется, с помощью функции “Изменить динамические параметры” или этапа 3-3. Необязательная функция “Идентифицировать характеристики” или этап 3-3 также принимает информацию об акустическом событии. Функция “Идентифицировать характеристики” или этап 3-3 может характеризовать некоторые или все акустические события одной или более характеристиками. Такие характеристики могут включать идентификацию преобладающего поддиапазона акустического события, как описано в связи с процессом на Фиг.1. Характеристики могут также включать одну или более звуковых характеристик, включая, например, величину мощности акустического события, величину амплитуды акустического события, величину спектральной неравномерности акустического события и информацию о том, является ли акустическое событие, по существу, бесшумным, или другие характеристики, которые помогают изменить динамические параметры, чтобы уменьшить или удалить слышимые артефакты обработки. Характеристики могут также включать другие характеристики, например информацию о том, включает ли акустическое событие короткий одиночный импульс.

Альтернативы выполнению по Фиг.3 показаны на Фиг.4 и 5. На Фиг.4 к входному звуковому сигналу не применяют непосредственно функцию “Идентифицировать характеристики” или этап 4-3, но он принимает информацию от функции “Идентифицировать акустические события” или этапа 4-1. Выполнение по Фиг.1 является конкретным примером такого выполнения. На Фиг.5 функции или этапы 5-1, 5-2 и 5-3 выполнены последовательно.

Детали этого конкретного воплощения не являются критическими. Могут быть использованы другие способы вычисления спектрального состава последовательных сегментов времени звукового сигнала, вычисления разницы между последовательными сегментами времени и установки границ акустического события на соответствующих границах между последовательными сегментами времени, когда разница спектральных профилей между такими последовательными сегментами времени превышает пороговую величину.

АНАЛИЗ АКУСТИЧЕСКИХ СЦЕН (НОВЫЙ СПОСОБ С ОБЛАСТЬЮ ГРОМКОСТИ)

Международная заявка согласно Договору о патентной кооперации с номером PCT/US2005/038579, поданная 25 октября 2005, опубликованная как Международная публикация под номером WO 2006/047600 A1, озаглавленная “Вычисление и настройка воспринимаемой громкости и/или воспринимаемый спектральный баланс звукового сигнала”, Алан Джеффри Сифелдт, раскрывает помимо всего прочего объективную меру воспринимаемой громкости, основанной на модели, относящейся к психологии слухового восприятия. Упомянутая заявка посредством ссылки включена в настоящую заявку во всей полноте. Как описано в упомянутой заявке, из звукового сигнала x[n] вычисляют сигнал E[b,t] возбуждения, который аппроксимирует распределение энергии вдоль базилярной мембраны внутреннего уха в критической полосе b в течение временного блока t. Это возбуждение может быть вычислено из кратковременного дискретного преобразования Фурье (STDFT) звукового сигнала следующим образом:

где X[k,t] представляет STDFT сигнала x[n] во временном блоке t и элементе дискретизации k. Заметим, что в уравнении 1 t представляет время в дискретных единицах блоков преобразования в отличие от непрерывной меры, такой как секунды. T[k] представляет частотную характеристику фильтра, имитирующего передачу звукового сигнала через внешнее и среднее ухо, и C_b[k] представляет частотную характеристику базилярной мембраны в положении, соответствующем критической полосе b. Фиг.6 изображает соответствующий набор характеристик фильтра критической полосы, в котором 40 полос равномерно разнесены вдоль шкалы эквивалентных прямоугольных полос частот (ERB), определенной Moor и Glasberg (Муром и Глазбергом). Форма каждого фильтра описывается закругленной экспоненциальной функцией, и полосы распределены с использованием расстояния 1 ERB. Наконец, сглаживающая временная константа λ_b в уравнении 1 может быть предпочтительно выбрана пропорциональной времени интегрирования человеческого восприятия громкости в пределах полосы b.

Используя контуры одинаковой громкости, такие как контуры, изображенные на Фиг.7, возбуждение каждой полосы преобразуется в уровень возбуждения, который генерировал бы такую же воспринимаемую громкость при 1 кГц. Конкретную громкость, меру воспринимаемой громкости, распределенной по частоте и времени, затем вычисляют из преобразованного возбуждения E_1kHz[b,t] посредством компрессионной нелинейности. Одна такая подходящая функция для вычисления конкретной громкости N[b,t] задается следующим образом:

где TQ_1kHz является пороговой величиной в тишине при 1 кГц, а константы β и α выбирают для соответствия росту данных о громкости, накапливаемых при экспериментах по прослушиванию. В абстрактном смысле это преобразование из возбуждения в конкретную громкость может быть представлено функцией Ψ {}, такой как:

В результате общую громкость L[t], представленную в сонах, вычисляют суммированием конкретной громкости по полосам:

Конкретная громкость N[b,t] является спектральным представлением, предназначенным для имитации способа восприятия человеком звукового сигнала как функции частоты и времени. Она улавливает изменения чувствительности к различным частотам, изменения чувствительности к уровню и изменения разрешения по частоте. По этой причине она является спектральным представлением, хорошо соответствующим обнаружению акустических событий. Сравнение разницы N[b,t] по полосам между последовательными блоками времени может во многих случаях привести к более точно воспринимаемому обнаружению акустических событий по сравнению с описанным выше непосредственным использованием последовательных спектров FFT, хотя оно более сложно для вычисления.

В упомянутой патентной заявке раскрыто несколько вариантов применения для изменения звукового сигнала на основе этой модели громкости, относящейся к психологии слухового восприятия (психоакустической модели). Среди этих применений раскрыты несколько алгоритмов динамической обработки, например AGC и DRC. Эти раскрытые алгоритмы могут использовать преимущества использования акустических событий для регулировки различных связанных с ними параметров. Так как конкретная громкость уже вычислена, она легкодоступна для целей обнаружения упомянутых событий. Подробности предпочтительного воплощения обсуждаются ниже.

РЕГУЛИРОВКА ПАРАМЕТРА ДИНАМИЧЕСКОЙ ОБРАБОТКИ ЗВУКОВОГО СИГНАЛА ПРИ НАЛИЧИИ АКУСТИЧЕСКИХ СОБЫТИЙ

Далее представлены два примера воплощений изобретения. Первый пример описывает использование акустических событий для регулировки времени возврата при цифровой реализации регулировки динамического диапазона (DRC), при которой регулировку усиления извлекают из среднеквадратического (RMS) значения мощности сигнала. Второе воплощение описывает использование акустических событий для управления определенными аспектами более сложной комбинации AGC и DRC, реализованных в контексте модели громкости, относящейся к психологии слухового восприятия, описанной выше. Эти два воплощения служат только примерами изобретения, и следует понимать, что использование акустических событий для параметров регулировки алгоритма динамической обработки не ограничено описанными ниже конкретными примерами.

РЕГУЛИРОВКА ДИНАМИЧЕСКОГО ДИАПАЗОНА

Описанная цифровая реализация DRC сегментирует звуковой сигнал x[n] на реализуемые посредством применения окна, наполовину перекрывающиеся блоки, и для каждого блока вычисляется усиление модифицирования на основе меры локальной мощности сигнала и выбранной кривой компрессии. Усиление сглаживают по блокам и затем умножают с каждым блоком. К измененным блокам в результате добавляют перекрытие для генерации измененного звукового сигнала y[n].

Следует заметить, что хотя анализ акустических сцен и цифровая реализация DRC, описываемые здесь, делят звуковой сигнал временной области на блоки для выполнения анализа и обработки, обработку DRC необязательно выполнять с использованием сегментации на блоки. Например, анализ акустических сцен может быть выполнен с использованием сегментации на блоки, а спектральный анализ, описанный выше, и результирующие положения, и характеристики акустических событий могут быть использованы для обеспечения регулирующей информации для цифровой реализации традиционной реализации DRC, которая обычно работает на основе последовательных выборок. Здесь, тем не менее, для DRC применяется такая же структура разделения на блоки, используемая для анализа акустических сцен, чтобы упростить описание их комбинации.

Приступая к описанию, основанной на блоках реализации DRC, перекрывающиеся блоки звукового сигнала могут быть представлены в виде:

для 0<n<M-1 (4)

где М является длиной блока, размер скачка равен М/2, w[n] является окном, n является индексом выборки в пределах блока, а t является индексом блока (заметим, что здесь t используется таким же образом, как и для STDFT в уравнении 1; т.е. представляет время в дискретных единицах блоков, а не в секундах, например). В идеальном варианте окно w[n] сужается до нуля на обоих концах и равно в сумме единице, когда наполовину перекрывает само себя; обычно используемое синусоидальное окно, например, соответствует этим критериям.

Для каждого блока можно затем вычислить RMS мощности для генерации значения P[t] мощности в дБ, приходящегося на каждый блок:

Как упоминалось ранее, можно сгладить это значение мощности быстрой атакой и медленным возвратом до обработки с помощью кривой компрессии, но в качестве альтернативы обрабатывается мгновенная мощность P[t] и сглаживается результирующее усиление. Этот альтернативный подход имеет преимущество в том, что может быть использована простая кривая компрессии с острыми точками загиба, но результирующие усиления остаются по-прежнему гладкими при прохождении мощности через точки загиба. Представляя кривую компрессии так, как показано на Фиг.8с в виде функции F уровня сигнала, который генерирует усиление, усиление G[t] блока задается следующим образом:

(6)

Предполагая, что кривая компрессии налагает большее ослабление с увеличением уровня сигнала, усиление будет уменьшаться, когда сигнал находится в “режиме атаки”, и увеличиваться, когда сигнал находится в “режиме возврата”. Следовательно, сглаженное усиление

может быть вычислено в соответствии с формулой

где

и

α_release >> α_attach(7c)

Наконец, сглаженное усиление

, выраженное в дБ, применяют к каждому блоку сигнала, и измененные блоки суммируются с перекрытием для получения измененного звукового сигнала:

для 0<n<M/2 (8)

Заметим, что вследствие того, что блоки умножены на сужающееся окно, как показано в уравнении (4), синтез по суммированию с перекрытием, показанный выше, эффективно сглаживает усиления по выборкам обработанного сигнала y[n]. Таким образом, управляющий сигнал усиления получает сглаживание дополнительно к показанному в уравнении (7а) сглаживанию. При более традиционной реализации DRC, работающего по последовательным выборкам, а не по последовательным блокам, может потребоваться более сложное сглаживание усиления, чем простой однополюсный фильтр, показанный в уравнении (7а), для предотвращения слышимого искажения обработанного сигнала. Также использование основанной на блоках обработки вносит в систему характерную задержку в М/2 выборок, и до тех пор, пока время спада, связанное с α_attack, близко к этой задержке, сигнал x[n] не требуется дополнительно задерживать до применения усилений с целью предотвращения выброса.

Фиг.9,а-с изображает результат применения описанной обработки DRC к звуковому сигналу. Для этой конкретной реализации используется длина блока М=512 при частоте дискретизации, равной 44,1 кГц. Используется кривая компрессии, аналогичная показанной на Фиг.8,b:

выше -20 дБ относительно полномасштабной цифры сигнал ослабляется с соотношением 5:1, а ниже -30 дБ сигнал усиливается с соотношением 5:1. Усиление сглаживается с коэффициентом α_attackатаки, соответствующим времени полуспада в 500 мсек. Исходный звуковой сигнал, изображенный на Фиг.9,а, состоит из шести последовательных аккордов для фортепьяно, причем конечный аккорд, расположенный вокруг выборки 1,75×10⁵, затухает до тишины. Изучая график усиления

на Фиг.9,b, следует заметить, что усиление остается близким к 0 дБ во время проигрывания шести аккордов. Это результат сохранения большей части энергии в диапазоне от -30 до -20 дБ, области, в пределах которой кривая DRC не требует изменений. Тем не менее, после достижения последнего аккорда энергия сигнала падает ниже -30 дБ, и усиление начинает расти в конечном итоге до значения свыше 15 дБ по мере затухания аккордов. Фиг.9,с изображает результирующий измененный звуковой сигнал, и можно видеть, что шлейф конечного аккорда значительно усилен. На слух это усиление естественного низкоуровневого затухающего звука аккорда дает чрезвычайно неестественный результат. Целью настоящего изобретения является предотвращение проблем такого типа, связанных с традиционной динамической обработкой.

Фиг.10,а-с изображают результаты применения точно такой же системы DRC к другому звуковому сигналу. В этом случае первая половина сигнала состоит из музыкального отрезка быстрого темпа при высоком уровне, а затем при приблизительной выборке 10×10⁴ сигнал переключается на второй музыкальный отрезок быстрого темпа, но при значительно более низком уровне. Изучая усиление по Фиг.10,b, можно видеть, что сигнал ослабляется приблизительно на 10 дБ в течение первой половины, а затем усиление обратно возрастает вплоть до 0 дБ в течение второй половины, когда проигрывается более мягкий отрезок. В этом случае усиление работает так, как требуется. Желательно усилить второй отрезок относительно первого, и усиление должно быстро возрасти после перехода на второй отрезок, чтобы быть малозаметным на слух. Видно, что поведение усиления аналогично обсужденному поведению в случае первого сигнала, но в данном случае это поведение является желательным. Следовательно, желательно исправить первый случай, не затрагивая второй. Использование акустических событий для регулировки времени возврата этой системы DRC обеспечивает такое решение.

В первом сигнале, который был исследован на Фиг.9, усиление затухания последнего аккорда кажется неестественным, так как аккорд и его затухание воспринимаются как одно акустическое событие, сохранения целостности которого ожидают. Во втором случае, тем не менее, во время увеличения усиления происходит много акустических событий, означая, что каждому отдельному событию придается маленькое изменение. Следовательно, общее изменение усиления не является таким нежелательным. Следовательно, можно рассуждать о том, что изменение усиления следует допускать только в ближайшей временной окрестности границы акустического события. Можно применить этот принцип к усилению, когда оно находится либо в режиме атаки, либо в режиме возврата, но для большинства практических реализаций DRC усиление так быстро переходит в режим атаки по сравнению с разрешением по времени восприятия человеком события, что регулировки не требуется. Следовательно, можно использовать события для регулировки сглаживания усиления DRC только когда оно находится в режиме возврата.

Далее будет описано соответствующее поведение регулировки возврата. В качественных показателях, если обнаружено событие, усиление сглаживают в зависимости от константы времени возврата, определенной выше в уравнении (7а). С течением времени после обнаруженного события, и если не обнаружены следующие события, константа времени возврата непрерывно увеличивается, так что в конечном итоге сглаженное усиление “замораживается” на месте. Если обнаружено другое событие, сглаживающую константу времени повторно устанавливают на исходное значение, и процесс повторяется. Для модуляции времени возврата можно сначала сгенерировать управляющий сигнал на основе границ обнаруженного события.

Как обсуждалось ранее, границы события могут быть обнаружены поиском изменений в последовательных спектрах звукового сигнала. При этой конкретной реализации DFT каждого перекрывающегося блока x[n,t] может быть вычислено для генерации STDFT звукового сигнала x[n]:

Далее разница между нормированными логарифмическими величинами спектров последовательных блоков может быть вычислена в соответствии с формулой

где

Здесь максимальное значение

по элементам дискретизации k используется для нормирования, хотя можно использовать другие нормировочные множители; например, среднее значение

по элементам дискретизации. Если разница

превышает пороговую величину D_min, считают, что событие случилось. Дополнительно данному событию можно присвоить силу, которая лежит в интервале от нуля до единицы, на основе размера

по сравнению с максимальной пороговой величиной D_max. Результирующий сигнал

силы акустического события может быть вычислен как:

Присваивая силу акустическому событию, пропорциональную величине изменения спектра, связанного с этим событием, достигают лучшей регулировки динамической обработки по сравнению с принятием решения о бинарном событии. Авторы изобретения обнаружили, что более значительные изменения усиления допустимы во время более сильных событий, и сигнал в уравнении (11) допускает такую изменяемую регулировку.

Сигнал

является импульсным сигналом, причем импульсы происходят в положениях границы событий. В целях регулировки времени возврата можно дополнительно сглаживать сигнал

, так чтобы он плавно спадал до нуля после обнаружения границы события. Сглаженный управляющий сигнал

события может быть вычислен из

в соответствии с формулой

Здесь

регулирует время спадания управляющего сигнала события. Фиг.9,d и 10,d изображают управляющий сигнал

события для двух соответствующих звуковых сигналов, причем время полуспада более гладкой из них установлено на 250 мсек. В первом случае видно, что граница события обнаружена для каждого из шести аккордов для фортепьяно и что управляющий сигнал события плавно спадал до нуля после каждого события. Для второго сигнала обнаружено много событий, очень близких друг к другу по времени, и, следовательно, управляющий сигнал события никогда не спадает полностью до нуля.

Теперь можно использовать управляющий сигнал

события для изменения константы времени возврата, используемой для сглаживания усиления. Когда управляющий сигнал равен единице, сглаживающий коэффициент

из уравнения (7а) равен

, как и ранее, а когда управляющий сигнал равен нулю, коэффициент равен единице, так что предотвращается изменение сглаженного усиления. Сглаживающий коэффициент интерполируют между этими двумя пределами, используя управляющий сигнал, в соответствии с формулой

При непрерывной интерполяции сглаживающего коэффициента как функции управляющего сигнала события время возврата повторно устанавливается на значение, пропорциональное силе события в начале события, и затем плавно увеличивается до бесконечности после происшествия события. Скорость этого увеличения диктует коэффициент

, используемый для генерации сглаженного управляющего сигнала события.

Фиг.9,е и 10,е показывают результат сглаживания усиления с помощью регулируемого событием коэффициента из уравнения (13) в противоположность не регулируемому событием коэффициенту из уравнения (7b). В первом случае управляющий сигнал события падает до нуля после последнего аккорда для фортепьяно, предотвращая тем самым движение усиления вверх. В результате соответствующий измененный звуковой сигнал, изображенный на Фиг.9,f, не страдает от неестественного усиления затухания аккорда. Во втором случае управляющий сигнал события никогда не достигает нуля, и, следовательно, сглаженный сигнал усиления очень мало задерживается вследствие применения регулировки события. Траектория сглаженного усиления почти идентична траектории не регулируемого событием усиления на Фиг.10,b. Это в точности соответствует требуемому эффекту.

ОСНОВАННЫЕ НА ГРОМКОСТИ AGC И DRC

В качестве альтернативы традиционной технологии динамической обработки, при которой изменения сигнала являются прямой функцией простых измерений сигнала, например, амплитуды или RMS мощности, Международная патентная заявка с номером PCT/US2005/038579 раскрывает использование модели громкости, относящейся к психологии слухового восприятия, описанной ранее в виде окружения, в котором должна выполняться динамическая обработка. Приведены несколько преимуществ. Во-первых, измерения и изменения определены в сонах, что является более точной мерой восприятия громкости, чем более фундаментальные значения, такие как амплитуда или RMS мощности. Во-вторых, звуковой сигнал может быть изменен из условия, чтобы воспринимаемый спектральный баланс исходного звукового сигнала был сохранен при изменении общей громкости. Таким образом, изменения общей громкости становятся менее очевидными на слух по сравнению с динамической обработкой, которая использует широкополосное усиление, например, для изменения звукового сигнала. И, наконец, модель, относящаяся к психологии слухового восприятия, является, в сущности, многополосной, и, следовательно, система легко конфигурируется для выполнения многополосной динамической обработки для уменьшения хорошо известных проблем межспектральной подкачки, связанных с многополосной динамической обработкой.

Хотя выполнение динамической обработки в данной области громкости уже имеет несколько преимуществ перед традиционной динамической обработкой, технология может быть дополнительно улучшена посредством использования акустических событий для регулировки различных параметров. Рассмотрим звуковой сегмент, содержащий аккорды для фортепьяно, как изображено на Фиг.10,а, и соответствующую DRC, показанную на Фиг.10,b и с. Можно выполнить подобную DRC в области громкости, и в этом случае, когда затухание громкости конечного аккорда для фортепьяно усиливается, усиление будет менее очевидным, так как спектральный баланс затухающей ноты будет сохранен при применении усиления. Тем не менее, лучшим решением будет не усиливать затухание совсем, и, следовательно, можно выгодно применить тот же принцип регулировки времени атаки и возврата при наличии акустических событий в области громкости, как описывалось ранее, для традиционной DRC.

Система динамической обработки с областью громкости, которая будет сейчас описана, состоит из AGC, за которой следует DRC. Задачей этой комбинации является получение приблизительно одинаковой воспринимаемой громкости для всех обработанных звуковых сигналов, сохраняя при этом, по меньшей мере, некоторые из исходных динамических характеристик звукового сигнала. Фиг.11 изображает соответствующий набор кривых AGC и DRC для этого приложения. Заметим, что входные и выходные данные обеих кривых представлены в сонах, так как обработка выполняется в области громкости. Кривая AGC стремится донести выходной звуковой сигнал ближе к определенному целевому уровню и, как упоминалось ранее, это происходит при относительно медленных константах времени. Можно подумать, что AGC создает долгосрочную громкость звукового сигнала, которая равна целевой, но в течение коротких периодов времени громкость может сильно колебаться вокруг этой целевой громкости. Следовательно, можно использовать более быстродействующую DRC для ограничения этих колебаний в некотором диапазоне, который считается приемлемым для конкретного приложения. Фиг.11 показывает такую кривую DRC, где цель AGC попадает в пределы “нулевой полосы” DRC, участка кривой, который не требует изменений. При такой комбинации кривых AGC устанавливает долгосрочную громкость звукового сигнала в пределах нулевой полосы кривой DRC, так что необходимо применение минимальных изменений быстродействующей DRC. Если краткосрочная громкость все еще колеблется вне нулевой полосы, DRC работает таким образом, чтобы сместить громкость звукового сигнала к этой нулевой полосе. В качестве последнего общего замечания можно применить медленнодействующую AGC из условия, чтобы на каждую полосу модели громкости приходилось одинаковое количество изменений громкости, посредством чего сохраняется воспринимаемый спектральный баланс, и можно применить быстродействующую DRC таким образом, чтобы допустить изменение модификации громкости по полосам для уменьшения межспектральной подкачки, которая в противном случае может появиться в результате быстродействующей, не зависящей от полос модификации громкости.

Акустические события могут быть использованы для регулировки атаки и возврата обеих регулировок AGC и DRC. В случае AGC оба времени атаки и возврата являются большими по сравнению с разрешением по времени восприятия события, и, следовательно, регулировку события можно выгодно применять в обоих случаях. При DRC атака является относительно короткой, и, следовательно, регулировка события может потребоваться только для возврата, как при DRC, описанной выше.

Как обсуждалось ранее, можно использовать спектр конкретной громкости, связанный с применяемой моделью громкости, с целью обнаружения события. Разностный сигнал

, аналогичный сигналу в уравнениях 10,а и b, можно вычислить из конкретной громкости

, определенной в уравнении (2), следующим образом:

где

Здесь максимальное значение

по полосам b частот используется для нормирования, хотя можно использовать другие нормировочные множители; например, среднее значение

по полосам частот. Если разница

превышает пороговую величину D_min, считают, что событие случилось. Разностный сигнал может быть затем обработан способом, аналогичным показанному в уравнениях (11) и (12) для генерации сглаженного управляющего сигнала

события, используемого для регулировки времени атаки и возврата.

Кривая AGC, изображенная на Фиг.11, может быть представлена в виде функции, которая в качестве своего входного значения берет значение громкости и генерирует требуемую выходную громкость:

(15а)

Кривая DRC может быть представлена аналогичным образом

(15b)

Для AGC входная громкость является мерой долгосрочной громкости звукового сигнала. Можно вычислить такую меру сглаживанием мгновенной громкости

, определенной в уравнении (3), используя относительно длинные константы времени (порядка нескольких секунд). Показано, что при оценке долгосрочной громкости звукового сегмента людям тяжелее анализировать более громкие участки, чем более тихие, и можно использовать более быструю атаку вместо возврата при сглаживании, чтобы имитировать этот эффект. При включении регулировки события в атаку и возврат долгосрочную громкость, используемую для определения модификации AGC, можно, следовательно, вычислить в соответствии с формулой

(16а),

где

Дополнительно можно вычислить соответствующий спектр долгосрочной конкретной громкости, который позже будет использован для многополосной DRC:

(16с)

На практике можно выбрать сглаживающие коэффициенты из условия, чтобы время атаки было равно приблизительно половине времени возврата. Задавая значение долгосрочной громкости, можно затем вычислить масштабирование модификации громкости, связанное с AGC, в виде отношения выходной громкости к входной громкости:

(17)

Теперь можно вычислить модификацию DRC из громкости после применения изменения масштаба AGC. Вместо сглаживания значения громкости до применения кривой DRC можно, в качестве альтернативы, применить кривую DRC к мгновенной громкости и затем впоследствии сгладить результирующую модификацию. Это аналогично технологии, описанной ранее для сглаживания усиления традиционной DRC. Дополнительно DRC можно применить в многополосном режиме, что означает, что модификация DRC является функцией конкретной громкости

в каждой полосе b, а не общей громкости

. Тем не менее, для сохранения среднего спектрального баланса исходного звукового сигнала можно применить DRC к каждой полосе из условия, чтобы результирующие модификации имели такой же средний эффект, какой был бы в результате применения DRC к общей громкости. Этого можно достигнуть, масштабируя каждую полосу отношением долгосрочной общей громкости (после применения масштабирования AGC) к долгосрочной конкретной громкости и используя это значение в качестве аргумента функции DRC. Результат затем повторно масштабируют с помощью обратной величины упомянутого отношения для получения выходной конкретной громкости. Таким образом, масштабирование DRC в каждой полосе может быть вычислено в соответствии с формулой

Модификации AGC и DRC можно затем объединить для получения общего масштабирования, приходящегося на каждую полосу:

(19)

Это общее масштабирование затем может быть сглажено по времени независимо для каждой полосы быстрой атакой и медленным возвратом и регулировкой события, примененной только к возврату. В идеальном варианте сглаживание выполняют по логарифму масштабирования по аналогии с усилениями традиционной DRC при сглаживании их представления в децибелах, хотя это несущественно. Чтобы гарантировать, что сглаженное общее масштабирование движется синхронно с конкретной громкостью в каждой полосе, режимы атаки и возврата могут быть определены одновременным сглаживанием самой конкретной громкости:

(20а)

(20b)

где

В итоге можно вычислить целевую конкретную громкость, основываясь на сглаженном изменении масштаба, который был применен к исходной конкретной громкости

(21)

и затем найти усиления

, которые при применении к исходному возбуждению приводят к конкретной громкости, равной целевой:

(22)

Усиления можно применить к каждой полосе гребенки фильтров, используемой для вычисления возбуждения, и затем измененный звуковой сигнал может быть сгенерирован инвертированием гребенки фильтров для получения измененного звукового сигнала временной области.

РЕГУЛИРОВКА ДОПОЛНИТЕЛЬНЫХ ПАРАМЕТРОВ

Хотя вышеприведенное обсуждение сфокусировано на регулировке параметров атаки и возврата AGC и DRC посредством анализа акустических сцен обрабатываемого звукового сигнала, преимуществом регулировки посредством результатов ASA могут быть другие важные параметры. Например, управляющий сигнал

события из уравнения (12) может быть использован для изменения значения параметра отношения DRC, который используется для динамической настройки усиления звукового сигнала. Параметр отношения, аналогичный параметрам времени атаки и возврата, может вносить значительный вклад в слышимые артефакты, производимые динамическими настройками усиления.

РЕАЛИЗАЦИЯ

Изобретение может быть реализовано посредством аппаратных или программных средств или их комбинации (например, программируемой логической матрицы). Если иное не установлено, алгоритмы, включенные как часть изобретения, по существу не связаны с каким-либо конкретным компьютером или другой аппаратурой. В частности, различные машины общего назначения могут быть использованы с программами, написанными в соответствии с изложенными здесь идеями, или может быть более удобным конструирование более специализированного прибора (например, интегральных схем) для выполнения требуемых этапов способа. Таким образом, изобретение может быть реализовано в одной или более компьютерных программах, исполняемых в одной или более программируемых компьютерных системах, каждая из которых содержит по меньшей мере один процессор, по меньшей мере одну систему для хранения данных (включая энергозависимую и энергонезависимую память и/или элементы хранения), по меньшей мере одно устройство ввода или порт и по меньшей мере одно устройство вывода или порт. Программный код применяют к входным данным для выполнения функций, описываемых здесь, и генерации выходной информации. Выходную информацию применяют к одному или более выходным устройствам известным способом.

Каждая такая программа может быть реализована на любом требуемом языке программирования (включая машинный язык, язык ассемблера или высокоуровневые процедурные, логические или объектно-ориентированные языки программирования) для взаимодействия с компьютерной системой. В любом случае язык может быть транслируемым или интерпретируемым языком.

Каждую такую компьютерную программу предпочтительно сохраняют или загружают на запоминающий носитель или устройство (например, твердотельную память или носитель либо магнитный или оптический носитель), считываемую программируемым компьютером общего или специального назначения для конфигурирования и работы компьютера при считывании компьютерной системой запоминающего носителя или устройства для выполнения описанных здесь процедур. Систему согласно изобретению можно также рассматривать как систему, реализуемую в виде считываемой компьютером запоминающего носителя, на котором записана компьютерная программа, причем сконфигурированная таким образом запоминающая среда предписывает компьютерной системе работать конкретным и заданным образом для выполнения описанных здесь функций.

Описано определенное количество воплощений изобретения. Тем не менее, следует понимать, что могут быть сделаны различные модификации без отклонения от сущности и объема изобретения. Например, некоторые из описанных здесь этапов могут не зависеть от порядка выполнения и, таким образом, могут быть выполнены в порядке, отличном от описанного.

Следует понимать, что реализация других вариантов и модификаций изобретения и его различных аспектов будет очевидна специалистам в данной области техники и что изобретение не ограничено этими конкретными описанными воплощениями. Следовательно, предусмотрен охват настоящим изобретением любых и всех модификаций, вариантов или эквивалентов, которые подпадают под подлинные сущность и объем раскрытых и заявленных здесь основных преимущественных принципов.

ВКЛЮЧЕНИЕ ПОСРЕДСТВОМ ССЫЛКИ

Следующие патенты, патентные заявки и публикации включены в настоящую заявку посредством ссылки во всей полноте.

ДИНАМИЧЕСКАЯ ОБРАБОТКА ЗВУКОВОГО СИГНАЛА

Audio Engineer's Reference Book, под редакцией Michael Talbot-Smith, второе издание. Limiters and Compressors, Alan Tutton, 2-1492-165. Focal Press, Reed Educational and Professional Publishing, Ltd., 1999.

ОБНАРУЖЕНИЕ И ИСПОЛЬЗОВАНИЕ АКУСТИЧЕСКИХ СОБЫТИЙ

Патентная заявка США 10/474,387, “High Quality Time-Scaling and Pitch-Scaling of Audio Signals”, Brett Graham Crockett, опубликованная 24 июня 2004 как US 2004/0122662 A1.

Патентная заявка США 10/478,398, “Method for Time Aligning Audio Signals Using Characterizations Based on Auditory Events”, Brett G. Crockett и др., опубликованная 29 июля 2004 как US 2004/0148159 A1.

Патентная заявка США 10/478,538, “Segmenting Audio Signals Into Auditory Events”, Brett G. Crockett, опубликованная 26 августа 2004 как US 2004/0165730 A1. Аспекты настоящего изобретения обеспечивают способ обнаружения акустических событий дополнительно к способам, раскрытым в упомянутой заявке Crockett.

Патентная заявка США 10/478,397, “Comparing Audio Using Characterizations Based on Auditory Events”, Brett G. Crockett и др., опубликованная 2 сентября 2004 как US 2004/0172240 A1.

Международная заявка согласно Договору о патентной кооперации PCT/US 05/24630, поданная 13 июля 2005, озаглавленная “Method for Combining Audio Signals Using Auditory Scene Analysis”, Michael John Smithers, опубликованная 9 марта 2006 как WO 2006/026161.

Международная заявка согласно Договору о патентной кооперации PCT/US2004/016964, поданная 27 мая 2004, озаглавленная “ Method, Apparatus and Computer Program for Calculating and Adjusting the Perceived Loudness of an Audio Signal ”, Alan Jeffrey Seefeldt и др., опубликованная 23 декабря 2004 как WO 2004/111994 A2.

Международная заявка согласно Договору о патентной кооперации PCT/US2005/038579, поданная 25 октября 2005, озаглавленная “Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal”, Alan Jeffrey Seefeldt, и опубликованная как Международная публикация под номером WO 2006/047600.

“A Method for Characterizing and Identifying Audio Based on Auditory Scene Analysis”, Brett Crockett и Michael Smithers, Audio Engineering Society Convention Paper 6416, 118^й Съезд, Барселона, 28-31 мая 2005.

“High Quality Multichannel Time Scaling and Pitch-Shifting using Auditory Scene Analysis”, Brett Crockett, Audio Engineering Society Convention Paper 5948, Нью-Йорк, октябрь 2003.

“A New Objective Measure of Perceived Loudness”, Alan Seefeldt и др., Audio Engineering Society Convention Paper 6236, Сан-Франциско, 28 октября 2004.

Handbook for Sound Engineers, The New Audio Cyclopedia, под редакцией Glen M. Ballou, второе издание. Dynamics, 850-851. Focal Press an imprint of Butterworth-Heinemann, 1998.

Audio Engineer's Reference Book, под редакцией Michael Talbot-Smith, второе издание, раздел 2.9 (“Limiters and Compressors”, Alan Tutton), cc. 2-1492-165. Focal Press, Reed Educational and Professional Publishing, Ltd., 1999.

Claims

1. Способ изменения параметра динамической обработки звукового сигнала, содержащий этапы, на которых
обнаруживают изменения спектральных характеристик со временем в звуковом сигнале,
идентифицируют, что границы акустического события изменяются сильнее, чем пороговая величина в спектральных характеристиках со временем в упомянутом звуковом сигнале, причем звуковой сегмент между последовательными границами составляет акустическое событие,
генерируют управляющий сигнал, изменяющий параметр, на основе упомянутых идентифицированных границ события и
изменяют параметр динамической обработки звукового сигнала в зависимости от управляющего сигнала.

2. Способ по п.1, в котором параметром является одно из времени атаки, времени возврата и отношения.

3. Способ по п.1, в котором изменяемым параметром является сглаживающая усиление постоянная времени.

4. Способ по п.3, в котором сглаживающей усиление постоянной времени является сглаживающая усиление постоянная времени атаки.

5. Способ по п.3, в котором сглаживающей усиление постоянной времени является сглаживающая усиление постоянная времени возврата.

6. Способ по п.1, в котором упомянутый управляющий сигнал, изменяющий параметр, основан на положении упомянутых идентифицированных границ акустического события и степени изменения спектральных характеристик, связанных с каждой из упомянутых границ акустического события.

7. Способ по п.6, в котором при генерации управляющего сигнала, изменяющего параметр:
обеспечивают импульс на каждой границе акустического события, причем каждый такой импульс имеет амплитуду, пропорциональную степени упомянутых изменений спектральных характеристик, и
сглаживают по времени каждый такой импульс, чтобы его амплитуда плавно спадала до нуля.

8. Способ по п.1, в котором изменения спектральных характеристик со временем обнаруживают, сравнивая разницы в конкретной громкости.

9. Способ по п.8, в котором упомянутый звуковой сигнал представляют дискретной временной последовательностью х[n], которая получена взятием выборок в отношении источника звукового сигнала при частоте f_s дискретизации, и изменения спектральных характеристик со временем вычисляют, сравнивая разницу в конкретной громкости N[b,t] по полосам b частот между последовательными блоками t времени.

10. Способ по п.9, в котором разницу в спектральном составе между последовательными блоками времени звукового сигнала вычисляют в соответствии с

где

11. Способ по п.9, в котором разницу в спектральном составе между последовательными блоками времени звукового сигнала вычисляют в соответствии с

где

12. Аппаратура для изменения параметра динамической обработки звукового сигнала, содержащая
средство для обнаружения изменений спектральных характеристик со временем в звуковом сигнале,
средство для идентификации того, что границы акустического события изменяются сильнее, чем пороговая величина в спектральных характеристиках со временем в упомянутом звуковом сигнале, причем звуковой сегмент между последовательными границами составляет акустическое событие,
средство для генерации управляющего сигнала, изменяющего параметр, на основе упомянутых идентифицированных границ события
и
средство для изменения параметра динамической обработки звукового сигнала в зависимости от управляющего сигнала.

13. Считываемый компьютером носитель, на котором сохранена компьютерная программа для предписания компьютеру выполнять способ по п.1.