RU2812005C2 - Усиление диалога в звуковом кодеке - Google Patents

Усиление диалога в звуковом кодеке Download PDF

Info

Publication number
RU2812005C2
RU2812005C2 RU2021128866A RU2021128866A RU2812005C2 RU 2812005 C2 RU2812005 C2 RU 2812005C2 RU 2021128866 A RU2021128866 A RU 2021128866A RU 2021128866 A RU2021128866 A RU 2021128866A RU 2812005 C2 RU2812005 C2 RU 2812005C2
Authority
RU
Russia
Prior art keywords
dialogue
component
audio signal
dialog
dialog component
Prior art date
Application number
RU2021128866A
Other languages
English (en)
Other versions
RU2021128866A (ru
Inventor
Станислав ГОРЛОВ
Лейф Йонас САМУЭЛЬССОН
Хольгер ХЁРИХ
Тобиас ФРИДРИХ
Original Assignee
Долби Интернешнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Интернешнл Аб filed Critical Долби Интернешнл Аб
Publication of RU2021128866A publication Critical patent/RU2021128866A/ru
Application granted granted Critical
Publication of RU2812005C2 publication Critical patent/RU2812005C2/ru

Links

Abstract

Изобретение относится к области вычислительной техники для усиления диалога звукового сигнала. Технический результат заключается в повышении качества усиления диалога звукового сигнала. Технический результат достигается за счет получения набора изменяющихся по времени параметров, сконфигурированных для оценки диалогового компонента, присутствующего в указанном звуковом сигнале, оценки диалогового компонента из звукового сигнала, применения устройства сжатия только к оцененному диалоговому компоненту, чтобы генерировать обработанный диалоговый компонент, применения определяемого пользователем усиления к обработанному диалоговому компоненту, чтобы образовать усиленный диалоговый компонент. 5 н. и 29 з.п. ф-лы, 14 ил.

Description

Перекрестная ссылка на родственные заявки
Данная заявка претендует на приоритет следующих приоритетных заявок: предварительная заявка США 62/833 855 (ссылка: D18119USP1), поданная 15 апреля 2019 г., европейская заявка 19169218.5 (ссылка: D18119EP), поданная15 апреля 2019 г., и предварительная заявка США 62/882 722 (ссылка: D18119USP2), поданная 5 августа 2019 г., которые включены в данную заявку посредством ссылки.
Область техники, к которой относится изобретение
Настоящее изобретение относится к усилению диалога в системах звукового кодера-декодера (кодека).
Предпосылки изобретения
Поддержка функциональности усиления диалога обычно включается в современные системы звукового кодирования/декодирования.
В двухсторонних системах информация для усиления диалога может быть включена в битовый поток, передаваемый от кодера к декодеру. Такую информацию обычно называют набором изменяющихся по времени параметров усиления диалога (DE — англ.: dialogue enhancement), которые включают в себя один параметр на одну полосу частот (и на один канал). Временной интервал совместно с полосой частот (в одном канале) совместно называют «частотно-временной мозаикой», и параметры DE представляют изменяющиеся по времени усиления для каждой такой мозаики. На стороне декодера параметры DE могут быть применены совместно с определяемым пользователем усилением диалога для обеспечения сигнала с усиленным диалогом.
Однако эффект усиления диалога в таких системах может казаться довольно слабым, в результате чего требуется усиленная обработка.
В других областях было предложено усиление диалога, включающее комбинации коррекции и сжатия, см., например, US 2012/0209601. Однако такие решения не могут быть прямо применены к системе звукового кодека.
Общее описание вариантов осуществления изобретения
Таким образом, цель настоящего изобретения заключается в обеспечении улучшенного усиления диалога в системе звукового кодека.
В соответствии с настоящим изобретением эта и другие цели достигаются путем применения к оцененному диалоговому компоненту дополнительной обработки, которая включает в себя сжатие (и необязательно коррекцию), в результате чего обеспечивается улучшенное усиление диалога. Один вариант осуществления настоящего изобретения основан на понимании того, что усиление диалога в системе звукового кодека может быть значительно улучшено. Кроме того, в двухсторонней системе в соответствии с одним вариантом осуществления настоящего изобретения параметры усиления диалога (DE), которые обычно применяют в качестве линейного усиления прямо к звуковому сигналу, применяют вместо этого для оценки диалогового компонента, чтобы, тем самым, обеспечить возможность дополнительной обработки.
В соответствии с первым аспектом одного варианта осуществления настоящего изобретения дополнительную обработку оцененного диалогового компонента осуществляют на стороне декодера.
Более конкретно, первый аспект относится к способу усиления диалога звукового сигнала, включающему: прием кодированного битового потока, включающего в себя звуковой сигнал, получение набора изменяющихся по времени параметров, сконфигурированных для оценки диалогового компонента, присутствующего в звуковом сигнале, оценку диалогового компонента из звукового сигнала, применение устройства сжатия к оцененному диалоговому компоненту для генерирования обработанного диалогового компонента, применение определяемого пользователем усиления к обработанному диалоговому компоненту для генерирования усиленного диалогового компонента и объединение усиленного диалогового компонента со звуковым сигналом для образования сигнала с усиленным диалогом.
Первый аспект также относится к декодеру для усиления диалога звукового сигнала, причем указанный декодер получил набор изменяющихся по времени параметров, сконфигурированных для оценки диалогового компонента, присутствующего в звуковом сигнале, и указанный декодер содержит: декодирующий элемент для декодирования звукового сигнала, принятого в кодированном битовом потоке, оцениватель диалога для оценки диалогового компонента из звукового сигнала, устройство сжатия для сжатия оцененного диалогового компонента для генерирования обработанного диалогового компонента, элемент усиления для применения определяемого пользователем усиления к обработанному диалоговому компоненту, чтобы получить усиленный диалоговый компонент, и тракт объединения для объединения усиленного диалогового компонента со звуковым сигналом для образования звукового сигнала с усиленным диалогом.
В односторонней системе изменяющиеся по времени параметры для оценки диалогового компонента могут быть определены в декодере или даже предварительно заданы. Однако в предпочтительной реализации декодер является частью двухсторонней системы, причем в этом случае указанные параметры могут быть включены в кодированный битовый поток (например, в соответствии с параметрами усиления диалога (DE), которые известны в области техники).
Устройство сжатия преимущественно применяют только к оцененному диалоговому компоненту звукового сигнала. Устройство сжатия преимущественно применяют перед применением определяемого пользователем усиления, а также перед объединением усиленного диалогового компонента со звуковым сигналом. В стандартных декодерах весь звуковой сигнал, включающий в себя диалоговые и недиалоговые компоненты, обычно может быть усилен во время обработки звукового сигнала. В стандартных декодерах к усиленному сигналу может обычно применяться ограничитель, чтобы избежать перехода усиленного сигнала в состояние насыщения, тем самым предотвращая отсечение усиленного сигнала. В первом аспекте варианта осуществления настоящего изобретения устройство сжатия имеет назначение, которое отличается от назначения стандартного ограничителя, например, обычно устанавливаемого на выходе декодера. Устройство сжатия в соответствии с первым аспектом применяется для увеличения средней мощности только диалогового компонента звукового сигнала, при этом пиковый уровень звукового сигнала остается неизменным. Определяемое пользователем усиление применяют к обработанному (сжатому) диалоговому компоненту и объединяют со звуковым сигналом или, как в нижеописанном варианте осуществления, с недиалоговым компонентом, чтобы диалоговый компонент мог более четко выделяться в обработанном звуковом сигнале. Таким образом, в соответствии с первым аспектом устройство сжатия повышает отношение сигнал-шум звукового сигнала с усиленным диалогом между диалоговым компонентом и недиалоговым компонентом звукового сигнала, например фоном. Следовательно, устройство сжатия в соответствии с первым аспектом не используется для предотвращения отсечения сигнала.
В одном варианте осуществления диалоговый компонент содержит диалог, характеризующийся изменяющимся по времени уровнем. В соответствии с первым аспектом устройство сжатия может приблизить звуковой уровень более громких частей диалогового компонента к звуковому уровню более тихих частей.
В одном варианте осуществления устройство сжатия также может быть сконфигурировано таким образом, чтобы применять компенсирующее усиление к обработанному (сжатому) диалоговому компоненту для увеличения уровня, например пикового уровня, обработанного диалогового компонента обратно до уровня, например пикового уровня, оцененного диалогового компонента. Применение компенсирующего усиления приводит к общему увеличению уровня диалогового компонента, что делает сжатый диалоговый компонент более слышимым.
В одном варианте осуществления, который дополнительно описан ниже, ограничитель может применяться на выходе декодера, чтобы предотвратить отсечение обработанного звукового сигнала. В случаях, когда уровень диалогового компонента был усилен посредством простого усиления без сжатия, ограничитель может значительно уменьшить или даже отменить воспринимаемый эффект усиления диалога. С другой стороны, посредством сжатия и усиления диалогового компонента, так чтобы увеличилась средняя мощность диалога, воспринимаемое повышение уровня диалога может достигаться даже после ограничения. Таким образом, применение устройства сжатия только к диалоговому компоненту звукового сигнала предоставляет систему усиления диалога, которая с точки зрения восприятия является более устойчивой к действию выходного ограничителя.
Следует понимать, что, когда коррекцию также применяют к оцененному диалоговому компоненту перед сжатием, сжатие оцененного диалогового компонента означает сжатие скорректированного оцененного диалогового компонента.
В соответствии со вторым аспектом варианта осуществления настоящего изобретения дополнительная обработка оцененного диалогового компонента осуществляется на стороне кодера двухсторонней системы, что приводит к получению модифицированного параметра усиления диалога (DE), который кодируется и включается в битовый поток.
Следует отметить, что, хотя сжатие является переменной по времени нелинейной операцией, только вычисление значения усиления является нелинейным. Фактическое применение вычисленного значения усиления по сути является линейной операцией. Применение статической (стационарной по времени) кривой эквалайзера также является линейным. Таким образом, авторы изобретения пришли к выводу, что дополнительная обработка диалогового компонента в соответствии с одним вариантом осуществления настоящего изобретения может быть альтернативно реализована на стороне кодера посредством включения коэффициента эквалайзера и усиления сжатия (включая компенсирующее усиление) в набор параметров усиления диалога (DE), чтобы генерировать модифицированный набор параметров DE.
Более конкретно, второй аспект относится к способу кодирования звукового сигнала для обеспечения возможности усиления диалога, включающему: предоставление звукового сигнала, предоставление набора изменяющихся по времени параметров усиления диалога, сконфигурированных для оценки диалогового компонента, присутствующего в звуковом сигнале, оценку оцененного диалогового компонента путем применения параметров усиления диалога к звуковому сигналу, применение устройства сжатия к оцененному диалоговому компоненту для генерирования обработанного диалогового компонента, деление обработанного диалогового компонента на оцененный диалоговый компонент для определения набора изменяющихся по времени регулировочных усилений, объединение параметров усиления диалога с регулировочными усилениями, чтобы получить набор модифицированных параметров усиления диалога, и кодирование звукового сигнала и модифицированных параметров усиления диалога в битовый поток.
Второй аспект также относится к кодеру для кодирования звукового сигнала для обеспечения возможности усиления диалога, содержащему: оцениватель диалога для оценки диалогового компонента, присутствующего в звуковом сигнале, путем применения набора изменяющихся по времени параметров усиления диалога к звуковому сигналу, устройство сжатия для сжатия оцененного диалогового компонента для генерирования обработанного диалогового компонента, делитель для деления обработанного диалогового компонента на оцененный диалоговый компонент, чтобы определить набор изменяющихся по времени регулировочных усилений, объединитель для объединения параметров усиления диалога с регулировочными усилениями, чтобы получить набор модифицированных параметров усиления диалога, и кодирующий элемент для кодирования звукового сигнала и модифицированных параметров усиления диалога в битовый поток.
Преимущественные эффекты устройства сжатия, описанные со ссылкой на первый аспект вариантов осуществления настоящего изобретения, также достигаются со вторым аспектом различных вариантов осуществления настоящего изобретения.
Оба аспекта (декодер и кодер) обеспечивают получение по существу одинакового технического результата.
Преимущество второго аспекта (обработка в кодере) заключается в том, что декодер не нуждается в модификации. Устройство сжатия может ослаблять части сигнала, которые превышают заданный порог, например, части сигнала, которые имеют пиковый или среднеквадратичный (RMS — англ.: root mean square) уровень выше заданного порога. Значение коэффициента сжатия может составлять приблизительно 5:1 или даже до 20:1. Компенсирующее усиление может применяться для поддержания исходного уровня (например, пикового или RMS уровня) диалогового сигнала.
В двухсторонней системе кодированный битовый поток также может содержать параметры сжатия для настройки конфигурации устройства сжатия. Такие параметры могут включать в себя, например, порог, коэффициент сжатия, время нарастания, время затухания и компенсирующее усиление.
Дополнительная обработка оцененного диалогового компонента предпочтительно включает применение первого эквалайзера к оцененному диалоговому компоненту перед применением устройства сжатия. Такая коррекция может служить для дополнительного усиления эффекта сжатия.
Термин «эквалайзер» следует интерпретировать широко, при этом он может включать в себя, например, применение разностного уравнения во временной области. Однако в большинстве практических примеров эквалайзер представляет собой элемент, который применяет частотнозависимое (сложное) усиление к оцененному диалоговому сигналу, хотя в некоторых случаях может быть достаточно действительно-значного усиления.
Эквалайзер может включать обеспечение спада низких частот (например, ниже 500 Гц), а также обеспечения небольшого широкого усиления в выбранных частотных диапазонах. Более подробный пример приведен ниже.
Этап объединения усиленного диалогового компонента со звуковым сигналом может включать в себя образование оцененного недиалогового компонента (иногда называемого M&E для «музыки и эффектов») путем вычитания оцененного диалогового компонента из звукового сигнала, а затем суммирование оцененного недиалогового компонента с усиленным диалоговым компонентом.
В некоторых вариантах осуществления оцененный недиалоговый компонент также подвергают коррекции путем применения второго эквалайзера перед добавлением оцененного недиалогового компонента к усиленному диалоговому компоненту. Такой второй эквалайзер может быть функционально взаимосвязан с первым эквалайзером. Например, в частотных областях, где оцененный диалог усиливается, M&E может быть слегка ослаблен. Для получения более подробного примера см. описание вариантов осуществления.
В двухсторонней системе кодированный битовый поток может также включать в себя управляющие данные или данные управления для настройки конфигурации первого эквалайзера и, если присутствует, второго эквалайзера. Например, декодер может быть снабжен набором различных предварительных установок эквалайзера, и управляющие данные в битовом потоке могут выбирать, какую из предварительных установок применять.
Краткое описание графических материалов
Варианты осуществления настоящего изобретения теперь будут более подробно описаны со ссылкой на сопроводительные графические материалы.
На фиг. 1 показана структурная схема декодера в соответствии с одним вариантом осуществления настоящего изобретения.
На фиг. 2 показана структурная схема декодера в соответствии со вторым вариантом осуществления настоящего изобретения.
На фиг. 3 показана структурная схема части кодера в соответствии с одним вариантом осуществления настоящего изобретения.
На фиг. 4 показан декодер, подходящий для применения совместно с решением кодера, показанным на фиг. 3.
На фиг. 5 показана структурная схема более подробной реализации декодера, показанного на фиг. 2.
На фиг. 6 показана структурная схема, демонстрирующая компонент усиления диалога, показанный на фиг. 5, в соответствии с одним вариантом осуществления настоящего изобретения.
На фиг. 7a и 7b показаны структурные схемы, демонстрирующие два примера компонента усиления диалога, показанного на фиг. 5, в соответствии с другими вариантами осуществления настоящего изобретения.
На фиг. 8 показана структурная схема, демонстрирующая компонент усиления диалога, показанный на фиг. 5, в соответствии с еще одним вариантом осуществления настоящего изобретения.
На фиг. 9a и 9b показаны два примера функций коррекции для эквалайзеров, показанных на фиг. 2.
На фиг. 10a схематически показан пример усиления диалога в соответствии со стандартным подходом.
На фиг. 10b схематически показан пример усиления диалога в соответствии с одним вариантом осуществления настоящего изобретения.
На фиг. 10c схематически показан пример усиления диалога в соответствии с другим вариантом осуществления настоящего изобретения.
Подробное описание вариантов осуществления
Системы и способы, раскрытые далее в настоящем документе, могут быть реализованы в качестве программного обеспечения, встроенного программного обеспечения, аппаратного обеспечения или их комбинации. При реализации в аппаратном обеспечении разделение задач не обязательно соответствует разделению на физические блоки; наоборот, один физический компонент может выполнять несколько функций и одно задание может быть выполнено несколькими физическими компонентами во взаимодействии. Некоторые компоненты или все компоненты могут быть осуществлены в виде программного обеспечения, исполняемого процессором цифровых сигналов или микропроцессором, или быть осуществлены в виде аппаратного обеспечения или в виде зависимой от приложения интегральной микросхемы. Такое программное обеспечение может распространяться на машиночитаемых носителях, которые могут содержать компьютерные носители информации (или постоянные носители) и средства связи (или временные носители). Как хорошо известно специалисту в данной области техники, термин «компьютерные носители информации» содержит как энергозависимые, так и энергонезависимые, съемные и несъемные носители, реализованные любым способом или технологией для хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные носители информации включают, но не ограничиваются этим, RAM, ROM, EEPROM, флеш-память или другую технологию памяти, CD-ROM, универсальные цифровые диски (DVD) или другие оптические диски для хранения информации, магнитные кассеты, магнитную ленту, магнитный диск для хранения информации или другие магнитные устройства для хранения информации, или любой другой носитель, который может быть использован для хранения желаемой информации и который может быть доступным с помощью компьютера. Как также хорошо известно специалисту в данной области техники, средства связи, как правило, содержат машиночитаемые команды, структуры данных, программные модули или другие данные в модулированном сигнале данных, таком как несущая волна или другой механизм передачи, и содержат любые средства доставки информации.
Приведенное ниже описание относится к различным варианта осуществления декодера и кодера в двухсторонней системе кодека. Следует отметить, что варианты осуществления настоящего изобретения также могут быть реализованы в одностороннем декодере. В таком варианте осуществления изменяющиеся по времени параметры а для оценки диалогового компонента не будут приниматься в битовом потоке, а вместо этого будут определены декодером на основе принятого звукового сигнала Y.
Реализация стороны декодера
Декодер 10, показанный на фиг. 1, содержит блок 11 оценки диалога, который принимает входной звуковой сигнал Y, а также набор изменяющихся по времени параметров а усиления диалога (DE) из битового потока. Хотя это и не показано на фиг. 1, звуковой сигнал Y и набор параметров a декодируют из кодированного битового потока. Параметры a включают в себя параметры для каждого значения набора полос частот (и, разумеется, для каждого диалогового канала). Разрешение временной зависимости обычно определяется частотой кадров битового потока, при этом конкретную комбинацию кадра (m) и полосы (k) частот именуют частотно-временной мозаикой. В соответствии с этой терминологией параметры DE содержат один или более параметров a(m, k) для каждой частотно-временной мозаики. Следует отметить, что параметры DE обычно имеют более грубое частотное разрешение по сравнению со звуковым сигналом, при этом одна полоса частот DE может включать в себя несколько элементов разрешения по частоте звукового сигнала. Параметры DE позволяют блоку 11 оценки диалога осуществлять оценку диалогового компонента D, присутствующего в звуковом сигнале Y, исходя из D(m, k) = a(m, k)Y(m, k). Для получения дополнительных подробностей см. документ WO2017/132396, который ссылкой включается в настоящее описание.
Декодер дополнительно содержит тракт обработки диалога, который в этом варианте осуществления включает в себя первый эквалайзер 12 и устройство 13 сжатия, соединенные друг с другом последовательно. Выход устройства 13 сжатия соединен с усилителем 14, который осуществляет умножение на коэффициент g-1, где g представляет собой определяемое пользователем линейное усиление.
Определяемое пользователем усиление g может представлять собой применяемую в целом степень усиления диалога. Например, пользователь может установить усиление g на комфортный для себя уровень и оставить его на этом уровне. Если пользователь ощущает, что уровень диалогового компонента слишком тихий, пользователь может увеличить уровень путем увеличения усиления g. Аналогично, если пользователь ощущает, что уровень диалогового компонента слишком громкий, пользователь может снизить уровень путем понижения усиления g. Однако в большинстве практических случаев пользователь может отдавать предпочтение более громким диалоговым компонентам, и усиление может обычно устанавливаться равным значению, которое равняется или превышает единицу.
Перед эквалайзером 12 расположен переключатель 15, который в этом варианте осуществления сконфигурирован для соединения оцененного диалогового сигнала D с трактом обработки (устройство сжатия 13 и необязательно эквалайзер 12) только при выполнении двух следующих условий:
1) выбранный пользователем коэффициент g усиления больше 1 и
2) параметр a усиления диалога не равен нулю для частотно-временной мозаики, т.е. диалог присутствует.
Если какое-либо из этих условий не выполняется, оцененный диалоговый компонент D соединяется непосредственно с умножителем 14 без какой-либо обработки. Кроме того, возможны и другие настройки переключателя, например, без необходимости во втором условии.
Наконец, декодер содержит точку 16 суммирования, сконфигурированную для прибавления выходного сигнала из умножителя 14 к входному звуковому сигналу Y.
В процессе применения, когда g > 1, эквалайзер, показанный на фиг. 1, будет обрабатывать оцененный диалоговый компонент D (посредством сжатия и необязательно коррекции), после чего умножит его на g – 1, а затем, наконец, добавит его к исходному звуковому сигналу Y. Когда g ≤ 1, кодер будет умножать оцененный диалоговый компонент D (без обработки) на коэффициент g – 1 и добавлять его к исходному звуковому сигналу Y. Следует отметить, что этот последний случай соответствует ослаблению уровня диалога, так как коэффициент g – 1 будет меньше нуля. Таким образом, в этом случае суммирование в точке 16 будет вычитанием.
Более сложный вариант осуществления показан на фиг. 2. В этом случае декодер 20 дополнительно содержит точку 21 вычитания, сконфигурированную для вычитания оцененного диалога D из входного звукового сигнала Y, чтобы в результате образовать оцененный «недиалоговый» компонент, часто называемый M&E («музыка и эффекты»). Декодер, показанный на фиг. 2, дополнительно содержит тракт обработки со вторым эквалайзером 22, выход которого соединен с точкой 24 суммирования. Второму эквалайзеру 22 предшествует второй переключатель 23, который в этом варианте осуществления опять сконфигурирован для подачи сигнала M&E во второй эквалайзер 22 только при выполнении двух следующих условий:
1) выбранный пользователем коэффициент g усиления больше 1 и
2) параметр a(m, k) усиления диалога не равен нулю для частотно-временной мозаики, т.е. диалог присутствует.
На фиг. 2 точка 24 суммирования присоединена для добавления либо обработанного M&E, поступающего из эквалайзера 22, либо необработанного M&E, поступающего непосредственно от переключателя 23. Результатом суммирования является звуковой сигнал с усиленным диалогом.
Эквалайзеры 12, 22, показанные на фиг. 1 и 2, обычно сконфигурированы для применения частотнозависимого (сложного) усиления к входному сигналу (т.е. оцененному диалоговому сигналу или сигналу M&E). Первый и второй эквалайзеры 12, 22 могут быть функционально взаимосвязаны, например, в том смысле, что, когда функция усиления первого эквалайзера характеризуется усилением, функция усиления второго эквалайзера характеризуется соответствующим (но обычно более узкополосным) срезанием. Это показано на фиг. 9a, 9b для примерных функций EQ1 и EQ2 усиления эквалайзера. В этом случае первая функция EQ1 усиления имеет спад до приблизительно 400 Гц, небольшую впадину (т.е. ослабление) в районе приблизительно 3 кГц и пики в районе приблизительно 5 кГц и 10 кГц. Вторая функция EQ2 усиления характеризуется соответствующими срезами в районе приблизительно 5 кГц и 10 кГц. Следует отметить, что эти функции усиления являются лишь примерами и подробности функций усиления будут зависеть от фактического применения и желаемого эффекта.
Устройство 13 сжатия, показанное на фиг. 1 и 2, может представлять собой однополосное устройство сжатия с такими параметрами, как порог, коэффициент сжатия, время нарастания, время затухания и компенсирующее усиление. Параметры сжатия могут быть декодированы из битового потока и могут быть различными для каждого кадра. Например, коэффициент сжатия может быть 5:1, 10:1 или 20:1. Нарастание может равняться 10 мс, затухание может равняться 250 мс, относительный порог может равняться -6 дБ, а компенсирующее усиление может равняться 10 дБ. Порог (т.е. нижний предел для установки сжатия) может быть установлен относительно долгосрочного или краткосрочного опорного уровня громкости. Например, он может быть установлен относительно значения нормализации диалога, которое может быть индикатором средней громкости диалога в звуковом сигнале. Значение нормализации диалога может быть отрегулировано с учетом локальных отклонений на основе дополнительной информации, которая также может быть предоставлена в битовом потоке.
Реализация в качестве матричного умножения
Следует отметить, что структурные схемы, показанные на фиг. 1 и 2, являются схематическими представлениями функциональности декодеров. Более практическая реализация будет обычно реализована в качестве матричного умножения , где Y представляет собой входящий звуковой сигнал, H представляет собой передаточную функцию в форме матрицы входов-выходов, а Z представляет собой выходной сигнал с усиленным диалогом.
Рассмотрим усиление диалога в области квадратурного зеркального фильтра (QMF — англ.: quadrature mirror filter) с входным звуковым сигналом Y≡Y(m,k), где m представляет собой индекс временного интервала и k представляет собой индекс полосы частот, и оцененный диалоговый компонент (для конкретной частотно-временной мозаики) представляет собой D = aY, где может интерполироваться между обновлениями битового потока. Кроме того, пусть представляет собой мгновенное значение огибающей D для всех k. Затем, если выход Z с усиленным диалогом имеет следующий вид:
Где и представляют собой коэффициенты, и представляет собой усиление сжатия, которое является функцией значения огибающей
При условии, что
выход Z может быть записан как
или просто как
Где представляет собой полную передаточную функцию усиления диалога в соответствии с одним вариантом осуществления настоящего изобретения. Следовательно, в практической реализации коэффициенты статической кривой EQ могут быть сохранены в справочной таблице, и только усиление сжатия должно быть вычислено из перед тем, как H может быть применена к Y.
В многоканальной компоновке усиление сжатия получают аналогично посредством вычисления усиления отдельно для каждого канала и принятия наименьшего усиления в качестве общего усиления для всех каналов. Это эквивалентно вычислению мгновенного значения огибающей отдельно для каждого канала и получение усиления из наибольшего значения огибающей.
В этом случае, когда дополнительная обработка оцененного диалога D отключена (g < 1), тогда f = q 1 = q 2 = 1, при этом выход Z становится равным
или эквивалентно
где
Необходимость наличия дополнительного буфера для может быть устранена путем вычисления огибающей как
Где опять может интерполироваться между обновлениями битового потока.
Реализация стороны кодера
Подход, описанный со ссылкой на фиг. 2, также может применяться на стороне кодера, как показано на фиг. 3.
Кодер двухсторонней системы содержит схему цифровой обработки (не показана) для вычисления набора изменяющихся по времени параметров a усиления диалога, которые должны быть включены в битовый поток, так что декодер способен оценивать диалоговый компонент из звукового сигнала.
На фиг. 3 показана секция кодера, которая включает в себя блок 31 оценки диалога (аналогичный вышеупомянутому блоку 11 оценки диалога) для оценки диалогового компонента D, присутствующего в звуковом сигнале Y, при помощи параметров a, которые были ранее вычислены в кодере. Кодер дополнительно содержит тракт обработки, содержащий эквалайзер 32 и устройство 33 сжатия, который принимает оцененный диалоговый компонент D и направляет обработанный результат в умножитель 34. Кодер также содержит преобразователь x-1 35, который принимает оцененный диалоговый компонент D и выдает инвертированный диалоговый компонент D-1, который направляется в умножитель 34. Выход умножителя соединен со вторым умножителем 36, который также получает параметры а усиления диалога.
В процессе применения умножитель 34 будет принимать обработанный диалоговый компонент и умножать его на 1/D, т.е. он будет обеспечивать получение соотношения r между обработанным диалоговым компонентом и оцененным диалоговым компонентом. Соотношение r обычно является конкретным для одной частотно-временной мозаики. Таким образом, соотношение r представляет собой вклад тракта 32, 33 обработки относительно оцененного диалогового компонента для конкретной частотно-временной мозаики. Для каждой мозаики умножитель 36 будет умножать параметр a DE на соотношение r и выдавать модифицированный параметр b DE. Затем полный набор модифицированных параметров b DE кодируется в битовый поток совместно со звуковым сигналом.
Когда вариант осуществления настоящего изобретения реализуется на стороне кодера (как изображено на фиг. 3), он является обратно совместимым с существующими декодерами, такими как декодеры, показанные на фиг. 4. Посредством умножения принятого сигнала Y на набор модифицированных параметров b DE декодер способен воспроизводить обработанный диалоговый сигнал, выдаваемый из устройства 33 сжатия кодера, показанного на фиг. 3. Когда такой обработанный диалоговый сигнал масштабируют с помощью величины g-1, а затем добавляют обратно в сигнал Y, как показано в декодере, изображенном на фиг. 4, возможно получить сигнал с улучшенным усилением диалога даже в существующем декодере.
Практическая реализация
На фиг. 5 схематически показано, как усиление диалога в соответствии с практическим вариантом осуществления настоящего изобретения может быть реализовано в существующей топологии декодера. Как показано на фиг. 5, декодер 50 в целом содержит основной декодер 51, предназначенный для декодирования принимаемого битового потока, необязательное преобразование 52, например, бинауральное преобразование T, необязательный тракт обработки поздней реверберации, включающий в себя матричное преобразование 53 и блок 54 схемы задержки с обратной связью (FDN — англ.: feedback delay network). Кодер дополнительно содержит блок 55 усиления диалога (DE), обеспечивающий выходные сигналы для двух точек 56, 57 суммирования (которые соответствуют двум точкам 21, 24 суммирования, показанным на фиг. 2). Наконец, декодер 50 содержит блок 58 постобработки, обеспечивающий, например, регулировку громкости, и ограничитель 59.
На фиг. 6 показан пример блока 55 усиления диалога, показанного на фиг. 5, для конкретного случая стереозвука. Блок 55 содержит блок 61 оценки диалога (который соответствует блоку 11, показанному на фиг. 1 и 2), который использует преобразование A core для оценки диалогового компонента, а также блок 62 обработки для обеспечения коррекции и сжатия оцененного диалога. В случае, когда к сигналу M&E не применяется какая-либо коррекция, преобразование в блоке 62 эквивалентно . Точка 64 умножения (которая соответствует умножителю 14 на фиг. 1 и 2) умножает обработанный диалог на определяемое пользователем усиление g.
В изображенном варианте осуществления сжатие в блоке 62 обеспечивается при помощи боковой цепи 63, которая вычисляет надлежащее усиление устройства сжатия на основе оцененного диалогового сигнала. Следует отметить, что коррекция в блоке 62 также может обеспечиваться перед ответвлением боковой цепи, чтобы входной сигнал в боковую цепь 63 также подвергался воздействию эквалайзера. Другая опция заключается в применении отдельного эквалайзера в боковой цепи 63. В этом случае указанный эквалайзер может отличаться от эквалайзера в блоке 62.
В случае стереозвука, а также использования представления блока QMF, преобразование из LoRo (при этом индекс «1» представляет левый канал, а индекс «2» соответственно представляет правый канал пары стерео каналов) в LoRo с усиленным диалогом может быть выражено следующим образом:
где снова представляет собой индекс временного интервала, а представляет собой индекс полосы частот, и где
В этом случае
- представляет собой двухрядную квадратную матрицу, которая оценивает диалог LoRo из полного основного сигнала LoRo. Как правило, разделяют на восемь полос частот и интерполируют между обновлениями битового потока, которые происходят каждые 2048 единиц отсчета при номинальной частоте кадров.
- представляет собой пользовательское усиление, которое определяет величину усиления диалога. Оно может изменяться от кадра к кадру и может требовать осуществления интерполяции между кадрами.
- представляет собой усиление устройства сжатия, которое вычисляется для каждого временного интервала m. Усиление является широкополосным. Таким образом, нет зависимости от . Кроме того, одинаковое усиление устройства сжатия обычно применяют для каждого канала. Следовательно, представляет собой скалярную величину.
- представляет собой стационарную по времени кривую EQ, примененную к диалоговому сигналу.
- представляет собой стационарную по времени кривую EQ, примененную к сигналу музыка и эффекты.
- представляет собой двухрядную квадратную матрицу тождественности.
Систему объемного звука 5.1 легко получают на основе системы стереозвука. Единственное отличие состоит в том, что только три передних канала L/R/C (левый/правый/центральный) обрабатываются путем усиления диалога в соответствии с вариантом осуществления настоящего изобретения. Аналогично двухканальному примеру, описание которого приведено ранее, одинаковое усиление устройства сжатия обычно применяют для каждого из трех передних каналов. На фиг. 6 преобразование «Acore» в блоке 61 представляет собой трехрядную квадратную (диагональную) матрицу с соответствующими параметрами DE в качестве ее элементов, при этом указанное преобразование применяется только к трем передним каналам сигнала объемного звука 5.1 для оценки диалогового сигнала.
На фиг. 7a показан другой пример блока 55’ усиления диалога для альтернативной стерео реализации, который в этом случае включает в себя бинауральное преобразование 52. Для ознакомления с подробностями бинаурального преобразования см. документы WO2017/035281 и WO2017/035163, которые ссылкой включаются в настоящее описание.
На фигуре представлены три различных блока 71, 72 и 73 оценки диалога, представляющих различные режимы (также именуемые «конфигурациями») преобразования A, которые обозначены как Acfg0, Acfg1 и Acfg2 (более подробно см. документ WO2017/132396, который ссылкой включается в настоящее описание). Следует отметить, что Acfg2 эквивалентен на фиг. 6. Блоки 62 и 63 аналогичны блокам, представленным на фиг. 6.
В этой альтернативной стерео реализации, а также снова с использованием представления блока QMF, преобразование из LoRo в LaRa (бинауральный) с усиленным диалогом может быть выражено следующим образом:
где
В этом случае
- T представляет собой двухрядную квадратную матрицу, которая преобразовывает стерео сигнал в бинауральный сигнал. T интерполировано между обновлениями битового потока, которые происходят, например, каждые 4096 единиц отсчета при номинальной частоте кадров.
- Acfg2 представляет собой двухрядную квадратную матрицу, которая оценивает диалог из полного основного сигнала LoRo, где X обозначает режим (конфигурацию). Некоторые режимы включают в себя бинауральное преобразование. Следует отметить, что на фиг. 7a Acfg2=Acore применяется для генерирования сигнала M&E.
Альтернативно, усиление 55’ диалога на фиг. 7a может быть применено после преобразования стерео сигнала в бинауральный сигнал (т.е. после блока 52). Это раскрыто на фиг. 7b, где аналогичным элементам присвоены те же позиции, что и на фиг. 7a. Следует отметить, что в изображенном случае Acfg0 применяется для генерирования (бинаурального) сигнала M&E.
Вычитание оцененного диалога из стерео сигнала актуально только в том случае, если бинауральная версия диалога присутствует в битовом потоке. Процесс вычитания может быть исключен за счет снижения эффективности. Интерпретация пользовательского усиления изменяется в случае, если исключается вычитание. В этом случае пользовательское усиление, равное 0, означает отсутствие усиления диалога, а пользовательское усиление, равное 1, дает усиление в 6-дБ. Отрицательные значения привели бы к ослаблению, но, поскольку диалог после усиления диалога отличается от диалога в стерео сигнале, следует ожидать неудовлетворительного ослабления, и поэтому сигнал с усиленным диалогом на выходе был бы подвержен искажению.
В еще одном варианте осуществления усиление 55’’ диалога может быть применено перед преобразованием стерео сигнала с усиленным диалогом в бинауральный сигнал, как показано на фиг. 8, где аналогичным элементам присвоены те же позиции, что и на фиг. 7a. В этом случае вышеуказанные конфигурации (cfg1, cfg2, cfg3) являются излишними, и необходима только основная конфигурация (Acore) (блок 73). Фактически, этот вариант соответствует каскаду из 1) стерео декодера с усилением 55’’, 56, 57 диалога и 2) бинаурального преобразования 52.
Перекрестное затухание
В некоторых вариантах осуществления декодер может быть сконфигурирован для переключения между стандартным усилением диалога (т.е. без сжатия и коррекции диалога) и усилением диалога в соответствии с настоящим изобретением. Такое переключение может быть основано, например, на данных управления в битовом потоке. Для простоты стандартное усиление диалога в настоящем документе обозначается аббревиатурой DE, а усиление диалога в соответствии с настоящим изобретением обозначается как ADE («продвинутое» усиление диалога). Переключение между DE и ADE может приводить к слышимым скачкам громкости, что потенциально ухудшает впечатление от использования.
Для того чтобы устранить слышимый эффект таких разрывов в примененном усилении диалога, декодер может включать в себя механизм перехода. Механизм перехода может представлять собой перекрестное затухание, которое широко используется для плавного переключения. Вообще говоря, перекрестное затухание означает, что осуществляется постепенное переключение выхода с первого сигнала A на второй сигнал B в течение заданного периода времени. Это может быть выражено следующим образом:
cross_fade_output = f_smooth x A + (1-f_smooth) x B,
где f_smooth представляет собой весовой коэффициент, который постепенно изменяется от 1 до 0, когда осуществляется переключение выхода с A на B, и постепенно изменяется от 0 до 1, когда осуществляется переключения выхода с B на A.
В настоящем случае весовой коэффициент может быть задан следующей функцией, которая генерирует постепенное изменение от 0 до 1, когда осуществляется включение ADE (ADEswitch = 1), и обратное постепенное изменение от 1 до 0, когда осуществляется выключение указанного усиления диалога (ADEswitch = 0).
Продолжительность постепенного изменения определяется постоянной времени τ. Постоянная времени может представлять собой один или несколько кадров обработки декодера. В данном примере постепенное изменение является линейным, но оно может быть любой функцией, которая плавно переходит между 0 и 1 за время τ. Например, это может быть логарифмическая, квадратичная или косинусная функция.
На фиг. 10a и 10b схематически показано усиление диалога в иммерсивной стерео системе в соответствии со стандартным подходом (фиг. 10a) и соответствии с вариантом осуществления настоящего изобретения (фиг. 10b). Следует отметить, что фиг. 10b по существу соответствует описанной выше фиг. 7a. Однако ступени эквалайзера и устройства сжатия были изображены в этом случае как применение усилений, вычисленных в блоке 105 вычисления усиления ADE.
Следует отметить, что иммерсивная стерео система используется в качестве примера, при этом принципы перекрестного затухания могут быть реализованы также в других практических применениях, которые переключаются между DE и ADE.
В обоих случаях входной стерео сигнал LoRo обрабатывается для обеспечения иммерсивного сигнала LaRa с усиленным диалогом. На фиг. 10a к сигналу LoRo применяют матрицу MDE, а на фиг. 10b к сигналу LoRo применяют матрицу MADE. В конце FDN (схема задержки с обратной связью) 100 принимает входной сигнал FDN и генерирует сигнал FDN, который смешивают для получения окончательного выходного сигнала LbRb для наушников с усиленным диалогом.
Исходя из фиг. 10a и обозначений, применяемых ранее в настоящем документе, имеет место следующее:
MDE = T + (g – 1) x A cfgX,
где T применяется в блоке 101, A cfgX применяется в блоке 102 и надлежащее усиление (g – 1) применяется в точке 103 умножения.
Исходя из фиг. 10b и снова из обозначений, применяемых ранее в настоящем документе, имеет место следующее:
MADE = T x (I 2 A cfg2) + g x A cfgX x ADE_gain,
где T и A cfgX снова соответственно применяются в блоках 101 и 102, A cfg2 применяется в блоке 104, ADE_gain вычисляется в блоке 105, подвергается воздействию усиления g в точке 106 умножения и, наконец, применяется в точке 103 умножения.
Следует отметить, что, когда усиление диалога реализуется в области CQMF, MADE и MDE представляют собой двухрядные квадратные матрицы с переменным временным интервалом и полосой CQMF, а LoRo и LaRa представляют собой матрицы 2x1 с переменным временным интервалом и полосой CQMF (векторы-столбцы). Как и выше, I 2 представляет собой двухрядную квадратную матрицу тождественности.
Перекрестно затухающий сигнал LaRa, т.е. перекрестное затухание сигнала LaRa на фиг. 10a и сигнала Lara на фиг. 10b, может быть реализован путем применения вышезаданной весовой функции f_smooth непосредственно к матрицам MADE и MDE согласно следующему:
LaRacross-fade = (MADE x f_smooth + MDE x (1 - f_smooth)) x LoRo
На фиг. 10c представлена схематическая иллюстрация этого в виде структурной схемы на основе графиков, показанных на фиг. 10a и 10b.
На фиг. 10c вес f_smooth применяется к выходному сигналу из блока 104, так что вычитание диалога на фиг. 10b усиливается, когда f_smooth приближается к 1. Кроме того, вес f_smooth применяется к точке 106 умножения, а вес (1 – f_smooth) применяется к усилению (g – 1). Затем эти два взвешенных усиления суммируют в точке 107 суммирования перед соединением в точке 103 умножения. Отсюда следует, что для f_smooth = 0 в точку 103 умножения будет поступать такой же входной сигнал, что и на фиг. 10a, а для f_smooth = 1 в точку 103 умножения будет поступать такой же входной сигнал, что и на фиг. 1b.
Обобщения
Отсылка в данном описании к «одному варианту осуществления», «некоторым вариантам осуществления» или «одному из вариантов осуществления» означает, что конкретный отличительный признак, конструкция или характеристика, описанная в связи с данным вариантом осуществления, включена в по меньшей мере один вариант осуществления настоящего изобретения. Поэтому появления фразы «в одном варианте осуществления», «в некоторых вариантах осуществления» или «в одном из вариантов осуществления» в различных местах данного описания не обязательно относится к одному и тому же варианту осуществления изобретения. Кроме того, конкретные отличительные признаки, конструкции или характеристики могут комбинироваться в одном или более вариантах осуществления любым подходящим образом, что должно быть очевидно из данного описания для специалистов средней квалификации в данной области.
В рамках данного описания использование порядковых числительных «первый», «второй», «третий» и т. д. для описания обычного объекта указывает единственно на то, что производится отсылка к различным примерам сходных объектов, и они не предназначены для обозначения того, что объекты, описанные таким образом, должны находиться в данной последовательности во времени, в пространстве, по рангу или любым иным образом.
В приведенной ниже формуле изобретения и в данном описании любой из терминов «содержащий», «состоящий из» или «который содержит» является неограничивающим термином, что означает включение по меньшей мере следующих за ним элементов/отличительных признаков, но не исключение остальных. Поэтому термин «содержащий» при его использовании в формуле изобретения не следует интерпретировать как ограничивающий в отношении средств или элементов, или этапов, перечисляемых после него. Например, объем выражения «устройство, содержащее А и В» не следует ограничивать устройствами, содержащими только элементы А и В. Если любой из используемых в данном описании терминов «включающий» или «который включает» также представляет собой неограничивающий термин, который также означает включение по меньшей мере элементов/отличительных признаков, следующих за этим термином, но не исключение остальных. Таким образом, «включающий» является синонимом и означает «содержащий».
В рамках данного описания термин «примерный» используется в смысле представления примеров, в отличие от указания свойства. Т.е. «примерный вариант осуществления» — это вариант осуществления, предусмотренный в качестве примера, но не обязательно являющийся одним из вариантов осуществления примерного свойства.
Следует понимать, что в приведенном выше описании примерных вариантов осуществления изобретения различные отличительные признаки иногда группируются в один вариант осуществления изобретения, фигуру или их описание для выбора оптимального пути описания и для обеспечения понимания одного или более различных аспектов изобретения. Такой способ раскрытия, однако, не следует интерпретировать как отражение намерения того, что формула изобретения требует большего количества отличительных признаков, чем количество признаков, которые в прямой форме перечислены в данном документе. Вместо этого, как отражает нижеследующая формула изобретения, особенности изобретения заключаются менее чем во всех отличительных признаках вышеописанного одного варианта осуществления изобретения. Поэтому формула изобретения, следующая за разделом «Подробное описание», таким образом безоговорочно включена в этот раздел «Подробное описание», причем каждый пункт формулы самостоятельно представляет собой отдельный вариант осуществления данного изобретения.
Кроме того, несмотря на то, что некоторые варианты осуществления изобретения, описанные в данном описании, включают одни, а не другие отличительные признаки, включенные в другие варианты осуществления изобретения, комбинации отличительных признаков из различных вариантов осуществления изобретения образуют другие варианты осуществления изобретения, как должно быть понятно специалистам в данной области. Например, в нижеследующей формуле изобретения любые заявленные варианты осуществления изобретения могут быть использованы в любой комбинации.
Кроме того, некоторые варианты осуществления изобретения описаны в данном описании как способ или комбинация элементов способа, которые могут быть реализованы процессором вычислительной системы, или другими средствами осуществления такой функции. Таким образом, процессор с необходимыми командами для осуществления указанного способа или элемента способа образует средства для осуществления способа или элемента способа. Кроме того, описанный в данном описании элемент варианта осуществления устройства представляет собой пример средств осуществления функции, выполняемой элементом для реализации различных вариантов осуществления настоящего изобретения.
В приведенном в данном документе описании изложено множество конкретных деталей. Однако следует понимать, что варианты осуществления изобретения могут использоваться на практике без этих конкретных деталей. В других случаях хорошо известные способы, конструкции и технологии подробно не показаны для того, чтобы не делать менее ясным понимание данного описания.
Аналогично, следует обратить внимание, что термин «связанный» при его использовании в формуле изобретения не следует интерпретировать как ограничивающийся только прямыми соединениями. Могут использоваться термины «связанный» и «соединенный» наряду с их производными. Следует понимать, что эти термины не предполагаются как синонимы друг друга. Таким образом, объем выражения «устройство А, связанное с устройством В» не следует ограничивать устройствами или системами, в которых вывод устройства А непосредственно соединен с вводом устройства В. Это означает, что существует путь между выводом устройства А и вводом устройства В, который может представлять собой путь, содержащий другие устройства или средства. «Связанный» может означать то, что два или большее количество элементов находятся или в прямом физическом, или электрическом контакте, или то, что два или большее количество элементов не находятся в прямом контакте друг с другом, однако по-прежнему кооперируются или взаимодействуют друг с другом.
Таким образом, хотя были описаны конкретные варианты осуществления изобретения, специалистам в данной области должно быть понятно, что в них могут быть внесены другие и дальнейшие модификации. Например, любые приведенные выше формулы являются только примерами процедур, которые могут использоваться. Функциональные возможности могут добавляться к структурным схемам или исключаться из структурных схем, а операции могут быть подвержены взаимному обмену между функциональными блоками. Этапы могут добавляться к способам или исключаться из способов, описанных в пределах объема вариантов осуществления настоящего изобретения.
Например, декодер, реализующий настоящее изобретение, может включать в себя блоки обработки, которые отличаются от блоков, показанных на фиг. 5.
Варианты осуществления настоящего изобретения относятся к следующим пронумерованным примерным вариантам осуществления (ППВО).
EEE1. Способ усиления диалога звукового сигнала, включающий:
прием кодированного битового потока, включающего в себя звуковой сигнал,
получение набора изменяющихся по времени параметров, сконфигурированных для оценки диалогового компонента, присутствующего в указанном звуковом сигнале,
оценку указанного диалогового компонента из указанного звукового сигнала,
применение устройства сжатия к указанному оцененному диалоговому компоненту, чтобы сгенерировать обработанный диалоговый компонент,
применение определяемого пользователем усиления к обработанному диалоговому компоненту, чтобы получить усиленный диалоговый компонент, и
объединение указанного усиленного диалогового компонента с указанным звуковым сигналом для образования звукового сигнала с усиленным диалогом.
EEE2. Способ согласно ППВО 1, дополнительно включающий применение первого эквалайзера к оцененному диалоговому компоненту перед применением устройства сжатия.
EEE3. Способ согласно ППВО 1 или ППВО 2, в котором этап объединения усиленного диалогового компонента со звуковым сигналом включает в себя образование недиалогового компонента путем вычитания диалогового компонента из звукового сигнала и суммирование указанного недиалогового компонента с указанным усиленным диалоговым компонентом.
EEE4. Способ согласно ППВО 3, дополнительно включающий применение второго эквалайзера к недиалоговому компоненту перед его суммированием с указанным усиленным диалоговым компонентом.
EEE5. Способ согласно ППВО 4, в котором указанный второй эквалайзер функционально взаимосвязывают с первым эквалайзером.
EEE6. Способ согласно одному из предыдущих ППВО, в котором указанный набор изменяющихся по времени параметров включает в себя один параметр для каждого значения набора полос частот.
EEE7. Способ согласно одному из предыдущих ППВО, в котором кодированный битовый поток включает в себя изменяющиеся по времени параметры.
EEE8. Способ согласно ППВО 7, в котором кодированный битовый поток также включает в себя параметры сжатия для настройки конфигурации устройства сжатия.
EEE9. Способ согласно ППВО 7 или ППВО 8, в котором кодированный битовый поток также включает в себя данные управления для настройки конфигурации указанного первого эквалайзера и, если присутствует, указанного второго эквалайзера.
EEE10. Способ согласно одному из предыдущих ППВО, дополнительно включающий применение перекрестного затухания для активирования этапа объединения усиленного диалогового компонента со звуковым сигналом и, когда применимо, активирования этапа вычитания оцененного диалога из звукового сигнала.
EEE11. Способ кодирования звукового сигнала для обеспечения возможности усиления диалога, включающий:
предоставление звукового сигнала,
предоставление набора изменяющихся по времени параметров усиления диалога, сконфигурированных для оценки диалогового компонента, присутствующего в указанном звуковом сигнале,
оценку оцененного диалогового компонента путем применения параметров усиления диалога к звуковому сигналу,
применение устройства сжатия к указанному оцененному диалоговому компоненту, чтобы сгенерировать обработанный диалоговый компонент,
деление указанного обработанного диалогового компонента на указанный оцененный диалоговый компонент, чтобы определить набор изменяющихся по времени регулировочных усилений, и
объединение указанных параметров усиления диалога с указанными регулировочными усилениями, чтобы получить набор модифицированных параметров усиления диалога, и
кодирование указанного звукового сигнала и указанных модифицированных параметров усиления диалога в битовый поток.
EEE12. Способ согласно ППВО 11, дополнительно включающий применение эквалайзера к оцененному диалоговому компоненту перед применением устройства сжатия.
EEE13. Способ согласно одному из ППВО 11 или ППВО 12, в котором указанный набор изменяющихся по времени параметров включает в себя один параметр для каждого значения набора полос частот.
EEE14. Декодер для усиления диалога звукового сигнала, причем указанный декодер получил набор изменяющихся по времени параметров, сконфигурированных для оценки диалогового компонента, присутствующего в указанном звуковом сигнале, причем декодер содержит:
декодирующий элемент для декодирования звукового сигнала, принятого в кодированном битовом потоке,
оцениватель диалога для оценки указанного диалогового компонента из указанного звукового сигнала,
устройство сжатия для сжатия оцененного диалогового компонента для генерирования обработанного диалогового компонента,
элемент усиления для применения определяемого пользователем усиления к обработанному диалоговому компоненту, чтобы получить усиленный диалоговый компонент, и
тракт объединения для объединения указанного усиленного диалогового компонента с указанным звуковым сигналом для образования звукового сигнала с усиленным диалогом.
EEE15. Декодер согласно ППВО 14, дополнительно содержащий первый эквалайзер для коррекции оцененного диалогового компонента перед применением устройства сжатия.
EEE16. Декодер согласно ППВО 14 или ППВО 15, в котором тракт объединения содержит вычитатель для вычитания диалогового компонента из звукового сигнала для образования недиалогового компонента, а также точку суммирования для суммирования указанного недиалогового компонента с указанным усиленным диалоговым компонентом.
EEE17. Декодер согласно ППВО 16, дополнительно содержащий второй эквалайзер для коррекции недиалогового компонента перед его суммированием с указанным усиленным диалоговым компонентом.
EEE18. Декодер согласно ППВО 17, в котором указанный второй эквалайзер функционально взаимосвязан с указанным первым эквалайзером.
EEE19. Декодер согласно одному из ППВО 14–18, в котором кодированный битовый поток включает в себя изменяющиеся по времени параметры, и при этом декодирующий элемент сконфигурирован таким образом, чтобы декодировать указанные изменяющиеся по времени параметры.
EEE20. Декодер согласно ППВО 19, в котором кодированный битовый поток включает в себя параметры сжатия для настройки конфигурации устройства сжатия.
EEE21. Декодер согласно ППВО 19 или ППВО 20, в котором кодированный битовый поток включает в себя данные управления для настройки конфигурации указанного первого эквалайзера и, если присутствует, указанного второго эквалайзера.
EEE22. Кодер для кодирования звукового сигнала для обеспечения возможности усиления диалога, содержащий:
оцениватель диалога для оценки диалогового компонента, присутствующего в звуковом сигнале, путем применения набора изменяющихся по времени параметров усиления диалога к звуковому сигналу,
устройство сжатия для сжатия указанного оцененного диалогового компонента, чтобы сгенерировать обработанный диалоговый компонент,
делитель для деления указанного обработанного диалогового компонента на указанный оцененный диалоговый компонент, чтобы определить набор изменяющихся по времени регулировочных усилений,
объединитель для объединения указанных параметров усиления диалога с указанными регулировочными усилениями, чтобы получить набор модифицированных параметров усиления диалога, и
кодирующий элемент для кодирования указанного звукового сигнала и указанного модифицированного параметра усиления диалога в битовый поток.
EEE23. Кодер согласно ППВО 22, дополнительно содержащий эквалайзер для коррекции оцененного диалогового компонента перед применением устройства сжатия.
EEE24. Компьютерный программный продукт, содержащий сегменты компьютерного кода, сконфигурированные таким образом, чтобы при их исполнении в одном или более процессорах вызывать выполнение указанными процессорами способа согласно одному из ППВО 1–10.
EEE25. Постоянный носитель данных, на котором хранится компьютерный программный продукт согласно ППВО 24.
EEE26. Компьютерный программный продукт, содержащий сегменты компьютерного кода, сконфигурированные таким образом, чтобы при их исполнении в одном или более процессорах вызывать выполнение указанными процессорами способа согласно одному из ППВО 11–13.
EEE27. Постоянный носитель данных, на котором хранится компьютерный программный продукт согласно ППВО 26.

Claims (57)

1. Способ усиления диалога звукового сигнала, включающий:
прием кодированного битового потока, включающего в себя звуковой сигнал,
получение набора изменяющихся по времени параметров, сконфигурированных для оценки диалогового компонента, присутствующего в указанном звуковом сигнале,
оценку указанного диалогового компонента из указанного звукового сигнала,
применение устройства сжатия только к указанному оцененному диалоговому компоненту, чтобы сгенерировать обработанный диалоговый компонент,
применение определяемого пользователем усиления к обработанному диалоговому компоненту, чтобы получить усиленный диалоговый компонент, и
объединение указанного усиленного диалогового компонента с указанным звуковым сигналом для образования звукового сигнала с усиленным диалогом, при этом объединение усиленного диалогового компонента со звуковым сигналом включает в себя образование недиалогового компонента путем вычитания диалогового компонента из звукового сигнала и суммирование указанного недиалогового компонента с указанным усиленным диалоговым компонентом.
2. Способ по п. 1, отличающийся тем, что устройство сжатия выполнено с возможностью увеличения средней мощности только диалогового компонента звукового сигнала, при этом пиковый уровень звукового сигнала остается неизменным.
3. Способ по любому из предыдущих пунктов, отличающийся тем, что способ выполняют с помощью декодера, содержащего ограничитель на выходе декодера.
4. Способ по любому из предыдущих пунктов, отличающийся тем, что дополнительно включает применение первого эквалайзера к оцененному диалоговому компоненту перед применением устройства сжатия.
5. Способ по любому из предыдущих пунктов, отличающийся тем, что дополнительно включает применение второго эквалайзера к недиалоговому компоненту перед его суммированием с указанным усиленным диалоговым компонентом.
6. Способ по п. 5, отличающийся тем, что указанный второй эквалайзер функционально взаимосвязывают с первым эквалайзером.
7. Способ по любому из предыдущих пунктов, отличающийся тем, что первый эквалайзер конфигурируют таким образом, чтобы усиливать один или более частотных диапазонов диалогового компонента, и второй эквалайзер конфигурируют таким образом, чтобы срезать один или более частотных диапазонов недиалогового компонента.
8. Способ по п. 7, отличающийся тем, что для данного частотного диапазона усиление диалогового компонента имеет усиленную полосу пропускания, а соответствующее срезание недиалогового компонента имеет срезанную полосу пропускания, которая является более узкой по сравнению с усиленной полосой пропускания.
9. Способ по любому из предыдущих пунктов, отличающийся тем, что применение устройства сжатия к оцененному диалоговому компоненту осуществляют в случае, если определяемое пользователем усиление превышает единицу и если оцененный диалоговый компонент не равняется нулю.
10. Способ по любому из предыдущих пунктов, отличающийся тем, что применение устройства сжатия содержит применение компенсирующего усиления к обработанному диалоговому компоненту для увеличения уровня обработанного диалогового компонента обратно до уровня оцененного диалогового компонента.
11. Способ по любому из предыдущих пунктов, отличающийся тем, что указанный набор изменяющихся по времени параметров включает в себя один параметр для каждого значения набора полос частот.
12. Способ по любому из предыдущих пунктов, отличающийся тем, что кодированный битовый поток включает в себя изменяющиеся по времени параметры.
13. Способ по п. 12, отличающийся тем, что кодированный битовый поток также включает в себя параметры сжатия для настройки конфигурации устройства сжатия.
14. Способ по п. 12 или п. 13, отличающийся тем, что кодированный битовый поток также включает в себя данные управления для настройки конфигурации указанного первого эквалайзера и, если присутствует, указанного второго эквалайзера.
15. Способ кодирования звукового сигнала для обеспечения возможности усиления диалога, включающий:
предоставление звукового сигнала,
предоставление набора изменяющихся по времени параметров усиления диалога, сконфигурированных для оценки диалогового компонента, присутствующего в указанном звуковом сигнале,
оценку оцененного диалогового компонента путем применения параметров усиления диалога к звуковому сигналу,
применение устройства сжатия только к указанному оцененному диалоговому компоненту, чтобы сгенерировать обработанный диалоговый компонент,
деление указанного обработанного диалогового компонента на указанный оцененный диалоговый компонент, чтобы определить набор изменяющихся по времени регулировочных усилений, и
объединение указанных параметров усиления диалога с указанными регулировочными усилениями, чтобы получить набор модифицированных параметров усиления диалога, и
кодирование указанного звукового сигнала и указанных модифицированных параметров усиления диалога в битовый поток.
16. Способ по п. 15, отличающийся тем, что устройство сжатия выполнено с возможностью увеличения средней мощности только диалогового компонента звукового сигнала, при этом пиковый уровень звукового сигнала остается неизменным.
17. Способ по п. 15 или 16, отличающийся тем, что дополнительно включает применение эквалайзера к оцененному диалоговому компоненту перед применением устройства сжатия.
18. Способ по любому из пп. 15-17, отличающийся тем, что указанный набор изменяющихся по времени параметров включает в себя один параметр для каждого значения набора полос частот.
19. Декодер для усиления диалога звукового сигнала, причем указанный декодер получил набор изменяющихся по времени параметров, сконфигурированных для оценки диалогового компонента, присутствующего в указанном звуковом сигнале, причем декодер содержит:
декодирующий элемент для декодирования звукового сигнала, принятого в кодированном битовом потоке,
оцениватель диалога для оценки указанного диалогового компонента из указанного звукового сигнала,
устройство сжатия для сжатия только оцененного диалогового компонента для генерирования обработанного диалогового компонента,
элемент усиления для применения определяемого пользователем усиления к обработанному диалоговому компоненту, чтобы получить усиленный диалоговый компонент, и
тракт объединения для объединения указанного усиленного диалогового компонента с указанным звуковым сигналом для образования звукового сигнала с усиленным диалогом, при этом тракт объединения содержит вычитатель для вычитания диалогового компонента из звукового сигнала для образования недиалогового компонента, а также точку суммирования для суммирования указанного недиалогового компонента с указанным усиленным диалоговым компонентом.
20. Декодер по п. 19, отличающийся тем, что устройство сжатия выполнено с возможностью увеличения средней мощности только диалогового компонента звукового сигнала, при этом пиковый уровень звукового сигнала остается неизменным.
21. Декодер по п. 19 или 20, отличающийся тем, что дополнительно содержит ограничитель на выходе декодера.
22. Декодер по любому из пп. 19-21, отличающийся тем, что дополнительно содержит первый эквалайзер для коррекции оцененного диалогового компонента перед применением устройства сжатия.
23. Декодер по любому из пп. 20-22, отличающийся тем, что дополнительно содержит второй эквалайзер для коррекции недиалогового компонента перед его суммированием с указанным усиленным диалоговым компонентом.
24. Декодер по п. 23, отличающийся тем, что указанный второй эквалайзер функционально взаимосвязан с указанным первым эквалайзером.
25. Декодер по п. 23 или 24, отличающийся тем, что первый эквалайзер сконфигурирован таким образом, чтобы усиливать один или более частотных диапазонов диалогового компонента, и второй эквалайзер сконфигурирован таким образом, чтобы срезать один или более частотных диапазонов недиалогового компонента.
26. Декодер по п. 25, отличающийся тем, что для данного частотного диапазона усиление диалогового компонента имеет усиленную полосу пропускания, а соответствующее срезание недиалогового компонента имеет срезанную полосу пропускания, которая является более узкой по сравнению с усиленной полосой пропускания.
27. Декодер по любому из пп. 19-26, отличающийся тем, что сконфигурирован для применения устройства сжатия к оцененному диалоговому компоненту в случае, если определяемое пользователем усиление превышает единицу и если оцененный диалоговый компонент не равняется нулю.
28. Декодер по любому из пп. 19-27, отличающийся тем, что устройство сжатия дополнительно сконфигурировано для применения компенсирующего усиления к обработанному диалоговому компоненту для увеличения уровня обработанного диалогового компонента обратно до уровня оцененного диалогового компонента.
29. Декодер по любому из пп. 19-28, отличающийся тем, что кодированный битовый поток включает в себя изменяющиеся по времени параметры, и при этом декодирующий элемент сконфигурирован таким образом, чтобы декодировать указанные изменяющиеся по времени параметры.
30. Декодер по п. 29, отличающийся тем, что кодированный битовый поток включает в себя параметры сжатия для настройки конфигурации устройства сжатия.
31. Декодер по п. 29 или 30, отличающийся тем, что кодированный битовый поток включает в себя данные управления для настройки конфигурации указанного первого эквалайзера и, если присутствует, указанного второго эквалайзера.
32. Кодер для кодирования звукового сигнала для обеспечения возможности усиления диалога, содержащий:
оцениватель диалога для оценки диалогового компонента, присутствующего в звуковом сигнале, путем применения набора изменяющихся по времени параметров усиления диалога к звуковому сигналу,
устройство сжатия для сжатия только указанного оцененного диалогового компонента, чтобы сгенерировать обработанный диалоговый компонент,
делитель для деления указанного обработанного диалогового компонента на указанный оцененный диалоговый компонент, чтобы определить набор изменяющихся по времени регулировочных усилений,
объединитель для объединения указанных параметров усиления диалога с указанными регулировочными усилениями, чтобы получить набор модифицированных параметров усиления диалога, и
кодирующий элемент для кодирования указанного звукового сигнала и указанного модифицированного параметра усиления диалога в битовый поток.
33. Кодер по п. 32, отличающийся тем, что дополнительно содержит эквалайзер для коррекции оцененного диалогового компонента перед применением устройства сжатия.
34. Постоянный носитель данных, на котором хранится компьютерный программный продукт, который содержит сегменты компьютерного кода, сконфигурированные таким образом, чтобы при их исполнении в одном или более процессорах вызывать выполнение указанными процессорами способа по любому из пп. 1-18.
RU2021128866A 2019-04-15 2020-04-15 Усиление диалога в звуковом кодеке RU2812005C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19169218.5 2019-04-15
US62/833,855 2019-04-15
US62/882,722 2019-08-05

Publications (2)

Publication Number Publication Date
RU2021128866A RU2021128866A (ru) 2023-04-04
RU2812005C2 true RU2812005C2 (ru) 2024-01-22

Family

ID=

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2520420C2 (ru) * 2010-03-08 2014-06-27 Долби Лабораторис Лайсэнзин Корпорейшн Способ и система для масштабирования подавления слабого сигнала более сильным в относящихся к речи каналах многоканального звукового сигнала
US20150332680A1 (en) * 2012-12-21 2015-11-19 Dolby Laboratories Licensing Corporation Object Clustering for Rendering Object-Based Audio Content Based on Perceptual Criteria
US20160358614A1 (en) * 2015-06-04 2016-12-08 Intel Corporation Dialogue system with audio watermark
US20170249945A1 (en) * 2014-10-01 2017-08-31 Dolby International Ab Audio encoder and decoder

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2520420C2 (ru) * 2010-03-08 2014-06-27 Долби Лабораторис Лайсэнзин Корпорейшн Способ и система для масштабирования подавления слабого сигнала более сильным в относящихся к речи каналах многоканального звукового сигнала
US20150332680A1 (en) * 2012-12-21 2015-11-19 Dolby Laboratories Licensing Corporation Object Clustering for Rendering Object-Based Audio Content Based on Perceptual Criteria
US20170249945A1 (en) * 2014-10-01 2017-08-31 Dolby International Ab Audio encoder and decoder
US20160358614A1 (en) * 2015-06-04 2016-12-08 Intel Corporation Dialogue system with audio watermark

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KUBA LOPATKA et al. Improving listeners' experience for movie playback through enhancing dialogue clarity in soundtracks" 08.09.2015, стр. 40-49, [онлайн], [найдено 04.08.2023], найдено в Интернет: URL: https://www.sciencedirect.com/science/article/pii/S105120041500264X. *

Similar Documents

Publication Publication Date Title
US20210021247A1 (en) Methods and Apparatus for Adjusting a Level of an Audio Signal
CN107925391B (zh) 基于编码音频元数据的响度均衡和drc期间的动态均衡的方法和系统
EP2002429B1 (en) Controlling a perceived loudness characteristic of an audio signal
US8275152B2 (en) Dynamic bass boost filter
JP4579273B2 (ja) ステレオ音響信号の処理方法と装置
US9307338B2 (en) Upmixing method and system for multichannel audio reproduction
US8351619B2 (en) Auditory sense correction device
WO2015038522A1 (en) Loudness adjustment for downmixed audio content
EP3761672A1 (en) Using metadata to aggregate signal processing operations
RU2812005C2 (ru) Усиление диалога в звуковом кодеке
EP3956886B1 (en) Dialogue enhancement in audio codec
EP3761673A1 (en) Stereo audio
WO2023015375A1 (en) Method and device for limiting of output synthesis distortion in a sound codec