RU2467406C2 - Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания - Google Patents

Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания Download PDF

Info

Publication number
RU2467406C2
RU2467406C2 RU2010146924/08A RU2010146924A RU2467406C2 RU 2467406 C2 RU2467406 C2 RU 2467406C2 RU 2010146924/08 A RU2010146924/08 A RU 2010146924/08A RU 2010146924 A RU2010146924 A RU 2010146924A RU 2467406 C2 RU2467406 C2 RU 2467406C2
Authority
RU
Russia
Prior art keywords
channel
speech
characteristic
attenuation coefficient
audio signal
Prior art date
Application number
RU2010146924/08A
Other languages
English (en)
Other versions
RU2010146924A (ru
Inventor
Ханнес МЮШ (US)
Ханнес МЮШ
Original Assignee
Долби Лэборетериз Лайсенсинг Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Лэборетериз Лайсенсинг Корпорейшн filed Critical Долби Лэборетериз Лайсенсинг Корпорейшн
Publication of RU2010146924A publication Critical patent/RU2010146924A/ru
Application granted granted Critical
Publication of RU2467406C2 publication Critical patent/RU2467406C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/041Adaptation of stereophonic signal reproduction for the hearing impaired

Abstract

Изобретение относится к обработке звуковых сигналов, в частности, к улучшению четкости диалога и устной речи, например, в объемном развлекательном звуковом сопровождении. Техническим результатом является улучшение воспринимаемости речи. Указанный результат достигается тем, что обрабатывают многоканальный звуковой сигнал для формирования первой характеристики и второй характеристики, обрабатывают первый канал для формирования значения вероятности речи. Первая характеристика соответствует первому измеренному показателю, который зависит от уровня сигнала в первом канале многоканального звукового сигнала, содержащем речевой и неречевой звуки. Вторая характеристика соответствует второму измеренному показателю, который зависит от уровня сигнала во втором канале многоканального звукового сигнала, содержащем, преимущественно, неречевой звук. Далее сравнивают первую и вторую характеристики многоканального звукового сигнала для формирования коэффициента ослабления, при этом определяют разность между первым измеренным показателем и вторым измеренным показателем, и вычисляют коэффициент ослабления на основании полученной разности и пороговой величины. Затем корректируют коэффициент ослабления в соответствии со значением вероятности речи и ослабляют второй канал с использованием скорректированного коэффициента ослабления. 4 н. и 8 з.п. ф-лы, 5 ил.

Description

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ
Данная заявка на изобретение заявляет приоритет предварительной заявки на патент США № 61/046,271, поданной 18 апреля 2008, которая путем ссылки включается в данный документ во всей своей полноте.
УРОВЕНЬ ТЕХНИКИ
Данное изобретение, в общем, относится к обработке звуковых сигналов, а более конкретно, к улучшению четкости диалога и устной речи, в частности, в объемном развлекательном звуковом сопровождении.
Подходы, описанные в данном разделе документа, не представляют собой предшествующий уровень техники по отношению к формуле изобретения в данной заявке и не могут быть признаны как предшествующий уровень техники из-за включения в данный раздел, если только не указано обратное.
Современное развлекательное звуковое сопровождение с многочисленными одновременными звуковыми каналами (система объемного звука) предоставляет слушателям реалистичные звуковые окружения с эффектом погружения, имеющие колоссальное развлекательное значение. В таких окружениях многие звуковые элементы, такие как диалог, музыка и звуковые эффекты, представлены одновременно и конкурируют, отвлекая внимания слушателя. Для некоторых членов аудитории - особенно со сниженными слуховыми рецепторами или с замедленным когнитивным восприятием - диалог и устная речь могут быть трудны для понимания в течение некоторых частей программы, в которых представлены громкие конкурирующие звуковые элементы. В течение таких эпизодов для этих слушателей было бы полезно, если бы уровень конкурирующих звуков снизился.
Осознание того, что музыка и эффекты могут подавлять диалог, не ново, и было предложено несколько способов для исправления этой ситуации. Однако, как будет кратко изложено далее, эти предлагаемые способы либо несовместимы с современной практикой широковещательных передач, накладывают излишне высокую плату на всю индустрию развлечений, или и то и другое.
В производстве объемного звукового сопровождения в кино и на телевидении общепринятой практикой является размещение большей части диалога и устной речи только в один канал (центральный канал, его называют также речевым каналом). Обычно музыка, звуки окружающей среды и звуковые эффекты микшируются, как в речевом, так и во всех остальных, каналах (например, в Левом [L], Правом [R], Левом объемном [ls] и в Правом объемном [rs] каналах, их называют также неречевыми каналами). В результате этого речевой канал переносит большую часть речевого и значительное количество неречевого звукового сопровождения, содержащегося в звуковой программе, тогда как неречевые каналы переносят, преимущественно, неречевое звуковое сопровождение, но также могут переносить небольшое количество речи. Один простой подход к облегчению воспринимаемости диалога или устной речи в этих употребительных музыкальных смесях заключается в постоянном снижении уровня громкости всех неречевых каналов, относительно уровня громкости речевого канала, к примеру, на 6 dB. Этот подход простой и эффективный и он практикуется в наши дни (например, система восстановления звука SRS [Sound Retrieval System] для чистоты диалога (Dialog Clarity) или модифицированные уравнения понижающего микширования в объемных декодерах). Однако он страдает, по меньшей мере, одним недостатком: постоянное ослабление неречевых каналов может до такой степени понизить уровень громкости спокойных звуков окружающей среды, которые не мешают восприятию речи, что их невозможно будет услышать. При ослаблении не мешающих звуков окружающей среды нарушается эстетический баланс передачи без какой-либо пользы для понимания речи слушателями.
Альтернативное решение описано в серии патентов авторов Vaudrey и Saunders (U.S. Patent No. 7266501, U.S. Patent No. 6772127, U.S. Patent No. 6912501, и U.S. Patent No. 6650755). Насколько понятно, их подход подразумевает модификацию содержания и распределения продукции. Согласно этой конфигурации потребитель получает два различных звуковых сигнала. Первый из этих сигналов содержит “Главное содержание” звукового сопровождения. Во многих случаях этот сигнал всецело поглощается речью, но, по желанию продюсера продукции, он может содержать также и другие типы сигналов. Второй сигнал содержит "Вторичное содержание" звукового сопровождения, которое сложено из всех оставшихся звуковых элементов. Пользователю предоставлено управление относительными уровнями громкости этих двух сигналов либо посредством ручной настройки уровня громкости каждого из сигналов либо посредством автоматической поддержки отношения мощностей, выбранного пользователем. Хотя эта конфигурация помогает ограничить излишнее ослабление не мешающих звуков окружающей среды, ее широкому распространению мешает несовместимость с устоявшимися способами производства и распределения продукции.
Другой пример способа управления относительными уровнями громкости речевого и неречевого звукового сопровождения был предложен автором Bennett в U.S. Application Publication No. 20070027682.
Все примеры на предшествующем уровне техники разделяют один общий недостаток: они не предоставляют никаких технических средств минимизации воздействия, которое оказывает повышение четкости диалога на систему звучания, подразумеваемую создателем программы, помимо других изъянов. Следовательно, объектом данного изобретения является предоставление технических средств для ограничения уровня громкости неречевых каналов в традиционно микшированной многоканальной развлекательной программе таким образом, чтобы речь оставалась понятной, в то время как поддерживалась бы также воспринимаемость неречевых звуковых компонент.
Таким образом, имеется потребность в улучшенных методиках поддержки воспринимаемости речи. Данное изобретение решает эти и другие проблемы посредством предоставления устройства и способа улучшения воспринимаемости речи в многоканальном звуковом сигнале.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Воплощения данного изобретения улучшают воспринимаемость речи. В одном воплощении данное изобретение включает в себя способ улучшения воспринимаемости речи в многоканальном звуковом сигнале. Этот способ включает в себя сравнение первой характеристики и второй характеристики многоканального звукового сигнала для генерации коэффициента ослабления. Эта первая характеристика соответствует первому каналу этого многоканального звукового сигнала, который содержит речевые и неречевые звуковые сигналы, а вторая характеристика соответствует второму каналу этого многоканального звукового сигнала, который, преимущественно, содержит неречевые звуковые сигналы. Этот способ дополнительно включает в себя корректировку этого ослабляющего коэффициента, согласно с оценкой вероятности речи, для генерации скорректированного ослабляющего коэффициента. Этот способ дополнительно включает в себя ослабление второго канала с использованием этого скорректированного ослабляющего коэффициента.
Первый аспект этого изобретения основан на наблюдении, что речевой канал типичной развлекательной программы на протяжении значительной части этой программы переносит неречевой сигнал. Поэтому, согласно этому первому аспекту изобретения, маскировка речевого звукового сопровождения неречевым звуковым сопровождением может управляться посредством: (a) определения ослабления сигнала в неречевом канале, необходимого для того, чтобы предел отношения мощности сигнала в неречевом канале к мощности сигнала в речевом канале не превосходил заранее определенный пороговой величины, и (b) градуировки этого ослабления посредством коэффициента, который монотонно связан с оценкой вероятности того, что сигнал в речевом канале является речью, и (c) применения этого градуированного ослабления.
Второй аспект этого изобретения основан на наблюдении, что отношение мощности речевого сигнала к мощности маскирующего сигнала является плохим показателем для прогноза воспринимаемости речи. Поэтому, согласно этому второму аспекту изобретения, ослабление сигнала в неречевом канале, которое необходимо для поддержки заранее определенного уровня воспринимаемости речи, вычисляется посредством прогнозирования воспринимаемости речевого сигнала в присутствии неречевых сигналов посредством прогнозирующей модели воспринимаемости речи, основанной на психоакустике.
Третий аспект этого изобретения основан на наблюдениях, что, если ослаблению разрешить меняться в зависимости от частоты, то (a) заданный уровень воспринимаемости речи может быть достигнут посредством многих схем ослабления, и (b) различные схемы ослабления могут вырабатывать различные уровни интенсивности или отчетливости неречевого звукового сопровождения. Поэтому, согласно этому третьему аспекту изобретения, маскировка речевого звукового сопровождения неречевым звуковым сопровождением управляется посредством нахождения схемы ослабления, которая максимизирует интенсивность или некоторые другие показатели отчетливости неречевого звукового сопровождения при ограничении, что достигается заранее определенный уровень прогнозной воспринимаемости речи.
Воплощения данного изобретения могут быть осуществлены как способы или технологический процесс. Эти способы могут быть реализованы как электронная схема, как оборудование или программное обеспечение сопровождения или как комбинация вышеупомянутого. Электронная схема, обычно используемая для реализации этого технологического процесса, может представлять собой специализированную электронную схему (исполняющую только специфические задание) или общую электронную схему (запрограммированную для осуществления одного или нескольких конкретных заданий).
Следующее подробное описание и сопутствующие чертежи обеспечивают более хорошее понимание сущности и преимуществ данного изобретения.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Фиг.1 демонстрирует процессор сигналов, согласно одному воплощению данного изобретения.
Фиг.2 демонстрирует процессор сигналов, согласно другому воплощению данного изобретения.
Фиг.3 демонстрирует процессор сигналов, согласно другому воплощению данного изобретения.
Фиг.4A и фиг.4B представляют собой структурные диаграммы, которые демонстрируют дополнительные вариации воплощений по чертежам 1-3.
ПОДРОБНОЕ ОПИСАНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ
Здесь описаны технические приемы для поддержки воспринимаемости речи. В последующем описании, с целью объяснения, приведены многочисленные примеры и конкретные технические подробности для предоставления полного понимания данного изобретения. Однако специалистам в данной области техники будет ясно, что данное изобретение, как это определено в формуле изобретения, может включать в себя некоторые или все признаки только этих примеров или в комбинации с другими признаками, описанными ниже, и может дополнительно включать в себя модификации или эквиваленты признаков и концепций, описанных в данном документе.
Различные способы и технологические процессы описываются ниже. То, что они описываются в определенном порядке, сделано в основном для облегчения изложения. Следует понимать, что конкретные этапы при желании могут быть осуществлены в другом порядке или параллельно, в зависимости от различных реализаций. Если некоторый конкретный этап должен предшествовать или следовать за другим этапом, это будет точно указано, если только это не ясно из контекста.
Принцип первого воплощения изобретения демонстрирует фиг.1. Ссылаясь теперь на фиг.1, принимается многоканальный сигнал, состоящий из речевого канала (101) и двух неречевых каналов (102 и 103). Мощности сигналов в каждом из этих каналов измеряются группой блоков оценки мощности (104, 105 и 106) и выражаются в логарифмической шкале [dB]. Эти блоки оценки мощности могут иметь механизм сглаживания, такой как интегратор утечек, с тем, чтобы результат измерения уровня мощности отражал уровень мощности, усредненный по длительности предложения или всего речевого эпизода. Этот уровень мощности в речевом канале вычитается из уровня мощности в каждом из неречевых каналов (посредством блоков суммирования 107 и 108), чтобы получить показатель разности уровней мощности между этими двумя типами сигналов. Контур сравнения 109 определяет для каждого неречевого канала количество dB, на которое этот неречевой канал должен быть ослаблен для того, чтобы его уровень мощности оставался, по меньшей мере, на ϑ dB ниже уровня мощности сигнала в речевом канале. (Символ "ϑ" обозначает переменную и на него также можно ссылаться как на букву тэта рукописного шрифта). Согласно одному воплощению одной из реализаций этого является прибавление этой пороговой величины ϑ (которая хранится в электронном контуре 110) к разности уровней мощности (этот промежуточный результат называют допуском) с ограничением, чтобы этот результат был равен или меньше чем нуль (посредством блоков ограничения 111 и 112). Этот результат является приращением (или инвертированным ослаблением) в dB, которое должно быть применено к неречевым каналам для того, чтобы поддерживать уровень их мощности на ϑ dB ниже уровня мощности речевого канала. Подходящее значение величины ϑ составляет 15 dB. Это значение величины ϑ при желании может быть скорректировано в других воплощениях.
Так как имеет место однозначное соответствие между показателем, выраженным в логарифмической шкале (dB), и тем же самым показателем, выраженным в линейной шкале, может быть изготовлен электронный контур, который эквивалентен фиг.1, в котором мощность, приращение и пороговая величина выражаются в линейной шкале. В этой реализации все разности уровней заменяются отношениями линейных оценок. В альтернативной реализации можно заменить этот показатель мощности показателем, который связан с силой сигнала, таким как абсолютная величина сигнала.
Следует упомянуть, что одним из важных признаков этого первого аспекта изобретения является градуировка полученного таким образом приращения посредством оценки, монотонно связанной с вероятностью того, что сигнал в речевом канале действительно является речью. Все еще ссылаясь на фиг.1, принимается управляющий сигнал (113) и умножается с приращениями (посредством блоков умножения 114 и 115). Эти градуированные приращения затем применяются к соответствующим неречевым каналам (посредством усилителей 116 и 117) для выработки модифицированных сигналов L' и R' (118 и 119). Управляющий сигнал (113) обычно является автоматически полученным показателем вероятности того, что сигнал в речевом канале является речью. Могут использоваться различные способы автоматического определения вероятности того, что сигнал является речью. Согласно одному воплощению процессор 130 вероятности речи генерирует значение вероятности речи p (113) из информации в C канале 101. Один из примеров такого механизма описывается авторами Robinson и Vinton в "Automated Speech/Other Discrimination for Loudness Monitoring" (Audio Engineering Society, Preprint number 6437 of Convention 118, May 2005). В качестве альтернативы, этот управляющий сигнал (113) может быть создан вручную, например создателем программы, и передан вместе со звуковым сигналом конечному пользователю.
Специалисты в данной области техники без труда поймут, как эта конфигурация может быть распространена на любое количество входных каналов.
Фиг.2 демонстрирует принцип второго аспекта изобретения. Ссылаясь теперь на фиг.2, принимается многоканальный сигнал, состоящий из речевого канала (101) и двух неречевых каналов (102 и 103). Мощности сигналов в каждом из этих каналов измеряются группой блоков оценки мощности (201, 202 и 203). В отличие от соответствующей группы блоков на фиг.1, эти блоки оценки мощности измеряют распределение мощности сигнала относительно частоты, что в результате дает спектр мощности, а не единственное число. Это спектральное разрешение спектра мощности идеально соответствует спектральному разрешению модели прогнозирования воспринимаемости речи (205 и 206, это пока еще не обсуждалось).
Эти два спектра мощности загружаются в контур 204 сравнения. Этот блок предназначен для определения ослабления, которое следует применить к каждому из неречевых каналов для обеспечения того, чтобы неречевой канал не уменьшил воспринимаемость речи сигнала в речевом канале до величины, которая меньше чем заранее определенный критерий. Это функциональное средство осуществляется посредством использования контуров прогнозирования воспринимаемости речи (205 и 206), которые прогнозируют воспринимаемость речи на основе спектров мощности речевого сигнала (201) и неречевых сигналов (202 и 203). Контуры 205 и 206 прогнозирования воспринимаемости речи могут реализовать подходящую модель прогнозирования воспринимаемости речи, в зависимости от выбранной архитектуры и выбора оптимальных соотношений. Примером этого является индекс воспринимаемости речи (Speech Intelligibility Index), подробно описанный в ANSI S3.5-1997 ("Methods for Calculation of the Speech Intelligibility Index"), и модель чувствительности распознавания речи (Speech Recognition Sensitivity model) авторов Muesch и Buus ("Using statistical decision theory to predict speech intelligibility. I. Model structure" Journal of the Acoustical Society of America, 2001, vol 109, p 2896-2909). Ясно, что выходные данные модели прогнозирования воспринимаемости речи не имеют никакого смысла в случае, когда сигнал в речевых каналах является чем-то другим, отличным от речи. Несмотря на это в последующем этот выходной результат модели прогнозирования воспринимаемости речи будет называться как прогнозная воспринимаемость речи. Отмеченная ошибка будет учтена в дальнейшей обработке посредством градуировки оценок приращения на выходе из контура 204 сравнения с параметром, который связан с вероятностью того, сигнал является речью (113, это пока еще не обсуждалось).
Общая черта моделей прогнозирования воспринимаемости речи состоит в том, что они дают прогноз либо на улучшение, либо на неизменность воспринимаемости речи в результате снижения уровня громкости неречевого сигнала. Продвигаясь по структурной схеме этапов технологического процесса по фиг.2, контуры 207 и 208 сравнения сравнивают прогнозную воспринимаемость речи с оценкой критерия. Если оценка уровня неречевого сигнала низкая, так что прогнозная воспринимаемость речи превосходит критерий, параметр приращения, который исходно установлен на 0 dB, извлекается из контуров 209 или 210 и предоставляется на контуры 211 и 212 как выходной результат контура 204 сравнения. Если критерий не достигнут, параметр приращения уменьшается на фиксированную величину и прогнозирование воспринимаемости речи повторяется. Подходящий размер шага для уменьшения приращения равен 1 dB. Описанный здесь итеративный процесс продолжается до тех пор, пока прогнозная воспринимаемость речи не достигнет или превзойдет величину критерия. Конечно, возможно такое, что сигнал в речевом канале таков, что критерий воспринимаемости речи не может быть достигнут даже при отсутствии сигнала в неречевом канале. Примером такой ситуации служит речевой сигнал очень низкого уровня или с чрезвычайно ограниченной полосой частот. Если такое произошло, наступит момент, когда никакое дополнительное сокращение приращения, применяемого к неречевому каналу, не оказывает эффекта на прогнозную воспринимаемость речи, и критерий никогда не может быть достигнут. В таких условиях, петля, образованная из (205, 206), (207, 208) и (209, 210), продолжается бесконечно, и может быть применен дополнительный логический блок для разрыва этой петли. Одним из особенно простых примеров такого логического блока может служить подсчет числа итераций и выход из петли, как только будет превзойдено заранее определенное количество итераций.
Продвигаясь по структурной схеме этапов технологического процесса по фиг.2, управляющий сигнал p (113) принимается и умножается на приращения (посредством блоков умножения 114 и 115). Управляющий сигнал (113) обычно будет представлять собой автоматически произведенный показатель вероятности того, что сигнал в речевом канале является речью. Способы автоматического определения вероятности того, что сигнал является речью, известны per se и обсуждались в контексте фиг.1 (см. процессор 130 вероятности речи). Эти скорректированные приращения затем применяются к своим соответствующим неречевым каналам (посредством блоков усиления 116 и 117) для выработки модифицированных сигналов R' и L' (118 и 119).
Фиг.3 демонстрирует принцип третьего аспекта изобретения. Со ссылкой теперь на фиг.3, принимается многоканальный сигнал, состоящий из речевого канала (101) и двух неречевых каналов (102 и 103). Каждый из этих трех неречевых каналов разбивается на свои спектральные компоненты (посредством группы блоков 301, 302 и 303 фильтрации). Этот спектральный анализ может быть получен посредством N-канальной группы блоков фильтрации во временной области. Согласно одному воплощению это разбиение диапазона частот группой блоков фильтрации на полосы частот в 1/3 октавы напоминает фильтрацию, которая, как предполагают, осуществляется внутри человеческого уха. Тот факт, что теперь сигнал состоит из N подсигналов, продемонстрирован посредством использования жирных линий. Процесс по фиг.3 может быть идентифицирован как разветвленный процесс (sidebranch process). Следуя по пути сигнала, каждый из этих N подсигналов, которые образуют неречевые каналы, градуируется посредством одним из членов множества из N оценок приращений (блоками усиления 116 и 117). Производство этих оценок приращений будет описано позднее. Далее, эти градуированные подсигналы воссоединяются в единый звуковой канал, это может быть сделано через простое суммирование (посредством контуров 313 и 314 суммирования). В качестве альтернативы может быть использована группа фильтрующих блоков синтеза, которая соединена с группой фильтрующих блоков анализа. Результатом этого процесса являются модифицированные сигналы R' и L'(118 и 119).
Описывая теперь путь разветвленного процесса по фиг.3, каждое из выходных данных группы фильтрующих блоков отдается в распоряжение соответствующей группы из N блоков оценки (304, 305 и 306) мощности. Получившиеся в результате этого спектры служат в качестве входных данных для контуров (307 и 308) оптимизации, которые выдают в качестве выходных данных N-мерный вектор приращений. Эта оптимизация использует как контур (309 и 310) прогноза воспринимаемости речи, так и контур (311 и 312) вычисления интенсивности звука для нахождения вектора приращений, который максимизирует интенсивность звука в неречевом канале, при этом поддерживает заранее определенную оценку прогнозной воспринимаемости речи речевого сигнала. Подходящие модели для прогнозирования воспринимаемости речи обсуждались в связи с фиг.2. Контуры 311 и 312 вычисления интенсивности звука могут реализовать подходящую модель прогнозирования интенсивности звука, в зависимости от выбранной архитектуры и выбора оптимальных соотношений. Примерами подходящих моделей являются американский национальный стандарт (American National Standard) ANSI S3.4-2007 "Procedure for the Computation of Loudness of Steady Sounds" и немецкий стандарт (German standard) DIN 45631 "Berechnung des Lautstarkepegels und der Lautheit aus dem Gerauschspektrum".
В зависимости от имеющихся вычислительных ресурсов и наложенных ограничений, вид и сложность этих контуров (307, 308) оптимизации могут чрезвычайно сильно отличаться. Согласно одному воплощению используется итерационная многомерная оптимизация с ограничениями N свободных параметров. Каждый параметр представляет приращение, применяемое к каждой из полос частот в неречевом канале. Для нахождения максимума могут быть применены стандартные технические средства, такие как движение по пути наибольшего градиента в N-мерном пространстве. В другом воплощении, вычислительно менее требовательный подход ограничивает функциональные средства приращения-частота, как лежащие в малом множестве возможных функциональных средств приращения-частота, таком как множество различных спектральных градиентов или shelf-фильтров (super-hard extremely-low frequency). С такими дополнительными ограничениями задача оптимизации может быть сведена к малому количеству одномерных оптимизаций. Еще в одном воплощении осуществляется исчерпывающий поиск в очень маленьком множестве возможных функций приращения. Этот последний подход может оказаться особенно востребованным в приложениях в реальном времени, в которых требуется постоянная загрузка и скорость поиска.
Специалисты в данной области техники легко распознают дополнительные ограничения, которые могут быть наложены на оптимизацию, в соответствии с дополнительными воплощениями данного изобретения. Одним из примеров является ограничение, чтобы интенсивность звука модифицированного неречевого канала была не больше, чем интенсивность звука до модификации. Другой пример представляет собой ограничение на разности приращений между примыкающими полосами частот для того, чтобы ограничить возможности для временного искажения реконструирующей группой фильтрующих блоков (313, 314) или сократить возможности для нежелательных модификаций тембра. Желаемые ограничения зависят как от технической реализации группы блоков фильтрации, так и от выбора оптимальных соотношений между улучшением воспринимаемости речи и модификацией тембра. Для ясности демонстрации на фиг.3 эти ограничения опущены.
Продвигаясь по структурной схеме технологического процесса по фиг.3, принимается управляющий сигнал p (113) и умножается на приращения (посредством блоков умножения 114 и 115). Управляющий сигнал (113) обычно будет представлять собой автоматически произведенный показатель вероятности того, что сигнал в речевом канале является речью. Способы автоматического определения вероятности того, что сигнал является речью, обсуждались в связи с фиг.1 (см. процессор 130 вероятности речи). Эти скорректированные приращения затем применяются к своим соответствующим неречевым каналам (посредством блоков усиления 116 и 117), как это описано ранее.
Фиг.4A и фиг.4B представляют собой структурные диаграммы, демонстрирующие вариации аспектов, показанных на фиг.1-3. Дополнительно, специалисты в данной области техники распознают несколько путей комбинирования элементов изобретения, описанных на чертежах 1-3.
Фиг.4A показывает, что конфигурация на фиг.1 также может быть применена к одной или нескольким подполосам частот сигналов L, C, и R. Более конкретно, каждый из этих сигналов L, C и R может быть пропущен через группу фильтрующих блоков (441, 442 и 443) для выработки трех множеств из n подполос полосы частот: {L1, L2, ..., Ln}, {C1, C2, ..., Cn} и {R1, R2, ..., Rn}. Подполосы, подходящие в пару, пропускаются в n экземпляров контура 125, продемонстрированного на фиг.1, и обработанные подсигналы рекомбинируются (посредством контуров суммирования 451 и 452). Для каждой из субполос могут быть выбраны отдельные пороговые величины ϑn. Хорошим выбором является множество, в котором ϑn пропорциональны среднему числу речевых тональных меток, переносимых в соответствующей области частот; то есть полосам на краях спектра частот приписываются меньшие пороговые величины, чем полосам, соответствующим доминирующим частотам речи. Эта реализация изобретения предлагает очень хороший выбор оптимальных соотношений между сложностью вычислений и производительностью системы.
Фиг.4B показывает другой вариант. Например, для снижения вычислительной нагрузки может быть улучшен типичный объемный звуковой сигнал с пятью каналами (C, L, R, ls и rs) посредством обработки сигналов L и R в соответствии с контуром 325, показанном на фиг.3, и сигналов ls и rs, которые обычно менее мощные, чем сигналы L и R, в соответствии с контуром 125, показанном на фиг.1.
В описаниях, приведенных выше, используются термины "речь" (или речевое звуковое сопровождение или речевой канал или речевой сигнал) и "не речь" (или неречевое звуковое сопровождение или неречевой канал или неречевой сигнал). Квалифицированный специалист в данной области техники поймет, что эти термины в большей мере используются для того, чтобы установить различие, а в меньшей мере для того, чтобы абсолютно описать содержание этих каналов. Например, в сцене фильма в ресторане, речевой канал преимущественно может нести в себе диалог за одним столом, а неречевые каналы могут нести в себе диалоги за другими столами (таким образом, оба канала несут "речь", как использовал бы этот термин не профессионал). Тем не менее, определенные воплощения данного изобретения направлены на ослабление именно диалогов за другими столами.
РЕАЛИЗАЦИИ ИЗОБРЕТЕНИЯ
Это изобретение может быть реализовано в виде оборудования или программного обеспечения сопровождения, или в виде комбинации и того, и другого (например, программируемые матрицы логических элементов). Если точно не указано, алгоритмы, включенные в состав изобретения, по существу не относятся к какому-либо конкретному компьютеру или другому устройству. В частности, могут быть использованы различные компьютеры общего пользования с программами, написанными в соответствии с тем, что объяснено в данном документе, или может оказаться более удобным сконструировать специализированное устройство (например, интегральную схему) для осуществления требуемых этапов способа.
Итак, это изобретение может быть реализовано в виде одной или нескольких компьютерных программ, исполняемых на одной или нескольких программируемых компьютерных системах, каждая из которых содержит, по меньшей мере, один процессор, по меньшей мере, одну систему хранения данных (включая долговременную и не долговременную память и/или элементы хранения данных), по меньшей мере, одно устройство ввода или порт ввода и, по меньшей мере, одно устройство вывода или порт вывода. Программный код применяет входные данные для осуществления функциональных средств, описанных здесь, и генерирует выходную информацию. Эта выходная информация, известным образом, направляется к одному или нескольким устройствам выхода.
Каждая такая программа может быть реализована на любом желаемом компьютерном языке (включая машинные, ассемблерные или процедурные, логические или объектно-ориентированные языки программирования) для работы с компьютерной системой. В любом случае язык может быть транслируемым или интерпретируемым языком программирования.
Каждая такая компьютерная программа предпочтительно хранится в среде или устройстве хранения информации или загружается туда (например, твердотельная память или среда, или магнитная или оптическая среда), считываемая программируемым компьютером (специализированным или общего пользования), для настройки и функционирования этого компьютера после того, как компьютерная программа обратится к среде или устройству хранения информации для осуществления описанных здесь процедур. Может также быть рассмотрена реализация этой системы изобретения как читаемая компьютером среда хранения информации, оснащенная компьютерной программой, при этом среда хранения информации, настроенная таким образом, заставляет эту компьютерную систему функционировать специальным и заранее определенным образом для осуществления функциональных средств, описанных здесь.
Описание, приведенное выше, демонстрирует различные воплощения данного изобретения вместе с примерами того, как может быть реализовано данное изобретение. Примеры и воплощения, приведенные выше, не следует воспринимать как единственно возможные воплощения, и они представлены для демонстрации гибкости и преимущества данного изобретения, как это определено в последующей формуле изобретения. На основе раскрытия сущности изобретения, приведенного выше, и следующей формулы изобретения, специалистам в данной области техники будут ясны другие конфигурации, воплощения, реализации изобретения и их эквиваленты, которые могут быть использованы без отхода от духа и буквы этого изобретения, как это определено в формуле изобретения.

Claims (12)

1. Способ улучшения слышимости речи в многоканальном звуковом сигнале, при этом упомянутый способ содержит следующие этапы:
сравнивают первую характеристику и вторую характеристику многоканального звукового сигнала для формирования коэффициента ослабления, причем первая характеристика соответствует первому каналу многоканального звукового сигнала, который содержит речевой звук и неречевой звук, причем первая характеристика соответствует первому измеренному показателю, который зависит от уровня сигнала в первом канале, причем вторая характеристика соответствует второму каналу многоканального звукового сигнала, который содержит, преимущественно, неречевой звук, и причем вторая характеристика соответствует второму измеренному показателю, который зависит от уровня сигнала во втором канале, причем упомянутое сравнение содержит следующие операции:
определяют разность между первым измеренным показателем и вторым измеренным показателем и
вычисляют коэффициент ослабления на основании разности между первым измеренным показателем и вторым измеренным показателем и пороговой величиной;
корректируют коэффициент ослабления в соответствии со значением вероятности речи для формирования скорректированного коэффициента ослабления; и ослабляют второй канал с использованием скорректированного коэффициента ослабления;
обрабатывают многоканальный звуковой сигнал для формирования первой характеристики и второй характеристики;
обрабатывают первый канал для формирования значения вероятности речи.
2. Способ по п.1, в котором второй канал является одним из множества вторых каналов, при этом вторая характеристика является одной из множества вторых характеристик, причем коэффициент ослабления является одним из множества коэффициентов ослабления, и причем скорректированный коэффициент ослабления является одним из множества скорректированных коэффициентов ослабления, причем способ дополнительно содержит следующие этапы:
сравнивают первую характеристику и множество вторых характеристик для формирования множества коэффициентов ослабления;
корректируют множество коэффициентов ослабления в соответствии со значением вероятности речи для формирования множества скорректированных коэффициентов ослабления; и
ослабляют множество вторых каналов с использованием множества скорректированных коэффициентов ослабления.
3. Способ по п.1, в котором многоканальный звуковой сигнал содержит третий канал, который содержит, преимущественно, неречевой звук, при этом способ дополнительно содержит следующие этапы:
сравнивают первую характеристику и третью характеристику для формирования дополнительного коэффициента ослабления, причем третья характеристика соответствует третьему каналу;
корректируют дополнительный коэффициент ослабления в соответствии со значением вероятности речи для формирования скорректированного дополнительного коэффициента ослабления; и
ослабляют третий канал с использованием скорректированного коэффициента ослабления.
4. Способ по п.1, в котором первый измеренный показатель является первым уровнем мощности сигнала в первом канале, при этом второй измеренный показатель является вторым уровнем мощности сигнала во втором канале, и причем разность является разностью между первым уровнем мощности и вторым уровнем мощности.
5. Способ по пп.1-3, в котором первый измеренный показатель является первой мощностью сигнала в первом канале, при этом второй измеренный показатель является второй мощностью сигнала во втором канале, и причем разность является отношением между первой мощностью и второй мощностью.
6. Устройство улучшения слышимости речи в многоканальном звуковом сигнале, содержащее схему для улучшения слышимости речи в многоканальном звуковом сигнале, при этом устройство содержит:
схему сравнения, которая выполнена с возможностью сравнения первой характеристики и второй характеристики многоканального звукового сигнала для формирования коэффициента ослабления, причем первая характеристика соответствует первому каналу многоканального звукового сигнала, который содержит речевой звук и неречевой звук, причем первая характеристика соответствует первому измеренному показателю, который зависит от уровня сигнала в первом канале, причем вторая характеристика соответствует второму каналу многоканального звукового сигнала, который содержит, преимущественно, неречевой звук, и причем вторая характеристика соответствует второму измеренному показателю, который зависит от уровня сигнала во втором канале, причем схема сравнения выполнена с возможностью:
определения разности между первым измеренным показателем и вторым измеренным показателем,
вычисления коэффициента ослабления на основании разности между первым измеренным показателем и вторым измеренным показателем и пороговой величиной;
умножитель, который выполнен с возможностью коррекции коэффициента ослабления в соответствии со значением вероятности речи, для формирования скорректированного коэффициента ослабления; и
усилитель, который выполнен с возможностью ослабления второго канала с использованием скорректированного коэффициента ослабления;
причем многоканальный звуковой сигнал обрабатывается для формирования первой характеристики и второй характеристики; и
первый канал обрабатывается для формирования значения вероятности речи.
7. Устройство по п.6, в котором первая характеристика соответствует первому уровню мощности, и при этом вторая характеристика соответствует второму уровню мощности, и причем схема сравнения содержит:
первый сумматор, который выполнен с возможностью вычитания первого уровня мощности из второго уровня мощности, для формирования разности уровней мощности;
второй сумматор, который выполнен с возможностью суммирования разности уровней мощности и пороговой величины, для формирования границы рабочего режима; и
схему ограничения, которая выполнена с возможностью вычисления коэффициента ослабления как большей величины из границы рабочего режима и нуля.
8. Устройство по п.6, в котором первая характеристика соответствует первому уровню мощности, и при этом вторая характеристика соответствует второму уровню мощности, причем устройство дополнительно содержит:
первый блок оценки мощности, который выполнен с возможностью вычисления первого уровня мощности первого канала; и
второй блок оценки мощности, который выполнен с возможностью вычисления второго уровня мощности второго канала.
9. Устройство по п.6, дополнительно содержащее:
процессор определения речи, который выполнен с возможностью обработки первого канала, для формирования значения вероятности речи.
10. Компьютерный носитель записи, для улучшения слышимости речи в многоканальном звуковом сигнале, содержащий сохраненные на нем команды, которые при выполнении побуждают устройство выполнять обработку, содержащий:
сравнение первой характеристики и второй характеристики многоканального звукового сигнала для формирования коэффициента ослабления, причем первая характеристика соответствует первому каналу многоканального звукового сигнала, который содержит речевой звук и неречевой звук, причем первая характеристика соответствует первому измеренному показателю, который зависит от уровня сигнала в первом канале, причем вторая характеристика соответствует второму каналу многоканального звукового сигнала, который содержит, преимущественно, неречевой звук, и причем вторая характеристика соответствует второму измеренному показателю, который зависит от уровня сигнала во втором канале, причем сравнение содержит:
определение разности между первым измеренным показателем и вторым измеренным показателем, и
вычисление коэффициента ослабления на основании разности между первым измеренным показателем и вторым измеренным показателем и пороговой величиной;
коррекцию коэффициента ослабления в соответствии со значением вероятности речи для формирования скорректированного коэффициента ослабления; и
ослабление второго канала с использованием скорректированного коэффициента ослабления;
обработку многоканального звукового сигнала для формирования первой характеристики и второй характеристики; и
обработку первого канала для формирования значения вероятности речи.
11. Устройство для улучшения слышимости речи в многоканальном звуковом сигнале, при этом устройство содержит:
средство для сравнения первой характеристики и второй характеристики многоканального звукового сигнала, для формирования коэффициента ослабления, причем первая характеристика соответствует первому каналу многоканального звукового сигнала, который содержит речевой звук и неречевой звук, причем первая характеристика соответствует первому измеренному показателю, который зависит от уровня сигнала в первом канале, причем вторая характеристика соответствует второму каналу многоканального звукового сигнала, который содержит, преимущественно, неречевой звук, и причем вторая характеристика соответствует второму измеренному показателю, который зависит от уровня сигнала во втором канале, причем средство для сравнения содержит:
средство для определения разности между первым измеренным показателем и вторым измеренным показателем и
средство для вычисления коэффициента ослабления на основании разности между первым измеренным показателем и вторым измеренным показателем и пороговой величиной;
средство для коррекции коэффициента ослабления в соответствии со значением вероятности речи, для формирования скорректированного коэффициента ослабления;
средство для ослабления второго канала с использованием скорректированного коэффициента ослабления;
средство для обработки многоканального звукового сигнала для формирования первой характеристики и второй характеристики;
средство для обработки первого канала для формирования значения вероятности речи.
12. Устройство по п.11, в котором первая характеристика соответствует первому уровню мощности, и при этом вторая характеристика соответствует второму уровню мощности, и причем средство для сравнения содержит:
средство для вычитания первого уровня мощности из второго уровня мощности для формирования разности уровней мощности.
RU2010146924/08A 2008-04-18 2009-04-17 Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания RU2467406C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US4627108P 2008-04-18 2008-04-18
US61/046,271 2008-04-18

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2010150367/08A Division RU2541183C2 (ru) 2008-04-18 2009-04-17 Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания

Publications (2)

Publication Number Publication Date
RU2010146924A RU2010146924A (ru) 2012-06-10
RU2467406C2 true RU2467406C2 (ru) 2012-11-20

Family

ID=41509059

Family Applications (2)

Application Number Title Priority Date Filing Date
RU2010150367/08A RU2541183C2 (ru) 2008-04-18 2009-04-17 Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания
RU2010146924/08A RU2467406C2 (ru) 2008-04-18 2009-04-17 Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания

Family Applications Before (1)

Application Number Title Priority Date Filing Date
RU2010150367/08A RU2541183C2 (ru) 2008-04-18 2009-04-17 Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания

Country Status (16)

Country Link
US (1) US8577676B2 (ru)
EP (2) EP2279509B1 (ru)
JP (2) JP5341983B2 (ru)
KR (2) KR101227876B1 (ru)
CN (2) CN102007535B (ru)
AU (2) AU2009274456B2 (ru)
BR (2) BRPI0911456B1 (ru)
CA (2) CA2745842C (ru)
HK (2) HK1153304A1 (ru)
IL (2) IL208436A (ru)
MX (1) MX2010011305A (ru)
MY (2) MY179314A (ru)
RU (2) RU2541183C2 (ru)
SG (1) SG189747A1 (ru)
UA (2) UA104424C2 (ru)
WO (1) WO2010011377A2 (ru)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10158337B2 (en) 2004-08-10 2018-12-18 Bongiovi Acoustics Llc System and method for digital signal processing
US11431312B2 (en) 2004-08-10 2022-08-30 Bongiovi Acoustics Llc System and method for digital signal processing
US8284955B2 (en) 2006-02-07 2012-10-09 Bongiovi Acoustics Llc System and method for digital signal processing
US10848118B2 (en) 2004-08-10 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US11202161B2 (en) 2006-02-07 2021-12-14 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
US10701505B2 (en) 2006-02-07 2020-06-30 Bongiovi Acoustics Llc. System, method, and apparatus for generating and digitally processing a head related audio transfer function
US10848867B2 (en) 2006-02-07 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US10069471B2 (en) * 2006-02-07 2018-09-04 Bongiovi Acoustics Llc System and method for digital signal processing
KR101597375B1 (ko) 2007-12-21 2016-02-24 디티에스 엘엘씨 오디오 신호의 인지된 음량을 조절하기 위한 시스템
CA2745842C (en) * 2008-04-18 2014-09-23 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8774417B1 (en) * 2009-10-05 2014-07-08 Xfrm Incorporated Surround audio compatibility assessment
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
RU2526746C1 (ru) * 2010-09-22 2014-08-27 Долби Лабораторис Лайсэнзин Корпорейшн Микширование аудиопотока с нормализацией диалогового уровня
JP2013114242A (ja) * 2011-12-01 2013-06-10 Yamaha Corp 音響処理装置
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9135920B2 (en) * 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
US9363603B1 (en) * 2013-02-26 2016-06-07 Xfrm Incorporated Surround audio dialog balance assessment
WO2014179021A1 (en) 2013-04-29 2014-11-06 Dolby Laboratories Licensing Corporation Frequency band compression with dynamic thresholds
US9883318B2 (en) 2013-06-12 2018-01-30 Bongiovi Acoustics Llc System and method for stereo field enhancement in two-channel audio systems
CN110890101B (zh) * 2013-08-28 2024-01-12 杜比实验室特许公司 用于基于语音增强元数据进行解码的方法和设备
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
US10639000B2 (en) 2014-04-16 2020-05-05 Bongiovi Acoustics Llc Device for wide-band auscultation
US10820883B2 (en) 2014-04-16 2020-11-03 Bongiovi Acoustics Llc Noise reduction assembly for auscultation of a body
KR101559364B1 (ko) * 2014-04-17 2015-10-12 한국과학기술원 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션
CN105336341A (zh) * 2014-05-26 2016-02-17 杜比实验室特许公司 增强音频信号中的语音内容的可理解性
EP3175634B1 (en) 2014-08-01 2021-01-06 Steven Jay Borne Audio device
JP6683618B2 (ja) * 2014-09-08 2020-04-22 日本放送協会 音声信号処理装置
KR102482162B1 (ko) * 2014-10-01 2022-12-29 돌비 인터네셔널 에이비 오디오 인코더 및 디코더
BR112017006325B1 (pt) 2014-10-02 2023-12-26 Dolby International Ab Método de decodificação e decodificador para o realce de diálogo
US9792952B1 (en) * 2014-10-31 2017-10-17 Kill the Cann, LLC Automated television program editing
CN107004427B (zh) 2014-12-12 2020-04-14 华为技术有限公司 增强多声道音频信号内语音分量的信号处理装置
KR20180132032A (ko) 2015-10-28 2018-12-11 디티에스, 인코포레이티드 객체 기반 오디오 신호 균형화
US9621994B1 (en) 2015-11-16 2017-04-11 Bongiovi Acoustics Llc Surface acoustic transducer
EP3203472A1 (en) * 2016-02-08 2017-08-09 Oticon A/s A monaural speech intelligibility predictor unit
RU2620569C1 (ru) * 2016-05-17 2017-05-26 Николай Александрович Иванов Способ измерения разборчивости речи
US11037581B2 (en) * 2016-06-24 2021-06-15 Samsung Electronics Co., Ltd. Signal processing method and device adaptive to noise environment and terminal device employing same
AU2019252524A1 (en) 2018-04-11 2020-11-05 Bongiovi Acoustics Llc Audio enhanced hearing protection system
US10959035B2 (en) 2018-08-02 2021-03-23 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
US11335357B2 (en) * 2018-08-14 2022-05-17 Bose Corporation Playback enhancement in audio systems
EP4158627A1 (en) 2020-05-29 2023-04-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an initial audio signal
US20220270626A1 (en) * 2021-02-22 2022-08-25 Tencent America LLC Method and apparatus in audio processing
CN115881146A (zh) * 2021-08-05 2023-03-31 哈曼国际工业有限公司 用于动态语音增强的方法及系统
US20230080683A1 (en) * 2021-09-08 2023-03-16 Minus Works LLC Readily biodegradable refrigerant gel for cold packs

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0637011A1 (en) * 1993-07-26 1995-02-01 Koninklijke Philips Electronics N.V. Speech signal discrimination arrangement and audio device including such an arrangement
EP0645756A1 (en) * 1993-09-29 1995-03-29 Ericsson Ge Mobile Communications Inc. System for adaptively reducing noise in speech signals
RU2163032C2 (ru) * 1995-09-14 2001-02-10 Эрикссон Инк. Система адаптивной фильтрации аудиосигналов для улучшения разборчивости речи при наличии шума

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5208860A (en) 1988-09-02 1993-05-04 Qsound Ltd. Sound imaging method and apparatus
US5046097A (en) 1988-09-02 1991-09-03 Qsound Ltd. Sound imaging process
US5105462A (en) 1989-08-28 1992-04-14 Qsound Ltd. Sound imaging method and apparatus
US5212733A (en) 1990-02-28 1993-05-18 Voyager Sound, Inc. Sound mixing device
DE69214882T2 (de) 1991-06-06 1997-03-20 Matsushita Electric Ind Co Ltd Gerät zur Unterscheidung von Musik und Sprache
JP2737491B2 (ja) * 1991-12-04 1998-04-08 松下電器産業株式会社 音楽音声処理装置
JP2961952B2 (ja) * 1991-06-06 1999-10-12 松下電器産業株式会社 音楽音声判別装置
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
JP3560087B2 (ja) * 1995-09-13 2004-09-02 株式会社デノン 音信号処理装置およびサラウンド再生方法
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6697491B1 (en) 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
JP2004507904A (ja) 1997-09-05 2004-03-11 レキシコン 5−2−5マトリックス・エンコーダおよびデコーダ・システム
US6311155B1 (en) 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US7260231B1 (en) 1999-05-26 2007-08-21 Donald Scott Wedge Multi-channel audio panel
US6442278B1 (en) 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US6778966B2 (en) * 1999-11-29 2004-08-17 Syfx Segmented mapping converter system and method
US7277767B2 (en) 1999-12-10 2007-10-02 Srs Labs, Inc. System and method for enhanced streaming audio
JP2001245237A (ja) * 2000-02-28 2001-09-07 Victor Co Of Japan Ltd 放送受信装置
US7266501B2 (en) 2000-03-02 2007-09-04 Akiba Electronics Institute Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US7076071B2 (en) 2000-06-12 2006-07-11 Robert A. Katz Process for enhancing the existing ambience, imaging, depth, clarity and spaciousness of sound recordings
US6862567B1 (en) * 2000-08-30 2005-03-01 Mindspeed Technologies, Inc. Noise suppression in the frequency domain by adjusting gain according to voicing parameters
EP1191814B2 (en) * 2000-09-25 2015-07-29 Widex A/S A multiband hearing aid with multiband adaptive filters for acoustic feedback suppression.
AU2002248431B2 (en) * 2001-04-13 2008-11-13 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
JP2002335490A (ja) * 2001-05-09 2002-11-22 Alpine Electronics Inc Dvd再生装置
CA2354755A1 (en) * 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
JP2005502247A (ja) * 2001-09-06 2005-01-20 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ再生装置
JP2003084790A (ja) 2001-09-17 2003-03-19 Matsushita Electric Ind Co Ltd 台詞成分強調装置
TW569551B (en) 2001-09-25 2004-01-01 Roger Wallace Dressler Method and apparatus for multichannel logic matrix decoding
GR1004186B (el) * 2002-05-21 2003-03-12 Διαχυτης ευρεως φασματος ηχου με ελεγχομενη απορροφηση χαμηλων συχνοτητων και η μεθοδος εγκαταστασης του
RU2206960C1 (ru) * 2002-06-24 2003-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ подавления шума в информационном сигнале и устройство для его осуществления
US7308403B2 (en) * 2002-07-01 2007-12-11 Lucent Technologies Inc. Compensation for utterance dependent articulation for speech quality assessment
US7146315B2 (en) 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
US7551745B2 (en) * 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
US7251337B2 (en) * 2003-04-24 2007-07-31 Dolby Laboratories Licensing Corporation Volume control in movie theaters
IN2010KN02913A (ru) * 2003-05-28 2015-05-01 Dolby Lab Licensing Corp
US7680289B2 (en) 2003-11-04 2010-03-16 Texas Instruments Incorporated Binaural sound localization using a formant-type cascade of resonators and anti-resonators
JP4013906B2 (ja) * 2004-02-16 2007-11-28 ヤマハ株式会社 音量制御装置
ES2294506T3 (es) * 2004-05-14 2008-04-01 Loquendo S.P.A. Reduccion de ruido para el reconocimiento automatico del habla.
JP2006072130A (ja) 2004-09-03 2006-03-16 Canon Inc 情報処理装置及び情報処理方法
US8199933B2 (en) * 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
BRPI0608753B1 (pt) * 2005-03-30 2019-12-24 Koninl Philips Electronics Nv codificador de áudio, decodificador de áudio, método para codificar um sinal de áudio de multicanal, método para gerar um sinal de áudio de multicanal, sinal de áudio de multicanal codificado, e meio de armazenamento
US7567898B2 (en) 2005-07-26 2009-07-28 Broadcom Corporation Regulation of volume of voice in conjunction with background sound
US7912232B2 (en) 2005-09-30 2011-03-22 Aaron Master Method and apparatus for removing or isolating voice or instruments on stereo recordings
JP2007142856A (ja) * 2005-11-18 2007-06-07 Sharp Corp テレビジョン受信装置
JP2007158873A (ja) * 2005-12-07 2007-06-21 Funai Electric Co Ltd 音声補正装置
JP2007208755A (ja) * 2006-02-03 2007-08-16 Oki Electric Ind Co Ltd 3次元音声信号出力方法及びその装置並びに3次元音声信号出力プログラム
PL2002429T3 (pl) 2006-04-04 2013-03-29 Dolby Laboratories Licensing Corp Kontrola słyszalnej charakterystyki głośności sygnału audio
ATE493794T1 (de) * 2006-04-27 2011-01-15 Dolby Lab Licensing Corp Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke
JP2008032834A (ja) * 2006-07-26 2008-02-14 Toshiba Corp 音声翻訳装置及びその方法
US8184834B2 (en) 2006-09-14 2012-05-22 Lg Electronics Inc. Controller and user interface for dialogue enhancement techniques
CN101573866B (zh) * 2007-01-03 2012-07-04 杜比实验室特许公司 响度补偿音量控制方法和装置
EP2118885B1 (en) * 2007-02-26 2012-07-11 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
CA2745842C (en) * 2008-04-18 2014-09-23 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
EP2337020A1 (en) * 2009-12-18 2011-06-22 Nxp B.V. A device for and a method of processing an acoustic signal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0637011A1 (en) * 1993-07-26 1995-02-01 Koninklijke Philips Electronics N.V. Speech signal discrimination arrangement and audio device including such an arrangement
EP0645756A1 (en) * 1993-09-29 1995-03-29 Ericsson Ge Mobile Communications Inc. System for adaptively reducing noise in speech signals
RU2163032C2 (ru) * 1995-09-14 2001-02-10 Эрикссон Инк. Система адаптивной фильтрации аудиосигналов для улучшения разборчивости речи при наличии шума

Also Published As

Publication number Publication date
JP5259759B2 (ja) 2013-08-07
HK1153304A1 (en) 2012-03-23
MY159890A (en) 2017-02-15
IL208436A0 (en) 2010-12-30
JP2011172235A (ja) 2011-09-01
SG189747A1 (en) 2013-05-31
AU2009274456A1 (en) 2010-01-28
CN102007535B (zh) 2013-01-16
AU2010241387B2 (en) 2015-08-20
CA2745842C (en) 2014-09-23
JP5341983B2 (ja) 2013-11-13
UA104424C2 (ru) 2014-02-10
CA2720636A1 (en) 2010-01-28
BRPI0923669B1 (pt) 2021-05-11
WO2010011377A2 (en) 2010-01-28
US20110054887A1 (en) 2011-03-03
CN102137326B (zh) 2014-03-26
RU2010150367A (ru) 2012-06-20
AU2010241387A1 (en) 2010-12-02
JP2011518520A (ja) 2011-06-23
CN102007535A (zh) 2011-04-06
IL208436A (en) 2014-07-31
BRPI0923669A2 (pt) 2013-07-30
CN102137326A (zh) 2011-07-27
HK1161795A1 (en) 2012-08-03
EP2373067B1 (en) 2013-04-17
CA2745842A1 (en) 2010-01-28
BRPI0911456A2 (pt) 2013-05-07
BRPI0911456B1 (pt) 2021-04-27
US8577676B2 (en) 2013-11-05
IL209095A0 (en) 2011-01-31
UA101974C2 (ru) 2013-05-27
KR101238731B1 (ko) 2013-03-06
WO2010011377A3 (en) 2010-03-25
EP2373067A1 (en) 2011-10-05
IL209095A (en) 2014-07-31
EP2279509B1 (en) 2012-12-19
KR101227876B1 (ko) 2013-01-31
EP2279509A2 (en) 2011-02-02
KR20110052735A (ko) 2011-05-18
AU2009274456B2 (en) 2011-08-25
CA2720636C (en) 2014-02-18
RU2010146924A (ru) 2012-06-10
KR20110015558A (ko) 2011-02-16
RU2541183C2 (ru) 2015-02-10
MY179314A (en) 2020-11-04
MX2010011305A (es) 2010-11-12

Similar Documents

Publication Publication Date Title
RU2467406C2 (ru) Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания
US9881635B2 (en) Method and system for scaling ducking of speech-relevant channels in multi-channel audio
CN103262409A (zh) 用于改进的感觉的频谱不平衡的音频信号的动态补偿
US20230154459A1 (en) Pre-processing for automatic speech recognition
US11380312B1 (en) Residual echo suppression for keyword detection