RU2467406C2 - Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания - Google Patents
Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания Download PDFInfo
- Publication number
- RU2467406C2 RU2467406C2 RU2010146924/08A RU2010146924A RU2467406C2 RU 2467406 C2 RU2467406 C2 RU 2467406C2 RU 2010146924/08 A RU2010146924/08 A RU 2010146924/08A RU 2010146924 A RU2010146924 A RU 2010146924A RU 2467406 C2 RU2467406 C2 RU 2467406C2
- Authority
- RU
- Russia
- Prior art keywords
- channel
- speech
- characteristic
- attenuation coefficient
- audio signal
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2205/00—Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
- H04R2205/041—Adaptation of stereophonic signal reproduction for the hearing impaired
Abstract
Изобретение относится к обработке звуковых сигналов, в частности, к улучшению четкости диалога и устной речи, например, в объемном развлекательном звуковом сопровождении. Техническим результатом является улучшение воспринимаемости речи. Указанный результат достигается тем, что обрабатывают многоканальный звуковой сигнал для формирования первой характеристики и второй характеристики, обрабатывают первый канал для формирования значения вероятности речи. Первая характеристика соответствует первому измеренному показателю, который зависит от уровня сигнала в первом канале многоканального звукового сигнала, содержащем речевой и неречевой звуки. Вторая характеристика соответствует второму измеренному показателю, который зависит от уровня сигнала во втором канале многоканального звукового сигнала, содержащем, преимущественно, неречевой звук. Далее сравнивают первую и вторую характеристики многоканального звукового сигнала для формирования коэффициента ослабления, при этом определяют разность между первым измеренным показателем и вторым измеренным показателем, и вычисляют коэффициент ослабления на основании полученной разности и пороговой величины. Затем корректируют коэффициент ослабления в соответствии со значением вероятности речи и ослабляют второй канал с использованием скорректированного коэффициента ослабления. 4 н. и 8 з.п. ф-лы, 5 ил.
Description
ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ
Данная заявка на изобретение заявляет приоритет предварительной заявки на патент США № 61/046,271, поданной 18 апреля 2008, которая путем ссылки включается в данный документ во всей своей полноте.
УРОВЕНЬ ТЕХНИКИ
Данное изобретение, в общем, относится к обработке звуковых сигналов, а более конкретно, к улучшению четкости диалога и устной речи, в частности, в объемном развлекательном звуковом сопровождении.
Подходы, описанные в данном разделе документа, не представляют собой предшествующий уровень техники по отношению к формуле изобретения в данной заявке и не могут быть признаны как предшествующий уровень техники из-за включения в данный раздел, если только не указано обратное.
Современное развлекательное звуковое сопровождение с многочисленными одновременными звуковыми каналами (система объемного звука) предоставляет слушателям реалистичные звуковые окружения с эффектом погружения, имеющие колоссальное развлекательное значение. В таких окружениях многие звуковые элементы, такие как диалог, музыка и звуковые эффекты, представлены одновременно и конкурируют, отвлекая внимания слушателя. Для некоторых членов аудитории - особенно со сниженными слуховыми рецепторами или с замедленным когнитивным восприятием - диалог и устная речь могут быть трудны для понимания в течение некоторых частей программы, в которых представлены громкие конкурирующие звуковые элементы. В течение таких эпизодов для этих слушателей было бы полезно, если бы уровень конкурирующих звуков снизился.
Осознание того, что музыка и эффекты могут подавлять диалог, не ново, и было предложено несколько способов для исправления этой ситуации. Однако, как будет кратко изложено далее, эти предлагаемые способы либо несовместимы с современной практикой широковещательных передач, накладывают излишне высокую плату на всю индустрию развлечений, или и то и другое.
В производстве объемного звукового сопровождения в кино и на телевидении общепринятой практикой является размещение большей части диалога и устной речи только в один канал (центральный канал, его называют также речевым каналом). Обычно музыка, звуки окружающей среды и звуковые эффекты микшируются, как в речевом, так и во всех остальных, каналах (например, в Левом [L], Правом [R], Левом объемном [ls] и в Правом объемном [rs] каналах, их называют также неречевыми каналами). В результате этого речевой канал переносит большую часть речевого и значительное количество неречевого звукового сопровождения, содержащегося в звуковой программе, тогда как неречевые каналы переносят, преимущественно, неречевое звуковое сопровождение, но также могут переносить небольшое количество речи. Один простой подход к облегчению воспринимаемости диалога или устной речи в этих употребительных музыкальных смесях заключается в постоянном снижении уровня громкости всех неречевых каналов, относительно уровня громкости речевого канала, к примеру, на 6 dB. Этот подход простой и эффективный и он практикуется в наши дни (например, система восстановления звука SRS [Sound Retrieval System] для чистоты диалога (Dialog Clarity) или модифицированные уравнения понижающего микширования в объемных декодерах). Однако он страдает, по меньшей мере, одним недостатком: постоянное ослабление неречевых каналов может до такой степени понизить уровень громкости спокойных звуков окружающей среды, которые не мешают восприятию речи, что их невозможно будет услышать. При ослаблении не мешающих звуков окружающей среды нарушается эстетический баланс передачи без какой-либо пользы для понимания речи слушателями.
Альтернативное решение описано в серии патентов авторов Vaudrey и Saunders (U.S. Patent No. 7266501, U.S. Patent No. 6772127, U.S. Patent No. 6912501, и U.S. Patent No. 6650755). Насколько понятно, их подход подразумевает модификацию содержания и распределения продукции. Согласно этой конфигурации потребитель получает два различных звуковых сигнала. Первый из этих сигналов содержит “Главное содержание” звукового сопровождения. Во многих случаях этот сигнал всецело поглощается речью, но, по желанию продюсера продукции, он может содержать также и другие типы сигналов. Второй сигнал содержит "Вторичное содержание" звукового сопровождения, которое сложено из всех оставшихся звуковых элементов. Пользователю предоставлено управление относительными уровнями громкости этих двух сигналов либо посредством ручной настройки уровня громкости каждого из сигналов либо посредством автоматической поддержки отношения мощностей, выбранного пользователем. Хотя эта конфигурация помогает ограничить излишнее ослабление не мешающих звуков окружающей среды, ее широкому распространению мешает несовместимость с устоявшимися способами производства и распределения продукции.
Другой пример способа управления относительными уровнями громкости речевого и неречевого звукового сопровождения был предложен автором Bennett в U.S. Application Publication No. 20070027682.
Все примеры на предшествующем уровне техники разделяют один общий недостаток: они не предоставляют никаких технических средств минимизации воздействия, которое оказывает повышение четкости диалога на систему звучания, подразумеваемую создателем программы, помимо других изъянов. Следовательно, объектом данного изобретения является предоставление технических средств для ограничения уровня громкости неречевых каналов в традиционно микшированной многоканальной развлекательной программе таким образом, чтобы речь оставалась понятной, в то время как поддерживалась бы также воспринимаемость неречевых звуковых компонент.
Таким образом, имеется потребность в улучшенных методиках поддержки воспринимаемости речи. Данное изобретение решает эти и другие проблемы посредством предоставления устройства и способа улучшения воспринимаемости речи в многоканальном звуковом сигнале.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Воплощения данного изобретения улучшают воспринимаемость речи. В одном воплощении данное изобретение включает в себя способ улучшения воспринимаемости речи в многоканальном звуковом сигнале. Этот способ включает в себя сравнение первой характеристики и второй характеристики многоканального звукового сигнала для генерации коэффициента ослабления. Эта первая характеристика соответствует первому каналу этого многоканального звукового сигнала, который содержит речевые и неречевые звуковые сигналы, а вторая характеристика соответствует второму каналу этого многоканального звукового сигнала, который, преимущественно, содержит неречевые звуковые сигналы. Этот способ дополнительно включает в себя корректировку этого ослабляющего коэффициента, согласно с оценкой вероятности речи, для генерации скорректированного ослабляющего коэффициента. Этот способ дополнительно включает в себя ослабление второго канала с использованием этого скорректированного ослабляющего коэффициента.
Первый аспект этого изобретения основан на наблюдении, что речевой канал типичной развлекательной программы на протяжении значительной части этой программы переносит неречевой сигнал. Поэтому, согласно этому первому аспекту изобретения, маскировка речевого звукового сопровождения неречевым звуковым сопровождением может управляться посредством: (a) определения ослабления сигнала в неречевом канале, необходимого для того, чтобы предел отношения мощности сигнала в неречевом канале к мощности сигнала в речевом канале не превосходил заранее определенный пороговой величины, и (b) градуировки этого ослабления посредством коэффициента, который монотонно связан с оценкой вероятности того, что сигнал в речевом канале является речью, и (c) применения этого градуированного ослабления.
Второй аспект этого изобретения основан на наблюдении, что отношение мощности речевого сигнала к мощности маскирующего сигнала является плохим показателем для прогноза воспринимаемости речи. Поэтому, согласно этому второму аспекту изобретения, ослабление сигнала в неречевом канале, которое необходимо для поддержки заранее определенного уровня воспринимаемости речи, вычисляется посредством прогнозирования воспринимаемости речевого сигнала в присутствии неречевых сигналов посредством прогнозирующей модели воспринимаемости речи, основанной на психоакустике.
Третий аспект этого изобретения основан на наблюдениях, что, если ослаблению разрешить меняться в зависимости от частоты, то (a) заданный уровень воспринимаемости речи может быть достигнут посредством многих схем ослабления, и (b) различные схемы ослабления могут вырабатывать различные уровни интенсивности или отчетливости неречевого звукового сопровождения. Поэтому, согласно этому третьему аспекту изобретения, маскировка речевого звукового сопровождения неречевым звуковым сопровождением управляется посредством нахождения схемы ослабления, которая максимизирует интенсивность или некоторые другие показатели отчетливости неречевого звукового сопровождения при ограничении, что достигается заранее определенный уровень прогнозной воспринимаемости речи.
Воплощения данного изобретения могут быть осуществлены как способы или технологический процесс. Эти способы могут быть реализованы как электронная схема, как оборудование или программное обеспечение сопровождения или как комбинация вышеупомянутого. Электронная схема, обычно используемая для реализации этого технологического процесса, может представлять собой специализированную электронную схему (исполняющую только специфические задание) или общую электронную схему (запрограммированную для осуществления одного или нескольких конкретных заданий).
Следующее подробное описание и сопутствующие чертежи обеспечивают более хорошее понимание сущности и преимуществ данного изобретения.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Фиг.1 демонстрирует процессор сигналов, согласно одному воплощению данного изобретения.
Фиг.2 демонстрирует процессор сигналов, согласно другому воплощению данного изобретения.
Фиг.3 демонстрирует процессор сигналов, согласно другому воплощению данного изобретения.
Фиг.4A и фиг.4B представляют собой структурные диаграммы, которые демонстрируют дополнительные вариации воплощений по чертежам 1-3.
ПОДРОБНОЕ ОПИСАНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ
Здесь описаны технические приемы для поддержки воспринимаемости речи. В последующем описании, с целью объяснения, приведены многочисленные примеры и конкретные технические подробности для предоставления полного понимания данного изобретения. Однако специалистам в данной области техники будет ясно, что данное изобретение, как это определено в формуле изобретения, может включать в себя некоторые или все признаки только этих примеров или в комбинации с другими признаками, описанными ниже, и может дополнительно включать в себя модификации или эквиваленты признаков и концепций, описанных в данном документе.
Различные способы и технологические процессы описываются ниже. То, что они описываются в определенном порядке, сделано в основном для облегчения изложения. Следует понимать, что конкретные этапы при желании могут быть осуществлены в другом порядке или параллельно, в зависимости от различных реализаций. Если некоторый конкретный этап должен предшествовать или следовать за другим этапом, это будет точно указано, если только это не ясно из контекста.
Принцип первого воплощения изобретения демонстрирует фиг.1. Ссылаясь теперь на фиг.1, принимается многоканальный сигнал, состоящий из речевого канала (101) и двух неречевых каналов (102 и 103). Мощности сигналов в каждом из этих каналов измеряются группой блоков оценки мощности (104, 105 и 106) и выражаются в логарифмической шкале [dB]. Эти блоки оценки мощности могут иметь механизм сглаживания, такой как интегратор утечек, с тем, чтобы результат измерения уровня мощности отражал уровень мощности, усредненный по длительности предложения или всего речевого эпизода. Этот уровень мощности в речевом канале вычитается из уровня мощности в каждом из неречевых каналов (посредством блоков суммирования 107 и 108), чтобы получить показатель разности уровней мощности между этими двумя типами сигналов. Контур сравнения 109 определяет для каждого неречевого канала количество dB, на которое этот неречевой канал должен быть ослаблен для того, чтобы его уровень мощности оставался, по меньшей мере, на ϑ dB ниже уровня мощности сигнала в речевом канале. (Символ "ϑ" обозначает переменную и на него также можно ссылаться как на букву тэта рукописного шрифта). Согласно одному воплощению одной из реализаций этого является прибавление этой пороговой величины ϑ (которая хранится в электронном контуре 110) к разности уровней мощности (этот промежуточный результат называют допуском) с ограничением, чтобы этот результат был равен или меньше чем нуль (посредством блоков ограничения 111 и 112). Этот результат является приращением (или инвертированным ослаблением) в dB, которое должно быть применено к неречевым каналам для того, чтобы поддерживать уровень их мощности на ϑ dB ниже уровня мощности речевого канала. Подходящее значение величины ϑ составляет 15 dB. Это значение величины ϑ при желании может быть скорректировано в других воплощениях.
Так как имеет место однозначное соответствие между показателем, выраженным в логарифмической шкале (dB), и тем же самым показателем, выраженным в линейной шкале, может быть изготовлен электронный контур, который эквивалентен фиг.1, в котором мощность, приращение и пороговая величина выражаются в линейной шкале. В этой реализации все разности уровней заменяются отношениями линейных оценок. В альтернативной реализации можно заменить этот показатель мощности показателем, который связан с силой сигнала, таким как абсолютная величина сигнала.
Следует упомянуть, что одним из важных признаков этого первого аспекта изобретения является градуировка полученного таким образом приращения посредством оценки, монотонно связанной с вероятностью того, что сигнал в речевом канале действительно является речью. Все еще ссылаясь на фиг.1, принимается управляющий сигнал (113) и умножается с приращениями (посредством блоков умножения 114 и 115). Эти градуированные приращения затем применяются к соответствующим неречевым каналам (посредством усилителей 116 и 117) для выработки модифицированных сигналов L' и R' (118 и 119). Управляющий сигнал (113) обычно является автоматически полученным показателем вероятности того, что сигнал в речевом канале является речью. Могут использоваться различные способы автоматического определения вероятности того, что сигнал является речью. Согласно одному воплощению процессор 130 вероятности речи генерирует значение вероятности речи p (113) из информации в C канале 101. Один из примеров такого механизма описывается авторами Robinson и Vinton в "Automated Speech/Other Discrimination for Loudness Monitoring" (Audio Engineering Society, Preprint number 6437 of Convention 118, May 2005). В качестве альтернативы, этот управляющий сигнал (113) может быть создан вручную, например создателем программы, и передан вместе со звуковым сигналом конечному пользователю.
Специалисты в данной области техники без труда поймут, как эта конфигурация может быть распространена на любое количество входных каналов.
Фиг.2 демонстрирует принцип второго аспекта изобретения. Ссылаясь теперь на фиг.2, принимается многоканальный сигнал, состоящий из речевого канала (101) и двух неречевых каналов (102 и 103). Мощности сигналов в каждом из этих каналов измеряются группой блоков оценки мощности (201, 202 и 203). В отличие от соответствующей группы блоков на фиг.1, эти блоки оценки мощности измеряют распределение мощности сигнала относительно частоты, что в результате дает спектр мощности, а не единственное число. Это спектральное разрешение спектра мощности идеально соответствует спектральному разрешению модели прогнозирования воспринимаемости речи (205 и 206, это пока еще не обсуждалось).
Эти два спектра мощности загружаются в контур 204 сравнения. Этот блок предназначен для определения ослабления, которое следует применить к каждому из неречевых каналов для обеспечения того, чтобы неречевой канал не уменьшил воспринимаемость речи сигнала в речевом канале до величины, которая меньше чем заранее определенный критерий. Это функциональное средство осуществляется посредством использования контуров прогнозирования воспринимаемости речи (205 и 206), которые прогнозируют воспринимаемость речи на основе спектров мощности речевого сигнала (201) и неречевых сигналов (202 и 203). Контуры 205 и 206 прогнозирования воспринимаемости речи могут реализовать подходящую модель прогнозирования воспринимаемости речи, в зависимости от выбранной архитектуры и выбора оптимальных соотношений. Примером этого является индекс воспринимаемости речи (Speech Intelligibility Index), подробно описанный в ANSI S3.5-1997 ("Methods for Calculation of the Speech Intelligibility Index"), и модель чувствительности распознавания речи (Speech Recognition Sensitivity model) авторов Muesch и Buus ("Using statistical decision theory to predict speech intelligibility. I. Model structure" Journal of the Acoustical Society of America, 2001, vol 109, p 2896-2909). Ясно, что выходные данные модели прогнозирования воспринимаемости речи не имеют никакого смысла в случае, когда сигнал в речевых каналах является чем-то другим, отличным от речи. Несмотря на это в последующем этот выходной результат модели прогнозирования воспринимаемости речи будет называться как прогнозная воспринимаемость речи. Отмеченная ошибка будет учтена в дальнейшей обработке посредством градуировки оценок приращения на выходе из контура 204 сравнения с параметром, который связан с вероятностью того, сигнал является речью (113, это пока еще не обсуждалось).
Общая черта моделей прогнозирования воспринимаемости речи состоит в том, что они дают прогноз либо на улучшение, либо на неизменность воспринимаемости речи в результате снижения уровня громкости неречевого сигнала. Продвигаясь по структурной схеме этапов технологического процесса по фиг.2, контуры 207 и 208 сравнения сравнивают прогнозную воспринимаемость речи с оценкой критерия. Если оценка уровня неречевого сигнала низкая, так что прогнозная воспринимаемость речи превосходит критерий, параметр приращения, который исходно установлен на 0 dB, извлекается из контуров 209 или 210 и предоставляется на контуры 211 и 212 как выходной результат контура 204 сравнения. Если критерий не достигнут, параметр приращения уменьшается на фиксированную величину и прогнозирование воспринимаемости речи повторяется. Подходящий размер шага для уменьшения приращения равен 1 dB. Описанный здесь итеративный процесс продолжается до тех пор, пока прогнозная воспринимаемость речи не достигнет или превзойдет величину критерия. Конечно, возможно такое, что сигнал в речевом канале таков, что критерий воспринимаемости речи не может быть достигнут даже при отсутствии сигнала в неречевом канале. Примером такой ситуации служит речевой сигнал очень низкого уровня или с чрезвычайно ограниченной полосой частот. Если такое произошло, наступит момент, когда никакое дополнительное сокращение приращения, применяемого к неречевому каналу, не оказывает эффекта на прогнозную воспринимаемость речи, и критерий никогда не может быть достигнут. В таких условиях, петля, образованная из (205, 206), (207, 208) и (209, 210), продолжается бесконечно, и может быть применен дополнительный логический блок для разрыва этой петли. Одним из особенно простых примеров такого логического блока может служить подсчет числа итераций и выход из петли, как только будет превзойдено заранее определенное количество итераций.
Продвигаясь по структурной схеме этапов технологического процесса по фиг.2, управляющий сигнал p (113) принимается и умножается на приращения (посредством блоков умножения 114 и 115). Управляющий сигнал (113) обычно будет представлять собой автоматически произведенный показатель вероятности того, что сигнал в речевом канале является речью. Способы автоматического определения вероятности того, что сигнал является речью, известны per se и обсуждались в контексте фиг.1 (см. процессор 130 вероятности речи). Эти скорректированные приращения затем применяются к своим соответствующим неречевым каналам (посредством блоков усиления 116 и 117) для выработки модифицированных сигналов R' и L' (118 и 119).
Фиг.3 демонстрирует принцип третьего аспекта изобретения. Со ссылкой теперь на фиг.3, принимается многоканальный сигнал, состоящий из речевого канала (101) и двух неречевых каналов (102 и 103). Каждый из этих трех неречевых каналов разбивается на свои спектральные компоненты (посредством группы блоков 301, 302 и 303 фильтрации). Этот спектральный анализ может быть получен посредством N-канальной группы блоков фильтрации во временной области. Согласно одному воплощению это разбиение диапазона частот группой блоков фильтрации на полосы частот в 1/3 октавы напоминает фильтрацию, которая, как предполагают, осуществляется внутри человеческого уха. Тот факт, что теперь сигнал состоит из N подсигналов, продемонстрирован посредством использования жирных линий. Процесс по фиг.3 может быть идентифицирован как разветвленный процесс (sidebranch process). Следуя по пути сигнала, каждый из этих N подсигналов, которые образуют неречевые каналы, градуируется посредством одним из членов множества из N оценок приращений (блоками усиления 116 и 117). Производство этих оценок приращений будет описано позднее. Далее, эти градуированные подсигналы воссоединяются в единый звуковой канал, это может быть сделано через простое суммирование (посредством контуров 313 и 314 суммирования). В качестве альтернативы может быть использована группа фильтрующих блоков синтеза, которая соединена с группой фильтрующих блоков анализа. Результатом этого процесса являются модифицированные сигналы R' и L'(118 и 119).
Описывая теперь путь разветвленного процесса по фиг.3, каждое из выходных данных группы фильтрующих блоков отдается в распоряжение соответствующей группы из N блоков оценки (304, 305 и 306) мощности. Получившиеся в результате этого спектры служат в качестве входных данных для контуров (307 и 308) оптимизации, которые выдают в качестве выходных данных N-мерный вектор приращений. Эта оптимизация использует как контур (309 и 310) прогноза воспринимаемости речи, так и контур (311 и 312) вычисления интенсивности звука для нахождения вектора приращений, который максимизирует интенсивность звука в неречевом канале, при этом поддерживает заранее определенную оценку прогнозной воспринимаемости речи речевого сигнала. Подходящие модели для прогнозирования воспринимаемости речи обсуждались в связи с фиг.2. Контуры 311 и 312 вычисления интенсивности звука могут реализовать подходящую модель прогнозирования интенсивности звука, в зависимости от выбранной архитектуры и выбора оптимальных соотношений. Примерами подходящих моделей являются американский национальный стандарт (American National Standard) ANSI S3.4-2007 "Procedure for the Computation of Loudness of Steady Sounds" и немецкий стандарт (German standard) DIN 45631 "Berechnung des Lautstarkepegels und der Lautheit aus dem Gerauschspektrum".
В зависимости от имеющихся вычислительных ресурсов и наложенных ограничений, вид и сложность этих контуров (307, 308) оптимизации могут чрезвычайно сильно отличаться. Согласно одному воплощению используется итерационная многомерная оптимизация с ограничениями N свободных параметров. Каждый параметр представляет приращение, применяемое к каждой из полос частот в неречевом канале. Для нахождения максимума могут быть применены стандартные технические средства, такие как движение по пути наибольшего градиента в N-мерном пространстве. В другом воплощении, вычислительно менее требовательный подход ограничивает функциональные средства приращения-частота, как лежащие в малом множестве возможных функциональных средств приращения-частота, таком как множество различных спектральных градиентов или shelf-фильтров (super-hard extremely-low frequency). С такими дополнительными ограничениями задача оптимизации может быть сведена к малому количеству одномерных оптимизаций. Еще в одном воплощении осуществляется исчерпывающий поиск в очень маленьком множестве возможных функций приращения. Этот последний подход может оказаться особенно востребованным в приложениях в реальном времени, в которых требуется постоянная загрузка и скорость поиска.
Специалисты в данной области техники легко распознают дополнительные ограничения, которые могут быть наложены на оптимизацию, в соответствии с дополнительными воплощениями данного изобретения. Одним из примеров является ограничение, чтобы интенсивность звука модифицированного неречевого канала была не больше, чем интенсивность звука до модификации. Другой пример представляет собой ограничение на разности приращений между примыкающими полосами частот для того, чтобы ограничить возможности для временного искажения реконструирующей группой фильтрующих блоков (313, 314) или сократить возможности для нежелательных модификаций тембра. Желаемые ограничения зависят как от технической реализации группы блоков фильтрации, так и от выбора оптимальных соотношений между улучшением воспринимаемости речи и модификацией тембра. Для ясности демонстрации на фиг.3 эти ограничения опущены.
Продвигаясь по структурной схеме технологического процесса по фиг.3, принимается управляющий сигнал p (113) и умножается на приращения (посредством блоков умножения 114 и 115). Управляющий сигнал (113) обычно будет представлять собой автоматически произведенный показатель вероятности того, что сигнал в речевом канале является речью. Способы автоматического определения вероятности того, что сигнал является речью, обсуждались в связи с фиг.1 (см. процессор 130 вероятности речи). Эти скорректированные приращения затем применяются к своим соответствующим неречевым каналам (посредством блоков усиления 116 и 117), как это описано ранее.
Фиг.4A и фиг.4B представляют собой структурные диаграммы, демонстрирующие вариации аспектов, показанных на фиг.1-3. Дополнительно, специалисты в данной области техники распознают несколько путей комбинирования элементов изобретения, описанных на чертежах 1-3.
Фиг.4A показывает, что конфигурация на фиг.1 также может быть применена к одной или нескольким подполосам частот сигналов L, C, и R. Более конкретно, каждый из этих сигналов L, C и R может быть пропущен через группу фильтрующих блоков (441, 442 и 443) для выработки трех множеств из n подполос полосы частот: {L1, L2, ..., Ln}, {C1, C2, ..., Cn} и {R1, R2, ..., Rn}. Подполосы, подходящие в пару, пропускаются в n экземпляров контура 125, продемонстрированного на фиг.1, и обработанные подсигналы рекомбинируются (посредством контуров суммирования 451 и 452). Для каждой из субполос могут быть выбраны отдельные пороговые величины ϑn. Хорошим выбором является множество, в котором ϑn пропорциональны среднему числу речевых тональных меток, переносимых в соответствующей области частот; то есть полосам на краях спектра частот приписываются меньшие пороговые величины, чем полосам, соответствующим доминирующим частотам речи. Эта реализация изобретения предлагает очень хороший выбор оптимальных соотношений между сложностью вычислений и производительностью системы.
Фиг.4B показывает другой вариант. Например, для снижения вычислительной нагрузки может быть улучшен типичный объемный звуковой сигнал с пятью каналами (C, L, R, ls и rs) посредством обработки сигналов L и R в соответствии с контуром 325, показанном на фиг.3, и сигналов ls и rs, которые обычно менее мощные, чем сигналы L и R, в соответствии с контуром 125, показанном на фиг.1.
В описаниях, приведенных выше, используются термины "речь" (или речевое звуковое сопровождение или речевой канал или речевой сигнал) и "не речь" (или неречевое звуковое сопровождение или неречевой канал или неречевой сигнал). Квалифицированный специалист в данной области техники поймет, что эти термины в большей мере используются для того, чтобы установить различие, а в меньшей мере для того, чтобы абсолютно описать содержание этих каналов. Например, в сцене фильма в ресторане, речевой канал преимущественно может нести в себе диалог за одним столом, а неречевые каналы могут нести в себе диалоги за другими столами (таким образом, оба канала несут "речь", как использовал бы этот термин не профессионал). Тем не менее, определенные воплощения данного изобретения направлены на ослабление именно диалогов за другими столами.
РЕАЛИЗАЦИИ ИЗОБРЕТЕНИЯ
Это изобретение может быть реализовано в виде оборудования или программного обеспечения сопровождения, или в виде комбинации и того, и другого (например, программируемые матрицы логических элементов). Если точно не указано, алгоритмы, включенные в состав изобретения, по существу не относятся к какому-либо конкретному компьютеру или другому устройству. В частности, могут быть использованы различные компьютеры общего пользования с программами, написанными в соответствии с тем, что объяснено в данном документе, или может оказаться более удобным сконструировать специализированное устройство (например, интегральную схему) для осуществления требуемых этапов способа.
Итак, это изобретение может быть реализовано в виде одной или нескольких компьютерных программ, исполняемых на одной или нескольких программируемых компьютерных системах, каждая из которых содержит, по меньшей мере, один процессор, по меньшей мере, одну систему хранения данных (включая долговременную и не долговременную память и/или элементы хранения данных), по меньшей мере, одно устройство ввода или порт ввода и, по меньшей мере, одно устройство вывода или порт вывода. Программный код применяет входные данные для осуществления функциональных средств, описанных здесь, и генерирует выходную информацию. Эта выходная информация, известным образом, направляется к одному или нескольким устройствам выхода.
Каждая такая программа может быть реализована на любом желаемом компьютерном языке (включая машинные, ассемблерные или процедурные, логические или объектно-ориентированные языки программирования) для работы с компьютерной системой. В любом случае язык может быть транслируемым или интерпретируемым языком программирования.
Каждая такая компьютерная программа предпочтительно хранится в среде или устройстве хранения информации или загружается туда (например, твердотельная память или среда, или магнитная или оптическая среда), считываемая программируемым компьютером (специализированным или общего пользования), для настройки и функционирования этого компьютера после того, как компьютерная программа обратится к среде или устройству хранения информации для осуществления описанных здесь процедур. Может также быть рассмотрена реализация этой системы изобретения как читаемая компьютером среда хранения информации, оснащенная компьютерной программой, при этом среда хранения информации, настроенная таким образом, заставляет эту компьютерную систему функционировать специальным и заранее определенным образом для осуществления функциональных средств, описанных здесь.
Описание, приведенное выше, демонстрирует различные воплощения данного изобретения вместе с примерами того, как может быть реализовано данное изобретение. Примеры и воплощения, приведенные выше, не следует воспринимать как единственно возможные воплощения, и они представлены для демонстрации гибкости и преимущества данного изобретения, как это определено в последующей формуле изобретения. На основе раскрытия сущности изобретения, приведенного выше, и следующей формулы изобретения, специалистам в данной области техники будут ясны другие конфигурации, воплощения, реализации изобретения и их эквиваленты, которые могут быть использованы без отхода от духа и буквы этого изобретения, как это определено в формуле изобретения.
Claims (12)
1. Способ улучшения слышимости речи в многоканальном звуковом сигнале, при этом упомянутый способ содержит следующие этапы:
сравнивают первую характеристику и вторую характеристику многоканального звукового сигнала для формирования коэффициента ослабления, причем первая характеристика соответствует первому каналу многоканального звукового сигнала, который содержит речевой звук и неречевой звук, причем первая характеристика соответствует первому измеренному показателю, который зависит от уровня сигнала в первом канале, причем вторая характеристика соответствует второму каналу многоканального звукового сигнала, который содержит, преимущественно, неречевой звук, и причем вторая характеристика соответствует второму измеренному показателю, который зависит от уровня сигнала во втором канале, причем упомянутое сравнение содержит следующие операции:
определяют разность между первым измеренным показателем и вторым измеренным показателем и
вычисляют коэффициент ослабления на основании разности между первым измеренным показателем и вторым измеренным показателем и пороговой величиной;
корректируют коэффициент ослабления в соответствии со значением вероятности речи для формирования скорректированного коэффициента ослабления; и ослабляют второй канал с использованием скорректированного коэффициента ослабления;
обрабатывают многоканальный звуковой сигнал для формирования первой характеристики и второй характеристики;
обрабатывают первый канал для формирования значения вероятности речи.
сравнивают первую характеристику и вторую характеристику многоканального звукового сигнала для формирования коэффициента ослабления, причем первая характеристика соответствует первому каналу многоканального звукового сигнала, который содержит речевой звук и неречевой звук, причем первая характеристика соответствует первому измеренному показателю, который зависит от уровня сигнала в первом канале, причем вторая характеристика соответствует второму каналу многоканального звукового сигнала, который содержит, преимущественно, неречевой звук, и причем вторая характеристика соответствует второму измеренному показателю, который зависит от уровня сигнала во втором канале, причем упомянутое сравнение содержит следующие операции:
определяют разность между первым измеренным показателем и вторым измеренным показателем и
вычисляют коэффициент ослабления на основании разности между первым измеренным показателем и вторым измеренным показателем и пороговой величиной;
корректируют коэффициент ослабления в соответствии со значением вероятности речи для формирования скорректированного коэффициента ослабления; и ослабляют второй канал с использованием скорректированного коэффициента ослабления;
обрабатывают многоканальный звуковой сигнал для формирования первой характеристики и второй характеристики;
обрабатывают первый канал для формирования значения вероятности речи.
2. Способ по п.1, в котором второй канал является одним из множества вторых каналов, при этом вторая характеристика является одной из множества вторых характеристик, причем коэффициент ослабления является одним из множества коэффициентов ослабления, и причем скорректированный коэффициент ослабления является одним из множества скорректированных коэффициентов ослабления, причем способ дополнительно содержит следующие этапы:
сравнивают первую характеристику и множество вторых характеристик для формирования множества коэффициентов ослабления;
корректируют множество коэффициентов ослабления в соответствии со значением вероятности речи для формирования множества скорректированных коэффициентов ослабления; и
ослабляют множество вторых каналов с использованием множества скорректированных коэффициентов ослабления.
сравнивают первую характеристику и множество вторых характеристик для формирования множества коэффициентов ослабления;
корректируют множество коэффициентов ослабления в соответствии со значением вероятности речи для формирования множества скорректированных коэффициентов ослабления; и
ослабляют множество вторых каналов с использованием множества скорректированных коэффициентов ослабления.
3. Способ по п.1, в котором многоканальный звуковой сигнал содержит третий канал, который содержит, преимущественно, неречевой звук, при этом способ дополнительно содержит следующие этапы:
сравнивают первую характеристику и третью характеристику для формирования дополнительного коэффициента ослабления, причем третья характеристика соответствует третьему каналу;
корректируют дополнительный коэффициент ослабления в соответствии со значением вероятности речи для формирования скорректированного дополнительного коэффициента ослабления; и
ослабляют третий канал с использованием скорректированного коэффициента ослабления.
сравнивают первую характеристику и третью характеристику для формирования дополнительного коэффициента ослабления, причем третья характеристика соответствует третьему каналу;
корректируют дополнительный коэффициент ослабления в соответствии со значением вероятности речи для формирования скорректированного дополнительного коэффициента ослабления; и
ослабляют третий канал с использованием скорректированного коэффициента ослабления.
4. Способ по п.1, в котором первый измеренный показатель является первым уровнем мощности сигнала в первом канале, при этом второй измеренный показатель является вторым уровнем мощности сигнала во втором канале, и причем разность является разностью между первым уровнем мощности и вторым уровнем мощности.
5. Способ по пп.1-3, в котором первый измеренный показатель является первой мощностью сигнала в первом канале, при этом второй измеренный показатель является второй мощностью сигнала во втором канале, и причем разность является отношением между первой мощностью и второй мощностью.
6. Устройство улучшения слышимости речи в многоканальном звуковом сигнале, содержащее схему для улучшения слышимости речи в многоканальном звуковом сигнале, при этом устройство содержит:
схему сравнения, которая выполнена с возможностью сравнения первой характеристики и второй характеристики многоканального звукового сигнала для формирования коэффициента ослабления, причем первая характеристика соответствует первому каналу многоканального звукового сигнала, который содержит речевой звук и неречевой звук, причем первая характеристика соответствует первому измеренному показателю, который зависит от уровня сигнала в первом канале, причем вторая характеристика соответствует второму каналу многоканального звукового сигнала, который содержит, преимущественно, неречевой звук, и причем вторая характеристика соответствует второму измеренному показателю, который зависит от уровня сигнала во втором канале, причем схема сравнения выполнена с возможностью:
определения разности между первым измеренным показателем и вторым измеренным показателем,
вычисления коэффициента ослабления на основании разности между первым измеренным показателем и вторым измеренным показателем и пороговой величиной;
умножитель, который выполнен с возможностью коррекции коэффициента ослабления в соответствии со значением вероятности речи, для формирования скорректированного коэффициента ослабления; и
усилитель, который выполнен с возможностью ослабления второго канала с использованием скорректированного коэффициента ослабления;
причем многоканальный звуковой сигнал обрабатывается для формирования первой характеристики и второй характеристики; и
первый канал обрабатывается для формирования значения вероятности речи.
схему сравнения, которая выполнена с возможностью сравнения первой характеристики и второй характеристики многоканального звукового сигнала для формирования коэффициента ослабления, причем первая характеристика соответствует первому каналу многоканального звукового сигнала, который содержит речевой звук и неречевой звук, причем первая характеристика соответствует первому измеренному показателю, который зависит от уровня сигнала в первом канале, причем вторая характеристика соответствует второму каналу многоканального звукового сигнала, который содержит, преимущественно, неречевой звук, и причем вторая характеристика соответствует второму измеренному показателю, который зависит от уровня сигнала во втором канале, причем схема сравнения выполнена с возможностью:
определения разности между первым измеренным показателем и вторым измеренным показателем,
вычисления коэффициента ослабления на основании разности между первым измеренным показателем и вторым измеренным показателем и пороговой величиной;
умножитель, который выполнен с возможностью коррекции коэффициента ослабления в соответствии со значением вероятности речи, для формирования скорректированного коэффициента ослабления; и
усилитель, который выполнен с возможностью ослабления второго канала с использованием скорректированного коэффициента ослабления;
причем многоканальный звуковой сигнал обрабатывается для формирования первой характеристики и второй характеристики; и
первый канал обрабатывается для формирования значения вероятности речи.
7. Устройство по п.6, в котором первая характеристика соответствует первому уровню мощности, и при этом вторая характеристика соответствует второму уровню мощности, и причем схема сравнения содержит:
первый сумматор, который выполнен с возможностью вычитания первого уровня мощности из второго уровня мощности, для формирования разности уровней мощности;
второй сумматор, который выполнен с возможностью суммирования разности уровней мощности и пороговой величины, для формирования границы рабочего режима; и
схему ограничения, которая выполнена с возможностью вычисления коэффициента ослабления как большей величины из границы рабочего режима и нуля.
первый сумматор, который выполнен с возможностью вычитания первого уровня мощности из второго уровня мощности, для формирования разности уровней мощности;
второй сумматор, который выполнен с возможностью суммирования разности уровней мощности и пороговой величины, для формирования границы рабочего режима; и
схему ограничения, которая выполнена с возможностью вычисления коэффициента ослабления как большей величины из границы рабочего режима и нуля.
8. Устройство по п.6, в котором первая характеристика соответствует первому уровню мощности, и при этом вторая характеристика соответствует второму уровню мощности, причем устройство дополнительно содержит:
первый блок оценки мощности, который выполнен с возможностью вычисления первого уровня мощности первого канала; и
второй блок оценки мощности, который выполнен с возможностью вычисления второго уровня мощности второго канала.
первый блок оценки мощности, который выполнен с возможностью вычисления первого уровня мощности первого канала; и
второй блок оценки мощности, который выполнен с возможностью вычисления второго уровня мощности второго канала.
9. Устройство по п.6, дополнительно содержащее:
процессор определения речи, который выполнен с возможностью обработки первого канала, для формирования значения вероятности речи.
процессор определения речи, который выполнен с возможностью обработки первого канала, для формирования значения вероятности речи.
10. Компьютерный носитель записи, для улучшения слышимости речи в многоканальном звуковом сигнале, содержащий сохраненные на нем команды, которые при выполнении побуждают устройство выполнять обработку, содержащий:
сравнение первой характеристики и второй характеристики многоканального звукового сигнала для формирования коэффициента ослабления, причем первая характеристика соответствует первому каналу многоканального звукового сигнала, который содержит речевой звук и неречевой звук, причем первая характеристика соответствует первому измеренному показателю, который зависит от уровня сигнала в первом канале, причем вторая характеристика соответствует второму каналу многоканального звукового сигнала, который содержит, преимущественно, неречевой звук, и причем вторая характеристика соответствует второму измеренному показателю, который зависит от уровня сигнала во втором канале, причем сравнение содержит:
определение разности между первым измеренным показателем и вторым измеренным показателем, и
вычисление коэффициента ослабления на основании разности между первым измеренным показателем и вторым измеренным показателем и пороговой величиной;
коррекцию коэффициента ослабления в соответствии со значением вероятности речи для формирования скорректированного коэффициента ослабления; и
ослабление второго канала с использованием скорректированного коэффициента ослабления;
обработку многоканального звукового сигнала для формирования первой характеристики и второй характеристики; и
обработку первого канала для формирования значения вероятности речи.
сравнение первой характеристики и второй характеристики многоканального звукового сигнала для формирования коэффициента ослабления, причем первая характеристика соответствует первому каналу многоканального звукового сигнала, который содержит речевой звук и неречевой звук, причем первая характеристика соответствует первому измеренному показателю, который зависит от уровня сигнала в первом канале, причем вторая характеристика соответствует второму каналу многоканального звукового сигнала, который содержит, преимущественно, неречевой звук, и причем вторая характеристика соответствует второму измеренному показателю, который зависит от уровня сигнала во втором канале, причем сравнение содержит:
определение разности между первым измеренным показателем и вторым измеренным показателем, и
вычисление коэффициента ослабления на основании разности между первым измеренным показателем и вторым измеренным показателем и пороговой величиной;
коррекцию коэффициента ослабления в соответствии со значением вероятности речи для формирования скорректированного коэффициента ослабления; и
ослабление второго канала с использованием скорректированного коэффициента ослабления;
обработку многоканального звукового сигнала для формирования первой характеристики и второй характеристики; и
обработку первого канала для формирования значения вероятности речи.
11. Устройство для улучшения слышимости речи в многоканальном звуковом сигнале, при этом устройство содержит:
средство для сравнения первой характеристики и второй характеристики многоканального звукового сигнала, для формирования коэффициента ослабления, причем первая характеристика соответствует первому каналу многоканального звукового сигнала, который содержит речевой звук и неречевой звук, причем первая характеристика соответствует первому измеренному показателю, который зависит от уровня сигнала в первом канале, причем вторая характеристика соответствует второму каналу многоканального звукового сигнала, который содержит, преимущественно, неречевой звук, и причем вторая характеристика соответствует второму измеренному показателю, который зависит от уровня сигнала во втором канале, причем средство для сравнения содержит:
средство для определения разности между первым измеренным показателем и вторым измеренным показателем и
средство для вычисления коэффициента ослабления на основании разности между первым измеренным показателем и вторым измеренным показателем и пороговой величиной;
средство для коррекции коэффициента ослабления в соответствии со значением вероятности речи, для формирования скорректированного коэффициента ослабления;
средство для ослабления второго канала с использованием скорректированного коэффициента ослабления;
средство для обработки многоканального звукового сигнала для формирования первой характеристики и второй характеристики;
средство для обработки первого канала для формирования значения вероятности речи.
средство для сравнения первой характеристики и второй характеристики многоканального звукового сигнала, для формирования коэффициента ослабления, причем первая характеристика соответствует первому каналу многоканального звукового сигнала, который содержит речевой звук и неречевой звук, причем первая характеристика соответствует первому измеренному показателю, который зависит от уровня сигнала в первом канале, причем вторая характеристика соответствует второму каналу многоканального звукового сигнала, который содержит, преимущественно, неречевой звук, и причем вторая характеристика соответствует второму измеренному показателю, который зависит от уровня сигнала во втором канале, причем средство для сравнения содержит:
средство для определения разности между первым измеренным показателем и вторым измеренным показателем и
средство для вычисления коэффициента ослабления на основании разности между первым измеренным показателем и вторым измеренным показателем и пороговой величиной;
средство для коррекции коэффициента ослабления в соответствии со значением вероятности речи, для формирования скорректированного коэффициента ослабления;
средство для ослабления второго канала с использованием скорректированного коэффициента ослабления;
средство для обработки многоканального звукового сигнала для формирования первой характеристики и второй характеристики;
средство для обработки первого канала для формирования значения вероятности речи.
12. Устройство по п.11, в котором первая характеристика соответствует первому уровню мощности, и при этом вторая характеристика соответствует второму уровню мощности, и причем средство для сравнения содержит:
средство для вычитания первого уровня мощности из второго уровня мощности для формирования разности уровней мощности.
средство для вычитания первого уровня мощности из второго уровня мощности для формирования разности уровней мощности.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US4627108P | 2008-04-18 | 2008-04-18 | |
US61/046,271 | 2008-04-18 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2010150367/08A Division RU2541183C2 (ru) | 2008-04-18 | 2009-04-17 | Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2010146924A RU2010146924A (ru) | 2012-06-10 |
RU2467406C2 true RU2467406C2 (ru) | 2012-11-20 |
Family
ID=41509059
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2010150367/08A RU2541183C2 (ru) | 2008-04-18 | 2009-04-17 | Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания |
RU2010146924/08A RU2467406C2 (ru) | 2008-04-18 | 2009-04-17 | Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2010150367/08A RU2541183C2 (ru) | 2008-04-18 | 2009-04-17 | Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания |
Country Status (16)
Country | Link |
---|---|
US (1) | US8577676B2 (ru) |
EP (2) | EP2279509B1 (ru) |
JP (2) | JP5341983B2 (ru) |
KR (2) | KR101227876B1 (ru) |
CN (2) | CN102007535B (ru) |
AU (2) | AU2009274456B2 (ru) |
BR (2) | BRPI0911456B1 (ru) |
CA (2) | CA2745842C (ru) |
HK (2) | HK1153304A1 (ru) |
IL (2) | IL208436A (ru) |
MX (1) | MX2010011305A (ru) |
MY (2) | MY179314A (ru) |
RU (2) | RU2541183C2 (ru) |
SG (1) | SG189747A1 (ru) |
UA (2) | UA104424C2 (ru) |
WO (1) | WO2010011377A2 (ru) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10158337B2 (en) | 2004-08-10 | 2018-12-18 | Bongiovi Acoustics Llc | System and method for digital signal processing |
US11431312B2 (en) | 2004-08-10 | 2022-08-30 | Bongiovi Acoustics Llc | System and method for digital signal processing |
US8284955B2 (en) | 2006-02-07 | 2012-10-09 | Bongiovi Acoustics Llc | System and method for digital signal processing |
US10848118B2 (en) | 2004-08-10 | 2020-11-24 | Bongiovi Acoustics Llc | System and method for digital signal processing |
US11202161B2 (en) | 2006-02-07 | 2021-12-14 | Bongiovi Acoustics Llc | System, method, and apparatus for generating and digitally processing a head related audio transfer function |
US10701505B2 (en) | 2006-02-07 | 2020-06-30 | Bongiovi Acoustics Llc. | System, method, and apparatus for generating and digitally processing a head related audio transfer function |
US10848867B2 (en) | 2006-02-07 | 2020-11-24 | Bongiovi Acoustics Llc | System and method for digital signal processing |
US10069471B2 (en) * | 2006-02-07 | 2018-09-04 | Bongiovi Acoustics Llc | System and method for digital signal processing |
KR101597375B1 (ko) | 2007-12-21 | 2016-02-24 | 디티에스 엘엘씨 | 오디오 신호의 인지된 음량을 조절하기 위한 시스템 |
CA2745842C (en) * | 2008-04-18 | 2014-09-23 | Dolby Laboratories Licensing Corporation | Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
US8774417B1 (en) * | 2009-10-05 | 2014-07-08 | Xfrm Incorporated | Surround audio compatibility assessment |
US9324337B2 (en) * | 2009-11-17 | 2016-04-26 | Dolby Laboratories Licensing Corporation | Method and system for dialog enhancement |
TWI459828B (zh) * | 2010-03-08 | 2014-11-01 | Dolby Lab Licensing Corp | 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 |
RU2526746C1 (ru) * | 2010-09-22 | 2014-08-27 | Долби Лабораторис Лайсэнзин Корпорейшн | Микширование аудиопотока с нормализацией диалогового уровня |
JP2013114242A (ja) * | 2011-12-01 | 2013-06-10 | Yamaha Corp | 音響処理装置 |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
US9135920B2 (en) * | 2012-11-26 | 2015-09-15 | Harman International Industries, Incorporated | System for perceived enhancement and restoration of compressed audio signals |
US9363603B1 (en) * | 2013-02-26 | 2016-06-07 | Xfrm Incorporated | Surround audio dialog balance assessment |
WO2014179021A1 (en) | 2013-04-29 | 2014-11-06 | Dolby Laboratories Licensing Corporation | Frequency band compression with dynamic thresholds |
US9883318B2 (en) | 2013-06-12 | 2018-01-30 | Bongiovi Acoustics Llc | System and method for stereo field enhancement in two-channel audio systems |
CN110890101B (zh) * | 2013-08-28 | 2024-01-12 | 杜比实验室特许公司 | 用于基于语音增强元数据进行解码的方法和设备 |
US9906858B2 (en) | 2013-10-22 | 2018-02-27 | Bongiovi Acoustics Llc | System and method for digital signal processing |
US10639000B2 (en) | 2014-04-16 | 2020-05-05 | Bongiovi Acoustics Llc | Device for wide-band auscultation |
US10820883B2 (en) | 2014-04-16 | 2020-11-03 | Bongiovi Acoustics Llc | Noise reduction assembly for auscultation of a body |
KR101559364B1 (ko) * | 2014-04-17 | 2015-10-12 | 한국과학기술원 | 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션 |
CN105336341A (zh) * | 2014-05-26 | 2016-02-17 | 杜比实验室特许公司 | 增强音频信号中的语音内容的可理解性 |
EP3175634B1 (en) | 2014-08-01 | 2021-01-06 | Steven Jay Borne | Audio device |
JP6683618B2 (ja) * | 2014-09-08 | 2020-04-22 | 日本放送協会 | 音声信号処理装置 |
KR102482162B1 (ko) * | 2014-10-01 | 2022-12-29 | 돌비 인터네셔널 에이비 | 오디오 인코더 및 디코더 |
BR112017006325B1 (pt) | 2014-10-02 | 2023-12-26 | Dolby International Ab | Método de decodificação e decodificador para o realce de diálogo |
US9792952B1 (en) * | 2014-10-31 | 2017-10-17 | Kill the Cann, LLC | Automated television program editing |
CN107004427B (zh) | 2014-12-12 | 2020-04-14 | 华为技术有限公司 | 增强多声道音频信号内语音分量的信号处理装置 |
KR20180132032A (ko) | 2015-10-28 | 2018-12-11 | 디티에스, 인코포레이티드 | 객체 기반 오디오 신호 균형화 |
US9621994B1 (en) | 2015-11-16 | 2017-04-11 | Bongiovi Acoustics Llc | Surface acoustic transducer |
EP3203472A1 (en) * | 2016-02-08 | 2017-08-09 | Oticon A/s | A monaural speech intelligibility predictor unit |
RU2620569C1 (ru) * | 2016-05-17 | 2017-05-26 | Николай Александрович Иванов | Способ измерения разборчивости речи |
US11037581B2 (en) * | 2016-06-24 | 2021-06-15 | Samsung Electronics Co., Ltd. | Signal processing method and device adaptive to noise environment and terminal device employing same |
AU2019252524A1 (en) | 2018-04-11 | 2020-11-05 | Bongiovi Acoustics Llc | Audio enhanced hearing protection system |
US10959035B2 (en) | 2018-08-02 | 2021-03-23 | Bongiovi Acoustics Llc | System, method, and apparatus for generating and digitally processing a head related audio transfer function |
US11335357B2 (en) * | 2018-08-14 | 2022-05-17 | Bose Corporation | Playback enhancement in audio systems |
EP4158627A1 (en) | 2020-05-29 | 2023-04-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for processing an initial audio signal |
US20220270626A1 (en) * | 2021-02-22 | 2022-08-25 | Tencent America LLC | Method and apparatus in audio processing |
CN115881146A (zh) * | 2021-08-05 | 2023-03-31 | 哈曼国际工业有限公司 | 用于动态语音增强的方法及系统 |
US20230080683A1 (en) * | 2021-09-08 | 2023-03-16 | Minus Works LLC | Readily biodegradable refrigerant gel for cold packs |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0637011A1 (en) * | 1993-07-26 | 1995-02-01 | Koninklijke Philips Electronics N.V. | Speech signal discrimination arrangement and audio device including such an arrangement |
EP0645756A1 (en) * | 1993-09-29 | 1995-03-29 | Ericsson Ge Mobile Communications Inc. | System for adaptively reducing noise in speech signals |
RU2163032C2 (ru) * | 1995-09-14 | 2001-02-10 | Эрикссон Инк. | Система адаптивной фильтрации аудиосигналов для улучшения разборчивости речи при наличии шума |
Family Cites Families (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5208860A (en) | 1988-09-02 | 1993-05-04 | Qsound Ltd. | Sound imaging method and apparatus |
US5046097A (en) | 1988-09-02 | 1991-09-03 | Qsound Ltd. | Sound imaging process |
US5105462A (en) | 1989-08-28 | 1992-04-14 | Qsound Ltd. | Sound imaging method and apparatus |
US5212733A (en) | 1990-02-28 | 1993-05-18 | Voyager Sound, Inc. | Sound mixing device |
DE69214882T2 (de) | 1991-06-06 | 1997-03-20 | Matsushita Electric Ind Co Ltd | Gerät zur Unterscheidung von Musik und Sprache |
JP2737491B2 (ja) * | 1991-12-04 | 1998-04-08 | 松下電器産業株式会社 | 音楽音声処理装置 |
JP2961952B2 (ja) * | 1991-06-06 | 1999-10-12 | 松下電器産業株式会社 | 音楽音声判別装置 |
US5623577A (en) * | 1993-07-16 | 1997-04-22 | Dolby Laboratories Licensing Corporation | Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions |
US5727124A (en) * | 1994-06-21 | 1998-03-10 | Lucent Technologies, Inc. | Method of and apparatus for signal recognition that compensates for mismatching |
JP3560087B2 (ja) * | 1995-09-13 | 2004-09-02 | 株式会社デノン | 音信号処理装置およびサラウンド再生方法 |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US6697491B1 (en) | 1996-07-19 | 2004-02-24 | Harman International Industries, Incorporated | 5-2-5 matrix encoder and decoder system |
JP2004507904A (ja) | 1997-09-05 | 2004-03-11 | レキシコン | 5−2−5マトリックス・エンコーダおよびデコーダ・システム |
US6311155B1 (en) | 2000-02-04 | 2001-10-30 | Hearing Enhancement Company Llc | Use of voice-to-remaining audio (VRA) in consumer applications |
US7260231B1 (en) | 1999-05-26 | 2007-08-21 | Donald Scott Wedge | Multi-channel audio panel |
US6442278B1 (en) | 1999-06-15 | 2002-08-27 | Hearing Enhancement Company, Llc | Voice-to-remaining audio (VRA) interactive center channel downmix |
US6778966B2 (en) * | 1999-11-29 | 2004-08-17 | Syfx | Segmented mapping converter system and method |
US7277767B2 (en) | 1999-12-10 | 2007-10-02 | Srs Labs, Inc. | System and method for enhanced streaming audio |
JP2001245237A (ja) * | 2000-02-28 | 2001-09-07 | Victor Co Of Japan Ltd | 放送受信装置 |
US7266501B2 (en) | 2000-03-02 | 2007-09-04 | Akiba Electronics Institute Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
US6351733B1 (en) | 2000-03-02 | 2002-02-26 | Hearing Enhancement Company, Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
US7076071B2 (en) | 2000-06-12 | 2006-07-11 | Robert A. Katz | Process for enhancing the existing ambience, imaging, depth, clarity and spaciousness of sound recordings |
US6862567B1 (en) * | 2000-08-30 | 2005-03-01 | Mindspeed Technologies, Inc. | Noise suppression in the frequency domain by adjusting gain according to voicing parameters |
EP1191814B2 (en) * | 2000-09-25 | 2015-07-29 | Widex A/S | A multiband hearing aid with multiband adaptive filters for acoustic feedback suppression. |
AU2002248431B2 (en) * | 2001-04-13 | 2008-11-13 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
JP2002335490A (ja) * | 2001-05-09 | 2002-11-22 | Alpine Electronics Inc | Dvd再生装置 |
CA2354755A1 (en) * | 2001-08-07 | 2003-02-07 | Dspfactory Ltd. | Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank |
JP2005502247A (ja) * | 2001-09-06 | 2005-01-20 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ再生装置 |
JP2003084790A (ja) | 2001-09-17 | 2003-03-19 | Matsushita Electric Ind Co Ltd | 台詞成分強調装置 |
TW569551B (en) | 2001-09-25 | 2004-01-01 | Roger Wallace Dressler | Method and apparatus for multichannel logic matrix decoding |
GR1004186B (el) * | 2002-05-21 | 2003-03-12 | Διαχυτης ευρεως φασματος ηχου με ελεγχομενη απορροφηση χαμηλων συχνοτητων και η μεθοδος εγκαταστασης του | |
RU2206960C1 (ru) * | 2002-06-24 | 2003-06-20 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ подавления шума в информационном сигнале и устройство для его осуществления |
US7308403B2 (en) * | 2002-07-01 | 2007-12-11 | Lucent Technologies Inc. | Compensation for utterance dependent articulation for speech quality assessment |
US7146315B2 (en) | 2002-08-30 | 2006-12-05 | Siemens Corporate Research, Inc. | Multichannel voice detection in adverse environments |
US7551745B2 (en) * | 2003-04-24 | 2009-06-23 | Dolby Laboratories Licensing Corporation | Volume and compression control in movie theaters |
US7251337B2 (en) * | 2003-04-24 | 2007-07-31 | Dolby Laboratories Licensing Corporation | Volume control in movie theaters |
IN2010KN02913A (ru) * | 2003-05-28 | 2015-05-01 | Dolby Lab Licensing Corp | |
US7680289B2 (en) | 2003-11-04 | 2010-03-16 | Texas Instruments Incorporated | Binaural sound localization using a formant-type cascade of resonators and anti-resonators |
JP4013906B2 (ja) * | 2004-02-16 | 2007-11-28 | ヤマハ株式会社 | 音量制御装置 |
ES2294506T3 (es) * | 2004-05-14 | 2008-04-01 | Loquendo S.P.A. | Reduccion de ruido para el reconocimiento automatico del habla. |
JP2006072130A (ja) | 2004-09-03 | 2006-03-16 | Canon Inc | 情報処理装置及び情報処理方法 |
US8199933B2 (en) * | 2004-10-26 | 2012-06-12 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
BRPI0608753B1 (pt) * | 2005-03-30 | 2019-12-24 | Koninl Philips Electronics Nv | codificador de áudio, decodificador de áudio, método para codificar um sinal de áudio de multicanal, método para gerar um sinal de áudio de multicanal, sinal de áudio de multicanal codificado, e meio de armazenamento |
US7567898B2 (en) | 2005-07-26 | 2009-07-28 | Broadcom Corporation | Regulation of volume of voice in conjunction with background sound |
US7912232B2 (en) | 2005-09-30 | 2011-03-22 | Aaron Master | Method and apparatus for removing or isolating voice or instruments on stereo recordings |
JP2007142856A (ja) * | 2005-11-18 | 2007-06-07 | Sharp Corp | テレビジョン受信装置 |
JP2007158873A (ja) * | 2005-12-07 | 2007-06-21 | Funai Electric Co Ltd | 音声補正装置 |
JP2007208755A (ja) * | 2006-02-03 | 2007-08-16 | Oki Electric Ind Co Ltd | 3次元音声信号出力方法及びその装置並びに3次元音声信号出力プログラム |
PL2002429T3 (pl) | 2006-04-04 | 2013-03-29 | Dolby Laboratories Licensing Corp | Kontrola słyszalnej charakterystyki głośności sygnału audio |
ATE493794T1 (de) * | 2006-04-27 | 2011-01-15 | Dolby Lab Licensing Corp | Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke |
JP2008032834A (ja) * | 2006-07-26 | 2008-02-14 | Toshiba Corp | 音声翻訳装置及びその方法 |
US8184834B2 (en) | 2006-09-14 | 2012-05-22 | Lg Electronics Inc. | Controller and user interface for dialogue enhancement techniques |
CN101573866B (zh) * | 2007-01-03 | 2012-07-04 | 杜比实验室特许公司 | 响度补偿音量控制方法和装置 |
EP2118885B1 (en) * | 2007-02-26 | 2012-07-11 | Dolby Laboratories Licensing Corporation | Speech enhancement in entertainment audio |
CA2745842C (en) * | 2008-04-18 | 2014-09-23 | Dolby Laboratories Licensing Corporation | Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience |
EP2337020A1 (en) * | 2009-12-18 | 2011-06-22 | Nxp B.V. | A device for and a method of processing an acoustic signal |
-
2009
- 2009-04-17 CA CA2745842A patent/CA2745842C/en active Active
- 2009-04-17 BR BRPI0911456-4A patent/BRPI0911456B1/pt active IP Right Grant
- 2009-04-17 JP JP2011505219A patent/JP5341983B2/ja active Active
- 2009-04-17 US US12/988,118 patent/US8577676B2/en active Active
- 2009-04-17 CN CN2009801131360A patent/CN102007535B/zh active Active
- 2009-04-17 UA UAA201014753A patent/UA104424C2/ru unknown
- 2009-04-17 UA UAA201013673A patent/UA101974C2/ru unknown
- 2009-04-17 CN CN201010587796.7A patent/CN102137326B/zh active Active
- 2009-04-17 BR BRPI0923669-4A patent/BRPI0923669B1/pt active IP Right Grant
- 2009-04-17 KR KR1020107025827A patent/KR101227876B1/ko active IP Right Grant
- 2009-04-17 AU AU2009274456A patent/AU2009274456B2/en active Active
- 2009-04-17 KR KR1020117007859A patent/KR101238731B1/ko active IP Right Grant
- 2009-04-17 MY MYPI2011005510A patent/MY179314A/en unknown
- 2009-04-17 EP EP09752917A patent/EP2279509B1/en active Active
- 2009-04-17 WO PCT/US2009/040900 patent/WO2010011377A2/en active Application Filing
- 2009-04-17 SG SG2013025390A patent/SG189747A1/en unknown
- 2009-04-17 RU RU2010150367/08A patent/RU2541183C2/ru active
- 2009-04-17 RU RU2010146924/08A patent/RU2467406C2/ru active
- 2009-04-17 MX MX2010011305A patent/MX2010011305A/es active IP Right Grant
- 2009-04-17 MY MYPI2010004901A patent/MY159890A/en unknown
- 2009-04-17 EP EP10194593.9A patent/EP2373067B1/en active Active
- 2009-04-17 CA CA2720636A patent/CA2720636C/en active Active
-
2010
- 2010-10-03 IL IL208436A patent/IL208436A/en active IP Right Grant
- 2010-11-03 IL IL209095A patent/IL209095A/en active IP Right Grant
- 2010-11-12 AU AU2010241387A patent/AU2010241387B2/en active Active
-
2011
- 2011-03-10 JP JP2011052503A patent/JP5259759B2/ja active Active
- 2011-07-13 HK HK11107258.9A patent/HK1153304A1/xx unknown
-
2012
- 2012-03-06 HK HK12102265.0A patent/HK1161795A1/xx unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0637011A1 (en) * | 1993-07-26 | 1995-02-01 | Koninklijke Philips Electronics N.V. | Speech signal discrimination arrangement and audio device including such an arrangement |
EP0645756A1 (en) * | 1993-09-29 | 1995-03-29 | Ericsson Ge Mobile Communications Inc. | System for adaptively reducing noise in speech signals |
RU2163032C2 (ru) * | 1995-09-14 | 2001-02-10 | Эрикссон Инк. | Система адаптивной фильтрации аудиосигналов для улучшения разборчивости речи при наличии шума |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2467406C2 (ru) | Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания | |
US9881635B2 (en) | Method and system for scaling ducking of speech-relevant channels in multi-channel audio | |
CN103262409A (zh) | 用于改进的感觉的频谱不平衡的音频信号的动态补偿 | |
US20230154459A1 (en) | Pre-processing for automatic speech recognition | |
US11380312B1 (en) | Residual echo suppression for keyword detection |