RU2440627C2 - Повышение разборчивости речи в звукозаписи развлекательных программ - Google Patents

Повышение разборчивости речи в звукозаписи развлекательных программ Download PDF

Info

Publication number
RU2440627C2
RU2440627C2 RU2009135829/08A RU2009135829A RU2440627C2 RU 2440627 C2 RU2440627 C2 RU 2440627C2 RU 2009135829/08 A RU2009135829/08 A RU 2009135829/08A RU 2009135829 A RU2009135829 A RU 2009135829A RU 2440627 C2 RU2440627 C2 RU 2440627C2
Authority
RU
Russia
Prior art keywords
speech
sound recording
level
entertainment
signal
Prior art date
Application number
RU2009135829/08A
Other languages
English (en)
Other versions
RU2009135829A (ru
Inventor
Ханнес МЮШ (US)
Ханнес МЮШ
Original Assignee
Долби Лэборетериз Лайсенсинг Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Лэборетериз Лайсенсинг Корпорейшн filed Critical Долби Лэборетериз Лайсенсинг Корпорейшн
Publication of RU2009135829A publication Critical patent/RU2009135829A/ru
Application granted granted Critical
Publication of RU2440627C2 publication Critical patent/RU2440627C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands

Abstract

Изобретение относится к обработке сигналов звукозаписи, в частности к повышению разборчивости звукозаписи развлекательных программ, таких как телевизионная звукозапись. Техническим результатом является улучшение ясности и разборчивости речи, такой как звукозапись диалогов и повествовательного изложения. Указанный результат достигается тем, что в ответ на одно или более управляющих воздействий обрабатывают звукозапись развлекательных программ: изменяют уровень сигнала звукозаписи в каждой из множества полос частот в соответствии с характеристикой коэффициента усиления, которая соотносит уровень сигнала полосы с коэффициентом усиления. Далее формируют управляющий сигнал для изменения характеристики коэффициента усиления в каждой полосе частот: определяют в одной широкой полосе частот отрезки времени звукозаписи развлекательных программ (а) как речевые или неречевые либо (b) как вероятно являющиеся речевыми или неречевыми, получают в каждой из множества полос частот величину пульсаций уровней речи, отслеживают в каждой из множества полос частот минимум уровня звукозаписи в полосе, при этом время отклика отслеживания является реагирующим на величину пульсаций уровней речи, преобразуют отслеживаемые минимумы в каждой полосе в соответствующий адаптивный пороговый уровень и смещают каждый соответствующий адаптивный пороговый уровень по результату определения для формирования управляющего сигнала для каждой полосы частот. 6 н. и 24 з.п. ф-лы, 7 ил.

Description

ОБЛАСТЬ ТЕХНИКИ
Настоящее изобретение относится к обработке сигналов звукозаписи. Более точно, изобретение относится к обработке звукозаписи развлекательных программ, таких как звукозапись телевизионных программ, для улучшения ясности и разборчивости речи, такой как диалог, и повествовательной речи. Изобретение относится к способам, устройству для выполнения таких способов и к программному обеспечению, хранимому на машиночитаемом носителе, для побуждения компьютера выполнять такие способы.
ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ
Аудиовизуальные развлекательные программы превращаются в имеющую быстрый темп последовательность диалога, повествовательной речи, музыки и эффектов. Высокий реализм, достигаемый современными технологиями развлекательных программ и способами их производства, поощряет использование разговорных стилей беседы на телевидении, которые существенно отличаются от ясно произносимых аналогичных театральному представлению в прошлом. Эта ситуация представляет собой проблему не только для растущей численности пожилых зрителей, которые имеют проблемы, связанные с ослабленными сенсорными возможностями и возможностями языкового понимания, которые должны напрячься, чтобы понять программу, но также и для людей с нормальным слухом, например, при прослушивании на низких акустических частотах.
Насколько хорошо может быть понятна речь, зависит от нескольких факторов. Примерами являются тщательность речеобразования (ясной или разговорной речи), скорость речи и внятность речи. Разговорный язык является достаточно ясным и может пониматься в менее чем идеальных условиях. Например, слушатели с нарушенным слухом обычно могут понимать ясную речь, даже когда они не могут услышать часть речи вследствие пониженной остроты слуха. Однако по мере того, как скорость произнесения речи увеличивается, а речеобразование становится менее аккуратным, прослушивание и осмысление требуют возрастающих усилий, особенно, если неслышимы части речевого спектра.
Телезрители ничего не могут сделать, чтобы повлиять на ясность прослушиваемой речи, но слушатели с нарушенным слухом могут пытаться компенсировать недостаточную внятность увеличением громкости прослушивания. Помимо неудобства, доставляемого людям с нормальным слухом в том же самом помещении или соседям, этот подход эффективен всего лишь отчасти. Это так, потому что в большинстве случаев потери слуха являются неравномерными по частоте, потери на высоких частотах больше, чем на низких и средних частотах. Например, типичная способность 70-летнего мужчины слышать звуки на частоте 6 кГц и 50 дБ хуже, чем у молодого человека, при этом на частотах ниже 1 кГц потери слуха старшего человека меньше, чем 10 дБ (ISO 7029. Акустика - Статистическое распределение порогов слышимости как функции возраста). Увеличение громкости делает низко- и среднечастотные звуки громче без значительного увеличения понятия речи, так как на таких частотах слышимость уже достаточна. Увеличение уровня громкости также мало влияет на преодоление значительной потери слуха на высоких частотах. Более уместной коррекцией является регулировка тембра, обеспечиваемая, например, графическим эквалайзером.
Регулировка тембра по-прежнему недостаточна для большинства потерь слуха, хотя и является лучшим выбором, чем простое увеличение регулировки громкости. Большой коэффициент усиления высокой частоты, требуемый, чтобы сделать слышимым приглушенный разговор слушателю с нарушением слуха, вероятно, был бы некомфортным увеличением громкости во время разговорных эпизодов на высоком уровне звука и даже может перегружать цепи воспроизведения звуков. Лучшее решение состоит в том, чтобы осуществлять усиление в зависимости от уровня сигнала, обеспечивая большие коэффициенты усиления для низкоуровневых участков сигнала и меньшие коэффициенты усиления (или вообще никакого усиления) для высокоуровневых участков. Такие системы, известные в качестве автоматической регулировки усиления (АРУ, AGC) или компрессоров динамического диапазона (DRC), используются в целях прослушивания и были предложены для использования в телекоммуникационных системах для улучшения разборчивости речи для людей с нарушенным слухом (например, патент США 5388185, патент США 5539806 и патент США 6061431).
Так как потеря слуха обычно развивается постепенно, большинство слушателей с недостатками слуха привыкают к потерям случа. Как результат, они часто неодобрительно относятся к качеству звукозаписи развлекательных программ, когда программы обрабатываются для компенсации нарушения слуха. Аудитория с нарушенным слухом более вероятно должна принять качество звука компенсированных звукозаписей, когда имеется ощутимая выгода, например повышается разборчивость речи при прослушивании диалога и уменьшается умственное напряжение, требуемое для понимания. Поэтому полезно ограничивать применение компенсации при потерях слуха для тех частей звукозаписи программы, в которых доминирует речь. Это, таким образом, оптимизирует компромисс между потенциально неприятными модификациями качества музыкального и звукового сопровождения, с одной стороны, и желательными преимуществами в повышении разборчивости речи, с другой.
КРАТКОЕ ИЗЛОЖЕНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ
Согласно одному аспекту изобретения можно улучшить речь в звукозаписи развлекательных программ посредством обработки в ответ на одно или более управляющих воздействий звукозаписи развлекательной программы для улучшения ясности и разборчивости участков речи в звукозаписи развлекательных программ и формирования управляющего сигнала для обработки, при этом формирование включает в себя характеризацию временных сегментов в звукозаписи развлекательной программы: (a) как речевых или неречевых либо (b) как возможно являющихся речевыми или неречевыми, и реагирование на изменения уровня звука в звукозаписи развлекательной программы для формирования управляющего сигнала для обработки, при этом такие изменения подвергаются реагированию в пределах периода времени, более короткого, чем временные сегменты, а критерий решения реагирования управляется характеризацией. Обработка и реагирование - каждое может работать в соответствующих многочисленных полосах частот, при этом реагирование обеспечивает управляющее воздействие для обработки по каждой из многочисленных полос частот.
Аспекты изобретения могут работать «упреждающим» образом, так что, когда имеется доступ к временной эволюции звукозаписи развлекательной программы до и после момента обработки, формирование управляющего воздействия реагирует на, по меньшей мере, некоторую звукозапись после момента обработки.
Аспекты изобретения могут применять временное и/или пространственное разделение, так чтобы один из шагов из обработки, характеризации и реагирования выполнялись в разные моменты времени или в разных местах. Например, характеризация может выполняться в первый момент времени или на первом месте, обработка и реагирование могут выполняться во второй момент времени или на втором месте, и информация о характеризации отрезков времени может сохраняться или передаваться для управления критерием решения реагирования.
Аспекты изобретения также могут включать в себя кодирование звукозаписи развлекательной программы в соответствии со схемой перцепционного (относящегося к восприятию) кодирования или схемой кодирования без потерь и декодирование звукозаписи развлекательной программы в соответствии с такой же схемой декодирования, применяемой при кодировании, при этом одни из шагов обработки, характеризации и реагирования выполняются вместе с кодированием или декодированием. Характеризация может выполняться вместе с кодированием и обработкой, и/или реагирование может выполняться вместе с декодированием.
Согласно вышеупомянутым аспектам изобретения обработка может осуществляться в соответствии с одним или более параметрами обработки. Настройка одного или более параметров может реагировать на звукозапись развлекательной программы, так чтобы показатель разборчивости речи обработанной звукозаписи был либо максимизирован, либо стал выше требуемого порогового уровня. Согласно аспектам изобретения звукозапись развлекательной программы может содержать множество каналов звукозаписи, в которых один канал является преимущественно речевым, а один или более других каналов являются в основном неречевыми, при этом показатель разборчивости речи основан на уровне речевого канала и уровне в одном или более других каналах. Показатель разборчивости речи также может быть основан на уровне шума в среде прослушивания, в которой воспроизводится обработанная звукозапись. Настройка одного или более параметров может реагировать на один или более долгосрочных дескрипторов звукозаписи развлекательной программы. Примеры долгосрочных дескрипторов включают в себя средний уровень диалога звукозаписи развлекательной программы и оценку обработки, уже примененной к звукозаписи развлекательной программы. Настройка одного или более параметров может быть в соответствии с предписывающей формулой, при этом предписывающая формула соотносит остроту слуха слушателя или группы слушателей с одним или более параметров. В качестве альтернативы или в дополнение, настройка одного или более параметров может быть в соответствии с предпочтениями одного или более слушателей.
Согласно вышеупомянутым аспектам изобретения обработка может включать в себя многочисленные функции, действующие параллельно. Каждая из многочисленных функций может осуществляться в одной из многочисленных полос частот. Каждая из многочисленных функций может по отдельности или вместе обеспечивать регулирование динамического диапазона, динамическую коррекцию, спектральное обострение, перестановку частот, выделение речи, шумоподавление или другие действия по повышению разборчивости речи. Например, регулирование динамического диапазона может обеспечиваться многочисленными функциями или устройствами сжатия/расширения, при этом каждое обрабатывает диапазон частот сигнала звукозаписи.
Независимо от того, включает в себя или нет обработка многочисленные функции, действующие параллельно, обработка может включать управление динамическим диапазоном, динамическое выравнивание, спектральное уточнение, смещение частот, выделение речи, шумоподавление или другие действия по повышению разборчивости речи. Например, управление динамическим диапазоном может обеспечиваться функцией или устройством сжатия/расширения динамического диапазона.
Согласно еще одному аспекту изобретения управляют повышением разборчивости речи, обеспечивая компенсацию потери слуха, так чтобы идеально оно действовало только на участки речи программы звукозаписи и не действовало на оставшиеся (неречевые) участки программы, тем самым не изменяя тембра (спектральное распределение) или воспринимаемую громкость оставшихся (неречевых) участков программы.
Согласно еще одному аспекту изобретения повышение разборчивости речи развлекательной программы содержит анализ звукозаписи развлекательной программы для классификации отрезков времени звукозаписи, которые являются либо речевыми или другой звукозаписью, и применение сжатия динамического диапазона к одной или многочисленным полосам частот звукозаписи развлекательной программы в течение отрезков времени, классифицированных как речевые.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
В дальнейшем изобретении поясняется описанием предпочтительного варианта воплощения со ссылками на сопроводительные чертежи, на которых:
Фиг.1a представляет функциональную структурную схему, иллюстрирующую примерную реализацию аспектов изобретения;
Фиг.1b представляет функциональную структурную схему, показывающую пример реализации модифицированного варианта по фиг.1a, в котором устройства и/или функции могут быть разделены временным и/или пространственным образом;
Фиг.2 представляет функциональную структурную схему, показывающую вариант реализации модифицированного варианта по фиг.1a, в котором управление разборчивостью речи осуществляют «упреждающим» образом;
Фиг.3а-c представляют примеры диаграмм преобразований мощности в коэффициент усиления, полезные для понимания примера по фиг.4.
Фиг.4 представляет функциональную структурную схему, показывающую, каким образом коэффициент усиления разборчивости речи в полосе частот может выводиться из оценки мощности сигнала этой полосы в соответствии с аспектами изобретения.
ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНОГО ВАРИАНТА ВОПЛОЩЕНИЯ ИЗОБРЕТЕНИЯ
Устройства классификации звукозаписи на речевую и неречевую (такую, как музыка) известны в данной области техники и в некоторых случаях известны как дискриминатор речевого сигнала/неречевого сигнала («SVO»), см., например, патенты США, 6785645 и 6570991, а также опубликованную заявку 2004/0044525 на патент США, и ссылки, содержащиеся в них. Дискриминаторы речевого сигнала/неречевого сигнала анализируют отрезки времени сигнала звукозаписи и выделяют один или более дескрипторов (признаков) сигналов из каждого отрезка времени. Такие признаки пересылаются в процессор, который формирует оценку вероятности отрезка времени, являющегося речевым, либо принимает жесткое решение речь/не речь. Большинство признаков отражают эволюцию сигнала со временем. Типичными примерами признаков являются скорость, с которой спектр сигнала изменяется со временем, или наклон распределения скорости, с которой меняется полярность сигнала. Для достоверного отражения отдельных характеристик речи отрезки времени должны быть достаточной длины. Так как многие признаки основаны на характеристиках сигнала, которые отражают переходы между соседними слогами, отрезки времени типично покрывают, по меньшей мере, длительность двух слогов (то есть около 250 мс), чтобы захватывать один такой переход. Однако для получения более достоверных оценок отрезки времени часто бывают длиннее (например, с коэффициентом приблизительно в 10). Хотя SVO относительно медленны в работе, они достаточно надежны и точны при классификации звукозаписи речь и не речь. Однако, чтобы избирательно повышать разборчивость речи в звукозаписи программы в соответствии с аспектами настоящего изобретения, желательно управлять повышением разборчивости речи в масштабе времени, более мелком, чем длительность отрезков времени, анализируемых дискриминатором речевого сигнала/неречевого сигнала.
Другой класс технологий, иногда известных в качестве детекторов активности голоса (VAD), указывает наличие или отсутствие речи на фоне относительно постоянного шума. VAD широко используются в качестве части схем шумоподавления в приложениях речевой связи. В отличие от дискриминаторов речевого сигнала/неречевого сигнала VAD обычно имеют временное разрешение, которое достаточно для управления повышением разборчивости речи в соответствии с аспектами настоящего изобретения. VAD интерпретируют резкое увеличение мощности сигнала в качестве начала звука речи, а резкое уменьшение мощности сигнала в качестве окончания звука речи. Поступая таким образом, они сигнализируют о разграничении между речью и фоном почти мгновенно (то есть в пределах окна интегрирования по времени для измерения мощности сигнала, например, около 10 мс). Однако, так как VAD реагируют на любое резкое изменение мощности сигнала, они не могут проводить различия между речевыми и другими доминирующими сигналами, такими как музыка. Поэтому, если используются в одиночку, VAD не пригодны для управления повышением разборчивости речи, чтобы избирательно повышать разборчивость речи в соответствии с настоящим изобретением.
Еще одним аспектом настоящего изобретения является комбинирование специфичности речь/не речь дискриминаторов речевого сигнала/неречевого сигнала (SVO) с временной остротой детекторов активности голоса (VAD) для содействия повышению разборчивости речи, которое избирательно реагирует на речь в сигнале звукозаписи с временным разрешением, которое мельче, чем обнаруживаемое в дискриминаторах речевого сигнала/неречевого сигнала.
Хотя, в принципе, аспекты изобретения могут быть реализованы в аналоговой и/или цифровой форме, насколько можно ожидать, практическое воплощение должно быть реализовано в цифровой области, в которой каждый из звуковых сигналов представлен отдельными сэмплами или сэмплами внутри блоков данных.
Далее, со ссылкой на фиг.1a показана функциональная структурная схема, иллюстрирующая аспекты изобретения, на которой сигнал 101 ввода звукозаписи передается в функцию или устройство 102 увеличения разборчивости речи («Повышение разборчивости речи»), которое, когда задействовано сигналом 103 управления, вырабатывает выходной сигнал 104 звукозаписи с повышенной разборчивостью речи. Сигнал управления формируется функцией или устройством 105 управления («Контроллером повышения разборчивости речи»), которое оперирует буферизированными отрезками времени сигнала 101 ввода звукозаписи. Контроллер 105 повышения разборчивости речи включает в себя функцию или устройство 107 дискриминатора речевого сигнала/неречевого сигнала («SVO») и набор из одной или более функций или устройства 108 детектора активности голоса («VAD»). SVO 107 анализирует сигнал на промежутке времени, который больше, чем анализируемый посредством VAD. То обстоятельство, что SVO 107 и VAD 108 действуют на промежутках времени разных продолжительностей, графически проиллюстрировано скобкой, охватывающей широкую область (связанную с SVO 107) и другой скобкой, охватывающей более узкую область (связанную с VAD 108) функции или устройства 106 буфера сигнала («Буфер»). Широкая область и более узкая область являются схематическими и не должны определять масштаб. В случае цифровой реализации, в которой данные звукозаписи переносятся в блоках, каждая часть буфера 106 может хранить блок данных звукозаписи. Область, доступная VAD, включает в себя новые участки хранения сигнала в буфере 106. Правдоподобие текущего сегмента сигнала, являющегося речевым, как определяется посредством SVO 107, служит для управления 109 VAD 108. Например, оно может управлять критерием решения VAD 108, тем самым смещая решения VAD.
Буфер 106 символизирует память, необходимую при обработке, и может быть или может не быть непосредственно реализованным. Например, если обработка выполняется над сигналом звукозаписи, который хранится на носителе с произвольным доступом к памяти, то такой носитель может служить в качестве буфера. Подобным образом предыстория входных данных звукозаписи может отражаться на внутреннем состоянии дискриминатора 107 речевого сигнала/неречевого сигнала и внутреннем состоянии детектора активности голоса, в этом случае, отдельные буферы не нужны.
Блок повышения 102 разборчивости речи может состоять из множества устройств или функций обработки звукозаписи, которые работают параллельно, чтобы повышать разборчивость речи. Каждое устройство или функция могут работать в диапазоне частот сигнала звукозаписи, в котором должна повышаться разборчивость речи. Например, устройства и функции могут, по отдельности или как единое целое, обеспечивать управление динамическим диапазоном, динамическое выравнивание, спектральное уточнение, смещение частот, выделение речи, шумоподавление или другие действия по повышению разборчивости речи. В подробных примерах аспектов изобретения управление динамическим диапазоном обеспечивает сжатие и/или расширение полос частот сигнала звукозаписи. Таким образом, например, блок повышения 102 разборчивости речи может быть группой компрессоров/расширителей или функций сжатия/расширения, при этом каждая обрабатывает диапазон частот сигнала звукозаписи (многополосные компрессор/расширитель или функция сжатия/расширения). Частотная специфичность, выдаваемая многополосным сжатием/расширением, полезна не только потому, что она предоставляет возможность приспосабливаться модели повышения разборчивости речи к модели заданной потери слуха, но также потому, что она предоставляет возможность реагирования на то обстоятельство, что в любой данный момент речь может присутствовать в одном диапазоне частот, но отсутствовать в другом.
Чтобы полностью воспользоваться преимуществом частотной специфичности, предложенной многополосным сжатием, каждая полоса сжатия/расширения может управляться своими собственными детектором или функцией детектирования активности голоса. В таком случае каждые детектор или функция детектирования активности голоса могут сигнализировать об активности голоса в диапазоне частот, связанном с той полосой сжатия/расширения, которой они управляют. Хотя есть преимущества в блоке повышения 102 разборчивости речи, состоящем из нескольких устройств или функций обработки аудиоданных, которые работают параллельно, при этом простые варианты осуществления аспектов изобретения могут использовать блок 102 повышения разборчивости речи, который состоит всего лишь из одного устройства или функции обработки звукозаписи.
Даже когда есть много детекторов активности голоса, может быть только один дискриминатор 107 речи, вырабатывающий одиночный выходной сигнал 109 для управления всеми детекторами активности голоса, которые присутствуют. Предпочтение использовать только один дискриминатор речевого сигнала/неречевого сигнала отражает два наблюдения. Одно состоит в том, что частота, с которой чересполосная модель активности голоса изменяется со временем, типично является гораздо большей, чем временное разрешение дискриминатора речевого сигнала/неречевого сигнала. Другое наблюдение состоит в том, что признаки, используемые дискриминатором речевого сигнала/неречевого сигнала, типично выводятся из спектральных характеристик, которые могут лучше всего экспериментально обнаруживаться в широкополосном сигнале. Оба наблюдения делают непрактичным использование специфичных полосе дискриминаторов речевого сигнала/неречевого сигнала.
Комбинация SVO 107 и VAD 108, которая проиллюстрирована в контроллере 105 повышения разборчивости речи, также может использоваться для целей, иных, чем для повышения разборчивости речи, например для оценки громкости речи в программе звукозаписи или для измерения скорости речи.
Схема повышения разборчивости речи, описанная выше, может применяться различным образом. Например, полная схема может быть реализована внутри телевизора или телевизионной абонентской приставки, чтобы оперировать принятым сигналом звукозаписи телевизионного вещания. В качестве альтернативы, она может быть объединена с перцепционным кодировщиком звукозаписи (например, AC-3 или AAC) или она может быть объединена с кодировщиком звукозаписи без потерь.
Повышение разборчивости речи в соответствии с аспектами настоящего изобретения может выполняться в разные моменты времени или в разных местах. Рассмотрим пример, в котором повышение разборчивости речи объединено или связано с кодировщиком или последовательностью операций кодирования звукозаписи. В таком случае часть дискриминатора 107 речи в сравнении с прочим (SVO) из контроллера 105 повышения разборчивости речи, который часто бывает дорогостоящим, может быть объединена или связана с кодировщиком или последовательностью операций кодирования звукозаписи. Выходной сигнал 109 SVO, например флаг, указывающий наличие речи, может быть встроен в кодированный аудиопоток. Такая информация, встроенная в кодированный аудиопоток, часто указывается ссылкой как метаданные. Повышение 102 разборчивости речи и VAD 108 из контроллера 105 повышения разборчивости речи могут быть объединены или связаны с декодером звукозаписи и оперировать ранее кодированной звукозаписью. Набор из одного или более детекторов 108 активности голоса (VAD) также использует выходной сигнал 109 дискриминатора 107 речевого сигнала/неречевого сигнала (SVO) 107, который он извлекает из кодированного аудиопотока.
На фиг.1b показан пример реализации такого модифицированного варианта фиг.1a. Устройства и функции на фиг.1b, которые соответствуют таковым на фиг.1, имеют такие же номера. Сигнал 101 ввода звукозаписи передается в кодировщик или функцию 110 кодирования («Кодировщик») и в буфер 106, которые покрывают промежуток времени, требуемый SVO 107. Кодировщик 110 может быть частью системы перцепционного кодирования или кодирования без потерь. Выходной сигнал кодировщика 110 пересылается в мультиплексор или функцию 112 мультиплексирования («Мультиплексор»). Выходной сигнал SVO (109 на фиг. 1a) показан в качестве подаваемого 109a в кодировщик 110 или, в качестве альтернативы, подаваемого 109b в мультиплексор 112, который также принимает выходной сигнал кодировщика 110. Выходной сигнал SVO, такой как флаг на фиг.1a, переносится в выходных данных (например, метаданных) битового потока кодировщика 110 или мультиплексируется с выходным сигналом кодировщика 110, чтобы выдавать пакет и сборный битовый поток 114 для сохранения или передачи в демультиплексор или функцию 116 демультиплексирования («Демультиплексор»), которые распаковывают битовый поток 114 для пересылки в декодер или функцию 118 декодирования. Если выходной сигнал SVO 107 передавался 109b на мультиплексор 112, то он принимается 109b' из демультиплексора 116 и пересылается в VAD 108. В качестве альтернативы, если выходной сигнал SVO 107 передавался 109a в кодировщик 110, то он принимается 109a' из декодера 118. Как в примере фиг.1а, VAD 108 может содержать многочисленные функции или устройства активности голоса. Функция или устройство 120 буфера сигнала («Буфер»), поданные декодером 118, который покрывает промежуток времени, требуемый от VAD 108, предусматривают еще одну подачу в VAD 108. Выходной сигнал 103 VAD передается на повышение 102 разборчивости речи, которое выдает выходной сигнал звукозаписи с повышенной разборчивостью речи, как на фиг.1a. Хотя раскрыты отдельно для ясности, SVO 107 и/или буфер 106 могут быть объединены с кодировщиком 110. Аналогично, хотя показаны отдельно для ясности, VAD 108 и/или буфер 120 могут быть объединены с декодером 118 или блоком 102 повышения разборчивости речи.
Если сигнал звукозаписи, который должен обрабатываться, был предварительно записан, например, при воспроизведении с DVD в доме потребителя или при обработке в автономном режиме в вещательной среде, дискриминатор речевого сигнала/неречевого сигнала и/или детектор активности голоса могут оперировать сегментами сигнала, которые во время воспроизведения возникают после текущего отсчета сигнала или сигнального блока. Это проиллюстрировано на фиг.2, где символический буфер 201 сигнала содержит сегменты сигнала, которые во время воспроизведения возникают после текущего отсчета сигнала или сигнального блока («с упреждением»). Даже если сигнал не был предварительно закодирован, упреждение по-прежнему может использоваться, когда кодировщик звукозаписи имеет существенную присущую задержку обработки.
Параметры обработки блока 102 повышения разборчивости речи могут обновляться в ответ на обработанный сигнал звукозаписи с частотой, которая ниже, чем частота динамической характеристики компрессора. Есть несколько целей, которые можно было преследовать при обновлении параметров процессора. Например, параметр обработки функции усиления процессора повышения разборчивости речи может настраиваться в ответ на средний уровень речи программы, чтобы гарантировать, что изменение долгосрочного среднего спектра речи является зависящим от уровня речи. Чтобы понять эффект и необходимость в такой настройке, рассмотрим следующий пример. Повышение разборчивости речи применяется только к высокочастотной части сигнала. На заданном среднем уровне речи оценка 301 мощности высокочастотной части сигнала вводит среднее значение P1, где P1 является большим, чем пороговая мощность 304 сжатия. Коэффициентом усиления, связанным с этой оценкой мощности, является G1, который является средним коэффициентом усиления, применяемым к высокочастотной части сигнала. Так как низкочастотная часть не получает усиления, средний спектр речи формируется, чтобы быть на G1 дБ выше на высоких частотах, чем на низких частотах. Далее рассмотрим, что происходит, когда средний уровень речи увеличивается на некоторую величину ΔL. Увеличение среднего уровня речи на ΔL дБ увеличивает оценку 301 средней мощности высокочастотной части сигнал до P2=P1+ΔL. Как видно из фиг.3a, более высокая оценка P2 мощности дает подъем коэффициенту усиления G2, который является меньшим, чем G1. Следовательно, средний спектр речи обработанного сигнала показывает меньший высокочастотный акцент, когда средний уровень входного сигнала высок, чем когда он низок. Так как слушатели компенсируют различия в среднем уровне речи своей регулировкой уровня громкости, зависимость уровня от среднего высокочастотного предыскажения является нежелательной. Она может устраняться модифицированием амплитудной характеристики по фиг.3a-c в ответ на средний уровень речи. Фиг.3а-c обсуждены ниже.
Параметры обработки блока 102 повышения разборчивости речи также могут настраиваться, чтобы гарантировать, что метрика разборчивости речи либо максимизирована, либо выше требуемого порогового уровня. Метрика разборчивости речи может вычисляться по относительным уровням сигнала звукозаписи и конкурирующего звука в среде прослушивания (такого, как шум в кабине летательного аппарата). Когда сигнал звукозаписи является многоканальным звуковым сигналом с речью в одном канале и неречевыми сигналами в остальных каналах, метрика разборчивости речи, например, может вычисляться из относительных уровней всех каналов и распределения спектральной энергии в них. Подходящие метрики разборчивости широко известны [например, ANSI S3.5-1997, «Способ для расчета показателя разборчивости речи» («Method for Calculation of the Speech Intelligibility Index»), Национальный институт стандартизации США, 1997; или Муч и Бьюус. «Использование теории статистического решения для предсказания разборчивости речи. Структура внутренней модели» («Using statistical decision theory to predict speech intelligibility. I Model Structure»). Журнал акустического общества США, (2001) 109, стр. 2896 - 2909].
Аспекты изобретения, показанные на функциональных структурных схемах (фиг.1a и 1b) и описанные в материалах настоящей заявки, могут быть реализованы, как показано в примере на фиг.3а-c и 4. В этом примере усиление с формирующим частоту сжатием речевых составляющих и освобождение от обработки для неречевых составляющих могут быть реализованы благодаря многополосному процессору динамического диапазона (не показан), который реализует как сжимающую, так и расширяющую характеристики. Такой процессор может характеризоваться набором функций усиления. Каждая функция усиления определяет отношение мощности входного сигнала в полосе частот к соответствующему коэффициенту усиления полосы, который может применяться к составляющим сигнала в этой полосе. Одно из таких отношений проиллюстрировано на фиг.3a-c.
Со ссылкой на фиг.3a оценка мощности 301 входного сигнала полосы отнесена к требуемому коэффициенту 302 усиления полосы посредством амплитудной характеристики. Амплитудная характеристика берется в качестве минимума двух составляющих кривых. Одна составляющая кривая, показанная сплошной линией, имеет сжимающую характеристику с надлежащим образом, выбранным коэффициентом 303 сжатия («CR») для оценок 301 мощности выше порогового значения 304 сжатия и постоянным коэффициентом усиления для оценок мощности ниже порогового значения сжатия. Другая составляющая кривая, показанная пунктирной линией, имеет расширяющую характеристику с надлежащим образом, выбранным коэффициентом 305 расширения («ER») для оценок мощности выше порогового значения 306 расширения, и нулевой коэффициент усиления для оценок мощности ниже. Окончательная амплитудная характеристика берется в качестве минимума этих двух составляющих кривых.
Пороговое значение 304 сжатия, коэффициент 303 сжатия и коэффициент усиления при пороговом значении сжатия являются фиксированными параметрами. Их выбор определяет, каким образом огибающая и спектр речевого сигнала обрабатываются в конкретной полосе. Идеально они выбираются согласно предписывающей формуле, которая определяет надлежащие коэффициенты усиления и коэффициенты сжатия в соответственных полосах для группы слушателей с присущей им остротой слуха. Примером такой предписывающей формулы является NAL-NL1, которая была разработана Национальной акустической лабораторией в Австралии и описана Х. Диллоном в «Предписание рабочих характеристик слухового аппарата» («Prescribing hearing aid performance») [Х. Диллон (под редакцией). Слуховые аппараты (стр. 249-261); Сидней; Boomerang Press, 2001 год.] Однако они также могут быть основаны просто на предпочтении слушателя. Пороговое значение 304 сжатия и коэффициент 303 сжатия в конкретной полосе, кроме того, могут зависеть от параметров, специфичных данной программе звукозаписи, таких как средний уровень диалога в звуковой дорожке фильма.
Тогда как пороговое значение может быть постоянным, пороговое значение 306 расширения предпочтительно является адаптивным и меняется в ответ на входной сигнал. Пороговое значение расширения может допускать любое значение в пределах динамического диапазона системы, в том числе значения, большие, чем пороговое значение сжатия. Когда во входном сигнале доминирует речь, сигнал управления, описанный ниже, приводит пороговое значение расширения на низкие уровни, так что уровень входного сигнала выше, чем диапазон оценок мощности, к которому применяется расширение (смотрите фиг.3a и 3b). В таком состоянии коэффициенты усиления, применяемые к сигналу, подчинены сжимающей характеристике процессора. Фиг.3b изображает пример функции усиления, представляющий такое состояние.
Когда во входном сигнале доминирует звукозапись, иная, чем речь, сигнал управления приводит пороговое значение расширения на высокие уровни, так что уровень входного сигнала имеет тенденцию быть ниже, чем пороговое значение расширения. В таком состоянии большинство составляющих сигнала не получают усиления. Фиг.3c изображает пример функции усиления, представляющий такое состояние.
Оценки мощности полосы из предыдущего обсуждения могут быть выведены посредством анализа выходных сигналов блока фильтров или выходного сигнала преобразования из временной области в частотную, такого как ДПФ (дискретное преобразование Фурье, DFT), МДКП (модифицированное дискретное косинусное преобразование) или вейвлет-преобразование. Оценки мощности также могут быть замещены показателями, которые имеют отношение к интенсивности сигнала, такими как среднее абсолютное значение сигнала, энергия Тиджера, или относящимися к восприятию показателями, такими как громкость. Кроме того, оценки мощности полосы могут сглаживаться во времени для регулирования скорости, с которой изменяется коэффициент усиления.
Согласно еще одному аспекту изобретения пороговое значение расширения, идеально, устанавливается так, чтобы, когда сигнал является речью, уровень сигнала был выше расширяющей области функции усиления, а когда сигнал является звукозаписью, иной, чем речь, уровень сигнала был ниже расширяющей области функции усиления. Как пояснено ниже, это может достигаться отслеживанием уровня неречевой звукозаписи и размещением порогового значения расширения относительно этого уровня.
Некоторые устройства отслеживания уровня устанавливают пороговое значение ниже, при этом такое нисходящее расширение (или схема автоматической регулировки громкости) применяется в качестве части системы шумоподавления, которая стремится проводить различие между желательной звукозаписью и нежелательным шумом, см., например, патенты US 3803357, 5263091, 5774557 и 6005953. В противоположность аспекты настоящего изобретения требуют проведения различий между речью, с одной стороны, и всеми остальными сигналами звукозаписи, такими как музыка и эффекты, с другой. Шум, отслеживаемый в предшествующем уровне техники, характеризуется временной или спектральной огибающими, которые пульсируют гораздо меньше, чем таковые у звукозаписи. Кроме того, шум часто имеет отличительные формы спектра, которые известны заранее. Такие проводящие различие характеристики используются устройствами отслеживания шума в предшествующем уровне техники. В противоположность аспекты настоящего изобретения отслеживают уровень неречевых сигналов звукозаписи. Во многих случаях такие неречевые сигналы звукозаписи демонстрируют пульсации в своей огибающей и спектральном профиле, которые, по меньшей мере, настолько же велики, как таковые у речевых сигналов звукозаписи. Следовательно, устройство отслеживания уровня, применяемое в настоящем изобретении, скорее требует анализа признаков сигнала, пригодных для разграничения между речевыми и неречевыми сигналами, чем между речью и шумом.
На Фиг.4 показано, каким образом коэффициент усиления повышения разборчивости речи в полосе частот может быть выведен из оценки мощности сигнала такой полосы. Представление ограниченного полосой сигнала 401 переправляется в блок оценки мощности или устройство 402 оценки («Оценка мощности»), которое формирует оценку мощности 403 сигнала в этой полосе частот. Такая оценка мощности сигнала проходит преобразование мощности в коэффициент усиления или функцию 404 преобразования («Кривая коэффициента усиления»), которая может иметь вид примера, проиллюстрированного на фиг.3a-c. Преобразование мощности в коэффициент усиления или функция 404 преобразования формирует коэффициент 403 усиления полосы, который может использоваться для модификации мощности сигнала в полосе (не показано).
Оценка 403 мощности сигнала также переправляется в устройство или функцию 406 («Блок отслеживания уровня»), которая отслеживает уровень всех составляющих сигнала в полосе, которые не являются речевыми. Блок 406 отслеживания уровня может включать в себя схему или функцию 407 удержания минимума утечки («Удержание минимума») с адаптивной скоростью утечки. Эта скорость утечки регулируется постоянной 408 времени, которая имеет тенденцию быть низкой, когда в мощности сигнала доминирует речь, и высокой, когда в мощности сигнала доминирует звукозапись, иная, чем речь. Постоянная 408 времени может выводиться из информации, содержащейся в оценке мощности 403 сигнала в полосе. Более точно, постоянная времени может монотонно зависеть от энергии огибающей сигнала полосы в диапазоне частот между 4 и 8 Гц. Такой признак может выделяться надлежащим образом настроенным полосовым фильтром или функцией 409 фильтрации («Полоса пропускания»). Выходной сигнал полосы 409 пропускания может соотноситься с постоянной 408 времени передаточной функцией 410 («Мощность в постоянную времени»). Оценка уровня неречевых составляющих 411, которая формируется блоком 406 отслеживания, является входным сигналом в преобразование или функцию преобразования («Мощность в пороговое значение расширения»), которая устанавливает отношение оценки уровня фона к пороговому значению 414 расширения. Комбинация блока 406 отслеживания уровня, преобразования 412 и нисходящего расширения (отличающегося степенью 305 расширения) соответствует VAD 108 по фиг.1a и 1b.
Преобразование 412 может быть простым сложением, то есть порог 306 расширения может быть фиксированным количеством децибелов над оцененным уровнем неречевой звукозаписи 411. В качестве альтернативы, преобразование 412, которое устанавливает отношение оцененного уровня 411 фона с порогом 306 расширения, может зависеть от независимой оценки правдоподобия широкополосного сигнала, являющегося речью 413. Таким образом, когда оценка 413 указывает высокое правдоподобие сигнала, являющегося речью, порог 306 расширения уменьшается. Наоборот, когда оценка 413 указывает низкое правдоподобие сигнала, являющегося речью, порог 306 расширения увеличивается. Оценка 413 правдоподобия речи может выводиться из одиночного признака сигнала или из комбинации признаков сигнала, которые отличают речь от других сигналов. Она соответствует выходному сигналу 109 из SVO 107 на фиг.1a и 1b. Пригодные признаки сигнала и способы их обработки для получения оценки правдоподобия 413 речи известны специалистам в данной области техники. Примеры описаны в патентах US 6785645 и 6570991, а также в заявке US 20040044525 на выдачу патента и в ссылках, содержащихся в них.
Следующие патенты, заявки на патенты и публикации настоящим включены в состав настоящей заявки посредством ссылки, каждая во всей своей полноте:
US 3803357; Сакс, 9 апреля 1974 года, Шумовой фильтр;
US 5263091; Уолтер младший, 16 ноября 1993 года, Интеллектуальная автоматическая пороговая схема;
US 5388185; Терри и другие, 7 февраля 1995 года, Система для адаптивной обработки телефонных речевых сигналов;
US 5539806; Аллен и другие, 23 июля 1996 года, Способ для выбора потребителем улучшения телефонного звука;
US 5774557; Слейтер, 30 июня 1998 года, Схема автоматической регулировки громкости микрофона с автоматическим слежением для систем внутренней связи летательного аппарата;
US 6005953; Штулфельнер, 21 декабря 1999, Схемная компоновка для улучшения отношения сигнал/шум;
US 6061431; Кнапп и другие, 9 мая 2000 года, Способ для компенсации потери слуха в системах телефонии на основании идентификации номера телефона;
US 6570991; Ширер и другие, 27 мая 2003 года, Системы различения речи/музыки по многим признакам;
US 6,785,645; Кхалил и другие, 31 августа 2004 года, Классификатор речи и музыки реального времени;
US 6,914,988; Ирвен и другие, 5 июля 2005 года, Устройство воспроизведения звукозаписи;
US 2004/0044525 на выдачу патента США; Винтон, Марк Стюарт и другие, 4 марта 2004 года, Регулирование громкости речи в сигналах, которые содержат речь и другие типы материала звукозаписи;
«Регулирование динамического диапазона посредством метаданных» («Dynamic Range Control via Metadata») от Чарлза К. Робинсона и Кеннета Гундри, Конвенционное периодическое издание 5028, 107ой съезд общества звукотехники, Нью-Йорк, 24-27 сентября 1999 года.
Промышленная применимость
Изобретение может быть реализовано аппаратным или программным обеспечением либо комбинацией обоих (например, на программируемых логических матрицах). Если не указан иной способ действий, алгоритмы, включенные в состав в качестве части изобретения, по своей природе не имеют отношения к какому бы то ни было конкретному компьютеру или другому устройству. В частности, различные машины общего применения могут использоваться с программами, написанными в соответствии с доктринами, приведенными в материалах настоящей заявки, или может быть более удобным сконструировать более специализированное устройство (например, интегральные схемы) для выполнения требуемых этапов способа. Таким образом, изобретение может быть реализовано в одной или более компьютерных программах, выполняющихся в одной или более программируемых компьютерных системах, каждая из которых содержит, по меньшей мере, один процессор, по меньшей мере одну систему хранения данных (в том числе энергозависимую и энергонезависимую память и/или запоминающие элементы), по меньшей мере, одно устройство или порт ввода и, по меньшей мере, одно устройство или порт вывода. Управляющая программа применяется к входным данным для выполнения функций, описанных в материалах настоящей заявки, и формирует выходную информацию. Выходная информация подводится к одному или более устройствам вывода известным образом.
Каждая такая программа может быть реализована на любом желательном компьютерном языке (включая машинные, компоновочные или высокоуровневые процедурные, логические или объектно-ориентированные языки программирования) для обмена информацией с компьютерной системой. В любом случае язык может быть компилируемым или интерпретируемым языком.
Каждая такая компьютерная программа предпочтительно хранится на или загружается на запоминающие носители или устройство (например, твердотельную память или носители либо магнитные или оптические носители), читаемые программируемым компьютером общего или специального назначения, для конфигурирования и управления компьютером, когда запоминающие носители или устройство считываются компьютерной системой, чтобы выполнять процедуры, описанные в материалах настоящей заявки. Обладающая признаками изобретения система также может считаться реализуемой в качестве машинно-читаемого запоминающего носителя, сконфигурированного компьютерной программой, где запоминающий носитель, сконфигурированный таким образом, побуждает компьютерную систему работать специфичным и предопределенным образом для выполнения функций, описанных в материалах настоящей заявки.
Было описано некоторое количество вариантов осуществления изобретения. Тем не менее будет понятно, что различные модификации могут быть произведены, не выходя из сущности и объема изобретения. Например, некоторые из этапов, описанных в материалах настоящей заявки, могут быть не зависящими от очередности и таким образом могут выполняться в очередности, отличной от той, которая описана.

Claims (30)

1. Способ повышения разборчивости речи в звукозаписи развлекательных программ, содержащий этапы, на которых
обрабатывают в ответ на одно или более управляющих воздействий звукозапись развлекательных программ для улучшения ясности и разборчивости участков речи в звукозаписи развлекательных программ, при этом обработка включает в себя этапы, на которых
изменяют уровень сигнала звукозаписи развлекательных программ в каждой из множества полос частот в соответствии с характеристикой коэффициента усиления, которая соотносит уровень сигнала полосы с коэффициентом усиления, и
формируют управляющий сигнал для изменения характеристики коэффициента усиления в каждой полосе частот, при этом формирование включает в себя этапы, на которых
определяют отрезки времени звукозаписи развлекательных программ (а) как речевые или неречевые, либо (b) как вероятно являющиеся речевыми или неречевыми, при этом определение производится в одной широкой полосе частот,
получают, в каждой из упомянутого множества полос частот величину пульсаций уровней речи,
отслеживают в каждой из множества полос частот, минимум уровня звукозаписи в полосе, при этом время отклика отслеживания является реагирующим на величину пульсаций уровней речи,
преобразуют отслеживаемые минимумы в каждой полосе в соответствующий адаптивный пороговый уровень, и
смещают каждый соответствующий адаптивный пороговый уровень по результату определения для формирования управляющего сигнала для каждой полосы частот.
2. Способ по п.1, в котором имеют доступ к временной эволюции звукозаписи развлекательных программ до и после момента обработки, и при формировании управляющего воздействия реагируют на, по меньшей мере, некоторую звукозапись после момента обработки.
3. Способ по п.1, в котором обработку осуществляют в соответствии с одним или более параметрами обработки.
4. Способ по п.3, в котором настройка одного или более параметров зависит от звукозаписи развлекательной программы, так чтобы показатель разборчивости речи обработанной звукозаписи был максимизирован или форсирован выше требуемого порогового уровня.
5. Способ по п.4, в котором звукозаписи развлекательных программ содержат многочисленные каналы звукозаписи, в которых один канал является речевым, а один или более других каналов являются неречевыми, при этом показатель разборчивости речи основан на уровне речевого канала и уровне в одном или более других каналах.
6. Способ по п.5, в котором показатель разборчивости речи также основан на уровне шума в среде прослушивания, в которой воспроизводится обработанная звукозапись.
7. Способ по п.3, в котором настройка одного или более параметров зависит от одного или более долгосрочных дескрипторов звукозаписи развлекательных программ.
8. Способ по п.7, в котором долгосрочный дескриптор является средним уровнем диалога звукозаписи развлекательной программы.
9. Способ по п.7, в котором долгосрочный дескриптор является оценкой обработки, уже примененной к звукозаписи развлекательной программы.
10. Способ по п.3, в котором настраивают один или более параметров в соответствии с предписывающей формулой, при этом предписывающая формула соотносит остроту слуха слушателя или группы слушателей с одним или более из этих параметров.
11. Способ по п.3, в котором настраивают один или более параметров в соответствии с предпочтениями одного или более слушателей.
12. Способ по п.1, в котором при обработке обеспечивают управление динамическим диапазоном, динамическое выравнивание, спектральное уточнение, смещение частот, выделение речи, шумоподавление или другие действия по повышению разборчивости речи.
13. Способ по п.12, в котором управление динамическим диапазоном обеспечивают функцией сжатия/расширения динамического диапазона.
14. Способ повышения разборчивости речи в звукозаписи развлекательных программ, содержащий этапы, на которых
обрабатывают, в ответ на один или более управляющих сигналов, звукозапись развлекательной программы, для улучшения ясности и разборчивости участков речи звукозаписи развлекательных программ, при этом обработка включает в себя этапы, на которых
изменяют уровень сигнала звукозаписи развлекательной программы в каждой из множества полос частот в соответствии с характеристикой коэффициента усиления, которая соотносит уровень сигнала полосы с коэффициентом усиления, и
формируют управляющий сигнал для изменения характеристики коэффициента усиления в каждой полосе частот, при этом формирование включает в себя этапы, на которых
принимают результаты определения отрезков времени звукозаписи развлекательных программ как (а) речевые или неречевые, либо (b) как вероятно являющиеся речевыми или неречевыми, при этом, результаты определения касаются одной широкой полосы частот,
получают, в каждой из множества полос частот, величину пульсаций уровней речи,
отслеживают в каждой из множества полос частот минимум уровня звукозаписи в полосе, при этом время отклика отслеживания является реагирующим на величину пульсаций уровней речи,
преобразуют отслеживаемые минимумы в каждой полосе в соответствующий адаптивный пороговый уровень, и
смещают каждый соответствующий адаптивный пороговый уровень по результату определения для выработки управляющего воздействия для каждой полосы.
15. Способ по п.14, в котором имеют доступ к временной эволюции звукозаписи развлекательных программ до и после момента обработки, и при формировании управляющего воздействия реагируют на, по меньшей мере, некоторую звукозапись после момента обработки.
16. Способ по п.14, в котором обработку осуществляют в соответствии с одним или более параметров обработки.
17. Способ по п.16, в котором настройка одного или более параметров зависит от звукозаписи развлекательной программы, так чтобы показатель разборчивости речи обработанной звукозаписи был максимизирован или форсирован выше требуемого порогового уровня.
18. Способ по п.17, в котором звукозаписи развлекательных программ содержат многочисленные каналы звукозаписи, в которых один канал является речевым, а один или более других каналов являются неречевыми, при этом показатель разборчивости речи основан на уровне речевого канала и уровне в одном или более других каналов.
19. Способ по п.18, в котором показатель разборчивости речи также основан на уровне шума в среде прослушивания, в которой воспроизводится обработанная звукозапись.
20. Способ по п.16, в котором настройка одного или более параметров зависит от одного или более долгосрочных дескрипторов звукозаписи развлекательных программ.
21. Способ по п.20, в котором долгосрочный дескриптор является средним уровнем диалога звукозаписи развлекательной программы.
22. Способ по п.20, в котором долгосрочный дескриптор является оценкой обработки, уже примененной к звукозаписи развлекательной программы.
23. Способ по п.16, в котором настраивают один или более параметров в соответствии с предписывающей формулой, при этом
предписывающая формула соотносит остроту слуха слушателя или группы слушателей с одним или более из этих параметров.
24. Способ по п.16, в котором настраивают один или более параметров в соответствии с предпочтениями одного или более слушателей.
25. Способ по п.14, в котором при обработке обеспечивают управление динамическим диапазоном, динамическое выравнивание, спектральное уточнение, смещение частот, выделение речи, шумоподавление или другие действия по повышению разборчивости речи.
26. Способ по п.25, в котором управление динамическим диапазоном обеспечивают функцией сжатия/расширения динамического диапазона.
27. Устройство повышения разборчивости речи в звукозаписи развлекательных программ, содержащее средство для выполнения способа по п.1.
28. Устройство повышения разборчивости речи в звукозаписи развлекательных программ, содержащее средство для выполнения способа по п.14.
29. Машиночитаемый носитель с сохраненной на нем компьютерной программой, предназначенной для побуждения компьютера выполнять способ по п.1.
30. Машиночитаемый носитель с сохраненной на нем компьютерной программой, предназначенной для побуждения компьютера выполнять способ по п.14.
RU2009135829/08A 2007-02-26 2008-02-20 Повышение разборчивости речи в звукозаписи развлекательных программ RU2440627C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US90339207P 2007-02-26 2007-02-26
US60/903,392 2007-02-26

Publications (2)

Publication Number Publication Date
RU2009135829A RU2009135829A (ru) 2011-04-10
RU2440627C2 true RU2440627C2 (ru) 2012-01-20

Family

ID=39721787

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2009135829/08A RU2440627C2 (ru) 2007-02-26 2008-02-20 Повышение разборчивости речи в звукозаписи развлекательных программ

Country Status (8)

Country Link
US (8) US8195454B2 (ru)
EP (1) EP2118885B1 (ru)
JP (2) JP5530720B2 (ru)
CN (1) CN101647059B (ru)
BR (1) BRPI0807703B1 (ru)
ES (1) ES2391228T3 (ru)
RU (1) RU2440627C2 (ru)
WO (1) WO2008106036A2 (ru)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2504026C2 (ru) * 2008-04-09 2014-01-10 Моторола Мобилити, Инк. Способ и устройство для селективного кодирования сигнала на основе характеристик базового кодера
RU2676022C1 (ru) * 2016-07-13 2018-12-25 Общество с ограниченной ответственностью "Речевая аппаратура "Унитон" Способ повышения разборчивости речи
RU2696952C2 (ru) * 2014-10-01 2019-08-07 Долби Интернешнл Аб Аудиокодировщик и декодер
RU2726326C1 (ru) * 2019-11-26 2020-07-13 Акционерное общество "ЗАСЛОН" Способ повышения разборчивости речи пожилыми людьми при приеме звуковых программ на наушники

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100789084B1 (ko) * 2006-11-21 2007-12-26 한양대학교 산학협력단 웨이블릿 패킷 영역에서 비선형 구조의 과중 이득에 의한음질 개선 방법
BRPI0807703B1 (pt) 2007-02-26 2020-09-24 Dolby Laboratories Licensing Corporation Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador
CN102017402B (zh) 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
SG189747A1 (en) * 2008-04-18 2013-05-31 Dolby Lab Licensing Corp Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
US8712771B2 (en) * 2009-07-02 2014-04-29 Alon Konchitsky Automated difference recognition between speaking sounds and music
US9215538B2 (en) * 2009-08-04 2015-12-15 Nokia Technologies Oy Method and apparatus for audio signal classification
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US9552845B2 (en) 2009-10-09 2017-01-24 Dolby Laboratories Licensing Corporation Automatic generation of metadata for audio dominance effects
WO2011049516A1 (en) 2009-10-19 2011-04-28 Telefonaktiebolaget Lm Ericsson (Publ) Detector and method for voice activity detection
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
EP2352312B1 (en) * 2009-12-03 2013-07-31 Oticon A/S A method for dynamic suppression of surrounding acoustic noise when listening to electrical inputs
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
CN104242853B (zh) 2010-03-18 2017-05-17 杜比实验室特许公司 用于具有音质保护的失真减少多频带压缩器的技术
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
JP5652642B2 (ja) * 2010-08-02 2015-01-14 ソニー株式会社 データ生成装置およびデータ生成方法、データ処理装置およびデータ処理方法
KR101726738B1 (ko) * 2010-12-01 2017-04-13 삼성전자주식회사 음성처리장치 및 그 방법
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
US8706509B2 (en) 2011-04-15 2014-04-22 Telefonaktiebolaget L M Ericsson (Publ) Method and a decoder for attenuation of signal regions reconstructed with low accuracy
US8918197B2 (en) 2012-06-13 2014-12-23 Avraham Suhami Audio communication networks
FR2981782B1 (fr) * 2011-10-20 2015-12-25 Esii Procede d’envoi et de restitution sonore d’informations audio
JP5565405B2 (ja) * 2011-12-21 2014-08-06 ヤマハ株式会社 音響処理装置および音響処理方法
US20130253923A1 (en) * 2012-03-21 2013-09-26 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Multichannel enhancement system for preserving spatial cues
CN103325386B (zh) * 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
EP2834815A4 (en) * 2012-04-05 2015-10-28 Nokia Technologies Oy ADAPTIVE AUDIO SIGNAL FILTERING
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US8843367B2 (en) * 2012-05-04 2014-09-23 8758271 Canada Inc. Adaptive equalization system
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
JP2014106247A (ja) * 2012-11-22 2014-06-09 Fujitsu Ltd 信号処理装置、信号処理方法および信号処理プログラム
EP3893240B1 (en) * 2013-01-08 2024-04-24 Dolby International AB Model based prediction in a critically sampled filterbank
JP6162254B2 (ja) * 2013-01-08 2017-07-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法
CN103079258A (zh) * 2013-01-09 2013-05-01 广东欧珀移动通信有限公司 一种提高语音识别准确性的方法及移动智能终端
US10506067B2 (en) 2013-03-15 2019-12-10 Sonitum Inc. Dynamic personalization of a communication session in heterogeneous environments
US9933990B1 (en) 2013-03-15 2018-04-03 Sonitum Inc. Topological mapping of control parameters
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN104079247B (zh) 2013-03-26 2018-02-09 杜比实验室特许公司 均衡器控制器和控制方法以及音频再现设备
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
CN108365827B (zh) 2013-04-29 2021-10-26 杜比实验室特许公司 具有动态阈值的频带压缩
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
EP3014609B1 (en) 2013-06-27 2017-09-27 Dolby Laboratories Licensing Corporation Bitstream syntax for spatial voice coding
US9031838B1 (en) 2013-07-15 2015-05-12 Vail Systems, Inc. Method and apparatus for voice clarity and speech intelligibility detection and correction
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN103413553B (zh) 2013-08-20 2016-03-09 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、编码端、解码端和系统
CN110890101B (zh) * 2013-08-28 2024-01-12 杜比实验室特许公司 用于基于语音增强元数据进行解码的方法和设备
MX358483B (es) * 2013-10-22 2018-08-22 Fraunhofer Ges Forschung Concepto para la comprensión combinada del rango dinámico y prevención guiada de recortes para dispositivos de audio.
JP6361271B2 (ja) * 2014-05-09 2018-07-25 富士通株式会社 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
CN105336341A (zh) 2014-05-26 2016-02-17 杜比实验室特许公司 增强音频信号中的语音内容的可理解性
WO2016040885A1 (en) 2014-09-12 2016-03-17 Audience, Inc. Systems and methods for restoration of speech components
US10020001B2 (en) 2014-10-01 2018-07-10 Dolby International Ab Efficient DRC profile transmission
US10163453B2 (en) 2014-10-24 2018-12-25 Staton Techiya, Llc Robust voice activity detector system for use with an earphone
CN104409081B (zh) * 2014-11-25 2017-12-22 广州酷狗计算机科技有限公司 语音信号处理方法和装置
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
EP3203472A1 (en) * 2016-02-08 2017-08-09 Oticon A/s A monaural speech intelligibility predictor unit
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
RU2620569C1 (ru) * 2016-05-17 2017-05-26 Николай Александрович Иванов Способ измерения разборчивости речи
US10362412B2 (en) 2016-12-22 2019-07-23 Oticon A/S Hearing device comprising a dynamic compressive amplification system and a method of operating a hearing device
WO2018152034A1 (en) * 2017-02-14 2018-08-23 Knowles Electronics, Llc Voice activity detector and methods therefor
CN110998724B (zh) 2017-08-01 2021-05-21 杜比实验室特许公司 基于位置元数据的音频对象分类
WO2019027812A1 (en) 2017-08-01 2019-02-07 Dolby Laboratories Licensing Corporation CLASSIFICATION OF AUDIO OBJECT BASED ON LOCATION METADATA
EP3477641A1 (en) * 2017-10-26 2019-05-01 Vestel Elektronik Sanayi ve Ticaret A.S. Consumer electronics device and method of operation
US11894006B2 (en) * 2018-07-25 2024-02-06 Dolby Laboratories Licensing Corporation Compressor target curve to avoid boosting noise
US11335357B2 (en) * 2018-08-14 2022-05-17 Bose Corporation Playback enhancement in audio systems
CN110875059B (zh) * 2018-08-31 2022-08-05 深圳市优必选科技有限公司 收音结束的判断方法、装置以及储存装置
US10795638B2 (en) * 2018-10-19 2020-10-06 Bose Corporation Conversation assistance audio device personalization
US11164592B1 (en) * 2019-05-09 2021-11-02 Amazon Technologies, Inc. Responsive automatic gain control
US11146607B1 (en) * 2019-05-31 2021-10-12 Dialpad, Inc. Smart noise cancellation
EP3803861B1 (en) * 2019-08-27 2022-01-19 Dolby Laboratories Licensing Corporation Dialog enhancement using adaptive smoothing
US20230010466A1 (en) * 2019-12-09 2023-01-12 Dolby Laboratories Licensing Corporation Adjusting audio and non-audio features based on noise metrics and speech intelligibility metrics
US20230113561A1 (en) * 2020-03-13 2023-04-13 Immersion Networks, Inc. Loudness equalization system
EP4128226A1 (en) * 2020-03-27 2023-02-08 Dolby Laboratories Licensing Corp. Automatic leveling of speech content
WO2021239255A1 (en) 2020-05-29 2021-12-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an initial audio signal
US11790931B2 (en) 2020-10-27 2023-10-17 Ambiq Micro, Inc. Voice activity detection using zero crossing detection
TW202226226A (zh) * 2020-10-27 2022-07-01 美商恩倍科微電子股份有限公司 具低複雜度語音活動檢測演算之設備及方法
US11595730B2 (en) * 2021-03-08 2023-02-28 Tencent America LLC Signaling loudness adjustment for an audio scene
CN113113049A (zh) * 2021-03-18 2021-07-13 西北工业大学 一种联合语音增强的语音活动检测方法
EP4134954B1 (de) * 2021-08-09 2023-08-02 OPTImic GmbH Verfahren und vorrichtung zur audiosignalverbesserung
KR102628500B1 (ko) * 2021-09-29 2024-01-24 주식회사 케이티 대면녹취단말장치 및 이를 이용한 대면녹취방법

Family Cites Families (125)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3803357A (en) * 1971-06-30 1974-04-09 J Sacks Noise filter
US4661981A (en) 1983-01-03 1987-04-28 Henrickson Larry K Method and means for processing speech
EP0127718B1 (fr) * 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
US4628529A (en) 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
US4912767A (en) 1988-03-14 1990-03-27 International Business Machines Corporation Distributed noise cancellation system
CN1062963C (zh) 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
KR100228688B1 (ko) 1991-01-08 1999-11-01 쥬더 에드 에이. 다차원 음장용 인코우더/디코우더
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
EP0810599B1 (en) 1991-05-29 2003-11-26 Pacific Microsonics, Inc. Improvements in signal encode/decode systems
US5388185A (en) * 1991-09-30 1995-02-07 U S West Advanced Technologies, Inc. System for adaptive processing of telephone voice signals
US5263091A (en) 1992-03-10 1993-11-16 Waller Jr James K Intelligent automatic threshold circuit
US5251263A (en) 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor
US5734789A (en) 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5425106A (en) 1993-06-25 1995-06-13 Hda Entertainment, Inc. Integrated circuit for audio enhancement system
US5400405A (en) 1993-07-02 1995-03-21 Harman Electronics, Inc. Audio image enhancement system
US5471527A (en) 1993-12-02 1995-11-28 Dsc Communications Corporation Voice enhancement system and method
US5539806A (en) * 1994-09-23 1996-07-23 At&T Corp. Method for customer selection of telephone sound enhancement
US5623491A (en) 1995-03-21 1997-04-22 Dsc Communications Corporation Device for adapting narrowband voice traffic of a local access network to allow transmission over a broadband asynchronous transfer mode network
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US5812969A (en) * 1995-04-06 1998-09-22 Adaptec, Inc. Process for balancing the loudness of digitally sampled audio waveforms
US6263307B1 (en) * 1995-04-19 2001-07-17 Texas Instruments Incorporated Adaptive weiner filtering using line spectral frequencies
US5661808A (en) 1995-04-27 1997-08-26 Srs Labs, Inc. Stereo enhancement system
JP3416331B2 (ja) 1995-04-28 2003-06-16 松下電器産業株式会社 音声復号化装置
US5774557A (en) 1995-07-24 1998-06-30 Slater; Robert Winston Autotracking microphone squelch for aircraft intercom systems
FI102337B (fi) * 1995-09-13 1998-11-13 Nokia Mobile Phones Ltd Menetelmä ja piirijärjestely audiosignaalin käsittelemiseksi
FI100840B (fi) 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
DE19547093A1 (de) 1995-12-16 1997-06-19 Nokia Deutschland Gmbh Schaltungsanordnung zur Verbesserung des Störabstandes
US5689615A (en) 1996-01-22 1997-11-18 Rockwell International Corporation Usage of voice activity detection for efficient coding of speech
US5884255A (en) * 1996-07-16 1999-03-16 Coherent Communications Systems Corp. Speech detection system employing multiple determinants
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
DE19703228B4 (de) * 1997-01-29 2006-08-03 Siemens Audiologische Technik Gmbh Verfahren zur Verstärkung von Eingangssignalen eines Hörgerätes sowie Schaltung zur Durchführung des Verfahrens
JPH10257583A (ja) * 1997-03-06 1998-09-25 Asahi Chem Ind Co Ltd 音声処理装置およびその音声処理方法
US5907822A (en) 1997-04-04 1999-05-25 Lincom Corporation Loss tolerant speech decoder for telecommunications
US6208637B1 (en) 1997-04-14 2001-03-27 Next Level Communications, L.L.P. Method and apparatus for the generation of analog telephone signals in digital subscriber line access systems
FR2768547B1 (fr) 1997-09-18 1999-11-19 Matra Communication Procede de debruitage d'un signal de parole numerique
US6169971B1 (en) * 1997-12-03 2001-01-02 Glenayre Electronics, Inc. Method to suppress noise in digital voice processing
US6104994A (en) 1998-01-13 2000-08-15 Conexant Systems, Inc. Method for speech coding under background noise conditions
CN1116737C (zh) 1998-04-14 2003-07-30 听觉增强有限公司 用户可调节的适应听力的音量控制
US6122611A (en) 1998-05-11 2000-09-19 Conexant Systems, Inc. Adding noise during LPC coded voice activity periods to improve the quality of coded speech coexisting with background noise
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6223154B1 (en) 1998-07-31 2001-04-24 Motorola, Inc. Using vocoded parameters in a staggered average to provide speakerphone operation based on enhanced speech activity thresholds
US6188981B1 (en) 1998-09-18 2001-02-13 Conexant Systems, Inc. Method and apparatus for detecting voice activity in a speech signal
US6061431A (en) 1998-10-09 2000-05-09 Cisco Technology, Inc. Method for hearing loss compensation in telephony systems based on telephone number resolution
US6993480B1 (en) 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
US6256606B1 (en) 1998-11-30 2001-07-03 Conexant Systems, Inc. Silence description coding for multi-rate speech codecs
US6208618B1 (en) 1998-12-04 2001-03-27 Tellabs Operations, Inc. Method and apparatus for replacing lost PSTN data in a packet network
US6289309B1 (en) 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6922669B2 (en) 1998-12-29 2005-07-26 Koninklijke Philips Electronics N.V. Knowledge-based strategies applied to N-best lists in automatic speech recognition systems
US6246345B1 (en) * 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6633841B1 (en) 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
US6813490B1 (en) * 1999-12-17 2004-11-02 Nokia Corporation Mobile station with audio signal adaptation to hearing characteristics of the user
US6449593B1 (en) 2000-01-13 2002-09-10 Nokia Mobile Phones Ltd. Method and system for tracking human speakers
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US7962326B2 (en) 2000-04-20 2011-06-14 Invention Machine Corporation Semantic answering system and method
US7246058B2 (en) 2001-05-30 2007-07-17 Aliph, Inc. Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
US6862567B1 (en) * 2000-08-30 2005-03-01 Mindspeed Technologies, Inc. Noise suppression in the frequency domain by adjusting gain according to voicing parameters
US7020605B2 (en) * 2000-09-15 2006-03-28 Mindspeed Technologies, Inc. Speech coding system with time-domain noise attenuation
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
JP2002169599A (ja) * 2000-11-30 2002-06-14 Toshiba Corp ノイズ抑制方法及び電子機器
US6631139B2 (en) 2001-01-31 2003-10-07 Qualcomm Incorporated Method and apparatus for interoperability between voice transmission systems during speech inactivity
US6694293B2 (en) * 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US20030028386A1 (en) 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
ATE318062T1 (de) 2001-04-18 2006-03-15 Gennum Corp Mehrkanal hörgerät mit übertragungsmöglichkeiten zwischen den kanälen
CA2354755A1 (en) * 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
DE60222445T2 (de) * 2001-08-17 2008-06-12 Broadcom Corp., Irvine Verfahren zum verbergen von bitfehlern für die sprachcodierung
US20030046069A1 (en) * 2001-08-28 2003-03-06 Vergin Julien Rivarol Noise reduction system and method
EP1430749A2 (en) * 2001-09-06 2004-06-23 Koninklijke Philips Electronics N.V. Audio reproducing device
US6937980B2 (en) 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US7328151B2 (en) 2002-03-22 2008-02-05 Sound Id Audio decoder with dynamic adjustment of signal modification
US7167568B2 (en) 2002-05-02 2007-01-23 Microsoft Corporation Microphone array signal enhancement
US7072477B1 (en) * 2002-07-09 2006-07-04 Apple Computer, Inc. Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file
CA2492091C (en) * 2002-07-12 2009-04-28 Widex A/S Hearing aid and a method for enhancing speech intelligibility
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
US7283956B2 (en) * 2002-09-18 2007-10-16 Motorola, Inc. Noise suppression
AU2003278013A1 (en) 2002-10-11 2004-05-04 Voiceage Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7174022B1 (en) * 2002-11-15 2007-02-06 Fortemedia, Inc. Small array microphone for beam-forming and noise suppression
DE10308483A1 (de) * 2003-02-26 2004-09-09 Siemens Audiologische Technik Gmbh Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät
US7343284B1 (en) * 2003-07-17 2008-03-11 Nortel Networks Limited Method and system for speech processing for enhancement and detection
US7398207B2 (en) * 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
US7539614B2 (en) * 2003-11-14 2009-05-26 Nxp B.V. System and method for audio signal processing using different gain factors for voiced and unvoiced phonemes
US7483831B2 (en) 2003-11-21 2009-01-27 Articulation Incorporated Methods and apparatus for maximizing speech intelligibility in quiet or noisy backgrounds
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
FI118834B (fi) 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
ATE527654T1 (de) 2004-03-01 2011-10-15 Dolby Lab Licensing Corp Mehrkanal-audiodecodierung
US7492889B2 (en) 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US7451093B2 (en) 2004-04-29 2008-11-11 Srs Labs, Inc. Systems and methods of remotely enabling sound enhancement techniques
WO2005117483A1 (en) 2004-05-25 2005-12-08 Huonlabs Pty Ltd Audio apparatus and method
US8788265B2 (en) 2004-05-25 2014-07-22 Nokia Solutions And Networks Oy System and method for babble noise detection
US7649988B2 (en) 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
CA2691959C (en) 2004-08-30 2013-07-30 Qualcomm Incorporated Method and apparatus for an adaptive de-jitter buffer
FI20045315A (fi) 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
US8135136B2 (en) 2004-09-06 2012-03-13 Koninklijke Philips Electronics N.V. Audio signal enhancement
US7383179B2 (en) * 2004-09-28 2008-06-03 Clarity Technologies, Inc. Method of cascading noise reduction algorithms to avoid speech distortion
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
EP1815462A1 (en) 2004-11-09 2007-08-08 Koninklijke Philips Electronics N.V. Audio coding and decoding
RU2284585C1 (ru) 2005-02-10 2006-09-27 Владимир Кириллович Железняк Способ измерения разборчивости речи
US20060224381A1 (en) 2005-04-04 2006-10-05 Nokia Corporation Detecting speech frames belonging to a low energy sequence
TWI317933B (en) 2005-04-22 2009-12-01 Qualcomm Inc Methods, data storage medium,apparatus of signal processing,and cellular telephone including the same
US8566086B2 (en) 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
US20070078645A1 (en) 2005-09-30 2007-04-05 Nokia Corporation Filterbank-based processing of speech signals
US20070147635A1 (en) 2005-12-23 2007-06-28 Phonak Ag System and method for separation of a user's voice from ambient sound
EP1640972A1 (en) 2005-12-23 2006-03-29 Phonak AG System and method for separation of a users voice from ambient sound
US20070198251A1 (en) 2006-02-07 2007-08-23 Jaber Associates, L.L.C. Voice activity detection method and apparatus for voiced/unvoiced decision and pitch estimation in a noisy speech feature extraction
ES2525427T3 (es) * 2006-02-10 2014-12-22 Telefonaktiebolaget L M Ericsson (Publ) Un detector de voz y un método para suprimir sub-bandas en un detector de voz
ATE527833T1 (de) 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
US8032370B2 (en) * 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
CN100578622C (zh) * 2006-05-30 2010-01-06 北京中星微电子有限公司 一种自适应麦克阵列系统及其语音信号处理方法
US20080071540A1 (en) 2006-09-13 2008-03-20 Honda Motor Co., Ltd. Speech recognition method for robot under motor noise thereof
EP2127467B1 (en) 2006-12-18 2015-10-28 Sonova AG Active hearing protection system
BRPI0807703B1 (pt) * 2007-02-26 2020-09-24 Dolby Laboratories Licensing Corporation Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador
CN102017402B (zh) * 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
EP2619753B1 (en) * 2010-12-24 2014-05-21 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting voice activity in input audio signal
CN102801861B (zh) * 2012-08-07 2015-08-19 歌尔声学股份有限公司 一种应用于手机的语音增强方法和装置
JP6127143B2 (ja) * 2012-08-31 2017-05-10 テレフオンアクチーボラゲット エルエム エリクソン(パブル) 音声アクティビティ検出のための方法及び装置
US20140126737A1 (en) * 2012-11-05 2014-05-08 Aliphcom, Inc. Noise suppressing multi-microphone headset

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2504026C2 (ru) * 2008-04-09 2014-01-10 Моторола Мобилити, Инк. Способ и устройство для селективного кодирования сигнала на основе характеристик базового кодера
RU2696952C2 (ru) * 2014-10-01 2019-08-07 Долби Интернешнл Аб Аудиокодировщик и декодер
RU2676022C1 (ru) * 2016-07-13 2018-12-25 Общество с ограниченной ответственностью "Речевая аппаратура "Унитон" Способ повышения разборчивости речи
RU2726326C1 (ru) * 2019-11-26 2020-07-13 Акционерное общество "ЗАСЛОН" Способ повышения разборчивости речи пожилыми людьми при приеме звуковых программ на наушники

Also Published As

Publication number Publication date
CN101647059A (zh) 2010-02-10
US20180033453A1 (en) 2018-02-01
BRPI0807703B1 (pt) 2020-09-24
JP2010519601A (ja) 2010-06-03
WO2008106036A3 (en) 2008-11-27
EP2118885A2 (en) 2009-11-18
US20150142424A1 (en) 2015-05-21
US10418052B2 (en) 2019-09-17
BRPI0807703A2 (pt) 2014-05-27
JP2013092792A (ja) 2013-05-16
JP5530720B2 (ja) 2014-06-25
ES2391228T3 (es) 2012-11-22
US20160322068A1 (en) 2016-11-03
EP2118885B1 (en) 2012-07-11
US20120221328A1 (en) 2012-08-30
US20100121634A1 (en) 2010-05-13
RU2009135829A (ru) 2011-04-10
US9418680B2 (en) 2016-08-16
CN101647059B (zh) 2012-09-05
US9818433B2 (en) 2017-11-14
US20150243300A1 (en) 2015-08-27
US10586557B2 (en) 2020-03-10
US8972250B2 (en) 2015-03-03
US9368128B2 (en) 2016-06-14
WO2008106036A2 (en) 2008-09-04
US8271276B1 (en) 2012-09-18
US20190341069A1 (en) 2019-11-07
US8195454B2 (en) 2012-06-05
US20120310635A1 (en) 2012-12-06

Similar Documents

Publication Publication Date Title
RU2440627C2 (ru) Повышение разборчивости речи в звукозаписи развлекательных программ
CN102016995B (zh) 用于处理音频信号的设备及其方法
CN110858941B (zh) 用于在音频系统中进行声音增强的系统和方法
CN109616142B (zh) 用于音频分类和处理的装置和方法
US9384759B2 (en) Voice activity detection and pitch estimation
JP4837123B1 (ja) 音質制御装置及び音質制御方法
US20230087486A1 (en) Method and apparatus for processing an initial audio signal
JP4709928B1 (ja) 音質補正装置及び音質補正方法
Brouckxon et al. Time and frequency dependent amplification for speech intelligibility enhancement in noisy environments
Rumsey Hearing enhancement