RU2651616C2

RU2651616C2 - Способ и устройство оценки аудиопомехи

Info

Publication number: RU2651616C2
Application number: RU2015117617A
Authority: RU
Inventors: Патрик КЕХИХЯН
Original assignee: Конинклейке Филипс Н.В.
Priority date: 2012-10-09
Filing date: 2013-10-04
Publication date: 2018-04-23
Also published as: BR112015007625B1; BR112015007625A2; CN104685903B; JP6580990B2; US9591422B2; WO2014057406A1; RU2015117617A; CN104685903A; EP2907323A1; JP2015535962A; US20150271616A1; EP2907323B1

Abstract

Изобретение относится к акустике, в частности к устройствам измерения уровня шума. Устройство оценки аудиопомех содержит микрофон, причем сигнал микрофона содержит составляющую тестового сигнала, соответствующую тестовому аудиосигналу, делитель для разделения сигнала микрофона на множество интервальных составляющих тестового сигнала. Каждая интервальная составляющая тестового сигнала соответствует сигналу микрофона в некоторый интервал времени, тестовый аудиосигнал содержит множество повторов составляющей аудиосигнала, и распределение во времени интервальных составляющих тестового сигнала соответствует распределению во времени упомянутых повторов. Процессор наборов для формирования наборов интервальных составляющих тестового сигнала из упомянутого множества интервальных составляющих тестового сигнала, процессор подобия для формирования значения подобия для каждого набора интервальных составляющих тестового сигнала; средство оценки помехи для определения показателя помехи для отдельных интервальных составляющих тестового сигнала в ответ на значения подобия. Технический результат - повышение точности измерений и оценки помех. 2 н. и 11 з.п. ф-лы, 10 ил.

Description

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Изобретение относится к оценке аудиопомехи и, в частности, но не исключительно, к адаптации обработки аудиосигналов, которая включает в себя рассмотрение оценок помех для сигнала микрофона.

УРОВЕНЬ ТЕХНИКИ

Аудиосистемы, как правило, разрабатываются при условии конкретных общих допущений относительно акустической среды, в которой они используются, и относительно свойств применяемого оборудования. Тем не менее, реальные среды, в которых они используются, а также зачастую характеристики оборудования могут существенно изменяться. В связи с этим многие аудиосистемы и аудиоприложения обладают функциональной возможностью адаптации к текущим рабочим характеристикам. В частности, многие аудиосистемы обладают функциональной возможностью калибровки и адаптации системы, например, к конкретной акустической среде, в которой они используются. Такая адаптация может выполняться регулярно для вычисления изменений со временем.

На самом деле, во многих приложениях, в частности тех, которые относятся к системам коррекции речевых сигналов для голосовой связи, параметры, связанные с алгоритмом, адаптируются к характеристикам конкретного устройства и его аппаратного обеспечения, таким как, например, характеристики микрофона (микрофонов), громкоговорителя (громкоговорителей) и т.д. Несмотря на то что существуют адаптивные методики обработки сигналов для выполнения такой адаптации во время обычной работы устройства, зачастую конкретные параметры (в особенности те, на которых основаны такие адаптивные методики) должны оцениваться в процессе производства во время специального сеанса калибровки, который обычно выполняется в контролируемой, например, бесшумной среде только в присутствии ожидаемых сигналов.

Такая калибровка может выполняться при условиях, близких к идеальным. Однако результирующая производительность системы может ухудшаться, когда адаптация выполняется в среде применения. В таких средах может нередко присутствовать локальная помеха, такая как речевой сигнал и шум.

Например, вспомогательное средство связи, содержащее один или более микрофонов, которое может быть присоединено к телевизору и которое дополнительно выполнено с возможностью использовать громкоговорители телевизора и автономную обработку, может быть не настроено/адаптировано/откалибровано в процессе производства, поскольку соответствующее аппаратное обеспечение зависит от конкретного телевизора, в котором оно используется. Следовательно, адаптация должна выполняться пользователем у него или нее дома, где уровни шума могут привести к плохо адаптированной системе.

В качестве конкретного примера, многие системы связи зачастую используются в сочетании с другими устройствами или в диапазоне разных акустических сред. Примером одного такого устройства является вспомогательное средство связи «hands-free» (гарнитура) со встроенными микрофонами для Интернет-услуги телефонной связи с использованием телевизора. Такое устройство может быть установлено на или около телевизора и может также включать в себя видеокамеру и блок обработки цифровых сигналов, тем самым позволяя использовать программное обеспечение непосредственно через телевизор, чтобы соединиться с другими устройствами и осуществлять двустороннюю или многостороннюю связи. Трудности при разработке такого вспомогательного средства связаны с широким ассортиментом телевизоров, с которыми оно может использоваться, а также с изменениями акустических сред, в которых оно должно быть способно демонстрировать приемлемую производительность.

Тракт воспроизведения аудиосигналов в телевизионных установках и среды, в которых они используются, влияют на акустические характеристики выдаваемого звука. Например, некоторые телевизоры используют компоненты с точным воспроизведением в аудиотракте, такие как улучшенные громкоговорители, способные функционировать в линейном режиме в широком диапазоне динамических входных сигналов, в то время как другие – применяют нелинейную обработку по отношению к принятым аудиосигналам, такую как стимулированный окружающий звук и усиление басов, или сжатие динамического диапазона. Кроме того, выходной аудиосигнал телевизора может подаваться в домашнюю аудиосистему, при этом громкоговорители телевизора отключены.

Системы коррекции речевых сигналов применяют алгоритмы обработки сигналов, такие как подавление акустического эха, шумоглушение и подавление реверберации, по отношению к записанному сигналу (записанным сигналам) (микрофона) и передают четкий речевой сигнал участнику вызова на дальнем конце линии связи. Коррекция речевых сигналов ориентирована на то, чтобы улучшить качество звука, например, чтобы уменьшить утомление слушателя, связанное с долгими разговорами. Производительность такой коррекции речевых сигналов может зависеть от различных характеристик применяемого оборудования и аудиосреды.

Тот факт, что такие устройства используются в таком широком диапазоне сценариев, затрудняет обеспечение стабильного функционирования системы коррекции речевых сигналов. Следовательно, системы коррекции речевых сигналов обычно адаптируются/настраиваются в процессе установки устройства и/или во время работы устройства, когда система демонстрирует плохую производительность коррекции речевых сигналов. Большинство методов адаптации используют тестовый сигнал, который воспроизводится системой воспроизведения звука присоединенного устройства и записывается устройством записи для оценки и установки значений акустических параметров для системы коррекции речевых сигналов.

В качестве простого примера метода настройки можно рассмотреть измерение акустического импульсного отклика комнаты. Среды прослушивания, такие как, например, гостиные, характеризуются собственным временем реверберации, которое определяется как время, требуемое для того, чтобы акустический импульсный отклик комнаты ослаб на конкретную величину. Например, Т₆₀ обозначает количество времени, за которое хвостовая часть акустического импульсного отклика комнаты ослабнет на 60 дБ.

Тестовый сигнал, такой как белый шум, может воспроизводиться громкоговорителем устройства, и результирующий звуковой сигнал может записываться с помощью микрофона. Адаптивный фильтр затем используется для оценки линейного акустического импульсного отклика. Из этого импульсного отклика различные параметры, например, Т₆₀, могут быть оценены и использованы для улучшения производительности системы коррекции речевых сигналов, например, за счет выполнения подавления реверберации на основе времени реверберации. В качестве конкретного примера, время реверберации зачастую измеряется с использованием кривой спада энергии, задаваемой следующим образом:

где h(t) представляет собой акустический импульсный отклик. Акустический импульсный отклик и его соответствующая кривая спада энергии показана на Фиг. 1.

Тем не менее, значительная проблема, связанная с процедурами адаптации на основе тестовых аудиосигналов, состоит в том, что они подвержены изменению в присутствии звуковых помех. В частности, если имеется источник звуковых помех, то он будет вызывать искажение записанного сигнала относительно воспроизведенного аудиосигнала, тем самым ухудшая процесс адаптации.

Например, при определении акустического импульсного отклика комнаты сигнал, записанный микрофоном, может быть испорчен источниками звуковых помех, которые могут привести к ошибкам в оценке импульсного отклика или которые могут даже привести к тому, что оценивание импульсного отклика не даст в итоге никакой оценки (например, вследствие того, что адаптивный фильтр, оценивающий вычисленный импульсный отклик, не способен осуществить схождение).

Методы адаптации для обработки аудиосигналов, такие как, например, для систем коррекции речевых сигналов, обычно предполагают, что присутствуют только известные и подходящие источники звука, такие как, в частности, тестовые звуки, которые используются для этой адаптации. Например, для настройки системы подавления акустического эха сигнал, записанный микрофоном, должен только содержать сигнал, выданный громкоговорителем (эхо). Любая локальная помеха, например, источники шума или динамики на ближнем конце линии связи в локальной среде, будут только ухудшать результирующую производительность.

Так как в целом невозможно гарантировать, что нет других источников звука, отличных от тех, что используются при адаптации, соответственно зачастую крайне важно, чтобы была возможность оценить, имеется ли помеха, и, если да, то зачастую будет полезно оценить, насколько эта помеха сильна. Следовательно, оценка помехи часто важна для адаптации обработки аудиосигналов, и в особенности желательно, чтобы относительно точная оценка помехи могла быть получена без использования сверхсложной обработки. На самом деле, оценки помех могут быть приемлемы для многих алгоритмов и подходов к обработке аудиосигналов, и соответственно существует необходимость в улучшенных подходах к определению оценки аудиопомехи.

Отсюда следует, что был бы полезным улучшенный подход к формированию показателя аудиопомехи, и, в частности, был бы полезным подход, обеспечивающий улучшенную гибкость, уменьшенную сложность, снижение расходов на применение, облегченное функционирование, улучшенную точность, увеличенную надежность и/или улучшенную производительность.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

Соответственно данное изобретение предпочтительно ориентировано на то, чтобы подавить, уменьшить или устранить один или более из вышеупомянутых недостатков по отдельности или в любом их сочетании.

Согласно аспекту изобретения, предложено устройство, содержащее: приемник для приема сигнала микрофона от микрофона, причем сигнал микрофона содержит составляющую тестового сигнала, соответствующую тестовому аудиосигналу, захваченному микрофоном; делитель для разделения сигнала микрофона на множество интервальных составляющих тестового сигнала, причем каждая интервальная составляющая тестового сигнала соответствует сигналу микрофона в некоторый интервал времени; процессор наборов для формирования наборов интервальных составляющих тестового сигнала из множества интервальных составляющих тестового сигнала; процессор подобия для формирования значения подобия для каждого набора интервальных составляющих тестового сигнала; средство оценки помехи для определения показателя помехи для отдельных интервальных составляющих тестового сигнала в ответ на значения подобия.

Изобретение может обеспечить улучшенное и/или облегченное определение показателя аудиопомехи, указывающего уровень аудиопомехи, присутствующей в сигнале микрофона. Этот подход может обеспечить низкую сложность и/или надежное определение присутствия помехи в акустической среде, записываемой микрофоном. Показатель помехи может быть входным значением для других алгоритмов обработки аудиосигналов, которые применяют или функционируют на основе сигнала микрофона.

Данный подход предусматривает определение помехи с низкой сложностью. Определенное преимущество состоит в том, что системе не требуется явно знать особенности тестового аудиосигнала, так как показатель помехи может быть определен из прямого сравнения разных частей сигнала микрофона и не требует сравнения с известным заранее определенным опорным сигналом.

Этот подход может облегчить взаимодействие с другим оборудованием и может быть добавлен в существующее оборудование.

В некоторых вариантах осуществления устройство может дополнительно содержать генератор тестового сигнала для формирования тестового сигнала для воспроизведения аудиопреобразователем, тем самым формируя тестовый аудиосигнал. Тестовый аудиосигнал может предпочтительно иметь повторяющиеся характеристики и может содержать или состоять из набора повторов фундаментальной сигнальной последовательности.

Устройство может допускать, что сигнал микрофона содержит тестовый аудиосигнал. Таким образом, показатель помехи может определяться при допущении присутствия составляющей тестового аудиосигнала в сигнале микрофона. Необязательно или несущественно, чтобы устройство определяло или было обеспечено информацией, указывающей, что присутствует тестовый сигнал.

В соответствии с необязательным признаком изобретения, устройство дополнительно содержит блок калибровки для адаптации обработки сигналов в ответ на интервальные составляющие тестового сигнала, причем блок калибровки выполнен с возможностью присваивать весовые коэффициенты, по меньшей мере, вкладу первой интервальной составляющей тестового сигнала в ответ на оценку помехи для первого интервала времени.

Изобретение может обеспечить улучшенную адаптацию алгоритмов обработки аудиосигналов. В частности, чувствительность и ухудшение, вызванные нестационарной аудиопомехой, могут быть существенно снижены.

Присваивание весовых коэффициентов может, например, применяться непосредственно к составляющим сигнала для интервала времени или может, например, применяться к параметрам адаптации, сформированным в соответствии с составляющими сигнала для интервала времени.

Это может улучшить адаптацию. В частности, это может обеспечить низкую сложность и еще улучшить производительность. Данный подход может позволить отбросить составляющие сигнала для интервала времени, подверженные слишком сильной аудиопомехе, тем самым предотвращая ухудшение ими адаптации.

В соответствии с необязательным признаком изобретения, устройство дополнительно содержит средство оценки стационарного шума, выполненное с возможностью формирования оценки стационарного шума и компенсации по меньшей мере одного из порового значения и оценки помехи в ответ на оценку стационарного шума.

Это может обеспечить более точный показатель помехи и, в частности, может обеспечить более точное определение составляющих сигнала для интервала времени, подверженных слишком сильной нестационарной помехе.

Оценка стационарного шума может, в частности, быть оценкой уровня шума.

В соответствии с необязательным признаком изобретения, устройство дополнительно содержит средство оценки тестового сигнала, выполненное с возможностью формирования оценки уровня для составляющей тестового сигнала и компенсации по меньшей мере одного из порового значения и оценки помехи в ответ на оценку уровня.

Это может обеспечить более точный показатель помехи и, в частности, может обеспечить более точное обнаружение составляющих сигнала для интервала времени, подверженных слишком сильной нестационарной помехе.

Многие показатели подобия и соответственно показатели помехи могут зависеть от энергии сигнала, и компенсация энергии тестового сигнала может приводить к более точному показателю помехи.

В частности, составляющая тестового сигнала может представлять собой составляющую эха из громкоговорителя системы, и путем компенсации эха может быть достигнута улучшенная производительность.

В соответствии с необязательным признаком изобретения, делитель выполнен с возможностью разделения сигнала микрофона на множество интервальных составляющих тестового сигнала в ответ на характеристики повторяемости тестового аудиосигнала.

Это может обеспечить улучшенную производительность и упростить функционирование. Делитель может, в частности, разделять сигнал микрофона на множество интервальных составляющих тестового сигнала в соответствии с продолжительностью и/или синхронизацией повторов тестового аудиосигнала. Составляющие сигнала для интервала времени могут быть синхронизированы с повторами тестового аудиосигнала.

В соответствии с необязательным признаком изобретения, тестовый аудиосигнал содержит множество повторов составляющей аудиосигнала, и синхронизация интервальных составляющих тестового сигнала соответствует синхронизации повторов.

Это может обеспечить улучшенную производительность и/или упрощенное функционирование. Каждая составляющая сигнала для интервала времени может, в частности, соответствовать интервалу, который совпадает с целым числом повторов составляющей аудиосигнала.

В соответствии с необязательным признаком изобретения, средство оценки помехи выполнено с возможностью, для первой интервальной составляющей тестового сигнала из множества интервальных составляющих тестового сигнала, определения максимального значения подобия для значений подобия из наборов, включающих в себя первую интервальную составляющую тестового сигнала, и определения показателя помехи для первой интервальной составляющей тестового сигнала в ответ на максимальное значение подобия.

Это может улучшить производительность и/или снизить сложность. В частности, это может увеличить вероятность идентификации составляющих сигнала для интервала времени, подверженных низкой аудиопомехе.

В соответствии с необязательным признаком изобретения, делитель выполнен с возможностью формирования по меньшей мере двух наборов, содержащих по меньшей мере первую из интервальных составляющих тестового сигнала.

В соответствии с необязательным признаком изобретения, каждый набор состоит из двух интервальных составляющих тестового сигнала.

В соответствии с необязательным признаком изобретения, делитель выполнен с возможностью формирования наборов, соответствующих всем парным комбинациям интервальных составляющих тестового сигнала.

Согласно аспекту изобретения, предложен способ формирования показателя аудиопомехи, причем способ содержит этапы, на которых: принимают сигнал микрофона от микрофона, причем сигнал микрофона содержит составляющую тестового сигнала, соответствующую тестовому аудиосигналу, захваченному микрофоном; разделяют сигнал микрофона на множество интервальных составляющих тестового сигнала, причем каждая интервальная составляющая тестового сигнала соответствует сигналу микрофона в некоторый интервал времени; формируют наборы интервальных составляющих тестового сигнала из множества интервальных составляющих тестового сигнала; формируют значение подобия для каждого набора интервальных составляющих тестового сигнала; и определяют показатель помехи для отдельных интервальных составляющих тестового сигнала в ответ на значения подобия.

Эти и другие аспекты, признаки и преимущества изобретения будут очевидны и пояснены со ссылкой на вариант (варианты) осуществления, описанный (описанные) в дальнейшем.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Варианты осуществления изобретения будут описаны исключительно в качестве примера со ссылкой на чертежи, на которых:

Фиг. 1 иллюстрирует пример акустического импульсного отклика и его соответствующей кривой спада энергии для комнаты;

Фиг. 2 иллюстрирует пример элементов системы обработки аудиосигналов в соответствии с некоторыми вариантами осуществления изобретения; и

Фиг. 3-10 иллюстрируют экспериментальные результаты для системы обработки аудиосигналов в соответствии с некоторыми вариантами осуществления изобретения.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

Нижеследующее описание сфокусировано на вариантах осуществления изобретения, пригодных для формирования оценки аудиопомехи для применения адаптации к обработке аудиосигналов, но необходимо понимать, что изобретение не ограничено этим применением и может быть использовано во многих других аудиоприложениях.

Фиг. 2 иллюстрирует пример системы обработки аудиосигналов в соответствии с некоторыми вариантами осуществления изобретения.

Аудиосистема содержит микрофон 201, который выполнен с возможностью записи звука в акустической среде. Сигнал микрофона, сформированный микрофоном 201, может, в частности, представлять собой звук в комнате, записанный в положении микрофона 201.

Микрофон 201 соединен с приемником 203, который принимает сигнал микрофона. В большинстве вариантов осуществления приемник 203 может содержать усилитель, фильтр и, по возможности, аналого-цифровой преобразователь, обеспечивающий цифровую версию сигнала микрофона, тем самым позволяя выполнять последующую обработку в цифровом формате.

В данном примере система обработки аудиосигналов дополнительно содержит процессор 205 приложений, который выполнен с возможностью поддержки или исполнения аудиоприложения. Процессор 205 приложений принимает сигнал микрофона от приемника 204 и приступает к его обработке в соответствии с конкретным аудиоприложением.

Аудиоприложение может, например, быть приложением связи, которое поддерживает двустороннюю связи с удаленным объектом. Тем не менее, должно быть понятно, что описанные принципы адаптации и оценки помехи могут быть использованы с любым подходящим приложением. В данном примере процессор 205 приложений выполнен с возможностью приема сигнала микрофона и обработки его для передачи на удаленный блок связи. Обработка может включать в себя коррекцию речевых сигналов, подавление эха, кодирование речевых сигналов и т.д. Процессор 205 приложений дополнительно выполнен с возможностью приема аудиоданных от удаленного блока связи и обработки их для формирования сигнала, который может быть воспроизведен локально. Таким образом, процессор 205 приложений принимает аудиоданные от удаленного блока и формирует соответствующий выходной аудиосигнал.

Система обработки аудиосигналов с Фиг. 2, поэтому содержит управляющий блок 207 громкоговорителя и аудиопреобразователь, который в данном конкретном примере представляет собой громкоговоритель 209. Управляющий блок 207 громкоговорителя принимает аудиосигнал от процессора 205 приложений и приступает к формированию соответствующего управляющего сигнала для громкоговорителя 209. Управляющий блок 207 громкоговорителя может, в частности, содержать схему усиления, как известно специалисту в данной области техники.

В данном примере процессор 205 приложений выполнен с возможностью выполнения коррекции речевых сигналов и, в частности, подавления и/или ослабления эха в отношении принятого сигнала микрофона. Аудиосигнал, воспроизводимый громкоговорителем 209, может быть принят микрофоном 201, и, если этот вклад не подавлен, то он приведет к тому, что удаленный блок примет копию своего собственного сигнала. Это будет похоже на эхо на удаленном блоке связи, и соответственно процессор 205 приложений обладает функциональной возможностью ослабления составляющей сигнала, соответствующей воспроизведенному аудиосигналу из громкоговорителя 209, в сигнале микрофона. Такая обработка известна как подавление эха.

Чтобы осуществить оптимальное подавление эха, алгоритм должен быть адаптирован к конкретным характеристикам как используемого оборудования, так и акустической среды, в которой оно применяется. В частности, тракт сигнала от процессора 205 приложений через управляющий блок 207 громкоговорителя, громкоговоритель 201, акустический тракт от громкоговорителя 209 к микрофону 201 и от микрофона 201 и приемника 203 назад к процессору 205 приложений должны быть предпочтительно известны, а также способны к подавлению эха, с тем чтобы выполнить адаптацию для подавления эха.

Соответственно система с Фиг. 1 включает в себя процессор 211 калибровки, который выполнен с возможностью адаптации обработки аудиосигналов процессора 205 приложений. В данном конкретном примере процессор 211 калибровки выполнен с возможностью оценки передаточной функции сигнального тракта от процессора 205 приложений через громкоговоритель 209 и микрофон 201 назад к процессору 205 приложений, т.е. сигнального тракта от входа в управляющий блок 207 громкоговорителя до выхода приемника 203.

Процессор 211 калибровки оценивает передаточную функцию, используя тестовый сигнал. Аудиосистема соответственно содержит генератор 213 тестового сигнала, который формирует тестовый сигнал, который подается в управляющий блок 207 громкоговорителя. Тестовый сигнал соответственно воспроизводиться громкоговорителем 209, и часть результирующего тестового аудиосигнала записывается микрофоном 201. Выходной сигнал приемника 203 подается на процессор 211 калибровки, который может переходить к определению характеристик передаточной функции путем сравнения его со сформированным тестовым сигналом. Результирующие параметры импульсного отклика/передаточной функции затем поступают в процессор 205 приложений и используются для подавления эха.

Должно быть понятно, что в разных вариантах осуществления могут использоваться разные тестовые сигналы и оценки импульсного отклика, и что может использоваться любой подходящий подход. Например, тестовый сигнал может быть коротким импульсом (соответствующим аппроксимации импульса Дирака) или может, например, быть разверткой по частоте, или может, например, быть искусственным речевым сигналом, который, будучи неразборчивым, содержит спектральные характеристики временной области, аналогичные характеристикам реальной речи.

Чтобы калибровка была оптимальной, единственный звук, записанный микрофоном 201, должен быть тем, что соответствует тестовому сигналу. Соответственно система обработки аудиосигналов, как правило, не воспроизводит какой-либо другой звук во время операции подавления. Тем не менее, даже в этом случае вероятно существует аудиопомеха, вызванная другими источниками звука в акустической среде. Например, в комнате может быть много разговаривающих людей, другие аудиоустройства могут быть активны и т.д. Такая аудиопомеха будет ухудшать оценку импульсного отклика и, тем самым, приведет к ухудшенной производительности подавления эха.

Система обработки аудиосигналов с Фиг. 2 обладает функциональной возможностью формирования показателя помехи, указывающего величину и/или присутствие аудиопомехи. В данном примере любой звук, возникающий не вследствие воспроизведения тестового сигнала, является аудиопомехой. Таким образом, система обработки аудиосигналов формирует величину, указывающую уровень записанного звука, который возник не вследствие воспроизведения тестового сигнала.

Показатель помехи может, например, использоваться для определения того, когда калибровка выполняется процессором 211 калибровки. Например, процессор 211 калибровки может адаптировать обработку процессора 205 приложения в соответствии с сигналом микрофона только в интервалы времени, в которые показатель помехи указывает, что аудиопомеха ниже заданного уровня. В некоторых вариантах осуществления показатель помехи может использоваться для формирования показателя надежности для сформированных значений калибровки, и, например, коррекция существующих параметров в зависимости от калибровки может зависеть от такого показателя надежности. Например, когда надежность низкая, применяется только минимальная адаптация, в то время как более значительная адаптация выполняется, когда надежность высокая.

Более конкретно, система обработки аудиосигналов содержит делитель 215, который разделяет сигнал микрофона на множество интервальных составляющих тестового сигнала. Каждая из интервальных составляющих тестового сигнала соответствует сигналу микрофона в некоторый интервал времени.

В данном примере, показанном на Фиг. 2, тестовый сигнал формируется таким образом, что он представляет собой повторяющийся сигнал. В частности, один и тот же сигнал может повторяться в течение набора последовательных интервалов времени. В системе делитель 215 выполнен с возможностью разделения сигнала микрофона на интервалы времени, которые синхронизированы с этими интервалами времени повтора. В частности, делитель 215 разделяет сигнал микрофона на интервалы времени, которые имеют продолжительность, кратную продолжительности повтора тестовых сигналов и, кроме того, имеющую начальное и конечное времена, совпадающие с начальным и конечным временами интервалов времени повтора. В частности, интервалы повтора и поделенные интервалы времени могут быть по существу идентичными. В качестве альтернативы, разделение может выполняться на интервалы времени, которые (по возможности, существенно) меньше, чем интервалы повтора. Однако, если меньшие интервалы времени разделения синхронизированы относительно интервалов повтора, соответствующие области в разных интервалах повтора могут быть все еще идентичными в отсутствие любого ухудшения или шума. Синхронизация может быть либо автоматической, например, просто посредством генератора тестового сигнала и делителя интервалов времени, использующих одинаковые сигналы синхронизации, или может, например, достигаться за счет процесса синхронизации (такого как, например, максимизация показателя корреляции).

Делитель соединен с процессором 217 наборов, который принимает промежуточные составляющие тестового сигнала из делителя. Процессор 217 наборов выполнен с возможностью формирования множества наборов интервальных составляющих тестового сигнала. В данном конкретном примере каждый набор содержит две промежуточные составляющие тестового сигнала, и, таким образом, процессор 217 наборов формирует множество пар интервальных составляющих тестового сигнала.

Для краткости и ясности каждая интервальная составляющая тестового сигнала будет в дальнейшем упоминаться как сигнальный блок.

Пары сигнальных блоков подаются в процессор 219 подобия, который выполнен с возможностью определения значения подобия для каждого из наборов, сформированных процессором 217 наборов. Значение подобия для набора сигнальных блоков указывает, насколько подобны сигнальные блоки, например, оно указывает, насколько остается подобным сигнал микрофона в интервалы времени, входящие в состав отдельного набора.

Должно быть понятно, что может использоваться любое подходящее значение подобия для определения, насколько подобны два сигнала. В частности, значение взаимной корреляции может быть сформировано и использовано в качестве значения подобия. В случае, когда каждый набор содержит более чем два сигнальных блока, значения подобия могут быть определены на попарной основе, и значение подобия для всего набора может быть определено в качестве среднего или суммарного значения подобия.

Процессор 219 подобия соединен со средством 221 оценки помехи, которое дополнительно соединено с процессором 217 наборов и процессором 211 калибровки. Средство 221 оценки помехи выполнено с возможностью формирования показателя помехи для разных сигнальных блоков на основе сформированных показателей подобия. В частности, оценка помехи для первого сигнального блока формируется на основе значений подобия, определенных для наборов, в состав которых входит первый сигнальный блок. Таким образом, в системе с Фиг. 2 показатель помехи сигнального блока определяется в ответ на значения подобия для по меньшей мере одного набора, содержащего этот сигнальный блок.

В качестве конкретного примера, показатель помехи для первого сигнального блока может быть сформирован в виде среднего значения подобия для наборов, в состав которых включен сигнальный блок, по возможности, в сравнении со средним значением подобия для наборов, в состав которых не включен первый сигнальный блок. В качестве другого примера, показатель подобия может быть определен как соответствующий максимальному значению подобия для набора, в состав которого включен первый сигнальный блок.

Показатель помехи подается в процессор 211 калибровки, который использует показатель помехи в процессе калибровки. Например, процессор калибровки может использовать показатель помехи в качестве показателя надежности для сформированных параметров адаптации. В качестве другого примера, процессор 211 калибровки может выполнять калибровку с использованием только сигнальных блоков, для которых показатель помехи достаточно высокий, тем самым указывая, что аудиопомеха достаточно низкая.

Настоящие изобретатели осознали, что аудиопомеха, как правило, является нестационарной, и что это может быть использовано для формирования оценки помехи. В присутствии нестационарной помехи записанный сигнал микрофона, вероятно, изменяется больше, чем в отсутствии нестационарной помехи. Это применяется в системе, показанной на Фиг. 2, для формирования показателя помехи. На самом деле, подобие между сигнальными блоками, вероятно, уменьшается существенно в присутствии источника значительной нестационарной помехи. Для заданного сигнального блока низкое значение подобия в сравнении с сигнальным блоком в разное время является, следовательно, показателем наличия помехи, в то время как более высокое значение подобия, как правило, указывает на отсутствие или присутствие более слабой помехи.

Данное воздействие является особенно значительным при сочетании формирования и воспроизведения конкретного тестового сигнала с повторяющимися особенностями, которые синхронизированы с интервалами времени сигнальных блоков. В таких сценариях, если нет шума или помехи, сигнал микрофона будет (по существу) идентичным тестовому сигналу, и, тем самым, разные сигнальные блоки будут также (по существу) идентичными, что приведет к показателю подобия, имеющему очень высокое значение. По мере увеличения (нестационарной) помехи это будет воздействовать на записанный аудиосигнал по-разному в разные времена и, таким образом, приведет к тому, что сигнальные блоки будут сильно различаться. Соответственно значение подобия между двумя сигнальными блоками уменьшиться при увеличении помехи.

Значения подобия для заданного набора сигнальных блоков соответствующим образом уменьшаются при увеличении помехи. Таким образом, для заданного сигнального блока значение подобия для наборов, в состав которых включен сигнальный блок, обеспечивает хорошее указание уровня присутствующей аудиопомехи.

Описанный подход может обеспечить улучшенную адаптацию алгоритмов обработки аудиосигналов, например, для коррекции речевых сигналов или подавления эха. Методы адаптации, например, для коррекции речевых сигналов обычно предполагают присутствие только ожидаемых источников звука. Например, для настройки системы подавления акустического эха сигнал, записанный микрофоном, как предполагается, содержит только сигнал, выданный громкоговорителем (т.е. эхо). Любые локальные искажения, такие как источники шума или динамики на ближнем конце линии связи в локальной среде, будут приводить к ухудшению результирующей производительности. На практике отсутствие любой помехи, как правило, маловероятно, и скорее записанный сигнал является испорченным аудиопомехой, созданной в среде на ближнем конце линии связи, например, пользователями на ближнем конце линии связи, которые перемещаются или разговаривают, или локальными источниками шума, такими как вентиляционные системы. Следовательно, системные параметры, определенные методом адаптации, будет зачастую не являться достоверным представлением акустических свойств устройств и локальных сред.

Система с Фиг. 2 способна оценивать помеху в отдельные периоды времени, как правило, с относительной короткой продолжительностью. В частности, она может обеспечить эффективную систему проверку целостности сигнала, которая может обнаруживать локальную помеху в отдельные периоды времени. Соответственно процесс адаптации может быть адаптирован, например, за счет использования сигнала только в периоды, в течение которых имеется достаточно низкая помеха. Таким образом, можно достичь более надежной адаптации и, тем самым, улучшенной производительности обработки аудиосигналов.

Определенное преимущество системы с Фиг. 2 состоит в том, что оценка помехи может выполняться функциональным средством, которое независимо от основного алгоритма адаптации и, на самом деле, от адаптируемой обработки аудиосигналов. Это может упростить функционирование и реализацию и может, в частности, обеспечить улучшенную обратную совместимость, в также улучшенную совместимость с другим оборудованием, формирующим часть аудиосистемы. В качестве конкретного примера, оценка помехи может быть добавлена в существующую систему калибровки в виде дополнительной функциональной возможности, которая отбрасывает все сигнальные блоки, для которых оценка помехи является слишком высокой. Тем не менее, для сигнальных блоков, которые прошли процесс адаптации, может быть использована та же процедура, как будто не проводилась проверка целостности, и никакие модификации операции адаптации или обработки звука не являются обязательными.

Должно быть понятно, что могут быть использованы разные подходы к формированию тестового сигнала, и что тестовый сигнал может иметь разные характеристики в разных вариантах осуществления.

В примере, показанном на Фиг. 3, тестовый сигнал содержит повторяющуюся составляющую сигнала. Например, сигнал может иметь конкретную форму сигнала, которая повторяется через регулярные интервалы. В некоторых вариантах осуществления сигнал в каждый интервал повтора может быть задан таким образом, чтобы обеспечить операцию полной калибровки/оценки. Например, каждый интервал повтора может включать в себя полную развертку по частоте или может содержать импульса, подобный импульсу Дирака, с интервалами повтора, которые являются достаточно длительными, чтобы обеспечить полный импульсный отклик перед следующим импульсом. В других вариантах осуществления интервалы повтора могут быть относительно короткими, и/или повторяющийся сигнал может быть простым сигналом. Например, в некоторых примерах каждый интервал повтора может соответствовать одному периоду синусоидальной волны. Тестовый сигнал соответственно имеет повторяющиеся характеристики, хотя сами повторяющиеся характеристики могут существенно изменяться среди разных вариантов осуществления. В некоторых вариантах осуществления тестовый сигнал может иметь только два повтора, но в большинстве вариантов осуществления тестовый сигнал имеет значительно больше повторов и, на самом деле, может иметь десять или более повторов.

В некоторых вариантах осуществления тестовый сигнал может быть заранее записанным сигналом, сохраненным в памяти. Сохраненный сигнал может быть уже разложен на N периодов, или сохраненный сигнал может соответствовать одному повтору, который затем повторяется.

В качестве другого примера тестовый сигнал синхронизирован с использованием модели, такой как, например, модель воспроизведения речевых сигналов, в которой параметры модели являются либо фиксированными, либо вычисленными из особенностей сигналов на ближнем конце линии связи и/или микрофона, которые были извлечены во время работы. Такие особенности могут включать в себя информацию о шаге, характеристики формы сигнала во временной области, такие как коэффициент амплитуды, амплитуду, огибающие и т.д.

Во многих вариантах осуществления предпочтительно, если тестовый сигнал удовлетворяет следующим требования:

.1. Энергия в исследуемом спектре должна быть достаточна для того, чтобы обеспечить надлежащую адаптацию соответствующих параметров, связанных с алгоритмом коррекции речевых сигналов. Для речевых приложений она представляла бы собой среднюю энергию в спектре речевых сигналов (например, между 300 и 4000 Гц).

2. Число повторов должно быть достаточно высоким. В некоторых вариантах осуществления будет необходимо только два повтора, однако во многих вариантах осуществления используется существенно большее число повторов. Это может улучшить устойчивость к шуму при работе.

Должно быть понятно, что делитель 215 может использовать разные подходы к разделению сигнала микрофона на сигнальные блоки.

Делитель 215 может совмещать сигнальные блоки с интервалами повтора и, в частности, может совмещать сигнальные блоки таким образом, чтобы тестовый сигнал был идентичен в течение интервалов времени, которые соответствуют разным сигнальным блокам.

Должно быть понятно, что совмещение может быть приблизительным, и, например, что некоторая погрешность в синхронизации может уменьшить точность сформированной оценки помехи, но может все еще позволить ее сформировать (с достаточной точностью).

В некоторых вариантах осуществления интервалы времени могут не совмещаться с интервалами повтора, и, например, смещение от начального времени к началу повтора тестового сигнала может изменяться среди разных интервалов. В таких вариантах осуществления определение значения подобия может учитывать такие возможные временные смещения, например, путем смещения двух сигнальных блоков для максимизации значения подобия. Например, взаимные корреляции могут быть определены для множества временных смещений, и наивысшая результирующая взаимная корреляция может быть использована в качестве значения подобия. В таких случаях интервалы времени могут быть длиннее, чем интервалы повтора, и интервалы, для которых определена корреляция, могут быть равны или, во возможности, короче, чем интервалы повтора. В некоторых вариантах осуществления интервал корреляции может быть больше, чем интервал повтора, и может включать в себя множество интервалов повтора. Как правило, интервал, для которого определено значение подобия, будет ближе к продолжительности интервала времени, соответствующего каждому сигнальному блоку, чтобы сформировать насколько возможно надежную оценку.

Должно быть понятно, что интервалы времени (также упоминаемые как периоды времени) сигнальных блоков могут быть короче, длиннее или, на самом деле, такими же, как интервалы повтора.

Например, в некоторых вариантах осуществления тестовый сигнал может быть чистым тоном, и каждый интервал повтора может соответствовать одной синусоидальной волне, которая повторяется. В таком примере интервалы времени повтора могут быть очень короткими (по возможности, около 1 мсек), и периоды времени для каждого сигнального блока могут быть существенно больше и включаться в себя потенциально большое число повторов. Например, каждый период времени может представлять собой 20 мсек и, таким образом, включать в себя 20 повторов для аудиосигнала.

В других вариантах осуществления периоды времени могут быть выбраны по существу идентичными интервалу повтора. Например, тестовый сигнал может включать в себя развертку по частоте с длительностью 100 мсек, причем развертка повторяется определенное число раз. В таком примере каждый период времени может быть выбран с продолжительностью 100 мсек и, таким образом, соответствовать непосредственно интервалу повтора.

В еще других вариантах осуществления каждый период времени может быть по существу меньше, чем интервалы повтора. Например, тестовый сигнал может быть выборкой ноты продолжительностью 5 секунд, которая повторяется, например, 3 раза (обеспечивая общую длительность 15 сек). В этом случае периоды времени могут быть выбраны так, чтобы соответствовать, например, 32 сек (соответствуя 512 выборкам с частотой выборки 16 кГц). Хотя такие малые сигнальные блоки не содержат всю последовательность повтора, они могут, например, сравниваться с соответствующими сигнальными блоками для других интервалов повтора. Более короткая продолжительность не только обеспечивает упрощенное функционирование, но также обеспечивает более высокое временное разрешение показателя помехи, и может, в частности, предоставить возможность выбора, какие периоды сигнала использовать для адаптации с более высоким временным разрешением.

Число сформированных сигнальных блоков будет зависеть от конкретного варианта осуществления и предпочтений и требования конкретного приложения. Тем не менее, во многих вариантах осуществления продолжительность каждого сигнального блока, как правило, не меньше 10 мсек и не более 200 мсек. Это, в частности, обеспечивает преимущество функционирования во многих вариантах осуществления.

Должно быть понятно, что подход, используемый процессором 217 наборов, может изменяться в зависимости от определенных предпочтений и требования отдельного варианта осуществления.

Во многих вариантах осуществления сигнальные блоки скомпонованы по наборам, содержащим только два сигнальных блока, т.е. сформированы пары сигнальных блоков. В других вариантах осуществления могут быть сформированы наборы из трех, четырех или даже большего числа сигнальных блоков.

В некоторых вариантах осуществления процессор 217 наборов может быть выполнен с возможностью формирования всех возможных наборов комбинаций сигнальных блоков. Например, могут быть сформированы все возможные парные комбинации сигнальных блоков. В других вариантах осуществления формируется только поднабор возможных парных комбинаций. Например, может быть сформирована только половина или четверть возможных парных комбинаций.

В вариантах осуществления, в которых в сформированных наборах представлен только поднабор комбинаций, процессор 217 наборов может использовать разные критерии в разных вариантах осуществления. Например, во многих вариантах осуществления наборы могут быть сформированы таким образом, чтобы разница во времени между сигнальными блоками в каждом наборе была выше порогового значения. На самом деле, за счет сравнения сигнальных блоков с большими временными смещениями обеспечивается большая вероятность того, что нестационарная аудиопомеха будет некоррелированной среди сигнальных блоков, и соответственно может быть сформирован улучшенный показатель помехи.

Например, при формировании пар процессор 217 наборов может не выбирать сигнальные блоки, которые являются последовательными, а скорее выбирать сигнальные блоки, которые имеют, по меньшей мере, заданное число промежуточных сигнальных блоков.

В некоторых вариантах осуществления каждый сигнальный блок входит в состав только одного набора. Тем не менее, в большинстве вариантов осуществления каждый сигнальный блок входит в состав, по меньшей мере, двух сигнальных блоков, и, на самом деле, во многих вариантах осуществления каждый сигнальный блок может входить в состав 2, 5, 10 или более наборов. Это может снизить риск переоценки помехи для некоторых сигнальных блоков. Например, если значение подобия для пары сигнальных блоков является низким, тем самым указывая, что есть существенная аудиопомеха, он может исходить от помехи только в одном из сигнальных блоков. Например, если нет аудиопомехи в одном сигнальном блоке пары, но при этом другой сигнальный блок подвержен сильному уровню помехи, это приведет к низкому значению корреляции и, тем самым, низкому значению подобия. Тем не менее, может быть невозможно определить, какой сигнальный блок подвержен аудиопомехе, и соответственно оба сигнальных блока могли бы быть отброшены на основе данного сравнения.

Тем не менее, если сигнальные блоки входя в состав большего числа пар, увеличивается шанс того, что чистый сигнальный блок будет сгруппирован с другим относительно чистым сигнальным блоком в по меньшей мере одной из пар. Соответственно значение корреляции для этой пары будет относительно высоким, и, тем самым, значение подобия будет относительно высоким. Это парное образование будет надлежащим образом отражать то, что оба сигнальных блока являются чистыми и могут быть использованы для дальнейшей обработки.

Должно быть понятно, что число наборов может быть выбрано таким образом, чтобы обеспечить подходящий компромисс между затратами вычислительных ресурсов, требованиями к памяти, производительностью и надежностью.

Процессор 219 подобия может использовать любой подходящий подход к определению значения подобия для набора.

Например, для пары сигнальных блоков значение взаимной корреляции может быть определено и использовано в качестве значения подобия.

В качестве конкретного примера, подобие, соответствующее нормированной взаимной корреляции между i-м и j-м сигнальными блоками, может быть вычислено следующим образом:

где z_x(n) обозначает n-ю выборку x-го сигнального блока, и E{} обозначает оператор ожидаемого значения. Ожидаемое значение может быть вычислено применительно к сигнальным блокам или подпериодам сигнальных блоков, при этом

где Z_x(n) обозначает вектор-столбец сигнальных выборок, содержащихся в заданном подпериоде, и T обозначает операцию транспонирования вектора.

Сигнал микрофона можно рассматривать как состоящий из трех составляющих, а именно: составляющей тестового сигнала, составляющей стационарного шума (как правило, аддитивный белый гауссовский шум) и нестационарной аудиопомехи. Показатель помехи используется для оценки последней составляющей.

В некоторых вариантах осуществления процессор 219 подобия и/или средство 221 оценки помехи могут обладать функциональной возможностью оценки составляющей тестового сигнала и/или составляющей стационарного шума. Значение подобия и/или показатель помехи могут затем быть скомпенсированы в соответствии с этими оценками.

Например, увеличение энергии тестового сигнала может снизить нормированное значение корреляции. Соответственно, если энергия тестового сигнала может быть оценена, сформированный показатель помехи может быть скомпенсирован надлежащим образом. Например, таблица соответствий, связывающая уровень энергии со значением компенсации, может использоваться со значением компенсации, которое затем применяется к каждому значению подобия или окончательному показателю помехи.

Энергия сигнала может, например, быть оценена на основе наборов сигнальных блоков. Например, может быть идентифицирован набор, имеющий наивысшее значение подобия для всех наборов. Он, вероятно, имеет наименьшую возможную аудиопомеху, и соответственно энергия сигнала составляющей тестового сигнала может быть оценена таким образом, чтобы соответствовать энергии сигнального блока, имеющего наименьшую энергию.

Аналогично, стационарный шум может влиять на значения подобия, и за счет компенсации значений подобия и/или показателя помехи на основе оценки стационарного шума может быть достигнута улучшенная производительность. Оценка стационарного шума может, в частности, представлять собой оценку минимального уровня шума. Оценка уровня стационарного шума может, например, быть определена путем разложения сигнала во временной области на совокупность частотных составляющих и отслеживания минимального значения огибающей каждой составляющей. Средняя мощность среди частот может использоваться в качестве оценки уровня шума во временной области.

Показатель помехи для заданного сигнального блока может, в частности, формироваться за счет идентификации наивысшего значения подобия для наборов, в состав которых входит сигнальный блок, а затем установки показателя помехи равным этому значению (или монотонной функции этого значения).

Это гарантирует то, что показатель помехи отражает наилучшее достигнутое сравнение, которое, вероятно, произошло, когда оба сигнальных блока подвергались минимальной помехе. Данный подход может, в частности, отражать то, что, если одно близкое совпадение может быть найдено для сигнального блока, то существует вероятность того, что оба сигнальных блока подвержены низкой помехе.

В других вариантах осуществления могут определяться более сложные показатели помехи. Например, взвешенное среднее по всем значениям подобия для заданного сигнального блока может использоваться там, где добавляется присваивание весовых коэффициентов для увеличения значений подобия.

Процессор 211 калибровки выполнен с возможностью учитывать показатель помехи при определении параметров адаптации для аудиоприложения. В частности, вкладу каждого сигнального блока может быть присвоен весовой коэффициент в зависимости от показателя помехи таким образом, чтобы сигнальные блоки, для которых показатель помехи является относительно высоким, имели большее влияние на сформированные параметры адаптации, чем сигнальные блоки, для которых показатель помехи является относительно низким. Это присваивание весовых коэффициентов может, например, выполняться в некоторых вариантах осуществления в отношении входного сигнала в процессор 211 калибровки, т.е. в отношении самих сигнальных блоков. В других примерах оценкам параметров адаптации, сформированным для заданного сигнального блока, могут быть присвоены весовые коэффициенты в соответствии с показателем помехи до объединения с оценками параметров для других сигнальных блоков.

В некоторых вариантах осуществления может выполняться присваивание весовых коэффициентов с двоичным значением, и, в частности, сигнальные блоки могут быть либо отброшены, либо использованы при адаптации на основе показателя помехи. Таким образом, сигнальные блоки, для которых показатель помехи ниже порогового значения (соответствующего значению подобия выше порогового значения), могут использоваться при адаптации, в то время как сигнальные блоки, для которых показатель помехи выше порогового значения, отбрасываются и не используются в дальнейшем. Пороговое значение может быть в некоторых вариантах осуществления фиксированным пороговым значением и может быть в других вариантах осуществления адаптивным пороговым значением.

Например, как описано ранее, значение корреляции и, таким образом, показатель помехи могут зависеть от энергии составляющей тестового сигнала и от стационарного шума. Вместо компенсации значений подобия или показателя помехи можно изменить пороговое значение для отбрасывания или выбора сигнальных блоков в соответствии с оценкой энергии тестового сигнала или оценкой стационарного шума.

Может быть, например, применен аналогичный подход использования таблицы соответствий значений компенсации, определенных при испытаниях в условии производства, причем результирующее значение компенсации применяется к пороговому значению.

В предыдущем примере делитель 215 может формировать большое число сигнальных блоков, которые сохраняются в локальной памяти для составной обработки процессором 217 наборов и процессором 219 подобия. Тем не менее, должно быть понятно, что могут быть использованы многие другие реализации, и что, в частности, может быть использована более последовательная обработка.

Таким образом, вместо формирования наборов для всех сигнальных блоков, а затем значений подобия и т.д., этапы могут выполняться по отдельности, например, для каждого нового блока.

Например, когда начинается процесс адаптации, генератор 213 тестового сигнала может формировать тестовый сигнал. Первый сигнальный блок может быть сформирован и сохранен в локальной памяти. После подходящей задержки (например, просто соответствующей интервалу времени сигнального блока), может быть сформирован второй сигнальный блок. Он затем сравнивается со сохраненным сигнальным блоком для формирования значения подобия. Если значение подобия достаточно высокое, то новый сигнальный блок подается в процессор 211 калибровки для дальнейшей обработки.

Когда принят сигнальный блок, который приводит к значению подобия ниже порогового значения, новый сигнальный блок может заменить сохраненный сигнальный блок и, таким образом, использоваться в качестве опорного для последних сигнальных блоков. В некоторых вариантах осуществления может динамически приниматься решение между тем, оставить ли сохраненный опорный сигнальный блок, или заменить его вновь принятым сигнальным блоком. Например, сигнальный блок, имеющий наименьшую энергию сигнала, может быть сохранен, так как он, вероятно, соответствует сигнальному блоку с наименьшей энергией аудиопомехи (в частности, если помеха и тестовый сигнал являются значительно некоррелированными).

Далее будет описан конкретный пример функционирования варианта осуществления изобретения. Пример применим к системе с Фиг. 2.

Пример относится к системе коррекции речевых сигналов для подавления акустического эха, причем система адаптирована на основе аудиосигнала. Такая система обычно состоит из средства подавления эха, за которым следует постпроцессор, который ослабляет оставшееся эхо и, как правило, также основан на конкретной модели нелинейного эха. Тестовый сигнал воспроизводится через громкоговоритель устройства, и происходит запись сигнала микрофона.

Допустим сигнал x(n) настройки дискретного времени длительностью NT выборок является периодическим с периодом Т выборок,

где N представляет собой число периодов. Далее это обозначение будет упрощено, и будет сделано допущение, что сигнал разделен на N смежных и идентичных частей, каждая из которых имеет длину Т, обозначенные как x_k(n) для k=1, …, N.

Предполагается, что тракт акустического эха является нелинейной изменяющейся во времени системой, при этом линейная часть тракта эха является изменяющейся во времени и следует за независящей от времени нелинейной частью. Сигнал микрофона, соответствующий каждому повтору x_k(n) задается следующим образом:

где составляющая e_k(n) эха содержит линейную и нелинейную составляющие, s_k(n), как предполагается, является нестационарной аудиопомехой, такой как речевой сигнал, и v_k(n), как предполагается, является стационарным фоновым шумом, который может быть смоделирован как процесс белого шума. Нестационарная помеха и стационарный фоновый шум, как предполагается, являются некоррелированными друг с другом и на протяжении периодов,

где E{} обозначает ожидаемое значение и 1≤i, j≤N.

Также предполагается, что сигналы являются независимыми и имеют нулевое среднее значение (отфильтрованы по высоким частотам),

Система включает в себя блок проверки целостности сигнала, который проверяет записанный сигнал микрофона и отбрасывает сигнальные блоки/периоды, подверженные слишком большой помехе.

Это достигается за счет вычисления показателя подобия между соответствующими блоками z_k(n) для 1≤k≤N.

Общее число вычисленных подобий в данном конкретном примере составляет

на блок, причем

Если два блока только содержат эхо/тестовый сигнал (и составляющую стационарного шума), они будут подобными и могут использоваться для адаптации системы. Однако, если по меньшей мере один из блоков при попарном сравнении содержит значительную помеху, тогда проверяются другие пары блоков. Если нет двух подобных блоков, тогда блок не используется в методе адаптации. Для увеличенной устойчивости зачастую требуется выбирать N>2 для увеличения вероятности того, что по меньшей мере одна пара блоков является подобной.

Могут использоваться разные показатели подобия. Ниже представлены некоторые конкретные варианты:

ПОКАЗАТЕЛЬ ПОДОБИЯ НА ОСНОВЕ КОРРЕЛЯЦИИ

Нормированная взаимная корреляция между i-ым и j-ым блоками может, как упомянуто ранее, использоваться в качестве значения подобия. Его можно, в частности, записать в следующем виде:

причем 0≤ρ_ij≤1.

Взаимную корреляцию можно соответственно записать следующим образом:

Следует отметить, что присутствие источника нестационарной помехи уменьшает значение ρ_ij. Следовательно, допуская отсутствие какой-либо аудиопомехи в i-ом и j-ом сигнальных блоках/периодах, нижняя граница для порогового значения, определяющего, включать или отбрасывать блоки для адаптации, может быть записана в следующем виде:

Где

поскольку

. Следует отметить, что, хотя эхо e(n) также содержит нелинейные составляющие, оценка взаимной корреляции и члены второго момента могут быть вычислены с использованием эхо-сигнала, оцененного линейным адаптивным фильтром. В зависимости от размера шага и длины фильтра адаптивный фильтр может отслеживать нелинейности с некоторой степенью.

Если предположить, что система является независящей от времени, т.е. e_k(n)=e(n) для всех k, тогда пороговое значение η_corr будет сведено к величине

где

обозначает отношение эха к шуму.

ПОКАЗАТЕЛЬ ПОДОБИЯ НА ОСНОВЕ СРЕДНЕКВАДРАТИЧНОГО ОТКЛОНЕНИЯ

Возможный показатель подобия на основе среднеквадратичного отклонения задается следующим образом:

где δ_ij≥0. Заменяя z_i(n) и z_j(n), получим, что

Предполагая отсутствие аудиопомехи (s_i(n)=s_j(n)=0), данное выражение можно упростить следующим образом:

что можно использовать в качестве порогового значения для обнаружения, содержит ли один двух кадров аудиопомеху, причем

Если предполагается независимость от времени, т.е. e_k(n)=e(n) для всех k, тогда пороговое значение η_diff сведется к следующему:

ПОКАЗАТЕЛЬ ПОДОБИЯ НА ОСНОВЕ МОЩНОСТИ

Показатель, которые менее чувствителен к тонкой структуре сигнала, задается следующим образом:

Расписывая члены сигнала микрофона, получим, что

Предполагая отсутствие аудиопомехи (s_i(n)=s_j(n)=0), данное выражение может быть упрощено следующим образом:

Трудность с этим значением состоит в том, что знак

может быть положительным или отрицательным, делая его менее пригодным в качестве порогового значения.

ПОКАЗАТЕЛЬ ОТКЛОНЕНИЯ ЧИСЛА ПЕРЕХОДОВ ЧЕРЕЗ НУЛЬ

Частота или число переходов через нуль является признаком, который в особенности пригоден для того, чтобы отличить музыку от речи. Показатель отклонения числа переходов через нуль (ZCCD) может быть определен следующим образом:

где ZCC(·) обозначает число переходов через нуль.

ИНДЕКС ВЗАИМНОЙ КОРРЕЛЯЦИИ СОВМЕСТНОЙ ИНФОРМАЦИИ

Индекс взаимной корреляции совместной информации (MICI) может быть задан следующим образом:

который равен нулю, когда z_i(n) и z_j(n) являются линейно зависимыми, и увеличивается по мере уменьшения зависимости. Этот показатель также использует нормированную функцию ρ_ij взаимной корреляции между двумя сигналами.

Данный подход может функционировать следующим образом.

Сначала воспроизводится тестовый сигнал, причем тестовый сигнал содержит N повторов. Сигнал записывается микрофоном 201.

Система затем приступает к оценке уровня шума в записанном сигнале.

Сигнал микрофона разделяется на N смежных частей длиной Т выборок. Это разделение может не принимать во внимание в сигнале микрофона в течение начального периода после запуска тестового сигнала, чтобы обеспечить фиксацию влияния (в частности, чтобы обеспечить реверберацию тестового сигнала, который должен присутствовать в первых сформированных сигнальных блоках).

Для каждого периода линейное акустическое эхо оценивается с использованием адаптивного фильтра. Это может обеспечить оценку уровня энергии сигнала для эха/тестового сигнала, записанного микрофоном.

Для каждого блока пороговое значение, определяющее, следует ли выбрать блок или нет, определяется с использование оценки эха и оценки уровня шума для получения порогового значения. Пороговое значение может быть скорректировано для каждого блока/отрезка.

Окончательные пороговые значения для каждого кадра могут быть основаны на максимуме (в случае использования ρ_ij) или минимуме (в случае использования δ_ij) среди всех кадров.

Для каждого из блоков пара классифицируется как подобная или не зависящая от того, превышает ли (в случае использования ρ_ij) показатель заданное пороговое значение или ниже него (в случае использования δ_ij).

Из-за ограничительных пороговых значений является неминуемым то, что некоторые переходные помехи в отклике эха могут вызывать пропуск обнаружения чистого блока. Другими словами, блок может быть классифицирован как содержащий помеху, когда, в действительности, переходное состояние, такое как перемещение, вызвало большое отклонение, подлежащее обнаружению. Чтобы предотвратить это, может использоваться форма сглаживания результата обнаружения, например, используя медианную фильтрацию. Например, допустим, что значение 1 означает, что текущий кадр является подобным другому, а значение 0 – что он отличен. С учетом буфера текущего результата обнаружения кадра и B-1 предыдущих результатов обнаружения, если число подобных кадров ниже конкретного порогового значения, тогда средний кадр в буфере обнаружения устанавливается равным 0. Если число подобных кадров выше конкретного порогового значения, тогда средний кадр устанавливается равным 1.

В другом аспекте рассматривается, как получить пороговые значения на основе оценки эха, произведенной средством подавления акустического эха. Если пороговое значение корректируется в каждом блоке, тогда произведенная оценка эха основана на предыдущих коэффициентах адаптивного фильтра. Следовательно, после каждой коррекции коэффициентов фильтра, предпочтительно должна производиться новая оценка эха с тем, чтобы улучшить синхронность между текущим показателем подобия и соответствующим пороговым значением.

Поскольку пороговые значения, представленные выше, являются очень ограниченными, часто будет требоваться сделать их менее строгими, например, масштабируя следующим образом:

Экспериментальные данные для сценария, в котором был использован тестовый сигнал, состоящий из трех периодов, представлены на Фиг. 3-10.

В данном примере тестовый сигнал был воспроизведен через громкоговорители телевизора. Длина сигнального блока была установлена в 512 выборок, и длина адаптивного фильтра для оценки тракта эха была установлена в 512 выборок. NLMS-алгоритм был применен для оценки линейного эха. Кроме того, значения ε и γ в приведенных выше формулах масштабирования порогового значения были взяты равными 0,98 и 3,0 соответственно. Медианный фильтр длиной 10 (результаты обнаружения блоков) также используется для сглаживания результатов обнаружения и соответствует приблизительно 320 мсек для заданного размера кадра.

В идеале, данный подход должен быть устойчивым к перемещениям в локальной среде, которые могут изменить импульсный отклик тракта акустического эха. В последующем наборе результатов человек, находящийся в комнате, перемещается в разные положения между периодами тестового сигнала, чтобы эффективно изменить тракт акустического эха. Фиг. 3-6 показывают показатели подобия и результаты, использующие показатели подобия на основе корреляции и отклонения. Следует отметить, что оба показателя демонстрируют устойчивость к перемещениям в локальной акустической среде, что является важным, поскольку изменения в акустическом тракте не должны вызывать ложные результаты обнаружения присутствия источника помеха.

В частности, Фиг. 3 иллюстрирует показатель подобия на основе корреляции и пороговое значение для трех периодов тестового сигнала только с локальными перемещениями. Метки по оси y указывают периоды тестового сигнала, задействованные в показателе подобия, например, 12 обозначает показатель подобия между первым и вторым периодами. Фиг. 4 иллюстрирует результирующую производительность обнаружения с использованием показателя подобия на основе корреляции (причем 1 обозначает блок, который считается чистым, а 0 обозначает блок, который, как считается, подвержен помехе). Фиг. 5 иллюстрирует показатель подобия на основе среднеквадратичного отклонения и пороговое значение для трех периодов тестового сигнала только с локальными перемещениями. Фиг. 6 иллюстрирует то же самое, но для показателя подобия на основе среднеквадратичного отклонения.

В последующих примерах локальная речевая помеха внесена во время записи тестового сигнала в течение второй половины каждого тестового периода. Следует отметить, что в течение второй половины периода в процессе адаптации отбрасываются кадры, которые содержат речевые помехи.

Фиг. 7 иллюстрирует показатель подобия на основе корреляции и пороговое значение для трех периодов тестового сигнала с локальной речевой помехой. Фиг. 8 иллюстрирует результирующую производительность обнаружения с использованием показателя подобия на основе корреляции. Фиг. 9 иллюстрирует показатель подобия на основе среднеквадратичного отклонения и пороговое значение для трех периодов тестового сигнала с локальной речевой помехой. Фиг. 10 иллюстрирует то же самое, но для показателя подобия на основе среднеквадратичного отклонения.

Должно быть понятно, что в представленном выше описании для ясности раскрыты варианты осуществления изобретения со ссылкой на разные функциональные схемы, блоки и процессоры. Тем не менее, должно быть очевидно, что любое подходящее распределение функциональных возможностей между разными функциональными схемами, блоками или процессорами может быть использовано без ограничения изобретения. Например, проиллюстрированные функциональные возможности, подлежащие реализации отдельными процессорами или контроллерами, могут выполняться одним и тем же процессором или контроллером. Отсюда следует, что ссылки на конкретные функциональные блоки или схемы должны рассматриваться исключительно как ссылки на подходящие средства для обеспечения описанных функциональных возможностей, а не как указания на строгую логическую или физическую структуру или организацию.

Изобретение может быть реализовано в любой подходящей форме, включая аппаратное обеспечение, программное обеспечение, программно-аппаратное обеспечение или любое их сочетание. Изобретение может, если потребуется, быть реализовано, по меньшей мере, частично в виде компьютерного программного обеспечения, выполняемого одним или более процессорами данных и/или цифровыми сигнальными процессорами. Элементы и компоненты варианта осуществления изобретения могут быть физически, функционально или логически реализованы любым подходящим образом. На самом деле, функциональные возможности могут быть реализованы в одном блоке, во множестве блоков или как часть других функциональных блоков. Изобретение как таковое может быть реализовано в одном блоке или может быть физически и функционально распределено между разными блоками, схемами и процессорами.

Несмотря на то, что настоящее изобретение было описано в сочетании с некоторыми вариантами осуществления, не предполагается, что оно ограничено конкретной формой, представленной в данном документе. Напротив, объем настоящего изобретения ограничен только приложенной формулой изобретения. Вдобавок, хотя признак может представляться как описанный в сочетании с определенными вариантами осуществления, специалисту в данной области техники будет понятно, что различные признаки описанных вариантов осуществления могут быть объединены в соответствии с изобретением. В формуле изобретения слово «содержащий» не исключает наличия других элементов или этапов.

Кроме того, хотя множество средств, элементов, схем или этапов способа были перечислены по отдельности, оно может быть реализовано, например, с помощью одно схемы, блока или процессора. Вдобавок, хотя отдельные признаки могут содержаться в разных пунктах формулы изобретения, они могут быть, по возможности, с пользой объединены, и их наличие в разных пунктах формулы изобретения не подразумевает, что объединение признаков невозможно и/или невыгодно. Также включение признака в одну категорию пунктов формулы изобретения не подразумевает ограничение этой категорией, а скорее указывает на то, что данный признак в равной степени применим к другим категориям пунктов формулы изобретения в случае такой необходимости. Более того, порядок признаков в пунктах формулы изобретения не подразумевает любой конкретный порядок, в котором признаки должны быть использованы, и, в частности, порядок отдельных этапов в пунктах формулы изобретения, характеризующих способ, не подразумевает, что этапы должны выполняться в этом порядке. Напротив, этапы могут выполняться в любом подходящем порядке. Помимо этого, ссылки на единственное число не исключают множества. Таким образом, ссылки на «первый», «второй» и т.д. не исключают множества. Ссылочные обозначения в пунктах формулы изобретения представлены только в качестве поясняющего примера и не должны рассматриваться как ограничивающие каким-либо образом объем формулы изобретения.

Claims

1. Устройство оценки аудиопомех, содержащее:

приемник для приема сигнала микрофона от микрофона, причем сигнал микрофона содержит составляющую тестового сигнала, соответствующую тестовому аудиосигналу, захваченному микрофоном;

делитель для разделения сигнала микрофона на множество интервальных составляющих тестового сигнала, причем каждая интервальная составляющая тестового сигнала соответствует сигналу микрофона в некоторый интервал времени, при этом тестовый аудиосигнал содержит множество повторов составляющей аудиосигнала, и распределение во времени интервальных составляющих тестового сигнала соответствует распределению во времени упомянутых повторов;

процессор наборов для формирования наборов интервальных составляющих тестового сигнала из упомянутого множества интервальных составляющих тестового сигнала;

процессор подобия для формирования значения подобия для каждого набора интервальных составляющих тестового сигнала;

средство оценки помехи для определения показателя помехи для отдельных интервальных составляющих тестового сигнала в ответ на значения подобия.

2. Устройство по п. 1, дополнительно содержащее блок калибровки для адаптации обработки сигналов в ответ на интервальные составляющие тестового сигнала, причем блок адаптации выполнен с возможностью взвешивания, по меньшей мере, вклада первой интервальной составляющей тестового сигнала в ответ на оценку помехи для первого интервала времени.

3. Устройство по п. 2, в котором блок калибровки выполнен с возможностью отбрасывания интервальных составляющих тестового сигнала, для которых оценка помехи выше порогового значения.

4. Устройство по п. 1, дополнительно содержащее средство оценки стационарного шума, выполненное с возможностью формирования оценки стационарного шума и компенсации по меньшей мере одного из порогового значения и оценки помехи в ответ на оценку стационарного шума.

5. Устройство по п. 4, в котором оценка стационарного шума представляет собой оценку минимального уровня шума.

6. Устройство по п. 1, дополнительно содержащее средство оценки тестового сигнала, выполненное с возможностью формирования оценки уровня для составляющей тестового сигнала и компенсации по меньшей мере одного из порогового значения и оценки помехи в ответ на оценку уровня.

7. Устройство по п. 1, в котором делитель выполнен с возможностью разделения сигнала микрофона на упомянутое множество интервальных составляющих тестового сигнала в ответ на характеристики повторяемости тестового аудиосигнала.

8. Устройство по п. 1, в котором средство оценки помехи выполнено с возможностью, для первой интервальной составляющей тестового сигнала из упомянутого множества интервальных составляющих тестового сигнала, определения максимального значения подобия для значений подобия наборов, включающих в себя первую интервальную составляющую тестового сигнала; и определения показателя помехи для первой интервальной составляющей тестового сигнала в ответ на максимальное значение подобия.

9. Устройство по п. 1, в котором делитель выполнен с возможностью формирования по меньшей мере двух наборов, содержащих по меньшей мере первую из интервальных составляющих тестового сигнала.

10. Устройство по п. 1, в котором каждый набор состоит из двух интервальных составляющих тестового сигнала.

11. Устройство по п. 10, в котором делитель выполнен с возможностью формирования наборов, соответствующих всем парным комбинациям интервальных составляющих тестового сигнала.

12. Устройство по п. 9, в котором каждая интервальная составляющая тестового сигнала имеет продолжительность не менее 10 мсек и не более 200 мсек.

13. Способ формирования показателя аудиопомехи, при этом способ содержит этапы, на которых:

принимают сигнал микрофона от микрофона, причем сигнал микрофона содержит составляющую тестового сигнала, соответствующую тестовому аудиосигналу, захваченному микрофоном;

разделяют сигнал микрофона на множество интервальных составляющих тестового сигнала, причем каждая интервальная составляющая тестового сигнала соответствует сигналу микрофона в некоторый интервал времени, при этом тестовый аудиосигнал содержит множество повторов составляющей аудиосигнала, и распределение во времени интервальных составляющих тестового сигнала соответствует распределению во времени упомянутых повторов;

формируют наборы интервальных составляющих тестового сигнала из упомянутого множества интервальных составляющих тестового сигнала;

формируют значение подобия для каждого набора интервальных составляющих тестового сигнала; и

определяют показатель помехи для отдельных интервальных составляющих тестового сигнала в ответ на значения подобия.