RU2759715C2

RU2759715C2 - Sound recording using formation of directional diagram

Info

Publication number: RU2759715C2
Application number: RU2019124543A
Authority: RU
Inventors: Корнелис Питер ЯНСЕ; Брайан Бранд Антониус Йоханнес БЛЕМЕНДАЛЬ
Original assignee: Конинклейке Филипс Н.В.
Priority date: 2017-01-03
Filing date: 2017-12-20
Publication date: 2021-11-17
Also published as: US20190349678A1; JP2020515106A; RU2019124543A; CN110249637A; CN110249637B; US10638224B2; WO2018127412A1; EP3566463B1; RU2019124543A3; BR112019013666A2; EP3566463A1; JP6644959B1

Abstract

FIELD: acoustics.SUBSTANCE: tool for forming a directional diagram contains a microphone array that is connected to the first generator of a directional diagram and the second generator of a directional diagram. Generators of a directional diagram are filtering and combining generators of a directional diagram containing a set of filters of a shape of a directional diagram, each of which has an adaptive impulse response. A mismatch processor determines a mismatch indicator between directional diagrams of the first generator of a directional diagram and the second generator of a directional diagram in response to a comparison of adaptive impulse responses of two generators of a directional diagram. The mismatch indicator, for example, can be used to combine output signals of generators of a directional diagram. The mismatch indicator is chosen to be less sensitive to scattered noise.EFFECT: increase in the efficiency of noise suppression.14 cl, 8 dwg

Description

Область техники, к которой относится изобретениеThe technical field to which the invention relates

Изобретение относится к звукозаписи с использованием формирования диаграммы направленности и, в частности, но не исключительно, к записи речи с использованием формирования диаграммы направленности.The invention relates to sound recording using beamforming, and in particular, but not exclusively, to voice recording using beamforming.

УРОВЕНЬ ТЕХНИКИ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION

Звукозапись и, в частности запись речи, становилась все более и более важной в последние десятилетия. Действительно, звукозапись стала в большей степени важной применительно к многообразию применений, в том числе, дистанционной связи, телеконференцсвязи, играм, речевым интерфейсам пользователя, и т. д. Однако, проблема в многих сценариях и применениях состоит в том, что желательный источник речи типично не является единственным источником звука в окружающей среде. Скорее, в типичных акустических средах, есть много других источников звука/шума, которые захватываются микрофоном. Одна из критических проблем, стоящих перед многими применениями звукозаписи, состоит в том, каким образом лучше всего выделять речь из шумной окружающей среды. Для того чтобы принять меры в ответ на эту проблему, было предложено некоторое количество разных подходов для подавления шумов.Sound recording, and in particular speech recording, has become more and more important in recent decades. Indeed, sound recording has become increasingly important in a variety of applications, including telecommuting, teleconferencing, games, speech user interfaces, etc. However, a problem in many scenarios and applications is that the desired speech source is typically is not the only sound source in the environment. Rather, in typical acoustic environments, there are many other sound / noise sources that are picked up by the microphone. One of the critical issues facing many recording applications is how to best isolate speech from noisy environments. In order to respond to this problem, a number of different noise suppression approaches have been proposed.

Действительно, исследования в области систем громкой телефонной связи являются предметом обсуждения, который десятилетиями привлекал большой интерес. Первые имеющиеся в распоряжении коммерческие системы сосредотачивались на профессиональных системах (видео) конференцсвязи в средах с низким фоновым шумом и низким временем реверберации. Было обнаружено, что особенно полезным подходом для идентификации и выделения желательных источников звука, например, таких как желательный докладчик, является использование формирования диаграммы направленности на основании сигналов с микрофонной решетки. Изначально часто использовалась микрофонная решетка с фокусированной неподвижной диаграммой направленности, но позже более популярным стало использование адаптивных диаграмм направленности.Indeed, research into hands-free telephone systems is a topic of discussion that has attracted a lot of interest for decades. The first commercial systems available focused on professional (video) conferencing systems in environments with low background noise and low reverberation times. It has been found that a particularly useful approach for identifying and highlighting desired sound sources, such as a desired presenter, for example, is to use beamforming based on signals from a microphone array. Initially, a microphone array with a focused fixed pattern was often used, but later the use of adaptive patterns became more popular.

Во второй половине 1990-ых, начали выпускаться системы громкой связи для мобильных телефонов. Подразумевалось, что они должны использоваться в многих разных средах, в том числе, реверберирующих помещениях и при (более) высоких уровнях фонового шума. Такие акустические среды предусматривают существенно более трудные задачи и, в частности, могут осложнять или ухудшать адаптацию сформированной диаграммы направленности.In the second half of the 1990s, hands-free systems for mobile phones began to be produced. They were meant to be used in many different environments, including reverberant rooms and (higher) background noise levels. Such acoustic environments provide for significantly more difficult tasks and, in particular, can complicate or worsen the adaptation of the formed radiation pattern.

Сначала исследования в области записи применительно к таким средам сосредотачивались на ослаблении эхо, а позже на подавлении шумов. Пример системы звукозаписи, основанной на формировании диаграммы направленности, проиллюстрирован на фиг. 1. В примере, направленная решетка из множества микрофонов 101 присоединена к формирователю 103 диаграммы направленности, который вырабатывает сигнал z(n) источника звука и один или более шумовых опорных сигналов x(n).Recording research for such environments initially focused on echo attenuation and later on noise cancellation. An example of a beamforming sound recording system is illustrated in FIG. 1. In an example, a directional array of a plurality of microphones 101 is coupled to a beamformer 103 that produces a sound source signal z (n) and one or more noise reference signals x (n).

Микрофонная решетка 101 в некоторых вариантах осуществления может содержать только два микрофона, но типично будет содержать большее количество.Microphone array 101 may contain only two microphones in some embodiments, but will typically contain more.

Формирователь 103 диаграммы направленности, более точно, может быть адаптивным формирователем диаграммы направленности, в котором одна диаграмма направленности может быть направлена на источник речи с использованием пригодного алгоритма адаптации.The beamformer 103, more specifically, may be an adaptive beamformer, in which a single beamform can be directed to a speech source using a suitable adaptation algorithm.

Например, US 7 146 012 и US 7 602 926 раскрывает примеры адаптивных формирователей диаграммы направленности, которые фокусируются на речи, но также выдает опорный сигнал, который (почти) не содержит в себе речь.For example, US 7,146,012 and US 7,602,926 disclose examples of adaptive beamforming devices that focus on speech, but also provide a reference signal that (almost) does not contain speech.

Формирователь диаграммы направленности создает улучшенный выходной сигнал, z(n), когерентно добавляя желательную часть сигналов с микрофонов посредством фильтрации принятых сигналов в прямых согласующих фильтрах и добавления отфильтрованных выходных сигналов. К тому же, выходной сигнал фильтруется в обратных адаптивных фильтрах, имеющих характеристики фильтра, сопряженные с прямыми фильтрами (в частотной области, соответствующей обращенным по времени импульсным характеристикам во временной области). Сигналы ошибки вырабатываются в качестве разности между входными сигналами и выходными сигналами обратных адаптивных фильтров, и коэффициенты фильтров адаптируются, чтобы минимизировать сигналы ошибки, тем самым давая в результате звуковую диаграмму направленности, управляемую в направлении преобладающего сигнала. Сформированные сигналы x(n) ошибки могут рассматриваться в качестве шумовых опорных сигналов, которые особенно пригодны для выполнения дополнительного ослабления шума над улучшенным выходным сигналом z(n).The beamformer creates an improved output, z (n), by coherently adding the desired portion of the microphone signals by filtering the received signals in direct match filters and adding the filtered outputs. In addition, the output signal is filtered in inverse adaptive filters having filter characteristics coupled to the forward filters (in the frequency domain corresponding to the time-reversed impulse responses in the time domain). The error signals are generated as the difference between the input signals and the outputs of the inverse adaptive filters, and the filter coefficients are adapted to minimize the error signals, thereby resulting in an audio beam steered in the direction of the dominant signal. The generated error signals x (n) can be considered as noise reference signals, which are particularly suitable for performing additional noise reduction on the improved output signal z (n).

Первичный сигнал z(n) и опорный сигнал x(n) типично оба загрязнены шумом. В том случае, если шум в двух сигналах когерентен (например, когда есть создающий помехи точечный источник шума), адаптивный фильтр 105 может использоваться для ослабления когерентного шума.The primary signal z (n) and the reference signal x (n) are typically both contaminated with noise. In the event that the noise in the two signals is coherent (eg, when there is an interfering point noise source), an adaptive filter 105 can be used to attenuate the coherent noise.

С этой целью, шумовой опорный сигнал x(n) привязан ко входу адаптивного фильтра 105 с выходом, вычитаемым из сигнала z(n) источника звука для формирования компенсированного сигнала r(n). Адаптивный фильтр 105 приспособлен минимизировать мощность компенсированного сигнала r(n), типично, когда желательный источник звука не активен (например, когда нет речи), и это дает в результате подавление когерентного шума.To this end, the noise reference signal x (n) is coupled to the input of the adaptive filter 105 with an output subtracted from the sound source signal z (n) to generate a compensated signal r (n). The adaptive filter 105 is adapted to minimize the power of the compensated signal r (n), typically when the desired sound source is inactive (eg, when there is no speech), and this results in suppression of coherent noise.

Компенсированный сигнал подается в постпроцессор 107, который выполняет ослабление шума над компенсированным сигналом r(n) на основании шумового опорного сигнала x(n). Более точно, постпроцессор 107 преобразует компенсированный сигнал r(n) и шумовой опорный сигнал x(n) в частотную область с использованием оконного преобразования Фурье. Затем, он, применительно к каждому элементу разрешения по частоте, модифицирует амплитуду R(ω), вычитая масштабированный вариант амплитудного спектра X(ω). Получающийся в результате комплексный спектр преобразуется обратно во временную область, чтобы давать выходной сигнал q(n), в котором был подавлен шум. Эта технология спектрального вычитания впервые была описана в S.F. Boll, «Suppression of Acoustic Noise in Speech using Spectral Subtraction» («Подавление акустического шума в речи с использованием спектрального вычитания»), IEEE Trans. Acoustics, Speech and Signal Processing, vol. 27, pp. 113-120, Apr. 1979.The compensated signal is fed to a post-processor 107 which performs noise reduction on the compensated signal r (n) based on the noise reference x (n). More specifically, the post processor 107 converts the compensated signal r (n) and the noise reference signal x (n) to the frequency domain using a windowed Fourier transform. Then, for each frequency bin, it modifies the amplitude R (ω) by subtracting the scaled version of the amplitude spectrum X (ω). The resulting complex spectrum is converted back to the time domain to give an output q (n) in which noise has been suppressed. This spectral subtraction technology was first described by S.F. Boll, “Suppression of Acoustic Noise in Speech using Spectral Subtraction,” IEEE Trans. Acoustics, Speech and Signal Processing, vol. 27, pp. 113-120, Apr. 1979.

Во многих системах звукозаписи, может использоваться множество формирователей диаграммы направленности, причем, они способны независимо адаптироваться к источнику звука. Например, для того чтобы отслеживать двух разных докладчиков в акустической среде, устройство звукозаписи может включать в себя два независимо адаптивных формирователя диаграммы направленности.In many recording systems, a variety of beamforming devices can be used and are capable of independently adapting to the sound source. For example, in order to track two different presenters in an acoustical environment, a sound recorder may include two independently adaptive beam drivers.

В системах, использующих множество независимо адаптируемых формирователей диаграммы направленности, часто может быть полезно определять, насколько близко диаграммы направленности разных формирователей диаграммы направленности расположены друг к другу. Например, при использовании двух формирователей диаграммы направленности для отслеживания двух отдельных докладчиков, может быть важным гарантировать, что они оба не адаптируются оба, чтобы отслеживать одного и того же докладчика. Это, например, может достигаться посредством определения показателя несовпадения, который служит признаком различия между диаграммами направленности. Если показатель несовпадения указывает, что разность находится ниже порогового значения, это может повторно устанавливать в исходное состояние один из формирователей диаграммы направленности в направлении другого источника звука.In systems using a plurality of independently adaptable beamformers, it can often be useful to determine how close the beamforms of the different beamformers are to each other. For example, when using two beamformators to track two separate presenters, it can be important to ensure that both of them do not both adapt to track the same presenter. This, for example, can be achieved by defining a misalignment factor, which is indicative of the difference between the radiation patterns. If the mismatch metric indicates that the difference is below the threshold, this can reset one of the beam drivers towards the other sound source.

В других системах, устройство звукозаписи может использовать взаимодействующие формирователи диаграммы направленности для обеспечения улучшенной звукозаписи, и в таких системах может быть полезно определять, насколько близко друг к другу находятся разные диаграммы направленности.In other systems, an audio recorder may use interoperable beamforming devices to provide improved sound recording, and in such systems it can be useful to determine how close different radiation patterns are to each other.

Например, хотя система по фиг. 1 обеспечивает очень эффективную работу и полезное действие в многих сценариях, она оптимальна не во всех сценариях. Действительно, тогда как многие традиционные системы, в том числе, пример по фиг. 1, обеспечивают очень хорошие рабочие характеристики, когда желательный источник звука/докладчик находится в пределах радиуса реверберации микрофонной решетки, то есть, для применений, где энергия прямой волны желательного источника звука (предпочтительно значительно) мощнее энергии отражений желательного источника звука, они имеют тенденцию давать менее оптимальные результаты, когда это не так. В типичных средах, было обнаружено, что докладчик типично должен находиться в пределах 1-1,5 метра от микрофонной решетки.For example, although the system of FIG. 1 provides very efficient performance and useful action in many scenarios, it is not optimal in all scenarios. Indeed, while many conventional systems, including the example of FIG. 1 provide very good performance when the desired sound source / speaker is within the reverberation radius of the microphone array, that is, for applications where the forward energy of the desired sound source is (preferably significantly) more powerful than the reflection energy of the desired sound source, they tend to produce less optimal results when they are not. In typical environments, it has been found that the presenter should typically be within 1-1.5 meters of the microphone array.

Однако, есть сильное стремление к основанным на звукозаписи решениям, приложениям и системам громкой связи, где пользователь может находиться на больших расстояниях от микрофонной решетки. Это, например, желательно как для многих систем и приложений связи, так и для многих систем и приложений речевого управления. Системы, обеспечивающие улучшение речи, в том числе, подавление реверберации и подавление шума для таких ситуаций, находятся в области техники, упоминаемой как суперсистемы громкой связи.However, there is a strong desire for recording-based solutions, applications and hands-free systems where the user can be located at great distances from the microphone array. This is, for example, desirable for many communication systems and applications as well as many voice control systems and applications. Systems that provide speech enhancement, including reverberation cancellation and noise cancellation for such situations, are in the art referred to as supersonic communication systems.

Подробнее, когда дело касается дополнительного рассеянного шума и желательного докладчика вне радиуса реверберации, могут возникать следующие проблемы:In more detail, when it comes to additional stray noise and a desirable speaker outside the reverberation radius, the following problems can arise:

• Формирователь диаграммы направленности часто может иметь проблемы с проведением различия между эхом желательной речи и рассеянным фоновым шумом, давая в результате искажение речи.• A beamformer can often have problems distinguishing between the echo of the desired speech and scattered background noise, resulting in speech distortion.

• Адаптивный формирователь диаграммы направленности может медленнее сходиться по направлению к желательному докладчику. В течение времени, когда адаптивная диаграмма направленности еще не сошлась, будет потеря речи в опорном сигнале, давая в результате искажение речи в том случае, если этот опорный сигнал используется для нестационарного подавления и нейтрализации шума. Проблема возрастает, когда есть большее количество желательных источников, которые говорят один за другим.• The adaptive beamformer may converge more slowly towards the desired presenter. During the time that the adaptive radiation pattern has not converged yet, there will be speech loss in the reference signal, resulting in speech distortion if this reference signal is used for non-stationary noise cancellation and cancellation. The problem increases when there are more desirable sources that speak one after the other.

Решение для обращения с более медленно сходящимися адаптивными фильтрами (вследствие фонового шума) состоит в том, чтобы дополнять их некоторым количеством неподвижных диаграмм направленности, нацеливаемых в разных направлениях, как проиллюстрировано на фиг. 2. Однако, этот подход особенно развит применительно к сценариям, в которых желательный источник звука присутствует в пределах радиуса реверберации. Он может быть менее эффективным для источников звука за пределами радиуса реверберации и часто может приводить к ненадежным решениям в таких случаях, особенно если также есть акустический рассеянный фоновый шум.The solution to dealing with the more slowly converging adaptive filters (due to background noise) is to supplement them with a number of fixed radiation patterns aimed in different directions, as illustrated in FIG. 2. However, this approach is especially developed for scenarios in which the desired sound source is present within the reverberation radius. It can be less effective for sound sources outside the reverberation radius and can often lead to unreliable solutions in such cases, especially if there is also acoustic diffuse background noise.

В частности, для того чтобы управлять и эксплуатировать такую систему, типично важно быть способным измерять, насколько близко друг к другу находятся разные диаграммы направленности/формирователи диаграммы направленности. Например, может быть важно сравнивать сфокусированные и несфокусированные формирователи диаграммы направленности друг с другом для выбора, какую диаграмму направленности использовать для формирования выходного звукового сигнала.In particular, in order to control and operate such a system, it is typically important to be able to measure how close different beamforms / beamformers are to each other. For example, it can be important to compare focused and unfocused beamformers with each other to select which radiation pattern to use to generate the audio output.

Однако, формирование достоверных показателей несовпадения может быть очень трудным в многих сценариях, особенно таких как когда желательный источник звука находится вне радиуса реверберации. Типичные показатели несовпадения имеют тенденцию быть основанными на сравнении выходных сигналов, вырабатываемых формирователями диаграммы направленности, например, таком как посредством сравнения уровней сигнала или посредством соотнесения выходных сигналов. Еще один подход состоит в том, чтобы определять направление прихода (DoA) сигнала и сравнения таковых друг с другом.However, generating reliable misalignment readings can be very difficult in many scenarios, especially when the desired sound source is outside the reverberation radius. Typical mismatch metrics tend to be based on a comparison of the outputs produced by the beamformers, such as by comparing signal levels or by correlating outputs, for example. Another approach is to determine the direction of arrival (DoA) of the signal and compare them with each other.

Однако, тогда как такие показатели несовпадения могут обеспечивать приемлемые рабочие характеристики в многих вариантах осуществления, они склонны быть субоптимальными в многих практических сценариях. В частности, они склонны не быть оптимальными в сценариях с высокими уровнями шума и отражений, и, особенно в реверберирующих средах, в которых желательный источник звука находится за пределами радиуса реверберации.However, while such mismatch rates may provide acceptable performance in many embodiments, they tend to be suboptimal in many practical scenarios. In particular, they tend not to be optimal in scenarios with high levels of noise and reflections, and especially in reverberant environments where the desired sound source is outside the reverberation radius.

Это может пониматься, как изложено ниже: в случае если желательный источник звука находится вне радиуса реверберации, энергия прямого звукового поля мала по сравнению с энергией рассеянного звукового поля, создаваемого из отражений. Отношение прямого звукового поля к рассеянному звуковому полю будет дополнительно ухудшаться, если также есть рассеянный фоновый шум. Энергии разных диаграмм направленности будут приблизительно одинаковы и, соответственно, это не дает пригодного указания подобия диаграмм направленности. По той же причине, система, основанная на измерении DoA, не будет устойчивой: вследствие низкой энергии прямого поля, взаимная корреляция сигналов не будет давать острого отдельного пика и будет давать в результате большие ошибки. По той же причине, прямые корреляции сигналов маловероятно должны давать ясное указание. Становление детекторов более устойчивыми часто будет давать в результате неудачные выявления желательного источника звука, приводя к несфокусированным диаграммам направленности. Типичным результатом является рассеяние речи в шумовом опорном сигнале, и серьезное искажение будет происходить, если делается попытка ослабить шум в первичном сигнале на основании шумового опорного сигнала.This can be understood as follows: if the desired sound source is outside the reverberation radius, the energy of the direct sound field is small compared to the energy of the scattered sound field generated from the reflections. The ratio of the direct sound field to the scattered sound field will be further degraded if there is also scattered background noise. The energies of different radiation patterns will be approximately the same and, accordingly, this does not provide a useful indication of the similarity of radiation patterns. For the same reason, a system based on DoA measurements will not be robust: due to the low energy of the forward field, the cross-correlation of signals will not produce a sharp single peak and will result in large errors. For the same reason, direct signal correlations are unlikely to provide a clear indication. Becoming more robust detectors will often result in unsuccessful detection of the desired sound source, resulting in unfocused radiation patterns. The typical result is speech scatter in a noisy reference signal, and severe distortion will occur if an attempt is made to attenuate the noise in the primary signal based on the noise reference signal.

Отсюда, был бы полезен улучшенный подход звукозаписи и, в частности, был бы полезен подход, обеспечивающий улучшенный показатель несовпадения между разными диаграммами направленности. Более точно, был бы полезен подход, предоставляющий возможность пониженной сложности, повышенной гибкости, облегченной реализации, уменьшенной стоимости, улучшенной звукозаписи, улучшенной пригодности для звукозаписи за пределами радиуса реверберации, пониженной чувствительности к шуму, улучшенной записи речи, улучшенной точности показателя несовпадения, улучшенного управления и/или улучшенных рабочих характеристик.Hence, an improved recording approach would be useful and, in particular, an approach that provides an improved misalignment rate between different radiation patterns would be useful. More specifically, an approach would be useful to provide the possibility of reduced complexity, increased flexibility, easier implementation, reduced cost, improved recording, improved usability for recording outside the reverberation radius, reduced sensitivity to noise, improved speech recording, improved accuracy of the misalignment metric, improved control and / or improved performance.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

Соответственно, изобретение стремится предпочтительно смягчить, облегчить или устранить один или более из вышеупомянутых недостатков поодиночке или в любом сочетании.Accordingly, the invention seeks to preferably mitigate, alleviate or eliminate one or more of the above disadvantages, alone or in any combination.

Согласно аспекту изобретения, предоставлено формирующее диаграмму направленности устройство звукозаписи, содержащее: микрофонную решетку; первый формирователь диаграммы направленности, присоединенный к микрофонной решетке и выполненный с возможностью вырабатывать первый подвергнутый формированию диаграммы направленности звуковой выходной сигнал, первый формирователь диаграммы направленности является фильтрующим и комбинирующим формирователем диаграммы направленности, содержащим первое множество фильтров формы диаграммы направленности, каждый из которых имеет первую адаптивную импульсную характеристику; второй формирователь диаграммы направленности, присоединенный к микрофонной решетке и выполненный с возможностью вырабатывать второй подвергнутый формированию диаграммы направленности звуковой выходной сигнал, второй формирователь диаграммы направленности является фильтрующим и комбинирующим формирователем диаграммы направленности, содержащим второе множество фильтров формы диаграммы направленности, каждый из которых имеет вторую адаптивную импульсную характеристику; и процессор несовпадения для определения показателя несовпадения между диаграммами направленности первого формирователя диаграммы направленности и второго формирователя диаграммы направленности в ответ на сравнение первых адаптивных импульсных характеристик со вторыми адаптивными импульсными характеристиками.According to an aspect of the invention, there is provided a beamforming sound recorder comprising: a microphone array; a first beamformer coupled to the microphone array and configured to generate a first beamforming audio output signal, the first beamformer is a filtering and combining beamformer comprising a first plurality of beamforming filters, each of which has a first adaptive pulse characteristic; a second beamformer coupled to the microphone array and configured to generate a second beamforming audio output, the second beamformer is a filtering and combining beamformator comprising a second plurality of beamforming filters, each of which has a second adaptive pulse characteristic; and a mismatch processor for determining a mismatch metric between the beams of the first beamformer and the second beamformer in response to comparing the first adaptive impulse responses with the second adaptive impulse responses.

Изобретение в многих сценариях и применениях может обеспечивать улучшенное указание различия/подобия между диаграммами направленности, сформированными двумя формирователями диаграммы направленности. В частности, улучшенный показатель несовпадения зачастую может быть предусмотрен в сценариях, в которых прямой тракт от источников звука, под который адаптируются формирователи диаграммы направленности, не является преобладающим. Часто могут достигаться улучшенные рабочие характеристики для сценариев, содержащих высокую степень рассеянного шума, отражающих сигналов и/или поздних отражений.The invention, in many scenarios and applications, can provide an improved indication of difference / similarity between radiation patterns generated by two beam drivers. In particular, an improved misalignment rate can often be provided in scenarios where the direct path from the sound sources to which the beam drivers are adapted is not predominant. Improved performance can often be achieved for scenarios containing high levels of stray noise, reflections and / or late reflections.

Устройство звукозаписи во многих вариантах осуществления может содержать блок вывода для выработки звукового выходного сигнала в ответ на первый подвергнутый формированию диаграммы направленности звуковой выходной сигнал, второй подвергнутый формированию диаграммы направленности звуковой выходной сигнал и показатель несовпадения. Например, блок вывода может содержать комбинатор для комбинирования первого и второго подвергнутых формированию диаграммы направленности звуковых выходных сигналов в ответ на показатель несовпадения. Однако будет принято во внимание, что показатель несовпадения может использоваться для многих других целей в других применениях, например, таких как для выбора между разными диаграммами направленности, для управления адаптацией формирователей диаграммы направленности, и т. д.An audio recorder, in many embodiments, may comprise an output unit for generating an audio output in response to a first beamformed audio output, a second beamformed audio output, and a misalignment metric. For example, the output unit may comprise a combinator for combining the first and second beamforming audio outputs in response to the mismatch metric. However, it will be appreciated that the misalignment metric can be used for many other purposes in other applications, such as, for example, to choose between different radiation patterns, to control the adaptation of the beamformer, etc.

Подход может уменьшать чувствительность свойств звуковых сигналов (подвергнутых ли формированию диаграммы направленности звуковых выходных сигналов или сигналов с микрофона) и соответственно может быть менее чувствительным, например, к шуму. В многих сценариях, показатель несовпадения может формироваться быстрее и, например, в некоторых сценариях, мгновенно. В частности, показатель несовпадения может формироваться на основании текущих параметров фильтра без какого бы то ни было усреднения.The approach can reduce the sensitivity of the properties of audio signals (whether beamforming audio outputs or microphone signals) and accordingly can be less sensitive to noise, for example. In many scenarios, the mismatch indicator can form faster and, for example, in some scenarios, instantly. In particular, the mismatch metric can be generated based on the current filter parameters without any averaging.

Фильтрующие и комбинирующие формирователи диаграммы направленности могут содержать фильтр формы диаграммы направленности для каждого микрофона и комбинатор для комбинирования выходных сигналов фильтров формы диаграммы направленности для выработки подвергнутых формированию диаграммы направленности звукового выходного сигнала. Комбинатор, более точно, может быть блоком суммирования, а фильтрующие и комбинирующие формирователи диаграммы направленности могут быть фильтрующими и суммирующими формирователями диаграммы направленности.The filtering and combining beamforming devices may comprise a beamforming filter for each microphone and a combiner for combining outputs from the beamforming filters to produce a beamforming audio output signal. The combiner, more specifically, may be a combiner, and the filtering and combining beamformers may be filtering and combining beamformers.

Формирователи диаграммы направленности являются адаптивными формирователями диаграммы направленности и могут содержать функциональные возможности адаптации для адаптации адаптивных импульсных характеристик (тем самым, адаптации действующей направленности микрофонной решетки).The beam shapers are adaptive beam shapers and may contain adaptation functionality to adapt the adaptive impulse response (thereby adapting the effective directivity of the microphone array).

Показатель несовпадения эквивалентен показателю подобия.The mismatch score is equivalent to the similarity score.

Фильтрующие и комбинирующие формирователи диаграммы направленности, более точно, могут содержать фильтры формы диаграммы направленности в виде фильтров с конечной импульсной характеристикой (КИХ, FIR), имеющих множество коэффициентов.The filtering and combining beamformers may more specifically comprise finite impulse response (FIR) filters having a plurality of coefficients.

В соответствии с необязательным признаком изобретения, процессор несовпадения выполнен с возможностью, применительно к каждому микрофону микрофонной решетки, определять корреляцию между первыми и вторыми адаптивными импульсными характеристиками для микрофона и определять показатель несовпадения в ответ на комбинацию корреляций для каждого микрофона из микрофонной решетки.In accordance with an optional feature of the invention, the mismatch processor is configured, for each microphone in the microphone array, to determine a correlation between the first and second adaptive impulse responses for the microphone and to determine the mismatch metric in response to a combination of correlations for each microphone from the microphone array.

Это может давать особенно полезный показатель несовпадения, не требуя избыточной сложности.This can provide a particularly useful mismatch metric without requiring excessive complexity.

В соответствии с необязательным признаком изобретения, процессор несовпадения выполнен с возможностью определять представления в частотной области первых адаптивных импульсных характеристик и вторых адаптивных импульсных характеристик; и определять показатель несовпадения в ответ на представления в частотной области первых адаптивных импульсных характеристик и вторых адаптивных импульсных характеристик.In accordance with an optional feature of the invention, the mismatch processor is configured to determine frequency domain representations of the first adaptive impulse responses and the second adaptive impulse responses; and determining a mismatch metric in response to the frequency domain representations of the first adaptive impulse responses and the second adaptive impulse responses.

Это может дополнительно улучшать рабочие характеристики и/или облегчать работу. Это в многих вариантах осуществления может облегчать определение показателя несовпадения. В некоторых вариантах осуществления, адаптивные импульсные характеристики могут выдаваться в частотной области, и представления в частотной области могут быть доступны без задержки. Однако, в большинстве вариантов осуществления, адаптивные импульсные характеристики могут выдаваться во временной области, например, посредством коэффициентов КИХ-фильтра, и процессор несовпадения, например, может быть выполнен с возможностью применять дискретное преобразование Фурье (ДПФ, DFT) к импульсным характеристикам во временной области для формирования частотных представлений.This can further improve performance and / or ease handling. This, in many embodiments, can facilitate the determination of the mismatch metric. In some embodiments, adaptive impulse responses may be provided in the frequency domain, and frequency domain representations may be available without delay. However, in most embodiments, the adaptive impulse responses may be output in the time domain, for example, by means of an FIR filter coefficients, and the mismatch processor, for example, may be configured to apply a discrete Fourier transform (DFT) to the time domain impulse responses. to generate frequency representations.

В соответствии с необязательным признаком изобретения, процессор несовпадения выполнен с возможностью определять частотные показатели несовпадения для частот представлений в частотной области; и определять показатель несовпадения в ответ на частотные показатели несовпадения применительно к частотам представлений в частотной области; процессор несовпадения выполнен с возможностью определять частотный показатель несовпадения для первой частоты и первого микрофона из микрофонной решетки в ответ на первый коэффициент частотной области и второй коэффициент частотной области, первый коэффициент частотной области является коэффициентом частотной области для первой частоты применительно к первой адаптивной импульсной характеристике для первого микрофона, а второй коэффициент частотной области является коэффициентом частотной области для первой частоты применительно ко второй адаптивной импульсной характеристике для первого микрофона; и процессор несовпадения дополнительно выполнен с возможностью определять частотный показатель несовпадения для первой частоты в ответ на комбинацию частотных показателей несовпадения для множества микрофонов микрофонной решетки.In accordance with an optional feature of the invention, the mismatch processor is configured to determine mismatch frequency metrics for frequency domain representation frequencies; and determine the mismatch metric in response to the mismatch frequency metrics as applied to the frequency domain representation frequencies; the mismatch processor is configured to determine the mismatch frequency metric for the first frequency and the first microphone from the microphone array in response to the first frequency domain coefficient and the second frequency domain coefficient, the first frequency domain coefficient is the frequency domain coefficient for the first frequency in relation to the first adaptive impulse response for the first a microphone, and the second frequency domain factor is a frequency domain factor for a first frequency with respect to a second adaptive impulse response for a first microphone; and the mismatch processor is further configured to determine a mismatch frequency metric for the first frequency in response to a combination of mismatch frequency metrics for the plurality of microphones of the microphone array.

Это может давать особенно полезный показатель несовпадения, который, в частности, может обеспечивать точное указание различия между диаграммами направленности.This can provide a particularly useful misalignment indicator, which, in particular, can provide an accurate indication of the difference between radiation patterns.

При обозначении первой и второй частотных составляющих для частоты ω и микрофона m в качестве

и

, соответственно, частотный показатель несовпадения для частоты ω и микрофона m может быть определен как:When designating the first and second frequency components for the frequency ω and microphone m as

and

, accordingly, the frequency mismatch index for the frequency ω and the microphone m can be defined as:

(Комбинированный) частотный показатель несовпадения для частоты ω для множества микрофонов микрофонной решетки может определяться посредством комбинирования значений для разносных микрофонов. Например, что касается простого суммирования на M микрофонах:The (combined) frequency misalignment metric for the frequency ω for a plurality of microphones of the microphone array may be determined by combining the values for the pickup microphones. For example, for simple summing on M microphones:

Общий показатель несовпадения затем может определяться посредством комбинирования отдельных частотных показателей несовпадения. Например, может применяться зависимая от частоты комбинация:The overall mismatch score can then be determined by combining the individual mismatch frequency scores. For example, a frequency dependent combination can be applied:

где

- пригодная частотная весовая функция.where

is a suitable frequency weighting function.

В соответствии с необязательным признаком изобретения, процессор несовпадения выполнен с возможностью определять частотный показатель несовпадения для первой частоты и первого микрофона в ответ на умножение первого коэффициента частотной области и сопряженной величины второго коэффициента частотной области.In accordance with an optional feature of the invention, the mismatch processor is configured to determine a mismatch frequency metric for the first frequency and the first microphone in response to multiplying the first frequency domain coefficient and the conjugate value of the second frequency domain coefficient.

Это может давать особенно полезный показатель несовпадения, который, в частности, может обеспечивать точное указание различия между диаграммами направленности. В некоторых вариантах осуществления, частотный показатель несовпадения для частоты ω и микрофона m может быть определен как:This can provide a particularly useful misalignment indicator, which, in particular, can provide an accurate indication of the difference between radiation patterns. In some embodiments, the frequency mismatch metric for frequency ω and microphone m may be defined as:

В соответствии с необязательным признаком изобретения, процессор несовпадения выполнен с возможностью определять частотный показатель несовпадения для первой частоты в ответ на реальную часть комбинации частотных показателей несовпадения для первой частоты для множества микрофонов микрофонной решетки.In accordance with an optional feature of the invention, the mismatch processor is configured to determine a mismatch frequency metric for a first frequency in response to an actual portion of a first frequency mismatch frequency metric combination for a plurality of microphones in a microphone array.

В соответствии с необязательным признаком изобретения, процессор несовпадения выполнен с возможностью определять частотный показатель несовпадения для первой частоты в ответ на норму комбинации частотных показателей несовпадения для первой частоты для множества микрофонов микрофонной решетки.In accordance with an optional feature of the invention, a mismatch processor is configured to determine a mismatch frequency metric for a first frequency in response to a first frequency mismatch frequency metric combination rate for a plurality of microphones in a microphone array.

Это может давать особенно полезный показатель несовпадения, который, в частности, может обеспечивать точное указание различия между диаграммами направленности. Норма, в особенности, может быть нормой L1.This can provide a particularly useful misalignment indicator, which, in particular, can provide an accurate indication of the difference between radiation patterns. The rate, in particular, may be the L1 rate.

В соответствии с необязательным признаком изобретения, процессор несовпадения выполнен с возможностью определять частотный показатель несовпадения для первой частоты в ответ на по меньшей мере одну из реальной части и нормы комбинации частотных показателей несовпадения для первой частоты для множества микрофонов микрофонной решетки относительно суммы функции нормы L2 для суммы первых коэффициентов частотной области и функции нормы L2 для суммы вторых коэффициентов частотной области для множества микрофонов микрофонной решетки.In accordance with an optional feature of the invention, the mismatch processor is configured to determine a mismatch frequency metric for the first frequency in response to at least one of the real part and combination rate of the mismatch frequency metrics for the first frequency for a plurality of microphone array microphones relative to the sum of the L2 rate function for the sum the first frequency domain coefficients and the L2 norm function for the sum of the second frequency domain coefficients for the plurality of microphone array microphones.

Это может давать особенно полезный показатель несовпадения, который, в частности, может обеспечивать точное указание различия между диаграммами направленности. Монотонные функции, более точно, могут быть квадратичными функциями.This can provide a particularly useful misalignment indicator, which, in particular, can provide an accurate indication of the difference between radiation patterns. Monotone functions, more precisely, can be quadratic functions.

В соответствии с необязательным признаком изобретения, процессор несовпадения выполнен с возможностью определять частотный показатель несовпадения для первой частоты в ответ на норму комбинации частотных показателей несовпадения для первой частоты для множества микрофонов микрофонной решетки относительно произведения функции нормы L2 для суммы первых коэффициентов частотной области и функции нормы L2 для суммы вторых коэффициентов частотной области для множества микрофонов микрофонной решетки.In accordance with an optional feature of the invention, the mismatch processor is configured to determine a mismatch frequency metric for a first frequency in response to a first frequency mismatch frequency metric combination rate for a plurality of microphone array microphones with respect to the product of the L2 rate function for the sum of the first frequency domain coefficients and the L2 rate function for the sum of the second frequency domain coefficients for the plurality of microphone array microphones.

Это может давать особенно полезный показатель несовпадения, который, в частности, может обеспечивать точное указание различия между диаграммами направленности. Монотонные функции, более точно, могут быть функциями абсолютного значения.This can provide a particularly useful misalignment indicator, which, in particular, can provide an accurate indication of the difference between radiation patterns. Monotone functions, more precisely, can be functions of an absolute value.

В соответствии с необязательным признаком изобретения, процессор несовпадения выполнен с возможностью определять показатель несовпадения в виде избирательной по частоте взвешенной суммы частотных показателей несовпадения.In accordance with an optional feature of the invention, the mismatch processor is configured to determine the mismatch metric as a frequency selective weighted sum of the mismatch frequency metrics.

Это может давать особенно полезный показатель несовпадения, который, в частности, может обеспечивать точное указание различия между диаграммами направленности. В частности, это может обеспечивать выразительность особенно значимых с точки зрения восприятия частот, такую как выразительность речевых частот.This can provide a particularly useful misalignment indicator, which, in particular, can provide an accurate indication of the difference between radiation patterns. In particular, it can provide expressiveness of particularly perceptually significant frequencies, such as the expressiveness of speech frequencies.

В соответствии с необязательным признаком изобретения, первое множество фильтров формы диаграммы направленности и второе множество фильтров формы диаграммы направленности являются фильтрами с конечной импульсной характеристикой, имеющими множество коэффициентов.In accordance with an optional feature of the invention, the first plurality of beamform filters and the second plurality of beamform filters are finite impulse response filters having a plurality of coefficients.

Это может обеспечивать эффективную работу и реализацию во многих вариантах осуществления.This can provide efficient operation and implementation in many embodiments.

В соответствии с необязательным признаком изобретения, формирующее диаграмму направленности устройство звукозаписи дополнительно содержит: множество ограниченных формирователей диаграммы направленности, присоединенных к микрофонной решетке, и каждый из которых выполнен с возможностью вырабатывать подвергнутый ограниченному формированию диаграммы направленности звуковой выходной сигнал, каждый ограниченный формирователь диаграммы направленности ограничен формировать диаграммы направленности в области, отличной от областей других ограниченных формирователей диаграммы направленности, второй формирователь диаграммы направленности является ограниченным формирователем диаграммы направленности из множества ограниченных формирователей диаграммы направленности; первый адаптер для адаптации параметров формы диаграммы направленности первого формирователя диаграммы направленности; второй адаптер для адаптации параметров ограниченной формы диаграммы направленности для множества ограниченных формирователей диаграммы направленности; при этом, второй адаптер выполнен с возможностью адаптировать параметры ограниченной формы диаграммы направленности только для ограниченных формирователей диаграммы направленности из множества ограниченных формирователей диаграммы направленности, для которых был определен показатель несовпадения, который удовлетворяет критерию подобия.In accordance with an optional feature of the invention, the beamforming sound recorder further comprises: a plurality of restricted beamforming devices coupled to the microphone array and each configured to produce a restricted beamforming audio output, each restricted beamforming device being restricted to generate a beamforming area in a different area from other localized beam drivers, the second beamformer is a localized beamformer from a plurality of localized beam drivers; a first adapter for adapting the beamform parameters of the first beamformer; a second adapter for adapting the parameters of the limited beamforms for the plurality of limited beam drivers; in this case, the second adapter is configured to adapt the parameters of the limited beamforms only for limited beam drivers from among the plurality of limited beam drivers, for which a mismatch metric has been determined that satisfies the similarity criterion.

Изобретение может обеспечивать улучшенную звукозапись в многих вариантах осуществления. В частности, часто могут достигаться улучшенные рабочие характеристики в реверберирующих средах и/или для источников звука на больших расстояниях. Подход, в частности, может обеспечивать улучшенную запись речи в многих представляющих дополнительную сложность акустических средах. В многих вариантах осуществления, подход может давать надежное и точное формирование диаграммы направленности, тем временем одновременно обеспечивая быструю адаптацию под новые желательные источники звука. Подход может предусматривать устройство звукозаписи, имеющее пониженную чувствительность, например, к шуму, реверберации и отражениям. В частности, часто может достигаться улучшенная запись источников звука за пределами радиуса реверберации.The invention can provide improved sound recording in many embodiments. In particular, improved performance can often be achieved in reverberant environments and / or for long distance sound sources. The approach, in particular, can provide improved speech recording in many more complex acoustic environments. In many embodiments, the approach can provide reliable and accurate beamforming while simultaneously providing rapid adaptation to new desired sound sources. An approach could provide for a recording device that has reduced sensitivity to, for example, noise, reverberation, and reflections. In particular, improved recording of sound sources outside the reverberation radius can often be achieved.

В некоторых вариантах осуществления, выходной звуковой сигнал из устройства звукозаписи может формироваться в ответ на первый подвергнутый формированию диаграммы направленности звуковой выходной сигнал и/или подвергнутый ограниченному формированию диаграммы направленности звуковой выходной сигнал. В некоторых вариантах осуществления, выходной звуковой сигнал может формироваться в виде комбинации подвергнутых ограниченному формированию диаграммы направленности звуковых выходных сигналов, а более точно, может использоваться выборочное комбинирование, например, выбор одиночного подвергнутого ограниченному формированию диаграммы направленности звукового выходного сигнала.In some embodiments, the audio output from the audio recorder may be generated in response to the first beamforming audio output and / or limited beamforming audio output. In some embodiments, the audio output may be a combination of constrained audio outputs, and more specifically, selective combining may be used, such as selecting a single constrained audio output.

Показатель несовпадения может отражать различие между сформированными диаграммами направленности первого формирователя диаграммы направленности и ограниченного формирователя диаграммы направленности, для которых формируется показатель несовпадения, например, измеряемый в качестве разности между направлениями диаграмм направленности. В некоторых вариантах осуществления, показатель несовпадения может быть указывающим различие между фильтрами формы диаграммы направленности первого формирователя диаграммы направленности и ограниченного формирователя диаграммы направленности. Показатель несовпадения может быть показателем расстояния, например, таким как показатель, определяемый в виде расстояния между векторами коэффициентов фильтров формы диаграммы направленности первого формирователя диаграммы направленности и ограниченного формирователя диаграммы направленности.The misalignment metric may reflect the difference between the generated beamforms of the first beamformer and the constrained beamformer for which the misalignment metric is generated, such as measured as the difference between the beam directions. In some embodiments, the misalignment metric may be indicative of a difference between the beamforming filters of the first beamformer and the constrained beamformer. The mismatch metric may be a distance metric, such as, for example, a metric defined as the distance between the vectors of the beamform filters of the first beamformer and the constrained beamformer.

Будет принято во внимание, что показатель подобия может быть эквивалентным показателю несовпадения по той причине, что показатель подобия, предоставляющий информацию, относящуюся к подобию между двумя признаками, по сути также дает информацию, относящуюся к различию между ними, и наоборот.It will be appreciated that a similarity score may be equivalent to a mismatch score for the reason that a similarity score providing information related to the similarity between two features, in fact, also provides information related to the difference between them, and vice versa.

Критерий подобия, например, может содержать требование, чтобы показатель несовпадения был указывающим различие, находящееся ниже заданного показателя, например, может требоваться, чтобы показатель несовпадения, имеющий возрастающие значения для возрастающего различия, был ниже порогового значения.The similarity criterion, for example, may require that the mismatch score be indicative of a difference below a predetermined score, eg, it may require the mismatch score having increasing values for increasing difference to be below a threshold value.

Области могут быть зависящими от формирования диаграммы направленности для множества путей и типично не ограничены угловым направлением областей прихода. Например, области могут различаться на основании расстояния до микрофонной решетки. Ограничение ограниченных формирователей диаграммы направленности, чтобы формировали диаграммы направленности в разных областях, может происходить посредством ограничения параметров фильтра у фильтров формы диаграммы направленности ограниченных формирователей диаграммы направленности, так чтобы ограниченный диапазон параметров фильтра (например, диапазоны для коэффициентов фильтра) был разным для разных ограниченных формирователей диаграммы направленности.The regions can be multi-path beamforming dependent and are typically not limited by the angular direction of the arrival regions. For example, areas may differ based on the distance to the microphone array. Constraining the constrained beam drivers to beam in different regions can be accomplished by constraining the filter parameters of the constrained beamformer's beamform filters such that the constrained range of filter parameters (e.g., ranges for filter coefficients) is different for different shaper drivers. directional patterns.

Адаптация формирователей диаграммы направленности может происходить посредством адаптации параметров фильтра у фильтров формы диаграммы направленности формирователей диаграммы направленности, к примеру, более точно, посредством адаптации коэффициентов фильтра. Адаптация может стремиться оптимизировать (довести до максимума или минимизировать) заданный параметр адаптации, например, такая как доведение до максимума уровня выходного сигнала, когда выявлен источник звука, или минимизация его, когда выявляется только шум. Адаптация может стремиться модифицировать фильтры формы диаграммы направленности, чтобы оптимизировать измеренный параметр.The adaptation of the beamformers can occur by adapting the filter parameters of the beamforming filters of the beamformer, for example, more precisely, by adapting the filter coefficients. The adaptation may seek to optimize (maximize or minimize) a given adaptation parameter, such as, for example, maximizing the output level when a sound source is detected, or minimizing it when only noise is detected. The adaptation may seek to modify the beamform filters to optimize the measured parameter.

Второй адаптер может быть выполнен с возможностью адаптировать параметры ограниченной формы диаграммы направленности вторых формирователей диаграммы направленности, только если показатель несовпадения удовлетворяет критерию подобия.The second adapter may be configured to adapt the bounded beamform parameters of the second beamformers only if the misalignment metric meets the similarity criterion.

В соответствии с необязательным признаком изобретения, формирующее диаграмму направленности устройство звукозаписи дополнительно содержит детектор источника звука для выявления точечных источников звука во вторых подвергнутых формированию диаграммы направленности звуковых выходных сигналах; и при этом, второй адаптер выполнен с возможностью адаптировать параметры ограниченной формы диаграммы направленности только для ограниченных формирователей диаграммы направленности, для которого наличие точечного источника звука выявлено в подвергнутом ограниченному формированию диаграммы направленности звуковом выходном сигнале.In accordance with an optional feature of the invention, the beamforming audio recorder further comprises a sound source detector for detecting point sound sources in the second beamformed audio outputs; and wherein the second adapter is configured to adapt the bounded beamforming parameters only for the bounded beam drivers for which the presence of a point sound source is detected in the bounded beamforming audio output signal.

Это может дополнительно улучшать рабочие характеристики и, например, может обеспечивать более надежные рабочие характеристики, дающие в результате улучшенную звукозапись. Разные критерии могут использоваться для выявления точечного источника звука в разных вариантах осуществления. Точечный источник звука, более точно, может быть коррелированным источником звука для микрофонов микрофонной решетки. Точечный источник звука, например, может считаться выявленным, если корреляция между сигналами с микрофонов из микрофонной решетки (например, после фильтрации фильтрами формы диаграммы направленности ограниченного формирователя диаграммы направленности) превышает заданное пороговое значение.This can further improve performance and, for example, can provide more reliable performance resulting in improved sound recording. Different criteria can be used to identify a point sound source in different embodiments. A point sound source, more precisely, can be a correlated sound source for microphones in a microphone array. A point sound source, for example, can be considered detected if the correlation between the signals from the microphones from the microphone array (for example, after being filtered by the constrained beamformer beamform filters) exceeds a predetermined threshold value.

Согласно аспекту изобретения, предоставлен способ работы для формирующего диаграмму направленности устройства звукозаписи, содержащего:According to an aspect of the invention, there is provided a method of operation for a beamforming sound recording apparatus comprising:

микрофонную решетку;microphone array;

первый формирователь диаграммы направленности, присоединенный к микрофонной решетке, первый формирователь диаграммы направленности является фильтрующим и комбинирующим формирователем диаграммы направленности, содержащим первое множество фильтров формы диаграммы направленности, каждый из которых имеет первую адаптивную импульсную характеристику; второй формирователь диаграммы направленности, присоединенный к микрофонной решетке, второй формирователь диаграммы направленности является фильтрующим и комбинирующим формирователем диаграммы направленности, содержащим второе множество фильтров формы диаграммы направленности, каждый из которых имеет адаптивную импульсную характеристику; способ состоит в том, что: первый формирователь вырабатывает первый подвергнутый формированию диаграммы направленности звуковой выходной сигнал; второй формирователь вырабатывает второй подвергнутый формированию диаграммы направленности звуковой выходной сигнал; и определяют показатель несовпадения между диаграммами направленности первого формирователя диаграммы направленности и второго формирователя диаграммы направленности в ответ на сравнение первых адаптивных импульсных характеристик со вторыми адаптивными импульсными характеристиками.a first beamformer coupled to the microphone array, the first beamformer being a filtering and combining beamforming device comprising a first plurality of beamforming filters each having a first adaptive impulse response; a second beamformer coupled to the microphone array, the second beamformer being a filtering and combining beamforming device comprising a second plurality of beamforming filters each having an adaptive impulse response; the method is that: the first driver generates a first beamforming audio output signal; the second driver generates a second beamforming audio output; and determining a mismatch ratio between the radiation patterns of the first beamformer and the second beamformer in response to comparing the first adaptive impulse responses with the second adaptive impulse responses.

Эти и другие аспекты, признаки и преимущества изобретения будут очевидны из и разъяснены со ссылкой на вариант(ы) осуществления, описанный ниже.These and other aspects, features and advantages of the invention will be apparent from and explained with reference to the embodiment (s) described below.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF DRAWINGS

Варианты осуществления изобретения будут описаны, только в качестве примера, со ссылкой на чертежи, из которыхEmbodiments of the invention will be described, by way of example only, with reference to the drawings, of which

фиг. 1 иллюстрирует пример элементов формирующей диаграмму направленности системы звукозаписи;fig. 1 illustrates an example of elements of a beamforming sound recording system;

фиг. 2 иллюстрирует пример множества диаграмм направленности, сформированных системой звукозаписи;fig. 2 illustrates an example of a plurality of radiation patterns generated by a sound recording system;

фиг. 3 иллюстрирует пример элементов устройства звукозаписи в соответствии с некоторыми вариантами осуществления изобретения;fig. 3 illustrates an example of elements of a sound recorder in accordance with some embodiments of the invention;

фиг. 4 иллюстрирует пример элементов фильтрующего и суммирующего формирователя диаграммы направленности;fig. 4 illustrates an example of filtering and summing beamformer elements;

фиг. 5 иллюстрирует пример элементов устройства звукозаписи в соответствии с некоторыми вариантами осуществления изобретения;fig. 5 illustrates an example of elements of a sound recorder in accordance with some embodiments of the invention;

фиг. 6 иллюстрирует пример элементов устройства звукозаписи в соответствии с некоторыми вариантами осуществления изобретения;fig. 6 illustrates an example of elements of a sound recorder in accordance with some embodiments of the invention;

фиг. 7 иллюстрирует пример элементов устройства звукозаписи в соответствии с некоторыми вариантами осуществления изобретения;fig. 7 illustrates an example of elements of a sound recorder in accordance with some embodiments of the invention;

фиг. 8 иллюстрирует пример блок-схемы последовательности операций способа для подхода адаптации ограниченных формирователей диаграммы направленности устройства звукозаписи в соответствии с некоторыми вариантами осуществления изобретения.fig. 8 illustrates an example of a flowchart for an adaptation approach of limited beamforming audio recorders in accordance with some embodiments of the invention.

ПРОДРОБНОЕ ОПИСАНИЕ НЕКОТОРЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯDETAILED DESCRIPTIONS OF CERTAIN EMBODIMENTS

Нижеследующее описание ставит в центре внимания варианты осуществления изобретения, применимые к системе звукозаписи речи, основанной на формировании диаграммы направленности, но будет принято во внимание, что подход применим к многим другим системам с сценариям для звукозаписи.The following description will focus on embodiments of the invention applicable to a beamforming voice recording system, but it will be appreciated that the approach is applicable to many other scripted audio recording systems.

Фиг. 3 иллюстрирует пример некоторых элементов устройства звукозаписи в соответствии с некоторыми вариантами осуществления изобретения.FIG. 3 illustrates an example of some elements of a sound recorder in accordance with some embodiments of the invention.

Устройство звукозаписи содержит микрофонную решетку 301, которая содержит множество микрофонов, выполненных с возможностью захватывать звук в окружающей среде.The sound recorder includes a microphone array 301 that contains a plurality of microphones configured to capture sound in the environment.

Микрофонная решетка 301 присоединена к первому формирователю 303 диаграммы направленности (типично непосредственно или через эхокомпенсатор, усилители, цифро-аналоговые преобразователи, и т. д., как будет хорошо известно специалисту в данной области техники).A microphone array 301 is coupled to a first beamformer 303 (typically directly or via echo cancellers, amplifiers, D / A converters, etc., as will be well known to one of ordinary skill in the art).

Первый формирователь 303 диаграммы направленности выполнен с возможностью комбинировать сигналы с микрофонной решетки 301, так чтобы формировалась эффективная направленная звуковая чувствительность микрофонной решетки 301. Первый формирователь 303 диаграммы направленности, таким образом, вырабатывает выходной сигнал, указываемый ссылкой как первый подвергнутый формированию диаграммы направленности звуковой выходной сигнал, который соответствует избирательной записи звука в окружающей среде. Первый формирователь 303 диаграммы направленности является адаптивным формирователем диаграммы направленности, и направленность может управляться посредством установления параметров, упоминаемых как первые параметры формы диаграммы направленности, действия формы диаграммы направленности первого формирователя 303 диаграммы направленности, а более точно, посредством установления параметров (типично, коэффициентов) фильтров формы диаграммы направленности.The first beamformer 303 is configured to combine signals from the microphone array 301 so that an effective directional sonic response of the microphone array 301 is generated. The first beamformer 303 thus generates an output, referred to as the first beamforming audio output signal , which corresponds to the selective recording of sound in the environment. The first beamformer 303 is an adaptive beamformer, and the directivity can be controlled by setting parameters, referred to as first beamform parameters, the effect of the beamform of the first beamformer 303, and more specifically by setting parameters (typically coefficients) of filters beamforms.

Микрофонная решетка 301 дополнительно присоединена ко второму формирователю 305 диаграммы направленности (типично непосредственно или через эхокомпенсатор, усилители, цифро-аналоговые преобразователи, и т. д., как будет хорошо известно специалисту в данной области техники).The microphone array 301 is further coupled to a second beamformer 305 (typically directly or via echo cancellers, amplifiers, D / A converters, etc., as will be well known to one of ordinary skill in the art).

Второй формирователь 305 диаграммы направленности аналогично выполнен с возможностью комбинировать сигналы с микрофонной решетки 301, так чтобы формировалась эффективная направленная звуковая чувствительность микрофонной решетки 301. Второй формирователь 305 диаграммы направленности, таким образом, вырабатывает выходной сигнал, указываемый ссылкой как второй подвергнутый формированию диаграммы направленности звуковой выходной сигнал, который соответствует избирательной записи звука в окружающей среде. Второй формирователь 305 диаграммы направленности также является адаптивным формирователем диаграммы направленности, и направленность может управляться посредством установления параметров, упоминаемых как вторые параметры формы диаграммы направленности, действия по формированию диаграммы направленности второго формирователя 305 диаграммы направленности, а более точно, посредством установления параметров (типично, коэффициентов) фильтров формы диаграммы направленности.The second beamformer 305 is similarly configured to combine signals from the microphone array 301 so that an effective directional sonic response of the microphone array 301 is generated. The second beamformer 305 thus provides an output, referred to as a second beamformed audio output. a signal that corresponds to the selective recording of sound in the environment. The second beamformer 305 is also an adaptive beamformer, and the directivity may be controlled by setting parameters, referred to as second beamform parameters, an act of beamforming the second beamformer 305, and more specifically by setting parameters (typically, coefficients ) beamform filters.

Первый и второй формирователи 303, 305 диаграммы направленности соответственно являются адаптивными формирователями диаграммы направленности, где направленность может управляться посредством адаптации параметров действия формы диаграммы направленности.The first and second beamformer 303, 305, respectively, are adaptive beamformers, where the directivity can be controlled by adapting the parameters of the beamform action.

Более точно, формирователи 303, 305 диаграммы направленности являются фильтрующими и комбинирующими (или, более точно, в большинстве вариантов осуществления фильтрующими и суммирующими) формирователями диаграммы направленности. Фильтр формы диаграммы направленности может применяться к каждому из сигналов с микрофона, и фильтрованные выходные сигналы могут комбинироваться, типично посредством простого сложения друг с другом.More specifically, the beam drivers 303, 305 are filter and combiner (or more precisely, filter and sum in most embodiments) beam drivers. A waveform filter can be applied to each of the microphone signals, and the filtered outputs can be combined, typically by simply adding together.

В большинстве вариантов осуществления, каждый из фильтров формы диаграммы направленности имеет импульсную характеристику во временной области, которая не является простым импульсом Дирака (соответствующим простой задержке, и таким образом, коэффициенту передачи и сдвигу фазы в частотной области), но скорее имеет импульсную характеристику, которая типично продолжается в течение временного интервала, не меньшего чем 2, 5, 10 или даже 30 миллисекунд.In most embodiments, each of the waveform filters has a time domain impulse response that is not a simple Dirac pulse (corresponding to a simple delay, and thus gain and phase shift in the frequency domain), but rather has an impulse response that is typically continues for a time interval of no less than 2, 5, 10, or even 30 milliseconds.

Импульсные характеристики часто могут быть реализованы фильтрами формы диаграммы направленности, являющимися КИХ (с конечной импульсной характеристикой) фильтрами с множеством коэффициентов. Формирователи 303, 305 диаграммы направленности в таком варианте осуществления могут адаптировать формирование диаграммы направленности, адаптируя коэффициенты фильтра. В многих вариантах осуществления, КИХ-фильтры могут иметь коэффициенты, соответствующие постоянным сдвигам по времени (типично сдвигам по времени выборки отсчетов), причем, адаптация достигается посредством адаптации значений коэффициентов. В других вариантах осуществления, фильтры формы диаграммы направленности типично могут иметь существенно меньшее количество коэффициентов (например, только два или три), но с временными характеристиками таковых, (также) являющимися адаптируемыми.Impulse responses can often be implemented with beamform filters, which are FIR (finite impulse response) filters with multiple coefficients. Formers 303, 305 beamforming in such an embodiment can adapt beamforming by adapting the filter coefficients. In many embodiments, FIR filters may have coefficients corresponding to constant time offsets (typically offsets in sample sampling times), where adaptation is achieved by adapting the coefficient values. In other embodiments, beamform filters typically can have significantly fewer coefficients (eg, only two or three), but with such timing (also) being adaptable.

Конкретное преимущество фильтров формы диаграммы направленности, имеющих расширенные импульсные характеристики вместо простой переменной задержки (или простой настройки коэффициента передачи/фазы в частотной области), состоит в том, что они предоставляют формирователям 303, 305 диаграммы направленности возможность адаптироваться не просто под самую сильную, типично направленную составляющую сигнала. Скорее, они предоставляют формирователям 303, 305 диаграммы направленности возможность адаптироваться, чтобы учитывать дополнительные пути прохождения сигнала, типично соответствующие отражениям. Соответственно, подход предоставляет возможность для улучшенных рабочих характеристик в большинстве реальных сред, а более точно, предоставляет возможность улучшенных рабочих характеристик в отражающих и/или реверберирующих средах, и/или применительно к источникам звука, находящихся дальше от микрофонной решетки 301.A particular advantage of beamforming filters having extended impulse responses instead of a simple variable delay (or simple gain / phase adjustment in the frequency domain) is that they allow the beam shapers 303, 305 to adapt to more than just the strongest, typically directional component of the signal. Rather, they allow the beam shapers 303, 305 to adapt to accommodate additional signal paths typically associated with reflections. Accordingly, the approach allows for improved performance in most real world environments, and more specifically, allows for improved performance in reflective and / or reverberant environments, and / or for sound sources farther from the microphone array 301.

Будет принято внимание, что разные алгоритмы адаптации могут использоваться в разных вариантах осуществления, и что различные параметры оптимизации будут известны специалистам. Например, формирователи 303, 305 диаграммы направленности могут адаптировать параметры формы диаграммы направленности для доведения до максимума значения выходного сигнала формирователей 303, 305 диаграммы направленности. В качестве конкретного примера, рассмотрим формирователь диаграммы направленности, где принимаемые сигналы с микрофона фильтруются прямыми согласующими фильтрами, и где фильтрованные выходные сигналы суммируются. Выходной сигнал фильтруется обратными адаптивными фильтрами, имеющими характеристики фильтра, сопряженные с прямыми фильтрами (в частотной области, соответствующей обращенным по времени импульсным характеристикам во временной области). Сигналы ошибки вырабатываются в качестве разности между входными сигналами и выходными сигналами обратных адаптивных фильтров, и коэффициенты фильтров адаптируются, чтобы минимизировать сигналы ошибки, тем самым давая в результате максимальную выходную мощность. Дополнительные подробности такого подхода могут быть найдены в US 7 146 012 и US 7 602 926.It will be appreciated that different adaptation algorithms may be used in different embodiments, and that different optimization parameters will be known to those skilled in the art. For example, beam shapers 303, 305 can adapt the beamform parameters to maximize the output value of the beam shapers 303, 305. As a specific example, consider a beamformer where the received microphone signals are filtered with direct matching filters, and where the filtered outputs are summed. The output signal is filtered by inverse adaptive filters having filter characteristics coupled to the forward filters (in the frequency domain corresponding to the time-reversed impulse responses in the time domain). The error signals are generated as the difference between the input signals and the outputs of the inverse adaptive filters, and the filter coefficients are adapted to minimize the error signals, thereby resulting in maximum output power. Further details of this approach can be found in US 7,146,012 and US 7,602,926.

Отмечено, что, подходы, такие как в US 7 146 012 и US 7 602 926 основаны на адаптации, основанной как на сигнале z(n) источника звука, так и на шумовом опорном сигнале(ах) x(n) с формирователей диаграммы направленности, и будет принято во внимание, что тот же самый подход может использоваться для системы по фиг. 3.It is noted that approaches such as in US 7,146,012 and US 7,602,926 are based on an adaptation based both on the sound source signal z (n) and on the noise reference signal (s) x (n) from the beam shaper and it will be appreciated that the same approach can be used for the system of FIG. 3.

Формирователи 303, 305 диаграммы направленности, более точно, в действительности могут быть формирователями диаграммы направленности, соответствующими проиллюстрированному на фиг. 1 и раскрытому в US 7 146 012 и US 7 602 926.The beam drivers 303, 305, more specifically, may in fact be the beam drivers as illustrated in FIG. 1 and disclosed in US 7,146,012 and US 7,602,926.

Формирователи 303, 305 диаграммы направленности в примере присоединены к (необязательному) процессору 307 вывода, который принимает подвергнутые формированию диаграммы направленности звуковые выходные сигналы из формирователей 303, 305 диаграммы направленности. Точный выходной сигнал, сформированный из устройства звукозаписи, будет зависеть от конкретных предпочтений и требований отдельного варианта осуществления. Действительно, в некоторых вариантах осуществления, выходной сигнал из устройства звукозаписи может просто состоять из звуковых выходных сигналов из формирователей 303, 305 диаграммы направленности.Beam drivers 303, 305 in the example are coupled to an (optional) output processor 307 that receives beamforming audio outputs from beam drivers 303, 305. The exact output signal generated from the audio recorder will depend on the particular preferences and requirements of the particular embodiment. Indeed, in some embodiments, the output from the audio recorder may simply consist of audio outputs from the beam drivers 303, 305.

В многих вариантах осуществления, выходной сигнал из процессора 307 вывода формируется в виде комбинации звуковых выходных сигналов из формирователей 303, 305 диаграммы направленности. Действительно, в некоторых вариантах осуществления, может выполняться простое выборочное комбинирование, например, выбор звуковых выходных сигналов, для которых является наивысшим отношение сигнал/шум или просто уровень сигнала.In many embodiments, the output from the output processor 307 is generated as a combination of audio outputs from the beam drivers 303, 305. Indeed, in some embodiments, simple selective combining may be performed, such as selecting the audio outputs for which the signal-to-noise ratio is the highest, or simply the signal strength.

Таким образом, выбор и последующая обработка выходного сигнала процессора 307 вывода может быть специализированной и/или разной в разных реализациях/вариантах осуществления. Например, могут выдаваться все возможные выходные сигналы сфокусированной диаграммы направленности, выбор может делаться на основании критерия, определенного пользователем (например, выбирается наиболее мощный докладчик), и т. д.Thus, the selection and subsequent processing of the output of the output processor 307 may be specialized and / or different in different implementations / embodiments. For example, all possible focused beamforms outputs can be provided, selection can be made based on user-defined criteria (e.g., the most powerful presenter is selected), etc.

Что касается применения речевого управления, например, все выходные сигналы могут пересылаться в распознаватель речевых пусковых сигналов, который выполнен с возможностью выявлять конкретное слово или фразу для инициализации речевого управления. В таком примере, звуковой выходной сигнал, в котором выявлено пусковое слово или фраза, может сопровождать пусковую фразу, подлежащую использованию распознавателем речи для выявления специальных команд.With regard to the application of speech control, for example, all output signals can be forwarded to a speech trigger recognizer that is configured to identify a specific word or phrase to initialize the speech control. In such an example, the audio output signal in which the trigger word or phrase is detected may accompany the trigger phrase to be used by the speech recognizer to elicit special commands.

Что касается применений связи, например, может быть полезно выбирать звуковой выходной сигнал, который имеет наибольшую мощность, например, применительно к которому было обнаружено наличие конкретного точечного источника звука.For communication applications, for example, it may be useful to select the audio output that has the highest power, for example, for which a particular point sound source has been detected.

В некоторых вариантах осуществления, последующая обработка, такая как подавление шума по фиг. 1, может применяться к выходному сигналу устройства звукозаписи (например, процессором 307 вывода). Это может улучшать рабочие характеристики, например, применительно к речевой связи. В такую последующую обработку могут быть включены нелинейные операции, хотя, например, что касается некоторых распознавателей речи, может быть полезно ограничивать обработку включением в состав только линейной обработки.In some embodiments, post-processing, such as the noise suppression of FIG. 1 may be applied to the output of an audio recorder (eg, output processor 307). This can improve performance, for example, for voice communications. Non-linear operations may be included in such post-processing, although, for example, with some speech recognizers, it may be useful to limit the processing to include only linear processing.

В многих системах, использующих множество формирователей диаграммы направленности, может быть полезно быть способным определять, сформировали ли формирователи диаграммы направленности диаграммы направленности, которые близки друг к другу. В системах по фиг. 3, устройство звукозаписи содержит процессор 309 несовпадения, который выполнен с возможностью определять показатель несовпадения, который является признаком различия между диаграммами направленности, сформированными первым формирователем 303 диаграммы направленности и вторым формирователем 305 диаграммы направленности.In many systems using a plurality of beamforming devices, it can be useful to be able to determine if the beamforming devices have formed beamforms that are close to each other. In the systems of FIG. 3, the audio recorder comprises a mismatch processor 309 that is configured to determine a mismatch metric that is indicative of a difference between the radiation patterns generated by the first beamformer 303 and the second beamformer 305.

Будет принято во внимание, что использование такого показателя несовпадения может быть разным для разных применений и реализаций, и что принципы не ограничены конкретным применением. В конкретном примере по фиг. 3, процессор 309 несовпадения присоединен к процессору 307 вывода и используется при формировании звукового выходного сигнала из процессора 307 вывода. Например, если показатель несовпадения указывает, что две диаграммы направленности очень близки друг к другу, выходной звуковой сигнал может формироваться посредством суммирования или усреднения выходных сигналов (например, в частотной области). Если показатель несовпадения является признаком большого различия (и, таким образом, указывая, что две диаграммы направленности адаптированы под разные источники звука), процессор 307 вывода может формировать выходной звуковой сигнал, выбирая подвергнутый формированию диаграммы направленности звуковой выходной сигнал, который имеет наивысший уровень энергии.It will be appreciated that the use of such a mismatch metric may be different for different applications and implementations, and that the principles are not limited to a particular application. In the specific example of FIG. 3, a mismatch processor 309 is coupled to an output processor 307 and is used in generating an audio output from an output processor 307. For example, if the mismatch metric indicates that the two radiation patterns are very close to each other, the audio output can be generated by summing or averaging the outputs (eg, in the frequency domain). If the mismatch metric is indicative of a large difference (and thus indicating that the two radiation patterns are adapted for different sound sources), the output processor 307 may generate an audio output by selecting the beamformed audio output that has the highest energy level.

В традиционных подходах для сравнения формирователей диаграммы направленности и диаграмм направленности, подобие между диаграммами направленности оценивается посредством сравнения сформированных звуковых выходных сигналов. Например, может формироваться взаимная корреляция между звуковыми выходными сигналами, причем, подобие указывается величиной корреляции. В некоторых системах, DoA может определяться посредством осуществления взаимной корреляции звуковых сигналов для пары микрофонов и определения DoA в ответ на временные характеристики пика.In conventional approaches for comparing beamformers and beamforms, the similarity between beamforms is assessed by comparing the generated audio outputs. For example, cross-correlation between audio outputs can be generated, with the similarity being indicated by the magnitude of the correlation. In some systems, the DoA can be determined by cross-correlating the audio signals for a pair of microphones and determining the DoA in response to the timing of the peak.

В системе по фиг. 3, показатель несовпадения не определяется только на основании свойства или сравнения звуковых сигналов, подвергнутых ли формированию диаграммы направленности звуковых выходных сигналов из формирователей диаграммы направленности, или входных сигналов с микрофона, но скорее процессор 309 несовпадения устройства звукозаписи по фиг. 3 выполнен с возможность определять показатель несовпадения в ответ на сравнение импульсных характеристик фильтров формы диаграммы направленности первого и второго формирователей 303, 305 диаграммы направленности.In the system of FIG. 3, the mismatch metric is not determined based solely on the property or comparison of audio signals, whether beamformed audio outputs from the beam drivers or microphone inputs, but rather the mismatch processor 309 of the audio recorder of FIG. 3 is configured to determine the misalignment metric in response to comparing the impulse responses of the beamforming filters of the first and second beamforming shapers 303, 305.

Фиг. 4 иллюстрирует упрощенный пример фильтрующего и суммирующего формирователя диаграммы направленности, основанного на микрофонной решетке, содержащей всего лишь два микрофона 401. В примере, каждый микрофон 401 присоединен к фильтру 403, 405 формы диаграммы направленности, выходные сигналы которых суммируются в сумматоре 407 для формирования подвергнутого формированию диаграммы направленности звукового выходного сигнала. Фильтры 403, 405 формы диаграммы направленности имеют импульсные характеристики f1 и f2, которые адаптированы для формирования диаграммы направленности в заданном направлении. Будет принято во внимание, что, типично, микрофонная решетка будет содержать более чем два микрофона, и что принцип по фиг. 4 легко распространяется на большее количество микрофонов посредством дополнительного включения в состав фильтра формы диаграммы направленности для каждого микрофона.FIG. 4 illustrates a simplified example of a filtering and summing beamformer based on a microphone array containing only two microphones 401. In the example, each microphone 401 is coupled to a waveform filter 403, 405 whose outputs are summed in an adder 407 to form a shaped directional patterns of the audio output signal. The beamforming filters 403, 405 have impulse responses f1 and f2 that are adapted to beamform in a given direction. It will be appreciated that, typically, a microphone array will contain more than two microphones, and that the principle of FIG. 4 easily extends to more microphones by additionally including a beamform for each microphone in the filter.

Первый и второй формирователи 303, 305 диаграммы направленности могут включать в себя такую фильтрующую и суммирующую архитектуру для формирования диаграммы направленности (например, как у формирователей диаграммы направленности из US 7 146 012 и US 7 602 926). Будет принято во внимание, что, во многих вариантах осуществления, микрофонная решетка 301, однако, может содержать более чем два микрофона. Кроме того, будет принято во внимание, что формирователи 303, 305 диаграммы направленности включают в себя функциональные возможности для адаптации фильтров формы диаграммы направленности, как описано ранее. К тому же, в конкретном примере, формирователи 303, 305 диаграммы направленности формируют не только подвергнутый формированию диаграммы направленности звуковой выходной сигнал, но также шумовой опорный сигнал.The first and second beam drivers 303, 305 may include such a filtering and combining architecture for beamforming (eg, as for beam drivers of US 7,146,012 and US 7,602,926). It will be appreciated that, in many embodiments, the microphone array 301, however, may contain more than two microphones. In addition, it will be appreciated that beamformers 303, 305 include functionality for adapting beamform filters as previously described. Also, in a specific example, the beam drivers 303, 305 generate not only the beamforming audio output, but also a noise reference signal.

В системе по фиг. 3, параметры фильтров формы диаграммы направленности для первого формирователя 303 диаграммы направленности сравниваются с параметрами фильтров формы диаграммы направленности второго формирователя 305 диаграммы направленности. Показатель несовпадения затем может определяться для отражения того, насколько близки эти параметры друг к другу. Более точно, применительно к каждому микрофону, соответствующие фильтры формы диаграммы направленности первого формирователя 303 диаграммы направленности и второго формирователя 305 диаграммы направленности сравниваются друг с другом для формирования промежуточного показателя несовпадения. Промежуточные показатели несовпадения затем комбинируются в единый показатель несовпадения, выдаваемый из процессора 309 несовпадения.In the system of FIG. 3, the parameters of the shape filters for the first beamformer 303 are compared with the parameters of the shape filters of the second beamformer 305. The mismatch score can then be determined to reflect how close these parameters are to each other. More specifically, for each microphone, the respective beamform filters of the first beamformer 303 and the second beamformer 305 are compared with each other to generate an intermediate mismatch metric. The intermediate mismatch metrics are then combined into a single mismatch metric output from the mismatch processor 309.

Сравниваемыми параметрами формы диаграммы направленности типично являются коэффициенты фильтра. Более точно, фильтры формы диаграммы направленности могут быть КИХ-фильтрами, имеющими импульсную характеристику во временной области, определенную набором коэффициентов КИХ-фильтра. Процессор 309 несовпадения может быть выполнен с возможностью сравнивать соответствующие фильтры первого формирователя 303 диаграммы направленности и второго формирователя 305 диаграммы направленности, определяя корреляцию между фильтрами. Значение корреляции может определяться в качестве максимальной корреляции (то есть, значения корреляции для сдвига по времени, доводящего до максимума корреляцию).The comparison parameters of the radiation pattern are typically filter coefficients. More specifically, the beamform filters can be FIR filters having a time-domain impulse response defined by a set of FIR filter coefficients. The mismatch processor 309 may be configured to compare the respective filters of the first beamformer 303 and the second beamformer 305, determining a correlation between the filters. The correlation value can be determined as the maximum correlation (ie, the correlation value for the time offset maximizing the correlation).

Процессор 309 несовпадения затем может комбинировать все эти отдельные значения корреляции в единый показатель несовпадения, например, просто суммированием их друг с другом. В других вариантах осуществления, может выполняться взвешенная комбинация, например, посредством определения весов больших коэффициентов более высокими, чем более низких коэффициентов.The mismatch processor 309 can then combine all of these individual correlation values into a single mismatch metric by simply summing them together, for example. In other embodiments, a weighted combination may be performed, for example, by determining the weights of the larger coefficients higher than the lower coefficients.

Будет принято во внимание, что такой показатель несовпадения будет иметь возрастающее значение для возрастающей корреляции фильтров и, таким образом, что более высокое значение будет указывать скорее повышенное сходство диаграмм направленности нежели повышенное различие. Однако, в вариантах осуществления, в которых желательно, чтобы показатель несовпадения возрастал для возрастающего различия, монотонно убывающая функция может быть просто применена к комбинированной корреляции.It will be appreciated that such a misalignment rate will have an increasing importance for increasing filter correlation, and thus that a higher value will indicate increased pattern similarity rather than increased difference. However, in embodiments in which it is desired that the mismatch rate increases for increasing difference, the monotonically decreasing function can simply be applied to the combined correlation.

Определение показателя несовпадения, основанного на сравнении импульсных характеристик фильтров формы диаграммы направленности вместо основанного на звуковых сигналах (подвергнутых формированию диаграммы направленности звуковых сигналах или сигналах с микрофона), дает значительные преимущества в многих системах и применениях. В частности, подход типично обеспечивает значительно улучшенные рабочие характеристики и, в действительности, пригоден для применения в реверберирующих звуковых средах и для источников звука на больших расстояниях, в том числе, в конкретных источниках звука за пределами радиуса реверберации. Действительно, он дает значительно улучшенные рабочие характеристики в сценариях, в которых прямой тракт от источника звука не является преобладающим, но предпочтительнее там, где прямой тракт и возможно ранние отражения, например, находятся под преобладанием рассеянного звукового поля. В частности, в таких сценариях, оценка несовпадения на основании звукового сигала будет сильно обусловлена пространственными и временными характеристиками звукового поля, тогда как основанный на фильтре подход предоставляет возможность для в большей степени непосредственной оценки диаграмм направленности на основании параметров фильтра, которые не только отражают прямые звуковое поле/путь, но адаптируются, чтобы отражать прямые звуковое поле/путь и ранние отражения (вследствие импульсных характеристик, имеющих расширенную длительность, чтобы принимать во внимание эти отражения).Determining the misalignment metric based on a comparison of the impulse responses of the waveform filters instead of based on audio signals (beamformed audio signals or microphone signals) offers significant advantages in many systems and applications. In particular, the approach typically provides significantly improved performance and is indeed suitable for applications in reverberant sound environments and for long range sound sources, including specific sound sources outside the reverberation radius. Indeed, it provides significantly improved performance in scenarios where the direct path from the sound source is not dominant, but is preferred where the direct path and possibly early reflections, for example, are dominated by a diffuse sound field. Particularly in such scenarios, the misalignment estimate based on the audio signal will be strongly influenced by the spatial and temporal characteristics of the sound field, while the filter-based approach allows for a more direct estimation of radiation patterns based on filter parameters that not only reflect the direct sound field. field / path, but adapt to reflect direct sound field / path and early reflections (due to impulse responses having an extended duration to take these reflections into account).

Действительно, тогда как традиционные метрики DoA и корреляции звуковых сигналов для оценки подобия двух формирователей диаграммы направленности основаны на безэховых средах и, соответственно, хорошо работают в средах, где желательные пользователи находятся близко к микрофонам (в пределах радиуса реверберации), так что преобладает энергия рассеянного звукового поля, подход по фиг. 3 не основан на таких допущениях и дает превосходную оценку, даже в присутствии многих отражений и/или по существу рассеянного акустического шума.Indeed, while traditional DoA metrics and audio correlations for assessing the similarity of two beam drivers are based on anechoic environments and thus perform well in environments where the desired users are close to the microphones (within the reverberation radius) so that the diffuse energy is dominant. sound field, the approach of FIG. 3 is not based on such assumptions and gives an excellent estimate even in the presence of many reflections and / or substantially diffuse acoustic noise.

Другие преимущества включают в себя то, что показатель несовпадения может определяться мгновенно на основании текущих параметров формы диаграммы направленности, а более точно, на основании текущих коэффициентов фильтра. В большинстве вариантов осуществления нет необходимости ни в каком усреднении параметров, скорее, скорость адаптации адаптивных формирователей диаграммы направленности определяет режим работы отслеживания.Other advantages include that the misalignment metric can be determined instantly based on the current beamform parameters, and more precisely, based on the current filter coefficients. In most embodiments, there is no need for any parameter averaging, rather, the adaptation rate of the adaptive beamformers determines the tracking behavior.

Особенно полезный аспект состоит в том, что сравнение и показатель несовпадения могут быть основаны на импульсных характеристиках, которые имеют расширенную длительность. Это предоставляет возможность, чтобы показатель несовпадения не только отражал задержку прямого тракта или углового направления диаграммы направленности, но скорее предоставлял возможность, чтобы принималась во внимание импульсная характеристика значимой части, или, даже более того, всего оцениваемого акустического помещения. Таким образом, показатель несовпадения не основан только на подпространстве, возбужденном сигналами с микрофонов, как в традиционных подходах.A particularly useful aspect is that the comparison and mismatch metric can be based on impulse responses that have an extended duration. This makes it possible that the misalignment metric not only reflects the forward path delay or the angular direction of the radiation pattern, but rather allows the impulse response of a significant part, or even more so, of the entire acoustic room to be taken into account. Thus, the misalignment metric is not based solely on the subspace excited by the signals from the microphones, as in traditional approaches.

В некоторых вариантах осуществления, показатель несовпадения, более точно, может быть выполнен с возможностью сравнивать импульсные характеристики скорее в частотной области, нежели во временной области. Более точно, процессор 309 несовпадения может быть выполнен с возможностью преобразовывать адаптивные импульсные характеристики фильтров первого формирователя 303 диаграммы направленности в частотную область. Подобным образом, процессор 309 несовпадения может быть выполнен с возможностью преобразовывать адаптивные импульсные характеристики фильтров второго формирователя 305 диаграммы направленности в частотную область. Преобразование, более точно, может выполняться посредством применения, например, быстрого преобразования Фурье (БПФ) к импульсным характеристикам фильтров формы диаграммы направленности обоих, первого формирователя 303 диаграммы направленности и второго формирователя 305 диаграммы направленности.In some embodiments, the misalignment metric may more accurately be configured to compare impulse responses in the frequency domain rather than in the time domain. More specifically, the mismatch processor 309 may be configured to convert the adaptive impulse responses of the filters of the first beamformer 303 to the frequency domain. Likewise, the mismatch processor 309 may be configured to convert the adaptive impulse responses of the filters of the second beamformer 305 to the frequency domain. The transformation may more accurately be performed by applying, for example, Fast Fourier Transform (FFT) to the impulse responses of the beamforming filters of both the first beamformer 303 and the second beamformer 305.

Процессор 309 несовпадения может соответственно для каждого фильтра первого формирователя 303 диаграммы направленности и второго формирователя 305 диаграммы направленности формировать набор коэффициентов частотной области. Она затем может переходить к определению показателя несовпадения на основании частотного представления. Например, что касается каждого микрофона из микрофонной решетки 301, процессор 309 несовпадения может сравнивать коэффициенты частотной области двух фильтров формы диаграммы направленности. В качестве простого примера, он может просто определять величину вектора несовпадения, рассчитанного в виде разности между векторами коэффициентов частотной области для двух фильтров. Показатель несовпадения затем может определяться посредством комбинирования промежуточных показателей несовпадения, сформированных для отдельных частот.The mismatch processor 309 may respectively generate a set of frequency domain coefficients for each filter of the first beamformer 303 and the second beamformer 305. It can then proceed to determine the mismatch metric based on the frequency representation. For example, with respect to each microphone from the microphone array 301, the mismatch processor 309 may compare the frequency domain coefficients of the two beamform filters. As a simple example, it can simply determine the magnitude of the mismatch vector calculated as the difference between the vectors of the frequency domain coefficients for the two filters. The mismatch score can then be determined by combining intermediate mismatch scores generated for the individual frequencies.

В нижеследующем, будут описаны специфичные и крайне полезные подходы для определения показателя несовпадения. Подходы основаны на сравнении адаптивных импульсных характеристик в частотной области. В подходе, процессор 309 несовпадения выполнен с возможностью определять частотные показатели несовпадения для частот представлений в частотной области. Более точно, частотный показатель несовпадения может определяться для каждой частоты в частотном представлении. Выходной показатель несовпадения затем формируется из этих отдельных частотных показателях несовпадения.In the following, specific and highly useful approaches for determining the mismatch score will be described. The approaches are based on a comparison of adaptive impulse responses in the frequency domain. In an approach, mismatch processor 309 is configured to determine mismatch frequency metrics for frequency domain representation frequencies. More specifically, a frequency misalignment metric can be determined for each frequency in a frequency representation. The output mismatch metric is then generated from these individual mismatch frequency metrics.

Частотный показатель несовпадения, более точно, может формироваться для каждого коэффициента частотного фильтра каждой пары фильтров из фильтров формы диаграммы направленности, где пара фильтров представляет собой фильтры соответственно первого формирователя 303 диаграммы направленности и второго формирователя 305 диаграммы направленности для одного и того же микрофона. Частотный показатель несовпадения для этой пары частотных коэффициентов формируется в виде функции двух коэффициентов. Действительно, в некоторых вариантах осуществления, частотный показатель несовпадения для пары коэффициентов может определяться в виде абсолютной разности между коэффициентами.A mismatch frequency metric, more specifically, may be generated for each frequency filter coefficient of each filter pair of beamform filters, where the filter pair are filters, respectively, of the first beamformer 303 and the second beamformer 305 for the same microphone. The frequency mismatch indicator for this pair of frequency coefficients is formed as a function of the two coefficients. Indeed, in some embodiments, the frequency mismatch metric for a pair of coefficients may be determined as the absolute difference between the coefficients.

Однако, что касается вещественнозначных коэффициентов во временной области (то есть, вещественнозначной импульсной характеристики), частотные коэффициенты как правило будут комплексными значениями и, в многих применениях особенно полезный частотный показатель несовпадения для пары коэффициентов определяется в ответ на умножение первого коэффициента частотной области и сопряженной величины второго коэффициента частотной области (то есть, в ответ на умножение комплексного коэффициента одного фильтра и сопряженной величины комплексного коэффициента другого фильтра из пары).However, for real-valued time-domain coefficients (i.e. real-valued impulse response), the frequency coefficients will generally be complex values and, in many applications, a particularly useful frequency mismatch metric for a pair of coefficients is determined in response to the multiplication of the first frequency-domain coefficient and the conjugate quantity a second frequency domain coefficient (that is, in response to multiplying the complex coefficient of one filter and the conjugate value of the complex coefficient of the other filter in the pair).

Таким образом, что касается каждого элемента разрешения по частоте представлений в частотной области импульсных характеристик фильтров формы диаграммы направленности, частотный показатель несовпадения может формироваться для каждой пары микрофонов/фильтров. Комбинированный частотный показатель несовпадения для частоты затем может формироваться посредством комбинирования этих специфичных микрофону частотных показателей несовпадения для всех микрофонов, например, просто посредством их суммирования.Thus, with respect to each frequency domain bin of the impulse responses of the beamform filters, a mismatch frequency metric may be generated for each microphone / filter pair. The combined mismatch frequency metric for frequency can then be generated by combining these microphone specific mismatch metrics for all microphones, for example, simply by adding them together.

Подробнее, формирователи 303, 305 диаграммы направленности могут содержать коэффициенты фильтра частотной области для каждого микрофона и для каждой частоты представления в частотной области.In more detail, beam drivers 303, 305 may contain frequency domain filter coefficients for each microphone and for each frequency domain representation.

Что касается первого формирователя 303 диаграммы направленности, эти коэффициенты могут быть обозначены

, а для второго формирователя 305 диаграммы направленности они могут быть обозначены

, где M - количество микрофонов.With regard to the first beamformer 303, these coefficients can be denoted

and for the second beamformer 305 they may be denoted

, where M is the number of microphones.

Полный набор коэффициентов фильтра частотной области формы диаграммы направленности для определенной частоты и для всех микрофонов, что касается первого формирователя 303 диаграммы направленности и второго формирователя 305 диаграммы направленности, соответственно, может быть обозначен как

и

.The complete set of frequency domain filter coefficients of the beamform for a specific frequency and for all microphones, with respect to the first beamformer 303 and the second beamformer 305, respectively, may be denoted as

and

...

В этом случае, частотный показатель несовпадения для заданной частоты может быть определен как:In this case, the frequency mismatch metric for a given frequency can be defined as:

Посредством умножения комплекснозначных коэффициентов фильтра, которые принадлежат одним и тем же микрофонам, получаем, применительно к каждой частоте, первую форму показателя расстояния, таким образом,By multiplying the complex-valued filter coefficients that belong to the same microphones, we obtain, for each frequency, the first form of the distance exponent, thus

где

представляет собой комплексно сопряженную величину. Это может использоваться в качестве показателя несовпадения для частоты ω применительно к микрофону m. Комбинированный частотный показатель несовпадения для всех микрофонов может формироваться в виде суммы таковых, то есть,where

is a complex conjugate value. This can be used as an indication of the misalignment for the frequency ω applied to the microphone m. The combined frequency mismatch index for all microphones can be formed as a sum of those, that is,

Если два фильтра не связаны, то есть, адаптированное состояние фильтров и, таким образом, сформированные диаграммы направленности сильно не совпадают, ожидается, что эта сумма должна быть близкой к нулю и, таким образом, частотный показатель несовпадения близок к нулю. Однако, если коэффициенты фильтра аналогичны, получается большое положительное значение. Если коэффициенты фильтра имеют противоположный знак, то получается большое отрицательное значение. Таким образом, сформированный частотный показатель несовпадения является указывающим подобие фильтров формы диаграммы направленности применительно к этой частоте.If the two filters are unconnected, that is, the adapted state of the filters and thus the generated radiation patterns are highly misaligned, this sum is expected to be close to zero and thus the mismatch frequency metric is close to zero. However, if the filter coefficients are the same, a large positive value is obtained. If the filter coefficients are of the opposite sign, a large negative value is obtained. Thus, the generated mismatch frequency metric is indicative of the similarity of the beamform filters with respect to that frequency.

Умножение двух комплексных коэффициентов (в том числе, сопряженной величины) дает в результате комплексное значение и, в многих вариантах осуществления, может быть желательно преобразовывать его в скалярное значение.The multiplication of two complex coefficients (including the conjugate value) results in a complex value and, in many embodiments, it may be desirable to convert it to a scalar value.

В частности, в многих вариантах осуществления, частотный показатель несовпадения для данной частоты определяется в ответ на вещественную часть комбинации частотных показателей несовпадения для разных микрофонов применительно к такой частоте.In particular, in many embodiments, the mismatch frequency metric for a given frequency is determined in response to the real part of the combination of mismatch frequency metrics for different microphones with respect to that frequency.

Более точно, комбинированный частотный показатель несовпадения может быть определен как:More precisely, the combined mismatch frequency metric can be defined as:

В этой мере, показатель подобия, основанный на Re(S), дает в результате максимальное значение, достигаемое, когда коэффициенты фильтров идентичны, тогда как минимальное значение достигается, когда коэффициенты фильтров одинаковы, но имеют противоположные знаки.In this measure, the similarity score based on Re (S) results in the maximum value achieved when the filter coefficients are identical, while the minimum value is reached when the filter coefficients are the same but have opposite signs.

Еще один подход состоит в том, чтобы определять комбинированный частотный показатель несовпадения для данной частоты в ответ на норму комбинации частотных показателей несовпадения для микрофонов. Норма типично преимущественно может быть нормой L1 или L2.Another approach is to determine the combined mismatch metric for a given frequency in response to the mismatch combination rate for the microphones. The rate typically advantageously may be the L1 or L2 rate.

Например:For example:

В некоторых вариантах осуществления, комбинированный частотный показатель несовпадения для всех микрофонов из микрофонной решетки 301, таким образом, определяется в качестве амплитуды или абсолютного значения суммы комплекснозначных частотных показателей несовпадения для отдельных микрофонов.In some embodiments, the combined mismatch frequency metric for all microphones from the microphone array 301 is thus defined as the amplitude or absolute value of the sum of the complex mismatch frequency metrics for the individual microphones.

В многих вариантах осуществления, может быть полезно нормировать показатель несовпадения. Например, может быть полезно нормировать показатель несовпадения, так чтобы он попадал в интервал [0;1].In many embodiments, it may be useful to normalize the mismatch score. For example, it may be useful to normalize the mismatch metric so that it falls within the interval [0; 1].

В некоторых вариантах осуществления, показатели несовпадения, описанные выше, могут нормироваться, будучи определяемыми в ответ на сумму монотонной функции нормы суммы коэффициентов частотной области применительно к первому формирователю 303 диаграммы направленности и монотонной функции нормы для суммы коэффициентов частотной области применительно ко второму формирователю 305 диаграммы направленности, где суммы выполняются по микрофонам. Норма преимущественно может быть нормой L2, а монотонная функция преимущественно может быть квадратичной функцией.In some embodiments, the misalignment metrics described above may be normalized by being determined in response to the sum of a monotonic rate function of the sum of frequency domain coefficients applied to the first beamformer 303 and a monotonic rate function for the sum of frequency domain coefficients applied to the second beamformer 305. where the sums are performed over the microphones. The norm may predominantly be the L2 norm, and the monotonic function may predominantly be a quadratic function.

Таким образом, показатели несовпадения могут нормироваться относительно следующего значения:Thus, the mismatch indicators can be normalized relative to the following value:

В комбинации с первым подходом, описанным выше, это дает в результате комбинированные частотные показатели несовпадения, заданные в виде:Combined with the first approach described above, this results in combined frequency mismatch metrics given as:

где сдвиг ½ привносится, так чтобы, применительно к

, частотный показатель несовпадения имел значение единицы, а применительно к

, частотный показатель несовпадения имел значение нуля. Таким образом, формируется показатель несовпадения между 0 и 1, где возрастающее значение является указывающим уменьшающееся различие. Будет принято во внимание, что, если возрастающее значение желательно для возрастающего различия, это может просто достигаться посредством определения:where the shift ½ is introduced so that, as applied to

, the frequency mismatch indicator had the value of one, and in relation to

, the mismatch frequency exponent was zero. Thus, a mismatch score between 0 and 1 is generated, where an increasing value is indicative of a decreasing difference. It will be appreciated that if an increasing value is desired for an increasing difference, this can simply be achieved by specifying:

Подобным образом, что касается второго подхода, может определяться следующий частотный показатель несовпадения:Similarly, for the second approach, the following mismatch frequency metric can be determined:

вновь давая в результате частотный показатель несовпадения, попадающий в интервал [0;1].

again resulting in a mismatch frequency metric falling within the interval [0; 1].

В качестве еще одного примера, нормирование в некоторых вариантах осуществления может быть основано на умножении норм, а более точно норм L2, отдельных сумм частотных показателей несовпадения:As another example, the rationing in some embodiments may be based on the multiplication of the norms, and more precisely the L2 norms, of the individual sums of the frequency mismatch indicators:

Это, в частности, в многих применениях может давать очень полезные рабочие характеристики для последнего примера показателя несовпадения (то есть, основанного на норме L1 для коэффициентов). В частности, может использоваться следующий частотный показатель несовпадения.This, in particular in many applications, can give very useful performance characteristics for the last example of a misalignment metric (ie, based on the L1 rate for the coefficients). In particular, the following mismatch frequency metric can be used.

Конкретные частотные показатели несовпадения, соответственно, могут быть определены как:Specific frequency indicators of mismatch, respectively, can be defined as:

где

- скалярное произведение, а

- норма

.where

is the dot product, and

- norm

...

Процессор 309 несовпадения затем может формировать показатель несовпадения из частотных показателей несовпадения, комбинируя их в единый показатель несовпадения, указывающий, насколько подобны диаграммы направленности первого формирователя 303 диаграммы направленности и второго формирователя 305 диаграммы направленности.The mismatch processor 309 can then generate a mismatch metric from the mismatch frequency metrics, combining them into a single mismatch metric indicating how similar the radiation patterns of the first beamformer 303 and the second beamformer 305 are.

Более точно, показатель несовпадения может определяться в качестве избирательной по частоте взвешенной суммы частотных показателей несовпадения. Избирательный по частоте подход может быть особенно полезен для применения пригодного частотного окна, например, предоставляя возможность, чтобы предыскажение накладывалось на конкретные частотные диапазоны, например, такое как на звуковой диапазон или основные речевые интервалы частот. Например, (взвешенное) усреднение может применяться для формирования устойчивого широкополосного показателя несовпадения.More specifically, the mismatch metric can be defined as a frequency selective weighted sum of the mismatch frequency metrics. A frequency selective approach can be particularly useful for applying a suitable frequency window, for example, by allowing the pre-emphasis to be superimposed on specific frequency bands, such as the audio band or fundamental speech frequency bands, for example. For example, (weighted) averaging can be used to generate a robust broadband mismatch metric.

Более точно, показатель несовпадения может быть определен как:More precisely, the mismatch score can be defined as:

где

- подходящая весовая функция.where

is a suitable weighting function.

В качестве примера, весовая функция

может быть сконструирована, чтобы учитывать, что речь главным образом активна в определенных полосах частот, и/или что микрофонная решетка имеет тенденцию иметь низкую направленность для относительно низких частот.As an example, the weighting function

may be designed to take into account that speech is primarily active in certain frequency bands, and / or that the microphone array tends to have low directivity for relatively low frequencies.

Будет принято во внимание, что, тогда как вышеприведенные уравнения представлены в непрерывной частотной области, они без труда могут быть переведены в дискретную частотную область.It will be appreciated that, while the above equations are represented in the continuous frequency domain, they can easily be translated into the discrete frequency domain.

Например, дискретные фильтры во временной области сначала могут быть преобразованы в дискретные фильтры частотной области посредством применения дискретного преобразования Фурье, то есть, применительно к

, можем рассчитать:For example, discrete time-domain filters can first be converted to discrete frequency-domain filters by applying a discrete Fourier transform, that is, in relation to

, we can calculate:

где

представляет собой характеристику фильтра в дискретном времени

'ого формирователя диаграммы направленности для

'ого микрофона,

- длина фильтров во временной области,

представляет собой дискретный фильтр в частотной области

'ого микрофона, а

- длина фильтров формы диаграммы направленности в частотной области, типично выбираемая в качестве

(зачастую то же самого числа, что и коэффициентов во временной области, хотя это не обязательно имеет место. Например, что касается количества коэффициентов во временной области, иного чем 2N, вставка нулей может использоваться для облегчения преобразования в частотную область (например, с использованием БПФ)).where

is the discrete-time response of the filter

'th beamformer for

'wow microphone,

- the length of the filters in the time domain,

is a discrete filter in the frequency domain

'th beamformer for

'oh mic, ah

is the length of the frequency domain shape filters, typically selected as

(often the same number as the coefficients in the time domain, although this is not necessarily the case. FFT)).

Эквивалентами в дискретной частотной области векторов

и

являются векторы

и

, которые получаются посредством собирания коэффициентов фильтра частотной области по индексу

частоты для всех микрофонов в вектор.Equivalents in the discrete frequency domain of the vectors

and

are vectors

and

, which are obtained by collecting the frequency domain filter coefficients by the index

frequencies for all microphones into vector.

По существу, например, расчет показателя

подобия затем может выполняться следующим образом:Essentially, for example, calculating an indicator

the similarity can then be done as follows:

причем,moreover,

где

представляет собой комплексное сопряжение.where

represents complex conjugation.

В заключение, широкополосный показатель

подобия может, на основании весовой функции

рассчитываться, как изложено ниже:In conclusion, broadband metric

similarity can, based on the weight function

be calculated as follows:

Выбор весовой функции в качестве

ведет к широкополосному показателю подобия, который ограничен между нулем и единицей, и который ровно взвешивает все частоты.Selecting the weight function as

leads to a broadband similarity measure that is bounded between zero and one, and which evenly weighs all frequencies.

Альтернативные весовые функции могут сосредотачиваться на конкретном диапазоне частот (например, вследствие того, что он, вероятно должен содержать в себе речь). В таком случае, весовая функция, которая приводит к показателю подобия, ограниченному между нулем и единицей, например, в таком случае, может быть выбрана в качестве:Alternative weighting functions may focus on a specific frequency range (eg, due to the fact that it is likely to contain speech). In such a case, a weighting function that results in a similarity measure bounded between zero and one, for example, in such a case, can be chosen as:

где

и

- индексы частоты, соответствующие границам требуемого диапазона частот.where

and

- frequency indices corresponding to the boundaries of the required frequency range.

Производный показатель несовпадения дает особенно эффективные рабочие характеристики с разными характеристиками, которые могут быть желательны в разных вариантах осуществления. В частности, определенные значения могут быть чувствительны к разным свойствам несовпадения диаграмм направленности и, в зависимости от отдельного варианта осуществления, могут быть предпочтительны разные показатели.The derived mismatch metric provides particularly effective performance with different characteristics that may be desirable in different embodiments. In particular, certain values may be sensitive to different pattern mismatch properties and, depending on the particular embodiment, different metrics may be preferred.

Действительно, показатель

несовпадения/подобия может рассматриваться для измерения несовпадений фазы, затухания и направления между формирователями диаграммы направленности, тем временем,

вновь учитывает только несовпадения коэффициента передачи и направления. В заключение показатель

несовпадения учитывает только несовпадения направления и игнорирует несовпадения фазы и затухания.Indeed, the indicator

mismatch / similarity can be considered to measure phase, attenuation and direction mismatches between beamformers, meanwhile,

again takes into account only the discrepancy between the transmission ratio and the direction. In conclusion, the indicator

mismatch only considers directional mismatches and ignores phase mismatches and attenuation.

Эти несовпадения относятся к структуре формирователей диаграммы направленности. Более точно, предположим, что коэффициенты фильтра формирователя диаграммы направленности совместно используют общий (независимый от частоты) фактор по всем микрофонам, который указываем как

. В этом случае, коэффициенты фильтра формирователя диаграммы направленности могут быть разложены, как изложено ниже:These mismatches are related to the beamformer structure. More specifically, suppose that the beamformer filter coefficients share a common (frequency independent) factor across all microphones, which we refer to as

... In this case, the coefficients of the beamformer filter can be decomposed as follows:

В сокращенном обозначении имеем

. Затем, рассмотрим два варианта общего фактора

.In abbreviated notation, we have

... Then, consider two options for the common factor

...

В первом случае, допустим, что общий фактор состоит только из (независимого от частоты) сдвига фазы, то есть

, также известного как фазовый фильтр. Во втором случае, допустим, что общий фактор имеет произвольный коэффициент передачи и сдвиг фазы для каждой частоты. Три представленных показателя подобия обращаются с этими общими факторами по-разному.In the first case, let's say that the total factor consists only of a (independent of frequency) phase shift, that is

also known as a phase filter. In the second case, let's say that the common factor has an arbitrary gain and phase shift for each frequency. The three similarity metrics presented treat these common factors differently.

чувствительно к общим расхождениям амплитуды и фазы между формирователями диаграммы направленности.

sensitive to general amplitude and phase discrepancies between beamformers.

чувствительно к общим расхождениям амплитуды между формирователями диаграммы направленности.

sensitive to general amplitude discrepancies between the beamformers.

нечувствительно к общему фактору.

insensitive to the general factor.

Это может быть видно из следующих примеров:This can be seen from the following examples:

Пример 1:Example 1:

В этом примере, рассмотрим сценарий с

, причем,

является произвольной фазой для каждой частоты, то есть, фазовым фильтром.For this example, consider a scenario with

, moreover,

is an arbitrary phase for each frequency, that is, a phase filter.

Это дает в результате следующие результаты для показателей подобия:This results in the following results for the similarity scores:

Пример 2:Example 2:

В этом примере, рассмотрим сценарий с

, причем

- произвольные коэффициент передачи и фаза для каждой частоты. Это дает в результате следующие результаты для показателей подобия:For this example, consider a scenario with

, and

- arbitrary gain and phase for each frequency. This results in the following results for the similarity scores:

В многих практических вариантах осуществления, могут быть общие расхождения коэффициента передачи и фазы между формирователями диаграммы направленности и, соответственно, показатель

несовпадения в многих вариантах осуществления может давать особенно привлекательный показатель.In many practical embodiments, there can be general gain and phase differences between the beamformers and, accordingly, the metric

mismatches in many embodiments can provide a particularly attractive metric.

В нижеследующем, будет описано устройство звукозаписи, в котором сформированный показатель несовпадения взаимодействует с другими описанными элементами, чтобы давать особенно полезную систему звукозаписи. В частности, подход крайне пригоден для записи источников звука в зашумленных и реверберирующих средах. Он дает особенно полезные рабочие характеристики для применений, в которых желательный источник звука может находится за пределами радиуса реверберации, и звук, захваченный микрофонами, может находиться под преобладанием рассеянного шума и поздних отражений или ревербераций.In the following, a sound recording apparatus will be described in which the generated mismatch metric interacts with the other described elements to provide a particularly useful sound recording system. In particular, the approach is extremely suitable for recording sound sources in noisy and reverberant environments. It provides particularly useful performance for applications where the desired sound source may be outside the reverberation radius and the sound captured by the microphones may be dominated by stray noise and late reflections or reverberations.

Фиг. 5 иллюстрирует пример элементов такого устройства звукозаписи в соответствии с некоторыми вариантами осуществления изобретения. Элементы и подход системы по фиг. 3 могут соответствовать системе по фиг. 5, как оговорено в нижеследующем.FIG. 5 illustrates an example of elements of such a sound recording apparatus in accordance with some embodiments of the invention. The elements and approach of the system of FIG. 3 may correspond to the system of FIG. 5 as follows.

Устройство звукозаписи содержит микрофонную решетку 501, которая может прямо соответствовать таковой по фиг. 3. В примере, микрофонная решетка 501 присоединена к необязательному эхокомпенсатору 503, который может нейтрализовать эхо, которое происходит из акустических источников (для которых имеется в распоряжении опорный сигнал), которые линейно связаны с эхо в сигнале(ах) с микрофона. Этим источником, например, может быть громкоговоритель. Адаптивный фильтр может применяться с опорным сигналом в качестве входного сигнала, и с выходным сигналом, вычитаемым из сигнала с микрофона для создания эхокомпенсированного сигнала. Это может быть повторено для каждого отдельного микрофона.The sound recorder comprises a microphone array 501 which may correspond directly to that of FIG. 3. In the example, the microphone array 501 is connected to an optional echo canceller 503 that can cancel out echo that comes from acoustic sources (for which a reference is available) that are linearly coupled to the echo in the microphone signal (s). This source can be, for example, a loudspeaker. An adaptive filter can be applied with a reference signal as the input signal, and with the output signal subtracted from the microphone signal to create an echo canceled signal. This can be repeated for each individual microphone.

Будет принято во внимание, что эхокомпенсатор 503 необязателен и может быть просто не включен в состав в многих вариантах осуществления.It will be appreciated that echo canceler 503 is optional and may simply not be included in many embodiments.

Микрофонная решетка 501 присоединена к первому формирователю 505 диаграммы направленности, типично непосредственно или через эхокомпенсатор 503 (а также возможно через усилители, цифро-аналоговые преобразователи, и т. д., как будет хорошо известно специалисту в данной области техники). Первый формирователь 505 диаграммы направленности может прямо соответствовать первому формирователю 303 диаграммы направленности по фиг. 3.A microphone array 501 is coupled to a first beamformer 505, typically directly or via an echo canceller 503 (and possibly also via amplifiers, digital-to-analog converters, etc., as will be well known to one of ordinary skill in the art). The first beamformer 505 may correspond directly to the first beamformer 303 of FIG. 3.

Первый формирователь 505 диаграммы направленности выполнен с возможностью комбинировать сигналы с микрофонной решетки 501, так чтобы формировалась эффективная направленная звуковая чувствительность микрофонной решетки 501. Первый формирователь 505 диаграммы направленности, таким образом, вырабатывает выходной сигнал, указываемый ссылкой как первый подвергнутый формированию диаграммы направленности звуковой выходной сигнал, который соответствует избирательной записи звука в окружающей среде. Первый формирователь 505 диаграммы направленности является адаптивным формирователем диаграммы направленности, и направленность может управляться посредством установления параметров, упоминаемых как первые параметры формы диаграммы направленности, действия формы диаграммы направленности первого формирователя 505 диаграммы направленности.The first beamformer 505 is configured to combine signals from the microphone array 501 so that an effective directional sonic response of the microphone array 501 is generated. The first beamformer 505 thus generates an output, referred to as the first beamforming audio output signal , which corresponds to the selective recording of sound in the environment. The first beamformer 505 is an adaptive beamformer, and the directivity can be controlled by setting parameters, referred to as first beamform parameters, to the effect of the beamform of the first beamformer 505.

Первый формирователь 505 диаграммы направленности присоединен к первому адаптеру 507, который выполнен с возможностью адаптировать параметры первой формы диаграммы направленности. Таким образом, первый адаптер 507 выполнен с возможностью адаптировать параметры первого формирователя 505 диаграммы направленности, так чтобы диаграмма направленности могла управляться по направлению.The first beamformer 505 is coupled to the first adapter 507, which is adapted to adapt the parameters of the first beamform. Thus, the first adapter 507 is configured to adapt the parameters of the first beamformer 505 so that the radiation pattern can be directionally controlled.

В дополнение, устройство звукозаписи содержит множество ограниченных формирователей 509, 511 диаграммы направленности, каждый из которых выполнен с возможностью комбинировать сигналы с микрофонной решетки 501, так чтобы формировалась эффективная направленная звуковая чувствительность микрофонной решетки 501. Каждый из ограниченных формирователей 509, 511 диаграммы направленности, таким образом, выполнен с возможностью формировать звуковой выходной сигнал, указываемый ссылкой как подвергнутый ограниченному формированию диаграммы направленности звуковой выходной сигнал, который соответствует избирательной записи звука в окружающей среде. Аналогично первому формирователю 505 диаграммы направленности, ограниченные формирователи 509, 511 диаграммы направленности являются адаптивными формирователями диаграммы направленности, где направленность каждого ограниченного формирователя 509, 511 диаграммы направленности может управляться параметрами настройки, упоминаемыми как параметры ограниченной формы диаграммы направленности, ограниченных формирователей 509, 511 диаграммы направленности.In addition, the sound recorder comprises a plurality of limited beam drivers 509, 511, each of which is configured to combine signals from the microphone array 501 so that an effective directional sonic response of the microphone array 501 is formed. Each of the limited beam drivers 509, 511 such is thus configured to generate an audio output, referred to as a limited beamforming audio output that corresponds to selectively recording audio in an environment. Similar to the first beamformer 505, the constrained beam drivers 509, 511 are adaptive beamformers, where the directivity of each constrained beamformer 509, 511 may be controlled by settings referred to as the constrained beamform parameters of the constrained beamformers 509, 511 ...

Устройство звукозаписи соответственно содержит второй адаптер 513, который выполнен с возможностью адаптировать параметры ограниченной формы диаграммы направленности множества ограниченных формирователей диаграммы направленности, тем самым, адаптируя диаграммы направленности, сформированные таковыми.The audio recorder suitably comprises a second adapter 513 that is configured to adapt the bounded beamform parameters of the plurality of bounded beamforming devices, thereby adapting the radiation patterns generated therefrom.

Второй формирователь 305 диаграммы направленности по фиг. 3 может прямо соответствовать первому ограниченному формирователю 509 диаграммы направленности по фиг. 5. Также будет принято во внимание, что остальные ограниченные формирователи 511 диаграммы направленности могут соответствовать первому формирователю 303 диаграммы направленности и могли бы считаться его экземплярами.The second beamformer 305 of FIG. 3 may correspond directly to the first constrained beamformer 509 of FIG. 5. It will also be appreciated that the rest of the constrained beamformer 511 may correspond to the first beamformer 303 and could be considered instances of it.

Как первый формирователь 505 диаграммы направленности, так и ограниченные формирователи 509, 511 диаграммы направленности соответственно являются адаптивными формирователями диаграммы направленности, для которых действующая сформированная диаграмма направленности может динамически адаптироваться. Более точно, формирователи 505, 509, 511 диаграммы направленности являются фильтрующими и комбинирующими (или, более точно, в большинстве вариантов осуществления фильтрующими и суммирующими) формирователями диаграммы направленности. Фильтр формы диаграммы направленности может применяться к каждому из сигналов с микрофона, и фильтрованные выходные сигналы могут комбинироваться, типично посредством простого сложения друг с другом.Both the first beamformer 505 and the constrained beamformer 509, 511, respectively, are adaptive beamformers for which the actual generated beamformator can dynamically adapt. More specifically, the beam drivers 505, 509, 511 are filter and combiner (or, more specifically, filter and combiner in most embodiments). A waveform filter can be applied to each of the microphone signals, and the filtered outputs can be combined, typically by simply adding together.

Будет принято во внимание, что комментарии, приведенные в отношении первого формирователя 303 диаграммы направленности и второго формирователя 305 диаграммы направленности (например, в отношении фильтров формы диаграммы направленности) равным образом применяются к формирователям 505, 509, 511 диаграммы направленности по фиг. 5.It will be appreciated that the comments made with respect to first beamformer 303 and second beamformer 305 (eg, with respect to waveform filters) equally apply to beamformators 505, 509, 511 of FIG. 5.

В многих вариантах осуществления, конструкция и реализация первого формирователя 505 диаграммы направленности и ограниченных формирователей 509, 511 диаграммы направленности могут быть одинаковыми, например, фильтры формы диаграммы направленности могут иметь идентичные конструкции КИХ-фильтра с одинаковым количеством коэффициентов, и т. д.In many embodiments, the design and implementation of the first beamformer 505 and the constrained beamformer 509, 511 may be the same, for example, the beamform filters may have identical FIR filter designs with the same number of coefficients, etc.

Однако, работа и параметры первого формирователя 505 диаграммы направленности и ограниченных формирователей 509, 511 диаграммы направленности будут разными и, в частности, ограниченные формирователи 509, 511 диаграммы направленности в своем роде ограничены, а первый формирователь 505 диаграммы направленности нет. Более точно, адаптация ограниченных формирователей 509, 511 диаграммы направленности будет иной, чем адаптация первого формирователя 505 диаграммы направленности и, более точно, будет подвержена некоторым ограничениям.However, the operation and parameters of the first beamformer 505 and the limited beamformer 509, 511 will be different and, in particular, the limited beamformer 509, 511 is somewhat limited, and the first beamformer 505 is not. More specifically, the adaptation of the limited beamformer 509, 511 will be different than the adaptation of the first beamformer 505, and more specifically will be subject to some limitations.

Более точно, ограниченные формирователи 509, 511 диаграммы направленности подвергаются ограничению, что адаптация (обновление параметров фильтра формы диаграммы направленности) ограничена ситуациями, когда удовлетворен критерий, тогда как первому формирователю 505 диаграммы направленности будет предоставлена возможность адаптироваться, даже когда такой критерий не удовлетворен. Действительно, в многих вариантах осуществления, первому адаптеру 507 может быть предоставлена возможность всегда адаптировать фильтр формы диаграммы направленности, причем это не ограничивается никакими свойствами звука, захватываемого первым формирователем 505 диаграммы направленности (или каким-нибудь из ограниченных формирователей 509, 511 диаграммы направленности).More specifically, the constrained beam drivers 509, 511 are subject to the constraint that the adaptation (updating the waveform filter parameters) is limited to situations where a criterion is met, while the first beamformer 505 will be allowed to adapt even when such a criterion is not met. Indeed, in many embodiments, the first adapter 507 may be allowed to always adapt the beamform filter without being limited by any properties of the sound captured by the first beamformer 505 (or any of the limited beamformators 509, 511).

Критерий для адаптации ограниченных формирователей 509, 511 диаграммы направленности позже будет описан подробнее.The criterion for adapting the limited beam shapers 509, 511 will be described in more detail later.

В многих вариантах осуществления, скорость адаптации для первого формирователя 505 диаграммы направленности выше, чем для ограниченных формирователей 509, 511 диаграммы направленности. Таким образом, в многих вариантах осуществления, первый адаптер 507 может быть выполнен с возможностью адаптироваться к изменениям быстрее, чем второй адаптер 513, и таким образом, первый формирователь 505 диаграммы направленности может обновляться быстрее, чем ограниченные формирователи 509, 511 диаграммы направленности. Это, например, может достигаться посредством фильтрации нижних частот доводимого до максимума или минимизируемого значения (например, уровня сигнала у выходного сигнала или величины сигнала ошибки), имеющей более высокую частоту среза для первого формирователя 505 диаграммы направленности, чем для ограниченных формирователей 509, 511 диаграммы направленности. В качестве еще одного примера, максимальное изменение на обновление параметров формы диаграммы направленности (более точно, коэффициентов фильтра формы диаграммы направленности) может быть большим для первого формирователя 505 диаграммы направленности, чем для ограниченных формирователей 509, 511 диаграммы направленности.In many embodiments, the adaptation rate for the first beamformer 505 is higher than for the constrained beamformer 509, 511. Thus, in many embodiments, the first adapter 507 can be configured to adapt to changes faster than the second adapter 513, and thus the first beamformer 505 can update faster than the constrained beam drivers 509, 511. This, for example, can be achieved by lowpass filtering a maximized or minimized value (e.g., output signal level or error signal magnitude) having a higher cutoff frequency for the first beamformer 505 than for the constrained beamformer 509, 511 directionality. As yet another example, the maximum change to update the beamform parameters (more specifically, the beamform filter coefficients) may be greater for the first beamformer 505 than for the constrained beamformers 509, 511.

Соответственно, в системе, множество сфокусированных (ограниченных адаптацией) формирователей диаграммы направленности, которые адаптируются медленно, и только когда удовлетворен определенный критерий, дополнены автономно работающим быстрее адаптирующимся формирователем диаграммы направленности, который не подвергается этому ограничению. Более медленные и сфокусированные формирователи диаграммы направленности типично будут давать более медленную, но более точную и надежную адаптацию под конкретную звуковую среду, чем автономно работающий формирователь диаграммы направленности, который, однако, типично будет способен быстро адаптироваться на большем интервале параметров.Accordingly, in the system, a plurality of focused (adaptation constrained) beamformers that adapt slowly, and only when a certain criterion is met, are supplemented with a standalone faster adapting beamformer that does not suffer from this constraint. Slower and more focused beamformators will typically give slower, but more accurate and reliable adaptation to a specific sound environment than a stand-alone beamformer, which, however, will typically be able to quickly adapt over a wider range of parameters.

В системе по фиг. 5 эти формирователи диаграммы направленности используются синергетически совместно, чтобы давать улучшенные рабочие характеристики, как будет подробнее описано позже.In the system of FIG. 5, these beamformers are used synergistically together to provide improved performance, as will be described in more detail later.

Первый формирователь 505 диаграммы направленности и ограниченные формирователи 509, 511 диаграммы направленности присоединены к процессору 515 вывода, который принимает подвергнутые формированию диаграммы направленности звуковые выходные сигналы из формирователей 505, 509, 511 диаграммы направленности. Точный выходной сигнал, сформированный из устройства звукозаписи, будет зависеть от конкретных предпочтений и требований отдельного варианта осуществления. Действительно, в некоторых вариантах осуществления, выходной сигнал из устройства звукозаписи может просто состоять из звуковых выходных сигналов из формирователей 505, 509, 511 диаграммы направленности.The first beamformer 505 and the limited beam drivers 509, 511 are coupled to an output processor 515 that receives beamforming audio outputs from the beamformers 505, 509, 511. The exact output signal generated from the audio recorder will depend on the particular preferences and requirements of the particular embodiment. Indeed, in some embodiments, the output from the audio recorder may simply consist of audio outputs from beamforming drivers 505, 509, 511.

В многих вариантах осуществления, выходной сигнал из процессора 515 вывода формируется в виде комбинации звуковых выходных сигналов из формирователей 505, 509, 511 диаграммы направленности. Действительно, в некоторых вариантах осуществления, может выполняться простое выборочное комбинирование, например, выбор звуковых выходных сигналов, для которых является наивысшим отношение сигнал/шум или просто уровень сигнала.In many embodiments, the output from the output processor 515 is generated as a combination of audio outputs from the beam drivers 505, 509, 511. Indeed, in some embodiments, simple selective combining may be performed, such as selecting the audio outputs for which the signal-to-noise ratio is the highest, or simply the signal strength.

Таким образом, выбор и последующая обработка выходного сигнала процессора 515 вывода может быть специализированной и/или разной в разных реализациях/вариантах осуществления. Например, могут выдаваться все возможные выходные сигналы сфокусированной диаграммы направленности, выбор может делаться на основании критерия, определенного пользователем (например, выбирается наиболее мощный докладчик), и т. д.Thus, the selection and subsequent processing of the output of the output processor 515 may be specialized and / or different in different implementations / embodiments. For example, all possible focused beamforms outputs can be provided, selection can be made based on user-defined criteria (e.g., the most powerful presenter is selected), etc.

В некоторых вариантах осуществления, последующая обработка, такая как подавление шума по фиг. 1, может применяться к выходному сигналу устройства звукозаписи (например, процессором 515 вывода). Это может улучшать рабочие характеристики, например, применительно к речевой связи. В такую последующую обработку могут быть включены нелинейные операции, хотя, например, что касается некоторых распознавателей речи, может быть полезно ограничивать обработку включением в состав только линейной обработки.In some embodiments, post-processing, such as the noise suppression of FIG. 1 may be applied to the output of an audio recorder (eg, output processor 515). This can improve performance, for example, for voice communications. Non-linear operations may be included in such post-processing, although, for example, with some speech recognizers, it may be useful to limit the processing to include only linear processing.

В системе по фиг. 5, особенно полезный подход принимается для захвата звукового сигнала на основании синергетического взаимодействия и взаимосвязи между первым формирователем 505 диаграммы направленности и ограниченными формирователями 509, 511 диаграммы направленности.In the system of FIG. 5, a particularly useful approach is adopted for capturing an audio signal based on the synergy and relationship between the first beamformer 505 and the constrained beamformer 509, 511.

С этой целью, устройство звукозаписи содержит процессор 517 несовпадения, который выполнен с возможностью определять показатель несовпадения между одним или более ограниченных формирователей 509, 511 диаграммы направленности и первым формирователем 505 диаграммы направленности. Показатель несовпадения является указывающим различие между диаграммами направленности, сформированными соответственно первым формирователем 505 диаграммы направленности и ограниченным формирователем 509, 511 диаграммы направленности. Таким образом, показатель несовпадения для первого ограниченного формирователя 509 диаграммы направленности может указывать различие между диаграммами направленности, которые сформированы первым формирователем 505 диаграммы направленности и первым ограниченным формирователем 509 диаграммы направленности. Таким образом, показатель несовпадения может быть указывающим, насколько близко два формирователя 505, 509 диаграммы направленности адаптированы под один и тот же источник звука.To this end, the audio recorder comprises a mismatch processor 517 that is configured to determine a mismatch metric between one or more of the constrained beam shapers 509, 511 and the first beam shaper 505. The misalignment metric is indicative of the difference between the radiation patterns generated respectively by the first beamformer 505 and the constrained beamformer 509, 511. Thus, the mismatch metric for the first constrained beamformer 509 may indicate a difference between the radiation patterns that are generated by the first beamformer 505 and the first constrained beamformer 509. Thus, the misalignment metric may be indicative of how closely the two beamforming devices 505, 509 are adapted to the same sound source.

Процессор 517 несовпадения прямо соответствует процессору 309 несовпадения по фиг. 3, и подход, описанный в отношении этого, прямо применим к процессору 517 несовпадения по фиг. 5. Таким образом, система по фиг. 5 использует описанный подход для определения показателя несовпадения между диаграммами направленности первого формирователя 505 диаграммы направленности и одного из ограниченных формирователей 509, 511 диаграммы направленности в ответ на сравнение адаптивных импульсных характеристик фильтров формы диаграммы направленности первого формирователя 505 диаграммы направленности с адаптивными импульсными характеристиками фильтров формы диаграммы направленности ограниченного формирователя 509, 511 диаграммы направленности. Будет принято во внимание, что, в многих вариантах осуществления, показатель несовпадения может определяться для такого ограниченного формирователя 509, 511 диаграммы направленности.The mismatch processor 517 directly corresponds to the mismatch processor 309 of FIG. 3, and the approach described in this regard is directly applicable to the mismatch processor 517 of FIG. 5. Thus, the system of FIG. 5 uses the described approach to determine the misalignment metric between the first beamformer 505 and one of the constrained beamformer 509, 511 in response to comparing the adaptive impulse responses of the waveform filters of the first beamformer 505 with the adaptive impulse responses of the waveform filters limited beam former 509, 511. It will be appreciated that, in many embodiments, the misalignment metric may be determined for such a constrained beamformer 509, 511.

Таким образом, в системе по фиг. 5, показатель несовпадения формируется, чтобы отражать различие между параметрами формы диаграммы направленности первого формирователя 505 диаграммы направленности и первого ограниченного формирователя 509 диаграммы направленности, и/или различие между подвергнутыми формированию диаграммы направленности звуковыми выходными сигналами таковых.Thus, in the system of FIG. 5, the misalignment metric is generated to reflect the difference between the beamforming parameters of the first beamformer 505 and the first restricted beamformer 509, and / or the difference between beamforming audio outputs thereof.

Будет принято во внимание, что формирование, определение и/или использование показателя несовпадения прямо эквивалентно формированию, определению и/или использованию показателя подобия. Действительно, один типично может считаться монотонно убывающей функцией другого и, таким образом, показатель несовпадения также является показателем подобия (и наоборот), причем, один просто указывает возрастающие различия возрастающими значениями, а другой делает это убывающими значениями.It will be appreciated that generating, defining and / or using a mismatch metric is directly equivalent to generating, defining and / or using a similarity metric. Indeed, one can typically be considered a monotonically decreasing function of the other, and thus the mismatch indicator is also an indicator of similarity (and vice versa), where one simply indicates increasing differences in increasing values, and the other does so in decreasing values.

Процессор 517 несовпадения присоединен к второму адаптеру 513 и выдает показатель несовпадения в него. Второй адаптер 513 выполнен с возможностью адаптировать ограниченные формирователи 509, 511 диаграммы направленности в ответ на показатель несовпадения. Более точно, второй адаптер 513 выполнен с возможностью адаптировать параметры ограниченной формы диаграммы направленности только для ограниченных формирователей диаграммы направленности, для которых был определен показатель несовпадения, который удовлетворяет критерию подобия. Таким образом, если показатель несовпадения не был определен для данных ограниченных формирователей 509, 511 диаграммы направленности, или если определенный показатель несовпадения для данного формирователя 509, 511 диаграммы направленности указывает, что диаграммы направленности первого формирователя 505 диаграммы направленности и данного ограниченного формирователя 509, 511 диаграммы направленности не подобны в достаточной мере, то адаптация не выполняется.A mismatch processor 517 is coupled to the second adapter 513 and provides a mismatch indicator to it. The second adapter 513 is configured to adapt the constrained beam drivers 509, 511 in response to the misalignment metric. More specifically, the second adapter 513 is configured to adapt the bounded beamform parameters only for the bounded beam drivers for which a misalignment metric has been determined that satisfies the similarity criterion. Thus, if the misalignment metric has not been determined for the data of the constrained beam drivers 509, 511, or if the determined misalignment metric for the given beamformer 509, 511 indicates that the beamforms of the first beamformer 505 and this constrained beamformer 509, 511 the directions are not sufficiently similar, then the adaptation is not performed.

Таким образом, в устройстве звукозаписи по фиг. 5, ограниченные формирователи 509, 511 диаграммы направленности ограничены адаптацией диаграмм направленности. Более точно, они ограничены, чтобы адаптироваться, только если текущая диаграмма направленности, сформированная ограниченным формирователем 509, 511 диаграммы направленности находится близко к диаграмме направленности, которую формирует автономно работающий первый формирователь 505 диаграммы направленности, то есть отдельный ограниченный формирователь 509, 511 диаграммы направленности адаптируется, только если первый формирователь 505 диаграммы направленности адаптирован на данный момент, чтобы находиться достаточно близко к отдельному формирователю 509, 511 диаграммы направленности.Thus, in the audio recording apparatus of FIG. 5, constrained beamformers 509, 511 are constrained by beam adaptation. More specifically, they are constrained to adapt only if the current beam formed by the confined beamformer 509, 511 is close to the radiation pattern generated by the autonomous first beamformer 505, i.e., the individual constrained beamformer 509, 511 adapts only if the first beamformer 505 is currently adapted to be close enough to the individual beamformer 509, 511.

Результат этого состоит в том, что адаптация ограниченных формирователей 509, 511 диаграммы направленности управляется функционированием первого формирователя 505 диаграммы направленности, так чтобы, фактически, диаграмма направленности, сформированная первым формирователем 505 диаграммы направленности, управляла тем, какие из ограниченных формирователей 509, 511 диаграммы направленности оптимизируются/адаптируются. Этот подход, более точно, может давать в результате ограниченные формирователи 509, 511 диаграммы направленности, имеющие тенденцию адаптироваться, только когда желательный источник звука близок к текущей адаптации ограниченного формирователя 509, 511 диаграммы направленности.The result of this is that the adaptation of the constrained beam shapers 509, 511 is controlled by the operation of the first beamformer 505 so that, in fact, the radiation pattern generated by the first beamformer 505 controls which of the constrained beam shapers 509, 511 optimized / adapted. This approach, more specifically, may result in constrained beam drivers 509, 511 having a tendency to adapt only when the desired sound source is close to the current adaptation of constrained beamformer 509, 511.

Подход с требованием подобия между диаграммами направленности, для того чтобы предоставлять адаптации, обнаруживаемой на практике, давать в результате существенно улучшенные рабочие характеристики, когда желательный источник звука, желательный докладчик в данном случае, находится за пределами радиуса реверберации. Действительно, было обнаружено, что это будет давать крайне желательные рабочие характеристики, в частности, для слабых источников звука в реверберирующих средах с непреобладающей звуковой составляющей прямого тракта.An approach of requiring similarity between radiation patterns in order to provide adaptations found in practice result in significantly improved performance when the desired sound source, the desired speaker in this case, is outside the reverberation radius. Indeed, it has been found that this will give highly desirable performance, in particular for weak sound sources in reverberant environments with a predominantly direct path sound component.

В многих вариантах осуществления, ограничение адаптации может подвергаться дополнительным требованиям.In many embodiments, the adaptation constraint may be subject to additional requirements.

Например, в многих вариантах осуществления, адаптация может быть требованием, чтобы отношение сигнал/шум для подвергнутого формированию диаграммы направленности звукового выходного сигнала превышало пороговое значение. Таким образом, адаптация для отдельного ограниченного формирователя 509, 511 диаграммы направленности может быть ограничена сценариями, в которых он адаптирован в достаточной мере, и сигнал, на базе которого основана адаптация, отражает желательный звуковой сигнал.For example, in many embodiments, adaptation may be a requirement that the signal-to-noise ratio of the beamformed audio output exceeds a threshold. Thus, the adaptation for an individual limited beamformer 509, 511 can be limited to scenarios in which it is sufficiently adapted and the signal on which the adaptation is based reflects the desired audio signal.

Будет принято во внимание, что разные подходы для определения отношения сигнал/шум могут использоваться в разных вариантах осуществления. Например, уровень собственных шумов сигналов с микрофона может определяться отслеживанием минимума сглаженной оценки мощности и, применительно к каждому кадру или временному интервалу, мгновенная мощность сравнивается с этим минимумом. В качестве еще одного примера, уровень собственных шумов выходного сигнала формирователя диаграммы направленности может определяться и сравниваться с мгновенной выходной мощностью подвергнутого формированию диаграммы направленности выходного сигнала.It will be appreciated that different approaches for determining the signal-to-noise ratio may be used in different embodiments. For example, the noise floor of the microphone signals can be determined by tracking the minimum of the smoothed power estimate and, for each frame or time slot, the instantaneous power is compared to that minimum. As another example, the noise floor of the beamformer output can be determined and compared to the instantaneous output power of the beamformed output.

В некоторых вариантах осуществления, адаптация ограниченного формирователя 509, 511 диаграммы направленности ограничена тем, когда речевая составляющая была выявлена в выходном сигнале ограниченного формирователя 509, 511 диаграммы направленности. Это будет давать улучшенные рабочие характеристики для применений записи речи. Будет принято во внимание, что может использоваться любой подходящий алгоритм или подход для выявления речи в звуковом сигнале.In some embodiments, the adaptation of the constrained beamformer 509, 511 is limited to when a speech component has been detected in the output of the constrained beamformer 509, 511. This will provide improved performance for speech recording applications. It will be appreciated that any suitable algorithm or approach for detecting speech in an audio signal can be used.

Будет принято во внимание, что система по фиг. 3-7 типично действует с использованием обработки кадров или блоков. Таким образом, определены следующие друг за другом временные интервалы или кадры, и описанная обработка может выполняться в пределах каждого временного интервала. Например, сигналы с микрофона могут быть поделены на временные интервалы обработки и, применительно к каждому временному интервалу обработки, формирователи 505, 509, 511 диаграммы направленности могут формировать подвергнутый формированию диаграммы направленности звуковой выходной сигнал для временного интервала, определять показатель несовпадения, выбирать ограниченные формирователи 509, 511 диаграммы направленности и обновлять/адаптировать этот ограниченный формирователь 509, 511 диаграммы направленности, и т. д. Временные интервалы обработки в многих вариантах осуществления могут иметь длительность между 5 мс и 50 мс.It will be appreciated that the system of FIG. 3-7 typically operates using block or block processing. Thus, consecutive time slots or frames are defined, and the described processing can be performed within each time slot. For example, the microphone signals can be divided into processing time slots and, for each processing time slot, the beam shapers 505, 509, 511 can generate beamforming audio output for the time domain, determine the misalignment metric, select limited shapers 509. , 511 beamforms and update / adapt this limited beamformer 509, 511, etc. The processing time slots in many embodiments may be between 5ms and 50ms in duration.

Будет принято во внимание, что, в некоторых вариантах осуществления, разные временные интервалы обработки могут использоваться для разных аспектов и функций устройства звукозаписи. Например, показатель несовпадения и выбор ограниченного формирователя 509, 511 диаграммы направленности для адаптации могут выполняться с более низкой частотой, чем, например, временной интервал обработки для формирования диаграммы направленности.It will be appreciated that, in some embodiments, different processing times may be used for different aspects and functions of the audio recorder. For example, the mismatch metric and selection of the constrained beamformer 509, 511 for adaptation may be performed at a lower rate than, for example, the beamforming processing time slot.

В многих вариантах осуществления, адаптация может находиться в зависимости от выявления точечных источников звука в подвергнутых формированию диаграммы направленности звуковых выходных сигналов. Соответственно, в многих вариантах осуществления, устройство звукозаписи дополнительно может содержать детектор 601 источника звука, как проиллюстрировано на фиг. 6.In many embodiments, the adaptation may depend on the detection of point sound sources in the beamformed audio outputs. Accordingly, in many embodiments, the audio recorder may further comprise a sound source detector 601, as illustrated in FIG. 6.

Детектор 601 источника звука, более точно, в многих вариантах осуществления может быть выполнен с возможностью выявлять точечные источники звука во вторых подвергнутых формированию диаграммы направленности звуковых сигналов и, соответственно, детектор 601 источника звука присоединен к ограниченным формирователям 509, 511 диаграммы направленности, и он принимает подвергнутые формированию диаграммы направленности звуковые выходные сигналы из них.Sound source detector 601, more specifically, in many embodiments may be configured to detect point sound sources in second beamforming audio signals, and accordingly, sound source detector 601 is connected to limited beam drivers 509, 511 and receives beamformed audio outputs therefrom.

Точечный источник звука по акустике является звуком, который исходит из точки в пространстве. Будет принято во внимание, что детектор 601 источника звука может использовать разные алгоритмы или критерии для оценки (выявления), присутствует ли точечный источник звука в подвергнутом формированию диаграммы направленности звуковом выходном сигнале из данного ограниченного формирователя 509, 511 диаграммы направленности, и что специалист будет отдавать себе отчет о различных таких подходах.A point source of sound acoustically is a sound that emanates from a point in space. It will be appreciated that the sound source detector 601 may use different algorithms or criteria to evaluate (detect) whether a point sound source is present in the beamformed audio output from a given restricted beamformer 509, 511, and that the skilled person will give to be aware of the various such approaches.

Подход, более точно, может быть основан на идентификации характеристик одиночного или преобладающего точечного источника, захватываемого микрофонами микрофонной решетки 501. Одиночный или преобладающий точечный источник, например, может выявляться посредством рассмотрения корреляции между сигналами на микрофонах. Если есть высокая корреляция, то преобладающий точечный источник считается присутствующим. Если корреляция низка, то считается, что нет преобладающего точечного источника, но что записываемые сигналы исходят из многих некоррелированных источников. Таким образом, в многих вариантах осуществления, точечный источник звука может считаться пространственно коррелированным источником звука, где пространственная корреляция отражается корреляцией сигналов с микрофона.The approach, more specifically, may be based on identifying characteristics of a single or dominant point source captured by the microphones of the microphone array 501. A single or dominant point source, for example, may be identified by looking at the correlation between signals on the microphones. If there is a high correlation, then the dominant point source is considered to be present. If the correlation is low, then it is considered that there is no dominant point source, but that the recorded signals come from many uncorrelated sources. Thus, in many embodiments, a point sound source can be considered a spatially correlated sound source, where the spatial correlation is reflected by the correlation of the signals from the microphone.

В данном случае, корреляция определяется после фильтрации фильтрами формы диаграммы направленности. Более точно, может определяться корреляция выходного сигнала фильтров формы диаграммы направленности ограниченных формирователей 509, 511 диаграммы направленности, и если она превышает данное пороговое значение, точечный источник звука может считаться выявленным.In this case, the correlation is determined after being filtered by the beamform filters. More specifically, the correlation of the output signal of the beamforming filters of the limited beam drivers 509, 511 can be determined, and if it exceeds this threshold, the point sound source can be considered detected.

В других вариантах осуществления, точечный источник может выявляться посредством оценки содержания подвергнутых формированию диаграммы направленности звуковых сигналов. Например, детектор 601 источника звука может анализировать подвергнутые формированию диаграммы направленности выходные сигналы и, если речевая составляющая достаточной мощности выявлена в подвергнутом формированию диаграммы направленности звуковом выходном сигнале, это может считаться соответствующим точечному источнику звука и, таким образом, выявление мощной речевой составляющей может считаться выявлением точечного источника звука.In other embodiments, the point source may be detected by evaluating the content of the beamforming audio signals. For example, the sound source detector 601 may analyze the beamformed output signals, and if sufficient speech power is detected in the beamformed audio output signal, this may be considered appropriate for a point sound source and thus detecting a strong speech component may be considered as detecting. point source of sound.

Результат выявления пересылается из детектора 601 источника звука во второй адаптер 513, который выполнен с возможностью применять адаптацию в ответ на это. Более точно, второй адаптер 513 может быть выполнен с возможностью адаптировать только ограниченные формирователи 509, 511 диаграммы направленности, для которых детектор 601 источника звука указывает, что был выявлен точечный источник звука.The detection result is forwarded from the sound source detector 601 to the second adapter 513, which is configured to apply an adaptation in response thereto. More specifically, the second adapter 513 may be configured to adapt only limited beam drivers 509, 511 for which the sound source detector 601 indicates that a point sound source has been detected.

Таким образом, устройство звукозаписи выполнено с возможностью ограничивать адаптацию ограниченных формирователей 509, 511 диаграммы направленности, так чтобы адаптировались только формирователи 509, 511 диаграммы направленности, в которых точечный источник звука присутствует в сформированной диаграмме направленности, и сформированная диаграмма направленности близка к таковой, сформированной первым формирователем 505 диаграммы направленности. Таким образом, адаптация типично ограничена ограниченными формирователями 509, 511 диаграммы направленности, которые уже близки к (желательному) точечному источнику звука. Подход предоставляет возможность для очень устойчивого и точного формирования диаграммы направленности, которое исключительно хорошо работает в окружающих средах, где желательный источник звука может находиться вне радиуса реверберации. Кроме того, посредством приведения в действие и избирательного обновления множества ограниченных формирователей 509, 511 диаграммы направленности, эти устойчивость и точность могут быть дополнены относительно быстрым временем реакции, предоставляющим возможность быстрой адаптации системы в целом к быстро движущимся или вновь возникающим источникам звука.Thus, the sound recorder is configured to limit the adaptation of the limited beam shapers 509, 511, so that only beam shapers 509, 511 adapt, in which a point sound source is present in the generated radiation pattern, and the generated radiation pattern is close to that formed first beam former 505. Thus, adaptation is typically limited to limited beam drivers 509, 511 that are already close to the (desired) point sound source. The approach allows for very stable and accurate beamforming that works exceptionally well in environments where the desired sound source may be outside the reverberation radius. In addition, by actuating and selectively updating a plurality of constrained beam drivers 509, 511, this robustness and accuracy can be complemented by relatively fast response times, allowing the overall system to adapt quickly to fast moving or emerging sound sources.

В многих вариантах осуществления, устройство звукозаписи может быть выполнено с возможностью адаптировать только один ограниченный формирователь 509, 511 диаграммы направленности за раз. Таким образом, второй адаптер 513 в каждом временном интервале адаптации может выбирать один и ограниченных формирователей 509, 511 диаграммы направленности и адаптировать только его, обновляя параметры формы диаграммы направленности.In many embodiments, the audio recorder may be configured to adapt only one limited beamformer 509, 511 at a time. Thus, the second adapter 513 in each adaptation slot can select one and the limited beamformer 509, 511 and adapt only it, updating the parameters of the beamform.

Выбор одиночных ограниченных формирователей 509, 511 диаграммы направленности типично будет происходить автоматически при выборе ограниченного формирователя 509, 511 диаграммы направленности для адаптации, только если текущая формируемая диаграмма направленности находится близко от формируемой первым формирователем 505 диаграммы направленности, и если точечный источник звука выявлен в диаграмме направленности.The selection of single limited beam shaper 509, 511 will typically occur automatically upon selection of the limited beam shaper 509, 511 for adaptation, only if the current generated radiation pattern is close to that generated by the first beam former 505, and if a point sound source is detected in the radiation pattern. ...

Однако, в некоторых вариантах осуществления, может быть возможным, чтобы множество ограниченных формирователей 509, 511 диаграммы направленности одновременно удовлетворяли критериям. Например, если точечный источник звука расположен рядом с областями, охватываемыми двумя разными ограниченными формирователями 509, 511 диаграммы направленности (или, например, он находится в зоне перекрытия областей), точечный источник звука может выявляться в обеих диаграммах направленности, и таковые обе могли быть адаптированы, чтобы находится близко друг к другу, та и другая будучи подгоняемыми под направление на точечный источник звука.However, in some embodiments, it may be possible for a plurality of constrained beam drivers 509, 511 to satisfy the criteria simultaneously. For example, if a point sound source is located adjacent to areas covered by two different bounded beam drivers 509, 511 (or, for example, it is in an overlapping area), the point sound source can be detected in both radiation patterns, and both could be adapted. , so that it is close to each other, the one and the other being adjusted to the direction of the point sound source.

Таким образом, в таких вариантах осуществления, второй адаптер 513 может выбирать один из ограниченных формирователей 509, 511 диаграммы направленности, удовлетворяющих двум критериям, и адаптировать только этот один. Это будет снижать риск, что две диаграммы направленности адаптируются в направлении одного и того же точечного источника звука, и, таким образом, снижать риск операций с таковыми, мешающими друг другу.Thus, in such embodiments, the second adapter 513 may select one of the constrained beamformers 509, 511 satisfying two criteria and only adapt this one. This will reduce the risk that the two radiation patterns will adapt towards the same point sound source, and thus reduce the risk of operations with those interfering with each other.

В действительности, адаптация ограниченных формирователей 509, 511 диаграммы направленности под ограничением, что соответствующий показатель несовпадения должен быть достаточно низок, и выбор только одного из ограниченных формирователей 509, 511 диаграммы направленности для адаптации (например, в каждом временном интервале/кадре обработки) будет приводить к адаптации, различающейся между разными ограниченными формирователями 509, 511 диаграммы направленности. Это будет иметь тенденцию давать в результате ограниченные формирователи 509, 511 диаграммы направленности, адаптируемые, чтобы охватывать разные области ближайшим ограниченным формирователем 509, 511 диаграммы направленности, автоматически, будучи выбранными для адаптации/следования за источником звука, выявленным первым формирователем 505 диаграммы направленности. Однако, например, в противоположность подходу по фиг. 2, области не стационарны и не предопределены, но скорее формируются динамически и автоматически.In fact, adapting the constrained beam shapers 509, 511 under the constraint that the corresponding misalignment rate should be low enough, and selecting only one of the constrained beam shapers 509, 511 for adaptation (e.g., at each time slot / processing frame) will result in to adaptations differing between the different limited beamformers 509, 511. This will tend to result in the constrained beamformer 509, 511 adaptable to cover different areas of the closest constrained beamformer 509, 511, automatically being selected to adapt / follow the sound source detected by the first beamformer 505. However, for example, in contrast to the approach of FIG. 2, the regions are not stationary or predetermined, but rather are generated dynamically and automatically.

Следует отметить, что области могут быть зависящими от формирования диаграммы направленности для множества путей и типично не ограничены угловым направлением областей прихода. Например, области могут различаться на основании расстояния до микрофонной решетки. Таким образом, термин область может рассматриваться указывающим ссылкой на положения в пространстве, в которых источник звука будет давать в результате адаптацию, которая удовлетворяет требованию подобия применительно к показателю несовпадения. Таким образом, это включает в себя рассмотрение не только прямого тракта, но, например, также отражений, если они рассматриваются в параметрах формы диаграммы направленности, и, в частности, определяются на основании как пространственного, так и временного аспекта (а более точно, зависят от полных импульсных характеристик фильтров формы диаграммы направленности).It should be noted that the regions may be multi-path beamforming dependent and are typically not limited by the angular direction of the arrival regions. For example, areas may differ based on the distance to the microphone array. Thus, the term region can be viewed as indicating a reference to the positions in space at which the sound source will result in an adaptation that satisfies the similarity requirement in terms of the mismatch metric. Thus, this includes considering not only the direct path, but, for example, also reflections, if they are considered in the parameters of the radiation pattern, and in particular are determined based on both spatial and temporal aspects (and more precisely, depend from the total impulse responses of the radiation pattern filters).

Выбор одиночного ограниченного формирователя 509, 511 диаграммы направленности, более точно, может происходить в ответ на зафиксированный уровень звука. Например, детектор 601 источника звука может определять уровень звука каждого из подвергнутых формированию диаграммы направленности звуковых выходных сигналов из ограниченных формирователей 509, 511 диаграммы направленности, которые удовлетворяют критериям, и он может выбирать ограниченный формирователь 509, 511 диаграммы направленности, дающий в результате наивысший уровень. В некоторых вариантах осуществления, детектор 601 источника звука может выбирать ограниченный формирователь 509, 511 диаграммы направленности, для которого точечный источник звука, выявленный в подвергнутом формированию диаграммы направленности звуковом выходном сигнале, имеет наивысшее значение. Например, детектор 601 источника звука может выявлять речевую составляющую в подвергнутых формированию диаграммы направленности звуковых выходных сигналах из двух ограниченных формирователей 509, 511 диаграммы направленности и приступать к выбору имеющего наивысший уровень речевой составляющей.The selection of a single limited beamformer 509, 511, more specifically, may occur in response to a fixed sound level. For example, sound source detector 601 may determine the sound level of each of the beamformed audio outputs from the constrained beam drivers 509, 511 that meet the criteria, and it may select the constrained beamformer 509, 511 resulting in the highest level. In some embodiments, the sound source detector 601 may select the constrained beamformer 509, 511 for which the point sound source detected in the beamformed audio output has the highest value. For example, the sound source detector 601 may detect the speech component in the beamformed audio outputs from the two limited beam shapers 509, 511 and proceed to select the one having the highest level of the speech component.

В подходе, в высшей степени избирательная адаптация ограниченных формирователей 509, 511, таким образом, выполняется, приводя к таковым, адаптирующимся только в определенных обстоятельствах. Это дает очень надежное формирование диаграммы направленности ограниченными формирователями 509, 511 диаграммы направленности, давая в результате улучшенный захват желательного источника звука. Однако, в многих сценариях, ограничения формирования диаграммы направленности также могут давать в результате более медленную адаптируемость и, в действительности, в многих ситуациях, могут давать в результате новые источники звука (например, докладчиков), не выявляемых или всего лишь очень медленно подвергаемых адаптации.In an approach, highly selective adaptation of the constrained shapers 509, 511 is thus performed, resulting in one adapting only in certain circumstances. This allows for very reliable beamforming by limited beamforming devices 509, 511, resulting in improved capture of the desired sound source. However, in many scenarios, beamforming constraints can also result in slower adaptability and, in fact, in many situations, can result in new sound sources (eg presenters) that are undetectable or only very slow to adapt.

Фиг. 7 иллюстрирует устройство звукозаписи по фиг. 6, но с добавлением контроллера 701 формирователей диаграммы направленности, который присоединен ко второму адаптеру 513 и детектору 601 источника звука. Контроллер 701 формирователей диаграммы направленности выполнен с возможностью инициализировать ограниченный формирователь 509, 511 диаграммы направленности в определенных ситуациях. Более точно, контроллер 701 формирователей диаграммы направленности может инициализировать ограниченный формирователь 509, 511 диаграммы направленности в ответ на первый формирователь 505 диаграммы направленности, а более точно, может инициализировать ограниченные формирователи 509, 511 диаграммы направленности для формирования диаграммы направленности, соответствующей таковой у первого формирователя 505 диаграммы направленности.FIG. 7 illustrates the sound recorder of FIG. 6, but with the addition of a beamformer controller 701, which is connected to the second adapter 513 and the sound source detector 601. The beamformer controller 701 is configured to initialize the limited beamformer 509, 511 in certain situations. More specifically, the controller 701 of the beamformer may initialize the constrained beamformer 509, 511 in response to the first beamformer 505, and more specifically, may initialize the constrained beamformer 509, 511 to form a beamforming that corresponds to that of the first beamformer 505 directional patterns.

Контроллер 701 формирователя диаграммы направленности, более точно, устанавливает параметры формы диаграммы направленности одного из ограниченных формирователей 509, 511 диаграммы направленности в ответ на параметры формы диаграммы направленности первого формирователя 505 диаграммы направленности, впредь упоминаемые как первые параметры формы диаграммы направленности. В некоторых вариантах осуществления, фильтры ограниченных формирователей 509, 511 диаграммы направленности и первого формирователя 505 диаграммы направленности могут быть идентичными, например, они могут иметь одинаковую архитектуру. В качестве конкретного примера, оба фильтра ограниченных формирователей 509, 511 диаграммы направленности и первого формирователя 505 диаграммы направленности могут быть КИХ-фильтрами с одинаковой длиной (то есть, заданным количеством коэффициентов), и текущие адаптированные значения коэффициентов из фильтров первого формирователя 505 диаграммы направленности могут быть просто скопированы в ограниченный формирователь 509, 511 диаграммы направленности, то есть, коэффициенты ограниченного формирователя 509, 511 диаграммы направленности могут быть установлены в значения из первого формирователя 505 диаграммы направленности. Таким образом, ограниченный формирователь 509, 511 диаграммы направленности будет инициализироваться теми же самыми свойствами диаграммы направленности, что и адаптируемые на данный момент первым формирователем 505 диаграммы направленности.The beamformer controller 701 more specifically sets the beamform parameters of one of the restricted beamformers 509, 511 in response to the beamform parameters of the first beamformer 505, hereinafter referred to as first beamform parameters. In some embodiments, the filters of the constrained beamformer 509, 511 and the first beamformer 505 may be identical, for example, they may have the same architecture. As a specific example, both filters of the constrained beamformer 509, 511 and the first beamformer 505 may be FIR filters of the same length (i.e., a predetermined number of coefficients), and the current adapted coefficient values from the filters of the first beamformer 505 may be simply copied to the constrained beamformer 509, 511, that is, the coefficients of the constrained beamformer 509, 511 can be set to values from the first beamformer 505. Thus, the constrained beamformer 509, 511 will be initialized with the same beamforming properties that are currently being adapted by the first beamformer 505.

В некоторых вариантах осуществления, настройка фильтров ограниченных формирователей 509, 511 диаграммы направленности может определяться из параметров фильтра первого формирователя 505 диаграммы направленности, но вместо того, чтобы использовать их сразу, они могут адаптироваться до применения. Например, в некоторых вариантах осуществления, коэффициенты КИХ-фильтров могут модифицироваться для инициализации диаграммы направленности ограниченного формирователя 509, 511 диаграммы направленности, чтобы была более широкой, чем диаграмма направленности первого формирователя 505 диаграммы направленности (например, формируемой в том же самом направлении).In some embodiments, the filter setting of the limited beamformer 509, 511 may be determined from the filter parameters of the first beamformer 505, but instead of being used immediately, they may be adapted prior to use. For example, in some embodiments, the FIR filter coefficients may be modified to initialize the beamform of the constrained beamformer 509, 511 to be wider than the beamform of the first beamformer 505 (eg, generated in the same direction).

Контроллер 701 формирователей диаграммы направленности, в многих вариантах осуществления, в некоторых обстоятельствах, соответственно может инициализировать один из ограниченных формирователей 509, 511 диаграммы направленности начальной диаграммой направленности, соответствующей таковой у первого формирователя 505 диаграммы направленности. Система затем может приступать к обработке ограниченного формирователя 509, 511 диаграммы направленности, как описано ранее, а более точно, может переходить к адаптации ограниченного формирователя 509, 511 диаграммы направленности, когда он удовлетворяет описанным ранее критериям.The beamformer controller 701, in many embodiments, in some circumstances, accordingly may initialize one of the constrained beamformers 509, 511 with an initial beamforming pattern corresponding to that of the first beamformer 505. The system can then proceed to process the constrained beamformer 509, 511 as previously described, and more specifically, may proceed to adapt the constrained beamformer 509, 511 when it meets the previously described criteria.

Критерии для инициализации ограниченного формирователя 509, 511 диаграммы направленности могут быть разными в разных вариантах осуществления.The criteria for initializing the constrained beamformer 509, 511 may be different in different embodiments.

В многих вариантах осуществления, контроллер 701 диаграммы направленности может быть выполнен с возможностью инициализировать ограниченный формирователь 509, 511 диаграммы направленности, если наличие точечного источника звука выявлено в первом подвергнутом формированию диаграммы направленности звуковом выходном сигнале, но не в каком-нибудь из подвергнутых ограниченному формированию диаграммы направленности звуковых выходных сигналах.In many embodiments, the beamforming controller 701 may be configured to initialize the constrained beamformer 509, 511 if the presence of a point sound source is detected in the first beamforming audio output, but not in any of the constrained beamforming directivity of audio output signals.

Таким образом, детектор 601 источника звука может определять, присутствует ли точечный источник звука в каком-нибудь из подвергнутых формированию диаграммы направленности звуковых выходных сигналов из ограниченных формирователей 509, 511 диаграммы направленности или первого формирователя 505 диаграммы направленности. Результаты выявления/оценки для каждого подвергнутого формированию диаграммы направленности звукового выходного сигнала могут пересылаться в контроллер 701 формирователей диаграммы направленности, которые могут их оценивать. Если точечный источник звука выявлен только применительно к первому формирователю 505 диаграммы направленности, но ни для какого из ограниченных формирователей 509, 511 диаграммы направленности, это может отражать ситуацию, в которой точечный источник звука, такой как докладчик, присутствует и выявляется первым формирователем 505 диаграммы направленности, но ни один из ограниченных формирователей 509, 511 диаграммы направленности не был выявлен и не был адаптирован под точечный источник звука. В этом случае, ограниченные формирователи 509, 511 диаграммы направленности могут никогда не (или всего лишь очень медленно) адаптироваться под точечный источник звука. Поэтому, один из ограниченных формирователей 509, 511 диаграммы направленности инициализируется для формирования диаграммы направленности, соответствующей точечному источнику звука. По существу, эта диаграмма направленности вероятно должна быть близка к точечному источнику звука, и она будет (типично медленно но верно) адаптироваться к этому новому точечному источнику звука.Thus, the sound source detector 601 can determine if a point sound source is present in any of the beamformed audio outputs from the constrained beam drivers 509, 511 or the first beamformer 505. The detection / evaluation results for each beamforming audio output can be sent to a beamformer controller 701, which can evaluate them. If a point sound source is detected only for the first beamformer 505, but for none of the limited beam drivers 509, 511, this may reflect a situation in which a point sound source, such as a speaker, is present and detected by the first beamformer 505 , but none of the limited beam shapers 509, 511 were identified and adapted for a point sound source. In this case, the constrained beam drivers 509, 511 may never (or only very slowly) adapt to a point sound source. Therefore, one of the constrained beamformers 509, 511 is initialized to beamform corresponding to a point sound source. As such, this radiation pattern should probably be close to a point sound source, and it will (typically slowly but surely) adapt to this new point sound source.

Таким образом, подход может комбинировать и обеспечивать полезные результаты как быстрого первого формирователя 505 диаграммы направленности, так и надежных ограниченных формирователей 509, 511 диаграммы направленности.Thus, the approach can combine and provide useful results from both fast first beamformer 505 and robust limited beamformer 509, 511.

В некоторых вариантах осуществления, контроллер 701 формирователей диаграммы направленности может быть выполнен с возможностью инициализировать ограниченный формирователь 509, 511 диаграммы направленности, только если показатель несовпадения для ограниченного формирователя 509, 511 диаграммы направленности превышает пороговое значение. Более точно, если наименьший определенный показатель несовпадения для ограниченных формирователей 509, 511 диаграммы направленности находится ниже порогового значения, инициализация не выполняется. В такой ситуации, может быть возможным, что адаптация ограниченного формирователя 509, 511 диаграммы направленности находится ближе к желательной ситуации, тогда как менее надежная адаптация первого формирователя 505 диаграммы направленности менее точна и может адаптироваться, чтобы находиться ближе к первому формирователю 505 диаграммы направленности. Таким образом, в тех сценариях, где показатель несовпадения достаточно низок, может быть полезно предоставлять системе возможность попытаться адаптироваться автоматически.In some embodiments, the controller 701 of the beamformer may be configured to initialize the constrained beamformer 509, 511 only if the misalignment metric for the constrained beamformer 509, 511 exceeds a threshold value. More specifically, if the smallest determined misalignment rate for the constrained beam drivers 509, 511 is below a threshold value, no initialization is performed. In such a situation, it may be possible that the adaptation of the constrained beamformer 509, 511 is closer to the desired situation, while the less reliable adaptation of the first beamformer 505 is less accurate and may be adapted to be closer to the first beamformer 505. Thus, in scenarios where the mismatch rate is low enough, it may be useful to allow the system to try to adapt automatically.

В некоторых вариантах осуществления, контроллер 701 формирователей диаграммы направленности, более точно, может быть выполнен с возможностью инициализировать ограниченный формирователь 509, 511 диаграммы направленности, когда точечный источник звука выявлен как для первого формирователя 505 диаграммы направленности, так и для одного из ограниченных формирователей 509, 511 диаграммы направленности, но показателю несовпадения для них не удается удовлетворить критерий подобия. Более точно, контроллер 701 формирователей диаграммы направленности может быть выполнен с возможностью устанавливать параметры формы диаграммы направленности для первого ограниченного формирователя 509, 511 диаграммы направленности в ответ на параметры формы диаграммы направленности первого формирователя 505 диаграммы направленности, если точечный источник звука выявлен как в повергнутом формированию диаграммы направленности звуковом выходном сигнале из первого формирователя 505 диаграммы направленности, так и в подвергнутом формированию диаграммы направленности звуковом выходном сигнале из ограниченного формирователя 509, 511 диаграммы направленности, и показатель несовпадения таковых превышает пороговое значение.In some embodiments, the beamformer controller 701, more specifically, may be configured to initialize the constrained beamformer 509, 511 when a point sound source is detected for both the first beamformer 505 and one of the constrained beam drivers 509. 511 radiation patterns, but the mismatch indicator for them fails to satisfy the similarity criterion. More specifically, the beamformer controller 701 may be configured to set the beamform parameters for the first constrained beamformer 509, 511 in response to the beamform parameters of the first beamformer 505 if a point sound source is detected as in a faulty beamforming beamforming audio output from the first beamformer 505 and beamforming audio output from the constrained beamformer 509, 511, and the misalignment ratio exceeds a threshold value.

Такой сценарий может отражать ситуацию, в которой ограниченный формирователь 509, 511 диаграммы направленности возможно мог адаптироваться под и захватить точечный источник звука, который, однако, отличен от точечного источника звука, захваченного первым формирователем 505 диаграммы направленности. Таким образом, более точно, он может отражать то, что ограниченный формирователь 509, 511 мог захватить «ошибочный» точечный источник звука. Соответственно, ограниченный формирователь 509, 511 диаграммы направленности может быть повторно инициализирован для формирования диаграммы направленности в направлении желательного точечного источника звука.Such a scenario may reflect a situation in which the confined beamformer 509, 511 could possibly adapt to and capture a point sound source that is, however, different from the point sound source captured by the first beamformer 505. Thus, more accurately, it can reflect that the constrained driver 509, 511 may have captured the "erroneous" point sound source. Accordingly, the constrained beamformer 509, 511 can be reinitialized to beamform in the direction of the desired point sound source.

В некоторых вариантах осуществления, количество ограниченных формирователей 509, 511 диаграммы направленности, которые являются действующими, может меняться. Например, устройство звукозаписи может содержать функциональные возможности для формирования потенциально относительно высокого количества ограниченных формирователей 509, 511 диаграммы направленности. Например, оно может реализовывать, скажем, до восьми одновременных ограниченных формирователей 509, 511 диаграммы направленности. Однако, например, для того чтобы понизить потребляемую мощность и вычислительную нагрузку, не все из них могут быть действующими одновременно.In some embodiments, the number of constrained beam drivers 509, 511 that are operable may vary. For example, an audio recorder may include functionality for generating a potentially relatively high number of constrained beam shapers 509, 511. For example, it can implement, say, up to eight simultaneous limited beam shapers 509, 511. However, for example, in order to reduce power consumption and computational load, not all of them can be active at the same time.

Таким образом, в некоторых вариантах осуществления, набор действующих ограниченных формирователей 509, 511 диаграммы направленности выбирается из большей совокупности формирователей диаграммы направленности. Это, более точно может выполняться, когда инициализируется формирователь 509, 511 диаграммы направленности. Таким образом, в примерах, приведенных выше, инициализация ограниченного формирователя 509, 511 диаграммы направленности (например, если точечный источник сигнала не выявлен ни в каком из действующих ограниченных формирователей 509, 511 диаграммы направленности) может достигаться посредством инициализации бездействующего ограниченного формирователя 509, 511 диаграммы направленности из совокупности, тем самым, увеличивая количество действующих ограниченных формирователей 509, 511 диаграммы направленности.Thus, in some embodiments, the set of operable limited beam drivers 509, 511 is selected from a larger set of beam drivers. This can more accurately be done when the beamformer 509, 511 is initialized. Thus, in the examples above, initialization of the constrained beamformer 509, 511 (e.g., if a point signal source is not detected in any of the active constrained beam drivers 509, 511) can be achieved by initializing an inactive constrained beamformer 509, 511 from the constellation, thereby increasing the number of operable limited beam shapers 509, 511.

Если все ограниченные формирователи 509, 511 диаграммы направленности в совокупности являются действующими на данный момент, инициализация ограниченного формирователя 509, 511 диаграммы направленности может выполняться посредством инициализации действующего на данный момент формирователя 509, 511 диаграммы направленности. Ограниченный формирователь 509, 511 диаграммы направленности, подлежащий инициализации, может выбираться в соответствии с каким-нибудь подходящим критерием. Например, могут выбираться ограниченные формирователи 509, 511 диаграммы направленности, имеющие наибольший показатель несовпадения или самый низкий уровень сигнала.If all of the constrained beamformer 509, 511 are collectively active, initialization of the constrained beamformer 509, 511 may be performed by initializing the currently active beamformer 509, 511. The constrained beamformer 509, 511 to be initialized may be selected according to some suitable criterion. For example, the constrained beam drivers 509, 511 having the highest misalignment rate or the lowest signal strength may be selected.

В некоторых вариантах осуществления, ограниченный формирователь 509, 511 диаграммы направленности может выводиться из работы в ответ на удовлетворение подходящего критерия. Например, ограниченные формирователи 509, 511 диаграммы направленности могут выводиться из работы, если показатель несовпадения возрастает выше заданного порогового значения.In some embodiments, the constrained beamformer 509, 511 may be disabled in response to a suitable criterion being met. For example, constrained beam drivers 509, 511 may be disabled if the misalignment metric increases above a predetermined threshold.

Конкретный подход для управления адаптацией и настройки ограниченных формирователей 509, 511 диаграммы направленности в соответствии с многими из примеров, описанных выше, проиллюстрирован блок-схемой последовательности операций способа по фиг. 8.A specific approach for controlling adaptation and tuning of constrained beam drivers 509, 511 in accordance with many of the examples described above is illustrated by the flowchart of FIG. eight.

Способ начинается на этапе 801 инициализацией следующего временного интервала обработки (например, ожиданием начала следующего временного интервала обработки, сбором набора параметров для временного интервала обработки, и т. д.).The method begins at block 801 by initializing the next processing timeslot (eg, waiting for the start of the next processing timeslot, collecting a set of parameters for the processing timeslot, etc.).

Этап 801 сопровождается этапом 803, при этом, определяется, есть ли точечный источник звука, выявленный в какой-нибудь из диаграмм направленности ограниченных формирователей 509, 511 диаграммы направленности.Step 801 is followed by step 803, where it is determined if there is a point sound source detected in any of the radiation patterns of the restricted pattern drivers 509, 511.

Если так, способ продолжается на этапе 805, на котором определяется, удовлетворяет ли показатель несовпадения критерию подобия, а более точно, находится ли показатель несовпадения ниже порогового значения.If so, the method continues to block 805, where it is determined whether the mismatch metric meets the similarity criterion, and more specifically, whether the mismatch metric is below a threshold.

Если так, способ продолжается на этапе 807, на котором ограниченный формирователь 509, 511 диаграммы направленности, в котором был выявлен точечный источник звука (или который имеет наибольший уровень сигнала в случае, если точечный источник звука был выявлен в более чем одном ограниченном формирователе 509, 511 диаграммы направленности), адаптируется, то есть обновляются параметры формы диаграммы направленности (фильтра).If so, the method continues to block 807, where the constrained beamformer 509, 511 in which the point sound source was detected (or which has the highest signal strength in the event that the point sound source was detected in more than one shaper 509, 511 radiation pattern), adapts, that is, the parameters of the radiation pattern (filter) are updated.

Если нет, способ продолжается на этапе 809, на котором ограниченный формирователь 509, 511 диаграммы направленности инициализируется, параметры формы диаграммы направленности ограниченного формирователя 509, 511 диаграммы направленности устанавливаются независимо от параметров формы диаграммы направленности первого формирователя 505 диаграммы направленности. Ограниченный формирователь 509, 511 диаграммы направленности, являющийся инициализируемым, может быть новым ограниченным формирователем 509, 511 диаграммы направленности (то есть, формирователем диаграммы направленности из совокупности бездействующих формирователей диаграммы направленности) или может быть уже действующим ограниченным формирователем 509, 511 диаграммы направленности, для которого предусмотрены новые параметры формы диаграммы направленности.If not, the method continues to block 809 where the constrained beamformer 509, 511 is initialized, the beamform parameters of the constrained beamformer 509, 511 are set regardless of the beamform parameters of the first beamformer 505. The constrained beamformer 509, 511 being initializable may be a new constrained beamformer 509, 511 (i.e., a beamformer from a plurality of dormant beamformers), or it may be an already operational constrained beamformer 509, 511 for which new parameters of the directional pattern are provided.

Вслед за этапами 807 и 809, способ возвращается на этап 801 и ожидает следующего временного интервала обработки.Following blocks 807 and 809, the method returns to block 801 and waits for the next processing time slot.

Если на этапе 803 выявлено, что точечный источник звука не выявлен в подвергнутом формированию диаграммы направленности звуковом выходном сигнале какого-нибудь из ограниченных формирователей 509, 511 диаграммы направленности, способ переходит на этап 811, на котором определяется, выявлен ли точечный источник звука в первом формирователе 505 диаграммы направленности, то есть, соответствует ли текущий сценария захвату точечного источника звука первым формирователем 505 диаграммы направленности, но ни одним из ограниченных формирователей 509, 511 диаграммы направленности.If it is determined in step 803 that a point sound source is not detected in the beamformed audio output of any of the constrained beam drivers 509, 511, the method proceeds to step 811, where it is determined whether a point sound source is detected in the first driver. 505 beamforming, that is, whether the current scenario corresponds to the capture of a point sound source by the first beamformer 505, but none of the limited beamformers 509, 511.

Если нет, точечный источник звука вовсе не был выявлен, и способ возвращается на этап 801, чтобы ожидать следующего временного интервала обработки.If not, the point sound source has not been detected at all and the method returns to step 801 to await the next processing time slot.

Иначе, способ переходит на этап 813, на котором определяется, удовлетворяет ли показатель несовпадения критерию подобия, а более точно, находится ли показатель несовпадения ниже порогового значения (который может быть таким же или может быть отличным пороговым значением/критерием, чем используемый на этапе 805).Otherwise, the method proceeds to block 813, where it is determined whether the mismatch metric meets the similarity criterion, and more specifically, whether the mismatch metric is below a threshold (which may be the same or a different threshold / criterion than that used in block 805 ).

Если так, способ переходит на этап 815, на котором адаптируется ограниченный формирователь 509, 511 диаграммы направленности, для которого показатель несовпадения находится ниже порогового значения (или если более чем один ограниченный формирователь 509, 511 диаграммы направленности удовлетворяет критерию, может выбираться один, например, с низшим показателем несовпадения).If so, the method proceeds to 815 where the constrained beamformer 509, 511 adapts for which the misalignment metric is below the threshold (or if more than one constrained beamformer 509, 511 meets the criterion, one may be selected, for example, with the lowest mismatch indicator).

Иначе, способ переходит на этап 817, на котором ограниченный формирователь 509, 511 диаграммы направленности инициализируется, параметры формы диаграммы направленности ограниченного формирователя 509, 511 диаграммы направленности устанавливаются независимо от параметров формы диаграммы направленности первого формирователя 505 диаграммы направленности. Ограниченный формирователь 509, 511 диаграммы направленности, являющийся инициализируемым, может быть новым ограниченным формирователем 509, 511 диаграммы направленности (то есть, формирователем диаграммы направленности из совокупности бездействующих формирователей диаграммы направленности) или может быть уже действующим ограниченным формирователем 509, 511 диаграммы направленности, для которого предусмотрены новые параметры формы диаграммы направленности.Otherwise, the method proceeds to 817 where the shaper 509, 511 is initialized, the beamform parameters of the constrained beamformer 509, 511 are set regardless of the shape parameters of the first beamformer 505. The constrained beamformer 509, 511 being initializable may be a new constrained beamformer 509, 511 (i.e., a beamformer from a plurality of dormant beamformers), or it may be an already operational constrained beamformer 509, 511 for which new parameters of the directional pattern are provided.

Вслед за этапами 815 и 817, способ возвращается на этап 801 и ожидает следующего временного интервала обработки.Following blocks 815 and 817, the method returns to block 801 and waits for the next processing time slot.

Описанный подход устройства звукозаписи по фиг. 5-7 может давать полезные рабочие характеристики в многих сценариях и, в частности, может иметь тенденцию предоставлять устройству звукозаписи возможность динамически формировать сфокусированные, устойчивые и точные диаграммы направленности для захвата источников звука. Диаграммы направленности будут иметь тенденцию адаптироваться, чтобы охватывать разные области, и подход, например, автоматически может выбирать и адаптировать ближайший ограниченный формирователь 509, 511 диаграммы направленности.The described approach of the audio recorder of FIG. 5-7 can provide useful performance in many scenarios and, in particular, can tend to provide an audio recorder with the ability to dynamically generate focused, stable and accurate radiation patterns to capture sound sources. Beam patterns will tend to adapt to cover different areas, and the approach, for example, can automatically select and adapt the nearest constrained beamformer 509, 511.

Таким образом, в противоположность подходу, например, по фиг. 2, не нужно непосредственно накладывать никакие специальные ограничения на направления диаграммы направленности или на коэффициенты фильтра. Скорее, отдельные области могут автоматически вырабатываться/формироваться, посредством предоставления ограниченным формирователям 509, 511 диаграммы направленности (условно) адаптироваться только тогда, когда есть одиночный преобладающий источник звука, и когда он достаточно близок к диаграмме направленности ограниченного формирователя 509, 511 диаграммы направленности. Это, более точно, определяется посредством рассмотрения коэффициентов фильтра, которые учитывают как прямое поле, так и (первые) отражения.Thus, in contrast to the approach, for example in FIG. 2, there is no need to directly impose any special constraints on the direction of the radiation pattern or on the filter coefficients. Rather, the individual regions can be automatically generated / shaped by allowing the constrained beamformer 509, 511 to (conventionally) adapt only when there is a single dominant sound source and when it is close enough to the beamforming beamformator 509, 511. This is more precisely determined by considering filter coefficients that take into account both the direct field and the (first) reflections.

Следует отметить, что использование фильтров с расширенной импульсной характеристикой (в противоположность использованию простых фильтров с задержкой, то есть, фильтров с одним коэффициентом) также учитывает, что отражения приходят через некоторое (конкретное) время после прямого поля. Соответственно, диаграмма направленности определена не только пространственными характеристиками (с каких направлений приходит поле прямой волны и отражения), но также определена временными характеристиками (в какие моменты времени после поля прямой волны приходят отражения). Таким образом, ссылки на диаграммы направленности не только ограничены пространственными соображениями, но также отражают временную составляющую фильтров формы диаграммы направленности. Подобным образом, ссылки на области включают в себя как чисто пространственные, так и временные эффекты фильтров формы диаграммы направленности.It should be noted that the use of extended impulse response filters (as opposed to using simple delay filters, that is, single coefficient filters) also allows for reflections to arrive some (specific) time after the direct field. Accordingly, the radiation pattern is determined not only by the spatial characteristics (from which directions the direct wave and reflection field comes), but also determined by the temporal characteristics (at what moments in time after the direct wave field the reflections come). Thus, the reference to radiation patterns is not only limited by spatial considerations, but also reflects the temporal content of the pattern filters. Likewise, region references include both purely spatial and temporal effects of beamform filters.

Подход, таким образом, может рассматриваться формирующим области, которые определены различием показателя несовпадения между автономно работающей диаграммы направленности первого формирователя 505 диаграммы направленности и диаграммой направленности ограниченного формирователя 509, 511 диаграммы направленности. Например, предположим, что ограниченный формирователь 509, 511 диаграммы направленности имеете диаграмму направленности, сфокусированную на источнике (как с пространственными, так и временными характеристиками). Предположим, что источник молчит, и новый источник становится действующим, причем, первый формирователь 505 диаграммы направленности адаптируется, чтобы сфокусироваться на нем. В таком случае, каждый источник с пространственно-временными характеристиками, такими что расстояние между диаграммой направленности первого формирователя 505 диаграммы направленности и диаграммой направленности ограниченного формирователя 509, 511 диаграммы направленности не превышало пороговое значение, может считаться находящимся в области ограниченного формирователя 509, 511 диаграммы направленности. Таким образом, ограничение на первый ограниченный формирователь 509 диаграммы направленности может рассматриваться для перевода в ограничение в пространстве.The approach can thus be considered shaping regions that are defined by the misalignment metric difference between the autonomous beamforming of the first beamformer 505 and the beamforming of the constrained beamformer 509, 511. For example, assume that the constrained beamformer 509, 511 has a source-focused beamform (both spatial and temporal). Suppose the source is silent and the new source becomes active, with the first beamformer 505 adapting to focus on it. In such a case, each source with space-time characteristics such that the distance between the beam pattern of the first beamformer 505 and the beamforming beamformer 509, 511 does not exceed a threshold value, can be considered to be in the region of the restricted beamformer 509, 511 ... Thus, the constraint on the first constrained beamformer 509 can be considered to translate into constraint in space.

Критерий расстояния для адаптации ограниченного формирователя диаграммы направленности вместе с подходом инициализации диаграмм направленности (например, копирования коэффициентов фильтра формы диаграммы направленности) типично предусматривает, чтобы ограниченные формирователи 509, 511 диаграммы направленности формировали диаграммы направленности в разных областях.Distance criterion for adapting the constrained beamformer together with a beamforming initialization approach (eg, copying the waveform filter coefficients) typically provides that the constrained beamformer 509, 511 beamforms in different regions.

Подход типично дает в результате автоматическое формирование областей, отражающих наличие источников звука в окружающей среде вместо предопределенной стационарной системы, как система по фиг. 2. Этот гибкий подход предоставляет системе возможность основываться на пространственно-временных характеристиках, таких как вызванные отражениями, которые было бы очень трудно и сложно учитывать применительно к предопределенной и стационарной системе (так как эти характеристики зависят от многих параметров, таких как характеристики размера, формы и реверберации помещения, и т. д.).The approach typically results in the automatic generation of regions reflecting the presence of sound sources in the environment instead of a predefined stationary system like the system of FIG. 2. This flexible approach allows the system to rely on space-time characteristics, such as those caused by reflections, which would be very difficult and difficult to account for in a predefined and stationary system (since these characteristics depend on many parameters, such as characteristics of size, shape room reverb, etc.).

Будет приниматься во внимание, что вышеприведенное описание, для ясности, описывало варианты осуществления изобретения со ссылкой на разные функциональный схемы, блоки и процессоры. Однако, будет очевидно, что может использоваться любое подходящее распределение функциональных возможностей между разными функциональными схемами, блоками или процессорами, не умаляя изобретения. Например, функциональные возможности, проиллюстрированные выполняемыми отдельными процессорами или контроллерами, могут выполняться одним и тем же процессором или контроллерами. Отсюда, ссылки на определенные функциональные блоки или схемы должны рассматриваться скорее только в качестве ссылок на пригодное средство для обеспечения описанных функциональных возможностей, нежели указывающими на строгую логическую или физическую структуру или организацию.It will be appreciated that the above description, for clarity, has described embodiments of the invention with reference to various functional diagrams, blocks, and processors. However, it will be apparent that any suitable distribution of functionality between different functional circuits, blocks or processors can be used without detracting from the invention. For example, functionality illustrated by being executed by separate processors or controllers may be performed by the same processor or controllers. Hence, references to specific functional blocks or diagrams should be considered only as references to a suitable means for providing the described functionality, rather than indicating a strict logical or physical structure or organization.

Изобретение может быть реализовано в любом пригодном виде, включая аппаратные средства, программное обеспечение, зашитые программы или комбинацию таковых. Изобретение, по выбору, может быть реализовано, по меньшей мере частично, в качестве компьютерного программного обеспечения, работающего на одном или более процессоров данных и/или цифровых сигнальных процессоров. Элементы и компоненты варианта осуществления изобретения могут быть реализованы физически, функционально и логически любым подходящим образом. Действительно, функциональные возможности могут быть реализованы в одиночном блоке, множестве блоков или в качестве части других функциональных блоков. По существу, изобретение может быть реализовано в одиночном блоке, или может быть физически или функционально распределено между разными схемами, блоками и процессорами.The invention may be practiced in any suitable form, including hardware, software, firmware, or a combination thereof. The invention may optionally be implemented, at least in part, as computer software running on one or more data processors and / or digital signal processors. Elements and components of an embodiment of the invention may be physically, functionally and logically implemented in any suitable manner. Indeed, the functionality can be implemented in a single block, multiple blocks, or as part of other functional blocks. As such, the invention can be implemented in a single block, or it can be physically or functionally distributed among different circuits, blocks and processors.

Хотя настоящее изобретение было описано в связи с некоторыми вариантами осуществления, оно не подразумевается ограниченным отдельными формами, изложенными в материалах настоящей заявки. Вернее, объем настоящего изобретения ограничен только прилагаемой формулой изобретения. Дополнительно, хотя признак может фигурировать описанным в связи с конкретными вариантами осуществления, специалист в данной области техники будет осознавать, что различные признаки описанных вариантов осуществления могут комбинироваться в соответствии с изобретением. В формуле изобретения, термин содержит не исключают присутствия других элементов или этапов.Although the present invention has been described in connection with some of the options for implementation, it is not intended to be limited to certain forms set forth in the materials of this application. Rather, the scope of the present invention is limited only by the attached claims. Additionally, although a feature may appear described in connection with specific embodiments, one skilled in the art will appreciate that various features of the described embodiments may be combined in accordance with the invention. In the claims, the term does not exclude the presence of other elements or steps.

Более того, хотя и перечислены по отдельности, множество средств, элементов, схем или этапов способа могут быть реализованы, например, одиночной схемой, блоком или процессором. Дополнительно, хотя отдельные признаки могут быть включены в разные пункты формулы изобретения, таковые могут комбинироваться преимущественным образом, как только возможно, а включение в разные пункты формулы изобретения не подразумевает, что комбинация признаков не является выполнимой и/или полезной. К тому же, включение признака в одну категорию формулы изобретения не предполагает ограничения этой категорией, а скорее указывает, что признак равным образом применим к категориям другого пункта формулы изобретения надлежащим образом. Более того, очередность признаков в формуле изобретения не подразумевает никакого определенного порядка, в которой признаки должны обрабатываться, и, в частности, очередность отдельных этапов в пункте формулы изобретения о способе не подразумевает, что этапы должны выполняться в этой очередности. Вернее, этапы могут выполняться в любом подходящем порядке. В дополнение, упоминания в единственном числе не исключают множественности. Выражения единственного числа, «первый», «второй» и т. п., не устраняют множественности. Символы ссылок в пунктах формулы изобретения предусмотрены только в качестве проясняющих примеров, которые не должны трактоваться в качестве ограничивающие объем формулы изобретения каким бы то ни было образом.Moreover, although listed separately, a plurality of means, elements, circuits, or method steps may be implemented, for example, in a single circuit, block, or processor. Additionally, although individual features may be included in different claims, these may be combined in an advantageous manner as possible, and inclusion in different claims does not imply that a combination of features is not feasible and / or useful. In addition, the inclusion of a feature in one category of claims is not intended to be limited to that category, but rather indicates that the feature is equally applicable to the categories of another claim as appropriate. Moreover, the order of the features in the claims does not imply any particular order in which the features are to be processed, and in particular the order of the individual steps in the method claim does not imply that the steps are to be performed in that order. Rather, the steps can be performed in any suitable order. In addition, singular mentions do not exclude plurality. Expressions in the singular, "first", "second", etc., do not eliminate plurality. The reference characters in the claims are provided only as clarifying examples, which are not to be construed as limiting the scope of the claims in any way.

Claims

1. A beamforming sound recording device comprising:

microphone array (301);

a first beamformer (303) coupled to a microphone array (301) and configured to generate a first beamforming audio output, the first beamforming device being a filtering and combining beamforming device comprising a first plurality of beamforming filters , each of which has a first adaptive impulse response;

a second beamformer (305) coupled to a microphone array (301) and configured to generate a second beamforming audio output, the second beamforming device being a filtering and combining beamforming device comprising a second plurality of beamforming filters , each of which has a second adaptive impulse response; and

a mismatch processor (309) for determining a mismatch metric between the first beam former (303) and the second beamformer (305) in response to comparing the first adaptive impulse responses with the second adaptive impulse responses.

2. The beamforming sound recorder of claim 1, wherein the mismatch processor (309) is configured for each microphone of the microphone array (301) to determine the correlation between the first and second adaptive impulse responses for the microphone and to determine the mismatch metric in response to the combination of correlations for each microphone from the microphone array (301).

3. The beamforming sound recorder of claim 1, wherein the mismatch processor (309) is configured to determine frequency domain representations of the first adaptive impulse responses and second adaptive impulse responses; and determining a mismatch metric in response to the frequency domain representations of the first adaptive impulse responses and the second adaptive impulse responses.

4. The beamforming sound recorder according to claim 3, wherein the mismatch processor (309) is configured to determine mismatch frequency metrics for frequency domain representation frequencies; and determine the mismatch metric in response to the mismatch frequency metrics for the frequency domain representation frequencies; wherein the mismatch processor (309) is configured to determine the mismatch frequency metric for the first frequency and the first microphone of the microphone array (301) in response to the first frequency domain coefficient and the second frequency domain coefficient, wherein the first frequency domain coefficient is the frequency domain coefficient for the first frequencies for the first adaptive impulse response for the first microphone, and the second frequency domain coefficient is a frequency domain coefficient for the first frequency for the second adaptive impulse response for the first microphone; and the mismatch processor (309) is further configured to determine a mismatch frequency metric for the first frequency in response to a combination of mismatch frequency metrics for a plurality of microphones of the microphone array (301).

5. The beamforming sound recorder of claim 4, wherein the mismatch processor (309) is configured to determine a mismatch frequency metric for the first frequency and the first microphone in response to multiplying the first frequency domain coefficient and a conjugate value of the second frequency domain coefficient.

6. The beamforming sound recorder of claim 5, wherein the mismatch processor (309) is configured to determine a mismatch frequency metric for the first frequency in response to a real part of the mismatch frequency metric combination for the first frequency for a plurality of microphones of the microphone array (301).

7. The beamforming sound recorder of claim 5, wherein the mismatch processor (309) is configured to determine a mismatch frequency metric for the first frequency in response to a first frequency mismatch frequency metric combination rate for a plurality of microphones of the microphone array (301).

8. A beamforming sound recorder according to claim 6 or 7, wherein the mismatch processor (309) is configured to determine the mismatch frequency metric for the first frequency in response to at least one of the real part and norm of the mismatch frequency metric combination for the first frequency for the plurality of microphones of the microphone array (301) with respect to the sum of the L2 norm function for the sum of the first frequency domain coefficients and the L2 norm function for the sum of the second frequency domain coefficients for the plurality of microphone array microphones (301).

9. The beamforming sound recorder according to claim 6 or 7, wherein the mismatch processor (309) is configured to determine the mismatch frequency metric for the first frequency in response to the rate of mismatch frequency metric combination for the first frequency for a plurality of microphones of the microphone array (301) with respect to the product of the L2 norm function for the sum of the first frequency domain coefficients and the L2 norm function for the sum of the second frequency domain coefficients for a plurality of microphones of the microphone array (301).

10. A beamforming sound recording device according to any one of paragraphs. 4-9, in which the mismatch processor (309) is configured to determine the mismatch metric as a frequency selective weighted sum of the mismatch frequency metrics.

11. The beamforming audio recorder as claimed in any one of the preceding claims, wherein the first plurality of beamform filters and the second plurality of beamforming filters are finite impulse response filters having a plurality of coefficients.

12. A beamforming sound recording device according to any of the preceding paragraphs, further comprising:

a plurality of limited beam drivers (509, 511) connected to the microphone array (301) and each of which is configured to generate a limited beamforming audio output signal, with each limited beamformer of the plurality of limited beam drivers (509, 511 ) beamforming is limited to beamforming in an area different from other limited beamforming areas of the plurality of constrained beam drivers (509, 511), wherein the second beamformer is a constrained beamformer of the plurality of constrained beam drivers (509, 511) directional patterns;

the first adapter (507) for adapting the parameters of the beamform of the first beam former (505);

a second adapter (513) for adapting the bounded beamform parameters for the plurality of bounded beamformers (509, 511);

while the second adapter (513) is configured to adapt the parameters of the limited beamforms only for limited beamformators from a plurality of limited beamformators (509, 511), for which a misalignment factor has been determined that satisfies the similarity criterion.

13. The beamforming sound recorder according to claim 12, further comprising a sound source detector for detecting point sound sources in the second beamforming audio output signals; and wherein the second adapter (513) is configured to adapt the bounded beamforming parameters only for the bounded beam drivers for which the presence of a point sound source is detected in the bounded beamforming audio output signal.

14. A method of operation for a beamforming sound recording device comprising:

microphone array (301);

a first beamformer (303) coupled to a microphone array (301), the first beamformer (303) being a filtering and combining beamforming device comprising a first plurality of beamforming filters, each of which has a first adaptive impulse response;

a second beamformer (305) connected to the microphone array (301), the second beamformer (305) being a filtering and combining beamforming device comprising a second plurality of beamforming filters, each of which has an adaptive impulse response; in this case, the mentioned method consists in the fact that:

the first beamformer (303) generates a first beamforming audio output signal;

the second beamformer (305) generates a second beamforming audio output; and

determining the mismatch index between the radiation patterns of the first beam former (303) and the second beamformer (305) in response to comparing the first adaptive impulse responses with the second adaptive impulse responses.