RU2759715C2 - Sound recording using formation of directional diagram - Google Patents
Sound recording using formation of directional diagram Download PDFInfo
- Publication number
- RU2759715C2 RU2759715C2 RU2019124543A RU2019124543A RU2759715C2 RU 2759715 C2 RU2759715 C2 RU 2759715C2 RU 2019124543 A RU2019124543 A RU 2019124543A RU 2019124543 A RU2019124543 A RU 2019124543A RU 2759715 C2 RU2759715 C2 RU 2759715C2
- Authority
- RU
- Russia
- Prior art keywords
- mismatch
- beamforming
- beamformer
- frequency
- metric
- Prior art date
Links
- 238000010586 diagram Methods 0.000 title abstract description 14
- 230000015572 biosynthetic process Effects 0.000 title 1
- 230000004044 response Effects 0.000 claims abstract description 111
- 230000003044 adaptive effect Effects 0.000 claims abstract description 63
- 238000001914 filtration Methods 0.000 claims abstract description 18
- 230000005855 radiation Effects 0.000 claims description 54
- 238000000034 method Methods 0.000 claims description 18
- 230000001629 suppression Effects 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 3
- 239000000126 substance Substances 0.000 abstract 1
- 238000013459 approach Methods 0.000 description 52
- 230000006978 adaptation Effects 0.000 description 44
- 238000012545 processing Methods 0.000 description 21
- 230000005236 sound signal Effects 0.000 description 11
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000002123 temporal effect Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 230000001427 coherent effect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000010363 phase shift Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000005534 acoustic noise Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000012887 quadratic function Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 201000007201 aphasia Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Description
Область техники, к которой относится изобретениеThe technical field to which the invention relates
Изобретение относится к звукозаписи с использованием формирования диаграммы направленности и, в частности, но не исключительно, к записи речи с использованием формирования диаграммы направленности.The invention relates to sound recording using beamforming, and in particular, but not exclusively, to voice recording using beamforming.
УРОВЕНЬ ТЕХНИКИ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION
Звукозапись и, в частности запись речи, становилась все более и более важной в последние десятилетия. Действительно, звукозапись стала в большей степени важной применительно к многообразию применений, в том числе, дистанционной связи, телеконференцсвязи, играм, речевым интерфейсам пользователя, и т. д. Однако, проблема в многих сценариях и применениях состоит в том, что желательный источник речи типично не является единственным источником звука в окружающей среде. Скорее, в типичных акустических средах, есть много других источников звука/шума, которые захватываются микрофоном. Одна из критических проблем, стоящих перед многими применениями звукозаписи, состоит в том, каким образом лучше всего выделять речь из шумной окружающей среды. Для того чтобы принять меры в ответ на эту проблему, было предложено некоторое количество разных подходов для подавления шумов.Sound recording, and in particular speech recording, has become more and more important in recent decades. Indeed, sound recording has become increasingly important in a variety of applications, including telecommuting, teleconferencing, games, speech user interfaces, etc. However, a problem in many scenarios and applications is that the desired speech source is typically is not the only sound source in the environment. Rather, in typical acoustic environments, there are many other sound / noise sources that are picked up by the microphone. One of the critical issues facing many recording applications is how to best isolate speech from noisy environments. In order to respond to this problem, a number of different noise suppression approaches have been proposed.
Действительно, исследования в области систем громкой телефонной связи являются предметом обсуждения, который десятилетиями привлекал большой интерес. Первые имеющиеся в распоряжении коммерческие системы сосредотачивались на профессиональных системах (видео) конференцсвязи в средах с низким фоновым шумом и низким временем реверберации. Было обнаружено, что особенно полезным подходом для идентификации и выделения желательных источников звука, например, таких как желательный докладчик, является использование формирования диаграммы направленности на основании сигналов с микрофонной решетки. Изначально часто использовалась микрофонная решетка с фокусированной неподвижной диаграммой направленности, но позже более популярным стало использование адаптивных диаграмм направленности.Indeed, research into hands-free telephone systems is a topic of discussion that has attracted a lot of interest for decades. The first commercial systems available focused on professional (video) conferencing systems in environments with low background noise and low reverberation times. It has been found that a particularly useful approach for identifying and highlighting desired sound sources, such as a desired presenter, for example, is to use beamforming based on signals from a microphone array. Initially, a microphone array with a focused fixed pattern was often used, but later the use of adaptive patterns became more popular.
Во второй половине 1990-ых, начали выпускаться системы громкой связи для мобильных телефонов. Подразумевалось, что они должны использоваться в многих разных средах, в том числе, реверберирующих помещениях и при (более) высоких уровнях фонового шума. Такие акустические среды предусматривают существенно более трудные задачи и, в частности, могут осложнять или ухудшать адаптацию сформированной диаграммы направленности.In the second half of the 1990s, hands-free systems for mobile phones began to be produced. They were meant to be used in many different environments, including reverberant rooms and (higher) background noise levels. Such acoustic environments provide for significantly more difficult tasks and, in particular, can complicate or worsen the adaptation of the formed radiation pattern.
Сначала исследования в области записи применительно к таким средам сосредотачивались на ослаблении эхо, а позже на подавлении шумов. Пример системы звукозаписи, основанной на формировании диаграммы направленности, проиллюстрирован на фиг. 1. В примере, направленная решетка из множества микрофонов 101 присоединена к формирователю 103 диаграммы направленности, который вырабатывает сигнал z(n) источника звука и один или более шумовых опорных сигналов x(n).Recording research for such environments initially focused on echo attenuation and later on noise cancellation. An example of a beamforming sound recording system is illustrated in FIG. 1. In an example, a directional array of a plurality of
Микрофонная решетка 101 в некоторых вариантах осуществления может содержать только два микрофона, но типично будет содержать большее количество.
Формирователь 103 диаграммы направленности, более точно, может быть адаптивным формирователем диаграммы направленности, в котором одна диаграмма направленности может быть направлена на источник речи с использованием пригодного алгоритма адаптации.The
Например, US 7 146 012 и US 7 602 926 раскрывает примеры адаптивных формирователей диаграммы направленности, которые фокусируются на речи, но также выдает опорный сигнал, который (почти) не содержит в себе речь.For example, US 7,146,012 and US 7,602,926 disclose examples of adaptive beamforming devices that focus on speech, but also provide a reference signal that (almost) does not contain speech.
Формирователь диаграммы направленности создает улучшенный выходной сигнал, z(n), когерентно добавляя желательную часть сигналов с микрофонов посредством фильтрации принятых сигналов в прямых согласующих фильтрах и добавления отфильтрованных выходных сигналов. К тому же, выходной сигнал фильтруется в обратных адаптивных фильтрах, имеющих характеристики фильтра, сопряженные с прямыми фильтрами (в частотной области, соответствующей обращенным по времени импульсным характеристикам во временной области). Сигналы ошибки вырабатываются в качестве разности между входными сигналами и выходными сигналами обратных адаптивных фильтров, и коэффициенты фильтров адаптируются, чтобы минимизировать сигналы ошибки, тем самым давая в результате звуковую диаграмму направленности, управляемую в направлении преобладающего сигнала. Сформированные сигналы x(n) ошибки могут рассматриваться в качестве шумовых опорных сигналов, которые особенно пригодны для выполнения дополнительного ослабления шума над улучшенным выходным сигналом z(n).The beamformer creates an improved output, z (n), by coherently adding the desired portion of the microphone signals by filtering the received signals in direct match filters and adding the filtered outputs. In addition, the output signal is filtered in inverse adaptive filters having filter characteristics coupled to the forward filters (in the frequency domain corresponding to the time-reversed impulse responses in the time domain). The error signals are generated as the difference between the input signals and the outputs of the inverse adaptive filters, and the filter coefficients are adapted to minimize the error signals, thereby resulting in an audio beam steered in the direction of the dominant signal. The generated error signals x (n) can be considered as noise reference signals, which are particularly suitable for performing additional noise reduction on the improved output signal z (n).
Первичный сигнал z(n) и опорный сигнал x(n) типично оба загрязнены шумом. В том случае, если шум в двух сигналах когерентен (например, когда есть создающий помехи точечный источник шума), адаптивный фильтр 105 может использоваться для ослабления когерентного шума.The primary signal z (n) and the reference signal x (n) are typically both contaminated with noise. In the event that the noise in the two signals is coherent (eg, when there is an interfering point noise source), an
С этой целью, шумовой опорный сигнал x(n) привязан ко входу адаптивного фильтра 105 с выходом, вычитаемым из сигнала z(n) источника звука для формирования компенсированного сигнала r(n). Адаптивный фильтр 105 приспособлен минимизировать мощность компенсированного сигнала r(n), типично, когда желательный источник звука не активен (например, когда нет речи), и это дает в результате подавление когерентного шума.To this end, the noise reference signal x (n) is coupled to the input of the
Компенсированный сигнал подается в постпроцессор 107, который выполняет ослабление шума над компенсированным сигналом r(n) на основании шумового опорного сигнала x(n). Более точно, постпроцессор 107 преобразует компенсированный сигнал r(n) и шумовой опорный сигнал x(n) в частотную область с использованием оконного преобразования Фурье. Затем, он, применительно к каждому элементу разрешения по частоте, модифицирует амплитуду R(ω), вычитая масштабированный вариант амплитудного спектра X(ω). Получающийся в результате комплексный спектр преобразуется обратно во временную область, чтобы давать выходной сигнал q(n), в котором был подавлен шум. Эта технология спектрального вычитания впервые была описана в S.F. Boll, «Suppression of Acoustic Noise in Speech using Spectral Subtraction» («Подавление акустического шума в речи с использованием спектрального вычитания»), IEEE Trans. Acoustics, Speech and Signal Processing, vol. 27, pp. 113-120, Apr. 1979.The compensated signal is fed to a post-processor 107 which performs noise reduction on the compensated signal r (n) based on the noise reference x (n). More specifically, the
Во многих системах звукозаписи, может использоваться множество формирователей диаграммы направленности, причем, они способны независимо адаптироваться к источнику звука. Например, для того чтобы отслеживать двух разных докладчиков в акустической среде, устройство звукозаписи может включать в себя два независимо адаптивных формирователя диаграммы направленности.In many recording systems, a variety of beamforming devices can be used and are capable of independently adapting to the sound source. For example, in order to track two different presenters in an acoustical environment, a sound recorder may include two independently adaptive beam drivers.
В системах, использующих множество независимо адаптируемых формирователей диаграммы направленности, часто может быть полезно определять, насколько близко диаграммы направленности разных формирователей диаграммы направленности расположены друг к другу. Например, при использовании двух формирователей диаграммы направленности для отслеживания двух отдельных докладчиков, может быть важным гарантировать, что они оба не адаптируются оба, чтобы отслеживать одного и того же докладчика. Это, например, может достигаться посредством определения показателя несовпадения, который служит признаком различия между диаграммами направленности. Если показатель несовпадения указывает, что разность находится ниже порогового значения, это может повторно устанавливать в исходное состояние один из формирователей диаграммы направленности в направлении другого источника звука.In systems using a plurality of independently adaptable beamformers, it can often be useful to determine how close the beamforms of the different beamformers are to each other. For example, when using two beamformators to track two separate presenters, it can be important to ensure that both of them do not both adapt to track the same presenter. This, for example, can be achieved by defining a misalignment factor, which is indicative of the difference between the radiation patterns. If the mismatch metric indicates that the difference is below the threshold, this can reset one of the beam drivers towards the other sound source.
В других системах, устройство звукозаписи может использовать взаимодействующие формирователи диаграммы направленности для обеспечения улучшенной звукозаписи, и в таких системах может быть полезно определять, насколько близко друг к другу находятся разные диаграммы направленности.In other systems, an audio recorder may use interoperable beamforming devices to provide improved sound recording, and in such systems it can be useful to determine how close different radiation patterns are to each other.
Например, хотя система по фиг. 1 обеспечивает очень эффективную работу и полезное действие в многих сценариях, она оптимальна не во всех сценариях. Действительно, тогда как многие традиционные системы, в том числе, пример по фиг. 1, обеспечивают очень хорошие рабочие характеристики, когда желательный источник звука/докладчик находится в пределах радиуса реверберации микрофонной решетки, то есть, для применений, где энергия прямой волны желательного источника звука (предпочтительно значительно) мощнее энергии отражений желательного источника звука, они имеют тенденцию давать менее оптимальные результаты, когда это не так. В типичных средах, было обнаружено, что докладчик типично должен находиться в пределах 1-1,5 метра от микрофонной решетки.For example, although the system of FIG. 1 provides very efficient performance and useful action in many scenarios, it is not optimal in all scenarios. Indeed, while many conventional systems, including the example of FIG. 1 provide very good performance when the desired sound source / speaker is within the reverberation radius of the microphone array, that is, for applications where the forward energy of the desired sound source is (preferably significantly) more powerful than the reflection energy of the desired sound source, they tend to produce less optimal results when they are not. In typical environments, it has been found that the presenter should typically be within 1-1.5 meters of the microphone array.
Однако, есть сильное стремление к основанным на звукозаписи решениям, приложениям и системам громкой связи, где пользователь может находиться на больших расстояниях от микрофонной решетки. Это, например, желательно как для многих систем и приложений связи, так и для многих систем и приложений речевого управления. Системы, обеспечивающие улучшение речи, в том числе, подавление реверберации и подавление шума для таких ситуаций, находятся в области техники, упоминаемой как суперсистемы громкой связи.However, there is a strong desire for recording-based solutions, applications and hands-free systems where the user can be located at great distances from the microphone array. This is, for example, desirable for many communication systems and applications as well as many voice control systems and applications. Systems that provide speech enhancement, including reverberation cancellation and noise cancellation for such situations, are in the art referred to as supersonic communication systems.
Подробнее, когда дело касается дополнительного рассеянного шума и желательного докладчика вне радиуса реверберации, могут возникать следующие проблемы:In more detail, when it comes to additional stray noise and a desirable speaker outside the reverberation radius, the following problems can arise:
• Формирователь диаграммы направленности часто может иметь проблемы с проведением различия между эхом желательной речи и рассеянным фоновым шумом, давая в результате искажение речи.• A beamformer can often have problems distinguishing between the echo of the desired speech and scattered background noise, resulting in speech distortion.
• Адаптивный формирователь диаграммы направленности может медленнее сходиться по направлению к желательному докладчику. В течение времени, когда адаптивная диаграмма направленности еще не сошлась, будет потеря речи в опорном сигнале, давая в результате искажение речи в том случае, если этот опорный сигнал используется для нестационарного подавления и нейтрализации шума. Проблема возрастает, когда есть большее количество желательных источников, которые говорят один за другим.• The adaptive beamformer may converge more slowly towards the desired presenter. During the time that the adaptive radiation pattern has not converged yet, there will be speech loss in the reference signal, resulting in speech distortion if this reference signal is used for non-stationary noise cancellation and cancellation. The problem increases when there are more desirable sources that speak one after the other.
Решение для обращения с более медленно сходящимися адаптивными фильтрами (вследствие фонового шума) состоит в том, чтобы дополнять их некоторым количеством неподвижных диаграмм направленности, нацеливаемых в разных направлениях, как проиллюстрировано на фиг. 2. Однако, этот подход особенно развит применительно к сценариям, в которых желательный источник звука присутствует в пределах радиуса реверберации. Он может быть менее эффективным для источников звука за пределами радиуса реверберации и часто может приводить к ненадежным решениям в таких случаях, особенно если также есть акустический рассеянный фоновый шум.The solution to dealing with the more slowly converging adaptive filters (due to background noise) is to supplement them with a number of fixed radiation patterns aimed in different directions, as illustrated in FIG. 2. However, this approach is especially developed for scenarios in which the desired sound source is present within the reverberation radius. It can be less effective for sound sources outside the reverberation radius and can often lead to unreliable solutions in such cases, especially if there is also acoustic diffuse background noise.
В частности, для того чтобы управлять и эксплуатировать такую систему, типично важно быть способным измерять, насколько близко друг к другу находятся разные диаграммы направленности/формирователи диаграммы направленности. Например, может быть важно сравнивать сфокусированные и несфокусированные формирователи диаграммы направленности друг с другом для выбора, какую диаграмму направленности использовать для формирования выходного звукового сигнала.In particular, in order to control and operate such a system, it is typically important to be able to measure how close different beamforms / beamformers are to each other. For example, it can be important to compare focused and unfocused beamformers with each other to select which radiation pattern to use to generate the audio output.
Однако, формирование достоверных показателей несовпадения может быть очень трудным в многих сценариях, особенно таких как когда желательный источник звука находится вне радиуса реверберации. Типичные показатели несовпадения имеют тенденцию быть основанными на сравнении выходных сигналов, вырабатываемых формирователями диаграммы направленности, например, таком как посредством сравнения уровней сигнала или посредством соотнесения выходных сигналов. Еще один подход состоит в том, чтобы определять направление прихода (DoA) сигнала и сравнения таковых друг с другом.However, generating reliable misalignment readings can be very difficult in many scenarios, especially when the desired sound source is outside the reverberation radius. Typical mismatch metrics tend to be based on a comparison of the outputs produced by the beamformers, such as by comparing signal levels or by correlating outputs, for example. Another approach is to determine the direction of arrival (DoA) of the signal and compare them with each other.
Однако, тогда как такие показатели несовпадения могут обеспечивать приемлемые рабочие характеристики в многих вариантах осуществления, они склонны быть субоптимальными в многих практических сценариях. В частности, они склонны не быть оптимальными в сценариях с высокими уровнями шума и отражений, и, особенно в реверберирующих средах, в которых желательный источник звука находится за пределами радиуса реверберации.However, while such mismatch rates may provide acceptable performance in many embodiments, they tend to be suboptimal in many practical scenarios. In particular, they tend not to be optimal in scenarios with high levels of noise and reflections, and especially in reverberant environments where the desired sound source is outside the reverberation radius.
Это может пониматься, как изложено ниже: в случае если желательный источник звука находится вне радиуса реверберации, энергия прямого звукового поля мала по сравнению с энергией рассеянного звукового поля, создаваемого из отражений. Отношение прямого звукового поля к рассеянному звуковому полю будет дополнительно ухудшаться, если также есть рассеянный фоновый шум. Энергии разных диаграмм направленности будут приблизительно одинаковы и, соответственно, это не дает пригодного указания подобия диаграмм направленности. По той же причине, система, основанная на измерении DoA, не будет устойчивой: вследствие низкой энергии прямого поля, взаимная корреляция сигналов не будет давать острого отдельного пика и будет давать в результате большие ошибки. По той же причине, прямые корреляции сигналов маловероятно должны давать ясное указание. Становление детекторов более устойчивыми часто будет давать в результате неудачные выявления желательного источника звука, приводя к несфокусированным диаграммам направленности. Типичным результатом является рассеяние речи в шумовом опорном сигнале, и серьезное искажение будет происходить, если делается попытка ослабить шум в первичном сигнале на основании шумового опорного сигнала.This can be understood as follows: if the desired sound source is outside the reverberation radius, the energy of the direct sound field is small compared to the energy of the scattered sound field generated from the reflections. The ratio of the direct sound field to the scattered sound field will be further degraded if there is also scattered background noise. The energies of different radiation patterns will be approximately the same and, accordingly, this does not provide a useful indication of the similarity of radiation patterns. For the same reason, a system based on DoA measurements will not be robust: due to the low energy of the forward field, the cross-correlation of signals will not produce a sharp single peak and will result in large errors. For the same reason, direct signal correlations are unlikely to provide a clear indication. Becoming more robust detectors will often result in unsuccessful detection of the desired sound source, resulting in unfocused radiation patterns. The typical result is speech scatter in a noisy reference signal, and severe distortion will occur if an attempt is made to attenuate the noise in the primary signal based on the noise reference signal.
Отсюда, был бы полезен улучшенный подход звукозаписи и, в частности, был бы полезен подход, обеспечивающий улучшенный показатель несовпадения между разными диаграммами направленности. Более точно, был бы полезен подход, предоставляющий возможность пониженной сложности, повышенной гибкости, облегченной реализации, уменьшенной стоимости, улучшенной звукозаписи, улучшенной пригодности для звукозаписи за пределами радиуса реверберации, пониженной чувствительности к шуму, улучшенной записи речи, улучшенной точности показателя несовпадения, улучшенного управления и/или улучшенных рабочих характеристик.Hence, an improved recording approach would be useful and, in particular, an approach that provides an improved misalignment rate between different radiation patterns would be useful. More specifically, an approach would be useful to provide the possibility of reduced complexity, increased flexibility, easier implementation, reduced cost, improved recording, improved usability for recording outside the reverberation radius, reduced sensitivity to noise, improved speech recording, improved accuracy of the misalignment metric, improved control and / or improved performance.
СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION
Соответственно, изобретение стремится предпочтительно смягчить, облегчить или устранить один или более из вышеупомянутых недостатков поодиночке или в любом сочетании.Accordingly, the invention seeks to preferably mitigate, alleviate or eliminate one or more of the above disadvantages, alone or in any combination.
Согласно аспекту изобретения, предоставлено формирующее диаграмму направленности устройство звукозаписи, содержащее: микрофонную решетку; первый формирователь диаграммы направленности, присоединенный к микрофонной решетке и выполненный с возможностью вырабатывать первый подвергнутый формированию диаграммы направленности звуковой выходной сигнал, первый формирователь диаграммы направленности является фильтрующим и комбинирующим формирователем диаграммы направленности, содержащим первое множество фильтров формы диаграммы направленности, каждый из которых имеет первую адаптивную импульсную характеристику; второй формирователь диаграммы направленности, присоединенный к микрофонной решетке и выполненный с возможностью вырабатывать второй подвергнутый формированию диаграммы направленности звуковой выходной сигнал, второй формирователь диаграммы направленности является фильтрующим и комбинирующим формирователем диаграммы направленности, содержащим второе множество фильтров формы диаграммы направленности, каждый из которых имеет вторую адаптивную импульсную характеристику; и процессор несовпадения для определения показателя несовпадения между диаграммами направленности первого формирователя диаграммы направленности и второго формирователя диаграммы направленности в ответ на сравнение первых адаптивных импульсных характеристик со вторыми адаптивными импульсными характеристиками.According to an aspect of the invention, there is provided a beamforming sound recorder comprising: a microphone array; a first beamformer coupled to the microphone array and configured to generate a first beamforming audio output signal, the first beamformer is a filtering and combining beamformer comprising a first plurality of beamforming filters, each of which has a first adaptive pulse characteristic; a second beamformer coupled to the microphone array and configured to generate a second beamforming audio output, the second beamformer is a filtering and combining beamformator comprising a second plurality of beamforming filters, each of which has a second adaptive pulse characteristic; and a mismatch processor for determining a mismatch metric between the beams of the first beamformer and the second beamformer in response to comparing the first adaptive impulse responses with the second adaptive impulse responses.
Изобретение в многих сценариях и применениях может обеспечивать улучшенное указание различия/подобия между диаграммами направленности, сформированными двумя формирователями диаграммы направленности. В частности, улучшенный показатель несовпадения зачастую может быть предусмотрен в сценариях, в которых прямой тракт от источников звука, под который адаптируются формирователи диаграммы направленности, не является преобладающим. Часто могут достигаться улучшенные рабочие характеристики для сценариев, содержащих высокую степень рассеянного шума, отражающих сигналов и/или поздних отражений.The invention, in many scenarios and applications, can provide an improved indication of difference / similarity between radiation patterns generated by two beam drivers. In particular, an improved misalignment rate can often be provided in scenarios where the direct path from the sound sources to which the beam drivers are adapted is not predominant. Improved performance can often be achieved for scenarios containing high levels of stray noise, reflections and / or late reflections.
Устройство звукозаписи во многих вариантах осуществления может содержать блок вывода для выработки звукового выходного сигнала в ответ на первый подвергнутый формированию диаграммы направленности звуковой выходной сигнал, второй подвергнутый формированию диаграммы направленности звуковой выходной сигнал и показатель несовпадения. Например, блок вывода может содержать комбинатор для комбинирования первого и второго подвергнутых формированию диаграммы направленности звуковых выходных сигналов в ответ на показатель несовпадения. Однако будет принято во внимание, что показатель несовпадения может использоваться для многих других целей в других применениях, например, таких как для выбора между разными диаграммами направленности, для управления адаптацией формирователей диаграммы направленности, и т. д.An audio recorder, in many embodiments, may comprise an output unit for generating an audio output in response to a first beamformed audio output, a second beamformed audio output, and a misalignment metric. For example, the output unit may comprise a combinator for combining the first and second beamforming audio outputs in response to the mismatch metric. However, it will be appreciated that the misalignment metric can be used for many other purposes in other applications, such as, for example, to choose between different radiation patterns, to control the adaptation of the beamformer, etc.
Подход может уменьшать чувствительность свойств звуковых сигналов (подвергнутых ли формированию диаграммы направленности звуковых выходных сигналов или сигналов с микрофона) и соответственно может быть менее чувствительным, например, к шуму. В многих сценариях, показатель несовпадения может формироваться быстрее и, например, в некоторых сценариях, мгновенно. В частности, показатель несовпадения может формироваться на основании текущих параметров фильтра без какого бы то ни было усреднения.The approach can reduce the sensitivity of the properties of audio signals (whether beamforming audio outputs or microphone signals) and accordingly can be less sensitive to noise, for example. In many scenarios, the mismatch indicator can form faster and, for example, in some scenarios, instantly. In particular, the mismatch metric can be generated based on the current filter parameters without any averaging.
Фильтрующие и комбинирующие формирователи диаграммы направленности могут содержать фильтр формы диаграммы направленности для каждого микрофона и комбинатор для комбинирования выходных сигналов фильтров формы диаграммы направленности для выработки подвергнутых формированию диаграммы направленности звукового выходного сигнала. Комбинатор, более точно, может быть блоком суммирования, а фильтрующие и комбинирующие формирователи диаграммы направленности могут быть фильтрующими и суммирующими формирователями диаграммы направленности.The filtering and combining beamforming devices may comprise a beamforming filter for each microphone and a combiner for combining outputs from the beamforming filters to produce a beamforming audio output signal. The combiner, more specifically, may be a combiner, and the filtering and combining beamformers may be filtering and combining beamformers.
Формирователи диаграммы направленности являются адаптивными формирователями диаграммы направленности и могут содержать функциональные возможности адаптации для адаптации адаптивных импульсных характеристик (тем самым, адаптации действующей направленности микрофонной решетки).The beam shapers are adaptive beam shapers and may contain adaptation functionality to adapt the adaptive impulse response (thereby adapting the effective directivity of the microphone array).
Показатель несовпадения эквивалентен показателю подобия.The mismatch score is equivalent to the similarity score.
Фильтрующие и комбинирующие формирователи диаграммы направленности, более точно, могут содержать фильтры формы диаграммы направленности в виде фильтров с конечной импульсной характеристикой (КИХ, FIR), имеющих множество коэффициентов.The filtering and combining beamformers may more specifically comprise finite impulse response (FIR) filters having a plurality of coefficients.
В соответствии с необязательным признаком изобретения, процессор несовпадения выполнен с возможностью, применительно к каждому микрофону микрофонной решетки, определять корреляцию между первыми и вторыми адаптивными импульсными характеристиками для микрофона и определять показатель несовпадения в ответ на комбинацию корреляций для каждого микрофона из микрофонной решетки.In accordance with an optional feature of the invention, the mismatch processor is configured, for each microphone in the microphone array, to determine a correlation between the first and second adaptive impulse responses for the microphone and to determine the mismatch metric in response to a combination of correlations for each microphone from the microphone array.
Это может давать особенно полезный показатель несовпадения, не требуя избыточной сложности.This can provide a particularly useful mismatch metric without requiring excessive complexity.
В соответствии с необязательным признаком изобретения, процессор несовпадения выполнен с возможностью определять представления в частотной области первых адаптивных импульсных характеристик и вторых адаптивных импульсных характеристик; и определять показатель несовпадения в ответ на представления в частотной области первых адаптивных импульсных характеристик и вторых адаптивных импульсных характеристик.In accordance with an optional feature of the invention, the mismatch processor is configured to determine frequency domain representations of the first adaptive impulse responses and the second adaptive impulse responses; and determining a mismatch metric in response to the frequency domain representations of the first adaptive impulse responses and the second adaptive impulse responses.
Это может дополнительно улучшать рабочие характеристики и/или облегчать работу. Это в многих вариантах осуществления может облегчать определение показателя несовпадения. В некоторых вариантах осуществления, адаптивные импульсные характеристики могут выдаваться в частотной области, и представления в частотной области могут быть доступны без задержки. Однако, в большинстве вариантов осуществления, адаптивные импульсные характеристики могут выдаваться во временной области, например, посредством коэффициентов КИХ-фильтра, и процессор несовпадения, например, может быть выполнен с возможностью применять дискретное преобразование Фурье (ДПФ, DFT) к импульсным характеристикам во временной области для формирования частотных представлений.This can further improve performance and / or ease handling. This, in many embodiments, can facilitate the determination of the mismatch metric. In some embodiments, adaptive impulse responses may be provided in the frequency domain, and frequency domain representations may be available without delay. However, in most embodiments, the adaptive impulse responses may be output in the time domain, for example, by means of an FIR filter coefficients, and the mismatch processor, for example, may be configured to apply a discrete Fourier transform (DFT) to the time domain impulse responses. to generate frequency representations.
В соответствии с необязательным признаком изобретения, процессор несовпадения выполнен с возможностью определять частотные показатели несовпадения для частот представлений в частотной области; и определять показатель несовпадения в ответ на частотные показатели несовпадения применительно к частотам представлений в частотной области; процессор несовпадения выполнен с возможностью определять частотный показатель несовпадения для первой частоты и первого микрофона из микрофонной решетки в ответ на первый коэффициент частотной области и второй коэффициент частотной области, первый коэффициент частотной области является коэффициентом частотной области для первой частоты применительно к первой адаптивной импульсной характеристике для первого микрофона, а второй коэффициент частотной области является коэффициентом частотной области для первой частоты применительно ко второй адаптивной импульсной характеристике для первого микрофона; и процессор несовпадения дополнительно выполнен с возможностью определять частотный показатель несовпадения для первой частоты в ответ на комбинацию частотных показателей несовпадения для множества микрофонов микрофонной решетки.In accordance with an optional feature of the invention, the mismatch processor is configured to determine mismatch frequency metrics for frequency domain representation frequencies; and determine the mismatch metric in response to the mismatch frequency metrics as applied to the frequency domain representation frequencies; the mismatch processor is configured to determine the mismatch frequency metric for the first frequency and the first microphone from the microphone array in response to the first frequency domain coefficient and the second frequency domain coefficient, the first frequency domain coefficient is the frequency domain coefficient for the first frequency in relation to the first adaptive impulse response for the first a microphone, and the second frequency domain factor is a frequency domain factor for a first frequency with respect to a second adaptive impulse response for a first microphone; and the mismatch processor is further configured to determine a mismatch frequency metric for the first frequency in response to a combination of mismatch frequency metrics for the plurality of microphones of the microphone array.
Это может давать особенно полезный показатель несовпадения, который, в частности, может обеспечивать точное указание различия между диаграммами направленности.This can provide a particularly useful misalignment indicator, which, in particular, can provide an accurate indication of the difference between radiation patterns.
При обозначении первой и второй частотных составляющих для частоты ω и микрофона m в качестве и , соответственно, частотный показатель несовпадения для частоты ω и микрофона m может быть определен как:When designating the first and second frequency components for the frequency ω and microphone m as and , accordingly, the frequency mismatch index for the frequency ω and the microphone m can be defined as:
(Комбинированный) частотный показатель несовпадения для частоты ω для множества микрофонов микрофонной решетки может определяться посредством комбинирования значений для разносных микрофонов. Например, что касается простого суммирования на M микрофонах:The (combined) frequency misalignment metric for the frequency ω for a plurality of microphones of the microphone array may be determined by combining the values for the pickup microphones. For example, for simple summing on M microphones:
Общий показатель несовпадения затем может определяться посредством комбинирования отдельных частотных показателей несовпадения. Например, может применяться зависимая от частоты комбинация:The overall mismatch score can then be determined by combining the individual mismatch frequency scores. For example, a frequency dependent combination can be applied:
где - пригодная частотная весовая функция.where is a suitable frequency weighting function.
В соответствии с необязательным признаком изобретения, процессор несовпадения выполнен с возможностью определять частотный показатель несовпадения для первой частоты и первого микрофона в ответ на умножение первого коэффициента частотной области и сопряженной величины второго коэффициента частотной области.In accordance with an optional feature of the invention, the mismatch processor is configured to determine a mismatch frequency metric for the first frequency and the first microphone in response to multiplying the first frequency domain coefficient and the conjugate value of the second frequency domain coefficient.
Это может давать особенно полезный показатель несовпадения, который, в частности, может обеспечивать точное указание различия между диаграммами направленности. В некоторых вариантах осуществления, частотный показатель несовпадения для частоты ω и микрофона m может быть определен как:This can provide a particularly useful misalignment indicator, which, in particular, can provide an accurate indication of the difference between radiation patterns. In some embodiments, the frequency mismatch metric for frequency ω and microphone m may be defined as:
В соответствии с необязательным признаком изобретения, процессор несовпадения выполнен с возможностью определять частотный показатель несовпадения для первой частоты в ответ на реальную часть комбинации частотных показателей несовпадения для первой частоты для множества микрофонов микрофонной решетки.In accordance with an optional feature of the invention, the mismatch processor is configured to determine a mismatch frequency metric for a first frequency in response to an actual portion of a first frequency mismatch frequency metric combination for a plurality of microphones in a microphone array.
Это может давать особенно полезный показатель несовпадения, который, в частности, может обеспечивать точное указание различия между диаграммами направленности.This can provide a particularly useful misalignment indicator, which, in particular, can provide an accurate indication of the difference between radiation patterns.
В соответствии с необязательным признаком изобретения, процессор несовпадения выполнен с возможностью определять частотный показатель несовпадения для первой частоты в ответ на норму комбинации частотных показателей несовпадения для первой частоты для множества микрофонов микрофонной решетки.In accordance with an optional feature of the invention, a mismatch processor is configured to determine a mismatch frequency metric for a first frequency in response to a first frequency mismatch frequency metric combination rate for a plurality of microphones in a microphone array.
Это может давать особенно полезный показатель несовпадения, который, в частности, может обеспечивать точное указание различия между диаграммами направленности. Норма, в особенности, может быть нормой L1.This can provide a particularly useful misalignment indicator, which, in particular, can provide an accurate indication of the difference between radiation patterns. The rate, in particular, may be the L1 rate.
В соответствии с необязательным признаком изобретения, процессор несовпадения выполнен с возможностью определять частотный показатель несовпадения для первой частоты в ответ на по меньшей мере одну из реальной части и нормы комбинации частотных показателей несовпадения для первой частоты для множества микрофонов микрофонной решетки относительно суммы функции нормы L2 для суммы первых коэффициентов частотной области и функции нормы L2 для суммы вторых коэффициентов частотной области для множества микрофонов микрофонной решетки.In accordance with an optional feature of the invention, the mismatch processor is configured to determine a mismatch frequency metric for the first frequency in response to at least one of the real part and combination rate of the mismatch frequency metrics for the first frequency for a plurality of microphone array microphones relative to the sum of the L2 rate function for the sum the first frequency domain coefficients and the L2 norm function for the sum of the second frequency domain coefficients for the plurality of microphone array microphones.
Это может давать особенно полезный показатель несовпадения, который, в частности, может обеспечивать точное указание различия между диаграммами направленности. Монотонные функции, более точно, могут быть квадратичными функциями.This can provide a particularly useful misalignment indicator, which, in particular, can provide an accurate indication of the difference between radiation patterns. Monotone functions, more precisely, can be quadratic functions.
В соответствии с необязательным признаком изобретения, процессор несовпадения выполнен с возможностью определять частотный показатель несовпадения для первой частоты в ответ на норму комбинации частотных показателей несовпадения для первой частоты для множества микрофонов микрофонной решетки относительно произведения функции нормы L2 для суммы первых коэффициентов частотной области и функции нормы L2 для суммы вторых коэффициентов частотной области для множества микрофонов микрофонной решетки.In accordance with an optional feature of the invention, the mismatch processor is configured to determine a mismatch frequency metric for a first frequency in response to a first frequency mismatch frequency metric combination rate for a plurality of microphone array microphones with respect to the product of the L2 rate function for the sum of the first frequency domain coefficients and the L2 rate function for the sum of the second frequency domain coefficients for the plurality of microphone array microphones.
Это может давать особенно полезный показатель несовпадения, который, в частности, может обеспечивать точное указание различия между диаграммами направленности. Монотонные функции, более точно, могут быть функциями абсолютного значения.This can provide a particularly useful misalignment indicator, which, in particular, can provide an accurate indication of the difference between radiation patterns. Monotone functions, more precisely, can be functions of an absolute value.
В соответствии с необязательным признаком изобретения, процессор несовпадения выполнен с возможностью определять показатель несовпадения в виде избирательной по частоте взвешенной суммы частотных показателей несовпадения.In accordance with an optional feature of the invention, the mismatch processor is configured to determine the mismatch metric as a frequency selective weighted sum of the mismatch frequency metrics.
Это может давать особенно полезный показатель несовпадения, который, в частности, может обеспечивать точное указание различия между диаграммами направленности. В частности, это может обеспечивать выразительность особенно значимых с точки зрения восприятия частот, такую как выразительность речевых частот.This can provide a particularly useful misalignment indicator, which, in particular, can provide an accurate indication of the difference between radiation patterns. In particular, it can provide expressiveness of particularly perceptually significant frequencies, such as the expressiveness of speech frequencies.
В соответствии с необязательным признаком изобретения, первое множество фильтров формы диаграммы направленности и второе множество фильтров формы диаграммы направленности являются фильтрами с конечной импульсной характеристикой, имеющими множество коэффициентов.In accordance with an optional feature of the invention, the first plurality of beamform filters and the second plurality of beamform filters are finite impulse response filters having a plurality of coefficients.
Это может обеспечивать эффективную работу и реализацию во многих вариантах осуществления.This can provide efficient operation and implementation in many embodiments.
В соответствии с необязательным признаком изобретения, формирующее диаграмму направленности устройство звукозаписи дополнительно содержит: множество ограниченных формирователей диаграммы направленности, присоединенных к микрофонной решетке, и каждый из которых выполнен с возможностью вырабатывать подвергнутый ограниченному формированию диаграммы направленности звуковой выходной сигнал, каждый ограниченный формирователь диаграммы направленности ограничен формировать диаграммы направленности в области, отличной от областей других ограниченных формирователей диаграммы направленности, второй формирователь диаграммы направленности является ограниченным формирователем диаграммы направленности из множества ограниченных формирователей диаграммы направленности; первый адаптер для адаптации параметров формы диаграммы направленности первого формирователя диаграммы направленности; второй адаптер для адаптации параметров ограниченной формы диаграммы направленности для множества ограниченных формирователей диаграммы направленности; при этом, второй адаптер выполнен с возможностью адаптировать параметры ограниченной формы диаграммы направленности только для ограниченных формирователей диаграммы направленности из множества ограниченных формирователей диаграммы направленности, для которых был определен показатель несовпадения, который удовлетворяет критерию подобия.In accordance with an optional feature of the invention, the beamforming sound recorder further comprises: a plurality of restricted beamforming devices coupled to the microphone array and each configured to produce a restricted beamforming audio output, each restricted beamforming device being restricted to generate a beamforming area in a different area from other localized beam drivers, the second beamformer is a localized beamformer from a plurality of localized beam drivers; a first adapter for adapting the beamform parameters of the first beamformer; a second adapter for adapting the parameters of the limited beamforms for the plurality of limited beam drivers; in this case, the second adapter is configured to adapt the parameters of the limited beamforms only for limited beam drivers from among the plurality of limited beam drivers, for which a mismatch metric has been determined that satisfies the similarity criterion.
Изобретение может обеспечивать улучшенную звукозапись в многих вариантах осуществления. В частности, часто могут достигаться улучшенные рабочие характеристики в реверберирующих средах и/или для источников звука на больших расстояниях. Подход, в частности, может обеспечивать улучшенную запись речи в многих представляющих дополнительную сложность акустических средах. В многих вариантах осуществления, подход может давать надежное и точное формирование диаграммы направленности, тем временем одновременно обеспечивая быструю адаптацию под новые желательные источники звука. Подход может предусматривать устройство звукозаписи, имеющее пониженную чувствительность, например, к шуму, реверберации и отражениям. В частности, часто может достигаться улучшенная запись источников звука за пределами радиуса реверберации.The invention can provide improved sound recording in many embodiments. In particular, improved performance can often be achieved in reverberant environments and / or for long distance sound sources. The approach, in particular, can provide improved speech recording in many more complex acoustic environments. In many embodiments, the approach can provide reliable and accurate beamforming while simultaneously providing rapid adaptation to new desired sound sources. An approach could provide for a recording device that has reduced sensitivity to, for example, noise, reverberation, and reflections. In particular, improved recording of sound sources outside the reverberation radius can often be achieved.
В некоторых вариантах осуществления, выходной звуковой сигнал из устройства звукозаписи может формироваться в ответ на первый подвергнутый формированию диаграммы направленности звуковой выходной сигнал и/или подвергнутый ограниченному формированию диаграммы направленности звуковой выходной сигнал. В некоторых вариантах осуществления, выходной звуковой сигнал может формироваться в виде комбинации подвергнутых ограниченному формированию диаграммы направленности звуковых выходных сигналов, а более точно, может использоваться выборочное комбинирование, например, выбор одиночного подвергнутого ограниченному формированию диаграммы направленности звукового выходного сигнала.In some embodiments, the audio output from the audio recorder may be generated in response to the first beamforming audio output and / or limited beamforming audio output. In some embodiments, the audio output may be a combination of constrained audio outputs, and more specifically, selective combining may be used, such as selecting a single constrained audio output.
Показатель несовпадения может отражать различие между сформированными диаграммами направленности первого формирователя диаграммы направленности и ограниченного формирователя диаграммы направленности, для которых формируется показатель несовпадения, например, измеряемый в качестве разности между направлениями диаграмм направленности. В некоторых вариантах осуществления, показатель несовпадения может быть указывающим различие между фильтрами формы диаграммы направленности первого формирователя диаграммы направленности и ограниченного формирователя диаграммы направленности. Показатель несовпадения может быть показателем расстояния, например, таким как показатель, определяемый в виде расстояния между векторами коэффициентов фильтров формы диаграммы направленности первого формирователя диаграммы направленности и ограниченного формирователя диаграммы направленности.The misalignment metric may reflect the difference between the generated beamforms of the first beamformer and the constrained beamformer for which the misalignment metric is generated, such as measured as the difference between the beam directions. In some embodiments, the misalignment metric may be indicative of a difference between the beamforming filters of the first beamformer and the constrained beamformer. The mismatch metric may be a distance metric, such as, for example, a metric defined as the distance between the vectors of the beamform filters of the first beamformer and the constrained beamformer.
Будет принято во внимание, что показатель подобия может быть эквивалентным показателю несовпадения по той причине, что показатель подобия, предоставляющий информацию, относящуюся к подобию между двумя признаками, по сути также дает информацию, относящуюся к различию между ними, и наоборот.It will be appreciated that a similarity score may be equivalent to a mismatch score for the reason that a similarity score providing information related to the similarity between two features, in fact, also provides information related to the difference between them, and vice versa.
Критерий подобия, например, может содержать требование, чтобы показатель несовпадения был указывающим различие, находящееся ниже заданного показателя, например, может требоваться, чтобы показатель несовпадения, имеющий возрастающие значения для возрастающего различия, был ниже порогового значения.The similarity criterion, for example, may require that the mismatch score be indicative of a difference below a predetermined score, eg, it may require the mismatch score having increasing values for increasing difference to be below a threshold value.
Области могут быть зависящими от формирования диаграммы направленности для множества путей и типично не ограничены угловым направлением областей прихода. Например, области могут различаться на основании расстояния до микрофонной решетки. Ограничение ограниченных формирователей диаграммы направленности, чтобы формировали диаграммы направленности в разных областях, может происходить посредством ограничения параметров фильтра у фильтров формы диаграммы направленности ограниченных формирователей диаграммы направленности, так чтобы ограниченный диапазон параметров фильтра (например, диапазоны для коэффициентов фильтра) был разным для разных ограниченных формирователей диаграммы направленности.The regions can be multi-path beamforming dependent and are typically not limited by the angular direction of the arrival regions. For example, areas may differ based on the distance to the microphone array. Constraining the constrained beam drivers to beam in different regions can be accomplished by constraining the filter parameters of the constrained beamformer's beamform filters such that the constrained range of filter parameters (e.g., ranges for filter coefficients) is different for different shaper drivers. directional patterns.
Адаптация формирователей диаграммы направленности может происходить посредством адаптации параметров фильтра у фильтров формы диаграммы направленности формирователей диаграммы направленности, к примеру, более точно, посредством адаптации коэффициентов фильтра. Адаптация может стремиться оптимизировать (довести до максимума или минимизировать) заданный параметр адаптации, например, такая как доведение до максимума уровня выходного сигнала, когда выявлен источник звука, или минимизация его, когда выявляется только шум. Адаптация может стремиться модифицировать фильтры формы диаграммы направленности, чтобы оптимизировать измеренный параметр.The adaptation of the beamformers can occur by adapting the filter parameters of the beamforming filters of the beamformer, for example, more precisely, by adapting the filter coefficients. The adaptation may seek to optimize (maximize or minimize) a given adaptation parameter, such as, for example, maximizing the output level when a sound source is detected, or minimizing it when only noise is detected. The adaptation may seek to modify the beamform filters to optimize the measured parameter.
Второй адаптер может быть выполнен с возможностью адаптировать параметры ограниченной формы диаграммы направленности вторых формирователей диаграммы направленности, только если показатель несовпадения удовлетворяет критерию подобия.The second adapter may be configured to adapt the bounded beamform parameters of the second beamformers only if the misalignment metric meets the similarity criterion.
В соответствии с необязательным признаком изобретения, формирующее диаграмму направленности устройство звукозаписи дополнительно содержит детектор источника звука для выявления точечных источников звука во вторых подвергнутых формированию диаграммы направленности звуковых выходных сигналах; и при этом, второй адаптер выполнен с возможностью адаптировать параметры ограниченной формы диаграммы направленности только для ограниченных формирователей диаграммы направленности, для которого наличие точечного источника звука выявлено в подвергнутом ограниченному формированию диаграммы направленности звуковом выходном сигнале.In accordance with an optional feature of the invention, the beamforming audio recorder further comprises a sound source detector for detecting point sound sources in the second beamformed audio outputs; and wherein the second adapter is configured to adapt the bounded beamforming parameters only for the bounded beam drivers for which the presence of a point sound source is detected in the bounded beamforming audio output signal.
Это может дополнительно улучшать рабочие характеристики и, например, может обеспечивать более надежные рабочие характеристики, дающие в результате улучшенную звукозапись. Разные критерии могут использоваться для выявления точечного источника звука в разных вариантах осуществления. Точечный источник звука, более точно, может быть коррелированным источником звука для микрофонов микрофонной решетки. Точечный источник звука, например, может считаться выявленным, если корреляция между сигналами с микрофонов из микрофонной решетки (например, после фильтрации фильтрами формы диаграммы направленности ограниченного формирователя диаграммы направленности) превышает заданное пороговое значение.This can further improve performance and, for example, can provide more reliable performance resulting in improved sound recording. Different criteria can be used to identify a point sound source in different embodiments. A point sound source, more precisely, can be a correlated sound source for microphones in a microphone array. A point sound source, for example, can be considered detected if the correlation between the signals from the microphones from the microphone array (for example, after being filtered by the constrained beamformer beamform filters) exceeds a predetermined threshold value.
Согласно аспекту изобретения, предоставлен способ работы для формирующего диаграмму направленности устройства звукозаписи, содержащего:According to an aspect of the invention, there is provided a method of operation for a beamforming sound recording apparatus comprising:
микрофонную решетку;microphone array;
первый формирователь диаграммы направленности, присоединенный к микрофонной решетке, первый формирователь диаграммы направленности является фильтрующим и комбинирующим формирователем диаграммы направленности, содержащим первое множество фильтров формы диаграммы направленности, каждый из которых имеет первую адаптивную импульсную характеристику; второй формирователь диаграммы направленности, присоединенный к микрофонной решетке, второй формирователь диаграммы направленности является фильтрующим и комбинирующим формирователем диаграммы направленности, содержащим второе множество фильтров формы диаграммы направленности, каждый из которых имеет адаптивную импульсную характеристику; способ состоит в том, что: первый формирователь вырабатывает первый подвергнутый формированию диаграммы направленности звуковой выходной сигнал; второй формирователь вырабатывает второй подвергнутый формированию диаграммы направленности звуковой выходной сигнал; и определяют показатель несовпадения между диаграммами направленности первого формирователя диаграммы направленности и второго формирователя диаграммы направленности в ответ на сравнение первых адаптивных импульсных характеристик со вторыми адаптивными импульсными характеристиками.a first beamformer coupled to the microphone array, the first beamformer being a filtering and combining beamforming device comprising a first plurality of beamforming filters each having a first adaptive impulse response; a second beamformer coupled to the microphone array, the second beamformer being a filtering and combining beamforming device comprising a second plurality of beamforming filters each having an adaptive impulse response; the method is that: the first driver generates a first beamforming audio output signal; the second driver generates a second beamforming audio output; and determining a mismatch ratio between the radiation patterns of the first beamformer and the second beamformer in response to comparing the first adaptive impulse responses with the second adaptive impulse responses.
Эти и другие аспекты, признаки и преимущества изобретения будут очевидны из и разъяснены со ссылкой на вариант(ы) осуществления, описанный ниже.These and other aspects, features and advantages of the invention will be apparent from and explained with reference to the embodiment (s) described below.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF DRAWINGS
Варианты осуществления изобретения будут описаны, только в качестве примера, со ссылкой на чертежи, из которыхEmbodiments of the invention will be described, by way of example only, with reference to the drawings, of which
фиг. 1 иллюстрирует пример элементов формирующей диаграмму направленности системы звукозаписи;fig. 1 illustrates an example of elements of a beamforming sound recording system;
фиг. 2 иллюстрирует пример множества диаграмм направленности, сформированных системой звукозаписи;fig. 2 illustrates an example of a plurality of radiation patterns generated by a sound recording system;
фиг. 3 иллюстрирует пример элементов устройства звукозаписи в соответствии с некоторыми вариантами осуществления изобретения;fig. 3 illustrates an example of elements of a sound recorder in accordance with some embodiments of the invention;
фиг. 4 иллюстрирует пример элементов фильтрующего и суммирующего формирователя диаграммы направленности;fig. 4 illustrates an example of filtering and summing beamformer elements;
фиг. 5 иллюстрирует пример элементов устройства звукозаписи в соответствии с некоторыми вариантами осуществления изобретения;fig. 5 illustrates an example of elements of a sound recorder in accordance with some embodiments of the invention;
фиг. 6 иллюстрирует пример элементов устройства звукозаписи в соответствии с некоторыми вариантами осуществления изобретения;fig. 6 illustrates an example of elements of a sound recorder in accordance with some embodiments of the invention;
фиг. 7 иллюстрирует пример элементов устройства звукозаписи в соответствии с некоторыми вариантами осуществления изобретения;fig. 7 illustrates an example of elements of a sound recorder in accordance with some embodiments of the invention;
фиг. 8 иллюстрирует пример блок-схемы последовательности операций способа для подхода адаптации ограниченных формирователей диаграммы направленности устройства звукозаписи в соответствии с некоторыми вариантами осуществления изобретения.fig. 8 illustrates an example of a flowchart for an adaptation approach of limited beamforming audio recorders in accordance with some embodiments of the invention.
ПРОДРОБНОЕ ОПИСАНИЕ НЕКОТОРЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯDETAILED DESCRIPTIONS OF CERTAIN EMBODIMENTS
Нижеследующее описание ставит в центре внимания варианты осуществления изобретения, применимые к системе звукозаписи речи, основанной на формировании диаграммы направленности, но будет принято во внимание, что подход применим к многим другим системам с сценариям для звукозаписи.The following description will focus on embodiments of the invention applicable to a beamforming voice recording system, but it will be appreciated that the approach is applicable to many other scripted audio recording systems.
Фиг. 3 иллюстрирует пример некоторых элементов устройства звукозаписи в соответствии с некоторыми вариантами осуществления изобретения.FIG. 3 illustrates an example of some elements of a sound recorder in accordance with some embodiments of the invention.
Устройство звукозаписи содержит микрофонную решетку 301, которая содержит множество микрофонов, выполненных с возможностью захватывать звук в окружающей среде.The sound recorder includes a
Микрофонная решетка 301 присоединена к первому формирователю 303 диаграммы направленности (типично непосредственно или через эхокомпенсатор, усилители, цифро-аналоговые преобразователи, и т. д., как будет хорошо известно специалисту в данной области техники).A
Первый формирователь 303 диаграммы направленности выполнен с возможностью комбинировать сигналы с микрофонной решетки 301, так чтобы формировалась эффективная направленная звуковая чувствительность микрофонной решетки 301. Первый формирователь 303 диаграммы направленности, таким образом, вырабатывает выходной сигнал, указываемый ссылкой как первый подвергнутый формированию диаграммы направленности звуковой выходной сигнал, который соответствует избирательной записи звука в окружающей среде. Первый формирователь 303 диаграммы направленности является адаптивным формирователем диаграммы направленности, и направленность может управляться посредством установления параметров, упоминаемых как первые параметры формы диаграммы направленности, действия формы диаграммы направленности первого формирователя 303 диаграммы направленности, а более точно, посредством установления параметров (типично, коэффициентов) фильтров формы диаграммы направленности.The
Микрофонная решетка 301 дополнительно присоединена ко второму формирователю 305 диаграммы направленности (типично непосредственно или через эхокомпенсатор, усилители, цифро-аналоговые преобразователи, и т. д., как будет хорошо известно специалисту в данной области техники).The
Второй формирователь 305 диаграммы направленности аналогично выполнен с возможностью комбинировать сигналы с микрофонной решетки 301, так чтобы формировалась эффективная направленная звуковая чувствительность микрофонной решетки 301. Второй формирователь 305 диаграммы направленности, таким образом, вырабатывает выходной сигнал, указываемый ссылкой как второй подвергнутый формированию диаграммы направленности звуковой выходной сигнал, который соответствует избирательной записи звука в окружающей среде. Второй формирователь 305 диаграммы направленности также является адаптивным формирователем диаграммы направленности, и направленность может управляться посредством установления параметров, упоминаемых как вторые параметры формы диаграммы направленности, действия по формированию диаграммы направленности второго формирователя 305 диаграммы направленности, а более точно, посредством установления параметров (типично, коэффициентов) фильтров формы диаграммы направленности.The
Первый и второй формирователи 303, 305 диаграммы направленности соответственно являются адаптивными формирователями диаграммы направленности, где направленность может управляться посредством адаптации параметров действия формы диаграммы направленности.The first and
Более точно, формирователи 303, 305 диаграммы направленности являются фильтрующими и комбинирующими (или, более точно, в большинстве вариантов осуществления фильтрующими и суммирующими) формирователями диаграммы направленности. Фильтр формы диаграммы направленности может применяться к каждому из сигналов с микрофона, и фильтрованные выходные сигналы могут комбинироваться, типично посредством простого сложения друг с другом.More specifically, the
В большинстве вариантов осуществления, каждый из фильтров формы диаграммы направленности имеет импульсную характеристику во временной области, которая не является простым импульсом Дирака (соответствующим простой задержке, и таким образом, коэффициенту передачи и сдвигу фазы в частотной области), но скорее имеет импульсную характеристику, которая типично продолжается в течение временного интервала, не меньшего чем 2, 5, 10 или даже 30 миллисекунд.In most embodiments, each of the waveform filters has a time domain impulse response that is not a simple Dirac pulse (corresponding to a simple delay, and thus gain and phase shift in the frequency domain), but rather has an impulse response that is typically continues for a time interval of no less than 2, 5, 10, or even 30 milliseconds.
Импульсные характеристики часто могут быть реализованы фильтрами формы диаграммы направленности, являющимися КИХ (с конечной импульсной характеристикой) фильтрами с множеством коэффициентов. Формирователи 303, 305 диаграммы направленности в таком варианте осуществления могут адаптировать формирование диаграммы направленности, адаптируя коэффициенты фильтра. В многих вариантах осуществления, КИХ-фильтры могут иметь коэффициенты, соответствующие постоянным сдвигам по времени (типично сдвигам по времени выборки отсчетов), причем, адаптация достигается посредством адаптации значений коэффициентов. В других вариантах осуществления, фильтры формы диаграммы направленности типично могут иметь существенно меньшее количество коэффициентов (например, только два или три), но с временными характеристиками таковых, (также) являющимися адаптируемыми.Impulse responses can often be implemented with beamform filters, which are FIR (finite impulse response) filters with multiple coefficients.
Конкретное преимущество фильтров формы диаграммы направленности, имеющих расширенные импульсные характеристики вместо простой переменной задержки (или простой настройки коэффициента передачи/фазы в частотной области), состоит в том, что они предоставляют формирователям 303, 305 диаграммы направленности возможность адаптироваться не просто под самую сильную, типично направленную составляющую сигнала. Скорее, они предоставляют формирователям 303, 305 диаграммы направленности возможность адаптироваться, чтобы учитывать дополнительные пути прохождения сигнала, типично соответствующие отражениям. Соответственно, подход предоставляет возможность для улучшенных рабочих характеристик в большинстве реальных сред, а более точно, предоставляет возможность улучшенных рабочих характеристик в отражающих и/или реверберирующих средах, и/или применительно к источникам звука, находящихся дальше от микрофонной решетки 301.A particular advantage of beamforming filters having extended impulse responses instead of a simple variable delay (or simple gain / phase adjustment in the frequency domain) is that they allow the
Будет принято внимание, что разные алгоритмы адаптации могут использоваться в разных вариантах осуществления, и что различные параметры оптимизации будут известны специалистам. Например, формирователи 303, 305 диаграммы направленности могут адаптировать параметры формы диаграммы направленности для доведения до максимума значения выходного сигнала формирователей 303, 305 диаграммы направленности. В качестве конкретного примера, рассмотрим формирователь диаграммы направленности, где принимаемые сигналы с микрофона фильтруются прямыми согласующими фильтрами, и где фильтрованные выходные сигналы суммируются. Выходной сигнал фильтруется обратными адаптивными фильтрами, имеющими характеристики фильтра, сопряженные с прямыми фильтрами (в частотной области, соответствующей обращенным по времени импульсным характеристикам во временной области). Сигналы ошибки вырабатываются в качестве разности между входными сигналами и выходными сигналами обратных адаптивных фильтров, и коэффициенты фильтров адаптируются, чтобы минимизировать сигналы ошибки, тем самым давая в результате максимальную выходную мощность. Дополнительные подробности такого подхода могут быть найдены в US 7 146 012 и US 7 602 926.It will be appreciated that different adaptation algorithms may be used in different embodiments, and that different optimization parameters will be known to those skilled in the art. For example,
Отмечено, что, подходы, такие как в US 7 146 012 и US 7 602 926 основаны на адаптации, основанной как на сигнале z(n) источника звука, так и на шумовом опорном сигнале(ах) x(n) с формирователей диаграммы направленности, и будет принято во внимание, что тот же самый подход может использоваться для системы по фиг. 3.It is noted that approaches such as in US 7,146,012 and US 7,602,926 are based on an adaptation based both on the sound source signal z (n) and on the noise reference signal (s) x (n) from the beam shaper and it will be appreciated that the same approach can be used for the system of FIG. 3.
Формирователи 303, 305 диаграммы направленности, более точно, в действительности могут быть формирователями диаграммы направленности, соответствующими проиллюстрированному на фиг. 1 и раскрытому в US 7 146 012 и US 7 602 926.The
Формирователи 303, 305 диаграммы направленности в примере присоединены к (необязательному) процессору 307 вывода, который принимает подвергнутые формированию диаграммы направленности звуковые выходные сигналы из формирователей 303, 305 диаграммы направленности. Точный выходной сигнал, сформированный из устройства звукозаписи, будет зависеть от конкретных предпочтений и требований отдельного варианта осуществления. Действительно, в некоторых вариантах осуществления, выходной сигнал из устройства звукозаписи может просто состоять из звуковых выходных сигналов из формирователей 303, 305 диаграммы направленности.
В многих вариантах осуществления, выходной сигнал из процессора 307 вывода формируется в виде комбинации звуковых выходных сигналов из формирователей 303, 305 диаграммы направленности. Действительно, в некоторых вариантах осуществления, может выполняться простое выборочное комбинирование, например, выбор звуковых выходных сигналов, для которых является наивысшим отношение сигнал/шум или просто уровень сигнала.In many embodiments, the output from the
Таким образом, выбор и последующая обработка выходного сигнала процессора 307 вывода может быть специализированной и/или разной в разных реализациях/вариантах осуществления. Например, могут выдаваться все возможные выходные сигналы сфокусированной диаграммы направленности, выбор может делаться на основании критерия, определенного пользователем (например, выбирается наиболее мощный докладчик), и т. д.Thus, the selection and subsequent processing of the output of the
Что касается применения речевого управления, например, все выходные сигналы могут пересылаться в распознаватель речевых пусковых сигналов, который выполнен с возможностью выявлять конкретное слово или фразу для инициализации речевого управления. В таком примере, звуковой выходной сигнал, в котором выявлено пусковое слово или фраза, может сопровождать пусковую фразу, подлежащую использованию распознавателем речи для выявления специальных команд.With regard to the application of speech control, for example, all output signals can be forwarded to a speech trigger recognizer that is configured to identify a specific word or phrase to initialize the speech control. In such an example, the audio output signal in which the trigger word or phrase is detected may accompany the trigger phrase to be used by the speech recognizer to elicit special commands.
Что касается применений связи, например, может быть полезно выбирать звуковой выходной сигнал, который имеет наибольшую мощность, например, применительно к которому было обнаружено наличие конкретного точечного источника звука.For communication applications, for example, it may be useful to select the audio output that has the highest power, for example, for which a particular point sound source has been detected.
В некоторых вариантах осуществления, последующая обработка, такая как подавление шума по фиг. 1, может применяться к выходному сигналу устройства звукозаписи (например, процессором 307 вывода). Это может улучшать рабочие характеристики, например, применительно к речевой связи. В такую последующую обработку могут быть включены нелинейные операции, хотя, например, что касается некоторых распознавателей речи, может быть полезно ограничивать обработку включением в состав только линейной обработки.In some embodiments, post-processing, such as the noise suppression of FIG. 1 may be applied to the output of an audio recorder (eg, output processor 307). This can improve performance, for example, for voice communications. Non-linear operations may be included in such post-processing, although, for example, with some speech recognizers, it may be useful to limit the processing to include only linear processing.
В многих системах, использующих множество формирователей диаграммы направленности, может быть полезно быть способным определять, сформировали ли формирователи диаграммы направленности диаграммы направленности, которые близки друг к другу. В системах по фиг. 3, устройство звукозаписи содержит процессор 309 несовпадения, который выполнен с возможностью определять показатель несовпадения, который является признаком различия между диаграммами направленности, сформированными первым формирователем 303 диаграммы направленности и вторым формирователем 305 диаграммы направленности.In many systems using a plurality of beamforming devices, it can be useful to be able to determine if the beamforming devices have formed beamforms that are close to each other. In the systems of FIG. 3, the audio recorder comprises a
Будет принято во внимание, что использование такого показателя несовпадения может быть разным для разных применений и реализаций, и что принципы не ограничены конкретным применением. В конкретном примере по фиг. 3, процессор 309 несовпадения присоединен к процессору 307 вывода и используется при формировании звукового выходного сигнала из процессора 307 вывода. Например, если показатель несовпадения указывает, что две диаграммы направленности очень близки друг к другу, выходной звуковой сигнал может формироваться посредством суммирования или усреднения выходных сигналов (например, в частотной области). Если показатель несовпадения является признаком большого различия (и, таким образом, указывая, что две диаграммы направленности адаптированы под разные источники звука), процессор 307 вывода может формировать выходной звуковой сигнал, выбирая подвергнутый формированию диаграммы направленности звуковой выходной сигнал, который имеет наивысший уровень энергии.It will be appreciated that the use of such a mismatch metric may be different for different applications and implementations, and that the principles are not limited to a particular application. In the specific example of FIG. 3, a
В традиционных подходах для сравнения формирователей диаграммы направленности и диаграмм направленности, подобие между диаграммами направленности оценивается посредством сравнения сформированных звуковых выходных сигналов. Например, может формироваться взаимная корреляция между звуковыми выходными сигналами, причем, подобие указывается величиной корреляции. В некоторых системах, DoA может определяться посредством осуществления взаимной корреляции звуковых сигналов для пары микрофонов и определения DoA в ответ на временные характеристики пика.In conventional approaches for comparing beamformers and beamforms, the similarity between beamforms is assessed by comparing the generated audio outputs. For example, cross-correlation between audio outputs can be generated, with the similarity being indicated by the magnitude of the correlation. In some systems, the DoA can be determined by cross-correlating the audio signals for a pair of microphones and determining the DoA in response to the timing of the peak.
В системе по фиг. 3, показатель несовпадения не определяется только на основании свойства или сравнения звуковых сигналов, подвергнутых ли формированию диаграммы направленности звуковых выходных сигналов из формирователей диаграммы направленности, или входных сигналов с микрофона, но скорее процессор 309 несовпадения устройства звукозаписи по фиг. 3 выполнен с возможность определять показатель несовпадения в ответ на сравнение импульсных характеристик фильтров формы диаграммы направленности первого и второго формирователей 303, 305 диаграммы направленности.In the system of FIG. 3, the mismatch metric is not determined based solely on the property or comparison of audio signals, whether beamformed audio outputs from the beam drivers or microphone inputs, but rather the
Фиг. 4 иллюстрирует упрощенный пример фильтрующего и суммирующего формирователя диаграммы направленности, основанного на микрофонной решетке, содержащей всего лишь два микрофона 401. В примере, каждый микрофон 401 присоединен к фильтру 403, 405 формы диаграммы направленности, выходные сигналы которых суммируются в сумматоре 407 для формирования подвергнутого формированию диаграммы направленности звукового выходного сигнала. Фильтры 403, 405 формы диаграммы направленности имеют импульсные характеристики f1 и f2, которые адаптированы для формирования диаграммы направленности в заданном направлении. Будет принято во внимание, что, типично, микрофонная решетка будет содержать более чем два микрофона, и что принцип по фиг. 4 легко распространяется на большее количество микрофонов посредством дополнительного включения в состав фильтра формы диаграммы направленности для каждого микрофона.FIG. 4 illustrates a simplified example of a filtering and summing beamformer based on a microphone array containing only two
Первый и второй формирователи 303, 305 диаграммы направленности могут включать в себя такую фильтрующую и суммирующую архитектуру для формирования диаграммы направленности (например, как у формирователей диаграммы направленности из US 7 146 012 и US 7 602 926). Будет принято во внимание, что, во многих вариантах осуществления, микрофонная решетка 301, однако, может содержать более чем два микрофона. Кроме того, будет принято во внимание, что формирователи 303, 305 диаграммы направленности включают в себя функциональные возможности для адаптации фильтров формы диаграммы направленности, как описано ранее. К тому же, в конкретном примере, формирователи 303, 305 диаграммы направленности формируют не только подвергнутый формированию диаграммы направленности звуковой выходной сигнал, но также шумовой опорный сигнал.The first and
В системе по фиг. 3, параметры фильтров формы диаграммы направленности для первого формирователя 303 диаграммы направленности сравниваются с параметрами фильтров формы диаграммы направленности второго формирователя 305 диаграммы направленности. Показатель несовпадения затем может определяться для отражения того, насколько близки эти параметры друг к другу. Более точно, применительно к каждому микрофону, соответствующие фильтры формы диаграммы направленности первого формирователя 303 диаграммы направленности и второго формирователя 305 диаграммы направленности сравниваются друг с другом для формирования промежуточного показателя несовпадения. Промежуточные показатели несовпадения затем комбинируются в единый показатель несовпадения, выдаваемый из процессора 309 несовпадения.In the system of FIG. 3, the parameters of the shape filters for the
Сравниваемыми параметрами формы диаграммы направленности типично являются коэффициенты фильтра. Более точно, фильтры формы диаграммы направленности могут быть КИХ-фильтрами, имеющими импульсную характеристику во временной области, определенную набором коэффициентов КИХ-фильтра. Процессор 309 несовпадения может быть выполнен с возможностью сравнивать соответствующие фильтры первого формирователя 303 диаграммы направленности и второго формирователя 305 диаграммы направленности, определяя корреляцию между фильтрами. Значение корреляции может определяться в качестве максимальной корреляции (то есть, значения корреляции для сдвига по времени, доводящего до максимума корреляцию).The comparison parameters of the radiation pattern are typically filter coefficients. More specifically, the beamform filters can be FIR filters having a time-domain impulse response defined by a set of FIR filter coefficients. The
Процессор 309 несовпадения затем может комбинировать все эти отдельные значения корреляции в единый показатель несовпадения, например, просто суммированием их друг с другом. В других вариантах осуществления, может выполняться взвешенная комбинация, например, посредством определения весов больших коэффициентов более высокими, чем более низких коэффициентов.The
Будет принято во внимание, что такой показатель несовпадения будет иметь возрастающее значение для возрастающей корреляции фильтров и, таким образом, что более высокое значение будет указывать скорее повышенное сходство диаграмм направленности нежели повышенное различие. Однако, в вариантах осуществления, в которых желательно, чтобы показатель несовпадения возрастал для возрастающего различия, монотонно убывающая функция может быть просто применена к комбинированной корреляции.It will be appreciated that such a misalignment rate will have an increasing importance for increasing filter correlation, and thus that a higher value will indicate increased pattern similarity rather than increased difference. However, in embodiments in which it is desired that the mismatch rate increases for increasing difference, the monotonically decreasing function can simply be applied to the combined correlation.
Определение показателя несовпадения, основанного на сравнении импульсных характеристик фильтров формы диаграммы направленности вместо основанного на звуковых сигналах (подвергнутых формированию диаграммы направленности звуковых сигналах или сигналах с микрофона), дает значительные преимущества в многих системах и применениях. В частности, подход типично обеспечивает значительно улучшенные рабочие характеристики и, в действительности, пригоден для применения в реверберирующих звуковых средах и для источников звука на больших расстояниях, в том числе, в конкретных источниках звука за пределами радиуса реверберации. Действительно, он дает значительно улучшенные рабочие характеристики в сценариях, в которых прямой тракт от источника звука не является преобладающим, но предпочтительнее там, где прямой тракт и возможно ранние отражения, например, находятся под преобладанием рассеянного звукового поля. В частности, в таких сценариях, оценка несовпадения на основании звукового сигала будет сильно обусловлена пространственными и временными характеристиками звукового поля, тогда как основанный на фильтре подход предоставляет возможность для в большей степени непосредственной оценки диаграмм направленности на основании параметров фильтра, которые не только отражают прямые звуковое поле/путь, но адаптируются, чтобы отражать прямые звуковое поле/путь и ранние отражения (вследствие импульсных характеристик, имеющих расширенную длительность, чтобы принимать во внимание эти отражения).Determining the misalignment metric based on a comparison of the impulse responses of the waveform filters instead of based on audio signals (beamformed audio signals or microphone signals) offers significant advantages in many systems and applications. In particular, the approach typically provides significantly improved performance and is indeed suitable for applications in reverberant sound environments and for long range sound sources, including specific sound sources outside the reverberation radius. Indeed, it provides significantly improved performance in scenarios where the direct path from the sound source is not dominant, but is preferred where the direct path and possibly early reflections, for example, are dominated by a diffuse sound field. Particularly in such scenarios, the misalignment estimate based on the audio signal will be strongly influenced by the spatial and temporal characteristics of the sound field, while the filter-based approach allows for a more direct estimation of radiation patterns based on filter parameters that not only reflect the direct sound field. field / path, but adapt to reflect direct sound field / path and early reflections (due to impulse responses having an extended duration to take these reflections into account).
Действительно, тогда как традиционные метрики DoA и корреляции звуковых сигналов для оценки подобия двух формирователей диаграммы направленности основаны на безэховых средах и, соответственно, хорошо работают в средах, где желательные пользователи находятся близко к микрофонам (в пределах радиуса реверберации), так что преобладает энергия рассеянного звукового поля, подход по фиг. 3 не основан на таких допущениях и дает превосходную оценку, даже в присутствии многих отражений и/или по существу рассеянного акустического шума.Indeed, while traditional DoA metrics and audio correlations for assessing the similarity of two beam drivers are based on anechoic environments and thus perform well in environments where the desired users are close to the microphones (within the reverberation radius) so that the diffuse energy is dominant. sound field, the approach of FIG. 3 is not based on such assumptions and gives an excellent estimate even in the presence of many reflections and / or substantially diffuse acoustic noise.
Другие преимущества включают в себя то, что показатель несовпадения может определяться мгновенно на основании текущих параметров формы диаграммы направленности, а более точно, на основании текущих коэффициентов фильтра. В большинстве вариантов осуществления нет необходимости ни в каком усреднении параметров, скорее, скорость адаптации адаптивных формирователей диаграммы направленности определяет режим работы отслеживания.Other advantages include that the misalignment metric can be determined instantly based on the current beamform parameters, and more precisely, based on the current filter coefficients. In most embodiments, there is no need for any parameter averaging, rather, the adaptation rate of the adaptive beamformers determines the tracking behavior.
Особенно полезный аспект состоит в том, что сравнение и показатель несовпадения могут быть основаны на импульсных характеристиках, которые имеют расширенную длительность. Это предоставляет возможность, чтобы показатель несовпадения не только отражал задержку прямого тракта или углового направления диаграммы направленности, но скорее предоставлял возможность, чтобы принималась во внимание импульсная характеристика значимой части, или, даже более того, всего оцениваемого акустического помещения. Таким образом, показатель несовпадения не основан только на подпространстве, возбужденном сигналами с микрофонов, как в традиционных подходах.A particularly useful aspect is that the comparison and mismatch metric can be based on impulse responses that have an extended duration. This makes it possible that the misalignment metric not only reflects the forward path delay or the angular direction of the radiation pattern, but rather allows the impulse response of a significant part, or even more so, of the entire acoustic room to be taken into account. Thus, the misalignment metric is not based solely on the subspace excited by the signals from the microphones, as in traditional approaches.
В некоторых вариантах осуществления, показатель несовпадения, более точно, может быть выполнен с возможностью сравнивать импульсные характеристики скорее в частотной области, нежели во временной области. Более точно, процессор 309 несовпадения может быть выполнен с возможностью преобразовывать адаптивные импульсные характеристики фильтров первого формирователя 303 диаграммы направленности в частотную область. Подобным образом, процессор 309 несовпадения может быть выполнен с возможностью преобразовывать адаптивные импульсные характеристики фильтров второго формирователя 305 диаграммы направленности в частотную область. Преобразование, более точно, может выполняться посредством применения, например, быстрого преобразования Фурье (БПФ) к импульсным характеристикам фильтров формы диаграммы направленности обоих, первого формирователя 303 диаграммы направленности и второго формирователя 305 диаграммы направленности.In some embodiments, the misalignment metric may more accurately be configured to compare impulse responses in the frequency domain rather than in the time domain. More specifically, the
Процессор 309 несовпадения может соответственно для каждого фильтра первого формирователя 303 диаграммы направленности и второго формирователя 305 диаграммы направленности формировать набор коэффициентов частотной области. Она затем может переходить к определению показателя несовпадения на основании частотного представления. Например, что касается каждого микрофона из микрофонной решетки 301, процессор 309 несовпадения может сравнивать коэффициенты частотной области двух фильтров формы диаграммы направленности. В качестве простого примера, он может просто определять величину вектора несовпадения, рассчитанного в виде разности между векторами коэффициентов частотной области для двух фильтров. Показатель несовпадения затем может определяться посредством комбинирования промежуточных показателей несовпадения, сформированных для отдельных частот.The
В нижеследующем, будут описаны специфичные и крайне полезные подходы для определения показателя несовпадения. Подходы основаны на сравнении адаптивных импульсных характеристик в частотной области. В подходе, процессор 309 несовпадения выполнен с возможностью определять частотные показатели несовпадения для частот представлений в частотной области. Более точно, частотный показатель несовпадения может определяться для каждой частоты в частотном представлении. Выходной показатель несовпадения затем формируется из этих отдельных частотных показателях несовпадения.In the following, specific and highly useful approaches for determining the mismatch score will be described. The approaches are based on a comparison of adaptive impulse responses in the frequency domain. In an approach,
Частотный показатель несовпадения, более точно, может формироваться для каждого коэффициента частотного фильтра каждой пары фильтров из фильтров формы диаграммы направленности, где пара фильтров представляет собой фильтры соответственно первого формирователя 303 диаграммы направленности и второго формирователя 305 диаграммы направленности для одного и того же микрофона. Частотный показатель несовпадения для этой пары частотных коэффициентов формируется в виде функции двух коэффициентов. Действительно, в некоторых вариантах осуществления, частотный показатель несовпадения для пары коэффициентов может определяться в виде абсолютной разности между коэффициентами.A mismatch frequency metric, more specifically, may be generated for each frequency filter coefficient of each filter pair of beamform filters, where the filter pair are filters, respectively, of the
Однако, что касается вещественнозначных коэффициентов во временной области (то есть, вещественнозначной импульсной характеристики), частотные коэффициенты как правило будут комплексными значениями и, в многих применениях особенно полезный частотный показатель несовпадения для пары коэффициентов определяется в ответ на умножение первого коэффициента частотной области и сопряженной величины второго коэффициента частотной области (то есть, в ответ на умножение комплексного коэффициента одного фильтра и сопряженной величины комплексного коэффициента другого фильтра из пары).However, for real-valued time-domain coefficients (i.e. real-valued impulse response), the frequency coefficients will generally be complex values and, in many applications, a particularly useful frequency mismatch metric for a pair of coefficients is determined in response to the multiplication of the first frequency-domain coefficient and the conjugate quantity a second frequency domain coefficient (that is, in response to multiplying the complex coefficient of one filter and the conjugate value of the complex coefficient of the other filter in the pair).
Таким образом, что касается каждого элемента разрешения по частоте представлений в частотной области импульсных характеристик фильтров формы диаграммы направленности, частотный показатель несовпадения может формироваться для каждой пары микрофонов/фильтров. Комбинированный частотный показатель несовпадения для частоты затем может формироваться посредством комбинирования этих специфичных микрофону частотных показателей несовпадения для всех микрофонов, например, просто посредством их суммирования.Thus, with respect to each frequency domain bin of the impulse responses of the beamform filters, a mismatch frequency metric may be generated for each microphone / filter pair. The combined mismatch frequency metric for frequency can then be generated by combining these microphone specific mismatch metrics for all microphones, for example, simply by adding them together.
Подробнее, формирователи 303, 305 диаграммы направленности могут содержать коэффициенты фильтра частотной области для каждого микрофона и для каждой частоты представления в частотной области.In more detail,
Что касается первого формирователя 303 диаграммы направленности, эти коэффициенты могут быть обозначены , а для второго формирователя 305 диаграммы направленности они могут быть обозначены , где M - количество микрофонов.With regard to the
Полный набор коэффициентов фильтра частотной области формы диаграммы направленности для определенной частоты и для всех микрофонов, что касается первого формирователя 303 диаграммы направленности и второго формирователя 305 диаграммы направленности, соответственно, может быть обозначен как и .The complete set of frequency domain filter coefficients of the beamform for a specific frequency and for all microphones, with respect to the
В этом случае, частотный показатель несовпадения для заданной частоты может быть определен как:In this case, the frequency mismatch metric for a given frequency can be defined as:
Посредством умножения комплекснозначных коэффициентов фильтра, которые принадлежат одним и тем же микрофонам, получаем, применительно к каждой частоте, первую форму показателя расстояния, таким образом,By multiplying the complex-valued filter coefficients that belong to the same microphones, we obtain, for each frequency, the first form of the distance exponent, thus
где представляет собой комплексно сопряженную величину. Это может использоваться в качестве показателя несовпадения для частоты ω применительно к микрофону m. Комбинированный частотный показатель несовпадения для всех микрофонов может формироваться в виде суммы таковых, то есть,where is a complex conjugate value. This can be used as an indication of the misalignment for the frequency ω applied to the microphone m. The combined frequency mismatch index for all microphones can be formed as a sum of those, that is,
Если два фильтра не связаны, то есть, адаптированное состояние фильтров и, таким образом, сформированные диаграммы направленности сильно не совпадают, ожидается, что эта сумма должна быть близкой к нулю и, таким образом, частотный показатель несовпадения близок к нулю. Однако, если коэффициенты фильтра аналогичны, получается большое положительное значение. Если коэффициенты фильтра имеют противоположный знак, то получается большое отрицательное значение. Таким образом, сформированный частотный показатель несовпадения является указывающим подобие фильтров формы диаграммы направленности применительно к этой частоте.If the two filters are unconnected, that is, the adapted state of the filters and thus the generated radiation patterns are highly misaligned, this sum is expected to be close to zero and thus the mismatch frequency metric is close to zero. However, if the filter coefficients are the same, a large positive value is obtained. If the filter coefficients are of the opposite sign, a large negative value is obtained. Thus, the generated mismatch frequency metric is indicative of the similarity of the beamform filters with respect to that frequency.
Умножение двух комплексных коэффициентов (в том числе, сопряженной величины) дает в результате комплексное значение и, в многих вариантах осуществления, может быть желательно преобразовывать его в скалярное значение.The multiplication of two complex coefficients (including the conjugate value) results in a complex value and, in many embodiments, it may be desirable to convert it to a scalar value.
В частности, в многих вариантах осуществления, частотный показатель несовпадения для данной частоты определяется в ответ на вещественную часть комбинации частотных показателей несовпадения для разных микрофонов применительно к такой частоте.In particular, in many embodiments, the mismatch frequency metric for a given frequency is determined in response to the real part of the combination of mismatch frequency metrics for different microphones with respect to that frequency.
Более точно, комбинированный частотный показатель несовпадения может быть определен как:More precisely, the combined mismatch frequency metric can be defined as:
В этой мере, показатель подобия, основанный на Re(S), дает в результате максимальное значение, достигаемое, когда коэффициенты фильтров идентичны, тогда как минимальное значение достигается, когда коэффициенты фильтров одинаковы, но имеют противоположные знаки.In this measure, the similarity score based on Re (S) results in the maximum value achieved when the filter coefficients are identical, while the minimum value is reached when the filter coefficients are the same but have opposite signs.
Еще один подход состоит в том, чтобы определять комбинированный частотный показатель несовпадения для данной частоты в ответ на норму комбинации частотных показателей несовпадения для микрофонов. Норма типично преимущественно может быть нормой L1 или L2.Another approach is to determine the combined mismatch metric for a given frequency in response to the mismatch combination rate for the microphones. The rate typically advantageously may be the L1 or L2 rate.
Например:For example:
В некоторых вариантах осуществления, комбинированный частотный показатель несовпадения для всех микрофонов из микрофонной решетки 301, таким образом, определяется в качестве амплитуды или абсолютного значения суммы комплекснозначных частотных показателей несовпадения для отдельных микрофонов.In some embodiments, the combined mismatch frequency metric for all microphones from the
В многих вариантах осуществления, может быть полезно нормировать показатель несовпадения. Например, может быть полезно нормировать показатель несовпадения, так чтобы он попадал в интервал [0;1].In many embodiments, it may be useful to normalize the mismatch score. For example, it may be useful to normalize the mismatch metric so that it falls within the interval [0; 1].
В некоторых вариантах осуществления, показатели несовпадения, описанные выше, могут нормироваться, будучи определяемыми в ответ на сумму монотонной функции нормы суммы коэффициентов частотной области применительно к первому формирователю 303 диаграммы направленности и монотонной функции нормы для суммы коэффициентов частотной области применительно ко второму формирователю 305 диаграммы направленности, где суммы выполняются по микрофонам. Норма преимущественно может быть нормой L2, а монотонная функция преимущественно может быть квадратичной функцией.In some embodiments, the misalignment metrics described above may be normalized by being determined in response to the sum of a monotonic rate function of the sum of frequency domain coefficients applied to the
Таким образом, показатели несовпадения могут нормироваться относительно следующего значения:Thus, the mismatch indicators can be normalized relative to the following value:
В комбинации с первым подходом, описанным выше, это дает в результате комбинированные частотные показатели несовпадения, заданные в виде:Combined with the first approach described above, this results in combined frequency mismatch metrics given as:
где сдвиг ½ привносится, так чтобы, применительно к , частотный показатель несовпадения имел значение единицы, а применительно к , частотный показатель несовпадения имел значение нуля. Таким образом, формируется показатель несовпадения между 0 и 1, где возрастающее значение является указывающим уменьшающееся различие. Будет принято во внимание, что, если возрастающее значение желательно для возрастающего различия, это может просто достигаться посредством определения:where the shift ½ is introduced so that, as applied to , the frequency mismatch indicator had the value of one, and in relation to , the mismatch frequency exponent was zero. Thus, a mismatch score between 0 and 1 is generated, where an increasing value is indicative of a decreasing difference. It will be appreciated that if an increasing value is desired for an increasing difference, this can simply be achieved by specifying:
Подобным образом, что касается второго подхода, может определяться следующий частотный показатель несовпадения:Similarly, for the second approach, the following mismatch frequency metric can be determined:
вновь давая в результате частотный показатель несовпадения, попадающий в интервал [0;1]. again resulting in a mismatch frequency metric falling within the interval [0; 1].
В качестве еще одного примера, нормирование в некоторых вариантах осуществления может быть основано на умножении норм, а более точно норм L2, отдельных сумм частотных показателей несовпадения:As another example, the rationing in some embodiments may be based on the multiplication of the norms, and more precisely the L2 norms, of the individual sums of the frequency mismatch indicators:
Это, в частности, в многих применениях может давать очень полезные рабочие характеристики для последнего примера показателя несовпадения (то есть, основанного на норме L1 для коэффициентов). В частности, может использоваться следующий частотный показатель несовпадения.This, in particular in many applications, can give very useful performance characteristics for the last example of a misalignment metric (ie, based on the L1 rate for the coefficients). In particular, the following mismatch frequency metric can be used.
Конкретные частотные показатели несовпадения, соответственно, могут быть определены как:Specific frequency indicators of mismatch, respectively, can be defined as:
где - скалярное произведение, а - норма .where is the dot product, and - norm ...
Процессор 309 несовпадения затем может формировать показатель несовпадения из частотных показателей несовпадения, комбинируя их в единый показатель несовпадения, указывающий, насколько подобны диаграммы направленности первого формирователя 303 диаграммы направленности и второго формирователя 305 диаграммы направленности.The
Более точно, показатель несовпадения может определяться в качестве избирательной по частоте взвешенной суммы частотных показателей несовпадения. Избирательный по частоте подход может быть особенно полезен для применения пригодного частотного окна, например, предоставляя возможность, чтобы предыскажение накладывалось на конкретные частотные диапазоны, например, такое как на звуковой диапазон или основные речевые интервалы частот. Например, (взвешенное) усреднение может применяться для формирования устойчивого широкополосного показателя несовпадения.More specifically, the mismatch metric can be defined as a frequency selective weighted sum of the mismatch frequency metrics. A frequency selective approach can be particularly useful for applying a suitable frequency window, for example, by allowing the pre-emphasis to be superimposed on specific frequency bands, such as the audio band or fundamental speech frequency bands, for example. For example, (weighted) averaging can be used to generate a robust broadband mismatch metric.
Более точно, показатель несовпадения может быть определен как:More precisely, the mismatch score can be defined as:
где - подходящая весовая функция.where is a suitable weighting function.
В качестве примера, весовая функция может быть сконструирована, чтобы учитывать, что речь главным образом активна в определенных полосах частот, и/или что микрофонная решетка имеет тенденцию иметь низкую направленность для относительно низких частот.As an example, the weighting function may be designed to take into account that speech is primarily active in certain frequency bands, and / or that the microphone array tends to have low directivity for relatively low frequencies.
Будет принято во внимание, что, тогда как вышеприведенные уравнения представлены в непрерывной частотной области, они без труда могут быть переведены в дискретную частотную область.It will be appreciated that, while the above equations are represented in the continuous frequency domain, they can easily be translated into the discrete frequency domain.
Например, дискретные фильтры во временной области сначала могут быть преобразованы в дискретные фильтры частотной области посредством применения дискретного преобразования Фурье, то есть, применительно к , можем рассчитать:For example, discrete time-domain filters can first be converted to discrete frequency-domain filters by applying a discrete Fourier transform, that is, in relation to , we can calculate:
где представляет собой характеристику фильтра в дискретном времени 'ого формирователя диаграммы направленности для 'ого микрофона, - длина фильтров во временной области, представляет собой дискретный фильтр в частотной области 'ого формирователя диаграммы направленности для 'ого микрофона, а - длина фильтров формы диаграммы направленности в частотной области, типично выбираемая в качестве (зачастую то же самого числа, что и коэффициентов во временной области, хотя это не обязательно имеет место. Например, что касается количества коэффициентов во временной области, иного чем 2N, вставка нулей может использоваться для облегчения преобразования в частотную область (например, с использованием БПФ)).where is the discrete-time response of the filter 'th beamformer for 'wow microphone, - the length of the filters in the time domain, is a discrete filter in the frequency domain 'th beamformer for 'oh mic, ah is the length of the frequency domain shape filters, typically selected as (often the same number as the coefficients in the time domain, although this is not necessarily the case. FFT)).
Эквивалентами в дискретной частотной области векторов и являются векторы и , которые получаются посредством собирания коэффициентов фильтра частотной области по индексу частоты для всех микрофонов в вектор.Equivalents in the discrete frequency domain of the vectors and are vectors and , which are obtained by collecting the frequency domain filter coefficients by the index frequencies for all microphones into vector.
По существу, например, расчет показателя подобия затем может выполняться следующим образом:Essentially, for example, calculating an indicator the similarity can then be done as follows:
причем,moreover,
где представляет собой комплексное сопряжение.where represents complex conjugation.
В заключение, широкополосный показатель подобия может, на основании весовой функции рассчитываться, как изложено ниже:In conclusion, broadband metric similarity can, based on the weight function be calculated as follows:
Выбор весовой функции в качестве ведет к широкополосному показателю подобия, который ограничен между нулем и единицей, и который ровно взвешивает все частоты.Selecting the weight function as leads to a broadband similarity measure that is bounded between zero and one, and which evenly weighs all frequencies.
Альтернативные весовые функции могут сосредотачиваться на конкретном диапазоне частот (например, вследствие того, что он, вероятно должен содержать в себе речь). В таком случае, весовая функция, которая приводит к показателю подобия, ограниченному между нулем и единицей, например, в таком случае, может быть выбрана в качестве:Alternative weighting functions may focus on a specific frequency range (eg, due to the fact that it is likely to contain speech). In such a case, a weighting function that results in a similarity measure bounded between zero and one, for example, in such a case, can be chosen as:
где и - индексы частоты, соответствующие границам требуемого диапазона частот.where and - frequency indices corresponding to the boundaries of the required frequency range.
Производный показатель несовпадения дает особенно эффективные рабочие характеристики с разными характеристиками, которые могут быть желательны в разных вариантах осуществления. В частности, определенные значения могут быть чувствительны к разным свойствам несовпадения диаграмм направленности и, в зависимости от отдельного варианта осуществления, могут быть предпочтительны разные показатели.The derived mismatch metric provides particularly effective performance with different characteristics that may be desirable in different embodiments. In particular, certain values may be sensitive to different pattern mismatch properties and, depending on the particular embodiment, different metrics may be preferred.
Действительно, показатель несовпадения/подобия может рассматриваться для измерения несовпадений фазы, затухания и направления между формирователями диаграммы направленности, тем временем, вновь учитывает только несовпадения коэффициента передачи и направления. В заключение показатель несовпадения учитывает только несовпадения направления и игнорирует несовпадения фазы и затухания.Indeed, the indicator mismatch / similarity can be considered to measure phase, attenuation and direction mismatches between beamformers, meanwhile, again takes into account only the discrepancy between the transmission ratio and the direction. In conclusion, the indicator mismatch only considers directional mismatches and ignores phase mismatches and attenuation.
Эти несовпадения относятся к структуре формирователей диаграммы направленности. Более точно, предположим, что коэффициенты фильтра формирователя диаграммы направленности совместно используют общий (независимый от частоты) фактор по всем микрофонам, который указываем как . В этом случае, коэффициенты фильтра формирователя диаграммы направленности могут быть разложены, как изложено ниже:These mismatches are related to the beamformer structure. More specifically, suppose that the beamformer filter coefficients share a common (frequency independent) factor across all microphones, which we refer to as ... In this case, the coefficients of the beamformer filter can be decomposed as follows:
В сокращенном обозначении имеем . Затем, рассмотрим два варианта общего фактора .In abbreviated notation, we have ... Then, consider two options for the common factor ...
В первом случае, допустим, что общий фактор состоит только из (независимого от частоты) сдвига фазы, то есть , также известного как фазовый фильтр. Во втором случае, допустим, что общий фактор имеет произвольный коэффициент передачи и сдвиг фазы для каждой частоты. Три представленных показателя подобия обращаются с этими общими факторами по-разному.In the first case, let's say that the total factor consists only of a (independent of frequency) phase shift, that is also known as a phase filter. In the second case, let's say that the common factor has an arbitrary gain and phase shift for each frequency. The three similarity metrics presented treat these common factors differently.
чувствительно к общим расхождениям амплитуды и фазы между формирователями диаграммы направленности. sensitive to general amplitude and phase discrepancies between beamformers.
чувствительно к общим расхождениям амплитуды между формирователями диаграммы направленности. sensitive to general amplitude discrepancies between the beamformers.
нечувствительно к общему фактору. insensitive to the general factor.
Это может быть видно из следующих примеров:This can be seen from the following examples:
Пример 1:Example 1:
В этом примере, рассмотрим сценарий с , причем, является произвольной фазой для каждой частоты, то есть, фазовым фильтром.For this example, consider a scenario with , moreover, is an arbitrary phase for each frequency, that is, a phase filter.
Это дает в результате следующие результаты для показателей подобия:This results in the following results for the similarity scores:
Пример 2:Example 2:
В этом примере, рассмотрим сценарий с , причем - произвольные коэффициент передачи и фаза для каждой частоты. Это дает в результате следующие результаты для показателей подобия:For this example, consider a scenario with , and - arbitrary gain and phase for each frequency. This results in the following results for the similarity scores:
В многих практических вариантах осуществления, могут быть общие расхождения коэффициента передачи и фазы между формирователями диаграммы направленности и, соответственно, показатель несовпадения в многих вариантах осуществления может давать особенно привлекательный показатель.In many practical embodiments, there can be general gain and phase differences between the beamformers and, accordingly, the metric mismatches in many embodiments can provide a particularly attractive metric.
В нижеследующем, будет описано устройство звукозаписи, в котором сформированный показатель несовпадения взаимодействует с другими описанными элементами, чтобы давать особенно полезную систему звукозаписи. В частности, подход крайне пригоден для записи источников звука в зашумленных и реверберирующих средах. Он дает особенно полезные рабочие характеристики для применений, в которых желательный источник звука может находится за пределами радиуса реверберации, и звук, захваченный микрофонами, может находиться под преобладанием рассеянного шума и поздних отражений или ревербераций.In the following, a sound recording apparatus will be described in which the generated mismatch metric interacts with the other described elements to provide a particularly useful sound recording system. In particular, the approach is extremely suitable for recording sound sources in noisy and reverberant environments. It provides particularly useful performance for applications where the desired sound source may be outside the reverberation radius and the sound captured by the microphones may be dominated by stray noise and late reflections or reverberations.
Фиг. 5 иллюстрирует пример элементов такого устройства звукозаписи в соответствии с некоторыми вариантами осуществления изобретения. Элементы и подход системы по фиг. 3 могут соответствовать системе по фиг. 5, как оговорено в нижеследующем.FIG. 5 illustrates an example of elements of such a sound recording apparatus in accordance with some embodiments of the invention. The elements and approach of the system of FIG. 3 may correspond to the system of FIG. 5 as follows.
Устройство звукозаписи содержит микрофонную решетку 501, которая может прямо соответствовать таковой по фиг. 3. В примере, микрофонная решетка 501 присоединена к необязательному эхокомпенсатору 503, который может нейтрализовать эхо, которое происходит из акустических источников (для которых имеется в распоряжении опорный сигнал), которые линейно связаны с эхо в сигнале(ах) с микрофона. Этим источником, например, может быть громкоговоритель. Адаптивный фильтр может применяться с опорным сигналом в качестве входного сигнала, и с выходным сигналом, вычитаемым из сигнала с микрофона для создания эхокомпенсированного сигнала. Это может быть повторено для каждого отдельного микрофона.The sound recorder comprises a
Будет принято во внимание, что эхокомпенсатор 503 необязателен и может быть просто не включен в состав в многих вариантах осуществления.It will be appreciated that
Микрофонная решетка 501 присоединена к первому формирователю 505 диаграммы направленности, типично непосредственно или через эхокомпенсатор 503 (а также возможно через усилители, цифро-аналоговые преобразователи, и т. д., как будет хорошо известно специалисту в данной области техники). Первый формирователь 505 диаграммы направленности может прямо соответствовать первому формирователю 303 диаграммы направленности по фиг. 3.A
Первый формирователь 505 диаграммы направленности выполнен с возможностью комбинировать сигналы с микрофонной решетки 501, так чтобы формировалась эффективная направленная звуковая чувствительность микрофонной решетки 501. Первый формирователь 505 диаграммы направленности, таким образом, вырабатывает выходной сигнал, указываемый ссылкой как первый подвергнутый формированию диаграммы направленности звуковой выходной сигнал, который соответствует избирательной записи звука в окружающей среде. Первый формирователь 505 диаграммы направленности является адаптивным формирователем диаграммы направленности, и направленность может управляться посредством установления параметров, упоминаемых как первые параметры формы диаграммы направленности, действия формы диаграммы направленности первого формирователя 505 диаграммы направленности.The
Первый формирователь 505 диаграммы направленности присоединен к первому адаптеру 507, который выполнен с возможностью адаптировать параметры первой формы диаграммы направленности. Таким образом, первый адаптер 507 выполнен с возможностью адаптировать параметры первого формирователя 505 диаграммы направленности, так чтобы диаграмма направленности могла управляться по направлению.The
В дополнение, устройство звукозаписи содержит множество ограниченных формирователей 509, 511 диаграммы направленности, каждый из которых выполнен с возможностью комбинировать сигналы с микрофонной решетки 501, так чтобы формировалась эффективная направленная звуковая чувствительность микрофонной решетки 501. Каждый из ограниченных формирователей 509, 511 диаграммы направленности, таким образом, выполнен с возможностью формировать звуковой выходной сигнал, указываемый ссылкой как подвергнутый ограниченному формированию диаграммы направленности звуковой выходной сигнал, который соответствует избирательной записи звука в окружающей среде. Аналогично первому формирователю 505 диаграммы направленности, ограниченные формирователи 509, 511 диаграммы направленности являются адаптивными формирователями диаграммы направленности, где направленность каждого ограниченного формирователя 509, 511 диаграммы направленности может управляться параметрами настройки, упоминаемыми как параметры ограниченной формы диаграммы направленности, ограниченных формирователей 509, 511 диаграммы направленности.In addition, the sound recorder comprises a plurality of
Устройство звукозаписи соответственно содержит второй адаптер 513, который выполнен с возможностью адаптировать параметры ограниченной формы диаграммы направленности множества ограниченных формирователей диаграммы направленности, тем самым, адаптируя диаграммы направленности, сформированные таковыми.The audio recorder suitably comprises a
Второй формирователь 305 диаграммы направленности по фиг. 3 может прямо соответствовать первому ограниченному формирователю 509 диаграммы направленности по фиг. 5. Также будет принято во внимание, что остальные ограниченные формирователи 511 диаграммы направленности могут соответствовать первому формирователю 303 диаграммы направленности и могли бы считаться его экземплярами.The
Как первый формирователь 505 диаграммы направленности, так и ограниченные формирователи 509, 511 диаграммы направленности соответственно являются адаптивными формирователями диаграммы направленности, для которых действующая сформированная диаграмма направленности может динамически адаптироваться. Более точно, формирователи 505, 509, 511 диаграммы направленности являются фильтрующими и комбинирующими (или, более точно, в большинстве вариантов осуществления фильтрующими и суммирующими) формирователями диаграммы направленности. Фильтр формы диаграммы направленности может применяться к каждому из сигналов с микрофона, и фильтрованные выходные сигналы могут комбинироваться, типично посредством простого сложения друг с другом.Both the
Будет принято во внимание, что комментарии, приведенные в отношении первого формирователя 303 диаграммы направленности и второго формирователя 305 диаграммы направленности (например, в отношении фильтров формы диаграммы направленности) равным образом применяются к формирователям 505, 509, 511 диаграммы направленности по фиг. 5.It will be appreciated that the comments made with respect to
В многих вариантах осуществления, конструкция и реализация первого формирователя 505 диаграммы направленности и ограниченных формирователей 509, 511 диаграммы направленности могут быть одинаковыми, например, фильтры формы диаграммы направленности могут иметь идентичные конструкции КИХ-фильтра с одинаковым количеством коэффициентов, и т. д.In many embodiments, the design and implementation of the
Однако, работа и параметры первого формирователя 505 диаграммы направленности и ограниченных формирователей 509, 511 диаграммы направленности будут разными и, в частности, ограниченные формирователи 509, 511 диаграммы направленности в своем роде ограничены, а первый формирователь 505 диаграммы направленности нет. Более точно, адаптация ограниченных формирователей 509, 511 диаграммы направленности будет иной, чем адаптация первого формирователя 505 диаграммы направленности и, более точно, будет подвержена некоторым ограничениям.However, the operation and parameters of the
Более точно, ограниченные формирователи 509, 511 диаграммы направленности подвергаются ограничению, что адаптация (обновление параметров фильтра формы диаграммы направленности) ограничена ситуациями, когда удовлетворен критерий, тогда как первому формирователю 505 диаграммы направленности будет предоставлена возможность адаптироваться, даже когда такой критерий не удовлетворен. Действительно, в многих вариантах осуществления, первому адаптеру 507 может быть предоставлена возможность всегда адаптировать фильтр формы диаграммы направленности, причем это не ограничивается никакими свойствами звука, захватываемого первым формирователем 505 диаграммы направленности (или каким-нибудь из ограниченных формирователей 509, 511 диаграммы направленности).More specifically, the
Критерий для адаптации ограниченных формирователей 509, 511 диаграммы направленности позже будет описан подробнее.The criterion for adapting the
В многих вариантах осуществления, скорость адаптации для первого формирователя 505 диаграммы направленности выше, чем для ограниченных формирователей 509, 511 диаграммы направленности. Таким образом, в многих вариантах осуществления, первый адаптер 507 может быть выполнен с возможностью адаптироваться к изменениям быстрее, чем второй адаптер 513, и таким образом, первый формирователь 505 диаграммы направленности может обновляться быстрее, чем ограниченные формирователи 509, 511 диаграммы направленности. Это, например, может достигаться посредством фильтрации нижних частот доводимого до максимума или минимизируемого значения (например, уровня сигнала у выходного сигнала или величины сигнала ошибки), имеющей более высокую частоту среза для первого формирователя 505 диаграммы направленности, чем для ограниченных формирователей 509, 511 диаграммы направленности. В качестве еще одного примера, максимальное изменение на обновление параметров формы диаграммы направленности (более точно, коэффициентов фильтра формы диаграммы направленности) может быть большим для первого формирователя 505 диаграммы направленности, чем для ограниченных формирователей 509, 511 диаграммы направленности.In many embodiments, the adaptation rate for the
Соответственно, в системе, множество сфокусированных (ограниченных адаптацией) формирователей диаграммы направленности, которые адаптируются медленно, и только когда удовлетворен определенный критерий, дополнены автономно работающим быстрее адаптирующимся формирователем диаграммы направленности, который не подвергается этому ограничению. Более медленные и сфокусированные формирователи диаграммы направленности типично будут давать более медленную, но более точную и надежную адаптацию под конкретную звуковую среду, чем автономно работающий формирователь диаграммы направленности, который, однако, типично будет способен быстро адаптироваться на большем интервале параметров.Accordingly, in the system, a plurality of focused (adaptation constrained) beamformers that adapt slowly, and only when a certain criterion is met, are supplemented with a standalone faster adapting beamformer that does not suffer from this constraint. Slower and more focused beamformators will typically give slower, but more accurate and reliable adaptation to a specific sound environment than a stand-alone beamformer, which, however, will typically be able to quickly adapt over a wider range of parameters.
В системе по фиг. 5 эти формирователи диаграммы направленности используются синергетически совместно, чтобы давать улучшенные рабочие характеристики, как будет подробнее описано позже.In the system of FIG. 5, these beamformers are used synergistically together to provide improved performance, as will be described in more detail later.
Первый формирователь 505 диаграммы направленности и ограниченные формирователи 509, 511 диаграммы направленности присоединены к процессору 515 вывода, который принимает подвергнутые формированию диаграммы направленности звуковые выходные сигналы из формирователей 505, 509, 511 диаграммы направленности. Точный выходной сигнал, сформированный из устройства звукозаписи, будет зависеть от конкретных предпочтений и требований отдельного варианта осуществления. Действительно, в некоторых вариантах осуществления, выходной сигнал из устройства звукозаписи может просто состоять из звуковых выходных сигналов из формирователей 505, 509, 511 диаграммы направленности.The
В многих вариантах осуществления, выходной сигнал из процессора 515 вывода формируется в виде комбинации звуковых выходных сигналов из формирователей 505, 509, 511 диаграммы направленности. Действительно, в некоторых вариантах осуществления, может выполняться простое выборочное комбинирование, например, выбор звуковых выходных сигналов, для которых является наивысшим отношение сигнал/шум или просто уровень сигнала.In many embodiments, the output from the
Таким образом, выбор и последующая обработка выходного сигнала процессора 515 вывода может быть специализированной и/или разной в разных реализациях/вариантах осуществления. Например, могут выдаваться все возможные выходные сигналы сфокусированной диаграммы направленности, выбор может делаться на основании критерия, определенного пользователем (например, выбирается наиболее мощный докладчик), и т. д.Thus, the selection and subsequent processing of the output of the
Что касается применения речевого управления, например, все выходные сигналы могут пересылаться в распознаватель речевых пусковых сигналов, который выполнен с возможностью выявлять конкретное слово или фразу для инициализации речевого управления. В таком примере, звуковой выходной сигнал, в котором выявлено пусковое слово или фраза, может сопровождать пусковую фразу, подлежащую использованию распознавателем речи для выявления специальных команд.With regard to the application of speech control, for example, all output signals can be forwarded to a speech trigger recognizer that is configured to identify a specific word or phrase to initialize the speech control. In such an example, the audio output signal in which the trigger word or phrase is detected may accompany the trigger phrase to be used by the speech recognizer to elicit special commands.
Что касается применений связи, например, может быть полезно выбирать звуковой выходной сигнал, который имеет наибольшую мощность, например, применительно к которому было обнаружено наличие конкретного точечного источника звука.For communication applications, for example, it may be useful to select the audio output that has the highest power, for example, for which a particular point sound source has been detected.
В некоторых вариантах осуществления, последующая обработка, такая как подавление шума по фиг. 1, может применяться к выходному сигналу устройства звукозаписи (например, процессором 515 вывода). Это может улучшать рабочие характеристики, например, применительно к речевой связи. В такую последующую обработку могут быть включены нелинейные операции, хотя, например, что касается некоторых распознавателей речи, может быть полезно ограничивать обработку включением в состав только линейной обработки.In some embodiments, post-processing, such as the noise suppression of FIG. 1 may be applied to the output of an audio recorder (eg, output processor 515). This can improve performance, for example, for voice communications. Non-linear operations may be included in such post-processing, although, for example, with some speech recognizers, it may be useful to limit the processing to include only linear processing.
В системе по фиг. 5, особенно полезный подход принимается для захвата звукового сигнала на основании синергетического взаимодействия и взаимосвязи между первым формирователем 505 диаграммы направленности и ограниченными формирователями 509, 511 диаграммы направленности.In the system of FIG. 5, a particularly useful approach is adopted for capturing an audio signal based on the synergy and relationship between the
С этой целью, устройство звукозаписи содержит процессор 517 несовпадения, который выполнен с возможностью определять показатель несовпадения между одним или более ограниченных формирователей 509, 511 диаграммы направленности и первым формирователем 505 диаграммы направленности. Показатель несовпадения является указывающим различие между диаграммами направленности, сформированными соответственно первым формирователем 505 диаграммы направленности и ограниченным формирователем 509, 511 диаграммы направленности. Таким образом, показатель несовпадения для первого ограниченного формирователя 509 диаграммы направленности может указывать различие между диаграммами направленности, которые сформированы первым формирователем 505 диаграммы направленности и первым ограниченным формирователем 509 диаграммы направленности. Таким образом, показатель несовпадения может быть указывающим, насколько близко два формирователя 505, 509 диаграммы направленности адаптированы под один и тот же источник звука.To this end, the audio recorder comprises a
Процессор 517 несовпадения прямо соответствует процессору 309 несовпадения по фиг. 3, и подход, описанный в отношении этого, прямо применим к процессору 517 несовпадения по фиг. 5. Таким образом, система по фиг. 5 использует описанный подход для определения показателя несовпадения между диаграммами направленности первого формирователя 505 диаграммы направленности и одного из ограниченных формирователей 509, 511 диаграммы направленности в ответ на сравнение адаптивных импульсных характеристик фильтров формы диаграммы направленности первого формирователя 505 диаграммы направленности с адаптивными импульсными характеристиками фильтров формы диаграммы направленности ограниченного формирователя 509, 511 диаграммы направленности. Будет принято во внимание, что, в многих вариантах осуществления, показатель несовпадения может определяться для такого ограниченного формирователя 509, 511 диаграммы направленности.The
Таким образом, в системе по фиг. 5, показатель несовпадения формируется, чтобы отражать различие между параметрами формы диаграммы направленности первого формирователя 505 диаграммы направленности и первого ограниченного формирователя 509 диаграммы направленности, и/или различие между подвергнутыми формированию диаграммы направленности звуковыми выходными сигналами таковых.Thus, in the system of FIG. 5, the misalignment metric is generated to reflect the difference between the beamforming parameters of the
Будет принято во внимание, что формирование, определение и/или использование показателя несовпадения прямо эквивалентно формированию, определению и/или использованию показателя подобия. Действительно, один типично может считаться монотонно убывающей функцией другого и, таким образом, показатель несовпадения также является показателем подобия (и наоборот), причем, один просто указывает возрастающие различия возрастающими значениями, а другой делает это убывающими значениями.It will be appreciated that generating, defining and / or using a mismatch metric is directly equivalent to generating, defining and / or using a similarity metric. Indeed, one can typically be considered a monotonically decreasing function of the other, and thus the mismatch indicator is also an indicator of similarity (and vice versa), where one simply indicates increasing differences in increasing values, and the other does so in decreasing values.
Процессор 517 несовпадения присоединен к второму адаптеру 513 и выдает показатель несовпадения в него. Второй адаптер 513 выполнен с возможностью адаптировать ограниченные формирователи 509, 511 диаграммы направленности в ответ на показатель несовпадения. Более точно, второй адаптер 513 выполнен с возможностью адаптировать параметры ограниченной формы диаграммы направленности только для ограниченных формирователей диаграммы направленности, для которых был определен показатель несовпадения, который удовлетворяет критерию подобия. Таким образом, если показатель несовпадения не был определен для данных ограниченных формирователей 509, 511 диаграммы направленности, или если определенный показатель несовпадения для данного формирователя 509, 511 диаграммы направленности указывает, что диаграммы направленности первого формирователя 505 диаграммы направленности и данного ограниченного формирователя 509, 511 диаграммы направленности не подобны в достаточной мере, то адаптация не выполняется.A
Таким образом, в устройстве звукозаписи по фиг. 5, ограниченные формирователи 509, 511 диаграммы направленности ограничены адаптацией диаграмм направленности. Более точно, они ограничены, чтобы адаптироваться, только если текущая диаграмма направленности, сформированная ограниченным формирователем 509, 511 диаграммы направленности находится близко к диаграмме направленности, которую формирует автономно работающий первый формирователь 505 диаграммы направленности, то есть отдельный ограниченный формирователь 509, 511 диаграммы направленности адаптируется, только если первый формирователь 505 диаграммы направленности адаптирован на данный момент, чтобы находиться достаточно близко к отдельному формирователю 509, 511 диаграммы направленности.Thus, in the audio recording apparatus of FIG. 5, constrained
Результат этого состоит в том, что адаптация ограниченных формирователей 509, 511 диаграммы направленности управляется функционированием первого формирователя 505 диаграммы направленности, так чтобы, фактически, диаграмма направленности, сформированная первым формирователем 505 диаграммы направленности, управляла тем, какие из ограниченных формирователей 509, 511 диаграммы направленности оптимизируются/адаптируются. Этот подход, более точно, может давать в результате ограниченные формирователи 509, 511 диаграммы направленности, имеющие тенденцию адаптироваться, только когда желательный источник звука близок к текущей адаптации ограниченного формирователя 509, 511 диаграммы направленности.The result of this is that the adaptation of the constrained
Подход с требованием подобия между диаграммами направленности, для того чтобы предоставлять адаптации, обнаруживаемой на практике, давать в результате существенно улучшенные рабочие характеристики, когда желательный источник звука, желательный докладчик в данном случае, находится за пределами радиуса реверберации. Действительно, было обнаружено, что это будет давать крайне желательные рабочие характеристики, в частности, для слабых источников звука в реверберирующих средах с непреобладающей звуковой составляющей прямого тракта.An approach of requiring similarity between radiation patterns in order to provide adaptations found in practice result in significantly improved performance when the desired sound source, the desired speaker in this case, is outside the reverberation radius. Indeed, it has been found that this will give highly desirable performance, in particular for weak sound sources in reverberant environments with a predominantly direct path sound component.
В многих вариантах осуществления, ограничение адаптации может подвергаться дополнительным требованиям.In many embodiments, the adaptation constraint may be subject to additional requirements.
Например, в многих вариантах осуществления, адаптация может быть требованием, чтобы отношение сигнал/шум для подвергнутого формированию диаграммы направленности звукового выходного сигнала превышало пороговое значение. Таким образом, адаптация для отдельного ограниченного формирователя 509, 511 диаграммы направленности может быть ограничена сценариями, в которых он адаптирован в достаточной мере, и сигнал, на базе которого основана адаптация, отражает желательный звуковой сигнал.For example, in many embodiments, adaptation may be a requirement that the signal-to-noise ratio of the beamformed audio output exceeds a threshold. Thus, the adaptation for an individual
Будет принято во внимание, что разные подходы для определения отношения сигнал/шум могут использоваться в разных вариантах осуществления. Например, уровень собственных шумов сигналов с микрофона может определяться отслеживанием минимума сглаженной оценки мощности и, применительно к каждому кадру или временному интервалу, мгновенная мощность сравнивается с этим минимумом. В качестве еще одного примера, уровень собственных шумов выходного сигнала формирователя диаграммы направленности может определяться и сравниваться с мгновенной выходной мощностью подвергнутого формированию диаграммы направленности выходного сигнала.It will be appreciated that different approaches for determining the signal-to-noise ratio may be used in different embodiments. For example, the noise floor of the microphone signals can be determined by tracking the minimum of the smoothed power estimate and, for each frame or time slot, the instantaneous power is compared to that minimum. As another example, the noise floor of the beamformer output can be determined and compared to the instantaneous output power of the beamformed output.
В некоторых вариантах осуществления, адаптация ограниченного формирователя 509, 511 диаграммы направленности ограничена тем, когда речевая составляющая была выявлена в выходном сигнале ограниченного формирователя 509, 511 диаграммы направленности. Это будет давать улучшенные рабочие характеристики для применений записи речи. Будет принято во внимание, что может использоваться любой подходящий алгоритм или подход для выявления речи в звуковом сигнале.In some embodiments, the adaptation of the
Будет принято во внимание, что система по фиг. 3-7 типично действует с использованием обработки кадров или блоков. Таким образом, определены следующие друг за другом временные интервалы или кадры, и описанная обработка может выполняться в пределах каждого временного интервала. Например, сигналы с микрофона могут быть поделены на временные интервалы обработки и, применительно к каждому временному интервалу обработки, формирователи 505, 509, 511 диаграммы направленности могут формировать подвергнутый формированию диаграммы направленности звуковой выходной сигнал для временного интервала, определять показатель несовпадения, выбирать ограниченные формирователи 509, 511 диаграммы направленности и обновлять/адаптировать этот ограниченный формирователь 509, 511 диаграммы направленности, и т. д. Временные интервалы обработки в многих вариантах осуществления могут иметь длительность между 5 мс и 50 мс.It will be appreciated that the system of FIG. 3-7 typically operates using block or block processing. Thus, consecutive time slots or frames are defined, and the described processing can be performed within each time slot. For example, the microphone signals can be divided into processing time slots and, for each processing time slot, the
Будет принято во внимание, что, в некоторых вариантах осуществления, разные временные интервалы обработки могут использоваться для разных аспектов и функций устройства звукозаписи. Например, показатель несовпадения и выбор ограниченного формирователя 509, 511 диаграммы направленности для адаптации могут выполняться с более низкой частотой, чем, например, временной интервал обработки для формирования диаграммы направленности.It will be appreciated that, in some embodiments, different processing times may be used for different aspects and functions of the audio recorder. For example, the mismatch metric and selection of the
В многих вариантах осуществления, адаптация может находиться в зависимости от выявления точечных источников звука в подвергнутых формированию диаграммы направленности звуковых выходных сигналов. Соответственно, в многих вариантах осуществления, устройство звукозаписи дополнительно может содержать детектор 601 источника звука, как проиллюстрировано на фиг. 6.In many embodiments, the adaptation may depend on the detection of point sound sources in the beamformed audio outputs. Accordingly, in many embodiments, the audio recorder may further comprise a
Детектор 601 источника звука, более точно, в многих вариантах осуществления может быть выполнен с возможностью выявлять точечные источники звука во вторых подвергнутых формированию диаграммы направленности звуковых сигналов и, соответственно, детектор 601 источника звука присоединен к ограниченным формирователям 509, 511 диаграммы направленности, и он принимает подвергнутые формированию диаграммы направленности звуковые выходные сигналы из них.
Точечный источник звука по акустике является звуком, который исходит из точки в пространстве. Будет принято во внимание, что детектор 601 источника звука может использовать разные алгоритмы или критерии для оценки (выявления), присутствует ли точечный источник звука в подвергнутом формированию диаграммы направленности звуковом выходном сигнале из данного ограниченного формирователя 509, 511 диаграммы направленности, и что специалист будет отдавать себе отчет о различных таких подходах.A point source of sound acoustically is a sound that emanates from a point in space. It will be appreciated that the
Подход, более точно, может быть основан на идентификации характеристик одиночного или преобладающего точечного источника, захватываемого микрофонами микрофонной решетки 501. Одиночный или преобладающий точечный источник, например, может выявляться посредством рассмотрения корреляции между сигналами на микрофонах. Если есть высокая корреляция, то преобладающий точечный источник считается присутствующим. Если корреляция низка, то считается, что нет преобладающего точечного источника, но что записываемые сигналы исходят из многих некоррелированных источников. Таким образом, в многих вариантах осуществления, точечный источник звука может считаться пространственно коррелированным источником звука, где пространственная корреляция отражается корреляцией сигналов с микрофона.The approach, more specifically, may be based on identifying characteristics of a single or dominant point source captured by the microphones of the
В данном случае, корреляция определяется после фильтрации фильтрами формы диаграммы направленности. Более точно, может определяться корреляция выходного сигнала фильтров формы диаграммы направленности ограниченных формирователей 509, 511 диаграммы направленности, и если она превышает данное пороговое значение, точечный источник звука может считаться выявленным.In this case, the correlation is determined after being filtered by the beamform filters. More specifically, the correlation of the output signal of the beamforming filters of the
В других вариантах осуществления, точечный источник может выявляться посредством оценки содержания подвергнутых формированию диаграммы направленности звуковых сигналов. Например, детектор 601 источника звука может анализировать подвергнутые формированию диаграммы направленности выходные сигналы и, если речевая составляющая достаточной мощности выявлена в подвергнутом формированию диаграммы направленности звуковом выходном сигнале, это может считаться соответствующим точечному источнику звука и, таким образом, выявление мощной речевой составляющей может считаться выявлением точечного источника звука.In other embodiments, the point source may be detected by evaluating the content of the beamforming audio signals. For example, the
Результат выявления пересылается из детектора 601 источника звука во второй адаптер 513, который выполнен с возможностью применять адаптацию в ответ на это. Более точно, второй адаптер 513 может быть выполнен с возможностью адаптировать только ограниченные формирователи 509, 511 диаграммы направленности, для которых детектор 601 источника звука указывает, что был выявлен точечный источник звука.The detection result is forwarded from the
Таким образом, устройство звукозаписи выполнено с возможностью ограничивать адаптацию ограниченных формирователей 509, 511 диаграммы направленности, так чтобы адаптировались только формирователи 509, 511 диаграммы направленности, в которых точечный источник звука присутствует в сформированной диаграмме направленности, и сформированная диаграмма направленности близка к таковой, сформированной первым формирователем 505 диаграммы направленности. Таким образом, адаптация типично ограничена ограниченными формирователями 509, 511 диаграммы направленности, которые уже близки к (желательному) точечному источнику звука. Подход предоставляет возможность для очень устойчивого и точного формирования диаграммы направленности, которое исключительно хорошо работает в окружающих средах, где желательный источник звука может находиться вне радиуса реверберации. Кроме того, посредством приведения в действие и избирательного обновления множества ограниченных формирователей 509, 511 диаграммы направленности, эти устойчивость и точность могут быть дополнены относительно быстрым временем реакции, предоставляющим возможность быстрой адаптации системы в целом к быстро движущимся или вновь возникающим источникам звука.Thus, the sound recorder is configured to limit the adaptation of the
В многих вариантах осуществления, устройство звукозаписи может быть выполнено с возможностью адаптировать только один ограниченный формирователь 509, 511 диаграммы направленности за раз. Таким образом, второй адаптер 513 в каждом временном интервале адаптации может выбирать один и ограниченных формирователей 509, 511 диаграммы направленности и адаптировать только его, обновляя параметры формы диаграммы направленности.In many embodiments, the audio recorder may be configured to adapt only one
Выбор одиночных ограниченных формирователей 509, 511 диаграммы направленности типично будет происходить автоматически при выборе ограниченного формирователя 509, 511 диаграммы направленности для адаптации, только если текущая формируемая диаграмма направленности находится близко от формируемой первым формирователем 505 диаграммы направленности, и если точечный источник звука выявлен в диаграмме направленности.The selection of single
Однако, в некоторых вариантах осуществления, может быть возможным, чтобы множество ограниченных формирователей 509, 511 диаграммы направленности одновременно удовлетворяли критериям. Например, если точечный источник звука расположен рядом с областями, охватываемыми двумя разными ограниченными формирователями 509, 511 диаграммы направленности (или, например, он находится в зоне перекрытия областей), точечный источник звука может выявляться в обеих диаграммах направленности, и таковые обе могли быть адаптированы, чтобы находится близко друг к другу, та и другая будучи подгоняемыми под направление на точечный источник звука.However, in some embodiments, it may be possible for a plurality of
Таким образом, в таких вариантах осуществления, второй адаптер 513 может выбирать один из ограниченных формирователей 509, 511 диаграммы направленности, удовлетворяющих двум критериям, и адаптировать только этот один. Это будет снижать риск, что две диаграммы направленности адаптируются в направлении одного и того же точечного источника звука, и, таким образом, снижать риск операций с таковыми, мешающими друг другу.Thus, in such embodiments, the
В действительности, адаптация ограниченных формирователей 509, 511 диаграммы направленности под ограничением, что соответствующий показатель несовпадения должен быть достаточно низок, и выбор только одного из ограниченных формирователей 509, 511 диаграммы направленности для адаптации (например, в каждом временном интервале/кадре обработки) будет приводить к адаптации, различающейся между разными ограниченными формирователями 509, 511 диаграммы направленности. Это будет иметь тенденцию давать в результате ограниченные формирователи 509, 511 диаграммы направленности, адаптируемые, чтобы охватывать разные области ближайшим ограниченным формирователем 509, 511 диаграммы направленности, автоматически, будучи выбранными для адаптации/следования за источником звука, выявленным первым формирователем 505 диаграммы направленности. Однако, например, в противоположность подходу по фиг. 2, области не стационарны и не предопределены, но скорее формируются динамически и автоматически.In fact, adapting the
Следует отметить, что области могут быть зависящими от формирования диаграммы направленности для множества путей и типично не ограничены угловым направлением областей прихода. Например, области могут различаться на основании расстояния до микрофонной решетки. Таким образом, термин область может рассматриваться указывающим ссылкой на положения в пространстве, в которых источник звука будет давать в результате адаптацию, которая удовлетворяет требованию подобия применительно к показателю несовпадения. Таким образом, это включает в себя рассмотрение не только прямого тракта, но, например, также отражений, если они рассматриваются в параметрах формы диаграммы направленности, и, в частности, определяются на основании как пространственного, так и временного аспекта (а более точно, зависят от полных импульсных характеристик фильтров формы диаграммы направленности).It should be noted that the regions may be multi-path beamforming dependent and are typically not limited by the angular direction of the arrival regions. For example, areas may differ based on the distance to the microphone array. Thus, the term region can be viewed as indicating a reference to the positions in space at which the sound source will result in an adaptation that satisfies the similarity requirement in terms of the mismatch metric. Thus, this includes considering not only the direct path, but, for example, also reflections, if they are considered in the parameters of the radiation pattern, and in particular are determined based on both spatial and temporal aspects (and more precisely, depend from the total impulse responses of the radiation pattern filters).
Выбор одиночного ограниченного формирователя 509, 511 диаграммы направленности, более точно, может происходить в ответ на зафиксированный уровень звука. Например, детектор 601 источника звука может определять уровень звука каждого из подвергнутых формированию диаграммы направленности звуковых выходных сигналов из ограниченных формирователей 509, 511 диаграммы направленности, которые удовлетворяют критериям, и он может выбирать ограниченный формирователь 509, 511 диаграммы направленности, дающий в результате наивысший уровень. В некоторых вариантах осуществления, детектор 601 источника звука может выбирать ограниченный формирователь 509, 511 диаграммы направленности, для которого точечный источник звука, выявленный в подвергнутом формированию диаграммы направленности звуковом выходном сигнале, имеет наивысшее значение. Например, детектор 601 источника звука может выявлять речевую составляющую в подвергнутых формированию диаграммы направленности звуковых выходных сигналах из двух ограниченных формирователей 509, 511 диаграммы направленности и приступать к выбору имеющего наивысший уровень речевой составляющей.The selection of a single
В подходе, в высшей степени избирательная адаптация ограниченных формирователей 509, 511, таким образом, выполняется, приводя к таковым, адаптирующимся только в определенных обстоятельствах. Это дает очень надежное формирование диаграммы направленности ограниченными формирователями 509, 511 диаграммы направленности, давая в результате улучшенный захват желательного источника звука. Однако, в многих сценариях, ограничения формирования диаграммы направленности также могут давать в результате более медленную адаптируемость и, в действительности, в многих ситуациях, могут давать в результате новые источники звука (например, докладчиков), не выявляемых или всего лишь очень медленно подвергаемых адаптации.In an approach, highly selective adaptation of the
Фиг. 7 иллюстрирует устройство звукозаписи по фиг. 6, но с добавлением контроллера 701 формирователей диаграммы направленности, который присоединен ко второму адаптеру 513 и детектору 601 источника звука. Контроллер 701 формирователей диаграммы направленности выполнен с возможностью инициализировать ограниченный формирователь 509, 511 диаграммы направленности в определенных ситуациях. Более точно, контроллер 701 формирователей диаграммы направленности может инициализировать ограниченный формирователь 509, 511 диаграммы направленности в ответ на первый формирователь 505 диаграммы направленности, а более точно, может инициализировать ограниченные формирователи 509, 511 диаграммы направленности для формирования диаграммы направленности, соответствующей таковой у первого формирователя 505 диаграммы направленности.FIG. 7 illustrates the sound recorder of FIG. 6, but with the addition of a
Контроллер 701 формирователя диаграммы направленности, более точно, устанавливает параметры формы диаграммы направленности одного из ограниченных формирователей 509, 511 диаграммы направленности в ответ на параметры формы диаграммы направленности первого формирователя 505 диаграммы направленности, впредь упоминаемые как первые параметры формы диаграммы направленности. В некоторых вариантах осуществления, фильтры ограниченных формирователей 509, 511 диаграммы направленности и первого формирователя 505 диаграммы направленности могут быть идентичными, например, они могут иметь одинаковую архитектуру. В качестве конкретного примера, оба фильтра ограниченных формирователей 509, 511 диаграммы направленности и первого формирователя 505 диаграммы направленности могут быть КИХ-фильтрами с одинаковой длиной (то есть, заданным количеством коэффициентов), и текущие адаптированные значения коэффициентов из фильтров первого формирователя 505 диаграммы направленности могут быть просто скопированы в ограниченный формирователь 509, 511 диаграммы направленности, то есть, коэффициенты ограниченного формирователя 509, 511 диаграммы направленности могут быть установлены в значения из первого формирователя 505 диаграммы направленности. Таким образом, ограниченный формирователь 509, 511 диаграммы направленности будет инициализироваться теми же самыми свойствами диаграммы направленности, что и адаптируемые на данный момент первым формирователем 505 диаграммы направленности.The
В некоторых вариантах осуществления, настройка фильтров ограниченных формирователей 509, 511 диаграммы направленности может определяться из параметров фильтра первого формирователя 505 диаграммы направленности, но вместо того, чтобы использовать их сразу, они могут адаптироваться до применения. Например, в некоторых вариантах осуществления, коэффициенты КИХ-фильтров могут модифицироваться для инициализации диаграммы направленности ограниченного формирователя 509, 511 диаграммы направленности, чтобы была более широкой, чем диаграмма направленности первого формирователя 505 диаграммы направленности (например, формируемой в том же самом направлении).In some embodiments, the filter setting of the
Контроллер 701 формирователей диаграммы направленности, в многих вариантах осуществления, в некоторых обстоятельствах, соответственно может инициализировать один из ограниченных формирователей 509, 511 диаграммы направленности начальной диаграммой направленности, соответствующей таковой у первого формирователя 505 диаграммы направленности. Система затем может приступать к обработке ограниченного формирователя 509, 511 диаграммы направленности, как описано ранее, а более точно, может переходить к адаптации ограниченного формирователя 509, 511 диаграммы направленности, когда он удовлетворяет описанным ранее критериям.The
Критерии для инициализации ограниченного формирователя 509, 511 диаграммы направленности могут быть разными в разных вариантах осуществления.The criteria for initializing the
В многих вариантах осуществления, контроллер 701 диаграммы направленности может быть выполнен с возможностью инициализировать ограниченный формирователь 509, 511 диаграммы направленности, если наличие точечного источника звука выявлено в первом подвергнутом формированию диаграммы направленности звуковом выходном сигнале, но не в каком-нибудь из подвергнутых ограниченному формированию диаграммы направленности звуковых выходных сигналах.In many embodiments, the
Таким образом, детектор 601 источника звука может определять, присутствует ли точечный источник звука в каком-нибудь из подвергнутых формированию диаграммы направленности звуковых выходных сигналов из ограниченных формирователей 509, 511 диаграммы направленности или первого формирователя 505 диаграммы направленности. Результаты выявления/оценки для каждого подвергнутого формированию диаграммы направленности звукового выходного сигнала могут пересылаться в контроллер 701 формирователей диаграммы направленности, которые могут их оценивать. Если точечный источник звука выявлен только применительно к первому формирователю 505 диаграммы направленности, но ни для какого из ограниченных формирователей 509, 511 диаграммы направленности, это может отражать ситуацию, в которой точечный источник звука, такой как докладчик, присутствует и выявляется первым формирователем 505 диаграммы направленности, но ни один из ограниченных формирователей 509, 511 диаграммы направленности не был выявлен и не был адаптирован под точечный источник звука. В этом случае, ограниченные формирователи 509, 511 диаграммы направленности могут никогда не (или всего лишь очень медленно) адаптироваться под точечный источник звука. Поэтому, один из ограниченных формирователей 509, 511 диаграммы направленности инициализируется для формирования диаграммы направленности, соответствующей точечному источнику звука. По существу, эта диаграмма направленности вероятно должна быть близка к точечному источнику звука, и она будет (типично медленно но верно) адаптироваться к этому новому точечному источнику звука.Thus, the
Таким образом, подход может комбинировать и обеспечивать полезные результаты как быстрого первого формирователя 505 диаграммы направленности, так и надежных ограниченных формирователей 509, 511 диаграммы направленности.Thus, the approach can combine and provide useful results from both fast
В некоторых вариантах осуществления, контроллер 701 формирователей диаграммы направленности может быть выполнен с возможностью инициализировать ограниченный формирователь 509, 511 диаграммы направленности, только если показатель несовпадения для ограниченного формирователя 509, 511 диаграммы направленности превышает пороговое значение. Более точно, если наименьший определенный показатель несовпадения для ограниченных формирователей 509, 511 диаграммы направленности находится ниже порогового значения, инициализация не выполняется. В такой ситуации, может быть возможным, что адаптация ограниченного формирователя 509, 511 диаграммы направленности находится ближе к желательной ситуации, тогда как менее надежная адаптация первого формирователя 505 диаграммы направленности менее точна и может адаптироваться, чтобы находиться ближе к первому формирователю 505 диаграммы направленности. Таким образом, в тех сценариях, где показатель несовпадения достаточно низок, может быть полезно предоставлять системе возможность попытаться адаптироваться автоматически.In some embodiments, the
В некоторых вариантах осуществления, контроллер 701 формирователей диаграммы направленности, более точно, может быть выполнен с возможностью инициализировать ограниченный формирователь 509, 511 диаграммы направленности, когда точечный источник звука выявлен как для первого формирователя 505 диаграммы направленности, так и для одного из ограниченных формирователей 509, 511 диаграммы направленности, но показателю несовпадения для них не удается удовлетворить критерий подобия. Более точно, контроллер 701 формирователей диаграммы направленности может быть выполнен с возможностью устанавливать параметры формы диаграммы направленности для первого ограниченного формирователя 509, 511 диаграммы направленности в ответ на параметры формы диаграммы направленности первого формирователя 505 диаграммы направленности, если точечный источник звука выявлен как в повергнутом формированию диаграммы направленности звуковом выходном сигнале из первого формирователя 505 диаграммы направленности, так и в подвергнутом формированию диаграммы направленности звуковом выходном сигнале из ограниченного формирователя 509, 511 диаграммы направленности, и показатель несовпадения таковых превышает пороговое значение.In some embodiments, the
Такой сценарий может отражать ситуацию, в которой ограниченный формирователь 509, 511 диаграммы направленности возможно мог адаптироваться под и захватить точечный источник звука, который, однако, отличен от точечного источника звука, захваченного первым формирователем 505 диаграммы направленности. Таким образом, более точно, он может отражать то, что ограниченный формирователь 509, 511 мог захватить «ошибочный» точечный источник звука. Соответственно, ограниченный формирователь 509, 511 диаграммы направленности может быть повторно инициализирован для формирования диаграммы направленности в направлении желательного точечного источника звука.Such a scenario may reflect a situation in which the confined
В некоторых вариантах осуществления, количество ограниченных формирователей 509, 511 диаграммы направленности, которые являются действующими, может меняться. Например, устройство звукозаписи может содержать функциональные возможности для формирования потенциально относительно высокого количества ограниченных формирователей 509, 511 диаграммы направленности. Например, оно может реализовывать, скажем, до восьми одновременных ограниченных формирователей 509, 511 диаграммы направленности. Однако, например, для того чтобы понизить потребляемую мощность и вычислительную нагрузку, не все из них могут быть действующими одновременно.In some embodiments, the number of
Таким образом, в некоторых вариантах осуществления, набор действующих ограниченных формирователей 509, 511 диаграммы направленности выбирается из большей совокупности формирователей диаграммы направленности. Это, более точно может выполняться, когда инициализируется формирователь 509, 511 диаграммы направленности. Таким образом, в примерах, приведенных выше, инициализация ограниченного формирователя 509, 511 диаграммы направленности (например, если точечный источник сигнала не выявлен ни в каком из действующих ограниченных формирователей 509, 511 диаграммы направленности) может достигаться посредством инициализации бездействующего ограниченного формирователя 509, 511 диаграммы направленности из совокупности, тем самым, увеличивая количество действующих ограниченных формирователей 509, 511 диаграммы направленности.Thus, in some embodiments, the set of operable
Если все ограниченные формирователи 509, 511 диаграммы направленности в совокупности являются действующими на данный момент, инициализация ограниченного формирователя 509, 511 диаграммы направленности может выполняться посредством инициализации действующего на данный момент формирователя 509, 511 диаграммы направленности. Ограниченный формирователь 509, 511 диаграммы направленности, подлежащий инициализации, может выбираться в соответствии с каким-нибудь подходящим критерием. Например, могут выбираться ограниченные формирователи 509, 511 диаграммы направленности, имеющие наибольший показатель несовпадения или самый низкий уровень сигнала.If all of the
В некоторых вариантах осуществления, ограниченный формирователь 509, 511 диаграммы направленности может выводиться из работы в ответ на удовлетворение подходящего критерия. Например, ограниченные формирователи 509, 511 диаграммы направленности могут выводиться из работы, если показатель несовпадения возрастает выше заданного порогового значения.In some embodiments, the
Конкретный подход для управления адаптацией и настройки ограниченных формирователей 509, 511 диаграммы направленности в соответствии с многими из примеров, описанных выше, проиллюстрирован блок-схемой последовательности операций способа по фиг. 8.A specific approach for controlling adaptation and tuning of
Способ начинается на этапе 801 инициализацией следующего временного интервала обработки (например, ожиданием начала следующего временного интервала обработки, сбором набора параметров для временного интервала обработки, и т. д.).The method begins at
Этап 801 сопровождается этапом 803, при этом, определяется, есть ли точечный источник звука, выявленный в какой-нибудь из диаграмм направленности ограниченных формирователей 509, 511 диаграммы направленности.Step 801 is followed by
Если так, способ продолжается на этапе 805, на котором определяется, удовлетворяет ли показатель несовпадения критерию подобия, а более точно, находится ли показатель несовпадения ниже порогового значения.If so, the method continues to block 805, where it is determined whether the mismatch metric meets the similarity criterion, and more specifically, whether the mismatch metric is below a threshold.
Если так, способ продолжается на этапе 807, на котором ограниченный формирователь 509, 511 диаграммы направленности, в котором был выявлен точечный источник звука (или который имеет наибольший уровень сигнала в случае, если точечный источник звука был выявлен в более чем одном ограниченном формирователе 509, 511 диаграммы направленности), адаптируется, то есть обновляются параметры формы диаграммы направленности (фильтра).If so, the method continues to block 807, where the
Если нет, способ продолжается на этапе 809, на котором ограниченный формирователь 509, 511 диаграммы направленности инициализируется, параметры формы диаграммы направленности ограниченного формирователя 509, 511 диаграммы направленности устанавливаются независимо от параметров формы диаграммы направленности первого формирователя 505 диаграммы направленности. Ограниченный формирователь 509, 511 диаграммы направленности, являющийся инициализируемым, может быть новым ограниченным формирователем 509, 511 диаграммы направленности (то есть, формирователем диаграммы направленности из совокупности бездействующих формирователей диаграммы направленности) или может быть уже действующим ограниченным формирователем 509, 511 диаграммы направленности, для которого предусмотрены новые параметры формы диаграммы направленности.If not, the method continues to block 809 where the
Вслед за этапами 807 и 809, способ возвращается на этап 801 и ожидает следующего временного интервала обработки.Following
Если на этапе 803 выявлено, что точечный источник звука не выявлен в подвергнутом формированию диаграммы направленности звуковом выходном сигнале какого-нибудь из ограниченных формирователей 509, 511 диаграммы направленности, способ переходит на этап 811, на котором определяется, выявлен ли точечный источник звука в первом формирователе 505 диаграммы направленности, то есть, соответствует ли текущий сценария захвату точечного источника звука первым формирователем 505 диаграммы направленности, но ни одним из ограниченных формирователей 509, 511 диаграммы направленности.If it is determined in
Если нет, точечный источник звука вовсе не был выявлен, и способ возвращается на этап 801, чтобы ожидать следующего временного интервала обработки.If not, the point sound source has not been detected at all and the method returns to step 801 to await the next processing time slot.
Иначе, способ переходит на этап 813, на котором определяется, удовлетворяет ли показатель несовпадения критерию подобия, а более точно, находится ли показатель несовпадения ниже порогового значения (который может быть таким же или может быть отличным пороговым значением/критерием, чем используемый на этапе 805).Otherwise, the method proceeds to block 813, where it is determined whether the mismatch metric meets the similarity criterion, and more specifically, whether the mismatch metric is below a threshold (which may be the same or a different threshold / criterion than that used in block 805 ).
Если так, способ переходит на этап 815, на котором адаптируется ограниченный формирователь 509, 511 диаграммы направленности, для которого показатель несовпадения находится ниже порогового значения (или если более чем один ограниченный формирователь 509, 511 диаграммы направленности удовлетворяет критерию, может выбираться один, например, с низшим показателем несовпадения).If so, the method proceeds to 815 where the
Иначе, способ переходит на этап 817, на котором ограниченный формирователь 509, 511 диаграммы направленности инициализируется, параметры формы диаграммы направленности ограниченного формирователя 509, 511 диаграммы направленности устанавливаются независимо от параметров формы диаграммы направленности первого формирователя 505 диаграммы направленности. Ограниченный формирователь 509, 511 диаграммы направленности, являющийся инициализируемым, может быть новым ограниченным формирователем 509, 511 диаграммы направленности (то есть, формирователем диаграммы направленности из совокупности бездействующих формирователей диаграммы направленности) или может быть уже действующим ограниченным формирователем 509, 511 диаграммы направленности, для которого предусмотрены новые параметры формы диаграммы направленности.Otherwise, the method proceeds to 817 where the
Вслед за этапами 815 и 817, способ возвращается на этап 801 и ожидает следующего временного интервала обработки.Following
Описанный подход устройства звукозаписи по фиг. 5-7 может давать полезные рабочие характеристики в многих сценариях и, в частности, может иметь тенденцию предоставлять устройству звукозаписи возможность динамически формировать сфокусированные, устойчивые и точные диаграммы направленности для захвата источников звука. Диаграммы направленности будут иметь тенденцию адаптироваться, чтобы охватывать разные области, и подход, например, автоматически может выбирать и адаптировать ближайший ограниченный формирователь 509, 511 диаграммы направленности.The described approach of the audio recorder of FIG. 5-7 can provide useful performance in many scenarios and, in particular, can tend to provide an audio recorder with the ability to dynamically generate focused, stable and accurate radiation patterns to capture sound sources. Beam patterns will tend to adapt to cover different areas, and the approach, for example, can automatically select and adapt the nearest
Таким образом, в противоположность подходу, например, по фиг. 2, не нужно непосредственно накладывать никакие специальные ограничения на направления диаграммы направленности или на коэффициенты фильтра. Скорее, отдельные области могут автоматически вырабатываться/формироваться, посредством предоставления ограниченным формирователям 509, 511 диаграммы направленности (условно) адаптироваться только тогда, когда есть одиночный преобладающий источник звука, и когда он достаточно близок к диаграмме направленности ограниченного формирователя 509, 511 диаграммы направленности. Это, более точно, определяется посредством рассмотрения коэффициентов фильтра, которые учитывают как прямое поле, так и (первые) отражения.Thus, in contrast to the approach, for example in FIG. 2, there is no need to directly impose any special constraints on the direction of the radiation pattern or on the filter coefficients. Rather, the individual regions can be automatically generated / shaped by allowing the
Следует отметить, что использование фильтров с расширенной импульсной характеристикой (в противоположность использованию простых фильтров с задержкой, то есть, фильтров с одним коэффициентом) также учитывает, что отражения приходят через некоторое (конкретное) время после прямого поля. Соответственно, диаграмма направленности определена не только пространственными характеристиками (с каких направлений приходит поле прямой волны и отражения), но также определена временными характеристиками (в какие моменты времени после поля прямой волны приходят отражения). Таким образом, ссылки на диаграммы направленности не только ограничены пространственными соображениями, но также отражают временную составляющую фильтров формы диаграммы направленности. Подобным образом, ссылки на области включают в себя как чисто пространственные, так и временные эффекты фильтров формы диаграммы направленности.It should be noted that the use of extended impulse response filters (as opposed to using simple delay filters, that is, single coefficient filters) also allows for reflections to arrive some (specific) time after the direct field. Accordingly, the radiation pattern is determined not only by the spatial characteristics (from which directions the direct wave and reflection field comes), but also determined by the temporal characteristics (at what moments in time after the direct wave field the reflections come). Thus, the reference to radiation patterns is not only limited by spatial considerations, but also reflects the temporal content of the pattern filters. Likewise, region references include both purely spatial and temporal effects of beamform filters.
Подход, таким образом, может рассматриваться формирующим области, которые определены различием показателя несовпадения между автономно работающей диаграммы направленности первого формирователя 505 диаграммы направленности и диаграммой направленности ограниченного формирователя 509, 511 диаграммы направленности. Например, предположим, что ограниченный формирователь 509, 511 диаграммы направленности имеете диаграмму направленности, сфокусированную на источнике (как с пространственными, так и временными характеристиками). Предположим, что источник молчит, и новый источник становится действующим, причем, первый формирователь 505 диаграммы направленности адаптируется, чтобы сфокусироваться на нем. В таком случае, каждый источник с пространственно-временными характеристиками, такими что расстояние между диаграммой направленности первого формирователя 505 диаграммы направленности и диаграммой направленности ограниченного формирователя 509, 511 диаграммы направленности не превышало пороговое значение, может считаться находящимся в области ограниченного формирователя 509, 511 диаграммы направленности. Таким образом, ограничение на первый ограниченный формирователь 509 диаграммы направленности может рассматриваться для перевода в ограничение в пространстве.The approach can thus be considered shaping regions that are defined by the misalignment metric difference between the autonomous beamforming of the
Критерий расстояния для адаптации ограниченного формирователя диаграммы направленности вместе с подходом инициализации диаграмм направленности (например, копирования коэффициентов фильтра формы диаграммы направленности) типично предусматривает, чтобы ограниченные формирователи 509, 511 диаграммы направленности формировали диаграммы направленности в разных областях.Distance criterion for adapting the constrained beamformer together with a beamforming initialization approach (eg, copying the waveform filter coefficients) typically provides that the
Подход типично дает в результате автоматическое формирование областей, отражающих наличие источников звука в окружающей среде вместо предопределенной стационарной системы, как система по фиг. 2. Этот гибкий подход предоставляет системе возможность основываться на пространственно-временных характеристиках, таких как вызванные отражениями, которые было бы очень трудно и сложно учитывать применительно к предопределенной и стационарной системе (так как эти характеристики зависят от многих параметров, таких как характеристики размера, формы и реверберации помещения, и т. д.).The approach typically results in the automatic generation of regions reflecting the presence of sound sources in the environment instead of a predefined stationary system like the system of FIG. 2. This flexible approach allows the system to rely on space-time characteristics, such as those caused by reflections, which would be very difficult and difficult to account for in a predefined and stationary system (since these characteristics depend on many parameters, such as characteristics of size, shape room reverb, etc.).
Будет приниматься во внимание, что вышеприведенное описание, для ясности, описывало варианты осуществления изобретения со ссылкой на разные функциональный схемы, блоки и процессоры. Однако, будет очевидно, что может использоваться любое подходящее распределение функциональных возможностей между разными функциональными схемами, блоками или процессорами, не умаляя изобретения. Например, функциональные возможности, проиллюстрированные выполняемыми отдельными процессорами или контроллерами, могут выполняться одним и тем же процессором или контроллерами. Отсюда, ссылки на определенные функциональные блоки или схемы должны рассматриваться скорее только в качестве ссылок на пригодное средство для обеспечения описанных функциональных возможностей, нежели указывающими на строгую логическую или физическую структуру или организацию.It will be appreciated that the above description, for clarity, has described embodiments of the invention with reference to various functional diagrams, blocks, and processors. However, it will be apparent that any suitable distribution of functionality between different functional circuits, blocks or processors can be used without detracting from the invention. For example, functionality illustrated by being executed by separate processors or controllers may be performed by the same processor or controllers. Hence, references to specific functional blocks or diagrams should be considered only as references to a suitable means for providing the described functionality, rather than indicating a strict logical or physical structure or organization.
Изобретение может быть реализовано в любом пригодном виде, включая аппаратные средства, программное обеспечение, зашитые программы или комбинацию таковых. Изобретение, по выбору, может быть реализовано, по меньшей мере частично, в качестве компьютерного программного обеспечения, работающего на одном или более процессоров данных и/или цифровых сигнальных процессоров. Элементы и компоненты варианта осуществления изобретения могут быть реализованы физически, функционально и логически любым подходящим образом. Действительно, функциональные возможности могут быть реализованы в одиночном блоке, множестве блоков или в качестве части других функциональных блоков. По существу, изобретение может быть реализовано в одиночном блоке, или может быть физически или функционально распределено между разными схемами, блоками и процессорами.The invention may be practiced in any suitable form, including hardware, software, firmware, or a combination thereof. The invention may optionally be implemented, at least in part, as computer software running on one or more data processors and / or digital signal processors. Elements and components of an embodiment of the invention may be physically, functionally and logically implemented in any suitable manner. Indeed, the functionality can be implemented in a single block, multiple blocks, or as part of other functional blocks. As such, the invention can be implemented in a single block, or it can be physically or functionally distributed among different circuits, blocks and processors.
Хотя настоящее изобретение было описано в связи с некоторыми вариантами осуществления, оно не подразумевается ограниченным отдельными формами, изложенными в материалах настоящей заявки. Вернее, объем настоящего изобретения ограничен только прилагаемой формулой изобретения. Дополнительно, хотя признак может фигурировать описанным в связи с конкретными вариантами осуществления, специалист в данной области техники будет осознавать, что различные признаки описанных вариантов осуществления могут комбинироваться в соответствии с изобретением. В формуле изобретения, термин содержит не исключают присутствия других элементов или этапов.Although the present invention has been described in connection with some of the options for implementation, it is not intended to be limited to certain forms set forth in the materials of this application. Rather, the scope of the present invention is limited only by the attached claims. Additionally, although a feature may appear described in connection with specific embodiments, one skilled in the art will appreciate that various features of the described embodiments may be combined in accordance with the invention. In the claims, the term does not exclude the presence of other elements or steps.
Более того, хотя и перечислены по отдельности, множество средств, элементов, схем или этапов способа могут быть реализованы, например, одиночной схемой, блоком или процессором. Дополнительно, хотя отдельные признаки могут быть включены в разные пункты формулы изобретения, таковые могут комбинироваться преимущественным образом, как только возможно, а включение в разные пункты формулы изобретения не подразумевает, что комбинация признаков не является выполнимой и/или полезной. К тому же, включение признака в одну категорию формулы изобретения не предполагает ограничения этой категорией, а скорее указывает, что признак равным образом применим к категориям другого пункта формулы изобретения надлежащим образом. Более того, очередность признаков в формуле изобретения не подразумевает никакого определенного порядка, в которой признаки должны обрабатываться, и, в частности, очередность отдельных этапов в пункте формулы изобретения о способе не подразумевает, что этапы должны выполняться в этой очередности. Вернее, этапы могут выполняться в любом подходящем порядке. В дополнение, упоминания в единственном числе не исключают множественности. Выражения единственного числа, «первый», «второй» и т. п., не устраняют множественности. Символы ссылок в пунктах формулы изобретения предусмотрены только в качестве проясняющих примеров, которые не должны трактоваться в качестве ограничивающие объем формулы изобретения каким бы то ни было образом.Moreover, although listed separately, a plurality of means, elements, circuits, or method steps may be implemented, for example, in a single circuit, block, or processor. Additionally, although individual features may be included in different claims, these may be combined in an advantageous manner as possible, and inclusion in different claims does not imply that a combination of features is not feasible and / or useful. In addition, the inclusion of a feature in one category of claims is not intended to be limited to that category, but rather indicates that the feature is equally applicable to the categories of another claim as appropriate. Moreover, the order of the features in the claims does not imply any particular order in which the features are to be processed, and in particular the order of the individual steps in the method claim does not imply that the steps are to be performed in that order. Rather, the steps can be performed in any suitable order. In addition, singular mentions do not exclude plurality. Expressions in the singular, "first", "second", etc., do not eliminate plurality. The reference characters in the claims are provided only as clarifying examples, which are not to be construed as limiting the scope of the claims in any way.
Claims (28)
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17150091 | 2017-01-03 | ||
EP17150091.1 | 2017-01-03 | ||
PCT/EP2017/083680 WO2018127412A1 (en) | 2017-01-03 | 2017-12-20 | Audio capture using beamforming |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2019124543A RU2019124543A (en) | 2021-02-05 |
RU2019124543A3 RU2019124543A3 (en) | 2021-04-22 |
RU2759715C2 true RU2759715C2 (en) | 2021-11-17 |
Family
ID=57755188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2019124543A RU2759715C2 (en) | 2017-01-03 | 2017-12-20 | Sound recording using formation of directional diagram |
Country Status (7)
Country | Link |
---|---|
US (1) | US10638224B2 (en) |
EP (1) | EP3566463B1 (en) |
JP (1) | JP6644959B1 (en) |
CN (1) | CN110249637B (en) |
BR (1) | BR112019013666A2 (en) |
RU (1) | RU2759715C2 (en) |
WO (1) | WO2018127412A1 (en) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3566228B1 (en) | 2017-01-03 | 2020-06-10 | Koninklijke Philips N.V. | Audio capture using beamforming |
CN106782585B (en) * | 2017-01-26 | 2020-03-20 | 芋头科技(杭州)有限公司 | Pickup method and system based on microphone array |
CN108932949A (en) * | 2018-09-05 | 2018-12-04 | 科大讯飞股份有限公司 | A kind of reference signal acquisition methods and device |
CA3146517A1 (en) * | 2019-07-21 | 2021-01-28 | Nuance Hearing Ltd. | Speech-tracking listening device |
US11232796B2 (en) * | 2019-10-14 | 2022-01-25 | Meta Platforms, Inc. | Voice activity detection using audio and visual analysis |
EP4046396A4 (en) | 2019-10-16 | 2024-01-03 | Nuance Hearing Ltd. | Beamforming devices for hearing assistance |
US11533559B2 (en) * | 2019-11-14 | 2022-12-20 | Cirrus Logic, Inc. | Beamformer enhanced direction of arrival estimation in a reverberant environment with directional noise |
CN111640428B (en) * | 2020-05-29 | 2023-10-20 | 阿波罗智联(北京)科技有限公司 | Voice recognition method, device, equipment and medium |
CN115086836B (en) * | 2022-06-14 | 2023-04-18 | 西北工业大学 | Beam forming method, system and beam former |
CN114822579B (en) * | 2022-06-28 | 2022-09-16 | 天津大学 | Signal estimation method based on first-order differential microphone array |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6339758B1 (en) * | 1998-07-31 | 2002-01-15 | Kabushiki Kaisha Toshiba | Noise suppress processing apparatus and method |
US20090296526A1 (en) * | 2008-06-02 | 2009-12-03 | Kabushiki Kaisha Toshiba | Acoustic treatment apparatus and method thereof |
EP1983799B1 (en) * | 2007-04-17 | 2010-07-07 | Harman Becker Automotive Systems GmbH | Acoustic localization of a speaker |
EP1858291B1 (en) * | 2006-05-16 | 2011-10-05 | Phonak AG | Hearing system and method for deriving information on an acoustic scene |
US20130301837A1 (en) * | 2012-05-11 | 2013-11-14 | Qualcomm Incorporated | Audio User Interaction Recognition and Context Refinement |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7146012B1 (en) | 1997-11-22 | 2006-12-05 | Koninklijke Philips Electronics N.V. | Audio processing arrangement with multiple sources |
JP4467802B2 (en) | 1998-11-11 | 2010-05-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Improved signal localization device |
US7602926B2 (en) | 2002-07-01 | 2009-10-13 | Koninklijke Philips Electronics N.V. | Stationary spectral power dependent audio enhancement system |
US8812309B2 (en) * | 2008-03-18 | 2014-08-19 | Qualcomm Incorporated | Methods and apparatus for suppressing ambient noise using multiple audio signals |
CN102077277B (en) * | 2008-06-25 | 2013-06-12 | 皇家飞利浦电子股份有限公司 | Audio processing |
WO2011010292A1 (en) * | 2009-07-24 | 2011-01-27 | Koninklijke Philips Electronics N.V. | Audio beamforming |
US8988970B2 (en) | 2010-03-12 | 2015-03-24 | University Of Maryland | Method and system for dereverberation of signals propagating in reverberative environments |
DK2439958T3 (en) * | 2010-10-06 | 2013-08-12 | Oticon As | Method for Determining Parameters of an Adaptive Sound Processing Algorithm and a Sound Processing System |
EP2458586A1 (en) * | 2010-11-24 | 2012-05-30 | Koninklijke Philips Electronics N.V. | System and method for producing an audio signal |
RU2667724C2 (en) * | 2012-12-17 | 2018-09-24 | Конинклейке Филипс Н.В. | Sleep apnea diagnostic system and method for forming information with use of nonintrusive analysis of audio signals |
WO2014101156A1 (en) * | 2012-12-31 | 2014-07-03 | Spreadtrum Communications (Shanghai) Co., Ltd. | Adaptive audio capturing |
CN104464739B (en) * | 2013-09-18 | 2017-08-11 | 华为技术有限公司 | Acoustic signal processing method and device, Difference Beam forming method and device |
JP5648760B1 (en) * | 2014-03-07 | 2015-01-07 | 沖電気工業株式会社 | Sound collecting device and program |
US10026415B2 (en) * | 2014-03-17 | 2018-07-17 | Koninklijke Philips N.V. | Noise suppression |
US20150379990A1 (en) | 2014-06-30 | 2015-12-31 | Rajeev Conrad Nongpiur | Detection and enhancement of multiple speech sources |
US10061009B1 (en) * | 2014-09-30 | 2018-08-28 | Apple Inc. | Robust confidence measure for beamformed acoustic beacon for device tracking and localization |
CN104407328B (en) * | 2014-11-20 | 2017-03-01 | 西北工业大学 | Closing space sound localization method based on space impulse response coupling and system |
-
2017
- 2017-12-20 US US16/474,779 patent/US10638224B2/en active Active
- 2017-12-20 CN CN201780085525.1A patent/CN110249637B/en active Active
- 2017-12-20 WO PCT/EP2017/083680 patent/WO2018127412A1/en unknown
- 2017-12-20 BR BR112019013666A patent/BR112019013666A2/en not_active Application Discontinuation
- 2017-12-20 EP EP17829963.2A patent/EP3566463B1/en active Active
- 2017-12-20 JP JP2019535885A patent/JP6644959B1/en active Active
- 2017-12-20 RU RU2019124543A patent/RU2759715C2/en active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6339758B1 (en) * | 1998-07-31 | 2002-01-15 | Kabushiki Kaisha Toshiba | Noise suppress processing apparatus and method |
EP1858291B1 (en) * | 2006-05-16 | 2011-10-05 | Phonak AG | Hearing system and method for deriving information on an acoustic scene |
EP1983799B1 (en) * | 2007-04-17 | 2010-07-07 | Harman Becker Automotive Systems GmbH | Acoustic localization of a speaker |
US20090296526A1 (en) * | 2008-06-02 | 2009-12-03 | Kabushiki Kaisha Toshiba | Acoustic treatment apparatus and method thereof |
US20130301837A1 (en) * | 2012-05-11 | 2013-11-14 | Qualcomm Incorporated | Audio User Interaction Recognition and Context Refinement |
Also Published As
Publication number | Publication date |
---|---|
US20190349678A1 (en) | 2019-11-14 |
JP2020515106A (en) | 2020-05-21 |
RU2019124543A (en) | 2021-02-05 |
CN110249637A (en) | 2019-09-17 |
CN110249637B (en) | 2021-08-17 |
US10638224B2 (en) | 2020-04-28 |
WO2018127412A1 (en) | 2018-07-12 |
EP3566463B1 (en) | 2020-12-02 |
RU2019124543A3 (en) | 2021-04-22 |
BR112019013666A2 (en) | 2020-01-14 |
EP3566463A1 (en) | 2019-11-13 |
JP6644959B1 (en) | 2020-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2759715C2 (en) | Sound recording using formation of directional diagram | |
RU2760097C2 (en) | Method and device for capturing audio information using directional diagram formation | |
RU2758192C2 (en) | Sound recording using formation of directional diagram | |
KR20090056598A (en) | Noise cancelling method and apparatus from the sound signal through the microphone | |
US11039242B2 (en) | Audio capture using beamforming | |
Habets et al. | Dual-microphone speech dereverberation using a reference signal | |
Kowalczyk et al. | On the extraction of early reflection signals for automatic speech recognition | |
Braun et al. | Directional interference suppression using a spatial relative transfer function feature | |
US11533559B2 (en) | Beamformer enhanced direction of arrival estimation in a reverberant environment with directional noise | |
Kowalczyk | Multichannel Wiener filter with early reflection raking for automatic speech recognition in presence of reverberation | |
Milano et al. | Sector-Based Interference Cancellation for Robust Keyword Spotting Applications Using an Informed MPDR Beamformer | |
Kavruk | Two stage blind dereverberation based on stochastic models of speech and reverberation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
HC9A | Changing information about inventors |